Skip to content

Commit 8959017

Browse files
committed
提交笔记
1 parent bdb365f commit 8959017

File tree

3 files changed

+117
-10
lines changed

3 files changed

+117
-10
lines changed
Lines changed: 17 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,17 @@
1+
---
2+
title:
3+
date: 2025-04-02 03:26:19
4+
updated: 2025-04-02 03:26:19
5+
tags:
6+
- AI
7+
- Pytorch
8+
comments: true
9+
categories:
10+
- AI
11+
- 深度神经网络
12+
- Pytorch
13+
thumbnail: https://images.unsplash.com/photo-1614308457932-e16d85c5d053?crop=entropy&cs=srgb&fm=jpg&ixid=M3w2NDU1OTF8MHwxfHJhbmRvbXx8fHx8fHx8fDE3NDM1Nzg3Nzl8&ixlib=rb-4.0.3&q=85&w=1920&h=1080
14+
published: false
15+
---
16+
# 1. Pytorch基础入门
17+

source/_posts/ai/显卡性能对比.md

Lines changed: 85 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -2,9 +2,12 @@
22
title: 显卡性能对比
33
date: 2025-04-01 10:30:37
44
updated: 2025-04-01 10:30:37
5-
tags:
6-
comments: false
7-
categories:
5+
tags:
6+
- AI
7+
comments: true
8+
categories:
9+
- AI
10+
- 显卡
811
thumbnail: https://images.unsplash.com/photo-1500485035595-cbe6f645feb1?crop=entropy&cs=srgb&fm=jpg&ixid=M3w2NDU1OTF8MHwxfHJhbmRvbXx8fHx8fHx8fDE3NDM0NzQ2Mzd8&ixlib=rb-4.0.3&q=85&w=1920&h=1080
912
published: false
1013
---
@@ -123,6 +126,7 @@ GPU的数量选择与训练任务有关。一般我们认为模型的一次训
123126
| NVIDIA Volta | 配备第一代张量核心,支持低精度计算加速。 | 中等规模模型训练和推理。 |
124127
| NVIDIA Ampere | 第三代张量核心,支持TensorFloat32格式,显著提升单精度和混合精度训练性能。 | 大规模模型训练和推理。 |
125128
| NVIDIA Hopper | 新增Transformer引擎,专为AI和深度学习设计,大幅提升大模型训练和推理效率。 | 超大规模 |
129+
| | | |
126130

127131
### 4. 显卡性能对比
128132

@@ -142,14 +146,85 @@ GPU的数量选择与训练任务有关。一般我们认为模型的一次训
142146
| A100 SXM4 | 40/80GB | 19.5 T | 312 T | [查看](https://www.techpowerup.com/gpu-specs/a100-sxm4-80-gb.c3746) | 新一代专业计算卡皇,除了贵没缺点。显存大,非常适合做半精计算,因为有NVLink加持,多卡并行加速比非常高。需要使用cuda11.x |
143147
| 4090 | 24G | 82.58 T | 165.2 T | [查看](https://www.techpowerup.com/gpu-specs/geforce-rtx-4090.c3889) | 新一代游戏卡皇,除显存比较小和多机多卡并行效率低的缺点外,性价比非常高 |
144148

145-
#### 4.1 L40
149+
#### 4.1 RTX 4090 24G x 2
146150

151+
**注意:多模态的推理速度以图片为基础,从请求发起到结束时对图片处理的时间**
152+
153+
CPU:30 vCPU Intel(R) Xeon(R) Platinum 8474C
154+
##### 单线程
155+
156+
| 大模型名称 | 部署框架 | 推理速度 | 启动时显存使用 | 显存使用量 | 推理显存使用量 |
157+
| :------------------------: | :--: | :--------: | :-----: | :---: | :-----: |
158+
| 通义千问2.5-VL-7B-Instruct-AWQ | vllm | 10秒-12秒/张 | 32G | 16G | 18G |
159+
| 通义千问2.5-7B-Instruct-Int4 | vllm | 11 token/s | 32G | 38G | 38G |
160+
##### 多线程
161+
162+
163+
| 大模型名称 | 部署框架 | 线程数 | 推理速度 | 显存使用量 | 推理显存使用量 |
164+
| :------------------------: | :--: | :-: | :--------: | :---: | :-----: |
165+
| 通义千问2.5-VL-7B-Instruct-AWQ | vllm | 20 | 平均耗时11秒/张 | 16G | 40G |
166+
| 通义千问2.5-7B-Instruct-Int4 | vllm | 20 | 204token/s | 16G | 40G |
167+
168+
| 大模型名称 | 部署框架 | 线程数 | 推理速度 | 显存使用量 | 推理显存使用量 |
169+
| :------------------------: | :--: | :-: | :--------: | :---: | :-----: |
170+
| 通义千问2.5-VL-7B-Instruct-AWQ | vllm | 50 | 平均耗时11秒/张 | 17G | 40G |
171+
| 通义千问2.5-7B-Instruct-Int4 | vllm | 50 | 471token/s | 38G | 40G |
172+
#### 4.2 L20 48G
173+
174+
CPU:25 vCPU AMD EPYC 7T83 64-Core Processor
175+
176+
##### 单线程
177+
178+
| 大模型名称 | 部署框架 | 推理速度 | 显存使用量 | 推理显存使用量 |
179+
| :------------------------: | :--: | :--------: | :---: | :-----: |
180+
| 通义千问2.5-VL-7B-Instruct-AWQ | vllm | 5秒-6秒/张 | 23G | 24G |
181+
| 通义千问2.5-7B-Instruct-Int4 | vllm | 20 token/s | 40G | 40G |
182+
##### 多线程
183+
184+
185+
| 大模型名称 | 部署框架 | 线程数 | 推理速度 | 显存使用量 | 推理显存使用量 |
186+
| :-------------------------: | :--: | :-: | :--------: | :---: | :-----: |
187+
| 通义千问2.5-VL-7B-Instruct-AWQ | vllm | 20 | 平均耗时5秒/张 | 23G | 24G |
188+
| 通义千问2.5-7B-Instruct-Int4 | vllm | 20 | 364token/s | 40G | 40G |
189+
190+
191+
| 大模型名称 | 部署框架 | 线程数 | 推理速度 | 显存使用量 | 推理显存使用量 |
192+
| :------------------------: | :--: | :-: | :----------: | :---: | :-----: |
193+
| 通义千问2.5-VL-7B-Instruct-AWQ | vllm | 50 | 平均耗时16-17秒/张 | 23G | 24G |
194+
| 通义千问2.5-7B-Instruct-Int4 | vllm | 50 | 798token/s | 40G | 40G |
195+
#### 4.3 L40 48G
196+
197+
CPU:25 vCPU AMD EPYC 7T83 64-Core Processor
198+
199+
##### 单线程
200+
201+
| 大模型名称 | 部署框架 | 推理速度 | 启动显存使用 | 显存使用量 | 推理显存使用量 |
202+
| :------------------------: | :--: | :---------: | :----: | :---: | :-----: |
203+
| 通义千问2.5-VL-7B-Instruct-AWQ | vllm | 平均耗时3秒-7秒/张 | 36G | 16G | 17G |
204+
| 通义千问2.5-7B-Instruct | vllm | 12.7token/s | 40G | 40G | 40G |
205+
206+
##### 多线程
207+
208+
| 大模型名称 | 部署框架 | 线程数 | 推理速度 | 启动显存使用 | 显存使用量 | 推理显存使用量 |
209+
| :------------------------: | :--: | :-: | :--------: | :----: | :---: | :-----: |
210+
| 通义千问2.5-VL-7B-Instruct-AWQ | vllm | 20 | 平均16-17秒/张 | 36G | 17G | 37G |
211+
| 通义千问2.5-7B-Instruct | vllm | 20 | 240token/s | 40G | 40G | 40G |
212+
#### 总结
213+
214+
L20得益于计算卡的架构优势,在推理速度方便要比4090显卡的性能高,而L20在使用同样的测试环境下,L40性能低于L20
215+
216+
注:所有的测试方式均为使用代码的方式进行API调用,通过vllm记录token的生成速度和显存占用量
147217

148-
| 大模型名称 | 模型启动时间 | 模型大小 | 部署框架 | 推理速度 | 显存使用量 | 推理显存使用量 |
149-
| :-------------------------: | :----: | :--: | :--: | :--: | ----- | ------- |
150-
| 通义千问2.5-Omni-7B全模态 | | | vllm | | | |
151-
| 通义千问2.5-VL-7B-Instruct | | | vllm | | | |
152-
| DeepSeek-R1-Distill-Qwen-7B | | | vllm | | | |
153-
| 通义千问2.5-7B-Instruct | | | | | | |
154218

155219
### 5. 大模型微调速度
220+
221+
#### 5.1 RTX 4090
222+
223+
使用2 x RTX4090显卡进行模型推理测试
224+
225+
| 大模型名称 | 微调框架 | 微调速度 | 显存使用量 |
226+
| :-------------------------: | :----------: | :--: | ----- |
227+
| 通义千问2.5-Omni-7B全模态 | llamafactory | | |
228+
| 通义千问2.5-VL-7B-Instruct | llamafactory | | |
229+
| DeepSeek-R1-Distill-Qwen-7B | llamafactory | | |
230+
| 通义千问2.5-7B-Instruct | llamafactory | | |
Lines changed: 15 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,15 @@
1+
---
2+
title: 色彩原理(一)
3+
date: 2025-04-02 03:31:47
4+
updated: 2025-04-02 03:31:47
5+
tags:
6+
- 摄影
7+
- 颜色
8+
comments: true
9+
categories:
10+
- 摄影
11+
- 颜色
12+
- 配色
13+
thumbnail: https://images.unsplash.com/photo-1683009427540-c5bd6a32abf6?crop=entropy&cs=srgb&fm=jpg&ixid=M3w2NDU1OTF8MHwxfHJhbmRvbXx8fHx8fHx8fDE3NDM1NzkxMDd8&ixlib=rb-4.0.3&q=85&w=1920&h=1080
14+
published: false
15+
---

0 commit comments

Comments
 (0)