2
2
title : 显卡性能对比
3
3
date : 2025-04-01 10:30:37
4
4
updated : 2025-04-01 10:30:37
5
- tags :
6
- comments : false
7
- categories :
5
+ tags :
6
+ - AI
7
+ comments : true
8
+ categories :
9
+ - AI
10
+ - 显卡
8
11
thumbnail : https://images.unsplash.com/photo-1500485035595-cbe6f645feb1?crop=entropy&cs=srgb&fm=jpg&ixid=M3w2NDU1OTF8MHwxfHJhbmRvbXx8fHx8fHx8fDE3NDM0NzQ2Mzd8&ixlib=rb-4.0.3&q=85&w=1920&h=1080
9
12
published : false
10
13
---
@@ -123,6 +126,7 @@ GPU的数量选择与训练任务有关。一般我们认为模型的一次训
123
126
| NVIDIA Volta | 配备第一代张量核心,支持低精度计算加速。 | 中等规模模型训练和推理。 |
124
127
| NVIDIA Ampere | 第三代张量核心,支持TensorFloat32格式,显著提升单精度和混合精度训练性能。 | 大规模模型训练和推理。 |
125
128
| NVIDIA Hopper | 新增Transformer引擎,专为AI和深度学习设计,大幅提升大模型训练和推理效率。 | 超大规模 |
129
+ | | | |
126
130
127
131
### 4. 显卡性能对比
128
132
@@ -142,14 +146,85 @@ GPU的数量选择与训练任务有关。一般我们认为模型的一次训
142
146
| A100 SXM4 | 40/80GB | 19.5 T | 312 T | [ 查看] ( https://www.techpowerup.com/gpu-specs/a100-sxm4-80-gb.c3746 ) | 新一代专业计算卡皇,除了贵没缺点。显存大,非常适合做半精计算,因为有NVLink加持,多卡并行加速比非常高。需要使用cuda11.x |
143
147
| 4090 | 24G | 82.58 T | 165.2 T | [ 查看] ( https://www.techpowerup.com/gpu-specs/geforce-rtx-4090.c3889 ) | 新一代游戏卡皇,除显存比较小和多机多卡并行效率低的缺点外,性价比非常高 |
144
148
145
- #### 4.1 L40
149
+ #### 4.1 RTX 4090 24G x 2
146
150
151
+ ** 注意:多模态的推理速度以图片为基础,从请求发起到结束时对图片处理的时间**
152
+
153
+ CPU:30 vCPU Intel(R) Xeon(R) Platinum 8474C
154
+ ##### 单线程
155
+
156
+ | 大模型名称 | 部署框架 | 推理速度 | 启动时显存使用 | 显存使用量 | 推理显存使用量 |
157
+ | :------------------------: | :--: | :--------: | :-----: | :---: | :-----: |
158
+ | 通义千问2.5-VL-7B-Instruct-AWQ | vllm | 10秒-12秒/张 | 32G | 16G | 18G |
159
+ | 通义千问2.5-7B-Instruct-Int4 | vllm | 11 token/s | 32G | 38G | 38G |
160
+ ##### 多线程
161
+
162
+
163
+ | 大模型名称 | 部署框架 | 线程数 | 推理速度 | 显存使用量 | 推理显存使用量 |
164
+ | :------------------------: | :--: | :-: | :--------: | :---: | :-----: |
165
+ | 通义千问2.5-VL-7B-Instruct-AWQ | vllm | 20 | 平均耗时11秒/张 | 16G | 40G |
166
+ | 通义千问2.5-7B-Instruct-Int4 | vllm | 20 | 204token/s | 16G | 40G |
167
+
168
+ | 大模型名称 | 部署框架 | 线程数 | 推理速度 | 显存使用量 | 推理显存使用量 |
169
+ | :------------------------: | :--: | :-: | :--------: | :---: | :-----: |
170
+ | 通义千问2.5-VL-7B-Instruct-AWQ | vllm | 50 | 平均耗时11秒/张 | 17G | 40G |
171
+ | 通义千问2.5-7B-Instruct-Int4 | vllm | 50 | 471token/s | 38G | 40G |
172
+ #### 4.2 L20 48G
173
+
174
+ CPU:25 vCPU AMD EPYC 7T83 64-Core Processor
175
+
176
+ ##### 单线程
177
+
178
+ | 大模型名称 | 部署框架 | 推理速度 | 显存使用量 | 推理显存使用量 |
179
+ | :------------------------: | :--: | :--------: | :---: | :-----: |
180
+ | 通义千问2.5-VL-7B-Instruct-AWQ | vllm | 5秒-6秒/张 | 23G | 24G |
181
+ | 通义千问2.5-7B-Instruct-Int4 | vllm | 20 token/s | 40G | 40G |
182
+ ##### 多线程
183
+
184
+
185
+ | 大模型名称 | 部署框架 | 线程数 | 推理速度 | 显存使用量 | 推理显存使用量 |
186
+ | :-------------------------: | :--: | :-: | :--------: | :---: | :-----: |
187
+ | 通义千问2.5-VL-7B-Instruct-AWQ | vllm | 20 | 平均耗时5秒/张 | 23G | 24G |
188
+ | 通义千问2.5-7B-Instruct-Int4 | vllm | 20 | 364token/s | 40G | 40G |
189
+
190
+
191
+ | 大模型名称 | 部署框架 | 线程数 | 推理速度 | 显存使用量 | 推理显存使用量 |
192
+ | :------------------------: | :--: | :-: | :----------: | :---: | :-----: |
193
+ | 通义千问2.5-VL-7B-Instruct-AWQ | vllm | 50 | 平均耗时16-17秒/张 | 23G | 24G |
194
+ | 通义千问2.5-7B-Instruct-Int4 | vllm | 50 | 798token/s | 40G | 40G |
195
+ #### 4.3 L40 48G
196
+
197
+ CPU:25 vCPU AMD EPYC 7T83 64-Core Processor
198
+
199
+ ##### 单线程
200
+
201
+ | 大模型名称 | 部署框架 | 推理速度 | 启动显存使用 | 显存使用量 | 推理显存使用量 |
202
+ | :------------------------: | :--: | :---------: | :----: | :---: | :-----: |
203
+ | 通义千问2.5-VL-7B-Instruct-AWQ | vllm | 平均耗时3秒-7秒/张 | 36G | 16G | 17G |
204
+ | 通义千问2.5-7B-Instruct | vllm | 12.7token/s | 40G | 40G | 40G |
205
+
206
+ ##### 多线程
207
+
208
+ | 大模型名称 | 部署框架 | 线程数 | 推理速度 | 启动显存使用 | 显存使用量 | 推理显存使用量 |
209
+ | :------------------------: | :--: | :-: | :--------: | :----: | :---: | :-----: |
210
+ | 通义千问2.5-VL-7B-Instruct-AWQ | vllm | 20 | 平均16-17秒/张 | 36G | 17G | 37G |
211
+ | 通义千问2.5-7B-Instruct | vllm | 20 | 240token/s | 40G | 40G | 40G |
212
+ #### 总结
213
+
214
+ L20得益于计算卡的架构优势,在推理速度方便要比4090显卡的性能高,而L20在使用同样的测试环境下,L40性能低于L20
215
+
216
+ 注:所有的测试方式均为使用代码的方式进行API调用,通过vllm记录token的生成速度和显存占用量
147
217
148
- | 大模型名称 | 模型启动时间 | 模型大小 | 部署框架 | 推理速度 | 显存使用量 | 推理显存使用量 |
149
- | :-------------------------: | :----: | :--: | :--: | :--: | ----- | ------- |
150
- | 通义千问2.5-Omni-7B全模态 | | | vllm | | | |
151
- | 通义千问2.5-VL-7B-Instruct | | | vllm | | | |
152
- | DeepSeek-R1-Distill-Qwen-7B | | | vllm | | | |
153
- | 通义千问2.5-7B-Instruct | | | | | | |
154
218
155
219
### 5. 大模型微调速度
220
+
221
+ #### 5.1 RTX 4090
222
+
223
+ 使用2 x RTX4090显卡进行模型推理测试
224
+
225
+ | 大模型名称 | 微调框架 | 微调速度 | 显存使用量 |
226
+ | :-------------------------: | :----------: | :--: | ----- |
227
+ | 通义千问2.5-Omni-7B全模态 | llamafactory | | |
228
+ | 通义千问2.5-VL-7B-Instruct | llamafactory | | |
229
+ | DeepSeek-R1-Distill-Qwen-7B | llamafactory | | |
230
+ | 通义千问2.5-7B-Instruct | llamafactory | | |
0 commit comments