Qwen3 配置
大约 6 分钟
Qwen3 配置
Qwen3模型组硬件配置
Qwen3 模型组硬件配置概览
此板块通过表格形式,明确了 Qwen3 系列 8 个不同规格模型在推理场景下的硬件需求,具体配置如下表所示:
| 模型名称 | 显存需求 (推理) | 推荐 CPU | 推荐 GPU | 推荐内存 |
|---|---|---|---|---|
| Qwen3-0.6B | 1GB+ | Xeon W-2400 系列 | GTX 1050 | 4GB+ |
| Qwen3-1.7B | 2GB+ | Xeon W-2400 系列 | GTX 1660 | 8GB+ |
| Qwen3-4B | 8GB+ | Xeon W-2400 系列 | RTX 3090 | 16GB+ |
| Qwen3-8B | 14GB+ | Xeon W-2400 系列 | RTX 4080 | 16GB+ |
| Qwen3-14B | 24GB+ | Xeon W-3400 系列 | RTX3090*2 | 32GB+ |
| Qwen3-32B | 58GB+ | Xeon W-3400 系列 | RTX 3090*4 | 64GB+ |
| Qwen3-30B-A3B | 55GB+ | Xeon W-3400 系列 | RTX 3090*4 | 64GB+ |
| Qwen3-235B-A22B | 350GB+ | EPYC7002 系列 | H20*4/A100*8 | 512GB+ |
Qwen3 系列 FP8 权重组硬件配置概览
该板块针对 FP8 权重组的 Qwen3 系列模型,同样以表格呈现其推理场景下的硬件配置,相比普通 Qwen3 模型组,部分模型的显存需求有所降低,具体配置如下:
| 模型名称 | 显存需求 (推理) | 推荐 CPU | 推荐 GPU | 推荐内存 |
|---|---|---|---|---|
| Qwen3-0.6B-FP8 | 0.6GB+ | Xeon W-2400 系列 | GTX 1050 | 4GB+ |
| Qwen3-1.7B-FP8 | 1.2GB+ | Xeon W-2400 系列 | GTX 1660 | 8GB+ |
| Qwen3-4B-FP8 | 5GB+ | Xeon W-2400 系列 | GTX 1660 | 8GB+ |
| Qwen3-8B-FP8 | 9GB+ | Xeon W-2400 系列 | RTX 4080 | 16GB+ |
| Qwen3-14B-FP8 | 14GB+ | Xeon W-3400 系列 | RTX3090 | 24GB+ |
| Qwen3-32B-FP8 | 35GB+ | Xeon W-3400 系列 | RTX3090*2 | 48GB+ |
| Qwen3-30B-A3B-FP8 | 33GB+ | Xeon W-3400 系列 | RTX 3090*2 | 48GB+ |
| Qwen3-235B-A22B-FP8 | 210GB+ | EPYC7002 系列 | H20*3/A100*4 | 512GB+ |
Qwen3系列全尺寸模型硬件配置表
Qwen3-0.6
性能指数:⭐️⭐️ 同尺寸开源模型SOTA(最佳性能)
适用场景:移动端应用&个人助理
| 精度类型 | 场景分类 | 显存占用 | 最低 GPU 配置(括号内为 GPU 显存) |
|---|---|---|---|
| FP16 | 模型推理 | 1G | GTX1650(4G) |
| FP16 | 模型高效微调 | 1.3G | GTX1650(4G) |
| FP16 | 模型全量微调 | 5G | GTX1660(6G) |
| INT8 | 模型推理 | 0.6G | GTX1650(4G) |
| INT8 | 模型高效微调 | 0.8G | GTX1650(4G) |
| INT8 | 模型全量微调 | - | - |
| INT4 | 模型推理 | 0.3G | GTX1650(4G) |
| INT4 | 模型高效微调 | 0.5G | GTX1650(4G) |
| INT4 | 模型全量微调 | - | - |
Qwen-1.7B
性能指数:⭐️⭐️ 同尺寸开源模型SOTA(最佳性能)
适用场景:移动端应用&个人助理
| 精度类型 | 场景分类 | 显存占用 | 最低配置(括号内为显存容量) |
|---|---|---|---|
| FP16 | 模型推理 | 2.5G | GTX1660(6G) |
| FP16 | 模型高效微调 | 3.6G | GTX1660(6G) |
| FP16 | 模型全量微调 | 14G | RTX3060(16G) |
| INT8 | 模型推理 | 1.7G | GTX1660(6G) |
| INT8 | 模型高效微调 | 2.5G | GTX1660(6G) |
| INT8 | 模型全量微调 | - | - |
| INT4 | 模型推理 | 0.9G | RTX 2070(8GB) |
| INT4 | 模型高效微调 | 1.4G | GTX1660(6G) |
| INT4 | 模型全量微调 | - | - |
Qwen-4B
性能指数:⭐️⭐️⭐️ 平均性能大约比DeepSeek-V3高25~30%
适用场景:高校实验室&小型团队使用
性能数据对比表
| 模型 | AIME'24 | AIME'25 | ARENAHARD | GPQA | LIVECODEBENCH | CODEFORCES |
|---|---|---|---|---|---|---|
| DeepSeek-v3 | 39.2 | 28.8 | 85.5 | 59.1 | 33.1 | 1134 |
| Qwen3-4B | 73.8↑ | 65.6↑ | 76.6 | 55.9 | 54.2↑ | 1671↑ |
硬件配置表
| 精度 | 场景 | 显存占用 | 最低配置(括号内为显存) |
|---|---|---|---|
| FP16 | 模型推理 | 8G | RTX 2070(8GB) |
| FP16 | 模型高效微调 | 10G | RTX3060(12G) |
| FP16 | 模型全量微调 | 40G | RTX4090*2(48G) |
| INT8 | 模型推理 | 5G | RTX 2070(8GB) |
| INT8 | 模型高效微调 | 8G | RTX3060(12G) |
| INT8 | 模型全量微调 | - | - |
| INT4 | 模型推理 | 3G | RTX 2070(8GB) |
| INT4 | 模型高效微调 | 4G | RTX3060(12G) |
| INT4 | 模型全量微调 | - | - |
Qwen-8B
性能指数:⭐️⭐️⭐️ 同尺寸开源模型SOTA(最佳性能)
适用场景:高校实验室&小型团队使用
性能数据对比表
| 模型 | AIME 2024 PASS@1 | AIME 2024 CONS@64 | MATH-500 PASS@1 | GPQA DIAMOND PASS@1 | LIVECODEBENCH PASS@1 | CODEFORCES RATING |
|---|---|---|---|---|---|---|
| R1-8B | 50.4 | 80 | 89.1 | 49 | 39.6 | 1205 |
| Qwen3-8B | - | - | - | - | - | - |
硬件配置表
| 精度 | 场景 | 显存占用 | 最低配置(括号内为显存) |
|---|---|---|---|
| FP16 | 模型推理 | 14G | RTX4080(16G) |
| FP16 | 模型高效微调 | 18G | RTX3090(24G) |
| FP16 | 模型全量微调 | 70G | RTX3090*4(94G) |
| INT8 | 模型推理 | 10G | RTX3060(12G) |
| INT8 | 模型高效微调 | 12G | RTX3060(12G) |
| INT8 | 模型全量微调 | - | - |
| INT4 | 模型推理 | 5G | RTX3060(12G) |
| INT4 | 模型高效微调 | 7G | RTX3060(12G) |
| INT4 | 模型全量微调 | - | - |
Qwen-14B
性能指数:⭐️⭐️⭐️⭐️ 同尺寸开源模型SOTA(最佳性能)
适用场景:适用于一般商业场景
性能数据对比表
| 模型 | AIME'24 | AIME'25 | ARENAHARD | AIDER | LIVECODEBENCH | CODEFORCES |
|---|---|---|---|---|---|---|
| R1-14B | 67.9 | 80 | 93.9 | 59.1 | 53.1 | 1481 |
| Qwen3-14B | - | - | - | - | - | - |
硬件配置表
| 精度 | 场景 | 显存占用 | 最低配置(括号内为显存) |
|---|---|---|---|
| FP16 | 模型推理 | 24G | RTX3090(24G) |
| FP16 | 模型高效微调 | 34G | RTX3090*2(48G) |
| FP16 | 模型全量微调 | 130G | A100*2(160G) |
| INT8 | 模型推理 | 15G | RTX4080(16G) |
| INT8 | 模型高效微调 | 22G | RTX3090(24G) |
| INT8 | 模型全量微调 | - | - |
| INT4 | 模型推理 | 12G | RTX3060(12G) |
| INT4 | 模型高效微调 | 14G | RTX4080(16G) |
| INT4 | 模型全量微调 | - | - |
Qwen-32B
性能指数:⭐️⭐️⭐️⭐️⭐️ 整体性能约比DeepSeek-R1高4~5%
适用场景:适用于高性能要求商业场景
性能数据对比表
| 模型 | AIME'24 | AIME'25 | ARENAHARD | AIDER | LIVECODEBENCH | CODEFORCES |
|---|---|---|---|---|---|---|
| DeepSeek-R1 | 79.8 | 70 | 93.2 | 56.9 | 64.3 | 2029 ↑ |
| Qwen3-32B | 81.4 ↑ | 72.9 ↑ | 93.8 ↑ | 50.2 ↑ | 65.7 ↑ | 1977 |
硬件配置表
| 精度 | 场景 | 显存占用 | 最低配置(括号内为显存) |
|---|---|---|---|
| FP16 | 模型推理 | 58G | RTX3090*4(94G) |
| FP16 | 模型高效微调 | 68G | RTX3090*4(94G) |
| FP16 | 模型全量微调 | 350G | A100*6(480G) |
| INT8 | 模型推理 | 35G | RTX3090*2(48G) |
| INT8 | 模型高效微调 | 45G | RTX3090*2(48G) |
| INT8 | 模型全量微调 | - | - |
| INT4 | 模型推理 | 22G | RTX3090(24G) |
| INT4 | 模型高效微调 | 28G | RTX3090*2(48G) |
| INT4 | 模型全量微调 | - | - |
Qwen-30B-A3B
性能指数:⭐️⭐️⭐️⭐️⭐️ 整体性能远超GPT-4o,平均领先约23.7个百分点
适用场景:适用于高性能要求商业场景
性能数据对比表
| 模型 | AIME'24 | AIME'25 | ARENAHARD | GPQA | LIVECODEBENCH | CODEFORCES |
|---|---|---|---|---|---|---|
| GPT-4o | 11.1 | 7.6 | 85.3 | 52.2 | 53.8 | 864 |
| Qwen3-30B-A3B | 80.4 ↑ | 70.9 ↑ | 91.0 ↑ | 65.8 ↑ | 74.3 ↑ | 1974 ↑ |
硬件配置表
| 精度 | 场景 | 显存占用 | 最低配置(括号内为显存) |
|---|---|---|---|
| FP16 | 模型推理 | 55G | RTX3090*4 |
| FP16 | 模型高效微调 | 85G | RTX3090*4(94G) |
| FP16 | 模型全量微调 | 403G | A100*6(480G) |
| INT8 | 模型推理 | 28G | RTX3090*2(48G) |
| INT8 | 模型高效微调 | 55G | RTX3090*3(72G) |
| INT8 | 模型全量微调 | 373G | A100*5(400G) |
| INT4 | 模型推理 | 14G | RTX3090(24G) |
| INT4 | 模型高效微调 | 35G | RTX3090*2(48G) |
| INT4 | 模型全量微调 | 358G | A100*5(400G) |
Qwen-235B-A22B
性能指数:目前开源最强MOE大模型,各项指标均创所有国产模型及全球开源模型的性能新高
适用场景:适用于高性能要求商业场景
性能数据对比表
| 模型 | AIME'24 | AIME'25 | ARENAHARD | AIDER | LIVECODEBENCH | CODEFORCES |
|---|---|---|---|---|---|---|
| DeepSeek-R1 | 79.8 | 70 | 93.2 | 56.9 | 64.3 | 2029 |
| Qwen3-235B-A22B | 85.7 ↑ | 81.5 ↑ | 95.6 ↑ | 61.8 ↑ | 70.7 ↑ | 2056 ↑ |
硬件配置表
| 精度 | 场景 | 显存占用 | 最低配置(括号内为显存) |
|---|---|---|---|
| FP16 | 模型推理 | 210G | A100x3(240GB) |
| FP16 | 模型高效微调 | 600G | A100-80GB x8(640GB) |
| FP16 | 模型全量微调 | 2924G | A10085(3200GB) |
| INT8 | 模型推理 | 105G | A100 x2(160GB) |
| INT8 | 模型高效微调 | 330G | A100-80GB x5(400GB) |
| INT8 | 模型全量微调 | 2689G | A10075(2800GB) |
| INT4 | 模型推理 | 53G | A100(80GB) |
| INT4 | 模型高效微调 | 190G | A100-80GB x3(240GB) |
| INT4 | 模型全量微调 | 2572G | A10075(2800GB) |
