跳至主要內容

Qwen3 配置

程序员李某某大约 6 分钟

Qwen3 配置

Qwen3模型组硬件配置

Qwen3 模型组硬件配置概览

此板块通过表格形式,明确了 Qwen3 系列 8 个不同规格模型在推理场景下的硬件需求,具体配置如下表所示:

模型名称显存需求 (推理)推荐 CPU推荐 GPU推荐内存
Qwen3-0.6B1GB+Xeon W-2400 系列GTX 10504GB+
Qwen3-1.7B2GB+Xeon W-2400 系列GTX 16608GB+
Qwen3-4B8GB+Xeon W-2400 系列RTX 309016GB+
Qwen3-8B14GB+Xeon W-2400 系列RTX 408016GB+
Qwen3-14B24GB+Xeon W-3400 系列RTX3090*232GB+
Qwen3-32B58GB+Xeon W-3400 系列RTX 3090*464GB+
Qwen3-30B-A3B55GB+Xeon W-3400 系列RTX 3090*464GB+
Qwen3-235B-A22B350GB+EPYC7002 系列H20*4/A100*8512GB+

Qwen3 系列 FP8 权重组硬件配置概览

该板块针对 FP8 权重组的 Qwen3 系列模型,同样以表格呈现其推理场景下的硬件配置,相比普通 Qwen3 模型组,部分模型的显存需求有所降低,具体配置如下:

模型名称显存需求 (推理)推荐 CPU推荐 GPU推荐内存
Qwen3-0.6B-FP80.6GB+Xeon W-2400 系列GTX 10504GB+
Qwen3-1.7B-FP81.2GB+Xeon W-2400 系列GTX 16608GB+
Qwen3-4B-FP85GB+Xeon W-2400 系列GTX 16608GB+
Qwen3-8B-FP89GB+Xeon W-2400 系列RTX 408016GB+
Qwen3-14B-FP814GB+Xeon W-3400 系列RTX309024GB+
Qwen3-32B-FP835GB+Xeon W-3400 系列RTX3090*248GB+
Qwen3-30B-A3B-FP833GB+Xeon W-3400 系列RTX 3090*248GB+
Qwen3-235B-A22B-FP8210GB+EPYC7002 系列H20*3/A100*4512GB+

Qwen3系列全尺寸模型硬件配置表

Qwen3-0.6

性能指数:⭐️⭐️ 同尺寸开源模型SOTA(最佳性能)

适用场景:移动端应用&个人助理

精度类型场景分类显存占用最低 GPU 配置(括号内为 GPU 显存)
FP16模型推理1GGTX1650(4G)
FP16模型高效微调1.3GGTX1650(4G)
FP16模型全量微调5GGTX1660(6G)
INT8模型推理0.6GGTX1650(4G)
INT8模型高效微调0.8GGTX1650(4G)
INT8模型全量微调--
INT4模型推理0.3GGTX1650(4G)
INT4模型高效微调0.5GGTX1650(4G)
INT4模型全量微调--

Qwen-1.7B

性能指数:⭐️⭐️ 同尺寸开源模型SOTA(最佳性能)

适用场景:移动端应用&个人助理

精度类型场景分类显存占用最低配置(括号内为显存容量)
FP16模型推理2.5GGTX1660(6G)
FP16模型高效微调3.6GGTX1660(6G)
FP16模型全量微调14GRTX3060(16G)
INT8模型推理1.7GGTX1660(6G)
INT8模型高效微调2.5GGTX1660(6G)
INT8模型全量微调--
INT4模型推理0.9GRTX 2070(8GB)
INT4模型高效微调1.4GGTX1660(6G)
INT4模型全量微调--

Qwen-4B

性能指数:⭐️⭐️⭐️ 平均性能大约比DeepSeek-V3高25~30%

适用场景:高校实验室&小型团队使用

性能数据对比表

模型AIME'24AIME'25ARENAHARDGPQALIVECODEBENCHCODEFORCES
DeepSeek-v339.228.885.559.133.11134
Qwen3-4B73.8↑65.6↑76.655.954.2↑1671↑

硬件配置表

精度场景显存占用最低配置(括号内为显存)
FP16模型推理8GRTX 2070(8GB)
FP16模型高效微调10GRTX3060(12G)
FP16模型全量微调40GRTX4090*2(48G)
INT8模型推理5GRTX 2070(8GB)
INT8模型高效微调8GRTX3060(12G)
INT8模型全量微调--
INT4模型推理3GRTX 2070(8GB)
INT4模型高效微调4GRTX3060(12G)
INT4模型全量微调--

Qwen-8B

性能指数:⭐️⭐️⭐️ 同尺寸开源模型SOTA(最佳性能)

适用场景:高校实验室&小型团队使用

性能数据对比表

模型AIME 2024 PASS@1AIME 2024 CONS@64MATH-500 PASS@1GPQA DIAMOND PASS@1LIVECODEBENCH PASS@1CODEFORCES RATING
R1-8B50.48089.14939.61205
Qwen3-8B------

硬件配置表

精度场景显存占用最低配置(括号内为显存)
FP16模型推理14GRTX4080(16G)
FP16模型高效微调18GRTX3090(24G)
FP16模型全量微调70GRTX3090*4(94G)
INT8模型推理10GRTX3060(12G)
INT8模型高效微调12GRTX3060(12G)
INT8模型全量微调--
INT4模型推理5GRTX3060(12G)
INT4模型高效微调7GRTX3060(12G)
INT4模型全量微调--

Qwen-14B

性能指数:⭐️⭐️⭐️⭐️ 同尺寸开源模型SOTA(最佳性能)

适用场景:适用于一般商业场景

性能数据对比表

模型AIME'24AIME'25ARENAHARDAIDERLIVECODEBENCHCODEFORCES
R1-14B67.98093.959.153.11481
Qwen3-14B------

硬件配置表

精度场景显存占用最低配置(括号内为显存)
FP16模型推理24GRTX3090(24G)
FP16模型高效微调34GRTX3090*2(48G)
FP16模型全量微调130GA100*2(160G)
INT8模型推理15GRTX4080(16G)
INT8模型高效微调22GRTX3090(24G)
INT8模型全量微调--
INT4模型推理12GRTX3060(12G)
INT4模型高效微调14GRTX4080(16G)
INT4模型全量微调--

Qwen-32B

性能指数:⭐️⭐️⭐️⭐️⭐️ 整体性能约比DeepSeek-R1高4~5%

适用场景:适用于高性能要求商业场景

性能数据对比表

模型AIME'24AIME'25ARENAHARDAIDERLIVECODEBENCHCODEFORCES
DeepSeek-R179.87093.256.964.32029 ↑
Qwen3-32B81.4 ↑72.9 ↑93.8 ↑50.2 ↑65.7 ↑1977

硬件配置表

精度场景显存占用最低配置(括号内为显存)
FP16模型推理58GRTX3090*4(94G)
FP16模型高效微调68GRTX3090*4(94G)
FP16模型全量微调350GA100*6(480G)
INT8模型推理35GRTX3090*2(48G)
INT8模型高效微调45GRTX3090*2(48G)
INT8模型全量微调--
INT4模型推理22GRTX3090(24G)
INT4模型高效微调28GRTX3090*2(48G)
INT4模型全量微调--

Qwen-30B-A3B

性能指数:⭐️⭐️⭐️⭐️⭐️ 整体性能远超GPT-4o,平均领先约23.7个百分点

适用场景:适用于高性能要求商业场景

性能数据对比表

模型AIME'24AIME'25ARENAHARDGPQALIVECODEBENCHCODEFORCES
GPT-4o11.17.685.352.253.8864
Qwen3-30B-A3B80.4 ↑70.9 ↑91.0 ↑65.8 ↑74.3 ↑1974 ↑

硬件配置表

精度场景显存占用最低配置(括号内为显存)
FP16模型推理55GRTX3090*4
FP16模型高效微调85GRTX3090*4(94G)
FP16模型全量微调403GA100*6(480G)
INT8模型推理28GRTX3090*2(48G)
INT8模型高效微调55GRTX3090*3(72G)
INT8模型全量微调373GA100*5(400G)
INT4模型推理14GRTX3090(24G)
INT4模型高效微调35GRTX3090*2(48G)
INT4模型全量微调358GA100*5(400G)

Qwen-235B-A22B

性能指数:目前开源最强MOE大模型,各项指标均创所有国产模型及全球开源模型的性能新高

适用场景:适用于高性能要求商业场景

性能数据对比表

模型AIME'24AIME'25ARENAHARDAIDERLIVECODEBENCHCODEFORCES
DeepSeek-R179.87093.256.964.32029
Qwen3-235B-A22B85.7 ↑81.5 ↑95.6 ↑61.8 ↑70.7 ↑2056 ↑

硬件配置表

精度场景显存占用最低配置(括号内为显存)
FP16模型推理210GA100x3(240GB)
FP16模型高效微调600GA100-80GB x8(640GB)
FP16模型全量微调2924GA10085(3200GB)
INT8模型推理105GA100 x2(160GB)
INT8模型高效微调330GA100-80GB x5(400GB)
INT8模型全量微调2689GA10075(2800GB)
INT4模型推理53GA100(80GB)
INT4模型高效微调190GA100-80GB x3(240GB)
INT4模型全量微调2572GA10075(2800GB)
上次编辑于:
贡献者: 李元昊