跳至主要內容

大模型配置硬件参考自查表

程序员李某某大约 12 分钟

大模型配置硬件参考自查表

大模型推理与训练通用硬件选配表

PCIe、NVLink、NVSsitch技术对比

特性PCIeNVLinkNVSwitch
主要用途通用互联接口,连接 GPU、CPU、SSD 等设备GPU - GPU 或 GPU - CPU 的高速互联多 GPU 系统的全互联,实现 GPU 间直接通信
连接设备数量理论无限制,但共享总带宽通常最多 8 块 GPU支持 16 GPU 以上的全互联
单连接带宽(双向)PCIe 4.0: 32GB/s;PCIe 5.0: 64GB/sNVLink 3.0 (A100): 600GB/s;NVLink 4.0 (H100): 900GB/s7.2TB/s(H100 集群内部的总带宽)
延迟相对较高(受制于主板总线和 CPU 调度)较低,GPU - GPU 间直接通信更低,支持多 GPU 高效协作
拓扑结构树形结构点对点互联(可链式或星型)多 GPU 全互联
适用范围通用,支持所有扩展设备NVIDIA GPU 专用高端 GPU 集群(如 DGX 系列)
成本主板自带,无额外费用需要 NVLink Bridge,成本较高集成于 DGX 系列服务器,需配套硬件
典型应用场景单机小规模 GPU 系统或通用计算深度学习分布式训练、GPU 高效协作超大规模分布式集群(16 + GPU,全互联任务)

A100各系显卡对比图

参数类别A100 PCIeA100 SXMA800
架构AmpereAmpereAmpere
CUDA Core 数量6,912 个6,912 个6,912 个
Tensor Core 数量432 个 (第三代 Tensor Core)432 个 (第三代 Tensor Core)432 个 (第三代 Tensor Core)
显存容量40 GB 或 80 GB HBM2e40 GB 或 80 GB HBM2e80 GB HBM2e
显存带宽1,555 GB/s (80 GB 版本)1,555 GB/s (80 GB 版本)1,330 GB/s
FP64 性能9.7 TFLOPS9.7 TFLOPS9.7 TFLOPS
FP32 性能19.5 TFLOPS19.5 TFLOPS19.5 TFLOPS
FP16/BF16 性能312 TFLOPS312 TFLOPS312 TFLOPS
FP8 性能不支持不支持不支持
NVLink 支持不支持支持 (600GB/s 双向)支持 (400GB/s 双向)
TDP (热设计功耗)250W400W300W
接口类型PCIe 4.0SXM4 (板载插槽)SXM4 (板载插槽)
目标市场工作站、小型服务器数据中心、高性能计算数据中心 (出口限制版本)

英伟达显卡主要分类及命名规则

类别主要系列应用场景典型显卡诞生时间
消费级显卡RTX 系列(20/30/40)游戏、图形渲染、轻量级深度学习、AI 推理RTX 3090、RTX 40902018 年(RTX 20)
数据中心显卡A 系列(原版)大规模深度学习训练、推理、高性能计算(HPC)A100、A10、A42020 年(Ampere)
数据中心显卡(特供)A800、H800 系列针对中国市场的特供显卡,调整性能以符合出口限制A800、H8002021 年(A800)
高端数据中心显卡H 系列(原版)超大规模深度学习训练、推理、低精度计算(FP8)H100、H2002022 年(Hopper)
专业图形显卡L 系列数据可视化、AI 推理、工作站任务L40、L20、L42022 年(Ada)
入门级数据中心显卡T 系列云推理服务、虚拟化工作站、轻量化 AI 推理任务T42018 年(Turing)

英伟达各类显卡功能总结

系列主要特点典型用户
RTX面向消费级市场,兼顾游戏、图形渲染和轻量深度学习任务游戏玩家、AI 初学者
A 系列高性能训练和推理显卡,适合大规模深度学习训练数据中心、AI 研究团队
A800A 系列的特供版,性能略低但适合中国市场中国市场的大模型训练和推理
H 系列NVIDIA 的高端显卡,支持超大规模模型训练(如 GPT - 3/4)超大规模 AI 项目、HPC 任务
H800H 系列的特供版,性能略低但适合中国市场中国市场的大模型训练和推理
L 系列专业图形和推理显卡,适合数据可视化和轻量推理任务数据分析师、工作站用户
T 系列入门级显卡,低功耗,适合推理和虚拟化任务节能型数据中心、云服务

不同尺寸、不同精度大模型推理所需显存及硬件推荐

模型尺寸精度显存需求 (GB)推荐显卡
7BFP1612RTX 4080 / RTX 4090
7BINT88RTX 4080 / T4
7BINT46RTX 4080 / RTX 3060
7BINT24RTX 3060 / RTX 4080
13BFP1624RTX 4090
13BINT816RTX 4090
13BINT412RTX 4090 / RTX 4080
13BINT28RTX 4080 / RTX 4090
30BFP1660A100 (40GB) * 2
30BINT840L40 (48GB)
30BINT424RTX 4090
30BINT216T4 (16GB)
70BFP16120A100 (80GB) * 2
70BINT880L40 (48GB) * 2
70BINT448L40 (48GB)
70BINT232RTX 4090
110BFP16200H100 (80GB) * 3
110BINT8140H100 (80GB) * 2
110BINT472A10 (24GB) * 3
110BINT248A10 (24GB) * 2

不同尺寸、不同精度大模型训练所需显存及硬件推荐

模型尺寸精度显存需求 (GB)推荐硬件配置
7BAMP120A100 (40GB) * 3
7BFP1660A100 (40GB) * 2
13BAMP240A100 (80GB) * 3
13BFP16120A100 (80GB) * 2
30BAMP600H100 (80GB) * 8
30BFP16300H100 (80GB) * 4
70BAMP1200H100 (80GB) * 16
70BFP16600H100 (80GB) * 8
110BAMP2000H100 (80GB) * 25
110BFP16900H100 (80GB) * 12

不同尺寸、不同精度大模型高效微调所需显存及硬件推荐

模型尺寸精度显存需求 (GB)推荐硬件配置
7BFreeze (FP16)20RTX 4090
7BLoRA (FP16)16RTX 4090
7BQLoRA (INT8)10RTX 4080
7BQLoRA (INT4)6RTX 3060
13BFreeze (FP16)40RTX 4090 / A100 (40GB)
13BLoRA (FP16)32A100 (40GB)
13BQLoRA (INT8)20L40 (48GB)
13BQLoRA (INT4)12RTX 4090
30BFreeze (FP16)80A100 (80GB)
30BLoRA (FP16)64A100 (80GB)
30BQLoRA (INT8)40L40 (48GB)
30BQLoRA (INT4)24RTX 4090
70BFreeze (FP16)200H100 (80GB) * 3
70BLoRA (FP16)160H100 (80GB) * 2
70BQLoRA (INT8)80H100 (80GB)
70BQLoRA (INT4)48L40 (48GB)
110BFreeze (FP16)360H100 (80GB) * 5
110BLoRA (FP16)240H100 (80GB) * 3
110BQLoRA (INT8)140H100 (80GB) * 2
110BQLoRA (INT4)72A10 (24GB) * 3

各类典型场景下GPU配置方案推荐

团队类型需求分析基础配置进阶配置
个人学习 / 小型科研团队推理 & 微调:7B ~ 14B;模型训练:0.2B 左右;并发数:1 ~ 5;数据量:GB;显存需求:35GBGPU:2080 Ti (22GB) * 2;CPU:12 代 i5;内存:64GB;硬盘:2TB;价格:14,000 元GPU:3090 * 2;CPU:12 代 i7;内存:64GB;硬盘:2TB;价格:25,000 元
中小型科研团队 / 初创公司推理 & 微调:14B ~ 30B;模型训练:2B 左右;并发数:5 ~ 20;数据量:TB;显存需求:80GBGPU:2080 Ti (22GB) * 4;CPU:Intel 至强 W3;内存:64GB;硬盘:2TB;价格:30,000 元GPU:3090 * 4;CPU:Intel 至强 W5;内存:128GB;硬盘:2TB;价格:47,000 元
大型科研团队 / 中大型公司推理 & 微调:70B;模型训练:7B 左右;并发数:50 ~ 200;数据量:10TB;显存需求:140GBGPU:L20 (48GB) * 4;CPU:Intel 至强 6133;内存:128GB;硬盘:10TB;价格:140,000 元GPU:A100 (40GB) * 4;CPU:Intel C621;内存:128GB;硬盘:10TB;价格:180,000 元

DeepSeek R1各模型硬件需求

模型名称显存需求(推理)推荐 CPU推荐 GPU推荐内存
DeepSeek-R1-1.5B4GB+Xeon W-2400 系列GTX 16608GB+
DeepSeek-R1-3B8GB+Xeon W-2400 系列RTX 306016GB+
DeepSeek-R1-7B14GB+Xeon W-2400 系列RTX 408016GB+
DeepSeek-R1-8B16GB+Xeon W-2400 系列RTX 408016GB+
DeepSeek-R1-14B28GB+Xeon W-3400 系列RTX 3090 * 232GB+
DeepSeek-R1-32B58GB+Xeon W-3400 系列RTX 3090 * 464GB+
DeepSeek-R1-70B140GB+EPYC 7002 系列A100 * 2128GB+
DeepSeek-R1-671B(Q4_K_M)490GB+EPYC 7002 系列A100 * 8 * 1512GB+
DeepSeek-R1-671B1200GB+EPYC 7002 系列A100 * 8 * 21T+

DeepSeek-R1-Distill-Qwen-1.5B

类别详情
模型名称DeepSeek-R1-Distill-Qwen-1.5B
性能指数★★ ,推理能力达到 GPT-4o 级别
适用场景移动端应用 & 个人助理
性能数据(对比)指标GPT-4oR1-1.5B
AIME 2024 pass@19.328.9↑
AIME 2024 cons@6413.452.7↑
MATH-500 pass@174.683.9↑
GPQA Diamond pass@149.9↑33.8
LiveCodeBench pass@132.9↑16.9
CodeForces rating759954↑
硬件配置 - 模型推理精度显存占用最低配置
FP 162.2G\multirow{3}{*}
INT 81.5G
INT 40.8G
硬件配置 - 模型高效微调精度显存占用最低配置
FP 163.2G\multirow{3}{*}
INT 82G
INT 41.2G
硬件配置 - 模型全量微调精度显存占用最低配置
FP 1612GRTX3060(12G)
INT 8--
INT 4--

DeepSeek-R1-Distill-Qwen-7B

类别详情
模型名称DeepSeek-R1-Distill-Qwen-7B
性能指数★★★ ,推理能力达到 o1-mini 的 70% 左右
适用场景高校实验室 & 小型团队适用
性能数据(对比)指标o1-miniR1-7B
AIME 2024 pass@163.6↑55
AIME 2024 cons@648083.3↑
MATH-500 pass@19092.8↑
GPQA Diamond pass@160↑49.1
LiveCodeBench pass@153.8↑37.6
CodeForces rating1820↑1189
硬件配置 - 模型推理精度显存占用最低配置
FP 1612GRTX3060 (12G)
INT 88G
INT 44G
硬件配置 - 模型高效微调精度显存占用最低配置
FP 1616GRTX4080(16G)
INT 810GRTX3060 (12G)
INT 46G
硬件配置 - 模型全量微调精度显存占用最低配置
FP 1660GRTX3090*4(94G)
INT 8--
INT 4--

DeepSeek-R1-Distill-Llama-8B

类别详情
模型名称DeepSeek-R1-Distill-Llama-8B
性能指数★★★ ,推理能力达到 o1-mini 的 70% 左右
适用场景高校实验室 & 小型团队适用
性能数据(对比)指标o1-miniR1-8B
AIME 2024 pass@163.6↑50.4
AIME 2024 cons@6480↑80↑
MATH-500 pass@190↑89.1
GPQA Diamond pass@160↑49
LiveCodeBench pass@153.8↑39.6
CodeForces rating1820↑1205
硬件配置 - 模型推理精度显存占用最低配置
FP 1614GRTX4080(16G)
INT 810GRTX3060 (12G)
INT 45G
硬件配置 - 模型高效微调精度显存占用最低配置
FP 1618GRTX3090(24G)
INT 812GRTX3060 (12G)
INT 47G
硬件配置 - 模型全量微调精度显存占用最低配置
FP 1670GRTX3090*4(94G)
INT 8--
INT 4--

DeepSeek-R1-Distill-Qwen-14B

类别详情
模型名称DeepSeek-R1-Distill-Qwen-14B
性能指数★★★★ ,推理能力达到 o1-mini 的 80% 左右
适用场景适用于一般商业场景
性能数据(对比)指标o1-miniR1-14B
AIME 2024 pass@163.667.9↑
AIME 2024 cons@6480↑80↑
MATH-500 pass@19093.9↑
GPQA Diamond pass@160↑59.1
LiveCodeBench pass@153.8↑53.1
CodeForces rating1820↑1481
硬件配置 - 模型推理精度显存占用最低配置
FP 1624GRTX3090(24G)
INT 815GRTX4080(16G)
INT 412GRTX3060(12G)
硬件配置 - 模型高效微调精度显存占用最低配置
FP 1634GRTX3090*2(48G)
INT 822GRTX3090(24G)
INT 414GRTX4080(16G)
硬件配置 - 模型全量微调精度显存占用最低配置
FP 16130GA100*2(160G)
INT 8--
INT 4--

DeepSeek-R1-Distill-Qwen-32B

类别详情
模型名称DeepSeek-R1-Distill-Qwen-32B
性能指数★★★★★ ,推理能力达到 o1-mini 性能级别
适用场景适用于高性能要求商业场景
性能数据(对比)指标o1-miniR1-32B
AIME 2024 pass@163.672.6↑
AIME 2024 cons@648083.3↑
MATH-500 pass@19094.3↑
GPQA Diamond pass@16062.1↑
LiveCodeBench pass@153.857.2↑
CodeForces rating1820↑1691
硬件配置 - 模型推理精度显存占用最低配置
FP 1655GRTX3090*4(94G)
INT 835GRTX3090*2(48G)
INT 422GRTX3090(24G)
硬件配置 - 模型高效微调精度显存占用最低配置
FP 1668GRTX3090*4(94G)
INT 845GRTX3090*2(48G)
INT 428GRTX3090*2(48G)
硬件配置 - 模型全量微调精度显存占用最低配置
FP 16350GA100*6(480G)
INT 8--
INT 4--

DeepSeek-R1-Distill-Llama-70B

类别详情
模型名称DeepSeek-R1-Distill-Llama-70B
性能指数★★★★★ ,推理能力达到 o1-mini 性能级别
适用场景适用于高性能要求商业场景
性能数据(对比)指标o1-miniR1-70B
AIME 2024 pass@163.670↑
AIME 2024 cons@648086.7↑
MATH-500 pass@19094.5↑
GPQA Diamond pass@16065.2↑
LiveCodeBench pass@153.857.5↑
CodeForces rating1820↑1633
硬件配置 - 模型推理精度显存占用最低配置
FP 16150GA100*2(160G)
INT 872GRTX3090*4(94G)
INT 436GRTX3090*2(48G)
硬件配置 - 模型高效微调精度显存占用最低配置
FP 16160GA100*2(160G)
INT 880GRTX3090*4(94G)
INT 448GRTX3090*2(48G)
硬件配置 - 模型全量微调精度显存占用最低配置
FP 16600GA100*8(640G)
INT 8--
INT 4--

DeepSeek-R1 671B

类别详情
模型名称DeepSeek-R1 671B
定位最强推理大模型,推理能力达到 o1 性能级别
适用场景适用于高性能要求商业场景
性能数据(对比)指标OpenAI o1DeepSeek R1
AIME 2024 pass@179.279.8↑
CodeForces Percentile96.6↑96.3
GPQA Diamond pass@175.7↑71.5
MATH-500 pass@196.497.3↑
MMLU pass@191.8↑90.8
SWE-Bench resolved48.949.2↑
硬件配置 - 模型推理精度显存占用最低配置
FP 161278GA10082 (1280G)
BF 81219GA10082 (1280G)
Q_4_K_M490GA100*8 (640G)
INT 4 (KT 推理)24G VRAM + 382G DRAMRTX3090(24G)
1.56 动态量化24G VRAM + 180G DRAMRTX3090(24G)
硬件配置 - 模型高效微调精度显存占用最低配置
FP 161531GH20083 (1920G)
BF 81492GH20083 (1920G)
Q_4_K_M620GA100*8 (640G)
INT 4 (KT 推理)--
1.56 动态量化--
硬件配置 - 模型全量微调精度显存占用最低配置
FP 167500GA100812 (7680G)
BF 8--
Q_4_K_M--
INT 4 (KT 推理)--
1.56 动态量化--

DeepSeek R1硬件选配

类别详情
流程名称DeepSeek R1 硬件选配流程
核心判断能否承担 180 万以上服务器成本
180 万以上两套购买方案
基础服务器采购方案服务器报价:180 万左右 部署模型:DeepSeek-R1-Q4_K_M 内存 & 硬盘:1T + 20T CPU:志强 8358 v64 * 2 GPU:A100/A800 * 8
进阶服务器采购方案服务器报价:350 万左右 部署模型:DeepSeek-R1 内存 & 硬盘:1T + 20T CPU:志强 8358 v64 * 2 GPU:A100/A800 * 8 单节点服务器 * 2
180 万以下三类高性能部署方案
方案一:放弃训练,只做推理实践思路: 1. 替换为 A6000 ada 等英伟达达图形显卡【成本降低 40%】 2. 替换为国产芯片,如华为昇腾芯片【成本降低 50%】 3. 个人或小团队可考虑采用 M 系列芯片【成本降低 70%】
方案二:使用 R1 量化模型或蒸馏模型基本思路:模型越小、性能越弱 1. 考虑替换为 Q2->Q8 量化模型组【160G 显存到 640G 显存】 显存更小、性能更弱 2. 考虑替换为 R1 蒸馏模型组【40G 显存到 140G 显存】
方案三:采用 CPU + GPU 混合推理基本思路:CPU 推理越多、价格越低、速度越慢 1. 清华大学 KT Transformers 方案【价格便宜,并发不足】 偏向企业级方案 2. Unsloth 动态量化方案【需要显存,并发足够】
上次编辑于:
贡献者: 李元昊