大模型配置硬件参考自查表
大约 12 分钟
大模型配置硬件参考自查表
大模型推理与训练通用硬件选配表
PCIe、NVLink、NVSsitch技术对比
| 特性 | PCIe | NVLink | NVSwitch |
|---|---|---|---|
| 主要用途 | 通用互联接口,连接 GPU、CPU、SSD 等设备 | GPU - GPU 或 GPU - CPU 的高速互联 | 多 GPU 系统的全互联,实现 GPU 间直接通信 |
| 连接设备数量 | 理论无限制,但共享总带宽 | 通常最多 8 块 GPU | 支持 16 GPU 以上的全互联 |
| 单连接带宽(双向) | PCIe 4.0: 32GB/s;PCIe 5.0: 64GB/s | NVLink 3.0 (A100): 600GB/s;NVLink 4.0 (H100): 900GB/s | 7.2TB/s(H100 集群内部的总带宽) |
| 延迟 | 相对较高(受制于主板总线和 CPU 调度) | 较低,GPU - GPU 间直接通信 | 更低,支持多 GPU 高效协作 |
| 拓扑结构 | 树形结构 | 点对点互联(可链式或星型) | 多 GPU 全互联 |
| 适用范围 | 通用,支持所有扩展设备 | NVIDIA GPU 专用 | 高端 GPU 集群(如 DGX 系列) |
| 成本 | 主板自带,无额外费用 | 需要 NVLink Bridge,成本较高 | 集成于 DGX 系列服务器,需配套硬件 |
| 典型应用场景 | 单机小规模 GPU 系统或通用计算 | 深度学习分布式训练、GPU 高效协作 | 超大规模分布式集群(16 + GPU,全互联任务) |
A100各系显卡对比图
| 参数类别 | A100 PCIe | A100 SXM | A800 |
|---|---|---|---|
| 架构 | Ampere | Ampere | Ampere |
| CUDA Core 数量 | 6,912 个 | 6,912 个 | 6,912 个 |
| Tensor Core 数量 | 432 个 (第三代 Tensor Core) | 432 个 (第三代 Tensor Core) | 432 个 (第三代 Tensor Core) |
| 显存容量 | 40 GB 或 80 GB HBM2e | 40 GB 或 80 GB HBM2e | 80 GB HBM2e |
| 显存带宽 | 1,555 GB/s (80 GB 版本) | 1,555 GB/s (80 GB 版本) | 1,330 GB/s |
| FP64 性能 | 9.7 TFLOPS | 9.7 TFLOPS | 9.7 TFLOPS |
| FP32 性能 | 19.5 TFLOPS | 19.5 TFLOPS | 19.5 TFLOPS |
| FP16/BF16 性能 | 312 TFLOPS | 312 TFLOPS | 312 TFLOPS |
| FP8 性能 | 不支持 | 不支持 | 不支持 |
| NVLink 支持 | 不支持 | 支持 (600GB/s 双向) | 支持 (400GB/s 双向) |
| TDP (热设计功耗) | 250W | 400W | 300W |
| 接口类型 | PCIe 4.0 | SXM4 (板载插槽) | SXM4 (板载插槽) |
| 目标市场 | 工作站、小型服务器 | 数据中心、高性能计算 | 数据中心 (出口限制版本) |
英伟达显卡主要分类及命名规则
| 类别 | 主要系列 | 应用场景 | 典型显卡 | 诞生时间 |
|---|---|---|---|---|
| 消费级显卡 | RTX 系列(20/30/40) | 游戏、图形渲染、轻量级深度学习、AI 推理 | RTX 3090、RTX 4090 | 2018 年(RTX 20) |
| 数据中心显卡 | A 系列(原版) | 大规模深度学习训练、推理、高性能计算(HPC) | A100、A10、A4 | 2020 年(Ampere) |
| 数据中心显卡(特供) | A800、H800 系列 | 针对中国市场的特供显卡,调整性能以符合出口限制 | A800、H800 | 2021 年(A800) |
| 高端数据中心显卡 | H 系列(原版) | 超大规模深度学习训练、推理、低精度计算(FP8) | H100、H200 | 2022 年(Hopper) |
| 专业图形显卡 | L 系列 | 数据可视化、AI 推理、工作站任务 | L40、L20、L4 | 2022 年(Ada) |
| 入门级数据中心显卡 | T 系列 | 云推理服务、虚拟化工作站、轻量化 AI 推理任务 | T4 | 2018 年(Turing) |
英伟达各类显卡功能总结
| 系列 | 主要特点 | 典型用户 |
|---|---|---|
| RTX | 面向消费级市场,兼顾游戏、图形渲染和轻量深度学习任务 | 游戏玩家、AI 初学者 |
| A 系列 | 高性能训练和推理显卡,适合大规模深度学习训练 | 数据中心、AI 研究团队 |
| A800 | A 系列的特供版,性能略低但适合中国市场 | 中国市场的大模型训练和推理 |
| H 系列 | NVIDIA 的高端显卡,支持超大规模模型训练(如 GPT - 3/4) | 超大规模 AI 项目、HPC 任务 |
| H800 | H 系列的特供版,性能略低但适合中国市场 | 中国市场的大模型训练和推理 |
| L 系列 | 专业图形和推理显卡,适合数据可视化和轻量推理任务 | 数据分析师、工作站用户 |
| T 系列 | 入门级显卡,低功耗,适合推理和虚拟化任务 | 节能型数据中心、云服务 |
不同尺寸、不同精度大模型推理所需显存及硬件推荐
| 模型尺寸 | 精度 | 显存需求 (GB) | 推荐显卡 |
|---|---|---|---|
| 7B | FP16 | 12 | RTX 4080 / RTX 4090 |
| 7B | INT8 | 8 | RTX 4080 / T4 |
| 7B | INT4 | 6 | RTX 4080 / RTX 3060 |
| 7B | INT2 | 4 | RTX 3060 / RTX 4080 |
| 13B | FP16 | 24 | RTX 4090 |
| 13B | INT8 | 16 | RTX 4090 |
| 13B | INT4 | 12 | RTX 4090 / RTX 4080 |
| 13B | INT2 | 8 | RTX 4080 / RTX 4090 |
| 30B | FP16 | 60 | A100 (40GB) * 2 |
| 30B | INT8 | 40 | L40 (48GB) |
| 30B | INT4 | 24 | RTX 4090 |
| 30B | INT2 | 16 | T4 (16GB) |
| 70B | FP16 | 120 | A100 (80GB) * 2 |
| 70B | INT8 | 80 | L40 (48GB) * 2 |
| 70B | INT4 | 48 | L40 (48GB) |
| 70B | INT2 | 32 | RTX 4090 |
| 110B | FP16 | 200 | H100 (80GB) * 3 |
| 110B | INT8 | 140 | H100 (80GB) * 2 |
| 110B | INT4 | 72 | A10 (24GB) * 3 |
| 110B | INT2 | 48 | A10 (24GB) * 2 |
不同尺寸、不同精度大模型训练所需显存及硬件推荐
| 模型尺寸 | 精度 | 显存需求 (GB) | 推荐硬件配置 |
|---|---|---|---|
| 7B | AMP | 120 | A100 (40GB) * 3 |
| 7B | FP16 | 60 | A100 (40GB) * 2 |
| 13B | AMP | 240 | A100 (80GB) * 3 |
| 13B | FP16 | 120 | A100 (80GB) * 2 |
| 30B | AMP | 600 | H100 (80GB) * 8 |
| 30B | FP16 | 300 | H100 (80GB) * 4 |
| 70B | AMP | 1200 | H100 (80GB) * 16 |
| 70B | FP16 | 600 | H100 (80GB) * 8 |
| 110B | AMP | 2000 | H100 (80GB) * 25 |
| 110B | FP16 | 900 | H100 (80GB) * 12 |
不同尺寸、不同精度大模型高效微调所需显存及硬件推荐
| 模型尺寸 | 精度 | 显存需求 (GB) | 推荐硬件配置 |
|---|---|---|---|
| 7B | Freeze (FP16) | 20 | RTX 4090 |
| 7B | LoRA (FP16) | 16 | RTX 4090 |
| 7B | QLoRA (INT8) | 10 | RTX 4080 |
| 7B | QLoRA (INT4) | 6 | RTX 3060 |
| 13B | Freeze (FP16) | 40 | RTX 4090 / A100 (40GB) |
| 13B | LoRA (FP16) | 32 | A100 (40GB) |
| 13B | QLoRA (INT8) | 20 | L40 (48GB) |
| 13B | QLoRA (INT4) | 12 | RTX 4090 |
| 30B | Freeze (FP16) | 80 | A100 (80GB) |
| 30B | LoRA (FP16) | 64 | A100 (80GB) |
| 30B | QLoRA (INT8) | 40 | L40 (48GB) |
| 30B | QLoRA (INT4) | 24 | RTX 4090 |
| 70B | Freeze (FP16) | 200 | H100 (80GB) * 3 |
| 70B | LoRA (FP16) | 160 | H100 (80GB) * 2 |
| 70B | QLoRA (INT8) | 80 | H100 (80GB) |
| 70B | QLoRA (INT4) | 48 | L40 (48GB) |
| 110B | Freeze (FP16) | 360 | H100 (80GB) * 5 |
| 110B | LoRA (FP16) | 240 | H100 (80GB) * 3 |
| 110B | QLoRA (INT8) | 140 | H100 (80GB) * 2 |
| 110B | QLoRA (INT4) | 72 | A10 (24GB) * 3 |
各类典型场景下GPU配置方案推荐
| 团队类型 | 需求分析 | 基础配置 | 进阶配置 |
|---|---|---|---|
| 个人学习 / 小型科研团队 | 推理 & 微调:7B ~ 14B;模型训练:0.2B 左右;并发数:1 ~ 5;数据量:GB;显存需求:35GB | GPU:2080 Ti (22GB) * 2;CPU:12 代 i5;内存:64GB;硬盘:2TB;价格:14,000 元 | GPU:3090 * 2;CPU:12 代 i7;内存:64GB;硬盘:2TB;价格:25,000 元 |
| 中小型科研团队 / 初创公司 | 推理 & 微调:14B ~ 30B;模型训练:2B 左右;并发数:5 ~ 20;数据量:TB;显存需求:80GB | GPU:2080 Ti (22GB) * 4;CPU:Intel 至强 W3;内存:64GB;硬盘:2TB;价格:30,000 元 | GPU:3090 * 4;CPU:Intel 至强 W5;内存:128GB;硬盘:2TB;价格:47,000 元 |
| 大型科研团队 / 中大型公司 | 推理 & 微调:70B;模型训练:7B 左右;并发数:50 ~ 200;数据量:10TB;显存需求:140GB | GPU:L20 (48GB) * 4;CPU:Intel 至强 6133;内存:128GB;硬盘:10TB;价格:140,000 元 | GPU:A100 (40GB) * 4;CPU:Intel C621;内存:128GB;硬盘:10TB;价格:180,000 元 |
DeepSeek R1各模型硬件需求
| 模型名称 | 显存需求(推理) | 推荐 CPU | 推荐 GPU | 推荐内存 |
|---|---|---|---|---|
| DeepSeek-R1-1.5B | 4GB+ | Xeon W-2400 系列 | GTX 1660 | 8GB+ |
| DeepSeek-R1-3B | 8GB+ | Xeon W-2400 系列 | RTX 3060 | 16GB+ |
| DeepSeek-R1-7B | 14GB+ | Xeon W-2400 系列 | RTX 4080 | 16GB+ |
| DeepSeek-R1-8B | 16GB+ | Xeon W-2400 系列 | RTX 4080 | 16GB+ |
| DeepSeek-R1-14B | 28GB+ | Xeon W-3400 系列 | RTX 3090 * 2 | 32GB+ |
| DeepSeek-R1-32B | 58GB+ | Xeon W-3400 系列 | RTX 3090 * 4 | 64GB+ |
| DeepSeek-R1-70B | 140GB+ | EPYC 7002 系列 | A100 * 2 | 128GB+ |
| DeepSeek-R1-671B(Q4_K_M) | 490GB+ | EPYC 7002 系列 | A100 * 8 * 1 | 512GB+ |
| DeepSeek-R1-671B | 1200GB+ | EPYC 7002 系列 | A100 * 8 * 2 | 1T+ |
DeepSeek-R1-Distill-Qwen-1.5B
| 类别 | 详情 | |||
|---|---|---|---|---|
| 模型名称 | DeepSeek-R1-Distill-Qwen-1.5B | |||
| 性能指数 | ★★ ,推理能力达到 GPT-4o 级别 | |||
| 适用场景 | 移动端应用 & 个人助理 | |||
| 性能数据(对比) | 指标 | GPT-4o | R1-1.5B | |
| AIME 2024 pass@1 | 9.3 | 28.9↑ | ||
| AIME 2024 cons@64 | 13.4 | 52.7↑ | ||
| MATH-500 pass@1 | 74.6 | 83.9↑ | ||
| GPQA Diamond pass@1 | 49.9↑ | 33.8 | ||
| LiveCodeBench pass@1 | 32.9↑ | 16.9 | ||
| CodeForces rating | 759 | 954↑ | ||
| 硬件配置 - 模型推理 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 2.2G | \multirow{3}{*} | ||
| INT 8 | 1.5G | |||
| INT 4 | 0.8G | |||
| 硬件配置 - 模型高效微调 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 3.2G | \multirow{3}{*} | ||
| INT 8 | 2G | |||
| INT 4 | 1.2G | |||
| 硬件配置 - 模型全量微调 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 12G | RTX3060(12G) | ||
| INT 8 | - | - | ||
| INT 4 | - | - |
DeepSeek-R1-Distill-Qwen-7B
| 类别 | 详情 | |||
|---|---|---|---|---|
| 模型名称 | DeepSeek-R1-Distill-Qwen-7B | |||
| 性能指数 | ★★★ ,推理能力达到 o1-mini 的 70% 左右 | |||
| 适用场景 | 高校实验室 & 小型团队适用 | |||
| 性能数据(对比) | 指标 | o1-mini | R1-7B | |
| AIME 2024 pass@1 | 63.6↑ | 55 | ||
| AIME 2024 cons@64 | 80 | 83.3↑ | ||
| MATH-500 pass@1 | 90 | 92.8↑ | ||
| GPQA Diamond pass@1 | 60↑ | 49.1 | ||
| LiveCodeBench pass@1 | 53.8↑ | 37.6 | ||
| CodeForces rating | 1820↑ | 1189 | ||
| 硬件配置 - 模型推理 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 12G | RTX3060 (12G) | ||
| INT 8 | 8G | |||
| INT 4 | 4G | |||
| 硬件配置 - 模型高效微调 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 16G | RTX4080(16G) | ||
| INT 8 | 10G | RTX3060 (12G) | ||
| INT 4 | 6G | |||
| 硬件配置 - 模型全量微调 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 60G | RTX3090*4(94G) | ||
| INT 8 | - | - | ||
| INT 4 | - | - |
DeepSeek-R1-Distill-Llama-8B
| 类别 | 详情 | |||
|---|---|---|---|---|
| 模型名称 | DeepSeek-R1-Distill-Llama-8B | |||
| 性能指数 | ★★★ ,推理能力达到 o1-mini 的 70% 左右 | |||
| 适用场景 | 高校实验室 & 小型团队适用 | |||
| 性能数据(对比) | 指标 | o1-mini | R1-8B | |
| AIME 2024 pass@1 | 63.6↑ | 50.4 | ||
| AIME 2024 cons@64 | 80↑ | 80↑ | ||
| MATH-500 pass@1 | 90↑ | 89.1 | ||
| GPQA Diamond pass@1 | 60↑ | 49 | ||
| LiveCodeBench pass@1 | 53.8↑ | 39.6 | ||
| CodeForces rating | 1820↑ | 1205 | ||
| 硬件配置 - 模型推理 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 14G | RTX4080(16G) | ||
| INT 8 | 10G | RTX3060 (12G) | ||
| INT 4 | 5G | |||
| 硬件配置 - 模型高效微调 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 18G | RTX3090(24G) | ||
| INT 8 | 12G | RTX3060 (12G) | ||
| INT 4 | 7G | |||
| 硬件配置 - 模型全量微调 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 70G | RTX3090*4(94G) | ||
| INT 8 | - | - | ||
| INT 4 | - | - |
DeepSeek-R1-Distill-Qwen-14B
| 类别 | 详情 | |||
|---|---|---|---|---|
| 模型名称 | DeepSeek-R1-Distill-Qwen-14B | |||
| 性能指数 | ★★★★ ,推理能力达到 o1-mini 的 80% 左右 | |||
| 适用场景 | 适用于一般商业场景 | |||
| 性能数据(对比) | 指标 | o1-mini | R1-14B | |
| AIME 2024 pass@1 | 63.6 | 67.9↑ | ||
| AIME 2024 cons@64 | 80↑ | 80↑ | ||
| MATH-500 pass@1 | 90 | 93.9↑ | ||
| GPQA Diamond pass@1 | 60↑ | 59.1 | ||
| LiveCodeBench pass@1 | 53.8↑ | 53.1 | ||
| CodeForces rating | 1820↑ | 1481 | ||
| 硬件配置 - 模型推理 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 24G | RTX3090(24G) | ||
| INT 8 | 15G | RTX4080(16G) | ||
| INT 4 | 12G | RTX3060(12G) | ||
| 硬件配置 - 模型高效微调 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 34G | RTX3090*2(48G) | ||
| INT 8 | 22G | RTX3090(24G) | ||
| INT 4 | 14G | RTX4080(16G) | ||
| 硬件配置 - 模型全量微调 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 130G | A100*2(160G) | ||
| INT 8 | - | - | ||
| INT 4 | - | - |
DeepSeek-R1-Distill-Qwen-32B
| 类别 | 详情 | |||
|---|---|---|---|---|
| 模型名称 | DeepSeek-R1-Distill-Qwen-32B | |||
| 性能指数 | ★★★★★ ,推理能力达到 o1-mini 性能级别 | |||
| 适用场景 | 适用于高性能要求商业场景 | |||
| 性能数据(对比) | 指标 | o1-mini | R1-32B | |
| AIME 2024 pass@1 | 63.6 | 72.6↑ | ||
| AIME 2024 cons@64 | 80 | 83.3↑ | ||
| MATH-500 pass@1 | 90 | 94.3↑ | ||
| GPQA Diamond pass@1 | 60 | 62.1↑ | ||
| LiveCodeBench pass@1 | 53.8 | 57.2↑ | ||
| CodeForces rating | 1820↑ | 1691 | ||
| 硬件配置 - 模型推理 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 55G | RTX3090*4(94G) | ||
| INT 8 | 35G | RTX3090*2(48G) | ||
| INT 4 | 22G | RTX3090(24G) | ||
| 硬件配置 - 模型高效微调 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 68G | RTX3090*4(94G) | ||
| INT 8 | 45G | RTX3090*2(48G) | ||
| INT 4 | 28G | RTX3090*2(48G) | ||
| 硬件配置 - 模型全量微调 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 350G | A100*6(480G) | ||
| INT 8 | - | - | ||
| INT 4 | - | - |
DeepSeek-R1-Distill-Llama-70B
| 类别 | 详情 | |||
|---|---|---|---|---|
| 模型名称 | DeepSeek-R1-Distill-Llama-70B | |||
| 性能指数 | ★★★★★ ,推理能力达到 o1-mini 性能级别 | |||
| 适用场景 | 适用于高性能要求商业场景 | |||
| 性能数据(对比) | 指标 | o1-mini | R1-70B | |
| AIME 2024 pass@1 | 63.6 | 70↑ | ||
| AIME 2024 cons@64 | 80 | 86.7↑ | ||
| MATH-500 pass@1 | 90 | 94.5↑ | ||
| GPQA Diamond pass@1 | 60 | 65.2↑ | ||
| LiveCodeBench pass@1 | 53.8 | 57.5↑ | ||
| CodeForces rating | 1820↑ | 1633 | ||
| 硬件配置 - 模型推理 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 150G | A100*2(160G) | ||
| INT 8 | 72G | RTX3090*4(94G) | ||
| INT 4 | 36G | RTX3090*2(48G) | ||
| 硬件配置 - 模型高效微调 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 160G | A100*2(160G) | ||
| INT 8 | 80G | RTX3090*4(94G) | ||
| INT 4 | 48G | RTX3090*2(48G) | ||
| 硬件配置 - 模型全量微调 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 600G | A100*8(640G) | ||
| INT 8 | - | - | ||
| INT 4 | - | - |
DeepSeek-R1 671B
| 类别 | 详情 | |||
|---|---|---|---|---|
| 模型名称 | DeepSeek-R1 671B | |||
| 定位 | 最强推理大模型,推理能力达到 o1 性能级别 | |||
| 适用场景 | 适用于高性能要求商业场景 | |||
| 性能数据(对比) | 指标 | OpenAI o1 | DeepSeek R1 | |
| AIME 2024 pass@1 | 79.2 | 79.8↑ | ||
| CodeForces Percentile | 96.6↑ | 96.3 | ||
| GPQA Diamond pass@1 | 75.7↑ | 71.5 | ||
| MATH-500 pass@1 | 96.4 | 97.3↑ | ||
| MMLU pass@1 | 91.8↑ | 90.8 | ||
| SWE-Bench resolved | 48.9 | 49.2↑ | ||
| 硬件配置 - 模型推理 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 1278G | A10082 (1280G) | ||
| BF 8 | 1219G | A10082 (1280G) | ||
| Q_4_K_M | 490G | A100*8 (640G) | ||
| INT 4 (KT 推理) | 24G VRAM + 382G DRAM | RTX3090(24G) | ||
| 1.56 动态量化 | 24G VRAM + 180G DRAM | RTX3090(24G) | ||
| 硬件配置 - 模型高效微调 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 1531G | H20083 (1920G) | ||
| BF 8 | 1492G | H20083 (1920G) | ||
| Q_4_K_M | 620G | A100*8 (640G) | ||
| INT 4 (KT 推理) | - | - | ||
| 1.56 动态量化 | - | - | ||
| 硬件配置 - 模型全量微调 | 精度 | 显存占用 | 最低配置 | |
| FP 16 | 7500G | A100812 (7680G) | ||
| BF 8 | - | - | ||
| Q_4_K_M | - | - | ||
| INT 4 (KT 推理) | - | - | ||
| 1.56 动态量化 | - | - |
DeepSeek R1硬件选配
| 类别 | 详情 | |
|---|---|---|
| 流程名称 | DeepSeek R1 硬件选配流程 | |
| 核心判断 | 能否承担 180 万以上服务器成本 | |
| 180 万以上 | 两套购买方案 | |
| 基础服务器采购方案 | 服务器报价:180 万左右 部署模型:DeepSeek-R1-Q4_K_M 内存 & 硬盘:1T + 20T CPU:志强 8358 v64 * 2 GPU:A100/A800 * 8 | |
| 进阶服务器采购方案 | 服务器报价:350 万左右 部署模型:DeepSeek-R1 内存 & 硬盘:1T + 20T CPU:志强 8358 v64 * 2 GPU:A100/A800 * 8 单节点服务器 * 2 | |
| 180 万以下 | 三类高性能部署方案 | |
| 方案一:放弃训练,只做推理 | 实践思路: 1. 替换为 A6000 ada 等英伟达达图形显卡【成本降低 40%】 2. 替换为国产芯片,如华为昇腾芯片【成本降低 50%】 3. 个人或小团队可考虑采用 M 系列芯片【成本降低 70%】 | |
| 方案二:使用 R1 量化模型或蒸馏模型 | 基本思路:模型越小、性能越弱 1. 考虑替换为 Q2->Q8 量化模型组【160G 显存到 640G 显存】 显存更小、性能更弱 2. 考虑替换为 R1 蒸馏模型组【40G 显存到 140G 显存】 | |
| 方案三:采用 CPU + GPU 混合推理 | 基本思路:CPU 推理越多、价格越低、速度越慢 1. 清华大学 KT Transformers 方案【价格便宜,并发不足】 偏向企业级方案 2. Unsloth 动态量化方案【需要显存,并发足够】 |
