Appearance
DeepSeek 大模型演进:从 V1 到 V4 的技术路线全梳理
引言
2025 年初,一条新闻震动了整个 AI 圈:DeepSeek V3 仅用约 557 万美元的训练成本,就在多项基准上对标了 OpenAI 的闭源模型——后者的训练成本是它的数十倍。这支来自中国的团队,用不到两年时间走完了从"追赶者"到"对标者"再到"定义者"的路径。
本文按时间线梳理 DeepSeek 从 V1 到 V4 的每一代核心技术决策:他们放弃了什么,选择了什么,以及每一代的具体突破是什么。
1. 创始人与算力基础
1.1 梁文峰:从量化交易到 AGI
梁文峰,1985 年出生,2002 年以当地高考状元身份考入浙江大学。2008 年全球金融危机期间,他带领团队开发出国内较早的 AI 量化交易模型——这是他与 AI 结缘的起点。
2010 年毕业后,梁文峰创办幻方科技,很快成长为量化投资领域的知名机构。但真正为后来的 DeepSeek 埋下伏笔的,是幻方在算力上的超前布局:
- 2019 年:投入 2 亿元研发"萤火一号"训练平台。
- 2021 年:投入 10 亿元建造"萤火二号",搭载约 1 万张英伟达 A100 显卡。
2023 年 ChatGPT 引爆全球后,梁文峰将这些原本服务于量化交易的算力资源全部投入大模型研发,创立 DeepSeek。萤火集群由此从金融交易的引擎,变成了 AGI 探索的底座。
关键点:DeepSeek 不是从零起步的创业公司,它背靠幻方多年积累的万卡集群和工程团队。这是它敢于做"低成本大模型"的底牌。
2. DeepSeek V1(2024 年初):先研究规律,再做模型
2.1 核心思路:Scaling Law 不能盲信
V1 阶段,团队没有直接堆参数,而是先做了一件事:系统研究模型大小、数据量和计算力之间的缩放定律(Scaling Law)。
当时的行业共识是"参数越大越好,数据越多越好"。但 DeepSeek 团队通过实验发现了一个反直觉的结论:高质量数据能让模型更小,同时性能更强。换句话说,在 Scaling Law 的曲线上,数据质量的权重被行业低估了。
2.2 数据集与模型发布
基于这个结论,团队构建了 2 万亿 token 的高质量数据集——重点不是"大",而是"干净"。随后发布了两个版本的基座模型:
| 版本 | 参数量 | 定位 |
|---|---|---|
| DeepSeek 7B | 70 亿 | 轻量级,适合端侧和研究 |
| DeepSeek 67B | 670 亿 | 主力基座模型 |
2.3 性能表现
- DeepSeek 67B 在代码能力和数学推理上超越 Llama 2 70B。
- 聊天版本在开放式评估中超过 GPT-3.5。
V1 证明了这一方法论的有效性:用高质量数据替代盲目堆参数,是一条可行的技术路线。这也奠定了 DeepSeek 后续"小而精"的基因。
3. DeepSeek V2(2024 年中):千亿模型的性能,百亿模型的成本
3.1 MOE 架构的深度改造
V2 引入了 MoE(Mixture of Experts,混合专家) 架构,总参数达到 2360 亿,但每次推理仅激活 210 亿参数。这个设计实现了"千亿模型的性能、百亿模型的推理成本"。
DeepSeek 在标准 MoE 基础上做了两处关键改进:
细粒度专家 + 共享专家结构:传统 MoE 的每个"专家"是一个完整的 FFN 层,而 DeepSeek 将专家切分为更细的粒度,同时引入了一组所有 token 都要经过的"共享专家"。这样既保留了 MoE 的专业化优势,又保证了基础语言能力的稳定性。
设备限制路由(Device-Limited Routing):传统 MoE 的一个痛点是负载不均衡——某些专家被频繁调用而另一些闲置。DeepSeek 提出的设备限制路由机制,在保证通信效率的同时强制让每个设备上的负载接近均衡,不需要额外的辅助损失函数。
3.2 MLA:把 KV 缓存减少 93.3%
Transformer 的推理成本中最让人头疼的是 KV 缓存——序列越长,缓存越大,显存越吃紧。DeepSeek V2 设计了 MLA(Multi-head Latent Attention,多头潜在注意力):
- 通过低秩联合压缩,将 Key 和 Value 投影到一个远小于原始维度的潜在空间。
- 效果:KV 缓存减少 93.3%,且性能不降反升,甚至优于标准 MHA(Multi-Head Attention)。
这是 V2 能实现"千亿性能、百亿成本"的架构基石。
3.3 性能与成本表现
- 训练数据:8.1 万亿 token,提升了中文数据比例。
- 训练成本:降低 42.5%(与同规模密集模型对比)。
- 推理吞吐:生成吞吐量提升 5.76 倍。
- 基准表现:在两项数学推理测试中超越 Llama 3 70B。
4. DeepSeek V3(2024 年底):FP8 大规模训练的里程碑
4.1 FP8 训练的技术攻坚
V3 的总参数达到 6710 亿,每次激活 370 亿参数。这个规模的训练如果使用传统的 FP16/BF16 精度,成本将难以承受。DeepSeek V3 的核心突破是:首次在大规模 MoE 模型上实现全流程 FP8 精度训练。
FP8 本身不新鲜,但大规模使用一直存在一个致命问题:训练不稳定。低精度下梯度容易溢出或下溢,导致 loss 不收敛。DeepSeek 团队的解法是两个配套技术:
- 分组缩放的量化策略:不全局统一量化,而是对每组参数单独计算缩放因子,让量化误差可控。
- 高精度累加方案:前向和反向传播用 FP8 加速,但关键累加操作保留高精度,防止误差累积。
效果:训练速度大幅提升,显存占用显著降低,且最终精度与 BF16 训练无明显差异。
4.2 多 Token 预测与负载均衡
V3 引入了两个额外创新:
多 Token 预测(Multi-Token Prediction):训练时模型不仅预测下一个 token,还要同时预测下两个 token。这增加了训练信号的密度,让模型在每个 token 上学到更多信息。推理时,这个能力还能用于投机采样(Speculative Decoding),解码速度提升 1.8 倍。
偏置项负载均衡:V3 提出了一种不需要辅助损失函数的负载均衡方案——直接在路由分数上加一个可学习的偏置项。这种方式不干扰主任务训练,却能让各专家利用率接近均匀,性能优于传统方法。
4.3 成本与性能
- 全训练仅消耗约 557.6 万美元(不含前期研究和数据成本),约为同规模闭源模型的不到 6%。
- MMLU 得分 88.5,超越所有开源模型。
- 多项基准对标 GPT-4o 和 Claude 3.5 Sonnet。
V3 是 DeepSeek 的"出圈之作"。它证明了:架构创新(而非堆算力)可以在成本极度压缩的前提下达到顶级性能。
5. DeepSeek R1(2025 年初):让模型自己学会思考
5.1 R1-Zero:纯强化学习的实验
R1 系列的出发点是一个大胆的问题:如果完全不靠人类标注的推理示例,仅用强化学习让模型自己学会推理,会怎样?
于是有了 R1-Zero——一个实验性版本:
- 不做任何监督微调(SFT)。
- 仅以答案正确性作为奖励信号。
- 训练过程中不告诉模型"中间步骤该怎么做"。
结果令人惊讶:模型自发涌现了自我反思、路径回溯、多步验证等推理行为。在 AIME 2024 数学竞赛中:
- 基础模型通过率:15.6%
- R1-Zero 通过率:77.9%
- 配合自信解码(Majority Voting):86.7%
这意味着推理能力本身可以通过强化学习激励产生——不需要人类标注全部推理步骤。
5.2 正式版 R1:冷启动 + 多阶段训练
R1-Zero 虽然推理强,但可读性差(推理过程混杂中英文,格式混乱)。正式版 R1 采用了一套多阶段方案:
- 冷启动数据:用少量高质量的人工标注推理示例做初步微调。
- 推理导向的强化学习:延续 R1-Zero 的 RL 流程,强化推理能力。
- 拒绝采样 + SFT:用 RL 后的模型生成大量推理样本,筛选高质量部分做新一轮监督微调,补齐通用对话能力。
- 全场景强化学习:最后用兼顾有用性、无害性和推理能力的混合奖励做最终 RL。
最终效果:
- AIME 2024 通过率 79.8%。
- CodeForce 编程竞赛中超越 96.3% 的人类选手。
5.3 蒸馏:把强推理装进小模型
R1 的另一个重要贡献是能力蒸馏——用 R1 生成的推理数据训练 1.5B、7B、8B、14B、32B、70B 等小型模型。
结果令人震惊:R1-Distill-Qwen-7B 在 AIME 2024 上的表现远超同尺寸的任何传统训练模型,甚至超过了 Llama 3 70B。
这验证了两个关键结论:
- 强推理能力可以压缩进低算力设备运行。
- 推理能力的提升路径是 RL,而不是更贵的 SFT 标注。
6. DeepSeek V3.2(2025 年中):智能体时代的 V3 升级
6.1 DSA 稀疏注意力
V3.2 最大的架构变化是 DSA(DeepSeek Sparse Attention)——一种稀疏注意力机制:
- 将长上下文的计算复杂度从 O(n²) 大幅降低。
- 稳定支持 128K 上下文长度,推理成本没有显著增加。
- 可一次性处理整本书或数小时的会议记录。
6.2 智能体工具调用能力的系统提升
V3.2 将 R1 的强化学习框架从纯文本推理扩展到了智能体任务:
- 构建了 1800+ 个不同环境和 8.5 万个复杂提示词用于训练。
- 训练目标是多步骤任务规划、工具调用的试错调整、环境反馈的理解。
- 模型不仅学会"调用工具",还学会了在工具调用失败时分析原因并自行纠正。
6.3 性能表现
- Terminal Bench 2.0 准确率 46.4%,在开源模型中显著领先。
- SWE-bench 得分 73.1,超过多数开源模型。
- Special 变体在 2025 年国际数学奥林匹克(IMO)和国际信息学奥林匹克(IOI)均获得金牌。
V3.2 标志着 DeepSeek 从"对话模型"正式跨入"智能体模型"阶段。
7. DeepSeek V4(2025 年底):双版本智能体旗舰
7.1 产品策略:双版本设计
V4 不再是一个"大一统"模型,而是针对不同场景拆分为两个版本:
| 维度 | V4 Pro | V4 Fresh |
|---|---|---|
| 总参数 | 1.6T | 未公开 |
| 激活参数 | 49B | 更少 |
| 定位 | 旗舰级推理与编程 | 轻量高效日常 |
| 上下文长度 | 100 万 token | 100 万 token |
两个版本都标配 100 万上下文长度,都支持非思考模式和思考模式,且思考模式的思考强度可调节——用户可以根据任务复杂度在"快速直觉"和"深度推理"之间滑动。
7.2 Pro 版性能
- Agent Coding 评测达到开源模型最佳水平,编程竞赛和数学推理能力大幅领先其他开源模型。
- 数学/STEM 竞赛代码评测中超越所有公开开源模型,成绩比肩顶尖闭源模型。
- 体验上优于 Sonnet 4.5,交付质量接近 GPT-4.6 非思考模式。
7.3 智能体生态适配
V4 的一个重要转变是从"评估基准好"到"实际智能体场景好":
- 针对 Claude Code、OpenCode 等主流智能体产品完成适配优化。
- 在代码任务和文档生成任务上的实际可用性显著提升。
- DeepSeek 官网和 API 均已上线 V4 两个版本。
8. DeepSeek 发展路线总结
8.1 每一代踩在了什么技术节点上
| 版本 | 核心命题 | 关键突破 |
|---|---|---|
| V1 | 数据质量和 Scaling Law 的关系 | 高质量数据让小模型也能强 |
| V2 | 怎么让大模型推理成本可接受 | MoE + MLA:千亿性能,百亿成本 |
| V3 | 怎么把训练成本打下来 | FP8 全流程训练 + 多 Token 预测 |
| R1 | 推理能力能不能不靠人工标注 | 纯 RL 推理:推理能力可"涌现" |
| V3.2 | 模型怎么跟外部工具协作 | DSA 稀疏注意力 + Agent RL |
| V4 | 怎么适配真实的智能体场景 | 双版本策略 + 百万上下文 + 可调思考强度 |
8.2 三条主线
回顾整个演进过程,可以抽出三条主线:
- 效率至上:从 V2 的 MoE 到 V3 的 FP8 到 V3.2 的 DSA,每一步都是在用架构创新替代"买更多显卡"。
- 推理能力的独立探索:R1 走了一条不同于"更多 SFT 数据"的路——用强化学习让模型自己学会推理。这个方向可能比任何单次性能提升都更有意义。
- 从对话到智能体:V3.2 和 V4 明确转向智能体场景。这意味着 DeepSeek 看到了模型的核心价值不是"回答得好",而是"做得对"。
8.3 未来展望
几个值得关注的方向:
- 国产芯片适配:DeepSeek 公开讨论过适配国产芯片进行训练的可能性。在当前英伟达芯片出口受限的背景下,这条路有战略意义——但生态成熟度是最大挑战。
- 强化学习的深化:R1 打开了"推理能力通过 RL 产生"的大门,下一步可能是更多认知能力的 RL 化——规划、验证、自我修正。
- 智能体原生模型:V4 已经针对智能体做了适配,但离"原生智能体模型"(即模型架构为智能体任务从头设计)还有距离。
结语
DeepSeek 的路线之所以值得关注,不是因为每一代"跑分最高",而是因为它展示了一条不同于闭源堆算力的路径:用架构创新换效率,用强化学习换推理能力,用开源换生态。在所有人都说"大模型必须烧钱"的时候,它交出了一份"557 万美元做出对标闭源模型"的答卷。
V1 到 V4,两年时间,六次迭代。每一步都踩在技术演进的关键节点上——没有一步是多余的。
