DeepSeek 大模型演进：从 V1 到 V4 的技术路线全梳理

引言

2025 年初，一条新闻震动了整个 AI 圈：DeepSeek V3 仅用约 557 万美元的训练成本，就在多项基准上对标了 OpenAI 的闭源模型——后者的训练成本是它的数十倍。这支来自中国的团队，用不到两年时间走完了从"追赶者"到"对标者"再到"定义者"的路径。

本文按时间线梳理 DeepSeek 从 V1 到 V4 的每一代核心技术决策：他们放弃了什么，选择了什么，以及每一代的具体突破是什么。

1. 创始人与算力基础

1.1 梁文峰：从量化交易到 AGI

梁文峰，1985 年出生，2002 年以当地高考状元身份考入浙江大学。2008 年全球金融危机期间，他带领团队开发出国内较早的 AI 量化交易模型——这是他与 AI 结缘的起点。

2010 年毕业后，梁文峰创办幻方科技，很快成长为量化投资领域的知名机构。但真正为后来的 DeepSeek 埋下伏笔的，是幻方在算力上的超前布局：

2019 年：投入 2 亿元研发"萤火一号"训练平台。
2021 年：投入 10 亿元建造"萤火二号"，搭载约 1 万张英伟达 A100 显卡。

2023 年 ChatGPT 引爆全球后，梁文峰将这些原本服务于量化交易的算力资源全部投入大模型研发，创立 DeepSeek。萤火集群由此从金融交易的引擎，变成了 AGI 探索的底座。

关键点：DeepSeek 不是从零起步的创业公司，它背靠幻方多年积累的万卡集群和工程团队。这是它敢于做"低成本大模型"的底牌。

2. DeepSeek V1（2024 年初）：先研究规律，再做模型

2.1 核心思路：Scaling Law 不能盲信

V1 阶段，团队没有直接堆参数，而是先做了一件事：系统研究模型大小、数据量和计算力之间的缩放定律（Scaling Law）。

当时的行业共识是"参数越大越好，数据越多越好"。但 DeepSeek 团队通过实验发现了一个反直觉的结论：高质量数据能让模型更小，同时性能更强。换句话说，在 Scaling Law 的曲线上，数据质量的权重被行业低估了。

2.2 数据集与模型发布

基于这个结论，团队构建了 2 万亿 token 的高质量数据集——重点不是"大"，而是"干净"。随后发布了两个版本的基座模型：

版本	参数量	定位
DeepSeek 7B	70 亿	轻量级，适合端侧和研究
DeepSeek 67B	670 亿	主力基座模型

2.3 性能表现

DeepSeek 67B 在代码能力和数学推理上超越 Llama 2 70B。
聊天版本在开放式评估中超过 GPT-3.5。

V1 证明了这一方法论的有效性：用高质量数据替代盲目堆参数，是一条可行的技术路线。这也奠定了 DeepSeek 后续"小而精"的基因。

3. DeepSeek V2（2024 年中）：千亿模型的性能，百亿模型的成本

3.1 MOE 架构的深度改造

V2 引入了 MoE（Mixture of Experts，混合专家） 架构，总参数达到 2360 亿，但每次推理仅激活 210 亿参数。这个设计实现了"千亿模型的性能、百亿模型的推理成本"。

DeepSeek 在标准 MoE 基础上做了两处关键改进：

细粒度专家 + 共享专家结构：传统 MoE 的每个"专家"是一个完整的 FFN 层，而 DeepSeek 将专家切分为更细的粒度，同时引入了一组所有 token 都要经过的"共享专家"。这样既保留了 MoE 的专业化优势，又保证了基础语言能力的稳定性。

设备限制路由（Device-Limited Routing）：传统 MoE 的一个痛点是负载不均衡——某些专家被频繁调用而另一些闲置。DeepSeek 提出的设备限制路由机制，在保证通信效率的同时强制让每个设备上的负载接近均衡，不需要额外的辅助损失函数。

3.2 MLA：把 KV 缓存减少 93.3%

Transformer 的推理成本中最让人头疼的是 KV 缓存——序列越长，缓存越大，显存越吃紧。DeepSeek V2 设计了 MLA（Multi-head Latent Attention，多头潜在注意力）：

通过低秩联合压缩，将 Key 和 Value 投影到一个远小于原始维度的潜在空间。
效果：KV 缓存减少 93.3%，且性能不降反升，甚至优于标准 MHA（Multi-Head Attention）。

这是 V2 能实现"千亿性能、百亿成本"的架构基石。

3.3 性能与成本表现

训练数据：8.1 万亿 token，提升了中文数据比例。
训练成本：降低 42.5%（与同规模密集模型对比）。
推理吞吐：生成吞吐量提升 5.76 倍。
基准表现：在两项数学推理测试中超越 Llama 3 70B。

4. DeepSeek V3（2024 年底）：FP8 大规模训练的里程碑

4.1 FP8 训练的技术攻坚

V3 的总参数达到 6710 亿，每次激活 370 亿参数。这个规模的训练如果使用传统的 FP16/BF16 精度，成本将难以承受。DeepSeek V3 的核心突破是：首次在大规模 MoE 模型上实现全流程 FP8 精度训练。

FP8 本身不新鲜，但大规模使用一直存在一个致命问题：训练不稳定。低精度下梯度容易溢出或下溢，导致 loss 不收敛。DeepSeek 团队的解法是两个配套技术：

分组缩放的量化策略：不全局统一量化，而是对每组参数单独计算缩放因子，让量化误差可控。
高精度累加方案：前向和反向传播用 FP8 加速，但关键累加操作保留高精度，防止误差累积。

效果：训练速度大幅提升，显存占用显著降低，且最终精度与 BF16 训练无明显差异。

4.2 多 Token 预测与负载均衡

V3 引入了两个额外创新：

多 Token 预测（Multi-Token Prediction）：训练时模型不仅预测下一个 token，还要同时预测下两个 token。这增加了训练信号的密度，让模型在每个 token 上学到更多信息。推理时，这个能力还能用于投机采样（Speculative Decoding），解码速度提升 1.8 倍。

偏置项负载均衡：V3 提出了一种不需要辅助损失函数的负载均衡方案——直接在路由分数上加一个可学习的偏置项。这种方式不干扰主任务训练，却能让各专家利用率接近均匀，性能优于传统方法。

4.3 成本与性能

全训练仅消耗约 557.6 万美元（不含前期研究和数据成本），约为同规模闭源模型的不到 6%。
MMLU 得分 88.5，超越所有开源模型。
多项基准对标 GPT-4o 和 Claude 3.5 Sonnet。

V3 是 DeepSeek 的"出圈之作"。它证明了：架构创新（而非堆算力）可以在成本极度压缩的前提下达到顶级性能。

5. DeepSeek R1（2025 年初）：让模型自己学会思考

5.1 R1-Zero：纯强化学习的实验

R1 系列的出发点是一个大胆的问题：如果完全不靠人类标注的推理示例，仅用强化学习让模型自己学会推理，会怎样？

于是有了 R1-Zero——一个实验性版本：

不做任何监督微调（SFT）。
仅以答案正确性作为奖励信号。
训练过程中不告诉模型"中间步骤该怎么做"。

结果令人惊讶：模型自发涌现了自我反思、路径回溯、多步验证等推理行为。在 AIME 2024 数学竞赛中：

基础模型通过率：15.6%
R1-Zero 通过率：77.9%
配合自信解码（Majority Voting）：86.7%

这意味着推理能力本身可以通过强化学习激励产生——不需要人类标注全部推理步骤。

5.2 正式版 R1：冷启动 + 多阶段训练

R1-Zero 虽然推理强，但可读性差（推理过程混杂中英文，格式混乱）。正式版 R1 采用了一套多阶段方案：

冷启动数据：用少量高质量的人工标注推理示例做初步微调。
推理导向的强化学习：延续 R1-Zero 的 RL 流程，强化推理能力。
拒绝采样 + SFT：用 RL 后的模型生成大量推理样本，筛选高质量部分做新一轮监督微调，补齐通用对话能力。
全场景强化学习：最后用兼顾有用性、无害性和推理能力的混合奖励做最终 RL。

最终效果：

AIME 2024 通过率 79.8%。
CodeForce 编程竞赛中超越 96.3% 的人类选手。

5.3 蒸馏：把强推理装进小模型

R1 的另一个重要贡献是能力蒸馏——用 R1 生成的推理数据训练 1.5B、7B、8B、14B、32B、70B 等小型模型。

结果令人震惊：R1-Distill-Qwen-7B 在 AIME 2024 上的表现远超同尺寸的任何传统训练模型，甚至超过了 Llama 3 70B。

这验证了两个关键结论：

强推理能力可以压缩进低算力设备运行。
推理能力的提升路径是 RL，而不是更贵的 SFT 标注。

6. DeepSeek V3.2（2025 年中）：智能体时代的 V3 升级

6.1 DSA 稀疏注意力

V3.2 最大的架构变化是 DSA（DeepSeek Sparse Attention）——一种稀疏注意力机制：

将长上下文的计算复杂度从 O(n²) 大幅降低。
稳定支持 128K 上下文长度，推理成本没有显著增加。
可一次性处理整本书或数小时的会议记录。

6.2 智能体工具调用能力的系统提升

V3.2 将 R1 的强化学习框架从纯文本推理扩展到了智能体任务：

构建了 1800+ 个不同环境和 8.5 万个复杂提示词用于训练。
训练目标是多步骤任务规划、工具调用的试错调整、环境反馈的理解。
模型不仅学会"调用工具"，还学会了在工具调用失败时分析原因并自行纠正。

6.3 性能表现

Terminal Bench 2.0 准确率 46.4%，在开源模型中显著领先。
SWE-bench 得分 73.1，超过多数开源模型。
Special 变体在 2025 年国际数学奥林匹克（IMO）和国际信息学奥林匹克（IOI）均获得金牌。

V3.2 标志着 DeepSeek 从"对话模型"正式跨入"智能体模型"阶段。

7. DeepSeek V4（2025 年底）：双版本智能体旗舰

7.1 产品策略：双版本设计

V4 不再是一个"大一统"模型，而是针对不同场景拆分为两个版本：

维度	V4 Pro	V4 Fresh
总参数	1.6T	未公开
激活参数	49B	更少
定位	旗舰级推理与编程	轻量高效日常
上下文长度	100 万 token	100 万 token

两个版本都标配 100 万上下文长度，都支持非思考模式和思考模式，且思考模式的思考强度可调节——用户可以根据任务复杂度在"快速直觉"和"深度推理"之间滑动。

7.2 Pro 版性能

Agent Coding 评测达到开源模型最佳水平，编程竞赛和数学推理能力大幅领先其他开源模型。
数学/STEM 竞赛代码评测中超越所有公开开源模型，成绩比肩顶尖闭源模型。
体验上优于 Sonnet 4.5，交付质量接近 GPT-4.6 非思考模式。

7.3 智能体生态适配

V4 的一个重要转变是从"评估基准好"到"实际智能体场景好"：

针对 Claude Code、OpenCode 等主流智能体产品完成适配优化。
在代码任务和文档生成任务上的实际可用性显著提升。
DeepSeek 官网和 API 均已上线 V4 两个版本。

8. DeepSeek 发展路线总结

8.1 每一代踩在了什么技术节点上

版本	核心命题	关键突破
V1	数据质量和 Scaling Law 的关系	高质量数据让小模型也能强
V2	怎么让大模型推理成本可接受	MoE + MLA：千亿性能，百亿成本
V3	怎么把训练成本打下来	FP8 全流程训练 + 多 Token 预测
R1	推理能力能不能不靠人工标注	纯 RL 推理：推理能力可"涌现"
V3.2	模型怎么跟外部工具协作	DSA 稀疏注意力 + Agent RL
V4	怎么适配真实的智能体场景	双版本策略 + 百万上下文 + 可调思考强度

8.2 三条主线

回顾整个演进过程，可以抽出三条主线：

效率至上：从 V2 的 MoE 到 V3 的 FP8 到 V3.2 的 DSA，每一步都是在用架构创新替代"买更多显卡"。
推理能力的独立探索：R1 走了一条不同于"更多 SFT 数据"的路——用强化学习让模型自己学会推理。这个方向可能比任何单次性能提升都更有意义。
从对话到智能体：V3.2 和 V4 明确转向智能体场景。这意味着 DeepSeek 看到了模型的核心价值不是"回答得好"，而是"做得对"。

8.3 未来展望

几个值得关注的方向：

国产芯片适配：DeepSeek 公开讨论过适配国产芯片进行训练的可能性。在当前英伟达芯片出口受限的背景下，这条路有战略意义——但生态成熟度是最大挑战。
强化学习的深化：R1 打开了"推理能力通过 RL 产生"的大门，下一步可能是更多认知能力的 RL 化——规划、验证、自我修正。
智能体原生模型：V4 已经针对智能体做了适配，但离"原生智能体模型"（即模型架构为智能体任务从头设计）还有距离。

结语

DeepSeek 的路线之所以值得关注，不是因为每一代"跑分最高"，而是因为它展示了一条不同于闭源堆算力的路径：用架构创新换效率，用强化学习换推理能力，用开源换生态。在所有人都说"大模型必须烧钱"的时候，它交出了一份"557 万美元做出对标闭源模型"的答卷。

V1 到 V4，两年时间，六次迭代。每一步都踩在技术演进的关键节点上——没有一步是多余的。

DeepSeek 大模型演进：从 V1 到 V4 的技术路线全梳理 ​

引言 ​

1. 创始人与算力基础 ​

1.1 梁文峰：从量化交易到 AGI ​

2. DeepSeek V1（2024 年初）：先研究规律，再做模型 ​

2.1 核心思路：Scaling Law 不能盲信 ​

2.2 数据集与模型发布 ​

2.3 性能表现 ​

3. DeepSeek V2（2024 年中）：千亿模型的性能，百亿模型的成本 ​

3.1 MOE 架构的深度改造 ​

3.2 MLA：把 KV 缓存减少 93.3% ​

3.3 性能与成本表现 ​

4. DeepSeek V3（2024 年底）：FP8 大规模训练的里程碑 ​

4.1 FP8 训练的技术攻坚 ​

4.2 多 Token 预测与负载均衡 ​

4.3 成本与性能 ​

5. DeepSeek R1（2025 年初）：让模型自己学会思考 ​

5.1 R1-Zero：纯强化学习的实验 ​

5.2 正式版 R1：冷启动 + 多阶段训练 ​

5.3 蒸馏：把强推理装进小模型 ​

6. DeepSeek V3.2（2025 年中）：智能体时代的 V3 升级 ​

6.1 DSA 稀疏注意力 ​

6.2 智能体工具调用能力的系统提升 ​

6.3 性能表现 ​

7. DeepSeek V4（2025 年底）：双版本智能体旗舰 ​

7.1 产品策略：双版本设计 ​

7.2 Pro 版性能 ​

7.3 智能体生态适配 ​

8. DeepSeek 发展路线总结 ​

8.1 每一代踩在了什么技术节点上 ​

8.2 三条主线 ​

8.3 未来展望 ​

结语 ​