DeepSeek-V4 技术报告详尽笔记

Towards Highly Efficient Million-Token Context Intelligence

📄 技术报告精读 🏢 DeepSeek-AI 📅 2026年4月

🎯 核心结论

一句话概括

DeepSeek-V4 通过混合注意力架构(CSA+HCA)流形约束超连接(mHC)Muon优化器三大创新,在保持 1.6T 参数规模的同时,将百万 token 长上下文的推理 FLOPs 降低至 V3.2 的 27%,KV Cache 降至 10%,成为开源模型的性能天花板。

关键突破

  • 效率革命:1M 上下文场景下,单 token 推理 FLOPs 仅为 V3.2 的 27%,KV Cache 仅 10%
  • 性能登顶:V4-Pro-Max 在 Apex Shortlist 达到 90.2 分,超越所有闭源模型
  • 双版本策略:Pro 版(1.6T/49B激活)追求极致性能,Flash 版(284B/13B激活)追求极致性价比
  • 国产算力适配:已在华为昇腾 NPU 上完成推理验证

📊 模型规格对比

规格 V4-Pro V4-Flash V3.2(参考)
总参数 1.6T 284B 671B
激活参数 49B 13B 37B
上下文长度 1M tokens 1M tokens 128K
最大输出 384K 384K 8K
训练数据 33T tokens 32T tokens 14.8T
架构 MoE-v2 + 混合注意力 MoE

🏗️ 三大架构创新

1. 混合注意力机制(CSA + HCA)

Input Tokens → Embedding → Transformer Block ×L ↓ ┌─────────────┼─────────────┐ ↓ ↓ ↓ Pre-Block CSA / HCA Post-Block Mixing (混合注意力) Mixing ↓ ↓ ↓ Residual DeepSeekMoE Residual Mixing (FFN层) Mixing ↓ ↓ ↓ └─────────────┴─────────────┘ ↓ MTP Modules → Prediction Head

🔹 Compressed Sparse Attention (CSA)

压缩率 m:1
稀疏策略 Top-k 选择
核心特点 压缩 + 稀疏

每 m 个 token 压缩为 1 个 KV entry,再通过 Lightning Indexer 选择 Top-k 个压缩块进行注意力计算

🔹 Heavily Compressed Attention (HCA)

压缩率 m':1 (m'≫m)
稀疏策略 无(全连接)
核心特点 极致压缩

更激进的压缩策略,将更多 token 合并为单个 KV entry,保持密集注意力以捕获全局信息

💡 混合策略的巧妙之处

CSA 和 HCA 交错使用:CSA 层负责精细的局部依赖建模(通过滑动窗口保留最近 n_win 个未压缩 KV),HCA 层负责高效的全局信息聚合。两者结合,既保证了局部精度,又实现了长距离依赖的高效计算。

2. 流形约束超连接(mHC)

升级传统残差连接,核心创新:

3. Muon 优化器

替代传统 AdamW,核心优势:

⚡ 效率革命:数据说话

1M 上下文场景下的效率对比

指标 V4-Pro vs V3.2 V4-Flash vs V3.2
单 token 推理 FLOPs 27% 10%
KV Cache 大小 10% 7%
相比 BF16 GQA8 基线 KV Cache 降至约 2%

💡 效率提升的来源

  1. 混合存储格式:RoPE 维度用 BF16,其余维度用 FP8,KV Cache 减半
  2. FP4 索引计算:Lightning Indexer 的注意力计算使用 FP4 精度
  3. 更小的 top-k:相比 V3.2 选择更小的注意力 top-k,提升短文本效率
  4. 压缩注意力:CSA 和 HCA 大幅减少 KV Cache 和计算量
  5. FP4 专家权重:路由专家参数使用 FP4,未来硬件可进一步提升 1/3 效率

📈 核心评测结果

知识评测

Benchmark V4-Pro-Max 对比模型 排名
SimpleQA 显著领先 所有开源模型 开源第一
Chinese-SimpleQA 显著领先 所有开源模型 开源第一
MMLU-Pro / HLE / GPQA 微弱领先 其他开源模型 开源第一
vs Gemini-3.1-Pro 仍有差距 闭源第一 接近

推理评测

Benchmark V4-Pro-Max 对比
Apex Shortlist 90.2 超越所有闭源模型
Codeforces Rating 第一梯队 接近 GPT-5.4 / Gemini-3.1-Pro
MATH-500 96.1 开源最佳
GPQA 72.8 vs V3.2 的 59.4,大幅提升

Agent / 代码评测

Benchmark V4-Pro-Max 定位
SWE-Bench Verified 80.6 开源最佳,接近 Claude Opus 4.6
Terminal-Bench 2.0 稳定表现 与 Kimi-K2.6、GLM-5.1 同级
内部 Agent Coding 优于 Sonnet 4.5 接近 Opus 4.5 水平

与闭源模型的差距评估

技术报告坦诚指出:V4-Pro-Max 在推理能力上落后顶级闭源模型约 3-6 个月。具体表现为:

  • 超越 GPT-5.2 和 Gemini-3.0-Pro
  • 略逊于 GPT-5.4 和 Gemini-3.1-Pro
  • Agent 能力上,与 Claude Opus 4.6 思考模式仍有差距

🔧 训练基础设施创新

1. 细粒度通信-计算重叠(Expert Parallelism)

关键洞察:通信延迟可以被计算隐藏

2. TileLang DSL

领域特定语言,平衡开发效率和运行时效率:

3. FP4 量化感知训练

4. 异构 KV Cache 管理

🎓 后训练:两阶段专家培养

阶段一:独立专家培养 ├── 数学专家:SFT + RL (GRPO) ├── 代码专家:SFT + RL (GRPO) ├── Agent 专家:SFT + RL (GRPO) └── 指令遵循专家:SFT + RL (GRPO) ↓ 阶段二:统一模型整合 └── On-Policy Distillation (OPD) ├── 学生:统一模型 ├── 教师:各领域专家 └── 目标:优化 reverse KL loss

💡 为什么用 Reverse KL?

传统 KL 散度(Forward KL)会导致学生模型"平均化"教师分布,损失峰值能力。Reverse KL 鼓励学生模型只学习教师的高概率行为,避免覆盖所有低概率但可能错误的输出,从而保留专家的精准能力。

💰 API 定价(每百万 tokens)

模型 缓存命中输入 缓存未命中输入 输出
V4-Flash ¥0.2 ($0.14) ¥1 ($0.14) ¥2 ($0.28)
V4-Pro ¥1 ($0.14) ¥12 ($1.74) ¥24 ($3.48)

对比:Claude Sonnet 4.6 输入 $3/百万,输出 $15/百万;GPT-5.4 输入 $2.5/百万,输出 $15/百万

🔍 关键洞察与评价

1. 效率优先的设计理念

V4 的核心不是"更大",而是"更高效"。通过 CSA+HCA 混合注意力,在 1.6T 参数规模下实现了比 671B 模型更低的推理成本。这证明:架构创新比单纯堆参数更有价值。

2. 长上下文的民主化

1M token 上下文不再是 Gemini-1.5-Pro 的专属。V4-Flash 以 ¥0.2/百万 的缓存命中价格,让百万上下文成为普惠能力。这将彻底改变 RAG、代码分析、多文档处理等场景。

3. 国产算力生态的关键一步

技术报告明确提到在华为昇腾 NPU 上完成推理验证,且性能提升幅度与 NVIDIA GPU 一致。在美国芯片管制背景下,这是国产 AI 芯片在大模型推理场景最权威的实战验证。

4. 开源策略的延续

DeepSeek 继续开源模型权重(MIT 许可),技术报告也开源了 CSA/HCA 的实现代码。这种"技术透明"策略正在重塑行业格局——闭源模型的溢价空间被不断压缩。

5. 与闭源模型的真实差距

技术报告坦诚 V4-Pro-Max 落后顶级闭源模型 3-6 个月。但考虑价格差距(V4-Pro 输出 ¥24/百万 vs GPT-5.4 Pro 输出 $180/百万,约 ¥1300/百万),这个性能差距是完全可以接受的。对于绝大多数应用场景,V4-Pro 已经足够好。

⚠️ 局限与未来方向

未来方向:更大规模的预训练、更强的多模态融合、更高效的推理框架、以及更完善的 Agent 工具链。

📝 总结

DeepSeek-V4 是什么?

它是第一个将百万 token 长上下文变成"可用且便宜"现实的开源模型。通过 CSA+HCA 混合注意力架构,它在 1.6T 参数规模下实现了前所未有的效率;通过 Muon 优化器和 mHC,它解决了大模型训练稳定性和信号传播难题;通过两阶段后训练,它在代码、数学、Agent 等关键领域达到开源最佳。

最重要的意义:它证明了中国团队可以在架构创新、工程优化和开源生态上同时做到世界一流,而不只是"跟随者"。