Towards Highly Efficient Million-Token Context Intelligence
DeepSeek-V4 通过混合注意力架构(CSA+HCA)、流形约束超连接(mHC)和Muon优化器三大创新,在保持 1.6T 参数规模的同时,将百万 token 长上下文的推理 FLOPs 降低至 V3.2 的 27%,KV Cache 降至 10%,成为开源模型的性能天花板。
| 规格 | V4-Pro | V4-Flash | V3.2(参考) |
|---|---|---|---|
| 总参数 | 1.6T | 284B | 671B |
| 激活参数 | 49B | 13B | 37B |
| 上下文长度 | 1M tokens | 1M tokens | 128K |
| 最大输出 | 384K | 384K | 8K |
| 训练数据 | 33T tokens | 32T tokens | 14.8T |
| 架构 | MoE-v2 + 混合注意力 | MoE | |
每 m 个 token 压缩为 1 个 KV entry,再通过 Lightning Indexer 选择 Top-k 个压缩块进行注意力计算
更激进的压缩策略,将更多 token 合并为单个 KV entry,保持密集注意力以捕获全局信息
CSA 和 HCA 交错使用:CSA 层负责精细的局部依赖建模(通过滑动窗口保留最近 n_win 个未压缩 KV),HCA 层负责高效的全局信息聚合。两者结合,既保证了局部精度,又实现了长距离依赖的高效计算。
升级传统残差连接,核心创新:
替代传统 AdamW,核心优势:
| 指标 | V4-Pro vs V3.2 | V4-Flash vs V3.2 |
|---|---|---|
| 单 token 推理 FLOPs | 27% | 10% |
| KV Cache 大小 | 10% | 7% |
| 相比 BF16 GQA8 基线 | KV Cache 降至约 2% | |
| Benchmark | V4-Pro-Max | 对比模型 | 排名 |
|---|---|---|---|
| SimpleQA | 显著领先 | 所有开源模型 | 开源第一 |
| Chinese-SimpleQA | 显著领先 | 所有开源模型 | 开源第一 |
| MMLU-Pro / HLE / GPQA | 微弱领先 | 其他开源模型 | 开源第一 |
| vs Gemini-3.1-Pro | 仍有差距 | 闭源第一 | 接近 |
| Benchmark | V4-Pro-Max | 对比 |
|---|---|---|
| Apex Shortlist | 90.2 | 超越所有闭源模型 |
| Codeforces Rating | 第一梯队 | 接近 GPT-5.4 / Gemini-3.1-Pro |
| MATH-500 | 96.1 | 开源最佳 |
| GPQA | 72.8 | vs V3.2 的 59.4,大幅提升 |
| Benchmark | V4-Pro-Max | 定位 |
|---|---|---|
| SWE-Bench Verified | 80.6 | 开源最佳,接近 Claude Opus 4.6 |
| Terminal-Bench 2.0 | 稳定表现 | 与 Kimi-K2.6、GLM-5.1 同级 |
| 内部 Agent Coding | 优于 Sonnet 4.5 | 接近 Opus 4.5 水平 |
技术报告坦诚指出:V4-Pro-Max 在推理能力上落后顶级闭源模型约 3-6 个月。具体表现为:
关键洞察:通信延迟可以被计算隐藏
领域特定语言,平衡开发效率和运行时效率:
传统 KL 散度(Forward KL)会导致学生模型"平均化"教师分布,损失峰值能力。Reverse KL 鼓励学生模型只学习教师的高概率行为,避免覆盖所有低概率但可能错误的输出,从而保留专家的精准能力。
| 模型 | 缓存命中输入 | 缓存未命中输入 | 输出 |
|---|---|---|---|
| V4-Flash | ¥0.2 ($0.14) | ¥1 ($0.14) | ¥2 ($0.28) |
| V4-Pro | ¥1 ($0.14) | ¥12 ($1.74) | ¥24 ($3.48) |
对比:Claude Sonnet 4.6 输入 $3/百万,输出 $15/百万;GPT-5.4 输入 $2.5/百万,输出 $15/百万
V4 的核心不是"更大",而是"更高效"。通过 CSA+HCA 混合注意力,在 1.6T 参数规模下实现了比 671B 模型更低的推理成本。这证明:架构创新比单纯堆参数更有价值。
1M token 上下文不再是 Gemini-1.5-Pro 的专属。V4-Flash 以 ¥0.2/百万 的缓存命中价格,让百万上下文成为普惠能力。这将彻底改变 RAG、代码分析、多文档处理等场景。
技术报告明确提到在华为昇腾 NPU 上完成推理验证,且性能提升幅度与 NVIDIA GPU 一致。在美国芯片管制背景下,这是国产 AI 芯片在大模型推理场景最权威的实战验证。
DeepSeek 继续开源模型权重(MIT 许可),技术报告也开源了 CSA/HCA 的实现代码。这种"技术透明"策略正在重塑行业格局——闭源模型的溢价空间被不断压缩。
技术报告坦诚 V4-Pro-Max 落后顶级闭源模型 3-6 个月。但考虑价格差距(V4-Pro 输出 ¥24/百万 vs GPT-5.4 Pro 输出 $180/百万,约 ¥1300/百万),这个性能差距是完全可以接受的。对于绝大多数应用场景,V4-Pro 已经足够好。
未来方向:更大规模的预训练、更强的多模态融合、更高效的推理框架、以及更完善的 Agent 工具链。
它是第一个将百万 token 长上下文变成"可用且便宜"现实的开源模型。通过 CSA+HCA 混合注意力架构,它在 1.6T 参数规模下实现了前所未有的效率;通过 Muon 优化器和 mHC,它解决了大模型训练稳定性和信号传播难题;通过两阶段后训练,它在代码、数学、Agent 等关键领域达到开源最佳。
最重要的意义:它证明了中国团队可以在架构创新、工程优化和开源生态上同时做到世界一流,而不只是"跟随者"。