DeepSeek-V4 技术报告详尽笔记

🎯 核心结论

一句话概括

DeepSeek-V4 通过混合注意力架构（CSA+HCA）、流形约束超连接（mHC）和Muon优化器三大创新，在保持 1.6T 参数规模的同时，将百万 token 长上下文的推理 FLOPs 降低至 V3.2 的 27%，KV Cache 降至 10%，成为开源模型的性能天花板。

关键突破

效率革命：1M 上下文场景下，单 token 推理 FLOPs 仅为 V3.2 的 27%，KV Cache 仅 10%
性能登顶：V4-Pro-Max 在 Apex Shortlist 达到 90.2 分，超越所有闭源模型
双版本策略：Pro 版（1.6T/49B激活）追求极致性能，Flash 版（284B/13B激活）追求极致性价比
国产算力适配：已在华为昇腾 NPU 上完成推理验证

📊 模型规格对比

规格	V4-Pro	V4-Flash	V3.2（参考）
总参数	1.6T	284B	671B
激活参数	49B	13B	37B
上下文长度	1M tokens	1M tokens	128K
最大输出	384K	384K	8K
训练数据	33T tokens	32T tokens	14.8T
架构	MoE-v2 + 混合注意力		MoE

🏗️ 三大架构创新

1. 混合注意力机制（CSA + HCA）

Input Tokens → Embedding → Transformer Block ×L ↓ ┌─────────────┼─────────────┐ ↓ ↓ ↓ Pre-Block CSA / HCA Post-Block Mixing (混合注意力) Mixing ↓ ↓ ↓ Residual DeepSeekMoE Residual Mixing (FFN层) Mixing ↓ ↓ ↓ └─────────────┴─────────────┘ ↓ MTP Modules → Prediction Head

🔹 Compressed Sparse Attention (CSA)

压缩率 m:1

稀疏策略 Top-k 选择

核心特点压缩 + 稀疏

每 m 个 token 压缩为 1 个 KV entry，再通过 Lightning Indexer 选择 Top-k 个压缩块进行注意力计算

🔹 Heavily Compressed Attention (HCA)

压缩率 m':1 (m'≫m)

稀疏策略无（全连接）

核心特点极致压缩

更激进的压缩策略，将更多 token 合并为单个 KV entry，保持密集注意力以捕获全局信息

💡 混合策略的巧妙之处

CSA 和 HCA 交错使用：CSA 层负责精细的局部依赖建模（通过滑动窗口保留最近 n_win 个未压缩 KV），HCA 层负责高效的全局信息聚合。两者结合，既保证了局部精度，又实现了长距离依赖的高效计算。

2. 流形约束超连接（mHC）

升级传统残差连接，核心创新：

残差映射约束：将残差映射矩阵 B_l 约束到双随机矩阵流形（Birkhoff polytope），确保谱范数 ≤ 1
非扩张变换：保证前向传播和反向传播数值稳定性
动态参数化：A、B、C 三个映射矩阵由动态（输入相关）和静态（输入无关）两部分组成
Sinkhorn-Knopp 投影：通过迭代行列归一化将原始参数投影到约束流形

3. Muon 优化器

替代传统 AdamW，核心优势：

更快收敛：通过正交化更新方向，减少梯度噪声
更高稳定性：混合 Newton-Schulz 迭代（前8步快速收敛 + 后2步精确稳定）
无需 QK-Clip：V4 的注意力架构可直接应用 RMSNorm，避免注意力 logits 爆炸

⚡ 效率革命：数据说话

1M 上下文场景下的效率对比

指标	V4-Pro vs V3.2	V4-Flash vs V3.2
单 token 推理 FLOPs	27%	10%
KV Cache 大小	10%	7%
相比 BF16 GQA8 基线	KV Cache 降至约 2%

💡 效率提升的来源

混合存储格式：RoPE 维度用 BF16，其余维度用 FP8，KV Cache 减半
FP4 索引计算：Lightning Indexer 的注意力计算使用 FP4 精度
更小的 top-k：相比 V3.2 选择更小的注意力 top-k，提升短文本效率
压缩注意力：CSA 和 HCA 大幅减少 KV Cache 和计算量
FP4 专家权重：路由专家参数使用 FP4，未来硬件可进一步提升 1/3 效率

📈 核心评测结果

知识评测

Benchmark	V4-Pro-Max	对比模型	排名
SimpleQA	显著领先	所有开源模型	开源第一
Chinese-SimpleQA	显著领先	所有开源模型	开源第一
MMLU-Pro / HLE / GPQA	微弱领先	其他开源模型	开源第一
vs Gemini-3.1-Pro	仍有差距	闭源第一	接近

推理评测

Benchmark	V4-Pro-Max	对比
Apex Shortlist	90.2	超越所有闭源模型
Codeforces Rating	第一梯队	接近 GPT-5.4 / Gemini-3.1-Pro
MATH-500	96.1	开源最佳
GPQA	72.8	vs V3.2 的 59.4，大幅提升

Agent / 代码评测

Benchmark	V4-Pro-Max	定位
SWE-Bench Verified	80.6	开源最佳，接近 Claude Opus 4.6
Terminal-Bench 2.0	稳定表现	与 Kimi-K2.6、GLM-5.1 同级
内部 Agent Coding	优于 Sonnet 4.5	接近 Opus 4.5 水平

与闭源模型的差距评估

技术报告坦诚指出：V4-Pro-Max 在推理能力上落后顶级闭源模型约 3-6 个月。具体表现为：

超越 GPT-5.2 和 Gemini-3.0-Pro
略逊于 GPT-5.4 和 Gemini-3.1-Pro
Agent 能力上，与 Claude Opus 4.6 思考模式仍有差距

🔧 训练基础设施创新

1. 细粒度通信-计算重叠（Expert Parallelism）

关键洞察：通信延迟可以被计算隐藏

将 MoE 层的 Dispatch、Combine（通信密集型）与 Linear-1、Linear-2（计算密集型）融合为统一流水线
单 MoE 层内通信总时间 < 计算总时间
计算成为主导瓶颈，系统可容忍更低互联带宽而不降低端到端性能
在 NVIDIA GPU 和华为昇腾 NPU 上均实现 1.50~1.73x 加速

2. TileLang DSL

领域特定语言，平衡开发效率和运行时效率：

高层抽象降低内核开发门槛
编译时优化保证接近手写 CUDA 的性能

3. FP4 量化感知训练

MoE 专家权重和 Indexer QK 路径使用 FP4
减少内存占用和计算量
训练时即考虑量化误差，避免精度损失

4. 异构 KV Cache 管理

磁盘存储策略支持共享前缀复用
大幅降低长上下文场景的内存压力

🎓 后训练：两阶段专家培养

阶段一：独立专家培养 ├── 数学专家：SFT + RL (GRPO) ├── 代码专家：SFT + RL (GRPO) ├── Agent 专家：SFT + RL (GRPO) └── 指令遵循专家：SFT + RL (GRPO) ↓ 阶段二：统一模型整合 └── On-Policy Distillation (OPD) ├── 学生：统一模型 ├── 教师：各领域专家 └── 目标：优化 reverse KL loss

💡 为什么用 Reverse KL？

传统 KL 散度（Forward KL）会导致学生模型"平均化"教师分布，损失峰值能力。Reverse KL 鼓励学生模型只学习教师的高概率行为，避免覆盖所有低概率但可能错误的输出，从而保留专家的精准能力。

💰 API 定价（每百万 tokens）

模型	缓存命中输入	缓存未命中输入	输出
V4-Flash	¥0.2 ($0.14)	¥1 ($0.14)	¥2 ($0.28)
V4-Pro	¥1 ($0.14)	¥12 ($1.74)	¥24 ($3.48)

对比：Claude Sonnet 4.6 输入 $3/百万，输出 $15/百万；GPT-5.4 输入 $2.5/百万，输出 $15/百万

🔍 关键洞察与评价

1. 效率优先的设计理念

V4 的核心不是"更大"，而是"更高效"。通过 CSA+HCA 混合注意力，在 1.6T 参数规模下实现了比 671B 模型更低的推理成本。这证明：架构创新比单纯堆参数更有价值。

2. 长上下文的民主化

1M token 上下文不再是 Gemini-1.5-Pro 的专属。V4-Flash 以 ¥0.2/百万 的缓存命中价格，让百万上下文成为普惠能力。这将彻底改变 RAG、代码分析、多文档处理等场景。

3. 国产算力生态的关键一步

技术报告明确提到在华为昇腾 NPU 上完成推理验证，且性能提升幅度与 NVIDIA GPU 一致。在美国芯片管制背景下，这是国产 AI 芯片在大模型推理场景最权威的实战验证。

4. 开源策略的延续

DeepSeek 继续开源模型权重（MIT 许可），技术报告也开源了 CSA/HCA 的实现代码。这种"技术透明"策略正在重塑行业格局——闭源模型的溢价空间被不断压缩。

5. 与闭源模型的真实差距

技术报告坦诚 V4-Pro-Max 落后顶级闭源模型 3-6 个月。但考虑价格差距（V4-Pro 输出 ¥24/百万 vs GPT-5.4 Pro 输出 $180/百万，约 ¥1300/百万），这个性能差距是完全可以接受的。对于绝大多数应用场景，V4-Pro 已经足够好。

⚠️ 局限与未来方向

多模态能力：V4 目前仅支持文本，多模态版本尚未发布
语音/音频：未原生支持语音输入输出
实时交互：1M 上下文虽高效，但首 token 延迟仍有优化空间
安全对齐：技术报告未详细讨论安全训练细节

未来方向：更大规模的预训练、更强的多模态融合、更高效的推理框架、以及更完善的 Agent 工具链。

📝 总结

DeepSeek-V4 是什么？

它是第一个将百万 token 长上下文变成"可用且便宜"现实的开源模型。通过 CSA+HCA 混合注意力架构，它在 1.6T 参数规模下实现了前所未有的效率；通过 Muon 优化器和 mHC，它解决了大模型训练稳定性和信号传播难题；通过两阶段后训练，它在代码、数学、Agent 等关键领域达到开源最佳。

最重要的意义：它证明了中国团队可以在架构创新、工程优化和开源生态上同时做到世界一流，而不只是"跟随者"。