DeepSeek：一家你可能低估的中国公司，正在重塑全球 AI 的成本结构

2025 年 1 月 20 日，当 DeepSeek-R1 的论文和模型权重出现在网上时，我连夜读完那篇 22 页的技术报告，唯一的感觉是：这个行业的游戏规则要被改写了。不是因为它有多强（虽然它确实很强），而是因为它证明了一件事——顶级推理模型的训练成本，不是 $100M 起步，而是可能只需要 $5.6M。

这件事的冲击力，等于告诉整个汽车行业："我们造了一辆比特斯拉还快的车，但只花了丰田卡罗拉的钱。"

DeepSeek-V3：671B 参数，训练只花 557 万美元？

先说我自己的判断：557 万美元这个数字（DeepSeek 官方公布的 V3 总训练成本）肯定是排除了很多非直接训练开销（研究探索、模型试错、数据准备、人才成本）的"纯 GPU 小时"价格。但你就算把这个数字乘以 3 或者乘以 5，它仍然比同等级模型便宜了至少一个数量级。Meta 训 Llama 3 花了数亿美元，OpenAI 训 GPT-4 估计是 8000 万到 1 亿美元以上。

DeepSeek 怎么做到的？三个关键技术：

1. MoE + FP8 混合精度训练

DeepSeek-V3 是一个 MoE（混合专家）架构，总参数 671B，但每次推理只激活约 37B 参数（占总参数量的 5.5%）。这意味着什么？训练时只需要更新激活部分的梯度，推理时只需要计算激活部分的前向传播。671B 的"大脑"只需要 37B 的"消耗"。

而且 DeepSeek 是第一批在如此大规模上使用 FP8（8-bit 浮点）混合精度训练的公司之一。从 FP16/BF16 降到 FP8，理论上能节省一半的显存和带宽，但在 671B 的规模上做到稳定收敛的工程难度是地狱级的。DeepSeek 设计了一套精细的 block-wise quantilization 和梯度缩放策略，才让 FP8 训练不崩。

2. MLA（Multi-head Latent Attention）

这是 DeepSeek 最核心的原创技术突破。KV Cache 是大模型推理时的最大瓶颈——上下文越长，KV Cache 占的显存越多。传统 MHA 的 KV 缓存随序列长度线性增长，每层都要存。MLA 通过低秩压缩（low-rank compression）把 KV 矩阵投影到一个小得多的潜在空间，解耦了模型容量和缓存开销。根据 DeepSeek 的论文，MLA 能把 KV Cache 减少到传统方法的 5%-13%。

在实际使用中这意味着什么？意味着 128K 上下文的推理成本降低了 80-90%，而且显存占用大幅下降，低端显卡也能跑长上下文。这也是为什么 DeepSeek 的 API 价格可以这么低——推理服务的基础成本本来就低。

3. 辅助损失自由的负载均衡

MoE 的一个经典问题是"专家不平衡"——某些专家被频繁调用而另一些被闲置，导致计算资源浪费。传统的解决方法是加辅助损失来强制平衡，但这会损害模型质量。DeepSeek 提出了一种无需辅助损失的动态偏置调整方案，在保持专家利用率均衡的同时不降低模型性能。这听起来像个小改进，但对 MoE 的实际效率影响巨大。

DeepSeek-R1：把"思考"开源给全世界

DeepSeek-R1 是在 V3 的基础上通过强化学习训练出的推理模型，对标 OpenAI o1。它的重要之处不是"又一个推理模型"，而是它完整展示了"怎么做一个推理模型"——方法、步骤、数据、失败尝试——全部开放。

R1-Zero：纯 RL 的狂野实验

DeepSeek 的做法分四步，但最有趣的可能是第一步——R1-Zero。他们没有用任何监督微调（SFT）数据，直接从 DeepSeek-V3 基座出发，用纯 RL（GRPO，Group Relative Policy Optimization）训练推理能力。

结果呢？R1-Zero 展现出了令人惊讶的自发推理行为——模型自己学会了反思、验证、探索不同的解题路径。但问题也很明显：输出可读性差，中英文混杂，格式混乱。纯 RL 让模型"变聪明"但没有"变礼貌"。

从 R1-Zero 到 R1：冷启动 + 多阶段训练

正式版 R1 用了更精密的训练策略：

先用少量高质量的"冷启动"数据做 SFT（让模型学会"思考的格式"）
然后用 RL 强化推理能力
再用推理模型生成大量新数据，加上通用数据做第二次 SFT（混合推理和通用能力）
最后再做一轮 RL

这个四阶段流程看起来复杂，但核心逻辑是清晰的："先教会格式，再锻炼推理，最后融合平衡"。

GRPO 这个算法的选择也很厉害——传统 PPO 需要一个 critic 模型（和 actor 模型一样大甚至更大），训练成本翻倍。GRPO 直接用同一批里其他响应的平均分作为基线，不需要 critic。这让大规模 RL 训练的显存和计算成本大幅下降。

蒸馏：R1 能力"压缩"到小模型

DeepSeek 把 R1 的能力通过蒸馏（distillation）迁移到了 1.5B、7B、8B、14B、32B、70B 的一系列小模型上。这些"R1-Distill"模型在数学和推理任务上的表现让人震惊——Qwen2.5-32B 的蒸馏版在 AIME 2024 上达到了 72.6%，DeepSeek-R1-Distill-Llama-70B 达到了 70.0%。要知道这甚至高于 o1-mini（63.6%）。

蒸馏策略的实际意义：你不需要租 8 张 H100，一张 RTX 4090 跑 32B 模型就能获得接近顶级推理模型的能力。这才是真正让个人开发者和中小公司受益的开放。

API 定价：比白菜还白菜

这是 DeepSeek 最"离谱"的地方。以最新的 DeepSeek-V4 定价为例：

DeepSeek-V4-Flash：输入 $0.14/M token，输出 $0.28/M token（相当于 ¥1/¥2）
DeepSeek-V4-Pro：输入 $1.74/M token，输出 $3.48/M token（75% 折扣后；正式定价是 $0.435/$0.87）

作为对比，GPT-5.4 mini 是 $0.75/$4.50，Claude Haiku 4.5 是 $1/$5。DeepSeek Pro 级别的模型定价只相当于别家的 mini 级别——这是质的差距。

而且这已经是涨价后的价格了。DeepSeek 刚发布时的 V3 API 价格大约是 ¥1/$0.14 输入，¥2/$0.28 输出——基本上是 GPT-4o 的 1/50。这种定价不是为了赚钱，明显是为了抢占市场份额。从 2025 年 1 月 R1 发布后，全球各大 AI 公司（包括 OpenAI 和 Google）都开始快速降价——我用过不少 API，价格下跌的曲线和 DeepSeek 的发布节点高度重合。

但 DeepSeek 也有两个问题让开发者头疼：一是服务器容量有限，高峰时段经常限流或中断（没办法，全球用户都涌进来，它的 GPU 数量显然不足）；二是中文审查——很多政治相关的话题会被直接拒绝。这两个限制对某些应用场景是致命伤。

DeepSeek 为什么这么重要？

DeepSeek 的意义超越了它本身的技术指标。它证明了：

高端模型不需要高端预算。在 GPU 被制裁的情况下（美国限制向中国出口 A100/H100，后来是 H800），DeepSeek 用更少的资源和聪明的架构设计做出了顶级模型。这对全球 AI 行业意味着"技术壁垒没有想象中那么高"。
开源能让巨头降价。DeepSeek 开源 V3 和 R1 后，OpenAI 加速了 GPT-4o mini 的推出并大幅降价，Google 也在 Flash 线上大幅下调了 API 价格。开源模型的竞争压力对封闭 API 的定价有直接影响。
MoE 不只是 GPT-4 的专利。之前很多人觉得 MoE 训练太难，只有 OpenAI 能做好（GPT-4 就是 MoE）。DeepSeek 证明了 MoE 是可以被复现和超越的——而且成本更低。
RL 训练推理模型可以不用 SFT 数据。R1-Zero 的纯 RL 实验是个重要的科学发现——模型不通过模仿人类思考，也能自发学会推理。这对理解"推理能力的涌现"有深刻意义。

不足与局限性

我必须诚实地指出 DeepSeek 的问题：

中文限制。和所有大陆 AI 模型一样，DeepSeek 有内容审查，涉及政治敏感的话题会被拒绝或给出模板化回答。这可能对某些用户是不可接受的。
英文不够优雅。DeepSeek 生成的英文在语法上正确，但在文采、自然度和文化细微差别上，明显不如 GPT-4o 和 Claude。如果你需要写英文营销文案或文学性文本，DeepSeek 不是最佳选择。
服务稳定性。API 的高峰期延迟和可用性问题频繁，DeepSeek 的 GPU 集群规模显然跟不上它的用户增长速度。
偶尔的"中英混杂"。在非 Thinking 模式下使用英文时，模型偶尔会出现中文词汇混入，这是训练数据配比的问题。

我的建议

如果你做中文应用且预算极其有限：DeepSeek-V4-Flash 或 DeepSeek-V3 API 是性价比之王，尤其在中文客服、简单问答、批量文本处理上
数学推导、逻辑推理、竞赛编程：DeepSeek-R1 或 V4-Pro 的 Thinking 模式，效果匹敌 o1 但价格不到 1/10
本地代码开发：DeepSeek Coder 33B 或 DeepSeek-R1-Distill-Qwen-32B，一张高端显卡就能跑，代码能力不输 GPT-4o
需要英文创意写作或全球市场营销：还是用 GPT-5 或 Claude 更好，DeepSeek 的英文表达能力有代差
对合规和审查敏感的应用：你懂的，选其他
如果你是 AI 研究者/学生：DeepSeek 的论文和开源模型是金矿——MLA、GRPO、纯 RL 推理、蒸馏策略都值得深度研究

回头看，我觉得 DeepSeek 是 2025 年全球 AI 行业最重要的公司——不是因为技术最好，而是因为它改变了"高性能 AI 必须昂贵"这个底层假设。它的出现让 GPT-4 级别的能力以近乎零成本的方式变得可得。这种"技术民主化"的价值，可能比任何一家公司单独的技术突破都更深远。

DeepSeek：一家你可能低估的中国公司，正在重塑全球 AI 的成本结构 ​

DeepSeek-V3：671B 参数，训练只花 557 万美元？ ​

DeepSeek-R1：把"思考"开源给全世界 ​

API 定价：比白菜还白菜 ​

DeepSeek 为什么这么重要？ ​

不足与局限性 ​

我的建议 ​