Skip to content

DeepSeek:一家你可能低估的中国公司,正在重塑全球 AI 的成本结构

2025 年 1 月 20 日,当 DeepSeek-R1 的论文和模型权重出现在网上时,我连夜读完那篇 22 页的技术报告,唯一的感觉是:这个行业的游戏规则要被改写了。不是因为它有多强(虽然它确实很强),而是因为它证明了一件事——顶级推理模型的训练成本,不是 $100M 起步,而是可能只需要 $5.6M。

这件事的冲击力,等于告诉整个汽车行业:"我们造了一辆比特斯拉还快的车,但只花了丰田卡罗拉的钱。"

DeepSeek-V3:671B 参数,训练只花 557 万美元?

先说我自己的判断:557 万美元这个数字(DeepSeek 官方公布的 V3 总训练成本)肯定是排除了很多非直接训练开销(研究探索、模型试错、数据准备、人才成本)的"纯 GPU 小时"价格。但你就算把这个数字乘以 3 或者乘以 5,它仍然比同等级模型便宜了至少一个数量级。Meta 训 Llama 3 花了数亿美元,OpenAI 训 GPT-4 估计是 8000 万到 1 亿美元以上。

DeepSeek 怎么做到的?三个关键技术:

1. MoE + FP8 混合精度训练

DeepSeek-V3 是一个 MoE(混合专家)架构,总参数 671B,但每次推理只激活约 37B 参数(占总参数量的 5.5%)。这意味着什么?训练时只需要更新激活部分的梯度,推理时只需要计算激活部分的前向传播。671B 的"大脑"只需要 37B 的"消耗"。

而且 DeepSeek 是第一批在如此大规模上使用 FP8(8-bit 浮点)混合精度训练的公司之一。从 FP16/BF16 降到 FP8,理论上能节省一半的显存和带宽,但在 671B 的规模上做到稳定收敛的工程难度是地狱级的。DeepSeek 设计了一套精细的 block-wise quantilization 和梯度缩放策略,才让 FP8 训练不崩。

2. MLA(Multi-head Latent Attention)

这是 DeepSeek 最核心的原创技术突破。KV Cache 是大模型推理时的最大瓶颈——上下文越长,KV Cache 占的显存越多。传统 MHA 的 KV 缓存随序列长度线性增长,每层都要存。MLA 通过低秩压缩(low-rank compression)把 KV 矩阵投影到一个小得多的潜在空间,解耦了模型容量和缓存开销。根据 DeepSeek 的论文,MLA 能把 KV Cache 减少到传统方法的 5%-13%。

在实际使用中这意味着什么?意味着 128K 上下文的推理成本降低了 80-90%,而且显存占用大幅下降,低端显卡也能跑长上下文。这也是为什么 DeepSeek 的 API 价格可以这么低——推理服务的基础成本本来就低。

3. 辅助损失自由的负载均衡

MoE 的一个经典问题是"专家不平衡"——某些专家被频繁调用而另一些被闲置,导致计算资源浪费。传统的解决方法是加辅助损失来强制平衡,但这会损害模型质量。DeepSeek 提出了一种无需辅助损失的动态偏置调整方案,在保持专家利用率均衡的同时不降低模型性能。这听起来像个小改进,但对 MoE 的实际效率影响巨大。

DeepSeek-R1:把"思考"开源给全世界

DeepSeek-R1 是在 V3 的基础上通过强化学习训练出的推理模型,对标 OpenAI o1。它的重要之处不是"又一个推理模型",而是它完整展示了"怎么做一个推理模型"——方法、步骤、数据、失败尝试——全部开放。

R1-Zero:纯 RL 的狂野实验

DeepSeek 的做法分四步,但最有趣的可能是第一步——R1-Zero。他们没有用任何监督微调(SFT)数据,直接从 DeepSeek-V3 基座出发,用纯 RL(GRPO,Group Relative Policy Optimization)训练推理能力。

结果呢?R1-Zero 展现出了令人惊讶的自发推理行为——模型自己学会了反思、验证、探索不同的解题路径。但问题也很明显:输出可读性差,中英文混杂,格式混乱。纯 RL 让模型"变聪明"但没有"变礼貌"。

从 R1-Zero 到 R1:冷启动 + 多阶段训练

正式版 R1 用了更精密的训练策略:

  • 先用少量高质量的"冷启动"数据做 SFT(让模型学会"思考的格式")
  • 然后用 RL 强化推理能力
  • 再用推理模型生成大量新数据,加上通用数据做第二次 SFT(混合推理和通用能力)
  • 最后再做一轮 RL

这个四阶段流程看起来复杂,但核心逻辑是清晰的:"先教会格式,再锻炼推理,最后融合平衡"。

GRPO 这个算法的选择也很厉害——传统 PPO 需要一个 critic 模型(和 actor 模型一样大甚至更大),训练成本翻倍。GRPO 直接用同一批里其他响应的平均分作为基线,不需要 critic。这让大规模 RL 训练的显存和计算成本大幅下降。

蒸馏:R1 能力"压缩"到小模型

DeepSeek 把 R1 的能力通过蒸馏(distillation)迁移到了 1.5B、7B、8B、14B、32B、70B 的一系列小模型上。这些"R1-Distill"模型在数学和推理任务上的表现让人震惊——Qwen2.5-32B 的蒸馏版在 AIME 2024 上达到了 72.6%,DeepSeek-R1-Distill-Llama-70B 达到了 70.0%。要知道这甚至高于 o1-mini(63.6%)。

蒸馏策略的实际意义:你不需要租 8 张 H100,一张 RTX 4090 跑 32B 模型就能获得接近顶级推理模型的能力。这才是真正让个人开发者和中小公司受益的开放。

API 定价:比白菜还白菜

这是 DeepSeek 最"离谱"的地方。以最新的 DeepSeek-V4 定价为例:

  • DeepSeek-V4-Flash:输入 $0.14/M token,输出 $0.28/M token(相当于 ¥1/¥2)
  • DeepSeek-V4-Pro:输入 $1.74/M token,输出 $3.48/M token(75% 折扣后;正式定价是 $0.435/$0.87)

作为对比,GPT-5.4 mini 是 $0.75/$4.50,Claude Haiku 4.5 是 $1/$5。DeepSeek Pro 级别的模型定价只相当于别家的 mini 级别——这是质的差距。

而且这已经是涨价后的价格了。DeepSeek 刚发布时的 V3 API 价格大约是 ¥1/$0.14 输入,¥2/$0.28 输出——基本上是 GPT-4o 的 1/50。这种定价不是为了赚钱,明显是为了抢占市场份额。从 2025 年 1 月 R1 发布后,全球各大 AI 公司(包括 OpenAI 和 Google)都开始快速降价——我用过不少 API,价格下跌的曲线和 DeepSeek 的发布节点高度重合。

但 DeepSeek 也有两个问题让开发者头疼:一是服务器容量有限,高峰时段经常限流或中断(没办法,全球用户都涌进来,它的 GPU 数量显然不足);二是中文审查——很多政治相关的话题会被直接拒绝。这两个限制对某些应用场景是致命伤。

DeepSeek 为什么这么重要?

DeepSeek 的意义超越了它本身的技术指标。它证明了:

  1. 高端模型不需要高端预算。在 GPU 被制裁的情况下(美国限制向中国出口 A100/H100,后来是 H800),DeepSeek 用更少的资源和聪明的架构设计做出了顶级模型。这对全球 AI 行业意味着"技术壁垒没有想象中那么高"。

  2. 开源能让巨头降价。DeepSeek 开源 V3 和 R1 后,OpenAI 加速了 GPT-4o mini 的推出并大幅降价,Google 也在 Flash 线上大幅下调了 API 价格。开源模型的竞争压力对封闭 API 的定价有直接影响。

  3. MoE 不只是 GPT-4 的专利。之前很多人觉得 MoE 训练太难,只有 OpenAI 能做好(GPT-4 就是 MoE)。DeepSeek 证明了 MoE 是可以被复现和超越的——而且成本更低。

  4. RL 训练推理模型可以不用 SFT 数据。R1-Zero 的纯 RL 实验是个重要的科学发现——模型不通过模仿人类思考,也能自发学会推理。这对理解"推理能力的涌现"有深刻意义。

不足与局限性

我必须诚实地指出 DeepSeek 的问题:

  • 中文限制。和所有大陆 AI 模型一样,DeepSeek 有内容审查,涉及政治敏感的话题会被拒绝或给出模板化回答。这可能对某些用户是不可接受的。
  • 英文不够优雅。DeepSeek 生成的英文在语法上正确,但在文采、自然度和文化细微差别上,明显不如 GPT-4o 和 Claude。如果你需要写英文营销文案或文学性文本,DeepSeek 不是最佳选择。
  • 服务稳定性。API 的高峰期延迟和可用性问题频繁,DeepSeek 的 GPU 集群规模显然跟不上它的用户增长速度。
  • 偶尔的"中英混杂"。在非 Thinking 模式下使用英文时,模型偶尔会出现中文词汇混入,这是训练数据配比的问题。

我的建议

  • 如果你做中文应用且预算极其有限DeepSeek-V4-FlashDeepSeek-V3 API 是性价比之王,尤其在中文客服、简单问答、批量文本处理上
  • 数学推导、逻辑推理、竞赛编程DeepSeek-R1 或 V4-Pro 的 Thinking 模式,效果匹敌 o1 但价格不到 1/10
  • 本地代码开发DeepSeek Coder 33BDeepSeek-R1-Distill-Qwen-32B,一张高端显卡就能跑,代码能力不输 GPT-4o
  • 需要英文创意写作或全球市场营销:还是用 GPT-5 或 Claude 更好,DeepSeek 的英文表达能力有代差
  • 对合规和审查敏感的应用:你懂的,选其他
  • 如果你是 AI 研究者/学生:DeepSeek 的论文和开源模型是金矿——MLA、GRPO、纯 RL 推理、蒸馏策略都值得深度研究

回头看,我觉得 DeepSeek 是 2025 年全球 AI 行业最重要的公司——不是因为技术最好,而是因为它改变了"高性能 AI 必须昂贵"这个底层假设。它的出现让 GPT-4 级别的能力以近乎零成本的方式变得可得。这种"技术民主化"的价值,可能比任何一家公司单独的技术突破都更深远。

基于 VitePress 构建 | 部署于 Cloudflare Pages