MiniMax:在巨头的夹缝中,找到自己的长板
说到中国 AI 公司,你第一时间想到的可能是 Kimi(月之暗面)、DeepSeek(深度求索)、Qwen(阿里)、智谱这些名字。MiniMax(稀宇科技)?可能很多人的反应是"那是干什么的?"但如果你看看他们的技术指标和产品线,你会发现这家公司的"存在感不足"和"技术实力"之间存在巨大的错位——尤其是在超长上下文和语音/音乐生成这两个方向上,MiniMax 实则是一流玩家。
从 MoE 到 Agent:ABAB 的进化之路
MiniMax 成立于 2021 年,创始人闫俊杰是商汤科技的前高管。和很多 AI 创业公司不同,MiniMax 从一开始就押注了一个技术路线:MoE(混合专家)架构。在 2022-2023 年那个 Dense 模型(GPT 式的全参数激活)主流的时代,这算得上是大胆的选择。
早期的 ABAB 5.5 还是 Dense 架构的通用对话模型,能力中规中矩。但从 ABAB 6.x 切换到 MoE 之后,MiniMax 的模型能力有了质的飞跃——同等推理成本下,MoE 能支撑更大的模型容量,这意味着更强的理解和生成能力。
到了 2025 年中,MiniMax 放弃了 ABAB 这一代命名,推出了全新的 M 系列。M2 是一个重要的转折点——它把重点从"通用对话"转向了"工程与 Agent 能力"。M2.1 提升了推理和工具调用,而 2025 年底发布的 M2.5 则进一步强化了长期上下文管理和复杂任务规划。
2026 年最新发布的 MiniMax M2.7 有三个让我眼前一亮的特性:
Agent Harness 能力:构建自我进化的 Agent harness——意思是模型不仅能用工具,还能"学会使用新工具",甚至"改进自己的工具使用方式"。这在 Agent 能力上是一个重要的升级。
强工程与 Coding 能力:按 MiniMax 自己的说法,M2.7 是"一个真正理解生产系统的模型"。在 Terminal-bench 等真实编程环境的基准测试中,M2.7 表现出了远超前代的能力——不仅能写代码,还能理解生产环境、调试线上问题、甚至做系统设计。
复杂 Office 自动化:支持复杂的 Excel / Word / PPT 办公任务和多轮编辑。这一项对企业的吸引力是巨大的——想象一下,你跟 AI 说"帮我把这个 Excel 里的第三季度数据做成柱状图,然后插入到 PPT 的第五页",它真的能自己打开文件、计算、做图、粘贴——全程不需要你动鼠标。
M2.7 目前可以通过 MiniMax 开放平台接入 API,也有一个桌面版 Agent 产品可以直接使用。
MiniMax-01:四百万 token 的"上下文之王"
在长上下文这个战场上,MiniMax 曾经是绝对的世界第一。2024 年发布的 MiniMax-01 支持 400 万 token 的上下文窗口——约 300 万中文字,相当于你把我这篇文章扔进去后,还能再塞进整本《红楼梦》(约 73 万字)和毛选五卷。
怎么做到的?核心是 Lightning Attention(线性注意力机制)。
传统的 Softmax Attention 的显存和计算开销随序列长度呈二次方增长(O(n²))。序列翻倍,开销翻四倍。这是为什么大多数模型的上下文窗口卡在 128K-200K 的根本原因。
线性注意力(Linear Attention)把复杂度降到了 O(n)——序列翻倍,开销翻倍。代价是注意力的"精度"有所降低——线性注意力无法像 Softmax Attention 那样捕捉任意位置之间的精确依赖关系。MiniMax 的工程创新在于设计了一套混合方案:局部短距离用精算的 Softmax Attention,长距离依赖用低成本的 Lightning Attention。在性能上接近全程 Softmax,在成本上接近全程线性。
在实际的"大海捞针"测试中,MiniMax-01 在 400 万 token 窗口内检索特定信息的准确率达到 90% 以上——这意味着它不仅"支持"长上下文,而且在长文本中"确实能找到东西"。这对于整本书分析、海量法律合同审查、多年代码仓库分析这类场景来说,是真正有用的能力。
语音和音乐:被低估的"音视频帝国"
可能很多人不知道,MiniMax 在国内 AI 音频领域处于绝对领先地位。他们的 T2A(Text-to-Audio) 和语音合成技术,在音质、自然度和可定制性上,远超国内大部分竞争对手。
MiniMax Speech 2.8(2026 年最新):支持多种声线和情感调节,可以生成带笑声、叹息、犹豫等副语言特征的语音。关键在于"人的温度"——很多 TTS 模型生成的声音虽然字正腔圆但毫无感情,Speech 2.8 则试图模拟真实人类对话中的那些不完美:偶尔的停顿、语速变化、情感的微妙起伏。
语音克隆:只要 10 秒的音频样本,就可以复刻任意人的声线。这在有声书、配音、AI 客服等场景有直接商业价值。
Music 2.6(2026 年最新):文本到音乐生成——你描述一种风格、情绪、场景,模型直接生成配乐。在短视频、广告、游戏的配乐场景中尤其有用,因为这些场景需要快速、低成本、可定制的背景音乐。MiniMax 称 Music 2.6 支持"翻唱"——你可以上传一段旋律,模型会重新编曲成不同风格的音乐。
Hailuo 视频:2025-2026 年推出的 Hailuo 2.3/2.3 Fast 视频生成模型,支持文本到视频。而海螺视频 Agent 更是进一步降低门槛——"Vibe Videoing"(零门槛成片直出),用户不需要懂剪辑,只需要描述想要的内容,AI 自动生成完整视频。
更聪明的是,2026 年 MiniMax 推出了 MCP Server——将视频生成、图像生成、语音生成和声音克隆通过 MCP 协议对外开放。这意味着任何支持 MCP 的 AI Agent 应用(包括 Claude Desktop、Cursor 等)都可以直接调用 MiniMax 的音视频生成能力。
海螺 AI 与星野:C 端产品的另类探索
和大多数只做 API 的 AI 公司不同,MiniMax 在 to C 产品上投入巨大:
海螺 AI(Hailuo AI):对标 ChatGPT,整合了文本对话、语音交互、AI 伴侣、视频生成等功能。国内用户量不小,但说实话在产品体验和品牌认知上不如 Kimi。不过在海外市场以 Talkie 品牌运营的 AI 社交产品表现不错——AI 角色扮演和虚拟伴侣在欧美用户中有相当的市场。
星野:一个 AI 驱动的沉浸式角色扮演平台,用户可以创造虚拟角色、设定世界观、进行互动剧情。这类产品在中国 Z 世代用户中有很不错的粘性。
MiniMax Agent(桌面版):2026 年推出的桌面端智能助手,强调"自主组建 Agent 小队"——AI 会根据任务复杂度自动拆解并调用多个子 Agent 协同完成。比如"帮我在网上搜集五个竞品的产品信息并整理成对比表"——Agent 会自己搜索、阅读、整理、生成表格。
这种"记忆偏好 + 自主 Agent"的设计很有意思——你用得越多,它越了解你的习惯和工作方式,能够"沉淀为专属技能"。
MiniMax 的商业模式:全栈覆盖
MiniMax 的布局覆盖了三个层面:
- 基础模型(B2B API):M2.x 系列文本模型 + 语音 + 音乐 + 视频,通过开放平台提供 API 接入
- C 端产品:海螺 AI(国内)、Talkie(海外)、星野、海螺视频、MiniMax Audio
- 开发者工具:MCP Server、Agent 框架
这种"模型-产品-工具"的垂直整合,让 MiniMax 能够快速把模型能力转化为用户可感知的产品体验。但也带来了挑战:每一条线都需要大量资源和人才,作为一家创业公司,同时做好模型、C 端产品、开发者生态几乎是 mission impossible。
不足与挑战
MiniMax 面临的问题很现实:
- 文本模型的核心竞争力不够。M2.7 虽然进步很大,但在通用语言能力和代码生成上,和 Qwen3、DeepSeek-V4 甚至 Kimi K2 相比没有绝对优势。在大多数开发者心智中,做文本首选 DeepSeek 或 Qwen,而不是 MiniMax。
- 品牌声量不足。在媒体曝光、开发者社区活跃度、开源贡献方面,MiniMax 远不如 DeepSeek 和 Qwen。这不仅是"公关问题"——在 AI 行业,开发者的选择偏好在很大程度上决定了技术栈的扩散速度。
- 资源约束。作为创业公司,MiniMax 的 GPU 储备和人才储备无法和阿里(Qwen)、DeepSeek 相比。同时在多个方向(文本、语音、音乐、视频、C 端产品)发力,资源的分散可能导致每个方向都不够深。
- 定价。MiniMax 的 API 价格(M2.7 约 ¥1/¥5 每百万 token)比 DeepSeek 贵,但能力上又没有明显优势。在极致性价比导向的中国 AI API 市场,这比较吃亏。
我的建议
用 MiniMax 的最佳场景不是"一切"而是"某些特定事情":
- 超长文档分析(整本书级别的资料、多年财报、大型代码仓库)**:MiniMax 的 400 万 token 上下文仍然是全球顶尖的(虽然最新的 Gemini 3 也到了 1M-2M),如果你真的需要极限长上下文,这是值得考虑的选择
- 语音 AI 应用(有声书、AI 配音、虚拟主播、智能客服):MiniMax Speech 2.8 的"人的温度"是显著的竞争优势
- AI 音乐创作:Music 2.6 的文本到音乐、旋律翻唱能力,对于短视频创作者、独立游戏开发者来说是低成本获取配乐的利器
- 视频生成:Hailuo 2.3 和视频 Agent 的中文视频生成能力可以一试,尤其是在需要快速生成中文场景视频时
- 你想要一个"生态统一的 API"来做多模态应用:一家供应商同时搞定文本、语音、音乐、视频——减少供应商管理的复杂度
- 通用对话、日常开发、代码生成:DeepSeek、Qwen、Kimi 可能是更稳妥的选择
说实话,MiniMax 是那种"在某些领域做到极致"的公司——它的"长板"非常长(超长上下文、音频生成),"短板"也非常明显(通用文本能力、品牌认知)。在 AI 行业越来越像"赢家通吃"的今天,MiniMax 能否靠差异化生存下来,关键在于它能否在长上下文和音视频这两个护城河领域构建足够的深度壁垒——而不是试图在每一个方向上和巨头硬刚。