通义千问(Qwen):阿里做开源大模型,是认真的
说实话,两年前如果有人跟我说"阿里巴巴会是中国最好的开源大模型提供方",我大概会觉得他在开玩笑。在国内互联网大厂的印象里,阿里的技术很强,但更擅长的是商业化和平台运营,而不是做"给开发者白嫖"的开源模型。但 Qwen 系列用实际表现打了很多人的脸——从 Qwen1.0 到 Qwen2.5 到现在的 Qwen3,它已经成了全球开源 LLM 生态里最不可忽视的力量之一。
Qwen2.5:让西方开发者正视中国开源的那个模型
2024 年下半年 Qwen2.5 的发布是一个节点。之前西方 AI 社区对"Chinese open-source models"的态度基本上是礼貌的忽视——"哦,又一家中国公司做了一个 LLM,还不错吧"。但 Qwen2.5-72B 在多个英文基准上对标甚至超越了 Llama 3-70B,在中文任务上稳压所有开源对手,代码和数学更是强项。
72B 的大杯版在各种实际测试中被证明是开源模型里最能打的之一。更重要的是 Qwen2.5 覆盖了从 0.5B 到 72B 的完整谱系——0.5B 和 1.5B 可以在手机上跑,3B 和 7B 可以在个人电脑上跑,32B 和 72B 适合服务端部署。很少有开源模型能做到这么完整的尺寸覆盖。
HuggingFace 上一个有意思的数据:Qwen 系列模型的下载量已经进入了全球前五,这在两年前是不可想象的。很多西方开发者开始把 Qwen 作为 Llama 之外的可靠选择。
但 Qwen2.5 真正打动我的不是跑分,而是它在中文环境下的实用性。中文是比英文难处理得多的语言——成语、典故、双关、古诗词、官腔、方言,这些对模型的理解和生成都是巨大挑战。Qwen2.5 处理这些的中文能力在国内所有模型里是稳稳的第一梯队。
Qwen3:从"会思考"到"想多快就多快"
2025 年 4 月 29 日发布的 Qwen3 是真正让我兴奋的版本。不是因为参数又变大了,而是它引入了一个很聪明的设计:混合推理模式(Hybrid Thinking Modes)。
简单说,Qwen3 支持两种模式——Thinking Mode(深度思考,适合复杂问题)和 Non-Thinking Mode(直接回复,适合简单问题)。同一个模型,同一个权重,无缝切换。你可以在 prompt 里加 /think 或 /no_think 来动态控制,甚至在多轮对话中来回切换。比如前三轮问简单问题用 Non-Thinking,第四轮来了个复杂数学推导就切到 Thinking。
这有什么厉害的?之前的推理模型(比如 DeepSeek-R1)每个回答都要"思考",哪怕你问个"你好吗"它也要想半天,体验很差。Qwen3 解决了这个"推理过度"的问题——把选择权交给用户。而且 Qwen 团队公布的数据显示,模型在 thinking budget(推理预算)上有平滑可调的响应——你想多想就多想,想快点就快点,性能和延迟之间有很连续的 trade-off 曲线。
旗舰 Qwen3-235B-A22B 是 MoE 架构,235B 总参数,激活 22B。在数学、代码、通用能力上对标 DeepSeek-R1、o1、o3-mini、Grok-3、Gemini 2.5 Pro——注意这不是"接近",而是正面硬刚。小型 MoE 模型 Qwen3-30B-A3B(30B 总参,3B 激活)甚至比 QwQ-32B 还强,而 Qwen3-4B 这个小不点能匹敌 Qwen2.5-72B 的性能——你没看错,4B 打 72B。
这是 Qwen 系列最关键的技术突破:用 MoE 机制在推理成本几乎不变的情况下把模型容量翻了几十倍。
MoE 双模式:Dense 和 MoE 随时切换
Qwen3 的 MoE 不是简单地"加专家",而是和 Dense 模式共享权重。训练时两个模式一起训,推理时按需切换。这有什么实际意义?如果你用的是 API,你不需要关心背后的架构——快就完了。如果你在做本地部署,32B 以下的 Dense 版可以在消费级显卡上跑(Qwen3-32B 可以在两张 RTX 4090 上跑推理),235B 的 MoE 版则适合有强大算力的服务端。
MoE 的核心优势是:只激活少部分参数,每个 token 的推理成本只相当于一个小得多的 Dense 模型。Qwen3-235B 虽然总参数量巨大,但每次推理只激活 22B——相当于在推理成本上,它是个 22B 的模型,在模型容量上,它是个 235B 的模型。这绝对是目前最经济的顶级模型推理方案之一。
Qwen 生态:不只是 LLM
Qwen 是一个矩阵,不是单点:
- Qwen-VL(视觉语言):从 7B 到 72B,支持图像理解、OCR、图表分析、视频问答。其中 Qwen2.5-VL 在文档理解和视频分析上特别强,很多做 RAG + 多模态检索的方案都在用。
- Qwen-Audio:音频理解模型,支持语音识别、音乐分析、声纹识别。不如专门的语音模型(Whisper 等),但胜在"一个模型搞定"。
- Qwen-Coder:代码专用模型,0.5B 到 32B,在 HumanEval、MBPP 等编程基准上表现优异。Qwen3 发布后,通用模型本身的代码能力已经很强,Qwen-Coder 线更多是为了极致的代码场景。
- Qwen-Agent:一个完整的 Agent 框架,基于 ReAct 范式,支持工具调用、多 Agent 协作、长程任务执行。用 Qwen3 做后端,Qwen-Agent 做框架,你可以很快速地搭建一个能自主执行复杂任务的 Agent 系统。后面我会给一个实际例子。
Qwen-Agent 实战:让你的 AI 真的能干活
Qwen-Agent 不是一个简单的 API wrapper,而是一个完整的 Agent 框架。它包括:
- 工具系统:你可以定义任意的 Python 函数作为工具,框架自动处理 tool call 的解析和执行
- MCP 集成:支持 Model Context Protocol,可以直接接入 MCP Server(比如时间查询、网页抓取)
- 多 Agent 协作:你可以创建多个 Assistant,它们之间可以互相调用
- RAG 内置:自带文档检索和知识库管理
一个实际的使用例子:
from qwen_agent.agents import Assistant
llm_cfg = {
'model': 'Qwen3-30B-A3B',
# 使用阿里云百炼的 API 端点
'model_type': 'qwen_dashscope',
'api_key': 'YOUR_DASHSCOPE_API_KEY',
}
# 定义工具:可以是 MCP 服务器或自定义函数
tools = [
{'mcpServers': {
'time': {'command': 'uvx', 'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']},
'fetch': {'command': 'uvx', 'args': ['mcp-server-fetch']}
}},
'code_interpreter', # 内置代码解释器
]
bot = Assistant(llm=llm_cfg, function_list=tools)
# 使用 Agent 执行复杂任务
messages = [{'role': 'user', 'content': '帮我分析 Qwen 最新博客的内容并总结关键改进'}]
for responses in bot.run(messages=messages):
pass这个例子展示了 Agent 的核心流程:用户发指令 → Qwen3 拆解任务 → 调用 fetch 工具获取网页 → 调用 code interpreter 分析内容 → 返回总结。全程不需要人为干预。
在很多 Agent 基准测试中,Qwen3 + Qwen-Agent 的表现已经超过了同等配置下的 GPT-4o + LangChain 组合。说实话,阿里的 Agent 框架做得比很多"纯搞框架"的公司还要好用。
开源的商业逻辑:为什么阿里要免费给你最好的模型?
很多人不理解:阿里是商业公司,为什么要花几千万美金训练一个模型然后免费开源?这不是给竞争对手送武器吗?
我觉得阿里的逻辑是这样的:开源 Qwen 不是为了做慈善,而是为了建立生态标准。在 AI 时代,控制了模型标准就控制了应用层。如果 Qwen 成为最广泛使用的开源中文模型,那么:
- 围绕 Qwen 的应用、工具、框架都会优先兼容阿里云
- 企业用 Qwen 免费部署试水后,上规模自然会选择阿里云的百炼平台付费 API
- 开发者习惯了 Qwen 生态,未来做商业化产品时会优先考虑阿里云
这是一种"云计算的 razor-and-blade 模型"——模型(razor)免费,云服务(blade)赚钱。和 Meta 开源 Llama 的逻辑是一样的。而且阿里真心觉得,开源能加速模型本身的改进——全球开发者反馈、贡献、微调,能提供比封闭研发更快更好的迭代。
不足与真实体感
Qwen 当然不是完美的。它和 Qwen3 之间也还有些差距:
- 英文能力:虽然 Qwen 一直在追,但在英文创意写作、西方文化理解、英语俚语上还是不如 GPT 和 Claude 自然
- 安全性限制:国内模型的合规要求意味着很多话题会被限制(政治敏感内容、一些社会议题),这在某些使用场景下是个障碍
- 生态深度:虽然 Qwen 的开源生态已经很全,但在第三方工具集成(比如 Cursor、Copilot 这类 IDE 的原生支持)上还不如 Claude 和 GPT
- 速度:235B MoE 在消费级硬件上就别想了,需要至少 4-8 张 H100 级别的 GPU
我的建议
- 如果你做的是中文为主的业务(客服、办公、教育、政务),Qwen3 是绝对的首选,中文能力在所有模型里稳居第一梯队,生态最全
- 本地部署中文模型:Qwen3-32B 或 Qwen3-14B,两张消费级显卡就能跑,性能远超同级别的其他开源模型
- 代码生成:Qwen3 通用模型的代码能力已经很好了,但如果做专门的编程产品,可以搭配 Qwen-Coder
- 多模态应用:Qwen-VL + Qwen3 的组合覆盖图文需求,而且都是阿帕奇 2.0 开源协议,商用无忧
- 构建 Agent 系统:直接用 Qwen-Agent 框架,不要自己从零造轮子
- 想尝鲜又没显卡:去 chat.qwen.ai 免费体验 Qwen3 的完整能力
- 预算敏感且需要商业部署:Qwen3-235B(MoE)的 API 价格远低于同等级别的 GPT/Claude,同等性能下成本优势巨大
通义千问系列证明了一件事:中国企业不仅能做 AI,还能做世界级水平的开源 AI。Qwen3 的技术创新(混合推理、MoE 双模式)、完整生态、激进的开源策略——在任何意义上都是一流水准。它不是中国 AI 的"追赶者",而是全球 AI 竞争中的真正玩家。如果你还没认真试过 Qwen3,现在就是最好的时机。