通义千问（Qwen）：阿里做开源大模型，是认真的

说实话，两年前如果有人跟我说"阿里巴巴会是中国最好的开源大模型提供方"，我大概会觉得他在开玩笑。在国内互联网大厂的印象里，阿里的技术很强，但更擅长的是商业化和平台运营，而不是做"给开发者白嫖"的开源模型。但 Qwen 系列用实际表现打了很多人的脸——从 Qwen1.0 到 Qwen2.5 到现在的 Qwen3，它已经成了全球开源 LLM 生态里最不可忽视的力量之一。

Qwen2.5：让西方开发者正视中国开源的那个模型

2024 年下半年 Qwen2.5 的发布是一个节点。之前西方 AI 社区对"Chinese open-source models"的态度基本上是礼貌的忽视——"哦，又一家中国公司做了一个 LLM，还不错吧"。但 Qwen2.5-72B 在多个英文基准上对标甚至超越了 Llama 3-70B，在中文任务上稳压所有开源对手，代码和数学更是强项。

72B 的大杯版在各种实际测试中被证明是开源模型里最能打的之一。更重要的是 Qwen2.5 覆盖了从 0.5B 到 72B 的完整谱系——0.5B 和 1.5B 可以在手机上跑，3B 和 7B 可以在个人电脑上跑，32B 和 72B 适合服务端部署。很少有开源模型能做到这么完整的尺寸覆盖。

HuggingFace 上一个有意思的数据：Qwen 系列模型的下载量已经进入了全球前五，这在两年前是不可想象的。很多西方开发者开始把 Qwen 作为 Llama 之外的可靠选择。

但 Qwen2.5 真正打动我的不是跑分，而是它在中文环境下的实用性。中文是比英文难处理得多的语言——成语、典故、双关、古诗词、官腔、方言，这些对模型的理解和生成都是巨大挑战。Qwen2.5 处理这些的中文能力在国内所有模型里是稳稳的第一梯队。

Qwen3：从"会思考"到"想多快就多快"

2025 年 4 月 29 日发布的 Qwen3 是真正让我兴奋的版本。不是因为参数又变大了，而是它引入了一个很聪明的设计：混合推理模式（Hybrid Thinking Modes）。

简单说，Qwen3 支持两种模式——Thinking Mode（深度思考，适合复杂问题）和 Non-Thinking Mode（直接回复，适合简单问题）。同一个模型，同一个权重，无缝切换。你可以在 prompt 里加 /think 或 /no_think 来动态控制，甚至在多轮对话中来回切换。比如前三轮问简单问题用 Non-Thinking，第四轮来了个复杂数学推导就切到 Thinking。

这有什么厉害的？之前的推理模型（比如 DeepSeek-R1）每个回答都要"思考"，哪怕你问个"你好吗"它也要想半天，体验很差。Qwen3 解决了这个"推理过度"的问题——把选择权交给用户。而且 Qwen 团队公布的数据显示，模型在 thinking budget（推理预算）上有平滑可调的响应——你想多想就多想，想快点就快点，性能和延迟之间有很连续的 trade-off 曲线。

旗舰 Qwen3-235B-A22B 是 MoE 架构，235B 总参数，激活 22B。在数学、代码、通用能力上对标 DeepSeek-R1、o1、o3-mini、Grok-3、Gemini 2.5 Pro——注意这不是"接近"，而是正面硬刚。小型 MoE 模型 Qwen3-30B-A3B（30B 总参，3B 激活）甚至比 QwQ-32B 还强，而 Qwen3-4B 这个小不点能匹敌 Qwen2.5-72B 的性能——你没看错，4B 打 72B。

这是 Qwen 系列最关键的技术突破：用 MoE 机制在推理成本几乎不变的情况下把模型容量翻了几十倍。

MoE 双模式：Dense 和 MoE 随时切换

Qwen3 的 MoE 不是简单地"加专家"，而是和 Dense 模式共享权重。训练时两个模式一起训，推理时按需切换。这有什么实际意义？如果你用的是 API，你不需要关心背后的架构——快就完了。如果你在做本地部署，32B 以下的 Dense 版可以在消费级显卡上跑（Qwen3-32B 可以在两张 RTX 4090 上跑推理），235B 的 MoE 版则适合有强大算力的服务端。

MoE 的核心优势是：只激活少部分参数，每个 token 的推理成本只相当于一个小得多的 Dense 模型。Qwen3-235B 虽然总参数量巨大，但每次推理只激活 22B——相当于在推理成本上，它是个 22B 的模型，在模型容量上，它是个 235B 的模型。这绝对是目前最经济的顶级模型推理方案之一。

Qwen 生态：不只是 LLM

Qwen 是一个矩阵，不是单点：

Qwen-VL（视觉语言）：从 7B 到 72B，支持图像理解、OCR、图表分析、视频问答。其中 Qwen2.5-VL 在文档理解和视频分析上特别强，很多做 RAG + 多模态检索的方案都在用。
Qwen-Audio：音频理解模型，支持语音识别、音乐分析、声纹识别。不如专门的语音模型（Whisper 等），但胜在"一个模型搞定"。
Qwen-Coder：代码专用模型，0.5B 到 32B，在 HumanEval、MBPP 等编程基准上表现优异。Qwen3 发布后，通用模型本身的代码能力已经很强，Qwen-Coder 线更多是为了极致的代码场景。
Qwen-Agent：一个完整的 Agent 框架，基于 ReAct 范式，支持工具调用、多 Agent 协作、长程任务执行。用 Qwen3 做后端，Qwen-Agent 做框架，你可以很快速地搭建一个能自主执行复杂任务的 Agent 系统。后面我会给一个实际例子。

Qwen-Agent 实战：让你的 AI 真的能干活

Qwen-Agent 不是一个简单的 API wrapper，而是一个完整的 Agent 框架。它包括：

工具系统：你可以定义任意的 Python 函数作为工具，框架自动处理 tool call 的解析和执行
MCP 集成：支持 Model Context Protocol，可以直接接入 MCP Server（比如时间查询、网页抓取）
多 Agent 协作：你可以创建多个 Assistant，它们之间可以互相调用
RAG 内置：自带文档检索和知识库管理

一个实际的使用例子：

python

from qwen_agent.agents import Assistant

llm_cfg = {
    'model': 'Qwen3-30B-A3B',
    # 使用阿里云百炼的 API 端点
    'model_type': 'qwen_dashscope',
    'api_key': 'YOUR_DASHSCOPE_API_KEY',
}

# 定义工具：可以是 MCP 服务器或自定义函数
tools = [
    {'mcpServers': {
        'time': {'command': 'uvx', 'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']},
        'fetch': {'command': 'uvx', 'args': ['mcp-server-fetch']}
    }},
    'code_interpreter',  # 内置代码解释器
]

bot = Assistant(llm=llm_cfg, function_list=tools)

# 使用 Agent 执行复杂任务
messages = [{'role': 'user', 'content': '帮我分析 Qwen 最新博客的内容并总结关键改进'}]
for responses in bot.run(messages=messages):
    pass

这个例子展示了 Agent 的核心流程：用户发指令 → Qwen3 拆解任务 → 调用 fetch 工具获取网页 → 调用 code interpreter 分析内容 → 返回总结。全程不需要人为干预。

在很多 Agent 基准测试中，Qwen3 + Qwen-Agent 的表现已经超过了同等配置下的 GPT-4o + LangChain 组合。说实话，阿里的 Agent 框架做得比很多"纯搞框架"的公司还要好用。

开源的商业逻辑：为什么阿里要免费给你最好的模型？

很多人不理解：阿里是商业公司，为什么要花几千万美金训练一个模型然后免费开源？这不是给竞争对手送武器吗？

我觉得阿里的逻辑是这样的：开源 Qwen 不是为了做慈善，而是为了建立生态标准。在 AI 时代，控制了模型标准就控制了应用层。如果 Qwen 成为最广泛使用的开源中文模型，那么：

围绕 Qwen 的应用、工具、框架都会优先兼容阿里云
企业用 Qwen 免费部署试水后，上规模自然会选择阿里云的百炼平台付费 API
开发者习惯了 Qwen 生态，未来做商业化产品时会优先考虑阿里云

这是一种"云计算的 razor-and-blade 模型"——模型（razor）免费，云服务（blade）赚钱。和 Meta 开源 Llama 的逻辑是一样的。而且阿里真心觉得，开源能加速模型本身的改进——全球开发者反馈、贡献、微调，能提供比封闭研发更快更好的迭代。

不足与真实体感

Qwen 当然不是完美的。它和 Qwen3 之间也还有些差距：

英文能力：虽然 Qwen 一直在追，但在英文创意写作、西方文化理解、英语俚语上还是不如 GPT 和 Claude 自然
安全性限制：国内模型的合规要求意味着很多话题会被限制（政治敏感内容、一些社会议题），这在某些使用场景下是个障碍
生态深度：虽然 Qwen 的开源生态已经很全，但在第三方工具集成（比如 Cursor、Copilot 这类 IDE 的原生支持）上还不如 Claude 和 GPT
速度：235B MoE 在消费级硬件上就别想了，需要至少 4-8 张 H100 级别的 GPU

我的建议

如果你做的是中文为主的业务（客服、办公、教育、政务），Qwen3 是绝对的首选，中文能力在所有模型里稳居第一梯队，生态最全
本地部署中文模型：Qwen3-32B 或 Qwen3-14B，两张消费级显卡就能跑，性能远超同级别的其他开源模型
代码生成：Qwen3 通用模型的代码能力已经很好了，但如果做专门的编程产品，可以搭配 Qwen-Coder
多模态应用：Qwen-VL + Qwen3 的组合覆盖图文需求，而且都是阿帕奇 2.0 开源协议，商用无忧
构建 Agent 系统：直接用 Qwen-Agent 框架，不要自己从零造轮子
想尝鲜又没显卡：去 chat.qwen.ai 免费体验 Qwen3 的完整能力
预算敏感且需要商业部署：Qwen3-235B（MoE）的 API 价格远低于同等级别的 GPT/Claude，同等性能下成本优势巨大

通义千问系列证明了一件事：中国企业不仅能做 AI，还能做世界级水平的开源 AI。Qwen3 的技术创新（混合推理、MoE 双模式）、完整生态、激进的开源策略——在任何意义上都是一流水准。它不是中国 AI 的"追赶者"，而是全球 AI 竞争中的真正玩家。如果你还没认真试过 Qwen3，现在就是最好的时机。

通义千问（Qwen）：阿里做开源大模型，是认真的 ​

Qwen2.5：让西方开发者正视中国开源的那个模型 ​

Qwen3：从"会思考"到"想多快就多快" ​

MoE 双模式：Dense 和 MoE 随时切换 ​

Qwen 生态：不只是 LLM ​

Qwen-Agent 实战：让你的 AI 真的能干活 ​

开源的商业逻辑：为什么阿里要免费给你最好的模型？ ​

不足与真实体感 ​

我的建议 ​