Qwen3 – 阿里巴巴推出的新一代开源大模型

386 0 0

Qwen3是什么？

Qwen3 是阿里巴巴推出的新一代大语言模型，支持119种语言，具备强大的推理、编码和智能体能力。它引入了“思考模式”和“快速响应模式”双模式切换，能根据任务灵活调节推理深度。Qwen3发布了多种规模的开源模型，旗舰版Qwen3-235B-A22B在多个领域性能达到业界顶尖，广泛应用于自然语言理解、复杂推理、代码生成等场景。

Qwen3的主要特点

全尺寸稠密与混合专家模型：
- 混合专家（MoE）：包含 30B（3B激活）和 235B（22B激活）两种。
- 稠密模型（Dense）：包含 0.6B、1.7B、4B、8B、14B 和 32B 六种。
多种思考模式：
- 思考模式：在这种模式下，模型会逐步推理，经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。
- 非思考模式：在此模式中，模型提供快速、近乎即时的响应，适用于那些对速度要求高于深度的简单问题。
多语言支持：Qwen3支持119种语言和方言，相比Qwen2的29种语言，语言能力大幅提升。
增强的 Agent 能力：强化了代码生成、调用外部工具（MCP协议）等能力，提升智能体交互与决策水平。
显著增强的推理能力：在数学、代码生成和常识逻辑推理方面超越了之前的 QwQ（在思考模式下）和 Qwen2.5 指令模型（在非思考模式下）。
卓越的人类偏好对齐，在创意写作、角色扮演、多轮对话和指令跟随方面表现出色，提供更自然、更吸引人和更具沉浸感的对话体验。