Qwen3-235B-A22B：双模式智能切换的AI新体验-程序员充电站

Qwen3-235B-A22B：双模式智能切换的AI新体验

【免费下载链接】Qwen3-235B-A22BQwen3-235B-A22B 具有以下特点：类型：因果语言模型训练阶段：预训练与后训练参数数量：总计 235B，激活 22B 参数数量（非嵌入）：234B 层数：94 注意力头数（GQA）：Q 为 64，KV 为 4 专家数：128 激活的专家数：8 上下文长度：本地为 32,768，使用 YaRN 可处理 131,072 个标记。项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-235B-A22B

导语

Qwen3-235B-A22B作为Qwen系列最新一代大语言模型，首次实现了单模型内"思考模式"与"非思考模式"的无缝切换，以2350亿总参数和220亿激活参数的混合专家(MoE)架构，重新定义了AI在复杂推理与高效对话间的平衡能力。

行业现状

大语言模型正面临"能力与效率"的双重挑战：一方面，复杂任务如数学推理、代码生成需要模型进行深度思考；另一方面，日常对话、信息查询等场景则更注重响应速度与资源效率。传统解决方案往往需要部署不同规模的模型来应对不同需求，这不仅增加了系统复杂度，也提高了算力成本。据行业研究显示，2024年企业AI部署中，约40%的成本源于为不同场景维护多套模型系统。

与此同时，混合专家模型(Mixture-of-Experts, MoE)成为突破参数量壁垒的关键技术。通过仅激活部分专家层，MoE模型在保持大参数量能力的同时，显著降低了计算资源消耗。Qwen3-235B-A22B正是这一技术路线的最新成果，其128个专家层中仅激活8个的设计，实现了性能与效率的优化平衡。

模型亮点

突破性双模式智能切换

Qwen3-235B-A22B最核心的创新在于支持两种工作模式的动态切换：

思考模式：针对数学推理、代码生成、逻辑分析等复杂任务，模型会生成类似人类思考过程的中间推理链（通过特殊标记<RichMediaReference>...</RichMediaReference>包裹），显著提升问题解决能力。该模式下推荐使用Temperature=0.6、TopP=0.95的采样参数。
非思考模式：适用于日常对话、信息查询等场景，模型直接输出结果，响应速度提升约30%，资源消耗降低25%。推荐配置为Temperature=0.7、TopP=0.8。

这种切换既可以通过API参数enable_thinking进行硬控制，也支持在用户输入中通过/think和/no_think指令进行动态调整，极大增强了应用灵活性。

架构与性能优化

该模型采用94层深度网络结构，结合GQA（Grouped Query Attention）注意力机制（64个Q头、4个KV头），在保持上下文理解能力的同时优化了计算效率。原生支持32,768 tokens上下文长度，通过YaRN技术可扩展至131,072 tokens，满足长文档处理需求。

在推理能力上，Qwen3-235B-A22B在数学、代码和常识推理任务上超越了前代QwQ和Qwen2.5模型，同时在多轮对话、角色扮演等场景中展现出更自然的交互体验。其支持100+语言及方言的多语言能力，进一步扩展了应用边界。

工具集成与部署灵活性

模型在工具调用（Agent）能力上表现突出，可通过Qwen-Agent框架轻松集成外部工具。部署方面，支持SGLang（0.4.6.post1+）、vLLM（0.8.5+）等推理框架，可快速构建OpenAI兼容API服务。同时，Ollama、LMStudio、llama.cpp等客户端工具也已支持该模型的本地运行。