Tongyi DeepResearch：30B参数AI深度搜索新体验-程序员充电站

Tongyi DeepResearch：30B参数AI深度搜索新体验

【免费下载链接】Tongyi-DeepResearch-30B-A3B项目地址: https://ai.gitcode.com/hf_mirrors/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

导语：阿里巴巴通义实验室推出300亿参数的Tongyi DeepResearch模型，以"300亿总参数+30亿动态激活"的创新架构，重新定义AI深度搜索能力，在多项专业基准测试中展现出超越传统模型的信息获取与推理水平。

行业现状：深度信息获取成AI新战场

随着大语言模型技术的成熟，基础问答能力已无法满足复杂场景需求，长周期深度信息搜索正成为下一代AI竞争焦点。当前主流模型在处理需要多步骤推理、跨源信息整合和动态决策的任务时，常面临上下文理解不足、搜索效率低下和结果准确性有限等问题。据行业研究显示，专业领域的深度信息查询中，现有AI工具的有效信息获取率平均不足65%，而人工专家的介入往往能将这一指标提升至90%以上。

在此背景下，兼具强大推理能力与自主搜索能力的智能体模型（Agentic Model）逐渐成为技术突破方向。这类模型能够模拟人类研究人员的思考过程，通过规划-执行-反思的闭环，完成复杂的信息收集与分析任务，在学术研究、市场分析、技术调研等领域展现出巨大应用潜力。

模型亮点：四大创新重塑深度搜索能力

Tongyi DeepResearch作为专为深度信息搜索设计的智能体模型，核心优势体现在四个维度：

1. 动态激活架构：效率与性能的平衡之道

模型采用"300亿总参数+30亿每token激活"的创新设计，在保持大模型能力天花板的同时，显著降低计算资源消耗。这种架构允许模型在处理复杂任务时调用完整知识储备，而在常规操作中保持轻量运行，实现了性能与效率的最优平衡。

2. 全自动化数据生成流水线

研发团队构建了端到端的合成数据生成系统，能够自动创建高质量的智能体交互数据，覆盖从基础训练、有监督微调至强化学习的全流程。这一技术突破解决了智能体模型训练数据稀缺的行业痛点，使模型能够持续学习最新知识并优化推理策略。

3. 端到端强化学习框架

通过定制化的Group Relative Policy Optimization框架，模型实现了严格的在线策略强化学习。创新性的token级策略梯度、留一法优势估计和负样本选择性过滤技术，有效解决了非平稳环境下的训练稳定性问题，使模型在复杂决策任务中表现出更优的鲁棒性。

4. 双推理范式兼容

模型支持两种互补的推理模式：ReAct范式适合评估模型的核心能力，确保基础推理的严谨性；而基于IterResearch的"Heavy"模式则通过测试时扩展策略，释放模型最大性能潜力，可根据任务复杂度灵活切换，兼顾可靠性与极限能力。

在多项权威基准测试中，Tongyi DeepResearch已展现出领先水平，包括Humanity's Last Exam、BrowserComp、WebWalkerQA等国际评测，以及面向中文场景的BrowserComp-ZH和xbench-DeepSearch等专项测试，均取得当前最佳性能。

行业影响：从信息获取到知识创造的跨越

Tongyi DeepResearch的推出标志着AI从简单信息检索向深度知识创造的重要跨越。在学术研究领域，模型能够自主设计实验方案、整合跨学科文献并提出创新性假设；在商业分析场景，可实现市场动态的实时追踪与预测建模；对于普通用户，复杂问题的解答将不再局限于现有知识库，而是通过动态搜索与推理生成深度洞察。

该模型的开源特性（采用Apache-2.0许可证）也将加速智能体技术的民主化进程，企业和开发者可基于此构建垂直领域的专业搜索应用，推动AI在科研、教育、医疗等关键领域的深度应用。