news 2026/4/18 10:36:03

Deep Research 只有贵族能玩?StepFun 用 32B 模型把成本打到了几毛钱

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Deep Research 只有贵族能玩?StepFun 用 32B 模型把成本打到了几毛钱

如果说 2024 年是 RAG 的元年,那么 2025 年无疑是Deep Research的“战国时代”。

前有 OpenAI 的 Deep Research 惊艳亮相,后有 Google Gemini 的强势跟进。大家都在卷一个能力:如何让 AI 不仅仅是回答问题,而是像一个真正的分析师一样,花上半小时,翻阅几百个网页,给你写一份几十页的深度研报。

但在大家的固有印象里,要做到这一点,通常意味着两件事:

  1. 模型要大:没个 70B 甚至几百 B 的参数,逻辑根本跑不通。

  2. 架构要繁:必须得搞复杂的 Multi-agent(多智能体)编排,一个管搜、一个管写、一个管审,热火朝天。

但是,今天这篇论文可能要打破你的迷思了。

主角是来自阶跃星辰(StepFun)的Step-DeepResearch。这篇技术报告最反直觉的地方在于:它只用了一个32B 的中等模型,配合最朴素的单体(Single-agent)架构,就在专业的 ResearchRubrics 评测上拿下了61.42的高分,不仅甩开了众多开源模型,甚至在这个榜单上逼近了 OpenAI 和 Gemini 的闭源旗舰 。

我们先别急着看技术原理,直接看结果。如果说有什么图能让你一眼明白这个模型的价值,非下面这张莫属:

更离谱的是它的成本——单次报告生成只要不到 0.5 元(RMB),是 OpenAI 同类服务的十分之一 。

他们是怎么做到的?是黑魔法还是硬实力?今天我们就来拆解这篇 Technical Report 背后的门道。

01 核心洞察:搜索(Search)≠ 研究(Research)

很多开发者做 Agent 时容易陷入一个误区:以为给模型配一个联网搜索工具(Search Tool),它就能做研究了。

论文一针见血地指出:Search is not Research(搜索不是研究)

  • 搜索是填空题:你问“2025 年全球 AI 市场规模是多少”,它去把这个数字找出来。

  • 研究是申论题:你需要规划方向、拆解意图、反复验证不同来源的数据、自我反思“我找得对不对”,最后把碎片化的信息整合成一篇有逻辑的报告 。

目前的很多模型,更像是一个高效的爬虫(Web Crawler),只会把网上的碎片信息堆砌给你,不仅逻辑断裂,还容易一本正经地胡说八道 。

StepFun 团队认为,要解决这个问题,不能光靠堆工具,而是要让模型内化出一套“专家的认知循环”

02 技术解密:32B 模型是如何炼成的?

既然不能靠堆参数,那就得靠“练法”。Step-DeepResearch 的核心配方非常值得玩味,主要包含三个关键词:单体架构原子能力Mid-training

1. 返璞归真的架构 (Single-agent ReAct)

在大家都在疯狂叠各种 Agent 搞“群聊”的时候,Step-DeepResearch 选择了一条看似复古的路:单体 ReAct 架构

没有任何花哨的“分身术”,就是一个脑子在干活。它依然遵循经典的“思考-行动-观察”循环 。为什么要这么做?论文认为,通过端到端的训练,让一个模型自己把规划、执行、反思全包圆了,反而比强制拆分成多个模型协作要更高效,信息损耗也更小 。

当然,敢用单体架构,前提是你对这个“单体”的能力极度自信。

2. 四大“原子能力” (Atomic Capabilities)

为了让这个 32B 的小脑瓜变聪明,团队没有直接教它“怎么写报告”,而是把研究任务拆解成了四个原子能力(Atomic Capabilities)进行特训 :

  1. Planning(规划):拿到模糊的需求,先拆解成可执行的子任务。这是为了防止模型像无头苍蝇一样乱搜 。

  2. Information Seeking(深度搜素):不是简单的关键词匹配,而是要学会“顺藤摸瓜”,根据网页的超链接去挖掘深层信息 。

  3. Reflection & Verification(反思与验证):这是最关键的。模型要学会自己问自己:“我搜到的这个数据靠谱吗?和其他来源矛盾吗?”如果错了,要自己修正 。

  4. Reporting(写作):不是简单的拼接,而是要有领域风格(Domain Style),像分析师一样去论证观点 。

3. 秘密武器:Mid-training(中间阶段训练)

这是整篇论文最硬核的部分。

通常我们训练大模型是:Pre-training(预训练) -> SFT(精调)。但 StepFun 在这两者中间插了一个Agentic Mid-training

这就像是一个学生在读完通识教育(Pre-training)后,不要急着去学写具体的八股文(SFT),而是先上一门“逻辑与研究方法论”的必修课

在这个阶段,他们构造了大量的数据,把 Context 长度从 32K 一路拉练到 128K 。

  • 32K 阶段:不给工具,纯靠阅读长文档,逼模型学会从海量文字里提炼逻辑 。

  • 128K 阶段:上强度,引入工具调用、网页浏览、复杂规划,让模型适应超长上下文的决策 。

正是这个Mid-training,把模型从“预测下一个字”的语言模型,强行扭转成了“预测下一个行动”的决策模型 。

03 效果验证:不但强,而且省

光说不练假把式。效果到底怎么样?

这里的图最能说明问题

ResearchRubrics评分上:

  • Gemini DeepResearch: 63.69

  • Step-DeepResearch: 61.42

  • OpenAI DeepResearch: 60.67

  • Kimi-Researcher: 53.67

是的,你没看错,它在这个榜单上甚至微弱领先了 OpenAI 。

自建的“魔鬼考场”:ADR-Bench

作者还顺手吐槽了一下现在的评测集(比如 BrowseComp)太简单了,全是找事实的填空题 。

于是他们搞了个ADR-Bench,专门收录真实世界的刁钻问题,还分了通用版和金融/法律专业版

在最难啃的金融/法律领域,虽然 Gemini 依然是老大(Tier 1),但 Step-DeepResearch 稳稳站住了 Tier 2 的头部位置,和 OpenAI、Kimi 处于同一梯队,把其他模型甩在了后面 。这也说明了,在极度专业的领域,Agent 的流程优化固然重要,但模型本身的领域知识储备依然是硬门槛。

04 The Takeaway

Step-DeepResearch 给当下的 AI 行业打了一剂强心针。它证明了Deep Research 不一定是千亿模型或超级大厂的专利。

这篇论文最大的启示在于:

  1. 数据质量 > 模型参数:通过精心构造的“原子能力”合成数据,中等模型也能涌现出专家级的思考回路。

  2. 训练范式的胜利:Mid-training 可能会成为未来 Agent 模型的标配,它填补了“懂知识”和“会干活”之间的巨大鸿沟。

  3. 单体架构的潜力:别急着搞多智能体,先把单体的脑子练好,有时候“少即是多”。

对于我们普通开发者或企业来说,这意味着部署一个专家级 AI 研究员的成本,正在从“奢侈品”变成“日用品”。

Next Step:你对这种“小模型+强训练”的路线怎么看?欢迎在评论区分享你的看法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:27:12

mock服务的新时代——从碎片化到平台化

在软件测试领域,mock服务是模拟真实系统行为的核心工具,用于隔离测试环境、验证API交互或处理依赖缺失问题(如第三方服务不可用)。传统模式中,测试团队常面临mock脚本分散、维护成本高、复用率低的痛点——每个项目或开…

作者头像 李华
网站建设 2026/4/18 5:34:48

毕设分享 基于人工智能的图像分类算法研究与实现

文章目录0 简介1 常用的分类网络介绍1.1 CNN1.2 VGG1.3 GoogleNet2 图像分类部分代码实现2.1 环境依赖2.2 需要导入的包2.3 参数设置(路径,图像尺寸,数据集分割比例)2.4 从preprocessedFolder读取图片并返回numpy格式(便于在神经网络中训练)2.5 数据预处…

作者头像 李华
网站建设 2026/4/18 4:57:58

2025继续教育必备!9个降AI率工具测评榜单

2025继续教育必备!9个降AI率工具测评榜单 2025年继续教育者的降AI率工具测评指南 在人工智能技术快速发展的背景下,学术论文的AI检测标准愈发严格,许多继续教育学员在撰写论文时面临“AI率过高”的难题。无论是毕业论文、课题报告还是科研成…

作者头像 李华
网站建设 2026/4/17 18:39:26

【光子AI】提示词:开发一个类似 Notion 这样的 AI 写作平台,但是要超过 Notion (在 MultiAgent 体系、智能提示词生成、写作 Plan-Execute 智能工作流生成等)

【光子AI】提示词:开发一个类似 Notion 这样的 AI 写作平台,但是要超过 Notion (在 MultiAgent 体系、智能提示词生成、写作 Plan-Execute 智能工作流生成等) 文章目录 【光子AI】提示词:开发一个类似 Notion 这样的 AI 写作平台,但是要超过 Notion (在 MultiAgent 体系…

作者头像 李华
网站建设 2026/4/18 8:02:13

AI开发者必看:PaddlePaddle镜像如何提升研发效率

PaddlePaddle镜像如何重塑AI研发效率 在一家初创公司里,新入职的算法工程师小李本该第一天就开始训练模型,结果却花了整整两天——不是调试代码,而是在反复解决CUDA版本不匹配、cuDNN缺失和Python依赖冲突的问题。这种场景在AI项目中并不罕见…

作者头像 李华
网站建设 2026/4/16 11:55:45

揭秘Open-AutoGLM在macOS上的运行机制:5步实现本地大模型自动化推理

第一章:揭秘Open-AutoGLM在macOS上的运行机制 Open-AutoGLM 是一款基于 AutoGPT 架构设计的开源语言模型框架,专为本地化推理与自动化任务执行优化。在 macOS 平台上,其运行依赖于 Metal 加速技术与 Python 环境的深度集成,使得大…

作者头像 李华