导语
过去一年,AI Agent 的热点从“大模型更强了”转向“模型终于能稳定调用工具了”。但一旦进入科研场景,真正决定 Agent 上限的,往往不是参数量,而是它能否拿到可信证据、回到原文上下文、保留引用链路。Sciverse 的价值,恰好落在这个关键断点上。
这波热点,为什么现在值得关注
如果把最近一年的公开技术信号连起来看,会发现一个非常清晰的趋势:Agent 正在从“生成答案”转向“组织证据、调用工具、返回可核查结果”。
热点 1:MCP 从本地连接走向远程连接
2025 年 5 月 1 日,Anthropic 发布 Integrations,并明确表示 Claude 可以通过远程 MCP servers 连接网页与桌面工具,不再局限于本地服务器。[1]
这件事的意义不只是“多接了几个插件”,而是工具调用协议开始走向真正的跨应用互联。
热点 2:Agent API 正在内建搜索、文件、计算机操作
2025 年 3 月 11 日,OpenAI 发布 Responses API,并把 web search、file search、computer use、Agents SDK 一起推到台前。[2]
这意味着主流模型平台已经不再把工具调用当作外围能力,而是当作 Agent 的默认工作方式。
热点 3:科学智能模型开始直接以 API 形态开放
2025 年 6 月 25 日,Google DeepMind 发布 AlphaGenome,并说明该模型可通过 API 面向非商业研究开放预览;2026 年 1 月该研究更新为已发表于 Nature。[3]
这说明 AI for Science 正在从“论文突破”走向“可编排组件”。
热点 4:Sciverse 已经把“科研检索 + Agent 接入”产品化
截至本次核查,Sciverse 官网首页直接把“Generate review”“Paper shortlist”“Track research direction”作为面向 Agent 的科学任务入口展示,并公开了 15 个 cookbook recipes。[4]
同时,opendatalab/Sciverse-Agent-Tools仓库在 GitHub 上显示最新 release 为v0.7.1,发布日期为 2026 年 5 月 28 日,且提供 Python、TypeScript、CLI、Anthropic/OpenAI 工具模式、MCP Server 等接入方式。[5]
一句话判断:Agent 的共性基础设施正在成熟,但科研场景的竞争点,已经从“能不能调工具”转移到“调到的证据是否可信、可追溯、可复核”。
为什么科研 Agent 比通用 Agent 更依赖“证据底座”
通用办公场景里,Agent 做错一次,可能只是写错一封邮件。
科研场景里,Agent 如果:
- 引错论文
- 截断了关键上下文
- 把检索片段当结论
- 无法回到图表、原文、DOI、页码
- 不能解释筛选条件和证据来源
那它就不是“科研助手”,而只是“会说科研话的聊天机器人”。
这也是为什么科研 Agent 的核心,不是单次问答体验,而是下面这条链路是否闭环:
问题提出 → 结构化筛选 → 语义检索 → 原文回读 → 图表/资源获取 → 证据打包 → LLM 生成 → 引用回链
Sciverse 刚好把这条链路补齐了。
Sciverse 如何切入这个主题
从官网和开源仓库公开信息看,Sciverse 的定位不是再造一个通用聊天壳,而是做科学世界的 AI-ready data foundation。[4][5]
它对外暴露的五类核心能力很关键:
| 能力 | 作用 | 对科研 Agent 的意义 |
|---|---|---|
list_catalog | 枚举可用字段与样例值 | 让 Agent 先“理解数据库结构”再检索 |
search_papers | 结构化论文筛选 | 适合年份、作者、期刊、主题等精确过滤 |
semantic_search | 语义检索片段 | 找到与研究问题最相关的证据入口 |
read_content | 原文片段/上下文读取 | 防止只看 snippet 就下结论 |
get_resource | 拉取图片等二进制资源 | 支持 figure-aware、多模态 RAG |
这组能力与 Sciverse 首页公开展示的三个典型任务几乎一一对应:
Generate review:先检索,再读原文,再生成带证据的综述Paper shortlist:先结构化过滤,再输出候选论文清单Track research direction:把 Saved Query、定期检索、digest 汇总串起来Agent RAG / Multimodal Retrieval / Skill Agent:把上述流程接到 Claude、Cursor、Codex 等 Agent 环境中[4]
这不是“把搜索接到大模型上”这么简单,而是把科研任务拆成了可验证、可重放、可替换的工作流节点。
技术拆解:一套适合科研 Agent 的 Sciverse 架构
可以把它理解成一个四层栈:
第一层:Agent 编排层
这里可以用 Claude、OpenAI Responses API、LangChain、Agents SDK,或者 MCP Client。
职责是:理解用户任务、规划调用顺序、组织中间状态。
第二层:科学检索工具层
这里由 Sciverse 提供五类工具。
职责是:把自然语言问题转成真实的科研检索动作,而不是只让模型“脑补答案”。
第三层:证据包层
把命中的论文、片段、页码、DOI、图像资源、筛选条件整理成 Evidence Pack。
职责是:让下游 LLM 只基于证据作答,并保留引用链。
第四层:输出层
输出可以是综述、论文清单、跟踪 digest、研究备忘录,甚至实验设计草案。
职责是:把证据转成可读结果,但不能丢失可核查性。
可以进一步用流程表示:
User Query -> Planner / Agent -> list_catalog # 首次集成时先学字段 -> search_papers # 需要精筛时 -> semantic_search # 找证据片段 -> read_content # 回读上下文 -> get_resource # 拉取图/表 -> Evidence Pack -> LLM Synthesis with citations -> Review / Shortlist / Tracking Digest一个可运行的代码示例:先拿证据,再让模型生成综述
下面这段 Python 示例基于 Sciverse 仓库 README 中公开的AgentToolsClient接口写法改造而来,可直接作为“综述前证据抓取脚本”使用。[5]
importasyncioimportjsonfromsciverseimportAgentToolsClient QUERY="recent advances in solid-state lithium battery electrolytes"asyncdefbuild_evidence_pack():asyncwithAgentToolsClient()asclient:hits=awaitclient.semantic_search(query=QUERY,top_k=5,mode="balanced")evidence=[]forhitinhits["hits"][:3]:content=awaitclient.read_content(doc_id=hit["doc_id"],offset=hit["offset"],limit=2500)evidence.append({"title":hit["title"],"doc_id":hit["doc_id"],"score":hit["score"],"doi":hit.get("doi"),"page_no":hit.get("page_no"),"snippet":hit.get("snippet")orhit.get("chunk"),"content_preview":content.get("content","")[:1200]})print(json.dumps({"query":QUERY,"evidence_count":len(evidence),"evidence":evidence},ensure_ascii=False,indent=2))if__name__=="__main__":asyncio.run(build_evidence_pack())如果你要把它接进 Agent,而不是只做脚本,可以继续走两步:
- 把输出的
evidence作为 prompt 上下文喂给模型 - 在系统提示词里强制要求“只能基于 evidence pack 生成,并逐段标注来源”
这个模式的关键不是“让模型更聪明”,而是“让模型更少胡说”。
一个很重要的判断:MCP 解决的是连接,Sciverse 解决的是科研语义和证据质量
很多团队在做 Agent 时,容易把“协议接通了”误当成“场景打通了”。
但对于科研任务,这两者差别非常大:
| 问题 | MCP/通用工具调用能解决什么 | Sciverse 这类科学底座补了什么 |
|---|---|---|
| 工具怎么接进模型 | 定义调用协议、参数、返回结构 | 提供科学检索语义本身 |
| 模型怎么查资料 | 可发起搜索/文件读取 | 可面向论文、片段、上下文、图表做专用检索 |
| 结果怎么可复核 | 可返回 tool result | 可保留doc_id、页码、DOI、资源路径 |
| 如何避免“看见片段就总结” | 需要开发者自己补 | read_content天然支持回读上下文 |
| 如何做科学多模态 RAG | 通用协议不含领域资源语义 | get_resource可拉取图像资源 |
金句:协议让 Agent 能“伸手”,数据基础设施决定它“摸到的到底是什么”。
Sciverse 最适合切入的三类高价值场景
1. 文献综述 Agent
适合研究立项、开题、产业技术跟踪。
重点不是“一键出长文”,而是“每段判断都能回到证据”。
2. 论文精筛 Agent
适合系统综述前筛选、竞品技术情报、专利前置调研。
重点不是搜得多,而是结构化条件透明、可复用、可导出。
3. 多模态科研 RAG
适合生命科学、材料、化学等强图表场景。
重点不是只读摘要,而是把 figure、caption、上下文一起纳入推理。
评测与验证:本文未进行实测跑分,但可以这样复现
本文未进行实测跑分。
下面只提供可复现实验设计,不伪造准确率、延迟、成本或吞吐。
评测目标
比较三类方案在科研问答/综述任务上的差异:
| 方案 | 检索来源 | 是否回读原文 | 是否保留引用链 | 是否支持图表资源 |
|---|---|---|---|---|
| 纯模型直答 | 无 | 否 | 否 | 否 |
| 通用 Web RAG | 通用网页/搜索 | 部分 | 不稳定 | 弱 |
| Sciverse 科研 RAG | 科学文献检索 | 是 | 是 | 是 |
建议数据集/任务集
可选择以下公开任务方向,自建 20-50 个问题样本:
| 方向 | 示例问题 |
|---|---|
| 生命科学 | “近两年 CRISPR off-target 缓解策略有哪些主流路线?” |
| 材料科学 | “固态电解质界面工程的关键瓶颈有哪些?” |
| 化学 | “近年 retrosynthesis agent 在多步路线规划上的限制是什么?” |
| AI for Science | “蛋白功能预测与生成式设计的结合点有哪些?” |
核心评测指标
- 引用可核查率:回答中有多少结论能回到具体来源
- 证据充分度:关键结论是否给出了足够上下文
- 片段误用率:是否把 snippet 当完整结论
- 结构化筛选可解释性:筛选条件是否清晰可复现
- 人工评审通过率:由领域研究者打分
推荐实验步骤
- 为每个问题分别运行三种方案
- 固定模型版本,尽量只变检索与工具链
- 保存全部中间日志:query、filters、命中文档、原文片段、最终回答
- 人工核对每条关键结论是否可追溯
- 记录失败案例:误引、断章取义、证据不足、图表缺失
结果记录模板
## Sample ID - Question: - Domain: - Baseline Type: - Retrieved Sources: - Evidence Readback Performed: Yes / No - Figures Retrieved: Yes / No - Final Answer Saved: - Citation Check Passed: Yes / No - Notes:如果后续真的要做公开 benchmark,建议把“最终回答质量”与“证据链完整性”分开统计,否则很容易把模型文风误当成科研可靠性。
对 Sciverse 的一个更直接判断
Sciverse 值得关注,不是因为它也能接 Agent。
而是因为它把科研 Agent 最难做对的那一段公开成了可编排工具:
- 不只给“搜到什么”
- 还给“怎么筛”
- 给“原文怎么看”
- 给“图表怎么拿”
- 给“如何接到 Claude / OpenAI / MCP / CLI”
这使它更像科研 Agent 的“检索执行层”,而不是又一个包着聊天框的应用。
金句:真正能落地的科研 Agent,不是先学会写,而是先学会查、会证、会回链。
结尾
当 MCP、Responses API、科学模型 API 同时成熟,下一阶段真正有壁垒的,不再是“谁先把 Agent 跑起来”,而是“谁能让 Agent 在高价值场景里给出可验证结果”。
如果你正在做科研搜索、文献综述、实验设计辅助,或者想把通用 Agent 拉进生命科学、化学、材料这些高信息密度领域,Sciverse 是一个值得尽快试接的底座:
先从 cookbook 和 Agent Tools 开始,把你的第一个“可追溯科研 Agent”跑起来,再谈更复杂的自动化研究流程。
CTA
- 试用 Sciverse 官网入口与 cookbook:Sciverse
- 查看 Agent Tools 仓库并接入 SDK / CLI / MCP:Sciverse-Agent-Tools
- 如果你已经有 Claude、Cursor、Codex 或自研 Agent,可优先从“综述生成”或“论文精筛”两个任务切入
来源列表
[1] Anthropic / Claude Blog, “Claude can now connect to your world”, May 1, 2025
https://claude.com/blog/integrations
[2] OpenAI, “New tools for building agents”, March 11, 2025
https://openai.com/index/new-tools-for-building-agents/
[3] Google DeepMind, “AlphaGenome: AI for better understanding the genome”, June 25, 2025; updated January 2026
https://deepmind.google/blog/alphagenome-ai-for-better-understanding-the-genome/
[4] Sciverse 官网,
https://sciverse.space/
[5] GitHub,opendatalab/Sciverse-Agent-Tools,
https://github.com/opendatalab/Sciverse-Agent-Tools