news 2026/4/18 7:48:28

谷歌发布全新交互API,AI开发者需要了解的一切

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
谷歌发布全新交互API,AI开发者需要了解的一切
近期,谷歌DeepMind发布的全新交互API(Interactions API)公测版,终于填补了这一基础设施空白。交互API不仅是一款状态管理工具,更可作为统一接口将大模型从许可证生成器转化为远程操作系统。

过去这两年,生成式AI开发的基本形态可以用“一事一议”来形容。

用户向模型发送文本提示词,模型返回文本,交互即告结束。若想继续对话,则需要将完整历史重新发送至模型。这种“无状态”架构支撑简单的聊天机器人还可以,但随着开发者转向能用工具、维护复杂状态并进行长期“思考”的自主智能体,无状态模型开始暴露出明显短板。

近期,谷歌DeepMind发布的全新交互API(Interactions API)公测版,终于填补了这一基础设施空白。

交互API不仅是一款状态管理工具,更可作为统一接口将大模型从许可证生成器转化为远程操作系统。

“远程计算”模型

交互API的最大创新,就在于将服务器端状态视为默认行为。

此前开发者在构建复杂智能体时,需要手动管理不断增长的JSON列表,以记录用户与模型的交互轮次。而交互API则仅需传递previous_interaction_id即可实现,由谷歌基础设施自动保存对话历史、工具输出以及“思考”过程。

谷歌在博文中解释称,“大模型正演变为系统,未来甚至可能成为智能体本身。若强行将这么多能力塞入generateContent接口,必然导致API过度复杂且脆弱。”

此番转变实现的后台执行功能,正是智能体时代的关键特性。以往,复杂工作流经常导致标准API触发HTTP超时,而交互API则允许开发者通过background=true参数触发智能体,随后断开连接并延迟轮询结果,在实质上将API转化为智能任务队列。

原生“深度研究”与MCP支持

谷歌还基于这套新架构,发布了首个内置智能体:Gemini深度研究(Deep Research)。

通过同一/interactions接口访问,该智能体可执行“长周期研究任务”。不同于依托提示词预测下一token的标准模型,深度研究智能体会循环执行搜索、阅读与综合处理任务。

更重要的是,谷歌还原生支持模型上下文协议(MCP),借此拥抱开放生态。如此一来,Gemini模型将可直接调用远程服务器托管的外部工具(如气象服务或数据库),开发者无需定制胶水代码即可解析工具调用。

发展前景:谷歌与OpenAI共同迈入“有状态”时代

OpenAI早在九个月前发布Responses API时,就已宣告步入有状态时代;但谷歌秉持的理念却截然不同。

两大巨头要解决的同样是上下文膨胀问题,但在透明度问题上存在分歧:

  • OpenAI给出的压缩方案:Responses API引入的“压缩”功能会将工具输出与推理链替换为不透明的“加密压缩项”以削减对话历史。此方案虽能提升token效率,但却形成了“黑箱”机制,导致开发者无法追溯模型过往推理过程。
  • 谷歌的托管方案:交互API会保留完整的可组合对话历史,其数据模型支持开发者“对消息片段进行调试、操作、流式处理及推理”,优先保障可检查性而非压缩效率。
支持的模型及发布时间

交互API现处于公测阶段,可通过Google AI Studio立即使用。该API支持谷歌最新一代模型家族,确保开发者能根据具体智能体用例匹配适合体量的模型:

  • Gemini 3.0: Gemini 3 Pro Preview版本
  • Gemini 2.5: Flash、Flash-lite及Pro版本
  • 智能体: Deep Research Preview (deep-research-pro-preview-12-2025)

该API还遵循谷歌现有定价体系,可根据所选模型按标准费率支付输入/输出token费用。由于该API有状态,谷歌还需要存储交互历史以实现隐式缓存及上下文检索等功能。

存储访问权限由用户级别决定:免费用户仅享受一天数据保留,适用于临时测试场景,但无法满足长期智能体记忆需求。

付费用户则可享受55天数据保留周期,在实现审计能力的同时最大化缓存命中率,以有效降低总体拥有成本。这意味着重复访问用户可在近两个月周期内避免海量上下文窗口产生的费用,大大提高生产效率。

注:当前为测试版,后续功能与架构调整可能影响现有业务。

“您正与系统交互”

谷歌机器学习开发者专家、Red Dragon AI CEO Sam Witteveen认为,交互API的发布代表着开发者技术栈的又一重要演进。

“回顾历史……大模型的核心理念曾是文本入、文本出。但如今用户已经在与系统交互。这套系统能调用多种模型、执行多轮调用、使用工具,并在后端执行代码。”

在Vitteveen看来,该架构的隐式缓存机制能带来直接经济效益,避免开发者为重复上传的相同上下文付费。

但Witteveen同时批评了深度研究智能体当前对系统的引用方式。虽然智能体可提供来源信息,但返回的URL往往被包含在谷歌/Vertex AI的内部重定向链接中,而非原始可用URL。

他警告称,“最让我无法接受的,就是保存下来的URL在其他会话中无法使用。当我需要为他人制作带引文的报告时,当然希望对方能直接点击PDF中的链接。”

对团队有何影响

对于希望快速部署和微调模型的AI工程师们,本次发布通过“后台执行”功能解决了长久以来的“超时”难题。

我们无需构建复杂的异步处理程序,或者管理独立的长期推理任务队列,而可直接将这些复杂操作交由谷歌处理。当然,这种便利性背后也有负面影响。

虽然新版深度研究智能体可以快速部署复杂的研究能力,但相较自定义的LangChain或LangGraph流程,其运行机制更偏“黑箱”。工程师需要通过background=true参数对“慢思考”做原型评估,是否值得用研究循环精细控制的损失换取实现速度。

负责AI编排与预算的工程师们,则可通过previous_interaction_id解锁隐式缓存功能,在成本和延迟指标方面获得重大突破。

通过调用存储在谷歌服务器上的历史记录,大家可以规避重新上传海量上下文窗口产生的token成本,在维持高性能的同时释放更多预算。

高级数据工程师们则可获得远超原始文本日志的强大数据模型。交互API支持对复杂历史记录进行调试和推理,从而提升整个数据管线的完整性。当然也需要警惕数据质量问题,特别是Sam Witteveen提出的引文失效问题。

具体来讲,深度研究智能体返回的可能是过期或已失效的“封装”URL,而非原始来源链接。若数据管线依赖抓取或归档这些来源,则可能需要构建清理步骤以提取可用URL。此外还须测试结构化输出功能(response_format),判断其能否替代当前ETL管线中对正则表达式的脆弱解析。

IT安全总监则应对将状态迁移至谷歌集中服务器保持警惕。此举虽然能将API密钥与对话记录移出客户端设备,借此提高安全性,却也引入了新的数据驻留风险。其中的关键,在于谷歌的数据保留政策:免费用户的数据仅保留一天,而付费用户的数据最多也仅保留55天。

这与OpenAI的“零数据驻留”(ZDR)企业方案形成了鲜明对比。其内部治理规范要求我们保存最近两个月的敏感对话记录。若拒绝遵循此政策则须配置store=false参数,但此举也将破坏该API的状态化功能以及成本优势。

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 3:59:36

数据库合并与流程建模整合

YOLOFuse 多模态目标检测 - 社区镜像使用指南 在复杂环境下的目标检测任务中,单一视觉模态往往力不从心。比如夜间、烟雾或强光场景下,RGB 图像容易失效,而红外(IR)图像恰好能捕捉热辐射信息,补足感知盲区…

作者头像 李华
网站建设 2026/4/17 23:26:59

什么是开发、测试、生产环境?

1、本地环境(local) 本地环境是指开发人员在个人计算机或本地服务器上进行软件开发、调试和测试的个人工作环境,用于独立开发和运行代码,不与其他开发人员共享资源。 2、开发环境(development) 开发环境…

作者头像 李华
网站建设 2026/3/30 21:06:36

牛批了,多媒体神器

今天给大家介绍一款自媒体上课神器,有了它,在直播教学或者录课的时候会有更好的显示效果,有需要的小伙伴可以下载收藏。 水豚鼠标助手 自媒体讲课神器 软件体积小巧,大小只有10M。无需安装,双击打开就能直接使用了。 …

作者头像 李华
网站建设 2026/4/16 0:57:25

LangGraph内存架构全解析:构建能记住过去的AI智能体实战指南

本文详细介绍了如何使用LangGraph构建具有持久记忆能力的AI智能体。通过分析LangGraph的双系统记忆架构(短期记忆和长期记忆),讲解了记忆专用节点设计、优化策略及常见问题解决方案。文章强调了State作为记忆流转中枢、专用记忆节点实现闭环操…

作者头像 李华
网站建设 2026/4/18 7:03:18

揭秘大模型背后的“特级教师“:数据标注员的前世今生与未来

收藏!揭秘大模型背后的"特级教师":数据标注员的前世今生与未来 数据标注员作为AI的"老师",正从低端重复工作向高端化转变,头部大模型公司积极招募高学历人才。尽管面临缺乏尊严、性价比低、上升空间狭窄等问题…

作者头像 李华
网站建设 2026/4/16 16:41:21

doris的导入数据库文件的的同步导入方式

DorisDB(原Apache Doris)支持多种数据导入方式,其中同步导入通常指通过**INSERT INTO语句**实现单条或小批量数据的实时写入。以下是关键特性及示例:一、INSERT INTO同步导入核心特性事务性保证通过MySQL协议提交的INSERT操作具备…

作者头像 李华