news 2026/4/18 12:27:31

Agentic AI可靠性工程实践,确定性工具与探索性Agent的平衡

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Agentic AI可靠性工程实践,确定性工具与探索性Agent的平衡

Erickson认为,当我们将代理式AI视为真实运营系统之上的一个抽象层,而不是完全替代这些系统时,它才会变得真正有价值。模型可以理解问题、检索证据、分类情况并提出行动建议,而确定性系统则负责执行操作、强制执行约束,并提供使整个循环能够被评估的遥测数据。

在2025年QCon AI纽约大会上,Aaron Erickson提出了一个颠覆性的观点:代理式AI(Agentic AI)本质上是一个工程问题,而非提示词技巧的练习。

他的核心观点是,系统的可靠性来自于将 概率性组件 与 确定性边界 相结合。

代理式AI作为系统层,而非替代品

Erickson认为,当我们将代理式AI视为真实运营系统之上的一个抽象层,而不是完全替代这些系统时,它才会变得真正有价值。

模型可以理解问题、检索证据、分类情况并提出行动建议,而确定性系统则负责执行操作、强制执行约束,并提供使整个循环能够被评估的遥测数据。

自然语言到SQL的常见陷阱

Erickson描述了一个在自然语言转SQL以及类似查询生成模式中的常见陷阱。

最初的几个演示之所以能够成功,是因为问题简单且数据库模式较小。但当模式变得复杂,查询空间包含大量连接、边缘情况或重载字段时,准确性会急剧下降。

他强调的一个缓解策略是减少自由度:扁平化模式、约束查询形式,并将表达能力视为必须通过更多评估和额外保障措施来支付的成本。

分类与代码生成的关键差异

Erickson还观察到了分类任务和代码生成之间的实用差异。

当系统的任务是从一小组已知类别中进行选择时,模型可以非常有效。但当系统的任务是在一个巨大的搜索空间中发明任意程序时,错误率会攀升。

这个差距成为了一个设计杠杆:你可以让模型先对意图进行分类,然后路由到确定性查询模板或有界工具调用。

工具选择本身就是可靠性问题

Erickson展示了一张包含大量芝士蛋糕菜单的幻灯片,用以说明工具选择本身就是一个可靠性问题。

"大语言模型可能遭受'选择悖论'"

当太多工具看起来相似时,选择质量会下降,模型可能会自信地选择一个次优或不安全的路径。

工程上的启示是,工具目录和工具接口是产品的一部分。

工具应该具有差异化、描述清晰且受到约束,否则Agent会表现得像一个盯着巨大菜单的用户,Erickson说道。

角色专业化的重要性

Erickson随后阐述了为什么角色专业化很重要。

一个"对一切都略知一二"的通用Agent可能在路由和摘要方面很有帮助,但系统的正确性取决于为特定任务构建的、具有狭窄契约的专用组件。

他描述了一个类似管理层的委托层,但将其视为编排层,而不是领域逻辑应该存在的地方。在他看来,重要的工作在于实际接触底层系统的专用Agent和确定性工具。

Agent行为分类体系

这引出了他对Agent行为的分类体系。

最具体的例子之一是"Worker Agent"幻灯片,展示了一个人在石头上画螺旋,配以提示词来检查大量集群并标记值得关注的集群。

他认为Agent可以部署在数千条相似记录上,重复执行相同的分析,并存储结构化输出以供后续审查。

他描述了随着系统增长而帮助控制复杂性的其他角色:

工具选择Agent:当有多种方式实现结果时,可以帮助减少歧义

观察者或咨询式Agent:可以监控组件之间的交互,标记不安全的通信模式、策略违规或质量回归

导演Agent:可以在其他Agent之间委托工作,并跟踪朝着可衡量结果的进展

这个信息反映了经典的测试指导原则:尽可能将信心推入测试中,并保留完整系统运行以验证集成行为。

确定性锚点的必要性

Erickson还使用了一个简单的运营类比来证明确定性锚点的必要性。

他问:你是否每次都重新发明常规操作?

答案是:你不会。你会为操作员提供确定性的运行手册。

他认为代理式系统应该继承这个习惯。在可重复性重要的地方,将可重复性编码到工具和运行手册中,让Agent决定何时应用运行手册,而不是允许Agent为每个事件发明新流程。

确定性与发现之间的平衡

最后,Erickson回到了确定性和发现之间的分割。发现是Agent探索、提出和发现异常的地方。

确定性是确定性工具执行有界操作并执行策略的地方。

他认为,两者之间的边界就是平台工程所在之处:身份验证、授权、审计、遥测和安全降级。

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:08:34

基于 51 单片机音乐喷泉频谱灯控制系统设计

一、系统整体设计方案 本系统以 51 单片机为核心控制单元,旨在实现音乐信号、喷泉动作与频谱灯效的协同联动,打造具有视觉与听觉双重体验的多媒体控制系统。设计遵循 “模块化、稳定性、低成本” 原则,将系统划分为四大核心功能模块&#xff…

作者头像 李华
网站建设 2026/4/18 10:50:31

北票市金马除尘破碎机械厂社会保险的缴费负担情况分析

2 企业社会保险的缴费负担分析 2.1 小微企业社会保险的缴费负担分析 如今小微企业的竞争力远不如大中型企业,企业自身资金不充足,资金中转艰难,无人投资,发展前景小,平台少,原材料,人力成本高&…

作者头像 李华
网站建设 2026/4/18 8:53:25

收藏!AI工程师必掌握的5大核心模型架构(小白入门进阶必备)

在当前AI技术爆发的浪潮中,大型语言模型(LLMs)虽常年占据热搜,但要构建真正能落地、能感知世界、能自主执行任务的完整AI系统,仅靠LLM远远不够。一批专门化的核心模型架构,正在悄悄重塑AI应用的底层逻辑。 …

作者头像 李华
网站建设 2026/4/18 8:38:13

1-D 和 2-D 系统事件触发控制指导

1-D、2-D系统事件触发控制指导、 在控制系统领域,1 - D(一维)和 2 - D(二维)系统有着独特的应用场景和控制方式。今天咱们就来深入聊聊它们的事件触发控制。 1 - D 系统事件触发控制 1 - D 系统可以简单理解为沿着单…

作者头像 李华
网站建设 2026/4/17 14:01:21

Docker 新手小白保姆级教程:从安装到基础操作全搞定

作为一名刚接触容器技术的新手,是不是觉得 Docker 又神秘又难学?其实 Docker 的核心逻辑很简单 ——“一次构建,到处运行”,能帮我们解决环境配置不一致、依赖冲突等一系列头疼问题。今天这篇教程,就从各系统安装 Dock…

作者头像 李华
网站建设 2026/4/18 0:24:30

轻量服务器和云服务器的区别

轻量服务器和云服务器区别很大,核心差异在于定位、灵活性、扩展性和适用场景,轻量服务器是简化版云服务器,主打“开箱即用、低成本”,云服务器则是全功能弹性计算产品,覆盖从个人到企业的全场景需求。 一、核心区别对比…

作者头像 李华