本文是我以自己的理解,结合前沿论文,加以李宏毅教授的AI Agent课程,所写下的AI agent的基本原理及特性文章,供大家学习参考讨论!
(Agent是近两年极其热门且关键的话题,眨眼间已2026年了,我们的思维一定要从构造传统AI向构造AI Agent转变过来!)
一、什么是Agent?—— 从“被动工具”到“主动代理”
AI Agent,直译像是“人工智慧代理人”。是人类给定Goal,期望Agent能够自主完成任务。
若人类先给予一个明确指令,然后AI被动地执行1个动作,这是传统AI,不算作“AI Agent”;
若人类给予目标,AI自己会想办法完成,期间可能主动地执行很多个动作,这才叫“AI Agent”。
用AlphaGo这个下棋Agent举例子:人类给予它目标:赢棋。Agent通过Obervation和Action的不断循环,最终自主完成这个目标。
但是一个只会下棋的Agent显得很“应用局限”,见下图,若我们直接用大型语言模型(Large Language Model, LLM)来做Agent,会显得更通用,能解决更多问题!
LLM显然也能下棋,也能做传统下棋Agent的工作!你只要把棋盘的信息用自然语言描述即可!
更明显的对比。一个传统的Agent,比如编程Agent,若编译错误,那么我们设定返回的奖励reward是-1。这个-1就显得有点站不住脚,比如,为什么不是-999?不是-0.01?
但是如果我们用LLM去当编程Agent,我们可以把返回的信息变成“控制台输出日志”,这样显得更加合理,是不是会更有利于AI解决这个问题?
AI Agent还有一些应用,举例子如下:
AI Agent甚至可以训练模型,来做机器学习,甚至自己打Kaggle上的比赛。
AI Agent还具有根据经验调整行为的能力,若得到error的反馈,就会调整为“更新代码”的行为:
但是如果太多经验…也许对Agent并不是好事,比如若基于10000个经验推理,AI往往正确率大大降低。
于是研究者们引入Read模组:能够从Memory资料库里面检索当前任务真正需要的经验(其实就是RAG技术,Retrieval Augmented Generation检索增强生成技术 —— 通过实时检索外部知识库,来增强大语言模型生成结果准确性与时效性)
研究者们认为Agent’s Memory也不能被“鸡毛蒜皮的小事”塞爆!我们应该只记重要的资讯,就引入Write模组:只写入关键的经验进memory。
除了Read, Write,研究者还提出一个重要的Reflection模组:对记忆中的资讯重新整理
Reflection不一定整理成thought,也可以整理成Knowledge Graph
示例:有记忆的ChatGPT:我们告诉gpt周五下午要上机器学习课,让他记下来
我们突然告诉他周五下午要出去玩(但其实我们以前告诉过他周五下午有机器学习课),以测试其记忆功能:
Gpt果然具有记忆,他还问我们是不是要翘课出去玩😂。
二、AI怎么使用工具(只需要知道怎么用,不需要知道内部工作原理)
AI可以用哪些工具呢?举例子如下:
工具可以看做Function,使用工具就是调用这些Function,所以有了调用工具的术语:Function call
使用工具在AI里是怎么给出的:System Prompt。
调用工具的生动例子:我们告诉他可用左边的工具,CHATGPT针对我们给的任务,写出了右边的程式调用工具,然后ChatGPT就得到了答案。
非常多工具怎么办呢?引入Tool Selection模组。
甚至可以自己打造工具
那么:涉及到犯错问题呢?下面是一个很真实的图
所以人类告诉人类:要有自己的判断力。同理AI告诉AI:要有自己的判断力。
如果调用工具返回的是高雄温度是1万摄氏度(显然高雄怎么会1万摄氏度呢),AI自己也有判断力:
进一步说:如果我们先问Agent某药的成年最大日剂量,Agent说是20mg,我们给它药剂剂量的专业文档写成30mg,那么Agent返回30mg。更夸张:我们若把专业文档改成3mg/60mg/300mg,模型会返回些什么呢:
AI更相信AI说的话,而不是人说的话。
AI喜欢模型更好看的模版…
对了,就算工具可靠,不代表AI就不会犯错!
三、Agent能不能做计划?
Agent做计划,可能会行不通。
因为比如下棋Agent做计划,对手的招数可能跟预想不同;使用电脑的Agent可能突然跳出广告视窗…
但模型还是具有一定程度做计划的能力。虽然也不是很强:如下图左边的信息航班错误(该航班事实上已经起飞),右边的预选没有卡到3000dollar。
那么我们让AI操控一个SMT Solver去做计划? 会好多了。SMT(可满足性模理论)Solver是一个专门解决混合了逻辑连接词(与、或、非、蕴含)和特定领域理论(算术、数组等)的约束问题的程序。SMT Solver可理解为一种能自动推理约束条件的数学求解器。
当我们把 目的地= Rockford 和 FlightSearch(StPete, Rockford) = 空 这两个事实加进去后,求解器尝试寻找一个满足所有约束的解(比如分配一个航班号、时间、价格),它发现不可能。于是它返回 UNSAT (不可满足),并附带一些调试信息,系统据此分析出需要改变目的地。
如何强化AI Agent的规划能力?一种方法是暴力搜索
但是暴搜显然太笨了。一种优化是:模型自问自答,若把握不够,就不要搜索某分支,从而减少无谓的搜索。下图若模型在当前状态评估的v低于阈值,则不继续往下搜。
若加一些限定:若操作是只能执行1次的,比如订披萨(不给你试错的机会,只能给一次钱,这导致Agent动作无法回溯),那么这种搜索策略只能在模型的“大脑”里模拟进行!
在这个限定下,所有尝试全部就成了模型“梦境里的东西”:
所以AI需要“自己扮演世界”。需要World Model。
下面就是一个“脑内小剧场”论文例子,step1全是模型脑内模拟,step2才去真正执行:
Agent脑内小剧场的实例2:
但是下图这个论文说了,做脑内小剧场的AI也有问题:它们想太多了,一个按钮按下去一直想。但是,与其一直想,倒不如做一下!
结语:本文参考李宏毅教授【AI Agent】教程,并以我自己的理解,重新在本文梳理并阐述了AI Agent的基本原理及其特性。如果你对Agent的未来充满好奇,或在实际中有相关尝试,欢迎在评论区一起交流讨论!也欢迎转发给更多对AI感兴趣的朋友,一起跟上Agent时代的步伐。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~