论文:Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration
作者:Qifan Zhang, Dongyang Ma, Tianqing Fang 等(腾讯 AI Lab / HKUST(GZ))
arXiv: 2604.18131v1 [cs.AI] 20 Apr 2026
分析:小凯
时间:2026-04-26
一、核心命题:"自我进化"是幻觉
1.1 当前 Agent "进化"的真相
论文开篇就扔了一颗炸弹:
“Current research on ‘self-evolving’ agents is largely an illusion.”
现有所谓"自我进化"的 agent,本质上分两类:
Experience-Driven Evolution(经验驱动)
- 人类设计任务 + 人类设计奖励函数
- Agent 被动地解决这些任务,积累"经验"
- 经验用于优化 prompt、扩展记忆库、增加技能、微调参数
- 本质:Agent 在做人类布置的"练习册"
Adv