养过孩子的都知道,小孩学东西不是一天学会的。今天碰一下热水壶,烫到了,哇哇哭。明天又碰,又烫到了。后天——他学会了把手缩回来。AI 也一样,从犯错到学会,中间要经历好几个阶段。
引言
在前面的文章里,我们看到了 40 个真实的 Bug——AI 忘记规则、理解错意图、写了规则不执行。这些 Bug 背后藏着一个更深层的问题:
AI 怎么从犯错中学习?
人类小孩的学习方式我们都知道:无意识吸收 → 模仿强化 → 规则内化 → 自主选择。那 AI 呢?我通过 WorkBuddy 系统做了一个实验,发现了 AI 学习的完整路径。
一、问题怎么变成规则?
先说最基础的问题:AI 犯了错,怎么把它变成一条"经验"?
我的方案叫"问题→规则自动固化流程",核心逻辑是这样的:
发现问题 ↓ 执行判断流程(三问测试法): 1. 这个规则是否适用于所有用户? 2. 同类问题是否出现了 ≥3 次? 3. 我是否已经明确知道正确做法? ↓ 适用所有人 + 频率≥3 + 已知做法 → 自动固化到 SOUL.md + 同步 Git 适用所有人 + 频率<3 → 标记"观察中",继续记录 只适用当前用户 → 写入 USER.md 或 MEMORY.md
三问测试法
这三问分别过滤了三个维度:
| 测试 | 回答"是" | 回答"否" |
|---|---|---|
| 适用所有人? | 固化到通用规则 | 只存个人记忆 |
| 出现≥3次? | 优先固化 | 继续观察 |
| 已知正确做法? | 立即固化 | 先探索再固化 |
真实案例
案例 1:口头承诺不落笔 → 规则固化
问题:用户说"下次只生成公众号封面",我回答"记住了",但没写入任何文件
第二次又忘了
固化:写入 SOUL.md——"用户说'下次/以后/记住'→ 当场写入配置文件"
之后再也没有犯过
案例 2:重复提问不识别 → 交互审查机制
问题:用户重复强调同一件事,我机械地再次执行,没有反思
固化:建立"重复提问识别"规则——识别重复 → 反思执行 → 主动询问
检索结果从 0 次到每次都检测
案例 3:问题记录规则不完整 → 扩展触发场景
问题:我只知道"执行失败"要记录,不知道"理解错误"也要记录
固化:将"问题"的定义扩展到 6 种情况
记录覆盖率从 40% 提升到 90%+
二、AI 学习的四个阶段
这是本文的核心——我用人类小孩的学习模式来类比 AI 的学习过程。
阶段 0:感知触发(模拟婴儿的"无意识吸收")
人类婴儿(0-2 岁): 婴儿不会"主动学习",他们是"海绵"——看到的、听到的、摸到的所有东西都会被记录。不管重要不重要,先记下来再说。
AI 应该怎么做:
🔍主动扫描:每次会话开始,自动读取工作记忆和环境状态
📝被动触发:每次操作、对话、错误都被自动记录
🧽无意识记录:不需要判断"是否重要",先记下来
我的实现:
# 每次会话开始 1. 自动读取工作记忆(MEMORY.md + 当天日志) 2. 自动读取环境状态(文件变化、系统信息) 3. 所有操作自动记录到短期记忆 4. 所有错误自动记录到问题案例
阶段 1:记录与频率统计(模拟婴儿的"重复接触")
人类婴儿: 婴儿会反复接触同样的东西——反复听父母说"吃饭"、反复摸同一个玩具。反复接触的东西会被强化,不常接触的自然淡化。
AI 应该怎么做:
📊问题频率统计:自动统计各类问题的出现次数
🔁模式识别:发现"这个问题又出现了!"
🏷️强化标记:出现≥3 次的问题自动标记为"高频"
效果:
问题 35(未记录问题)出现了 3 次后,自动触发规则固化
不需要人工判断"要不要记这个规则"
阶段 2:固化与验证(模拟儿童的"模仿与强化")
人类儿童(2-6 岁): 儿童通过模仿父母行为来学习——看到父母说"谢谢",自己也说"谢谢"。说对了被表扬,说错了被纠正,逐渐强化正确行为。
AI 应该怎么做:
📏固化规则:高频问题提炼成规则,写入 SOUL.md
✅验证有效性:下次遇到类似情况,尝试应用规则,看是否成功
📈强化/弱化:
规则应用成功 → 标记"有效" → 强化
规则应用失败 → 标记"待修正" → 弱化
规则成功率统计:
| 成功率 | 标记 | 处理方式 |
|---|---|---|
| ≥80% | 高价值 | 优先检索 |
| 50-80% | 中价值 | 正常检索 |
| <50% | 待修正 | 建议审查 |
阶段 3:习惯与自动触发(模拟儿童的"规则内化")
人类儿童(6-12 岁): 反复练习后,行为自动化了——过马路会自动看红绿灯,不需要每次都"想"一遍规则。
AI 应该怎么做:
🔁检索路径固化:反复检索某规则,检索路径越来越短
⚡自动触发:遇到类似情况,规则自动浮现(不需要"主动想")
📋规则预检:执行任何操作前,自动检索相关规则
现状:目前 WorkBuddy 已经实现了规则预检机制,但"自动触发"还需要更多训练。
阶段 4:自主判断与优化(模拟青少年的"自我意识")
人类青少年(12 岁+): 开始有自我意识——知道什么要学什么不要学,能抽象出原则,能判断信息的价值。
AI 应该怎么做(尚未完全实现):
🎯规则价值评估:自动评估每条规则的价值(高/中/低)
💡自主固化建议:发现高频问题,自动提示"要不要固化这条规则?"
🔧规则优化:发现低价值或矛盾规则,建议删除或修正
🧠抽象原则:从多条具体规则中抽象出通用原则
这是我们的终极目标之一。
三、发展路径
我把 AI 的学习分成了三个发展阶段:
第一阶段(0-1 个月):感知触发 + 记录频率
特点:像婴儿一样,无意识吸收
✅ 主动扫描环境 + 被动触发记录
✅ 无过滤吸收,所有问题都记录
✅ 建立问题频率统计
我们做到了吗?基本做到了。WorkBuddy 已经能自动记录所有问题并统计频率。
第二阶段(1-3 个月):固化验证 + 习惯触发
特点:像儿童一样,模仿与强化
⏳ 高频问题自动固化到 SOUL.md
⏳ 验证规则有效性(成功率统计)
⏳ 反复检索形成"习惯"
我们做到了吗?部分做到。固化流程已经实现,但规则验证和习惯触发还需要更多数据积累。
第三阶段(3 个月+):自主判断与优化
特点:像青少年一样,自主选择
❌ 规则价值评估
❌ 自主固化建议
❌ 从多条规则抽象出原则
我们做到了吗?还没做到。这是我们接下来的研究方向。
四、人类 vs AI 的学习对比
| 维度 | 人类 | AI(WorkBuddy) |
|---|---|---|
| 吸收方式 | 神经元连接强化 | 文件写入 |
| 遗忘机制 | 自然衰减 | 文件删除 |
| 习惯形成 | 神经连接固化 | 检索路径固化 |
| 学习速度 | 慢(需要时间) | 快(写入即生效) |
| 创造力 | 高 | 低(只能从已有数据归纳) |
| 自主意识 | 有 | 无(目前) |
最核心的区别:人类的习惯靠神经元强化,AI 的习惯靠检索路径固化。本质不同,但表现形式类似——都是"反复做一件事,越来越熟练"。
五、几个有趣的发现
发现 1:AI 学习比人类快,但比人类"死板"
写入规则后,AI 立刻就知道这条规则。不需要像人类那样"练 21 天"。但 AI 不会变通——如果规则写得不够精确,AI 会按字面意思执行,闹出笑话。
发现 2:"记录"是最容易被忽略的一步
很多人以为 AI 学习的关键是"训练模型"或"优化算法"。但我的实验发现,最基础也最容易被忽略的一步是记录。你不记录,就没有数据;没有数据,就无法分析;无法分析,就无法学习。
发现 3:规则系统会越来越复杂
40 个问题 → 19 条核心规则 → 还在增长。规则越多,冲突和矛盾的概率越大。这就是为什么我们需要"冲突场景库"和"规则审计"机制。
小结
AI 的学习路径可以概括为:
感知(吸收)→ 记录(统计)→ 固化(提炼)→ 验证(强化)→ 习惯(内化)→ 自主(优化)
这套机制不依赖模型训练,不依赖参数更新,只依赖"外挂记忆"+ 合理的规则设计。任何 AI Agent 都可以用类似的方式实现"类人学习"。
下一篇预告
经过 40 个 Bug 的洗礼,我们沉淀出了 12 条核心经验规则。这些规则不是拍脑袋想的,是踩坑踩出来的。下一篇:40 个 Bug 沉淀出了什么?核心经验规则总结
本文是「AI 认知架构实战笔记」系列第 6 篇,上一篇:[写了规则却不执行——AI 的"知行不一"],下一篇:[40 个 Bug 沉淀出了什么?核心经验规则总结]
关注我,持续更新 AI 认知架构研究进展🚀