news 2026/4/18 14:28:57

决策十年演进

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
决策十年演进

决策(Decision Making)的十年(2015–2025),是从“基于规则的启发式系统”向“具备常识推理与端到端协同的智能代理(AI Agent)”演进的十年。

这十年间,决策逻辑从人类编写的“If-Then”硬编码,跨越到了能够处理海量不确定性、并在复杂物理世界中实时自我演化的“神经网络直觉”。


一、 核心演进的三大阶段

1. 专家系统与概率建模期 (2015–2018) —— “规则的边界”
  • 核心特征:依赖决策树马尔可夫决策过程 (MDP)和手工定义的启发式算法。
  • 技术逻辑:工程师将行业经验转化为复杂的逻辑判断流。
  • 里程碑:AlphaGo (2016)击败李世石。虽然它使用了深度学习,但核心仍是基于蒙特卡洛树搜索(MCTS)的启发式搜索,侧重于有限博弈空间的极致解。
  • 痛点:面对非结构化、无法穷举规则的现实世界(如开放道路驾驶),传统决策模型显得极度“呆板”。
2. 强化学习与行为克隆期 (2019–2022) —— “黑盒式的反应”
  • 核心特征:深度强化学习 (Deep RL)模仿学习 (IL)

  • 技术跨越:

  • 端到端尝试:决策不再是拆解后的逻辑步骤,而是通过数百万次仿真训练出的“直觉”。

  • 博弈智能:机器人学会了在复杂社交场景下(如并线抢道)的非对称博弈。

  • 状态:决策系统在特定领域(如自动驾驶、自动交易)表现出超越人类的反应速度,但缺乏“可解释性”,常被称为黑盒。

3. 2025 大模型驱动与端到端协同时代 —— “具备常识的推理”
  • 2025 现状:
  • VLA (视觉-语言-动作) 模型:2025 年的决策系统(如RT-3)具备了语义理解能力。当接收到指令“安全地穿过人群”时,决策不再只是避障,而是包含了对人类行为意图的社会性理解。
  • 扩散策略 (Diffusion Policy):解决了多目标决策的平滑性,使得决策输出从“跳变”转向“流式连续”,大幅提升了机器人的动作拟合度。
  • eBPF 内核级决策拦截:在工业和军事级应用中,SE 利用eBPF在内核层建立“安全围栏”。一旦 AI 决策输出超出了物理安全边界(如超速、碰撞预警),内核会在微秒内强行修正。

二、 决策核心维度十年对比表

维度2015 (传统算法)2025 (大模型 Agent)核心跨越点
逻辑基础人工定义规则 (Hard-coded)自监督学习 + 逻辑推理从“执行指令”到“理解意图”
实时性毫秒级 (计算密集)微秒级 (eBPF 加速/端侧推理)响应速度从软件级进入内核级
确定性确定性输出 (容易卡死)概率分布与自愈调整解决了长尾场景下的决策失效问题
交互深度忽略环境反馈的单向执行感知-决策-动作闭环 (Closed-loop)实现了对动态环境的实时共振
系统底座用户态框架eBPF 实时审计 + 硬件虚拟化确保了高风险决策的物理安全性

三、 2025 年的技术巅峰:eBPF 与“可信决策”

在 2025 年,决策的演进重心在于如何将**“强大的推理力”转化为“安全的执行力”**:

  1. eBPF 驱动的决策卫兵 (Policy Guard):
    由于 2025 年的端到端大模型偶尔会产生“幻觉(Hallucination)”,在自动驾驶或手术机器人等关键场景中,系统集成商利用eBPF
  • 零时延校验:eBPF 在 Linux 内核层实时审计模型输出的指令包。如果决策指令违背了物理守则(如反向行驶),eBPF 直接重写包头或阻断指令,实现了内核级的“防火墙”。
  1. 世界模型 (World Models) 预判:
    2025 年的决策引擎内置了一个“微缩宇宙”。在执行具体动作前,它会在 HBM3e 驱动的超算空间中进行 10,000 次“脑内模拟”,评估每种决策的风险成本。
  2. 长窗口上下文决策:
    现在的决策不再是“一帧一断”。利用百万级上下文窗口(Context Window),决策系统能记住 5 分钟前的异常声响,并将其关联到当前的漏油决策中,实现了具备“记忆力”的逻辑分析。

四、 总结:从“逻辑题”到“生存本能”

过去十年的演进,是将决策从一个**“基于静态地图的计算过程”重塑为“能够实时理解物理常识、评估社会风险并具备自我纠错能力的智能代理”**。

  • 2015 年:你在纠结如何写出完美的 If-Else 来处理十字路口转弯。
  • 2025 年:你在利用 eBPF 审计下的多模态大模型,让机器人在嘈杂的集市中优雅地穿行,并能预判小孩踢球过街的概率。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 5:44:03

模仿学习十年演进

模仿学习(Imitation Learning, IL) 的十年(2015–2025),是从“机械的轨迹复制”向“泛化性极强的行为逻辑提取”演进的十年。 这十年中,模仿学习解决了 AI 领域最核心的痛点:如何让机器人不再通…

作者头像 李华
网站建设 2026/4/18 10:06:55

网络安全毕设简单的选题思路

0 选题推荐 - 人工智能篇 毕业设计是大家学习生涯的最重要的里程碑,它不仅是对四年所学知识的综合运用,更是展示个人技术能力和创新思维的重要过程。选择一个合适的毕业设计题目至关重要,它应该既能体现你的专业能力,又能满足实际…

作者头像 李华
网站建设 2026/4/18 8:01:18

拒稿率90%?虎贲等考AI解锁期刊论文投稿密码,核心期刊命中率翻倍

“论文写了3遍,还是被核心期刊拒稿”“格式改到崩溃,编辑说不符合期刊规范”“文献引用不权威,审稿人直接打回”——在期刊投稿的赛道上,无数科研工作者和高校教师都曾陷入“写得苦、投得难、命中率低”的困境。普通论文写作工具仅…

作者头像 李华