news 2026/4/18 8:31:24

AI核心知识68——大语言模型之NSP (简洁且通俗易懂版)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI核心知识68——大语言模型之NSP (简洁且通俗易懂版)

下一状态预测 (NSP,Next State Prediction)是从大语言模型 (LLM)世界模型 (World Model)进化时的一个核心概念。

如果说NTP(下一个词预测)是让 AI 学会像人类一样说话

那么NSP就是让 AI 学会像人类一样思考物理规律和因果关系

这通常与Yann LeCun (图灵奖得主、Meta首席 AI 科学家)提出的JEPA 架构以及具身智能 (Robotics)紧密相关。


1.🌍 核心定义:从“预测符号”到“预测现实”

要理解这个概念,我们需要对比 LLM 和 World Model 的根本区别:

  • LLM(大语言模型) —— Next Token Prediction

    • 对象:文本符号。

    • 逻辑:根据“我爱”,预测下一个字是“你”。

    • 局限:它只懂概率,不懂物理。它不知道为什么杯子松手会掉下去,它只知道“杯子”后面常跟“摔碎”。

  • World Model (世界模型) —— Next State Prediction

    • 对象:环境的状态 (State)。

    • 逻辑:根据“我现在手里的杯子 (S_t)” + “我松开手 (A_t)”,预测“下一秒杯子的位置和状态 (S_{t+1})”。

    • 核心S_{t+1} = F(S_t, A_t)。即:未来状态 = 当前状态 + 动作


2.🧠 什么是“状态 (State)”?为什么不预测“像素”?

这是 Yann LeCun 最著名的理论。

在视频生成或自动驾驶中,如果让 AI 预测“下一帧的每一个像素点是什么颜色”(Genrative Model),太难了,因为现实世界充满了随机的噪音(树叶的抖动、光影的变化)。

下一状态预测的精髓在于:不预测细节,只预测本质。

  • 例子:一辆车在路上跑。

    • 像素预测:AI 试图画出车轮上每一粒灰尘。

    • 状态预测:AI 把画面压缩成一个抽象的特征向量” (Latent State)。它只在乎:“这辆车的位置变了,它向左转了。”

  • 优势:通过忽略无关紧要的细节(噪音),AI 能更精准地掌握核心的物理规律和因果链条。


3.🏗️ 典型架构:JEPA (联合嵌入预测架构)

这是实现下一状态预测的主流架构(不同于 GPT 的 Transformer 架构):

  1. 编码 (Encoder):把现实画面(视频/图片)变成抽象的数学状态 (S)。

  2. 预测 (Predictor):在抽象空间里,推演如果不加干预,或者施加动作后,状态 S 会变成什么样。

  3. 对比:把预测出来的状态,和真实的未来状态进行对比,修正模型。

这就像人类的直觉:当你扔出一个篮球,你脑子里不会计算篮球表面的纹路怎么旋转(像素),但你会预判它的抛物线轨迹(状态)。


4.🚀 为什么它比 NTP 更高级?

下一状态预测被认为是通往AGI (通用人工智能)的必经之路,因为它带来了“规划 (Planning)”能力。

  • NTP(GPT-4):也是一种“走一步看一步”的思维。写代码时,它不知道写到第 100 行会发生什么,它只知道第 1 行写完写第 2 行。

  • NSP (World Model):具备推演未来的能力。

    • 思考:“如果我做动作 A,状态会变成 S1;如果做动作 B,状态会变成 S2。S2 离我的目标更近,所以我选 B。”

    • 结果:这就是推理 (Reasoning)规划的本质。


总结

NSP是 AI 从“文科生”(只会写文章)进化为“理科生”(理解物理世界因果律)的关键技术。

它是自动驾驶汽车预判行人动作的核心,也是机器人学会不撞墙的核心。在未来,最强的 AI 可能是NTP(负责交流)+NSP (负责思考)的结合体。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/9 23:31:57

Skills3技能库:全方位提升开发效能的集成解决方案

Skills3技能库:全方位提升开发效能的集成解决方案 【免费下载链接】skills Public repository for Skills 项目地址: https://gitcode.com/GitHub_Trending/skills3/skills 1. 开发团队面临的四大核心挑战 现代软件开发团队正面临前所未有的复杂性挑战&…

作者头像 李华
网站建设 2026/3/22 12:30:36

ERNIE 4.5-VL大模型:424B参数开启多模态新时代!

ERNIE 4.5-VL大模型:424B参数开启多模态新时代! 【免费下载链接】ERNIE-4.5-VL-424B-A47B-Base-Paddle 项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-VL-424B-A47B-Base-Paddle 百度ERNIE系列最新发布的ERNIE-4.5-VL-424B-A47B…

作者头像 李华
网站建设 2026/4/8 17:19:18

开源歌词提取工具深度技术解析:从架构设计到二次开发实践指南

开源歌词提取工具深度技术解析:从架构设计到二次开发实践指南 【免费下载链接】163MusicLyrics Windows 云音乐歌词获取【网易云、QQ音乐】 项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 歌词作为音乐体验的重要组成部分,其…

作者头像 李华