Meta首席科学家LeCun：当前 AI 模型缺乏四项关键人类智能特质-程序员充电站

文章来源：大数据文摘，仅作分享。

在巴黎举行的AI行动峰会上，Meta首席AI科学家Yann LeCun提出一个问题：“什么才是智能的基本构成？”

在与IBM AI负责人Anthony Annunziata的对话中，他提出四项标准：理解物理世界、拥有持续的记忆、具备推理能力，以及可以进行分层规划。

这四项能力在LeCun看来，是任何一种具备智能的生命体所共有的基础能力。相比之下，当前主流人工智能系统，尤其是以语言模型为代表的架构，在这些方面仍显不足。

这不是他第一次表达类似看法。作为深度学习早期的关键推动者，LeCun一直在强调当前模型能力的局限性。

他一直认为，现有AI模型在“智能”的核心能力上存在结构性缺陷。

“补丁式增强”与架构争议

LeCun指出，目前业界在提升AI功能时，往往采用“组合式”的增强路径。例如，为了让语言模型理解视觉信息，就外接一个视觉系统；为了让模型“记住”过往内容，就增加检索增强生成（RAG）模块；推理能力不足，则通过扩大模型参数来弥补。

在他看来，这些做法更像是“功能层的修补”，而非能力本身的根本突破。

“理解世界不是把一个视觉模型绑在语言模型上那么简单，”LeCun说。他用“hack（补丁）”一词来形容这种工程式集成方式。

Meta近年来持续投入的“世界模型”（world-based models）思路，正是对这种路径的回应。这一类模型的目标不在于生成内容，而是试图建立一种内部的世界表示，通过预测行为与结果之间的关系来实现认知。

LeCun对此有一个具体的定义框架：“你有对世界某一状态的理解，你想象一个可能的动作，然后模型预测在该动作之后，世界会发生什么。”这类似于一种面向动态系统的因果建模方式。

Meta在2024年发布的V-JEPA模型，是上述思路的初步实现。该模型并非直接生成图像或视频内容，而是试图在抽象层面预测视频中被遮挡或缺失的信息。这种方式类似“填空”，但预测发生在更高层级的表示空间，而非具体像素。

LeCun解释说：“我们不预测像素，而是在抽象表示中进行预测。理想情况下，这种表示会自动过滤掉那些不可预测或无关的细节。”

这一构想与科学研究中“抽象层级”建立的过程相似。正如物理学中通过粒子、原子、分子、材料的层层抽象来理解世界，LeCun认为，AI系统也需要通过构建中间表征来实现有效的认知与推理。

这种方式的优点之一在于，它减少了对海量数据的依赖，并提升了系统对不可预测变化的适应能力。不过，V-JEPA目前仍处于早期阶段，其抽象层级的表达力、泛化能力和可交互性仍需进一步验证。

对主流路径的间接回应

当前，几乎所有主流AI企业都在围绕大模型展开产品构建与能力扩展。OpenAI、Anthropic、Google DeepMind的研究路线大多围绕大语言模型展开，通过RAG、多模态融合或系统集成来增强模型在记忆、推理等方面的表现。

在这个语境下，LeCun所倡导的“世界模型”策略，可以视为对主流趋势的补充乃至修正。他所强调的“具备结构性推理与预测能力的AI”，并不完全依赖大规模的语言语料与模式识别能力，而更注重内在模型结构与表达形式的可解释性和可推理性。

尽管Meta已在该方向上进行尝试，但从V-JEPA本身的功能定义来看，它仍属于“前期架构验证”阶段。模型尚未广泛部署，相关评估标准和实际应用场景也仍在摸索之中。

目前，对世界模型的定义在学界和产业界尚无共识。有观点认为，这类模型最终需结合具身智能，模拟实体与环境的持续交互；也有研究强调，它可以通过抽象表示与模拟环境实现更高效的训练过程。

LeCun本人则强调，真正的挑战在于如何构建一个“足够抽象、又足够有预测力”的中间世界。换言之，不是追求还原世界的所有细节，而是捕捉那些在行动决策中最关键的信息层。

注：头图来源于Meta Platforms，文章仅作分享，如有侵权，请联系后台删除。

Stable数组的使用

一、stable说明 1.使用stable修饰数组，用于标记stream数据流区域的输入变量或者输出变量 2.stable修饰数组的目的，是用于移除对应的同步，但是移除同步之前，用户需要确保设计是正确无误的，确实能够移去掉，才…

李华

YOLO在Java中跑不起来？手把手教你解决CUDA兼容性问题（附GPU推理完整代码）

很多同学在把YOLO模型迁移到Java并尝试开启GPU加速时，都会卡在“CUDA兼容性”这一关——要么报“CUDA version mismatch”，要么提示“GPU device not found”，甚至直接崩溃。 JavaONNX Runtime调用GPU推理的核心矛盾，在于CUDA、C…

李华

别小看这些碎片，芬兰乌拉尔语族的分词技术竟有这么大学问

你有没有想过，电脑是怎么理解人类语言的？特别是像芬兰语这样复杂的语言，一个词可能包含好多个意思，就像一个俄罗斯套娃一样，一层套一层。最近，来自DataSpike、aglabx实验室和塞浦路斯帕福斯新城大学的研究团…

李华

标准渣打银行：让计算机用人话理解任务分配的革命性研究

这项由标准渣打银行和波兰奥波莱理工大学合作完成的研究发表于2024年，论文详细介绍了一种全新的集群工作负载分配方法。有兴趣深入了解的读者可以在相关学术数据库中搜索"Cluster Workload Allocation: Semantic Soft Affinity Using Natural Language Process…

李华

Java毕设项目：基于SpringBoot的汽车服务管理系统(源码+文档，讲解、调试运行，定制等)

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

李华

倾听数据的声音：给数据分析初学者的温馨建议

提到 “数据分析”，你的脑海里浮现的是什么？是密密麻麻的Excel表格，是复杂的Python代码，还是令人眼花缭乱的仪表盘？ 很多想踏入这个行业的新人，往往一上来就陷入了工具的学习中。但实际上，工…

李华