news 2026/4/18 11:53:59

VLA架构细节分析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
VLA架构细节分析

下面我给你一份工程级、可落地的 VLA(Vision–Language–Action)架构细节分析
不是“概念介绍”,而是拆到模块职责、数据流、失败模式、以及为什么它会成为具身智能的主流范式


一、VLA 是什么(一句话工程定义)

VLA 是一种把“看见(Vision)—理解(Language)—行动(Action)”统一到同一个决策闭环中的系统架构,而不是三个模型的简单拼接。

它解决的不是“会不会做动作”,而是:

在开放世界中,如何把高层意图稳定地转化为可执行、可回退、可解释的行为。


二、VLA 的整体系统结构(工程视角)

┌──────────────┐ │ Vision │ 感知世界状态 │ (Perception) │ └──────┬───────┘ │ 结构化世界表示 ┌──────▼───────┐ │ World │ 世界模型 / 状态抽象 │ Model │ └──────┬───────┘ │ 语义 + 状态 ┌──────▼───────┐ │ Language │ 意图理解 / 任务分解 │ Reasoning │ └──────┬───────┘ │ 行为计划 ┌──────▼───────┐ │ Action │ 技能选择 / 控制执行 │ (Policy) │ └──────────────┘

关键点
VLA 的核心不是 Vision,也不是 LLM,而是中间那层“世界模型 + 行为抽象”


三、Vision:不是“看清楚”,而是“为行动服务”

1️⃣ Vision 在 VLA 中的角色变化

传统感知VLA 感知
识别物体表达可行动性
输出 bbox / mask输出 affordance
单帧时序一致性
精度优先不确定性优先

2️⃣ 关键输出不是图像,而是:

  • 可抓取区域
  • 可通行区域
  • 接触风险
  • 物体状态(开/关/空/满)

📌工程结论

VLA 中的 Vision 是“Action-aware perception”,不是 CV benchmark 模型。


四、World Model:VLA 的真正中枢(最容易被低估)

1️⃣ 世界模型负责什么

  • 当前世界状态(objects, relations)
  • 自身状态(pose, capability)
  • 行为后果预测(if I do X → Y)

2️⃣ 世界模型的工程形态

不是一个“巨大模型”,而是:

  • 结构化状态图(Scene Graph)
  • 行为前后状态差分
  • 不确定性标注
Cup: location: table state: empty graspable: true risk: low

📌没有世界模型的 VLA,只是“多模态拼接”


五、Language:不是聊天,而是“任务编译器”

1️⃣ LLM 在 VLA 中的真实职责

错误理解正确定位
LLM 直接控制机器人LLM 生成行为计划
LLM 决定动作LLM 决定“做什么”
LLM 是大脑LLM 是“规划器”

2️⃣ 典型流程

User: 把桌子收拾干净 ↓ LLM: - 找到桌子上的物体 - 判断哪些是垃圾 - 逐个清理

输出不是动作,而是行为序列 / 子任务 DAG

📌LLM 是“意图 → 行为”的编译器,不是执行器


六、Action:技能库 + 低层控制(稳定性的关键)

1️⃣ Action 层的真实结构

Action Layer = Skill Selector + Skill Library + Low-level Controller

2️⃣ Skill 的定义

  • 抓取
  • 放置
  • 打开
  • 移动

每个 Skill 都是:

  • 可验证
  • 可失败
  • 可回退

📌VLA 成败的关键在 Skill 是否工程化,而不是模型多大


七、VLA 的闭环运行机制(非常重要)

感知 → 世界模型 → 语言规划 → 行为执行 ↑ ↓ └────────── 状态更新 ───────────────┘

关键特性

  • 每一步都可中断
  • 每一步都可回滚
  • 每一步都有失败语义

这使得 VLA天然适合长期运行系统


八、VLA vs 传统机器人架构(本质差异)

维度传统架构VLA
决策层FSM / BT语言规划
感知几何可行动性
行为硬编码技能组合
泛化场景依赖任务泛化
失败处理异常行为级

九、VLA 当前的工程瓶颈(真实问题)

  • ❗ 世界模型不稳定
  • ❗ Skill 覆盖率不足
  • ❗ LLM 幻觉与现实不一致
  • ❗ 行为执行失败的恢复策略
  • ❗ 实时性与算力成本

VLA 不是“已经解决的问题”,而是“正确方向上的未完成系统”。


十、一句话总结

VLA 不是一个模型,而是一种“把语言变成可执行行为”的系统架构范式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 3:48:26

YOLOv11+多尺度卷积注意力(MSCA):小目标检测精度飙升20%的实战教程

文章目录 【毕设级项目】YOLOv11+多尺度卷积注意力(MSCA):小目标检测精度飙升20%的实战教程 一、项目核心:什么是MSCA注意力? 二、环境准备:5分钟配置依赖 三、步骤1:编写MSCA注意力模块(MSCA.py) 四、步骤2:注册MSCA模块(修改tasks.py) 五、步骤3:编写YOLOv11+MS…

作者头像 李华
网站建设 2026/4/18 3:47:42

聊聊我们的故事1:稳哥的技术笔记

稳哥的爆款,欢迎关注最近技术圈出了一条10W,来自咱们行动营一期的优秀学员,稳哥。【1】名字的由来稳哥在星球里非常的活跃,半年下来,已经沉淀了好几万字。行动营一期内测,他是最早报名的一批。他最早给账号…

作者头像 李华
网站建设 2026/4/18 3:50:07

用MySQL玩转数据可视化:结合BI工具实现动态图表展示

一、引言:数据可视化的价值与MySQL的定位 1.1 数据可视化的重要性 在当今数据驱动的时代,数据可视化已成为企业决策的关键工具。通过将抽象的数据库记录转化为直观的图表和仪表板,我们可以: 快速识别业务趋势和模式 发现数据中…

作者头像 李华
网站建设 2026/4/18 3:48:30

编程助手搞得我都不会写代码了,,,

随着AI 编程助手兴起,或多或少接触到一些编程助手,我的公众号之前也有发过一些类似的编程助手,比如「商汤科技的小浣熊」,还有字节旗下的 trae,用的编程助手挺多的,但是我最喜欢的方式还是 vscode 插件的形…

作者头像 李华
网站建设 2026/4/18 3:49:47

载入史册的哈军工计算机“集结号”

徐祖哲计算机六十年2026年1月15日 08:35 北京 中国计算机事业70年历程,在发展早期的重要节点留下了具有历史意义的多个集体合影:1955年8/9月,中科院物理所核科学家与计算机科学家合影;1958年8月1日,103电子计算机调试成…

作者头像 李华
网站建设 2026/4/18 3:50:19

技术日报|Claude Code超级能力登顶,今日狂揽2000+星标

🌟 TrendForge 每日精选 - 发现最具潜力的开源项目 📊 今日共收录 10 个热门项目,涵盖 50 种编程语言🌐 智能中文翻译版 - 项目描述已自动翻译,便于理解🏆 今日最热项目 Top 10 🥇 obra/superpo…

作者头像 李华