news 2026/6/10 2:12:29

【论文自动阅读】LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Predict

张小明

前端开发工程师

1.2k 24

文章封面图 — 【论文自动阅读】LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Predict

快速了解部分

基础信息（英文）：

题目: LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Prediction
时间: 2026.01
机构: Shanghai Innovation Institute, OpenDriveLab at The University of Hong Kong, Li Auto Inc.
3个英文关键词: Vision-Language-Action (VLA), Latent Action Prediction, Knowledge Distillation

1句话通俗总结本文干了什么事情

本文提出了一种名为LatentVLA的新框架，它通过让大模型学习“潜动作”来理解驾驶场景，并将这种理解“蒸馏”给传统的快速驾驶模型，在保持自动驾驶系统实时运行速度的同时，大幅提升了其应对复杂场景的智能水平和泛化能力。

研究痛点：现有研究不足 / 要解决的具体问题

数值不敏感与轨迹不准：现有的视觉语言模型（VLM）使用离散的Token来预测轨迹，难以处理连续的动作空间，导致长视野轨迹规划不稳定且不精确。
语言标注负担与偏差：依赖大量人工语言标注（如VQA）不仅成本高昂，还引入了“语言偏差”，即文本描述与实际驾驶行为可能不匹配，且无法捕捉隐性的驾驶知识。
计算效率低：现有的VLA模型通常采用多步思维链推理，计算量大、耗时长，无法满足自动驾驶实时部署的需求。

核心方法：关键技术、模型或研究设计（简要）

论文提出了LatentVLA框架，包含两个核心步骤：

潜动作学习：利用自监督学习，将连续的驾驶轨迹转化为离散的“潜动作Token”，作为桥梁连接视觉和语言模型。
知识蒸馏：训练一个大型的VLM教师模型来学习这些潜动作，然后将其学到的知识迁移到轻量级的、基于视觉的传统端到端驾驶学生模型（如Transfuser或iPad）中，从而在不牺牲精度的情况下实现高效推理。

深入了解部分

相比前人创新在哪里

去语言化的动作表示：不同于前人直接用语言指令（如“直行”、“左转”）作为监督信号，本文使用基于轨迹预测的“潜动作Token”作为自监督信号，消除了语言偏差，能更精确地捕捉细微的驾驶动态。
高效的知识迁移架构：创新性地将VLM作为“教师”进行预训练，然后通过蒸馏将知识注入到高效的端到端网络中，既利用了VLM强大的泛化能力，又保留了传统视觉模型的实时性（推理速度提升约3.7倍）。
更小的代码本设计：相比于前人使用2048个离散Token，本文采用了仅含16个Token的精简代码本，更好地保留了原始VLM的架构和预训练知识，加速了模型收敛。

解决方法/算法的通俗解释

想象一下，LatentVLA的工作方式就像一位资深教练（VLM教师）在训练一名反应极快的新手司机（端到端学生模型）。

第一步（潜动作编码）：系统先看大量驾驶视频，发明一套只有16个符号的“摩斯电码”（潜动作），每一个符号代表一种未来的驾驶状态变化。
第二步（教师学习）：让大模型（教师）学习这套电码，看图就能说出接下来应该打什么电码。
第三步（师徒传授）：让新手司机（学生模型）在看路况的同时，模仿教练（教师）的“电码思维”来规划路线。最终，新手司机不需要真的发电码，但学会了教练的高超驾驶直觉，且开车速度极快。

解决方法的具体做法

构建潜动作模型 (LAM)：
- 使用基于IDM的编码器和FDM的解码器，从视频数据中提取时空特征。
- 利用VQ-VAE技术将连续的驾驶动作（包括自车和环境变化）离散化为Token。
- 采用轨迹条件而非语言条件来生成这些动作Token。
训练VLM教师：
- 基于Qwen2.5-VL架构，输入图像和指令，预测上述生成的潜动作Token。
- 通过这种方式，VLM学会了驾驶场景的语义理解和规划能力。
蒸馏到学生模型：
- 冻结VLM参数，利用多头注意力池化提取视觉和动作特征。
- 将这些特征通过交叉注意力机制融合到传统的端到端模型（如Transfuser或iPad）的BEV特征中。
- 训练一个轻量级的规划Transformer，使其输出分布逼近VLM教师的分布。

基于前人的哪些方法

基础模型：基于Qwen2.5-VL（视觉语言模型基础）和DINOv2（视觉特征提取基础）。
端到端架构：基于Transfuser（基于回归的融合框架）和iPad（基于打分的迭代优化框架）作为学生模型的骨干网络。
潜变量模型：借鉴了VQ-VAE（矢量量化变分自编码器）的思想来进行动作离散化。

实验设置、数据、评估方式、结论

数据集：
- 预训练：nuPlan, nuScenes（用于LAM）；OpenScene（用于VLM）。
- 主实验：NAVSIM benchmark (navtrain训练, navtest测试)。
- 零样本测试：nuScenes（测试泛化性）。
评估方式：
- NAVSIM：PDMS（综合评分），以及无责碰撞率(NC)、可行驶区域合规性(DAC)等子指标。
- nuScenes：Open-loop轨迹预测的L2误差（1s, 2s, 3s）。
结论：
- 在NAVSIM上，LatentVLA(iPad)取得了92.4的PDMS分数，刷新了SOTA。
- 经过蒸馏后的模型（Distilled LatentVLA）在保持实时性的同时，性能显著优于原始基线（如Transfuser提升了2.6分）。
- 在nuScenes上的零样本测试中，L2误差仅为0.33m，表现优异，证明了其强大的跨数据集泛化能力。

提到的同类工作

DriveGPT4 / DrivingGPT：利用VLM进行场景理解和轨迹规划的早期尝试。
DriveMoE / AutoVLA / ReCogDrive：近期的Vision-Language-Action (VLA) 模型，分别采用了混合专家架构、自回归动作Token化和扩散规划器。
ImpromptuVLA / EMMA：其他基于VLA的自动驾驶方法，通常依赖更大的训练数据集或不同的动作表示方法。
Transfuser / UniAD / iPad：传统的端到端自动驾驶感知与规划模型，作为本文方法的基线或学生模型架构。

和本文相关性最高的3个文献

ImpromptuVLA：这是本文在nuScenes零样本测试中主要对比的同类VLA工作，且本文引用其评估方法，用于证明自己在数据量较少的情况下仍能达到顶尖水平。
iPad：本文提出的LatentVLA框架是基于iPad架构进行改进和融合的（LatentVLA(iPad)），是本文核心验证的基线模型之一。
Transfuser：同iPad一样，Transfuser是本文采用的另一种端到端骨干网络（LatentVLA(Transfuser)），用于验证方法在不同架构下的通用性。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/6/10 11:28:31

Android AI 实战：手把手教你用 Compose + CameraX 跑通 YOLOv8

关键词：Android, Jetpack Compose, CameraX, TFLite, Object Detection 大家好，我是飞哥！👋 拒绝云端依赖！3MB 模型跑在手机上，TFLite 转换保姆级教程我们成功把 YOLOv8 模型“压缩”成了 tflite 格式。今…

作者头像

李华

网站建设 2026/6/10 11:25:18

动态磁盘转化成基本磁盘

动态磁盘转化成基本磁盘使用第三方工具（无需删除数据）恢复数据备份分区使用磁盘管理（Windows系统内置工具）镜像文件恢复重要注意事项将动态磁盘转换回基本磁盘通常需要删除所有卷（导致数据丢失）&#xff…

作者头像

李华

网站建设 2026/6/10 10:44:13

从RAG到Agent：大模型10大核心技术全解析，小白也能入门

本文详解了AI与大模型落地的10个核心技术概念，包括RAG检索增强生成、Agent智能体、函数调用、思维链、向量数据库、模型量化与压缩技术（蒸馏、LoRA、剪枝）以及推理加速方法。文章强调理解技术原理对产品落地的重要性，提供每个概念…

作者头像

李华

网站建设 2026/6/10 12:12:57

大模型评估新范式：Agent-as-a-Judge完全指南

本文系统梳理了Agent-as-a-Judge这一新兴评估范式，揭示AI评估从"被动观察"到"主动验证"的演进路径。针对传统LLM裁判的偏见、局限和认知过载三大缺陷，Agent裁判通过去中心化架构、执行验证和层次化推理实现三重进化，提出…

作者头像

李华

网站建设 2026/6/10 10:46:36

【开题答辩全过程】以基于ssm的空中停车场管理系统为例，包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人，语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

作者头像

李华

网站建设 2026/6/10 6:36:56

2026必备10个降AI率工具测评

2026必备10个降AI率工具测评 2026年降AI率工具测评：为何需要这份榜单？ 在学术论文、毕业设计乃至日常写作中，AI生成内容（AIGC）的识别技术日益成熟，高校和机构对AI率的要求也愈发严格。很多学生在提交前才…

作者头像

李华