news 2026/4/18 8:41:18

【论文自动阅读】LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Predict

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Predict

快速了解部分

基础信息(英文):

  1. 题目: LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Prediction
  2. 时间: 2026.01
  3. 机构: Shanghai Innovation Institute, OpenDriveLab at The University of Hong Kong, Li Auto Inc.
  4. 3个英文关键词: Vision-Language-Action (VLA), Latent Action Prediction, Knowledge Distillation

1句话通俗总结本文干了什么事情

本文提出了一种名为LatentVLA的新框架,它通过让大模型学习“潜动作”来理解驾驶场景,并将这种理解“蒸馏”给传统的快速驾驶模型,在保持自动驾驶系统实时运行速度的同时,大幅提升了其应对复杂场景的智能水平和泛化能力。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 数值不敏感与轨迹不准:现有的视觉语言模型(VLM)使用离散的Token来预测轨迹,难以处理连续的动作空间,导致长视野轨迹规划不稳定且不精确。
  2. 语言标注负担与偏差:依赖大量人工语言标注(如VQA)不仅成本高昂,还引入了“语言偏差”,即文本描述与实际驾驶行为可能不匹配,且无法捕捉隐性的驾驶知识。
  3. 计算效率低:现有的VLA模型通常采用多步思维链推理,计算量大、耗时长,无法满足自动驾驶实时部署的需求。

核心方法:关键技术、模型或研究设计(简要)

论文提出了LatentVLA框架,包含两个核心步骤:

  1. 潜动作学习:利用自监督学习,将连续的驾驶轨迹转化为离散的“潜动作Token”,作为桥梁连接视觉和语言模型。
  2. 知识蒸馏:训练一个大型的VLM教师模型来学习这些潜动作,然后将其学到的知识迁移到轻量级的、基于视觉的传统端到端驾驶学生模型(如Transfuser或iPad)中,从而在不牺牲精度的情况下实现高效推理。

深入了解部分

相比前人创新在哪里

  1. 去语言化的动作表示:不同于前人直接用语言指令(如“直行”、“左转”)作为监督信号,本文使用基于轨迹预测的“潜动作Token”作为自监督信号,消除了语言偏差,能更精确地捕捉细微的驾驶动态。
  2. 高效的知识迁移架构:创新性地将VLM作为“教师”进行预训练,然后通过蒸馏将知识注入到高效的端到端网络中,既利用了VLM强大的泛化能力,又保留了传统视觉模型的实时性(推理速度提升约3.7倍)。
  3. 更小的代码本设计:相比于前人使用2048个离散Token,本文采用了仅含16个Token的精简代码本,更好地保留了原始VLM的架构和预训练知识,加速了模型收敛。

解决方法/算法的通俗解释

想象一下,LatentVLA的工作方式就像一位资深教练(VLM教师)在训练一名反应极快的新手司机(端到端学生模型)。

  1. 第一步(潜动作编码):系统先看大量驾驶视频,发明一套只有16个符号的“摩斯电码”(潜动作),每一个符号代表一种未来的驾驶状态变化。
  2. 第二步(教师学习):让大模型(教师)学习这套电码,看图就能说出接下来应该打什么电码。
  3. 第三步(师徒传授):让新手司机(学生模型)在看路况的同时,模仿教练(教师)的“电码思维”来规划路线。最终,新手司机不需要真的发电码,但学会了教练的高超驾驶直觉,且开车速度极快。

解决方法的具体做法

  1. 构建潜动作模型 (LAM)
    • 使用基于IDM的编码器和FDM的解码器,从视频数据中提取时空特征。
    • 利用VQ-VAE技术将连续的驾驶动作(包括自车和环境变化)离散化为Token。
    • 采用轨迹条件而非语言条件来生成这些动作Token。
  2. 训练VLM教师
    • 基于Qwen2.5-VL架构,输入图像和指令,预测上述生成的潜动作Token。
    • 通过这种方式,VLM学会了驾驶场景的语义理解和规划能力。
  3. 蒸馏到学生模型
    • 冻结VLM参数,利用多头注意力池化提取视觉和动作特征。
    • 将这些特征通过交叉注意力机制融合到传统的端到端模型(如Transfuser或iPad)的BEV特征中。
    • 训练一个轻量级的规划Transformer,使其输出分布逼近VLM教师的分布。

基于前人的哪些方法

  1. 基础模型:基于Qwen2.5-VL(视觉语言模型基础)和DINOv2(视觉特征提取基础)。
  2. 端到端架构:基于Transfuser(基于回归的融合框架)和iPad(基于打分的迭代优化框架)作为学生模型的骨干网络。
  3. 潜变量模型:借鉴了VQ-VAE(矢量量化变分自编码器)的思想来进行动作离散化。

实验设置、数据、评估方式、结论

  1. 数据集
    • 预训练:nuPlan, nuScenes(用于LAM);OpenScene(用于VLM)。
    • 主实验:NAVSIM benchmark (navtrain训练, navtest测试)。
    • 零样本测试:nuScenes(测试泛化性)。
  2. 评估方式
    • NAVSIM:PDMS(综合评分),以及无责碰撞率(NC)、可行驶区域合规性(DAC)等子指标。
    • nuScenes:Open-loop轨迹预测的L2误差(1s, 2s, 3s)。
  3. 结论
    • 在NAVSIM上,LatentVLA(iPad)取得了92.4的PDMS分数,刷新了SOTA。
    • 经过蒸馏后的模型(Distilled LatentVLA)在保持实时性的同时,性能显著优于原始基线(如Transfuser提升了2.6分)。
    • 在nuScenes上的零样本测试中,L2误差仅为0.33m,表现优异,证明了其强大的跨数据集泛化能力。

提到的同类工作

  • DriveGPT4 / DrivingGPT:利用VLM进行场景理解和轨迹规划的早期尝试。
  • DriveMoE / AutoVLA / ReCogDrive:近期的Vision-Language-Action (VLA) 模型,分别采用了混合专家架构、自回归动作Token化和扩散规划器。
  • ImpromptuVLA / EMMA:其他基于VLA的自动驾驶方法,通常依赖更大的训练数据集或不同的动作表示方法。
  • Transfuser / UniAD / iPad:传统的端到端自动驾驶感知与规划模型,作为本文方法的基线或学生模型架构。

和本文相关性最高的3个文献

  1. ImpromptuVLA:这是本文在nuScenes零样本测试中主要对比的同类VLA工作,且本文引用其评估方法,用于证明自己在数据量较少的情况下仍能达到顶尖水平。
  2. iPad:本文提出的LatentVLA框架是基于iPad架构进行改进和融合的(LatentVLA(iPad)),是本文核心验证的基线模型之一。
  3. Transfuser:同iPad一样,Transfuser是本文采用的另一种端到端骨干网络(LatentVLA(Transfuser)),用于验证方法在不同架构下的通用性。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/15 4:52:28

Android AI 实战:手把手教你用 Compose + CameraX 跑通 YOLOv8

关键词:Android, Jetpack Compose, CameraX, TFLite, Object Detection 大家好,我是飞哥!👋 拒绝云端依赖!3MB 模型跑在手机上,TFLite 转换保姆级教程我们成功把 YOLOv8 模型“压缩”成了 tflite 格式。今…

作者头像 李华
网站建设 2026/4/13 23:55:55

动态磁盘转化成基本磁盘

动态磁盘转化成基本磁盘 使用第三方工具(无需删除数据)恢复数据备份分区使用磁盘管理(Windows系统内置工具)镜像文件恢复重要注意事项 将动态磁盘转换回基本磁盘通常需要删除所有卷(导致数据丢失)&#xff…

作者头像 李华
网站建设 2026/4/18 6:23:09

从RAG到Agent:大模型10大核心技术全解析,小白也能入门

本文详解了AI与大模型落地的10个核心技术概念,包括RAG检索增强生成、Agent智能体、函数调用、思维链、向量数据库、模型量化与压缩技术(蒸馏、LoRA、剪枝)以及推理加速方法。文章强调理解技术原理对产品落地的重要性,提供每个概念…

作者头像 李华
网站建设 2026/4/18 8:31:49

大模型评估新范式:Agent-as-a-Judge完全指南

本文系统梳理了Agent-as-a-Judge这一新兴评估范式,揭示AI评估从"被动观察"到"主动验证"的演进路径。针对传统LLM裁判的偏见、局限和认知过载三大缺陷,Agent裁判通过去中心化架构、执行验证和层次化推理实现三重进化,提出…

作者头像 李华
网站建设 2026/4/8 15:32:40

【开题答辩全过程】以 基于ssm的空中停车场管理系统为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

作者头像 李华
网站建设 2026/4/17 20:30:51

2026必备10个降AI率工具测评

2026必备10个降AI率工具测评 2026年降AI率工具测评:为何需要这份榜单? 在学术论文、毕业设计乃至日常写作中,AI生成内容(AIGC)的识别技术日益成熟,高校和机构对AI率的要求也愈发严格。很多学生在提交前才…

作者头像 李华