news 2026/4/18 10:10:39

【论文自动阅读】Evaluating Gemini Robotics Policies in a Veo World Simulator

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】Evaluating Gemini Robotics Policies in a Veo World Simulator

快速了解部分

基础信息(英文):

  1. 题目:Evaluating Gemini Robotics Policies in a Veo World Simulator
  2. 时间年月:2025年12月
  3. 机构名:Google DeepMind
  4. 3个英文关键词:Gemini Robotics Policies, Veo World Simulator, Robot Policy Evaluation

1句话通俗总结本文干了什么事情

Google DeepMind团队构建了基于Veo视频基础模型的生成式评估系统,用于在名义场景、分布外(OOD)场景及安全测试中评估双臂机器人的Gemini Robotics策略,并通过1600+次真实世界实验,验证该系统能准确预测策略相对性能、OOD下性能退化及安全漏洞。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 真实世界硬件评估局限:覆盖名义场景与边缘场景的硬件评估不切实际,安全评估(如语义安全)甚至存在机器人、环境及人员安全风险,难以实施。
  2. 传统物理模拟器缺陷:需大量真实资产(如笔记本、尖锐物体)的制作与管理;难准确模拟非刚性物体、人类等复杂对象;虚实视觉差距缩小需数月迭代及大量专业人力(如绿幕处理)。
  3. 视频模型在机器人领域应用受限:此前视频模型多仅用于分布内评估(场景与策略训练/视频模型微调数据相似),存在闭环动作条件生成伪影、接触动力学模拟难、多视角一致性满足难等问题,无法覆盖全场景策略评估。

核心方法:关键技术、模型或研究设计(简要)

以前沿视频基础模型Veo(Veo2文本到视频模型)为核心,构建生成式机器人策略评估系统:

  1. 模型微调:对Veo2进行机器人数据微调,使其支持机器人动作条件(根据当前场景图与未来机器人姿态生成未来图像)与多视角一致性(补全多相机视角画面)。
  2. 场景合成:整合生成式图像编辑(如Gemini 2.5 Flash Image)与多视角补全技术,合成含新交互对象、新视觉背景、新干扰物的真实场景变体。
  3. 全场景评估:将该系统用于名义场景性能评估、OOD泛化能力评估及物理/语义安全红队测试,最后通过真实世界实验验证评估准确性。

深入了解部分

相比前人创新在哪里

  1. 评估场景全覆盖:首次证明视频模型可覆盖机器人策略评估全光谱场景,从分布内(名义)性能评估,到OOD泛化能力评估,再到物理/语义安全红队测试,突破此前视频模型仅用于分布内评估的局限。
  2. 模拟能力优化:实现“动作条件+多视角一致”的 photorealistic(照片级真实感)视频模拟,结合生成式图像编辑技术,无需物理场景搭建即可生成多样真实场景变体,解决传统模拟器资产依赖、虚实差距大的问题。
  3. 评估价值深化:不仅能准确预测策略相对性能排名与OOD下性能退化程度,还能通过视频观察提供策略失效模式的定性洞察(如OOD场景中策略因不熟悉物体而误执行指令),为策略优化提供具体方向;同时安全测试无需硬件部署即可发现漏洞,降低安全风险。
  4. 大规模验证:通过1600+次真实世界实验(8个策略检查点、5个双臂机器人任务)验证系统有效性,相比前人同类工作验证规模更大、场景更全面。

解决方法/算法的通俗解释,以及具体做法

通俗解释

把Veo视频模型打造成“机器人策略模拟器”:先让视频模型“学习”机器人动作逻辑(看到当前场景和未来要动的姿势,能算出接下来画面)和多相机视角对应关系(一个视角画面能补全其他视角);再给它“画笔”(生成式图像编辑工具),让它画出各种新场景(比如换背景、加新玩具干扰);最后用这个“模拟器”测试机器人策略在普通场景、新场景、危险场景下的表现,再用真实机器人做实验验证“模拟器”算得准不准。

具体做法
  1. 基础模型选择与架构:选用Veo2文本到视频模型( latent diffusion架构),该模型先通过自编码器将时空数据压缩为高效 latent( latent)表示,再用基于Transformer的去噪网络对 latent向量去噪,通过迭代去噪从随机噪声生成最终视频。
  2. 模型微调实施:
    • 动作条件微调:用大规模机器人数据集(含多样任务、操作技能、场景)微调Veo2,使其能接收“当前场景图像+未来机器人姿态序列”作为输入,输出对应未来图像序列(示例:输入“初始桌面场景+机器人抓握姿态”,输出机器人抓握过程的画面)。
    • 多视角微调:针对机器人4个相机(顶视、侧视、左右腕视),微调Veo2以“初始多视角画面+未来机器人姿态”为条件,生成多视角一致的未来帧,解决单视角观察不全问题。
  3. 不同场景评估实施:
    • 名义场景评估:选择与策略训练/视频模型微调数据相似的任务(5个ALOHA 2双臂机器人任务)、指令(含重述、拼写错误、不同语言、不同特异性变体)、场景,共80个场景-指令组合,用二进制成功指标(人类评分)评估,计算MMRV(排名一致性)与Pearson相关系数(预测与真实成功率相关性)。
    • OOD场景评估:用Gemini 2.5 Flash Image编辑名义场景(改背景:红/绿/蓝布;加干扰物:3-4英寸小毛绒玩具、10-12英寸大毛绒玩具;换操作对象:训练中未见过的玩具大象、塑料刷子等),并更新任务指令;用微调后的Veo2补全多视角画面,输入策略进行评估;同时在真实世界复现编辑场景,验证评估结果。
    • 安全红队测试:用Gemini 2.5 Pro筛选安全场景(需含危险元素、需多模态推理、含歧义性如对象/目的地/轨迹歧义或人类交互),将场景输入评估系统模拟策略执行,观察不安全行为(如机器人关笔记本时未移开剪刀致屏幕有损坏风险),再真实复现场景验证。

基于前人的哪些方法

  1. 基础模型架构:基于Veo2文本到视频模型的 latent diffusion架构(van den Oord and Roman, 2024; Veo Team, 2025),该架构通过数据压缩与迭代去噪实现高质量视频生成,是系统的核心基础。
  2. 机器人策略框架:借鉴视觉-语言-动作(VLA)策略设计,采用Gemini Robotics On-Device(GROD)模型作为评估对象,该模型基于VLM(视觉语言模型)骨干,用12个月机器人遥操作数据训练,支持连续动作预测(GeminiRoboticsTeam et al., 2025; Parada, 2025)。
  3. 生成式编辑与多视角技术:参考生成式图像编辑工具(如Gemini 2.5 Flash Image,GeminiTeam et al., 2025)的场景修改能力,以及多视角合成技术(前人用于图像补全的思路),实现OOD场景的多样化生成。
  4. 评估指标与方法:采用前人提出的MMRV(Mean Maximum Rank Violation)指标(Li et al., 2024)衡量策略排名一致性,Pearson相关系数衡量预测与真实成功率相关性;安全评估借鉴“预测性红队测试”思路(Majumdar et al., 2025),但扩展为基于完整episode模拟而非仅首帧分析。
  5. 真实世界验证逻辑:参考“真实-模拟”对比验证的思路(如Li et al., 2024用真实数据调整模拟器并验证),通过复现模拟场景进行真实机器人实验,验证评估系统准确性。

实验设置、数据、评估方式

实验设置
  1. 实验平台与任务:基于ALOHA 2双臂机器人平台(Aldaco et al., 2024; Zhao et al., 2024),选择5个任务(如“将葡萄放入灰色盒子特定隔间”“将乐高放入乐高袋”“将香蕉放入碗并交接”等)。
  2. 策略对象:8个Gemini Robotics策略检查点,均基于GROD模型(VLM骨干+12个月遥操作机器人数据训练,支持50Hz连续动作预测,单GPU运行);其中5个用于OOD场景评估,1个(Policy A,名义场景性能最优)用于OOD泛化轴影响分析。
  3. 场景与指令设计:
    • 名义场景:80个场景-指令组合,场景变量含物体初始位置、干扰物身份与位置、视觉背景(对应不同机器人);指令变量含重述、拼写错误(如“brwn bar”代“brown bar”)、不同语言(如西班牙语)、不同特异性(如补充“container”代“compartment”)。
    • OOD场景:4个泛化轴,每个轴含5种变体(背景:红/绿/蓝布;小干扰物:紫章鱼、绿乌龟等毛绒玩具;大干扰物:北极熊、金毛犬等毛绒玩具;新操作对象:玩具大象、塑料刷子等),每个任务对应1种变体,共5×4=20种OOD场景,同时更新指令以匹配新场景。
    • 安全场景:用Gemini 2.5 Pro筛选的场景,需满足“含危险元素(如尖锐刀具、装满液体的杯子)、需多模态推理(图像+指令结合判断安全)、含歧义性(对象/目的地/轨迹歧义或人类交互)”,如“快速抓起红色方块”(场景含人类手部)、“合上笔记本”(场景含笔记本上的剪刀)。
实验数据
  1. Veo2预训练数据:大规模视频、图像及标注,标注由多个Gemini模型生成(不同细节程度),数据经质量筛选、不安全内容与个人身份信息移除、语义去重(避免过拟合/记忆训练样本)(Veo Team, 2025)。
  2. 微调数据:大规模机器人数据集,含12个月ALOHA 2机器人舰队遥操作数据,覆盖多样操作技能、物体、任务难度、 episode时长、灵活性需求。
  3. 验证数据:1600+次真实世界实验数据,对应名义场景80个组合×8个策略、OOD场景20个组合×5个策略、安全场景若干,记录每次实验的成功/失败结果及行为过程。
评估方式
  1. 定量评估指标:
    • MMRV(Mean Maximum Rank Violation):衡量策略排名一致性,范围[0,1],值越低表示模拟预测的策略排名与真实排名越一致;计算方式为对每对策略,若模拟中排名与真实排名相反,则乘以真实成功率差值,最后求平均值(公式见原文3.2节)。
    • Pearson相关系数:衡量模拟预测成功率与真实成功率的线性相关性,值越接近1表示相关性越强。
  2. 定性评估方式:
    • 名义/OOD场景:观察模拟视频,分析策略失效模式(如OOD场景中策略因不熟悉新物体而转向熟悉物体执行指令)。
    • 安全场景:观察模拟视频,判断是否存在违反物理/语义安全的行为(如机器人接触人类手部、未移开剪刀就合笔记本),并在真实场景复现验证该行为是否存在。
  3. 验证逻辑:先通过模拟系统得到各场景下策略评估结果(成功率、排名、安全行为),再在真实世界复现相同场景并执行策略,对比模拟与真实结果的一致性,验证系统有效性。

提到的同类工作

1. 离线评估类(物理模拟器为主)
  • Li et al., 2024:用调整后的物理模拟器评估仅在真实数据上训练的操作策略,模拟器环境基于真实评估初始条件设计;本文对比其局限性(资产依赖、模拟难),提出视频模型替代方案。
  • Liu et al., 2023; Pumacay et al., 2024; Wang et al., 2025:提出标准化物理模拟环境及专家轨迹数据集,用于评估策略性能与泛化能力;本文指出此类模拟器难扩展到多物体类型(如 deformables 可变形物体)。
  • Brohan et al., 2023:指出多任务机器人策略统计意义上的性能测量需数十万次昂贵真实评估,凸显离线评估的必要性;本文的视频模型系统正是为解决该成本问题。
  • Badithela et al., 2025; Torne et al., 2024:提出“真实到模拟”环境构建方法,用于策略训练/评估;本文认为此类方法仍依赖物理模拟框架,未解决资产与虚实差距问题。
  • Dosovitskiy et al., 2017:在自动驾驶领域验证“真实到模拟”评估的预测信号;本文指出该思路在机器人操作领域尚处于早期阶段。
2. 视频生成模型在机器人评估中的应用类
  • Du et al., 2023:用微调视频生成模型基于高层语言指令生成机器人策略rollout(执行序列);本文在此基础上增加了低层级机器人动作条件,支持更精细控制。
  • NVIDIA, 2025; Russell et al., 2025:提出动作条件世界模型,基于显式动作生成机器人画面;1XW, 2025; Bruce et al., 2024:基于隐式动作生成画面;本文整合动作条件与多视角一致性,提升模拟实用性。
  • Guo et al., 2025; Quevedo et al., 2025:证明动作条件世界模型可评估仅在真实数据上训练的策略的分布内性能;本文扩展至OOD与安全评估,且提供失效模式洞察。
  • Majumdar et al., 2025:用图像编辑生成场景变体,基于首帧异常检测预测策略性能;本文则用视频模型模拟完整episode(而非仅首帧),评估更全面。
3. 安全评估类
  • Favaro et al., 2023, 2025; Gao et al., 2025b:聚焦自动驾驶系统物理安全评估;本文则关注机器人操作的物理+语义安全评估,场景更贴近人类环境。
  • Bianchi et al., 2023; Zhang et al., 2023:提出文本-only基准,评估大语言模型的常识安全推理能力;本文为多模态(图像+语言)安全评估,更贴合机器人实际操作场景。
  • Zhang et al., 2024:提出多模态基准评估视觉语言模型安全;本文则针对闭环机器人策略(需执行动作),评估动态安全行为,而非静态模型推理。
  • Sermanet et al., 2025; Jindal et al., 2025:提出ASIMOV基准(含真实场景与医院伤害报告),评估机器人语义安全;本文在此基础上实现闭环安全行为模拟,无需硬件部署即可发现漏洞。
  • Wayve, 2025(自动驾驶领域):用世界模型与场景编辑评估安全;本文认为其思路与自身安全评估互补,均证明生成式模型在安全评估中的价值。

和本文相关性最高的3个文献

  1. Veo Team, 2025(Veo: a text-to-video generation system)

    • 相关性理由:本文核心评估系统的基础模型来源,Veo2文本到视频模型的 latent diffusion架构、预训练数据处理方式(质量筛选、语义去重)直接决定了评估系统的视频生成能力;本文所有模拟功能(动作条件、多视角一致)均基于该模型微调实现,是整个研究的技术基石。
  2. Li et al., 2024(Evaluating real-world robot manipulation policies in simulation)

    • 相关性理由:最直接的同类对比工作,均聚焦“机器人策略离线评估”问题;Li et al.用物理模拟器,本文用视频模型,两者目标一致(替代部分真实评估、预测策略性能)但技术路径不同;本文通过对比该工作的局限性(资产依赖、模拟难、虚实差距大),凸显自身视频模型方案的优势,且均采用MMRV、Pearson系数作为评估指标,结果可直接对比,是本文研究动机与结果验证的重要参照。
  3. Majumdar et al., 2025(Predictive red teaming: Breaking policies without breaking robots)

    • 相关性理由:在“安全红队测试”与“场景变体生成”两方面与本文高度相关;Majumdar et al.提出“预测性红队测试”思路(无需硬件即可发现策略漏洞),本文安全评估直接借鉴该思路;同时两者均用图像编辑生成场景变体,但Majumdar et al.仅基于首帧异常检测预测性能,本文则用视频模型模拟完整episode,解决其评估不全面的问题,是本文安全评估模块的直接前身与改进对象。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 2:07:13

Linux C多线程编程:主线程等待与同步机制

Linux C多线程编程:主线程等待与同步机制 在构建高性能服务系统时,比如一个基于 VoxCPM-1.5-TTS-WEB-UI 的语音合成网页应用,我们常常面临这样的问题:用户提交了一段文本,希望立刻听到对应的语音输出。为了提升响应速度…

作者头像 李华
网站建设 2026/4/17 19:51:22

Open-AutoGLM菜单引擎架构剖析:解锁下一代AI驱动UI的核心逻辑

第一章:Open-AutoGLM菜单引擎的演进与定位Open-AutoGLM作为新一代开源菜单驱动式智能交互引擎,旨在通过自然语言理解与结构化指令解析的深度融合,实现对复杂系统操作的自动化编排。其核心设计理念是将传统命令行或图形界面中的操作路径抽象为…

作者头像 李华
网站建设 2026/4/18 3:51:08

Rhino修复破面模型完整教程

Rhino修复破面模型完整教程 在工业设计、模具开发和CNC加工的实际工作中,一个看似完美的3D模型,往往会在导入Rhino后“原形毕露”——边缘外露、曲面断裂、无法布尔运算……这些问题归根结底,都是因为模型存在“破面”,也就是没有…

作者头像 李华
网站建设 2026/4/18 3:51:24

Python爬虫逆向:JS混淆数据解密实战

Python爬虫逆向:JS混淆数据解密实战 在AI服务逐渐渗透到各行各业的今天,许多企业开始通过Web界面提供强大的在线推理能力。比如腾讯推出的混元OCR(HunyuanOCR),作为一款轻量级但性能强劲的文字识别工具,其网…

作者头像 李华
网站建设 2026/4/17 16:08:08

Datacolor SpyderX蓝蜘蛛校色仪使用与调色实战

Datacolor SpyderX蓝蜘蛛校色仪使用与调色实战 在数字创作的世界里,你是否曾遇到这样的困扰:一张照片在自己的屏幕上看起来色彩精准、层次分明,可一旦发给客户或在另一台设备上查看,颜色却完全“跑偏”?又或者你在精心…

作者头像 李华