news 2026/4/18 3:53:37

R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation

这篇论文介绍了 R3D2,一个轻量级、一步式 (one-step) 的 diffusion model,旨在解决自动驾驶 (autonomous driving, AD) 仿真中逼真插入完整 3D 资产的挑战。传统的仿真平台虽然可控,但扩展资源消耗大,且存在与真实世界的领域差距 (domain gap)。神经重建方法如 3D Gaussian Splatting (3DGS) 为创建逼真的数字孪生提供了可扩展方案,但由于其基于逐场景优化的方法,往往导致动态对象模型不完整,并集成了光照效果,限制了动态操作和重用性。
R3D2 的核心方法是训练一个模型来为插入的 3D 资产生成 plausible 的渲染效果,例如阴影和一致的光照,从而实现逼真的实时插入。这通过在一个新的数据集 R3D3 上进行训练来实现。R3D3 数据集的构建流程包括三个主要阶段:资产生成 (asset generation)、场景重建与资产重新插入 (scene reconstruction and asset re-insertion) 和数据整理 (data curation)。

资产生成: 使用 image-conditioned 3D generative model Amodal3R [44] 从 in-the-wild AD 数据中生成完整的 3DGS 对象资产。Amodal3R 输入包括对象中心的图像裁剪、2D segmentation mask 和 foreground occlusion mask。foreground occlusion mask 通过使用 pix2gestalt [23] 估计 amodal segmentation mask 并与原始 segmentation mask 相减(以及腐蚀操作)获得。生成的资产表示为一组 3D Gaussian primitives。
场景重建与资产重新插入: 使用 state-of-the-art 的神经重建方法 SplatAD [9] 重建约 300 个 Waymo Open Dataset (WOD) [37] 序列的虚拟环境。SplatAD 将场景分解为 static background 和 dynamic actors,各由 Gaussian primitives 表示。论文对 SplatAD 进行了微小修改,禁用了 feature splatting 和 CNN 解码器,直接渲染 RGB 颜色,以便于跨场景传输对象。为了构建训练对 ($I_{input}, I_{target}$),首先移除原始场景中的动态 actor 及其对应的 Gaussian primitives(这也移除了它们投射的阴影)。然后,在移除的位置和姿态 (pose) 插入生成的 3DGS 资产。渲染修改后的场景(static background + 新的 3DGS 资产)得到输入图像 $I_{input}$。原始图像作为目标图像 $I_{target}$。$I_{input}$ 包含几何正确的资产,但缺乏逼真的环境集成效果(如阴影)。
数据整理: 由于 Amodal3R 生成的资产可能存在不完美,对生成的资产进行两阶段过滤:首先自动过滤 3D 形状与原始 3D bounding box 尺寸显著偏离的资产;然后进行手动检查,移除不逼真或有渲染瑕疵的资产,最终得到 5071 个高质量资产。这些资产及其重新插入场景构成 R3D3 数据集。

R3D2 模型被形式化为一个图像编辑任务。它是一个 one-step diffusion model,基于蒸馏 (distilled) 的 SD-Turbo [33] 构建,去除文本条件,以 image-to-image 方式工作。与 SDEdit [20] 不同,它从 degraded 的 $I_{input}$ 直接执行一个 backward diffusion step,不额外添加噪声,以更好地保留输入信息。模型架构包含 UNet 和 VAE。为了实时推理速度,使用了蒸馏版本的 VAE [2],并通过从 VAE encoder 到 decoder 添加 skip connections (zero-initialized zero convolutions) 来保留输入图像细节,遵循 [24, 17, 43]。训练采用 end-to-end 方式,固定 VAE encoder,UNet 和 VAE Decoder 使用 LoRA [12] 进行 fine-tuning,skip connections 从零开始训练。训练分辨率为 1080x1920。损失函数结合了 perceptual LPIPS [51] loss 和 Gram matrix [28] loss:

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​

其中,

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​​​​​​​​
实验评估表明 R3D2 显著提升了插入资产的逼真度。在 same-scene re-insertion 任务中(资产生成自同一场景并插入回原位),与 Naive Insertion 相比,R3D2 大幅缩小了与 Original Reconstruction (逐场景过拟合) 的 realism 差距,表现在 PSNR, SSIM, LPIPS, CLIP IS, DINO IS 等指标上。定性结果展示了 R3D2 能隐式推断全局光照并生成逼真的阴影和反射。在资产操作 (asset manipulation) 实验中(旋转资产),Original Reconstruction 质量随旋转迅速下降,而 Naive Insertion (+ R3D2) 保持更稳定的质量,R3D2 显著提高了 Naive Insertion 的 realism。R3D2 也成功泛化到 foreign asset insertion 任务,包括 cross-scene (WOD 其他序列)、cross-dataset (PandaSet [46] 重建对象) 和 text-to-3D (TRELLIS [45] 生成对象) 资产。在这些任务中,R3D2 插入效果的 FID 和 FID-A 分数与 same-scene 任务相似,远优于 Naive Insertion。模型效率高,使用蒸馏 VAE 的 R3D2 在 RTX 5090 上可达 13.36 FPS (1080x1920),支持实时应用,比使用原始 VAE 的 R3D2-BIG 快 3.3 倍,而感知和特征层面的相似性指标仅略有下降。
R3D2 实现了逼真的实时渲染效果,无需依赖计算昂贵的 PBR 或 ray tracing。该方法为 AD 验证提供了创建更具多样性、可控性和高保真度仿真环境的实用步骤。
论文的贡献总结为:1) 提出了轻量级的 diffusion model R3D2,能够实时生成渲染效果,大幅提升插入资产的逼真度。2) 展示了强大的资产操作能力,并泛化到 text-to-3D 生成和跨数据集资产无缝插入等新应用。3) 构建并发布了用于训练 R3D2 的新数据集 R3D3,包含 3D 资产和替换了原 actor 的图像对。
局限性包括数据集创建过程可能引入的资产对齐误差(导致输出偶尔修改几何或位置)以及方法不处理时间一致性,应用于视频帧或多摄像头设置时可能导致闪烁或不一致。未来的工作可以基于视频模型来解决时间和多视角一致性问题。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/6 13:22:05

ESP32语音指令识别与反馈机制详解

ESP32语音指令识别与反馈机制详解:面向资源受限设备的轻量级AI交互实现你有没有遇到过这样的场景?深夜想关灯,却得摸黑找手机、解锁、点开App、再点开关——而一句“小智,关灯”,就能让卧室瞬间沉入安静。这不是科幻电…

作者头像 李华
网站建设 2026/4/15 7:15:30

STM32F103裸机USART1六步寄存器级初始化详解

1. 实验目标与系统架构定位 本实验聚焦于 STM32F103 系列微控制器在裸机环境下,通过 USART1 外设实现最基础的单向串行数据通信。核心目标是:单片机上电复位后,在不依赖中断、DMA 或高级协议栈的前提下,仅通过轮询方式,将一个固定的 ASCII 字符(’E’)持续发送至 PC 端…

作者头像 李华
网站建设 2026/4/14 9:38:55

STM32中printf重定向原理与工程实践

1. STM32平台下printf函数的工程化实现原理与实践 在嵌入式开发中, printf 函数远非标准C库中一个简单的格式化输出工具。它在资源受限的MCU环境中承载着调试信息输出、状态监控、协议交互等关键任务。然而,其底层依赖于标准I/O流机制( stdout ),而裸机环境缺乏操作系…

作者头像 李华
网站建设 2026/4/16 21:44:48

突破NCM格式限制:NCMconverter工具的3大场景化解决方案

突破NCM格式限制:NCMconverter工具的3大场景化解决方案 【免费下载链接】NCMconverter NCMconverter将ncm文件转换为mp3或者flac文件 项目地址: https://gitcode.com/gh_mirrors/nc/NCMconverter 音频格式转换工具NCMconverter是一款能够将加密的NCM文件转换…

作者头像 李华
网站建设 2026/4/4 19:27:42

浦语灵笔2.5-7B网络编程:TCP/IP协议分析与实现

浦语灵笔2.5-7B网络编程:TCP/IP协议分析与实现 1. 网络工程师的新工具箱里,为什么需要一个会"读协议"的大模型 上周帮一家做工业物联网的客户排查网络延迟问题,他们用传统抓包工具捕获了上万条TCP流,但工程师盯着Wire…

作者头像 李华