news 2026/4/18 13:45:08

LAMIC:一种无需学习、布局可控的多参考图像生成方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LAMIC:一种无需学习、布局可控的多参考图像生成方法

概述

本文提出了一种新方法,即 LAMIC,用于在可控图像生成过程中使用多张参考图像进行带有布局信息的高质量合成。

传统的扩散模型在基于单个参考图像生成时具有优势,但在处理多个参考图像时,会出现 "不一致的身份退化 "和 "布局崩溃 "等问题。
此外,许多现有方法需要额外的训练和大型数据集,限制了其通用性和可扩展性。

LAMIC 基于多模态扩散变换器 (MMDiT),这是一种无需学习的零拍摄方法,可生成多个图像和文本,并结合区域规范(边界框和掩码)。
特别是,它引入了使用群体隔离注意力(GIA)的实体分离和使用区域调制注意力(RMA)的布局控制,以忠实再现空间布局,同时防止语义混淆。

在评估实验中,它在身份保持、背景一致性和布局准确性等指标上都优于现有方法,并在多参考和复杂组合中表现出卓越的性能。
由于采用了无需额外学习的高效框架,这项研究在电影制作和叙事生成等实际应用中显示出巨大的潜力。

建议的方法

LAMIC 的核心思想是构建一种标记表示法,将参考图像、文本描述和布局信息整合在一起,然后将其输入 MMDiT,从而实现多参考图像的一致合成。

首先,每个参照物都被定义为一个 VTS 三元组,由视觉(V)、文本(T)和空间(S)三个元素组成,并添加了实体之间的关系(跨实体交互,CEI)和非控制区域(U)。

然后,这些信息被转换成一个综合的标记序列,并在 MMDiT 中作为一致的表征进行处理。
在此过程中,将引入组隔离注意(GIA),以拦截每个 VTS 组之间不必要的相互干扰,防止不同实体的特征混杂在一起。

此外,还在生成的早期阶段应用区域调制注意力(RMA),以保持每个空间区域的独立性,并在后期阶段将它们整合在一起。

这样就能准确再现角色定位和背景一致性,并能处理复杂的布局。

重要的是,该方法不需要额外的训练或微调,可以直接扩展现有的单一参考模型,因此在实际操作中既高效又通用。

实验

为了评估所提出的 LAMIC 方法,作者在现有的 XVerseBench 数据集上扩展了各种参考图像(人物、动物、物体、衣服和场景)和相应的布局信息。

在实验设置中,使用了两张、三张和四张参考图像作为输入,并在多个指标上进行了性能比较,包括 ID 保留率 (ID-S)、背景相似度 (BG-S)、外观一致性 (IP-S) 和美学评价 (AES)。

此外,还使用了新提出的包含率(IN-R)和填充率(FI-R)来定量评估产品对布局指示的遵从程度。

结果表明,LAMIC 在所有情况下的平均得分(AVG)都优于现有方法,尤其是在 ID 保留和背景一致性方面。

即使在难度极高的三页和四页参考任务中,LAMIC 也比传统方法平均提高了 4 到 8 分。

此外,消融实验也证实了这两种机制的有效性,去除 GIA 和 RMA 后,性能显著下降。

此外,通过调整 RMA 的应用比例,观察到了布局精度和整体视觉平滑度之间的权衡,得出的结论是 0.05 的比例是最佳的。

总之,LAMIC 无需额外学习就能达到最先进的性能,并有可能成为多参考图像合成的新标准。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 11:01:12

3分钟掌握React Native键盘控制的终极指南

3分钟掌握React Native键盘控制的终极指南 【免费下载链接】react-native-keyboard-controller Keyboard manager which works in identical way on both iOS and Android 项目地址: https://gitcode.com/gh_mirrors/re/react-native-keyboard-controller React Native …

作者头像 李华
网站建设 2026/4/18 10:53:20

FaceFusion与Hugging Face集成:一键拉取最新模型版本

FaceFusion与Hugging Face集成:一键拉取最新模型版本 在生成式AI迅猛发展的今天,视觉内容的自动化处理早已不再是实验室里的概念——从短视频平台上的实时换脸特效,到影视工业中的数字替身合成,人脸替换技术正以前所未有的速度走向…

作者头像 李华
网站建设 2026/4/18 9:43:42

Science | 本周最新文献速递

文章标题:Mechanosensitive genomic enhancers potentiate the cellular response to matrix stiffness 中文标题: 揭秘细胞如何感知硬度!发现“机械增强子”调控基因表达与细胞行为的新机制 关键词: 机械转导、基因组增强子、细胞…

作者头像 李华
网站建设 2026/4/18 7:17:27

告别Vim搜索混乱:Unite.vim让你的编辑器效率翻倍

告别Vim搜索混乱:Unite.vim让你的编辑器效率翻倍 【免费下载链接】unite.vim :dragon: Unite and create user interfaces 项目地址: https://gitcode.com/gh_mirrors/un/unite.vim Unite.vim是一款革命性的Vim插件,它通过统一搜索界面彻底改变了…

作者头像 李华
网站建设 2026/4/18 12:53:16

5分钟快速上手BewlyCat:B站主页美化的终极指南

5分钟快速上手BewlyCat:B站主页美化的终极指南 【免费下载链接】BewlyCat BewlyCat——基于BewlyBewly开发 项目地址: https://gitcode.com/gh_mirrors/be/BewlyCat BewlyCat是一款专注于优化B站主页体验的开源工具,通过简洁美观的界面设计和实用…

作者头像 李华
网站建设 2026/4/18 8:49:35

FaceFusion镜像SLA服务等级协议说明:稳定性承诺

FaceFusion镜像SLA服务等级协议说明:稳定性承诺 在AI生成内容(AIGC)迅猛发展的今天,视觉创作的边界正在被不断拓展。人脸替换技术——这个曾被视为“黑科技”的领域,如今已悄然渗透进影视后期、短视频生产、虚拟偶像乃…

作者头像 李华