news 2026/4/18 10:10:06

告别“指令失灵”!港中文字节提出 DreamOmni3:用“涂鸦+图文”输入,让多模态生成编辑“听话”起来

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别“指令失灵”!港中文字节提出 DreamOmni3:用“涂鸦+图文”输入,让多模态生成编辑“听话”起来

港中文与字节联合推出的 DreamOmni3 惊艳亮相。它创新性地解锁“涂鸦 + 图文”联合输入模式,直面数据创建与框架设计难题,为多模态生成与编辑带来了全新思路,有望开启这一领域更为精彩的篇章。

在人工智能飞速发展的当下,多模态生成与编辑领域成绩斐然,统一生成与编辑模型凭借文本指令就能生成精彩内容,展现出强大性能。然而,语言在精准定位编辑区域、捕捉视觉细节方面存在天然短板,难以满足创作者日益精细的需求。在此背景下,港中文与字节联合推出的 DreamOmni3 惊艳亮相。它创新性地解锁“涂鸦 + 图文”联合输入模式,直面数据创建与框架设计难题,为多模态生成与编辑带来了全新思路,有望开启这一领域更为精彩的篇章。

相关链接

  • 论文:https://arxiv.org/pdf/2512.22525
  • 项目:https://github.com/dvlab-research/DreamOmni3(coming soon...)
介绍

近期,统一生成与编辑模型凭借文本指令展现出卓越性能,但语言难以精准定位编辑区域与捕捉视觉细节。为此,研究提出涂鸦式编辑与生成任务,借助图形用户界面融合文本、图像与自由涂鸦,实现更灵活创作,并推出 DreamOmni3 应对数据创建与框架设计两大挑战。其数据合成管道涵盖涂鸦编辑与生成,定义多项细分任务,基于 DreamOmni2 数据集构建训练数据。框架设计上,摒弃易受多涂鸦、图像与指令影响的二元掩码,采用联合输入方案,将原始与涂鸦图像输入模型,通过颜色区分区域、统一编码定位,实现精准编辑。实验表明 DreamOmni3 表现出色,模型与代码将开源。

方法概述

DreamOmni3训练数据构建及框架概述。DreamOmni3训练数据构建及框架概述:

  • 论文创建基于涂鸦的编辑训练数据。对于涂鸦和多模态指令式编辑,使用Referseg定位编辑对象,并将相应的涂鸦粘贴到源图像和参考图像上,从而创建训练对。对于涂鸦和指令式编辑,省略参考图像。对于涂鸦式编辑,我们使用专用模型将编辑对象转换为抽象草图,并将其粘贴回源图像。对于图像融合,从参考图像中裁剪对象,并将其粘贴到源图像的相应位置,从而构建训练对。
  • 基于涂鸦的生成训练数据创建方式与编辑类似,只是源图像被替换为空白画布。
  • DreamOmni3基于DreamOmni2的框架,引入了涂鸦输入的联合输入方案。还对源图像和涂鸦图像应用了相同的编码方案,从而确保更好的像素对齐,并与之前的图像和语言指令编辑完全兼容。
实验结果

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 6:30:34

Glyph让长文本推理不再难,实测单卡流畅运行

Glyph让长文本推理不再难,实测单卡流畅运行 1. 引言:长上下文建模的瓶颈与新思路 在大语言模型(LLM)的应用中,处理超长文本一直是工程落地的核心挑战之一。传统方法依赖扩展Token序列长度来支持更长上下文&#xff0…

作者头像 李华
网站建设 2026/4/18 6:26:06

LangFlow政务应用:政策智能问答机器人搭建案例

LangFlow政务应用:政策智能问答机器人搭建案例 1. 引言 随着人工智能技术的快速发展,政务服务智能化已成为提升政府治理能力的重要方向。在大量政策文件、法规条文和公众咨询场景中,如何快速、准确地响应民众需求,成为政务信息化…

作者头像 李华
网站建设 2026/4/18 6:26:18

MinerU2.5-1.2B案例:金融研究报告数据可视化

MinerU2.5-1.2B案例:金融研究报告数据可视化 1. 引言 在金融研究领域,分析师每天需要处理大量PDF格式的研究报告、PPT演示文稿以及扫描件中的图表和表格。传统方式依赖人工阅读与手动摘录,效率低且易出错。随着AI技术的发展,智能…

作者头像 李华
网站建设 2026/4/18 8:41:02

ms-swift全流程实战:从数据到部署,3小时速成

ms-swift全流程实战:从数据到部署,3小时速成 你是不是也和我一样,正处在转行AI的十字路口?想进大模型领域,但简历上空空如也;想动手做项目,又怕环境配不好、代码跑不通、时间耗不起。别急——今…

作者头像 李华
网站建设 2026/4/16 11:34:55

Youtu-2B多语言对比测试:一键切换,3小时全搞定

Youtu-2B多语言对比测试:一键切换,3小时全搞定 你是不是也遇到过这种情况?做跨境电商项目时,需要评估一个大模型在不同语言下的表现——比如中文、英文、西班牙语、法语、德语、日语、阿拉伯语。你想用当前热门的 Youtu-2B 模型来…

作者头像 李华
网站建设 2026/4/18 8:31:15

生成引擎优化(GEO)重塑现代内容价值与用户参与模式

生成引擎优化(GEO)在内容创作中占据了越来越重要的地位,其核心在于通过精准的数据分析和用户行为洞察,帮助创作者理解目标受众的需求。这样,创作者可以定制出更具吸引力和相关性的内容,进而提升用户参与度和…

作者头像 李华