北大突破AI绘画难题：让机器像人一样精准识别和创作多主体图像-程序员充电站

这项由北京大学张文涛教授团队牵头，联合快手科技凌团队共同完成的研究发表于2025年12月的计算机视觉顶级会议论文集中。研究团队包括王雨然、曾博涵、童成卓等多位研究者，论文编号为arXiv:2512.12675v1。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文。

想象一下这样的场景：你给AI描述"请画出照片中左边那只小狗在草地上奔跑的画面"，但照片里同时有三只小狗。普通人能轻松指出哪只是"左边那只"，但现在的AI绘画工具却经常搞混，要么把三只狗都画出来，要么干脆忽略了你想要的那只。这就是目前AI绘画领域面临的一个关键问题：在复杂场景中准确识别和生成指定主体。

北京大学的研究团队注意到，现有的AI绘画技术虽然能够组合多个对象，但在面对包含多个候选对象的复杂图像时，往往无法准确区分用户真正想要的目标。这就像给一个人看一张全家福，让他画出"穿红衣服的那个人"，结果他要么把所有人都画成红衣服，要么完全画错了人。

为了解决这个问题，研究团队开发了一个名为"Scone"的新系统。这个名字来源于"Subject-driven composition and distinction enhancement"，意思是"主体驱动的组合与区分增强"。简单来说，Scone就像一个既会看又会画的智能助手，不仅能理解你的描述，还能在复杂的图像中准确找到你想要的对象，然后精确地把它画出来。

研究团队还创建了一个专门的测试基准叫做"SconeEval"，包含409个测试案例，涵盖了从简单的单对象识别到复杂的多对象组合等各种难度级别。这就像为AI设计了一套从小学到大学的考试题，全面检验它们在图像理解和生成方面的能力。

一、AI绘画的"认知盲点"：当机器遇到选择困难

传统的AI绘画就像一个只会临摹不会思考的画家。当你给它一张包含多个相似对象的照片，比如一群小狗的合影，然后要求它画出"最左边那只小狗在公园里玩耍"，它往往会陷入困惑。

这种困惑主要体现在三个方面。首先是"主体遗漏"，就像你让画家画特定的狗，结果画面里一只狗都没有。其次是"主体冗余"，本来只要画一只狗，结果把照片里的所有狗都画了出来。最后是"主体错误"，你要的是左边的金毛犬，它却画了右边的泰迪。

研究团队发现，这个问题的根源在于现有AI系统的两个核心缺陷。第一个缺陷是"理解能力不足"。现在的AI绘画系统主要专注于图像生成，对于复杂的文本描述理解能力相对薄弱。它们就像一个只会用画笔不会用眼睛的画家，虽然技法娴熟，但看不懂客户的具体要求。

第二个缺陷是"理解与生成脱节"。即使AI系统同时具备理解和生成能力，这两个部分往往各自为政，缺乏有效的协调机制。这就像一个画室里有两个人，一个负责看和理解客户需求，另一个负责画画，但他们之间沟通不畅，经常出现理解的内容和最终画出来的内容不一致的情况。

为了验证这个判断，研究团队做了一个巧妙的实验。他们测试了现有的统一理解生成模型，发现理解模块提取的信息确实比生成模块更贴近用户的文字描述。这就好比在一个团队中，负责阅读理解的成员总是能更准确地把握客户意图，而负责执行的成员经常偏离目标。

然而，研究团队也发现，即使理解模块表现更好，也不能简单地让它来主导整个过程。因为理解模块虽然善于把握语义，但在具体的图像生成细节上可能会引入偏见。这就像让一个理论家直接指挥具体的绘画操作，虽然大方向对了，但细节处理可能出现问题。

二、Scone：构建AI的"语义桥梁"

面对这些挑战，研究团队提出了一个创新的解决方案：让理解模块充当"语义桥梁"的角色。这个想法就像在理解专家和绘画专家之间建立一个高效的翻译和协调机制。

Scone系统的核心创新在于采用了统一的理解生成架构。这就好比把原本分离的两个专家放在同一个工作室里，让他们能够实时交流协作。在这个架构中，理解专家负责分析用户的文字描述和参考图像，识别出真正需要的目标对象；生成专家则负责具体的图像创作，但会持续接收来自理解专家的指导。

这种合作方式的妙处在于，理解专家能够在处理图像的早期阶段就捕捉到重要的语义信息。就像一个经验丰富的艺术指导，能够在画家刚开始构图时就指出关键的表现重点。研究团队发现，在神经网络的早期层中，理解专家提取的特征与文字描述的相似度明显高于生成专家，这证明了"语义桥梁"策略的有效性。

Scone的训练过程分为两个阶段，就像培养一个艺术团队需要循序渐进的过程。第一阶段是"组合训练"，主要让系统学会基本的多对象组合能力。在这个阶段，系统接触的都是相对简单的图像，每张图片只包含一个候选对象，就像让学生先练习简单的绘画技巧。

第二阶段是"区分训练"，这才是Scone的核心创新所在。在这个阶段，系统开始接触包含多个候选对象的复杂图像，学习如何准确识别目标对象。这个过程又分为两个步骤：首先是"理解桥梁形成"，让理解专家学会更好地对齐视觉和文本信息，并生成一个"语义掩码"来过滤无关信息；然后是"理解桥梁指导"，让生成专家在理解专家的指导下进行创作。

语义掩码是Scone的一个巧妙设计。这就像给理解专家配备了一副特殊的眼镜，能够高亮显示图像中与文字描述最相关的区域，同时模糊或忽略无关的部分。通过计算图像特征与文字描述之间的相似度，系统能够自动判断图像的哪些区域是重要的，哪些是可以忽略的。

在实际应用中，这个过程非常自然流畅。当用户输入"画出图像中左边那只小狗在草地上奔跑"这样的指令时，理解专家首先分析参考图像，识别出所有的狗，然后根据"左边"这个描述确定目标对象，生成相应的语义掩码。接着，生成专家在创作过程中会重点关注被掩码高亮的区域，确保生成的图像确实是左边那只小狗，而不是其他的狗。

三、SconeEval：为AI绘画能力制定"考试标准"

为了客观评估不同AI系统在复杂场景下的表现，研究团队创建了一个全新的评测基准SconeEval。这就像为AI绘画领域制定了一套标准化的"考试系统"，能够全面测试AI在理解、识别和生成方面的综合能力。

SconeEval包含409个精心设计的测试案例，覆盖了角色、物体和场景三大类别，共19种不同的案例类型。这些测试案例就像一套从易到难的综合考题，既有简单的单对象识别，也有复杂的多对象组合创作。

评测体系设计了三个不同难度级别的任务。最基础的是"组合任务"，相当于小学水平，要求AI能够将多个简单对象组合到一起。中等难度的是"区分任务"，相当于中学水平，要求AI能够在包含多个候选对象的图像中准确识别目标对象。最高难度的是"区分与组合任务"，相当于大学水平，要求AI既要准确识别多个图像中的目标对象，又要将它们合理地组合到一起。

在区分任务中，评测还进一步细分为"跨类别"和"类内"两种情况。跨类别意味着候选对象属于不同类型，比如在一张包含猫、狗、鸟的图片中识别出猫；类内则意味着候选对象属于同一类型，比如在一群不同品种的狗中识别出特定的那只。显然，类内识别比跨类别识别更加困难，因为需要AI具备更精细的辨别能力。

SconeEval的构建过程也很有意思。研究团队采用了一个"两步解耦"的策略来生成测试指令。传统的方法是直接让AI同时看图像和生成描述，但这样容易产生歧义或错误。研究团队巧妙地将这个过程分为两步：第一步是"主体识别"，让视觉语言模型独立分析每张图像，识别其中最显著的对象；第二步是"指令生成"，让语言模型根据第一步的识别结果生成准确的描述指令，而不直接接触图像内容。

这种分离策略的好处是减少了不同图像之间的相互干扰，提高了指令的准确性和语言的连贯性。就像让一个专门的观察员先仔细看图识别对象，然后让另一个专门的文字工作者根据观察结果编写描述，这样生成的指令更加清晰准确。

评测方法也很科学。对于组合能力，系统使用类似于传统AI绘画评测的方法，关注生成图像是否忠实地遵循了指令并保持了主体的一致性。对于区分能力，系统则采用了一种新的评测方式，直接判断描述的目标对象是否出现在生成的图像中，并计算准确率、精确率、召回率等指标。这种评测方式能够更好地捕捉AI在复杂场景下的真实表现。

四、实验验证：Scone的实力展示

研究团队在两个不同的基准上对Scone进行了全面测试，结果令人鼓舞。在传统的OmniContext基准上，Scone在开源模型中取得了最高的平均得分8.01分（满分10分），超越了包括USO、UNO、UniWorld-V2等知名系统。虽然与闭源的商业模型如GPT-4o（8.78分）和Gemini-2.5-Flash-Image（8.07分）相比还有一定差距，但已经展现出了强劲的竞争实力。

在研究团队自己开发的SconeEval基准上，Scone的表现更加突出，总分达到8.50分，在所有开源模型中遥遥领先。特别值得注意的是，在区分任务上，Scone获得了8.79分的高分，显著超越了其他模型。这证明了Scone在复杂场景理解和目标对象识别方面的独特优势。

更细致的分析显示，统一的理解生成模型确实比纯粹的生成模型在区分任务上表现更好。例如，OmniGen2虽然在组合任务上得分相对较低（7.60分），但在区分任务上的表现（7.81分）明显优于像Qwen-Image-Edit-2509这样的传统生成模型（区分得分7.65分）。这证实了理解能力在主体区分任务中的重要作用。

研究团队还进行了用户研究来验证评测结果的可靠性。他们邀请了30名评估者，包括专业人士和非专业人士，对409个SconeEval测试案例进行人工评估。每个评估者需要从指令遵循、主体一致性、真实感和美观性四个维度对比不同模型的输出结果。最终的标准化分数显示：OmniGen2和UniWorld-V2分别获得0.27分，而Scone获得了0.46分，这与GPT-4.1自动评分的结果高度一致，证明了评测方法的有效性。

在稳定性测试中，Scone也表现出色。研究团队测量了不同模型在SconeEval基准上得分的标准差，发现Scone的波动最小，说明其性能最为稳定可靠。这对于实际应用来说非常重要，因为用户需要的是一个能够持续稳定工作的AI助手，而不是时好时坏的工具。

五、深入解析：关键技术突破

Scone的成功离不开几个关键的技术创新。首先是"理解桥梁策略"的提出。研究团队通过大量实验发现，在统一模型的早期层中，理解专家提取的特征确实与文本描述具有更高的相似性。这个发现为理解专家担任"语义桥梁"提供了理论依据。

在具体实现上，理解桥梁的形成过程非常精妙。系统首先对早期层的视觉特征和文本特征进行L2归一化，然后计算它们之间的余弦相似性。基于这些相似性分数，系统为每个视觉token计算一个语义相关性得分，然后根据预设的阈值生成二值化的语义掩码。

这个阈值的选择很有学问。研究团队通过参数研究发现，当阈值设为0.88时效果最好，此时组合得分为8.21分，区分得分为8.79分，总体得分为8.50分。阈值过低会保留太多无关信息，阈值过高则可能过滤掉有用信息，0.88这个数值达到了最佳平衡。

语义掩码的应用方式也很巧妙。系统并不是简单地删除被掩盖的视觉token，而是修改注意力机制的计算逻辑。对于被标记为无关的token，系统将其注意力权重设置为负无穷，这样在softmax计算后这些token会得到接近零的注意力权重，从而被自然地忽略掉。

训练数据的构建也很有特色。研究团队收集了大规模的开源主体驱动生成数据集，包括X2I、MUSAR-Gen、UNO-1M和Echo-4o-Image等，总共约70万张图像。为了补充多输入图像的场景，他们还使用Gemini-2.5-Flash-Image合成了1.5万个包含3-4个输入图像的样本。

在第二阶段的区分训练中，研究团队创造性地构建了2万个多候选数据。这些数据通过图像编辑技术生成：首先使用Qwen-Image-Edit-2509向单候选图像添加额外的对象，创建多候选图像；然后根据编辑前后的变化调整相应的文本描述。这种方法既保证了数据的质量，又大大降低了数据收集的成本。

六、技术优势与局限性分析

Scone相比现有方法具有几个显著优势。首先是端到端的统一优化。不同于使用外部理解模块的方法，Scone的理解专家和生成专家在同一个架构中进行联合训练，能够更好地适应下游任务的具体需求。这就像一个乐队中的各个乐手经过长期合练，彼此配合更加默契。

其次是高效性。Scone不需要额外的参数或模块，所有的改进都是通过训练策略和注意力机制的优化实现的。这意味着在推理时，Scone的计算开销与基础模型基本相当，不会带来额外的延迟或资源消耗。

第三是可解释性。语义掩码提供了一种直观的方式来理解系统的决策过程。用户可以通过观察掩码的分布来了解系统关注的区域，这对于调试和优化非常有帮助。

然而，Scone也存在一些局限性。研究团队诚实地指出，他们的系统仍然存在"不现实交互"的问题。比如在一个测试案例中，生成的图像显示狗穿过了椅子，违反了物理定律。这个问题在现有的图像生成系统中普遍存在，需要后续的研究来解决。

另一个局限是对复杂空间关系的处理能力有待提升。当指令涉及精确的空间定位或复杂的物体交互时，系统有时会产生不合理的布局。这反映了当前AI系统在三维空间理解方面的共同短板。

此外，虽然Scone在开源模型中表现最佳，但与最先进的闭源商业模型相比仍有差距。这主要是由于训练数据规模、计算资源和模型架构方面的限制。不过考虑到开源模型的透明性和可定制性优势，这个差距是可以接受的。

七、未来展望与实际应用

Scone的成功为AI绘画领域指出了一个重要的发展方向：统一理解与生成的协同优化。这种思路不仅适用于图像生成，也可能推广到视频生成、3D模型创建等其他创意领域。

在实际应用方面，Scone的技术可以显著改善现有的AI绘画工具。设计师在使用AI助手时，经常遇到"AI理解不了我的具体要求"这样的困扰。Scone的区分能力可以让AI更精准地理解用户意图，减少反复修改的成本。

对于内容创作者来说，这项技术意味着可以更高效地创作复杂场景的插画。比如在制作儿童绘本时，创作者可以准确地指定每个角色的位置和动作，而不用担心AI会搞混不同的角色。

在电商领域，这种精准的对象识别和生成能力可以用于商品图像的自动化处理。商家可以轻松地将特定商品放置在不同的场景中，生成各种宣传素材，而不需要重新拍摄。

研究团队也指出了未来的改进方向。他们计划开发更高效的机制来减少冗余的图像token，使系统能够处理更大规模、更复杂的场景。同时，他们也在探索如何更好地处理物理约束，让生成的图像更加符合现实世界的规律。

另一个有趣的发展方向是个性化定制。未来的系统可能能够学习特定用户的偏好和表达习惯，提供更加个性化的图像生成服务。这就像培养一个专属的艺术助手，随着时间的推移越来越了解主人的需求。

总的来说，Scone代表了AI绘画技术的一个重要进步。它不仅解决了现有技术的一个关键痛点，也为未来的发展奠定了良好的基础。随着相关技术的不断成熟，我们有理由相信，AI将成为人类创意表达的更好伙伴，而不仅仅是一个简单的工具。

研究团队已经将Scone的模型、基准测试和训练数据开源，这将有助于整个学术界和产业界的进一步发展。开源的做法体现了科学研究的开放精神，也为其他研究者提供了宝贵的基础资源。相信在不久的将来，我们会看到更多基于这项工作的创新应用和技术突破。

Q&A

Q1：Scone是什么？

A：Scone是北京大学团队开发的一个AI绘画系统，它的核心能力是在复杂图像中准确识别用户指定的目标对象，然后精确地生成相关画面。比如在包含多只狗的照片中，用户说"画出左边那只小狗"，Scone能准确识别并只画出指定的那只狗。

Q2：Scone解决了AI绘画的什么问题？

A：Scone主要解决了现有AI绘画工具的"选择困难症"问题。以往的AI在面对包含多个相似对象的复杂图像时，经常出现画错对象、画多了对象或者干脆不画的情况。Scone通过"理解桥梁"技术，让AI能像人类一样准确理解和执行复杂的绘画指令。

Q3：普通人怎么使用Scone技术？

A：目前Scone还是研究阶段的技术，研究团队已经将相关代码和数据开源。未来这项技术可能会集成到各种AI绘画工具中，让用户在使用AI创作时能够更精准地控制画面内容，特别是在需要从复杂场景中选择特定对象进行创作的场景下。

北大突破AI绘画难题：让机器像人一样精准识别和创作多主体图像

光储并网直流微电网仿真模型设计与实现

企业流程优化必备：SIPOC流程图揭秘

python（爬虫selenium）

Vue3利用ResizeObserver监听Textarea的尺寸动态调整表格tbody的maxHeight

命令执行绕过

大神优化 PDF工具箱神器，强烈推荐