news 2026/6/9 16:25:26

新型图像与视频生成模型技术详解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
新型图像与视频生成模型技术详解

新型图像与视频生成模型

两个新模型使用扩散Transformer技术来生成工作室质量的视觉内容。

在昨日举行的某中心年度re:Invent大会上,首席执行官宣布推出Nova系列模型,这是新一代最先进的、提供前沿智能和行业领先性价比的基础模型。Nova系列模型包括为满足不同延迟、成本和精度需求而设计的三种不同规格的理解模型。同时,也宣布了两个新的创意内容生成模型,能够根据输入的文本提示和图像生成工作室质量的图像和视频。

模型功能概览

一个模型能够实现广泛的实用功能,包括:

  • 文生图:输入文本提示,生成新图像。
  • 图像编辑:包括修复(添加视觉元素)、扩展修复(移除视觉元素)、通过文本提示自动编辑以及背景移除。
  • 图像变体:输入一到五张图像和一个可选的文本提示,模型会生成一张保留输入图像内容但改变其风格和背景的新图像。
  • 图像条件生成:输入参考图像和文本提示,模型生成的图像在布局和构图上遵循参考图像,但在内容上遵循文本提示。
  • 色彩引导内容生成:提供一个包含一到十个十六进制颜色代码的列表以及文本提示,生成的图像将融合规定的调色板。

另一个模型支持两个功能:(1)文本生成视频;(2)文本和图像生成视频。通过这两个功能,生成的视频分辨率为1280 x 720,每秒24帧,持续时间为6秒。

模型架构

两个模型都是具有Transformer骨干网络的潜在扩散模型,即扩散Transformer。扩散模型经过训练,能够迭代地去噪一个被逐步添加更多噪声的样本,而潜在扩散模型则是在表示空间中进行去噪。

主要组件包括:

  • 一个变分自编码器,将原始像素映射为视觉标记,反之亦然。VAE经过训练,输出与其接收的输入相同的数据,但中间有一个瓶颈,迫使它们产生低维的潜在表示。
  • 一个文本编码器
  • 一个基于Transformer的去噪网络

从文本输入生成图像/视频的推理过程如下:

  1. 文本编码器将输入文本转换为一系列文本标记。
  2. 以文本标记为引导,去噪网络迭代地从一组随机初始化的视觉标记中去除噪声,得到无噪声的视觉标记。
  3. VAE解码器将无噪声的视觉标记转换为彩色图像/视频帧。

在训练期间,从训练数据集中采样图像-文本或视频-文本对,扩散Transformer学习将视觉信号与其配对的文本描述关联起来。这使得模型在推理时能够使用自然语言来指导视觉信号的合成。

具体来说,在训练过程中,VAE编码器将输入的视觉信号映射为视觉标记,文本编码器将提示转换为文本标记。根据预定义的噪声调度器,在不同的采样时间步向视觉标记人工添加噪声。然后,以文本标记为条件,训练去噪网络来预测每个时间步注入视觉标记的噪声量。

训练与优化

训练

两个模型的训练过程都分为两个阶段:预训练和微调。预训练建立一个在通用任务上表现出高性能的基础模型,微调则进一步提高了模型在视觉质量、图文和视频-文本对齐方面的性能,尤其是在高兴趣领域。

推理

运行时优化对两个模型都至关重要,因为大型扩散Transformer的迭代推理过程对计算资源有很高的要求。采用了多种技术来提高推理效率,包括提前编译、多GPU推理、模型蒸馏以及一种更高效的采样策略,该策略仅在必要时密集采样解轨迹。这些优化技术经过审慎选择并根据每个模型的具体要求进行调整,从而实现更快、更高效的推理。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 9:16:08

数据预处理与特征工程

目录 数据预处理的目的 常见数据预处理方法 实际应用注意事项 数据抽样的定义 常见的抽样方法 抽样误差与控制 样本量计算 实施步骤 工具与代码示例 注意事项 数据标准化的定义 Z-score标准化 Min-Max标准化 归一化的定义 L2归一化 小数缩放 标准化与归一化的…

作者头像 李华
网站建设 2026/6/10 9:19:23

wpf 怎么设置Border是屏幕宽度的50%

wpf 怎么设置Border是屏幕宽度的50% <Grid><Grid.ColumnDefinitions><ColumnDefinition Width"1*"/><ColumnDefinition Width"1*"/></Grid.ColumnDefinitions><!--推荐套餐--><Border Grid.Column"0"…

作者头像 李华
网站建设 2026/6/10 3:08:52

还在用无真实参考文献的AI写论文?8款AIGC率低至5%工具推荐!

还在为论文熬夜到凌晨&#xff0c;却发现AI生成的内容漏洞百出&#xff1f; 还在手动拼凑参考文献&#xff0c;却被导师一句“来源不实”打回原形&#xff1f; 还在为动辄30%、40%的AI检测率而提心吊胆&#xff0c;感觉努力全白费&#xff1f; 如果你对以上任何一个问题疯狂点头…

作者头像 李华
网站建设 2026/6/10 9:27:08

LobeChat能否实现AI炼金术士?古代化学知识与现代科学对照

LobeChat能否实现AI炼金术士&#xff1f;古代化学知识与现代科学对照 在人类探索自然的漫长历史中&#xff0c;炼金术曾是一种既神秘又充满哲思的实践。它不只是试图“点石成金”的荒诞幻想&#xff0c;更承载着古人对物质本质、宇宙秩序和生命转化的深刻追问。如今&#xff0c…

作者头像 李华
网站建设 2026/6/10 10:53:44

大模型Token按需购买:YOLO用户的福音

大模型Token按需购买&#xff1a;YOLO用户的福音 在智能制造车间的质检线上&#xff0c;一台AOI设备每秒拍摄数十张PCB板图像&#xff0c;传统部署模式下必须全天候运行昂贵的GPU服务器——即使夜间停工也照常计费。而在另一端&#xff0c;一家初创安防公司想用目标检测做智能监…

作者头像 李华
网站建设 2026/6/10 10:53:18

大模型Token机制在YOLO训练中的潜在价值

大模型Token机制在YOLO训练中的潜在价值 在工业质检线上&#xff0c;一台视觉检测设备正高速运行——摄像头每秒捕捉数十帧图像&#xff0c;系统需要实时判断产品是否存在划痕、缺件或装配错误。传统YOLO模型能快速框出异常区域&#xff0c;但面对“轻微磨损是否算缺陷”这类模…

作者头像 李华