news 2026/5/5 7:22:22

【Hung-yi Lee】《Introduction to Generative Artificial Intelligence》(12)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【Hung-yi Lee】《Introduction to Generative Artificial Intelligence》(12)

Introduction to Generative AI 2024 Spring

文章目录

  • 第17講:有關影像的生成式AI (上) — AI 如何產生圖片和影片 (Sora 背後可能用的原理)(24.05.31)
    • video or image to content
    • condition to video/image
    • talking head
    • LAION datasets
    • Textual Inversion
    • Pseudo-3D Attention
    • Imagen Video
  • 参考

第17講:有關影像的生成式AI (上) — AI 如何產生圖片和影片 (Sora 背後可能用的原理)(24.05.31)

video or image to content

与影像有关的生成式 AI

  • 基于 image or video 生成文字,eg:看图说话
  • 基于 condition 生成 image or video,eg:文生图

上面展示的是图片生成文字

Q1:你觉得哪一张图片中的人比较帅

Q2:猜猜看他们分别从事什么职业

Q3:你一定要决定谁比较帅

就是个人精,说话非常精明,哈哈哈哈


condition to video/image

再看看基于 condition 生成,eg:文字生影像

最近比较火的 sora 就是

来看几个例子

下面是 prompt,选了两段现实生活中不会出现的场景 demo(没有被 train 过的概率更大)

看看有瑕疵的生成

eg1:生成五只狼的幼崽(1~2 复制成多个)

eg2:生成考古学家发掘出来一把椅子(变形出来的,跑了)


影像也可以生成影像

eg:续写(扩写),风格转化(修复),画质提升


talking head

其它输入生成影像

talking head,eg:输入声音+图片,输出图片中的人会说出输入的声音(口型一致)

  • 🎥 传统媒体:一直在镜头前说话的人

  • 🤖AI/计算机视觉:让脸“开口说话”的生成技术
    常见技术方向包括:

    • 唇形同步(lip sync)
    • 头像动画生成
    • deepfake 类人脸驱动
  • 😏 评价语境:只会复读的“传话筒”,“just a talking head”,“只会照本宣科的人,没有独立观点/深度”

用各式各样的 condition 来生成图片,eg:草图、深度图、轮廓、分割标签、关键点等


图片是由像素所构成

影片是由一张一张图片所构成

视频 24 fps 比较流畅,1 fps 就是幻灯片,看不了

游戏 60 fps 可能才会觉得丝滑、流畅

今日的人工智慧如何看影响,encoder->decoder,

image->patch-> embedding(flatten)

video 的话,时间上也可以进一步压缩,不止空间上(patch)

sora 也用了类似技术,压缩为 patch -> flatten


LAION datasets

文字生图为例,训练资料为图片+对应的文字

LAION 文生图数据集,58 亿张图

本质上是目前最重要的“互联网级图文对齐训练数据之一”,是很多文生图模型(比如 Stable Diffusion)背后的核心燃料。

图片本身:

  • 不一定存储在 LAION
  • 多数是 URL(需要再下载)

alt text 不准的本质是:它是“网页可用性字段”,不是“语义标注字段”(“设计初衷”就不是 AI 数据),再加上互联网内容天然混乱 + 自动生成 + SEO污染,导致质量严重不稳定。


patch 接龙,eg:autoregressive 方法

patch 接龙,eg:non-autoregressive 方法

如何评量影像生成的好坏?

用 CLIP 模型,图片和文字正确的配对给高分,不正确的配对给低分

可以用 CLIP 模型的能力来评估生成图片的好坏,CLIP score

一张图胜过千言万语,有时候图片的内容无法用文字准确的描述,eg:上面的钟

prompt 怎么写,也太好还原其样子(左边是生成的)


Textual Inversion

基于此,可以玩一个个性化的图像生成

用一个符号表示一张图片,eg 上面用 S* 符号表示磨具

Textual Inversion,AI 可以生成油画版、图标版、elmo 版、针织版 S*

上图展示的是AI领域中一种被称为个性化(Personalization)特定主体生成(Subject-Driven Generation)的技术。更具体地说,是Textual Inversion(文本倒置)技术。

第一步:“教” AI 一个新的概念 (左侧部分)

  • 输入样本 (Input Samples):左侧有四张图片,展示的是同一个特定的物品——一个绿色的、盘腿坐姿的无头雕塑。这是用户希望AI“记住”的特定对象。
  • 反演 (Invert):这是一个关键的训练过程。AI并不需要重新学习整个模型,而是通过算法“逆向工程”,找到一个特定的文本嵌入向量(Embedding),这个向量能够最好地代表这四张图片中的主体特征。
  • 特殊符号 “S ∗ S_*S:这个训练出来的特定向量被赋予一个特殊的符号(通常是一个不常用的单词,这里用S ∗ S_*S表示)。此时,AI已经学会了:只要我在提示词中输入 “S ∗ S_*S”,指的就是这个绿色的盘腿雕塑。

第二步:“用” 这个新概念生成各种图片 (右侧部分)

一旦AI学会了 “S ∗ S_*S” 代表什么,用户就可以在提示词中任意组合这个符号,生成该主体在不同风格、语境下的图片,同时保持主体的特征不变。

图片展示了四个例子:

  1. 左上:风格转换。

    • 提示词:“An oil painting ofS ∗ S_*S”(一幅S ∗ S_*S的油画)。
    • 结果:AI生成了一幅油画,画中的主体正是那个绿色的盘腿雕塑,但材质和画风变成了油画。
  2. 右上:形式转换/图标化。

    • 提示词:“App icon ofS ∗ S_*S”(S ∗ S_*S的应用图标)。
    • 结果:AI保留了盘腿雕塑的轮廓特征,将其设计成了扁平化、简约风格的APP图标。
  3. 左下:跨物种/动作对齐。

    • 提示词:“Elmo sitting in the same pose asS ∗ S_*S”(艾摩以和S ∗ S_*S相同的姿势坐着)。
    • 结果:这是一个高级用法。AI没有生成绿雕塑,而是生成了艾摩(Elmo),但让艾摩做出了S ∗ S_*S标志性的盘腿坐姿。
  4. 右下:材质转换。

    • 提示词:“CrochetS ∗ S_*S”(钩针编织的S ∗ S_*S)。
    • 结果:AI生成了一个毛线编织的物品,其形状、颜色和坐姿完全还原了原始雕塑,但材质变为了钩针编织物。

这张图片完美地诠释了如何让AI通过极少量的样本(4张图)学习一个特定、少见的主体概念,并通过一个特殊的文字符号(“S ∗ S_*S”)在后续的文字生成图片过程中自由调用,极大地提升了AI在个性化创作和产品展示等方面的实用性


Pseudo-3D Attention

文字生成影片的挑战:

一分钟的影片,1440x64x64 = 5,898,240(~600W)个patch

attention 每个 patch 互连,600W x 600W = 36万亿 = 36,000,000,000,000

运算量太大了


加速 attention,

frame 左上角真的有必要和右下角计算 attention 吗?每个 patch 都有必要计算 attention

既考虑时间的 attention,又考虑空间的attention,叫 spatial-temporal-attention(3D)

不考虑 frame 之间的,只考虑单 frame 的,spatial attention(2D)

只考虑时间的 attention,temporal attention(1D)

可以空间 2D + 时间上的 1D 构成伪 3D

上图展示了在处理视频(Video)等时序数据时常用的一种伪 3D 注意力(Pseudo-3D Attention)机制。它的核心思想是将复杂的 3D 时空建模分解为两个更简单的 1D 和 2D 步骤,以降低计算量。

以下是该图各部分的详细解析:

1. 核心架构:时空解耦

图中的“伪 3D”(Pseudo-3D 或 Divided Space-Time Attention)是指不直接在一个三维空间内计算注意力,而是分两步走:

  • Spatial Attention (2D) - 空间注意力
    • 作用对象:在单帧图像内进行。
    • 原理:模型只关注同一时间点(同一帧)内不同像素块(Patches)之间的关系。它学习的是每一帧里的物体长什么样、在哪里。
  • Temporal Attention (1D) - 时间/时序注意力
    • 作用对象:在不同帧之间进行。
    • 原理:在提取了空间特征后,模型关注同一个位置(或相关位置)在不同时间(frame 1, frame 2, frame 3)的变化。它学习的是物体的运动轨迹和动作逻辑。

2. 为什么叫“伪” 3D?

在标准的 3D Attention(或 3D CNN)中,模型会同时计算所有像素在所有时间点的相互关系,计算复杂度是指数级增长的(O ( ( T × H × W ) 2 ) O((T \times H \times W)^2)O((T×H×W)2))。

伪 3D 的优势在于:

  1. 效率高:通过先算空间再算时间,将T × S T \times ST×S的复杂度拆分为T + S T + ST+S,大大节省了显存和计算时间。
  2. 易于训练:可以先用静态图片预训练空间部分,再在视频数据上微调时间部分。

这张图描绘了 Transformer 如何高效地“看”视频:先看清每一帧画面里有什么(Spatial),再串联起来看它们是怎么动的(Temporal)。这在目前的视频生成(如 Sora 的底层架构)或动作识别模型中非常常见。


3D attention,36 万亿 的运算,2D attention 只需要约 240 亿,1D attention 只需要约 85 亿运算,计算量复杂度下降了千倍

也可以分步骤,一步一步生成,每一步用小模型负责简单的功能,可以更好更快的生成想要的结果

eg:调高分辨率、调高帧数


Imagen Video

这张图片展示了 Google 提出的Imagen Video模型架构,它是一个典型的**级联扩散模型(Cascaded Diffusion Models)**流水线。

这种设计的核心逻辑是:“先求有,再求好”——先生成低分辨率、低帧率的粗糙视频,再通过一系列超分辨率模型逐步提升画质和流畅度。

以下是具体的步骤解读:

1. 文本理解阶段

  • Input Text Prompt: 用户输入的文本描述。
  • T5-XXL (4.6B): 使用预训练的 T5-XXL 语言模型作为编码器,将文字转换为高维向量。大参数量(4.6B)保证了模型能深刻理解复杂的语义指令。

2. 基础视频生成 (Base Model)

  • Base (5.6B): 这是流水线的起点。
  • 输出: 生成一个分辨率仅为16 × 40 × 24 16 \times 40 \times 2416×40×24T × H × W T \times H \times WT×H×W)、帧率为3fps的极低画质视频。
  • 目的: 确定视频的整体构图、主旨和大致动作,虽然模糊,但建立了内容的基调。

3. 时空交替提升 (TSR & SSR)

接下来的环节通过两种模型交替迭代:

  • TSR (Temporal Super-Resolution) - 时间超分辨率:
    • 作用: 增加视频的帧率(即增加中间帧,让动作更丝滑)。
    • 示例: 从 3fps 提升到 6fps,再到 12fps,最后达到24fps
  • SSR (Spatial Super-Resolution) - 空间超分辨率:
    • 作用: 增加每一帧图像的分辨率(即让画面更清晰、细节更丰富)。
    • 示例: 分辨率从最初的40 × 24 40 \times 2440×24逐步增加到中间的320 × 192 320 \times 192320×192,最后达到1280 × 768 1280 \times 7681280×768

4. 关键数据流路径

图片中展示了一个循环递进的过程:

  1. 初始生成: 极小尺寸视频。
  2. 第一轮增强: 经过 SSR(1.4B)和 SSR(1.2B)提升清晰度。
  3. 时序插帧: 经过 TSR(780M)和 TSR(630M)将视频拉长,增加流畅度。
  4. 最终成片: 最后一级SSR (340M)将视频提升至高清分辨率 (1280x768)且保持24fps的电影级帧率。


总结:Imagen Video 的成功在于它将“文字生视频”这一高难度任务拆解成了多个子任务。与其一次性生成高清长视频(计算量巨大且极难收敛),不如通过多个专门优化的模型进行级联。这种**“金字塔式”**的生成策略是目前主流视频生成(包括后续的很多架构)的重要基石。


参考

  • https://speech.ee.ntu.edu.tw/~hylee/genai/2024-spring.php
  • https://www.bilibili.com/video/BV18fXbY6Eis/?spm_id_from=333.1387.homepage.video_card.click&vd_source=8e91f8e604278558ec015e749d1a3719
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/5 7:21:10

单片机 Flash:不掉电的隐形笔记本

一、单片机的“不掉电笔记本”嵌入式Flash就是焊在单片机(MCU)里的一小块非易失存储器。你写好的程序(固件)、设备的序列号、校准参数、运行日志,全放在里面。一旦断电,它不会忘事;重新上电&…

作者头像 李华
网站建设 2026/5/5 7:21:08

连通性问题及练习题详解

前言 额虽然说这玩意要加topu&#xff0c;但是两个根本不是同一个lever啊&#xff01; 强连通分量&缩点 求强连通分量有多种方法&#xff0c;这里普及一下tarjan。 先放B3609 [图论与代数结构 701] 强连通分量代码&#xff1a; #include<bits/stdc.h> #define N…

作者头像 李华
网站建设 2026/5/5 7:21:07

SDF-Net:跨模态船舶重识别技术解析与应用

1. 项目背景与核心挑战船舶重识别技术是海事监管和海洋态势感知的关键环节。传统基于单一光学图像的识别方法在云层遮挡、夜间或恶劣天气条件下性能急剧下降。合成孔径雷达(SAR)具有全天候成像能力&#xff0c;但成像机理与光学差异显著&#xff0c;导致跨模态匹配成为业界难题…

作者头像 李华
网站建设 2026/5/5 7:20:27

爱授权系统V3.0免授权版 支持插件和插件商城

内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示三、学习资料下载一、详细介绍 已去授权&#xff0c;不要点在线更新 是SG15加密&#xff0c;宝塔自行安装组件 图片在下图 有远程广告api&#xff0c;插件商城api 上面这两个非常使用 可以在自己源码里面进行引用 二、…

作者头像 李华
网站建设 2026/5/5 7:18:27

Java 21 中的向量 API:开启高性能计算新篇章

Java 21 中的向量 API&#xff1a;开启高性能计算新篇章 在 Java 的发展历程中&#xff0c;不断有新的特性被引入以提升其性能和适应多样化的计算需求。Java 21 带来的向量 API 便是其中一项引人瞩目的技术&#xff0c;它为开发者在处理数值计算密集型任务时提供了新的思路和工…

作者头像 李华