【Hung-yi Lee】《Introduction to Generative Artificial Intelligence》（12）-程序员充电站

Introduction to Generative AI 2024 Spring

文章目录

第17講：有關影像的生成式AI (上) — AI 如何產生圖片和影片 (Sora 背後可能用的原理)（24.05.31）
- video or image to content
- condition to video/image
- talking head
- LAION datasets
- Textual Inversion
- Pseudo-3D Attention
- Imagen Video
参考

第17講：有關影像的生成式AI (上) — AI 如何產生圖片和影片 (Sora 背後可能用的原理)（24.05.31）

video or image to content

与影像有关的生成式 AI

基于 image or video 生成文字，eg：看图说话
基于 condition 生成 image or video，eg：文生图

上面展示的是图片生成文字

Q1：你觉得哪一张图片中的人比较帅

Q2：猜猜看他们分别从事什么职业

Q3：你一定要决定谁比较帅

就是个人精，说话非常精明，哈哈哈哈

condition to video/image

再看看基于 condition 生成，eg：文字生影像

最近比较火的 sora 就是

来看几个例子

下面是 prompt，选了两段现实生活中不会出现的场景 demo（没有被 train 过的概率更大）

看看有瑕疵的生成

eg1：生成五只狼的幼崽（1~2 复制成多个）

eg2：生成考古学家发掘出来一把椅子（变形出来的，跑了）

影像也可以生成影像

eg：续写（扩写），风格转化（修复），画质提升

talking head

其它输入生成影像

talking head，eg：输入声音+图片，输出图片中的人会说出输入的声音（口型一致）

🎥 传统媒体：一直在镜头前说话的人
🤖AI/计算机视觉：让脸“开口说话”的生成技术
常见技术方向包括：
- 唇形同步（lip sync）
- 头像动画生成
- deepfake 类人脸驱动
😏 评价语境：只会复读的“传话筒”，“just a talking head”，“只会照本宣科的人，没有独立观点/深度”

用各式各样的 condition 来生成图片，eg：草图、深度图、轮廓、分割标签、关键点等

图片是由像素所构成

影片是由一张一张图片所构成

视频 24 fps 比较流畅，1 fps 就是幻灯片，看不了

游戏 60 fps 可能才会觉得丝滑、流畅

今日的人工智慧如何看影响，encoder->decoder，

image->patch-> embedding（flatten）

video 的话，时间上也可以进一步压缩，不止空间上（patch）

sora 也用了类似技术，压缩为 patch -> flatten

LAION datasets

文字生图为例，训练资料为图片+对应的文字

LAION 文生图数据集，58 亿张图

本质上是目前最重要的“互联网级图文对齐训练数据之一”，是很多文生图模型（比如 Stable Diffusion）背后的核心燃料。

图片本身：

不一定存储在 LAION
多数是 URL（需要再下载）

alt text 不准的本质是：它是“网页可用性字段”，不是“语义标注字段”（“设计初衷”就不是 AI 数据），再加上互联网内容天然混乱 + 自动生成 + SEO污染，导致质量严重不稳定。

patch 接龙，eg：autoregressive 方法

patch 接龙，eg：non-autoregressive 方法

如何评量影像生成的好坏？

用 CLIP 模型，图片和文字正确的配对给高分，不正确的配对给低分

可以用 CLIP 模型的能力来评估生成图片的好坏，CLIP score

一张图胜过千言万语，有时候图片的内容无法用文字准确的描述，eg：上面的钟

prompt 怎么写，也太好还原其样子（左边是生成的）

Textual Inversion

基于此，可以玩一个个性化的图像生成

用一个符号表示一张图片，eg 上面用 S* 符号表示磨具

Textual Inversion，AI 可以生成油画版、图标版、elmo 版、针织版 S*

上图展示的是AI领域中一种被称为个性化（Personalization）或特定主体生成（Subject-Driven Generation）的技术。更具体地说，是Textual Inversion（文本倒置）技术。

第一步：“教” AI 一个新的概念 (左侧部分)

输入样本 (Input Samples)：左侧有四张图片，展示的是同一个特定的物品——一个绿色的、盘腿坐姿的无头雕塑。这是用户希望AI“记住”的特定对象。
反演 (Invert)：这是一个关键的训练过程。AI并不需要重新学习整个模型，而是通过算法“逆向工程”，找到一个特定的文本嵌入向量（Embedding），这个向量能够最好地代表这四张图片中的主体特征。
特殊符号 “S ∗ S_*S∗”：这个训练出来的特定向量被赋予一个特殊的符号（通常是一个不常用的单词，这里用S ∗ S_*S∗表示）。此时，AI已经学会了：只要我在提示词中输入 “S ∗ S_*S∗”，指的就是这个绿色的盘腿雕塑。

第二步：“用” 这个新概念生成各种图片 (右侧部分)

一旦AI学会了 “S ∗ S_*S∗” 代表什么，用户就可以在提示词中任意组合这个符号，生成该主体在不同风格、语境下的图片，同时保持主体的特征不变。

图片展示了四个例子：

左上：风格转换。
- 提示词：“An oil painting ofS ∗ S_*S∗”（一幅S ∗ S_*S∗的油画）。
- 结果：AI生成了一幅油画，画中的主体正是那个绿色的盘腿雕塑，但材质和画风变成了油画。
右上：形式转换/图标化。
- 提示词：“App icon ofS ∗ S_*S∗”（S ∗ S_*S∗的应用图标）。
- 结果：AI保留了盘腿雕塑的轮廓特征，将其设计成了扁平化、简约风格的APP图标。
左下：跨物种/动作对齐。
- 提示词：“Elmo sitting in the same pose asS ∗ S_*S∗”（艾摩以和S ∗ S_*S∗相同的姿势坐着）。
- 结果：这是一个高级用法。AI没有生成绿雕塑，而是生成了艾摩（Elmo），但让艾摩做出了S ∗ S_*S∗标志性的盘腿坐姿。
右下：材质转换。
- 提示词：“CrochetS ∗ S_*S∗”（钩针编织的S ∗ S_*S∗）。
- 结果：AI生成了一个毛线编织的物品，其形状、颜色和坐姿完全还原了原始雕塑，但材质变为了钩针编织物。

这张图片完美地诠释了如何让AI通过极少量的样本（4张图）学习一个特定、少见的主体概念，并通过一个特殊的文字符号（“S ∗ S_*S∗”）在后续的文字生成图片过程中自由调用，极大地提升了AI在个性化创作和产品展示等方面的实用性。

Pseudo-3D Attention

文字生成影片的挑战：

一分钟的影片，1440x64x64 = 5,898,240（~600W）个patch

attention 每个 patch 互连，600W x 600W = 36万亿 = 36,000,000,000,000

运算量太大了

加速 attention，

frame 左上角真的有必要和右下角计算 attention 吗？每个 patch 都有必要计算 attention

既考虑时间的 attention，又考虑空间的attention，叫 spatial-temporal-attention（3D）

不考虑 frame 之间的，只考虑单 frame 的，spatial attention（2D）

只考虑时间的 attention，temporal attention（1D）

可以空间 2D + 时间上的 1D 构成伪 3D

上图展示了在处理视频（Video）等时序数据时常用的一种伪 3D 注意力（Pseudo-3D Attention）机制。它的核心思想是将复杂的 3D 时空建模分解为两个更简单的 1D 和 2D 步骤，以降低计算量。

以下是该图各部分的详细解析：

1. 核心架构：时空解耦

图中的“伪 3D”（Pseudo-3D 或 Divided Space-Time Attention）是指不直接在一个三维空间内计算注意力，而是分两步走：

Spatial Attention (2D) - 空间注意力：
- 作用对象：在单帧图像内进行。
- 原理：模型只关注同一时间点（同一帧）内不同像素块（Patches）之间的关系。它学习的是每一帧里的物体长什么样、在哪里。
Temporal Attention (1D) - 时间/时序注意力：
- 作用对象：在不同帧之间进行。
- 原理：在提取了空间特征后，模型关注同一个位置（或相关位置）在不同时间（frame 1, frame 2, frame 3）的变化。它学习的是物体的运动轨迹和动作逻辑。

2. 为什么叫“伪” 3D？

在标准的 3D Attention（或 3D CNN）中，模型会同时计算所有像素在所有时间点的相互关系，计算复杂度是指数级增长的（O ( ( T × H × W ) 2 ) O((T \times H \times W)^2)O((T×H×W)2)）。

伪 3D 的优势在于：

效率高：通过先算空间再算时间，将T × S T \times ST×S的复杂度拆分为T + S T + ST+S，大大节省了显存和计算时间。
易于训练：可以先用静态图片预训练空间部分，再在视频数据上微调时间部分。

这张图描绘了 Transformer 如何高效地“看”视频：先看清每一帧画面里有什么（Spatial），再串联起来看它们是怎么动的（Temporal）。这在目前的视频生成（如 Sora 的底层架构）或动作识别模型中非常常见。

3D attention，36 万亿的运算，2D attention 只需要约 240 亿，1D attention 只需要约 85 亿运算，计算量复杂度下降了千倍

也可以分步骤，一步一步生成，每一步用小模型负责简单的功能，可以更好更快的生成想要的结果

eg：调高分辨率、调高帧数

Imagen Video

这张图片展示了 Google 提出的Imagen Video模型架构，它是一个典型的**级联扩散模型（Cascaded Diffusion Models）**流水线。

这种设计的核心逻辑是：“先求有，再求好”——先生成低分辨率、低帧率的粗糙视频，再通过一系列超分辨率模型逐步提升画质和流畅度。

以下是具体的步骤解读：

1. 文本理解阶段

Input Text Prompt: 用户输入的文本描述。
T5-XXL (4.6B): 使用预训练的 T5-XXL 语言模型作为编码器，将文字转换为高维向量。大参数量（4.6B）保证了模型能深刻理解复杂的语义指令。

2. 基础视频生成 (Base Model)

Base (5.6B): 这是流水线的起点。
输出: 生成一个分辨率仅为16 × 40 × 24 16 \times 40 \times 2416×40×24（T × H × W T \times H \times WT×H×W）、帧率为3fps的极低画质视频。
目的: 确定视频的整体构图、主旨和大致动作，虽然模糊，但建立了内容的基调。

3. 时空交替提升 (TSR & SSR)

接下来的环节通过两种模型交替迭代：

TSR (Temporal Super-Resolution) - 时间超分辨率:
- 作用: 增加视频的帧率（即增加中间帧，让动作更丝滑）。
- 示例: 从 3fps 提升到 6fps，再到 12fps，最后达到24fps。
SSR (Spatial Super-Resolution) - 空间超分辨率:
- 作用: 增加每一帧图像的分辨率（即让画面更清晰、细节更丰富）。
- 示例: 分辨率从最初的40 × 24 40 \times 2440×24逐步增加到中间的320 × 192 320 \times 192320×192，最后达到1280 × 768 1280 \times 7681280×768。

4. 关键数据流路径

图片中展示了一个循环递进的过程：

初始生成: 极小尺寸视频。
第一轮增强: 经过 SSR（1.4B）和 SSR（1.2B）提升清晰度。
时序插帧: 经过 TSR（780M）和 TSR（630M）将视频拉长，增加流畅度。
最终成片: 最后一级SSR (340M)将视频提升至高清分辨率 (1280x768)且保持24fps的电影级帧率。

总结：Imagen Video 的成功在于它将“文字生视频”这一高难度任务拆解成了多个子任务。与其一次性生成高清长视频（计算量巨大且极难收敛），不如通过多个专门优化的模型进行级联。这种**“金字塔式”**的生成策略是目前主流视频生成（包括后续的很多架构）的重要基石。

参考

https://speech.ee.ntu.edu.tw/~hylee/genai/2024-spring.php
https://www.bilibili.com/video/BV18fXbY6Eis/?spm_id_from=333.1387.homepage.video_card.click&vd_source=8e91f8e604278558ec015e749d1a3719