news 2026/4/18 12:03:47

AI生成图片视频(扩散模型)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI生成图片视频(扩散模型)

AI 生成原理:从噪点到杰作

核心概念速览:

想象你面前有一块充满杂乱雪花点的屏幕(就像老式电视没信号那样),AI 的工作就是从这堆混乱中,像雕刻家凿去多余石头一样,一点点“凿”出你想要的画面。


1. 原理基础:扩散模型 (Diffusion Model)

要理解AI怎么生成图片,首先要理解两个过程:“破坏”与“重建”

Phase 1: 前向扩散 (Forward Diffusion) —— 有序变无序

想象一副清晰的《蒙娜丽莎》画像。

  1. 我们往上面撒一小把沙子(加入噪点/Noise),画变得稍微模糊了一点。
  2. 我们继续撒沙子,一遍又一遍。
  3. 最终结果:整幅画完全被沙子覆盖,变成了一片灰色的混沌(高斯噪声),完全看不出原来的样子。

这个过程就像是大自然的熵增,把有序的信息变成了无序的噪音。

Phase 2: 反向扩散 (Reverse Diffusion) —— AI 的魔法

AI 的训练目标,就是学会逆转上面的过程。

  • 任务:给AI看那堆完全混乱的沙子(纯噪声),让它猜:“在撒这把沙子之前,画面长什么样?”
  • 难度:如果是人类,面对一片雪花点根本无法还原。但AI通过学习数十亿张图片,记住了像素之间的概率关系。

💡 生动比喻:修复师与充满雾气的玻璃

想象你在浴室洗澡,镜子上全是雾气(噪声)。

AI 就像一个拥有透视眼的修复师。它看着雾气,心里想:“这里大概是轮廓,那里大概是眼睛。”

它伸手擦掉了一层薄薄的雾(去噪)。

画面清晰了一点点,它更有信心了:“哦,原来这是一只猫!”

于是它继续擦,直到整只猫清晰地显露出来。


2. 核心机制:逐步去噪 (Iterative Denoising)

AI 并不是“砰”的一下就把图变出来的,而是一步步来的。这叫马尔可夫链 (Markov Chain)

它是如何工作的?

  1. 输入:你给AI一个提示词(Prompt),比如“一只戴墨镜的赛博朋克猫”。
  2. 起步:AI 生成一张完全由随机噪点构成的图片(Tensor)。
  3. 预测噪声:AI 的大脑(通常是一个叫U-Net的神经网络)观察这张噪点图和你的提示词,计算出图里哪些部分是噪点
  4. 减去噪声:它从图里减去它预测出的那部分噪点。
  5. 循环:现在的图比刚才清晰了一点点(比如从纯灰变成了模糊的色块)。AI 再次观察,再次预测剩余的噪点,再次减去。
  6. 完成:重复这个过程几十次(Steps),直到得到清晰的图像。

🔍 关键点:AI 实际上是在预测“噪声”,而不是直接预测“图像”。

公式简化理解:当前图像 - 预测的噪声 = 更清晰的图像


3. 听懂人话:CLIP 与引导

AI 怎么知道要从噪点里画出“猫”而不是“狗”?这里需要一个翻译官。

  • 文本编码器 (Text Encoder / CLIP):

    当你输入“Cyberpunk Cat”时,CLIP 把这些文字转换成计算机能懂的数学向量 (Embeddings)。

  • 注意力机制 (Cross-Attention):

    在去噪的过程中,U-Net 会不断地“回头看”这些数学向量。

    • AI 内心独白:“这块噪点看起来像耳朵,但提示词里有‘Cyberpunk’,所以我应该把它去噪成金属质感的耳朵,而不是毛茸茸的耳朵。”

4. 进阶:潜在空间 (Latent Space) —— 为什么它这么快?

如果直接对一张 1024x1024 的高清图(百万像素)进行逐个像素的去噪,计算量大到显卡会爆炸。

解决方案:潜在扩散模型 (Latent Diffusion Model, LDM)

  • 压缩 (VAE Encoder):先把高清图压缩成一张很小的“缩略图”(比如 64x64),这个小图虽然人类看不懂,但保留了所有核心特征。这叫潜在空间 (Latent Space)
  • 在小图上作画:AI 所有的去噪工作都在这个极小的“潜在空间”里进行,速度飞快。
  • 解压 (VAE Decoder):画完后,再用解码器把这个小图“放大”回高清像素空间。

💡 比喻:

就像你想画一幅巨型壁画。你不会直接在墙上画。你会先在草稿纸(潜在空间)上快速修改、涂抹。等草稿定稿了,再用投影仪把它放大(Decode)到墙上描边上色。


5. 视频生成:给图片加上“时间轴”

视频本质上是连续的图片。但如果你只是让 AI 连续生成 24 张“猫”的图片,你会发现每张图里的猫长得都不一样,背景也在乱跳(闪烁问题)。

AI 视频生成(如 Sora)主要解决了一致性 (Consistency)问题。

核心技术点:

  1. 3D 卷积 / 3D U-Net
    • 图片生成处理的是长 x 宽(2D)。
    • 视频生成处理的是长 x 宽 x 时间(3D)。
    • AI 不再是一张张画,而是把一段视频看作一个长方体冰块,它在这个冰块里同时雕刻出所有帧。
  2. 时间注意力机制 (Temporal Attention)
    • 当 AI 生成第 5 帧的时候,它会“看”一眼第 4 帧和第 6 帧。
    • 它要确保第 5 帧里的猫的动作,能和前后连贯起来。
    • 这就像做翻页动画,画下一页时必须透写上一页的线条,才能保证动作流畅。

📝 总结

步骤核心动作形象理解
Step 1文本编码把你的话翻译成 AI 听得懂的数学指令。
Step 2随机噪声准备一块充满了电视雪花点的画布。
Step 3反向扩散(最关键)AI 根据指令,一轮轮预测并减去噪点。
Step 4潜在解码把处理好的“压缩草稿”放大成高清美图。
Step 5时序一致(视频专用) 确保每一帧之间动作连贯,不闪烁。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 7:54:41

探索小型语言模型边界:VibeThinker-1.5B实验性发布说明

探索小型语言模型的极限:VibeThinker-1.5B 实验性发布深度解析 在当前大模型军备竞赛愈演愈烈的背景下,参数规模动辄数百亿、上千亿,训练成本动辄百万美元起步,AI技术似乎正变得越来越“贵族化”。然而,就在这种“越大…

作者头像 李华
网站建设 2026/4/18 8:31:25

KiCad布线技巧与规则设置深度剖析

如何用KiCad搞定复杂PCB设计?从布线技巧到规则驱动的实战全解你有没有遇到过这样的情况:花了一周时间精心布完一块板子,结果DRC报出上百条错误;或者产品打样回来后USB通信总是丢包,查来查去发现是差分对长度差了1毫米多…

作者头像 李华
网站建设 2026/4/18 5:37:36

你真的会用Docker Compose吗?:深入剖析多容器启动顺序与依赖管理

第一章:Docker Compose多容器运行的核心挑战在现代微服务架构中,使用 Docker Compose 管理多个相互依赖的容器已成为标准实践。然而,随着服务数量和复杂度的增加,多容器协同运行面临诸多挑战,包括网络通信、启动顺序、…

作者头像 李华
网站建设 2026/4/18 7:55:35

从探测到提权:渗透测试全流程实战拆解(附模拟攻击深度案例)

渗透测试是网络安全领域的核心技术之一,本质是在合法授权范围内,模拟黑客的攻击路径与手法,对目标系统、网络或应用进行安全性评估,最终发现潜在漏洞并输出可落地的整改方案。其标准流程遵循“准备-收集-探测-利用-提权-清理-报告…

作者头像 李华
网站建设 2026/4/18 11:56:20

Docker轻量化部署在边缘场景的3大挑战:如何实现资源利用率提升80%?

第一章:Docker轻量化部署在边缘场景的挑战与机遇随着物联网和5G技术的快速发展,边缘计算成为支撑低延迟、高响应服务的关键架构。在这一背景下,Docker凭借其轻量级容器化特性,被广泛应用于边缘设备的部署中,实现了应用…

作者头像 李华