【愚公系列】《AI绘画：Stable Diffusion ComfyUl的艺术》001-AI绘画入门（AI绘画的发展）-程序员充电站

💎【行业认证·权威头衔】
✔ 华为云天团核心成员：特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯：CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋：横跨鸿蒙、云计算、AI等前沿领域的技术布道者

🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"（2022-2024）
🎖 双冠加冕CSDN"年度博客之星TOP2"（2022&2023）
🎖 十余个技术社区年度杰出贡献奖得主

📚【知识宝库】
覆盖全栈技术矩阵：
◾ 编程语言：.NET/Java/Python/Go/Node…
◾ 移动生态：HarmonyOS/iOS/Android/小程序
◾ 前沿领域：物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发：Unity3D引擎深度解析

文章目录

🚀前言
🚀一、AI绘画的发展：从SD到Flux的演进
- 🔎1.SDXL：一个模型，多种风格
- 🔎2.SD3.0：全新架构，理解更精准
- - 🦋【提示词模板与回答示例1】
  - 🦋【提示词模板与回答示例2】（测试方位与色彩理解）
  - 🦋【提示词模板与回答示例3】（文字生成能力）
- 🔎3.Kolors（可图）：中文用户的友好选择
- - 🦋【提示词模板与回答示例】
- 🔎4.Flux：新一代开源王者
- - 🦋【提示词模板与回答示例1】（手部处理）
  - 🦋【提示词模板与回答示例2】（文字生成能力）

🚀前言

2023年，以ChatGPT3.5的发布为标志,AIGC(Al生成内容）时代正式来临。在此背景下，AI绘画作为人工智能的一个重要分支，迅速引起了广泛关注和热议。它的发展对各个领域，特别是文化创意产业，产生了巨大的影响。

AI绘画是一种利用计算机技术和人工智能算法来生成或转换图像的艺术形式。它与传统的绘画有着本质的区别，当前的人工智能通过深度学习生成式神经网络，模拟生物神经网络的运作原理，其学习方法与人类相似。AI能够通过高效学习数亿甚至数百亿幅图像，将所学知识融会贯通，生成具有艺术价值的绘画作品。它得益于人类的启发，但其潜力却有可能超越人类。

🚀一、AI绘画的发展：从SD到Flux的演进

自2022年起，具备行业实用价值的AI绘画程序进入“百家争鸣”的黄金时代。主流工具包括DALL·E、Midjourney、Stable Diffusion（SD）、Adobe Firefly等。2022年8月，百度发布了国内首个文字生成图像绘画程序——“文心一格”。这些程序各具特色，而Stable Diffusion凭借其开源免费的特性、丰富的模型与扩展功能、以及对图像生成的精细控制能力，赢得了最广泛的用户群体。

本书以Stable Diffusion ComfyUI（计算机版）为例，系统讲解其功能与技巧。为行文方便，后续将Stable Diffusion简称为SD。此外，由Black Forest Labs（黑森林工作室）团队开发的Flux模型于2024年8月初开源，随即获得巨大关注，本书也将大量应用该模型完成教学案例。

🔎1.SDXL：一个模型，多种风格

2023年7月底，SD正式发布开源模型SDXL。下面三幅由SD生成的图像（图1-1）分别展示了写实照片、2.5D风格和二次元风格：

（图注：三幅示例图像，风格各异，细节丰富）

在使用旧版SD1.5模型时，生成不同风格的图像通常需要切换三种不同的模型；而SDXL仅用一个模型就能输出多种风格，且画面更清晰、色彩更靓丽、细节更丰富。

到了2024年，SDXL已发展为一个成熟的模型类型，衍生出大量优秀的优化模型，形成了良好的“生态系统”。如果说SD早期版本主要用于娱乐，那么SDXL使AI绘画的应用领域大大拓宽。

🔎2.SD3.0：全新架构，理解更精准

2024年6月，Stability AI发布了SD3.0模型。它采用Diffusion Transformer（DiT）架构——一种全新的设计，能够更好地理解提示词和物理世界。

🦋【提示词模板与回答示例1】

提示词：
1girl, yellow long princess dress, long brown hair, hair accessories, jewelry, in the garden, best quality, masterpiece, movie poster, full body
中文含义：
一个女孩，黄色的长公主裙，棕色的长发，发饰，珠宝，在花园里，最佳画质，杰作，电影海报，全身照。

生成效果（图1-2）：
模型精准地呈现了女孩的服饰、发型、配饰以及花园场景，构图如电影海报般富有张力。

🦋【提示词模板与回答示例2】（测试方位与色彩理解）

提示词：
Three transparent glass bottles on a wooden table. The one on the left has red liquid. The one in the middle has blue liquid. The one on the right has green liquid.
中文含义：
一张木桌上摆放着三个透明的玻璃瓶。从左至右，每个瓶子内分别装满了鲜艳的红色、蓝色、绿色液体。

生成效果（图1-3）：
模型准确区分了左、中、右三个位置，并赋予正确的液体颜色，展现了良好的空间与色彩认知。

🦋【提示词模板与回答示例3】（文字生成能力）

提示词：
Photo of a rectangular orange neon sign with the text “Hello”, the sign is on the wall in a metro station.
中文含义：
一张矩形橙色霓虹灯标志的照片，上面写着“Hello”，标志位于地铁站的墙上。

生成效果（图1-4）：
模型成功生成了带有清晰英文“Hello”字样的霓虹灯牌，背景为地铁站墙壁，文字无扭曲或错误。

总结：SD3.0功能强大，但尚未形成完善的生态系统。本书仍以SDXL模型为基础进行写作，读者也可自行使用SD3.0进行提示词测试与学习。

🔎3.Kolors（可图）：中文用户的友好选择

2024年6月，快手开源了Kolors（可图）模型。它基于SDXL架构，但特别优化了对中文提示词的支持，大大降低了中国用户的使用门槛。Kolors兼容SDXL的LoRA和ControlNet模型，生态前景良好。

🦋【提示词模板与回答示例】

提示词：
中国水墨画，山水，老虎。

生成效果（图1-5）：
模型生成了一幅具有传统水墨韵味的中画，山峰层叠，云雾缭绕，一只老虎卧于山石之上，中国元素表现自然。

Kolors对中文语境和中国元素的理解非常出色，本书后续许多案例将采用该模型完成。

🔎4.Flux：新一代开源王者

2024年3月，SD的母公司Stability AI经历动荡，部分核心成员离职并成立新公司Black Forest Labs（黑森林工作室）。2024年8月1日，该公司开源了Flux模型。该模型拥有120亿训练数据量，其中FLUX.1 [schnell]版本完全开源。Flux在提示词理解、手部处理、文字书写等方面均有显著提升。