1. 硬件准备:搭建AIGC工作站的基石
想在个人电脑上玩转AIGC图像与视频生成,首先得搞定硬件配置。我去年用RTX 3060折腾Stable Diffusion时,生成一张512x512的图片要20多秒,后来换了RTX 4070直接降到3秒——这就是硬件带来的直观差异。
显卡选择是重中之重。NVIDIA的RTX系列是不二之选,因为CUDA和Tensor Core对AI计算有天然优势。实测下来:
- RTX 3060(12GB显存):能跑基础版Stable Diffusion,但视频生成容易爆显存
- RTX 4070(12GB):性价比之选,文生图5秒内,短视频生成勉强够用
- RTX 4090(24GB):土豪配置,跑SDXL模型如丝般顺滑
其他硬件也不能太拖后腿:
- CPU:至少i5十代或Ryzen 5 3600以上
- 内存:建议32GB起步,处理大模型时16GB会频繁触发交换
- 存储:1TB NVMe SSD必备,模型动辄几个GB,机械硬盘加载能急死人
注意:笔记本用户要特别注意散热,连续生成时GPU温度可能飙到90℃+,最好配个散热支架
2. 基础环境搭建:一步错步步错
装好硬件只是开始,软件环境才是真正的隐形杀手。我至少重装过三次系统才摸清这些门道:
Python环境建议用Miniconda管理:
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh conda create -n aigc python=3.10 conda activate aigcCUDA工具包的版本要严格匹配:
- RTX 40系显卡:CUDA 12.x
- RTX 30系显卡:CUDA 11.8
- 老显卡(如GTX 1660):CUDA 11.7
安装命令示例:
wget https://developer.download.nvidia.com/compute/cuda/12.2.2/local_installers/cuda_12.2.2_535.104.05_linux.run sudo sh cuda_12.2.2_535.104.05_linux.run常见坑点:
- 驱动版本不匹配:先
nvidia-smi查驱动版本,再装对应CUDA - 忘记加环境变量:要在
.bashrc添加export PATH=/usr/local/cuda/bin:$PATH - 多版本冲突:用
update-alternatives管理不同CUDA版本
3. Stable Diffusion实战:从文生图到精细化控制
环境搞定后,终于可以玩真的了。先来体验最基础的文生图:
from diffusers import AutoPipelineForText2Image import torch pipe = AutoPipelineForText2Image.from_pretrained( "stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16 ).to("cuda") prompt = "赛博朋克风格的城市夜景,霓虹灯光,雨天街道,4k高清" image = pipe(prompt=prompt, guidance_scale=7.5).images[0] image.save("cyberpunk_city.png")参数调优才是精髓:
guidance_scale:7-9适合写实风格,12+更适合艺术创作num_inference_steps:20步性价比最高,50步细节更丰富negative_prompt:加"blurry, deformed, low quality"能显著提升画面质量
进阶玩法:
- 图生图:用
AutoPipelineForImage2Image实现风格迁移 - 局部重绘:配合mask图修改特定区域
- ControlNet:用边缘检测/深度图精确控制构图
模型推荐:
- 写实人像:juggernautXL_v8
- 二次元:anything-v5
- 3D渲染:dreamshaperXL
4. 视频生成进阶:Stable Video Diffusion全解析
从图片到视频是质的飞跃,但显存占用也指数级增长。我的RTX 4070跑SVD时得用这些技巧:
基础视频生成:
from diffusers import StableVideoDiffusionPipeline from diffusers.utils import load_image, export_to_video pipeline = StableVideoDiffusionPipeline.from_pretrained( "stabilityai/stable-video-diffusion-img2vid-xt", torch_dtype=torch.float16 ) pipeline.enable_model_cpu_offload() # 显存不够时的救命稻草 image = load_image("input.png").resize((1024, 576)) frames = pipeline(image, num_frames=25, decode_chunk_size=8).frames[0] export_to_video(frames, "output.mp4", fps=10)避坑指南:
- 输入图片长宽比必须是16:9或9:16
num_frames超过25容易OOM(显存溢出)- 用
decode_chunk_size=8分段处理降低显存压力 - 视频闪烁问题:加
motion_bucket_id=120参数改善
工作流优化:
- 先用SD生成高质量关键帧
- 用SVD插值生成中间帧
- 最后用DAIN等工具补帧到60fps
5. 可视化工具:告别命令行黑窗口
整天对着Python脚本太枯燥,这些GUI工具能让创作更高效:
Stable Diffusion WebUI安装:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui cd stable-diffusion-webui ./webui.sh --listen --enable-insecure-extension-access特色功能:
- 内置图生图/重绘/超分辨率
- 扩展市场一键安装ControlNet等插件
- 模型融合工具(checkpoint merger)
ComfyUI的模块化工作流更适合进阶玩家:
git clone https://github.com/comfyanonymous/ComfyUI cd ComfyUI python main.py --listen它的杀手级功能:
- 可视化节点编辑,可保存复杂工作流
- 低显存模式(8GB显存也能跑SDXL)
- 完美支持视频生成pipeline
6. 性能优化:让生成速度飞起来
同样的硬件,调优前后性能可能差3倍。这些是我实测有效的技巧:
TensorRT加速:
git clone https://github.com/NVIDIA/TensorRT cd TensorRT/demo/Diffusion python3 demo_txt2img.py "a beautiful landscape" --onnx --enginexFormers魔法: 安装后生成速度提升20%,显存节省30%:
pip install xFormers终极优化组合:
- 使用TensorRT引擎
- 开启
torch.compile() - 加载8bit量化模型
- 配合xFormers内存优化
实测RTX 4070上的提升:
| 优化方案 | 生成时间 | 显存占用 |
|---|---|---|
| 原始版本 | 4.2s | 10.1GB |
| 基础优化 | 3.1s | 7.8GB |
| 全套方案 | 1.9s | 5.4GB |
7. 模型管理与资源下载
玩AIGC最头疼的就是模型管理。我的models目录已经吃掉500GB硬盘空间...
国内镜像加速:
export HF_ENDPOINT=https://hf-mirror.com pip config set global.index-url https://mirrors.aliyun.com/pypi/simple必备模型清单:
- 文生图:sd_xl_base_1.0.safetensors
- 视频生成:svd_xt.safetensors
- 超分辨率:RealESRGAN
- 人脸修复:GFPGAN
模型整理技巧:
- 用符号链接集中管理各工具调用的模型
- 定期清理过时模型(查看
last_used时间) - 对大型模型使用
--prefer-offload参数
8. 创意工作流实战案例
最后分享我的日常创作流程,以制作赛博朋克短片为例:
概念设计阶段:
- 用SDXL生成10版不同风格的"未来城市"概念图
- 选择最佳版本进行细化,分辨率提升到1024x1024
关键帧生成:
- 在ComfyUI中搭建ControlNet工作流
- 生成主角不同角度的8张关键帧
视频插值:
- 将关键帧导入SVD生成3秒片段
- 用RIFE算法补帧到60fps
后期处理:
- 用DaVinci Resolve添加霓虹光效
- 在Audacity混入环境音效
- 最终输出30秒的短视频