ComfyUI 模型横向对比实测:SD1.5、DreamShaper、Realistic Vision、SDXL、Counterfeit,谁更适合生成拟人胖橘猫?
一、前言
最近在折腾 ComfyUI,前面已经把这些链路跑通了:
- SDXL
- IPAdapter
- ControlNet(Canny / Depth)
- AnimateDiff 插件安装验证
原本是想直接在 SDXL 上做 AnimateDiff,但实际测试后发现,现阶段 SDXL 的 AnimateDiff motion adapter 生态还不算成熟,尤其是 beta 版本,更适合验证链路,不太适合直接作为稳定生产方案。
所以我临时调整了方向:
先回到成熟的 SD1.5 / 通用文生图生态,把单张图生成效果测清楚,再决定后续视频阶段使用哪条路线。
为了做一个干净的基准测试,我选了一个比较具体的目标:
本次测试的参考图,就是希望生成的图片,从抖音截图的
测试结果
工作流截图
测试目标
生成一只拟人化、胖胖的橘猫,偏3D 卡通 / 动画电影风格。
这个题材很适合用来测试模型差异,因为它同时考验:
- 模型对“拟人动物”的理解能力
- 风格控制能力
- 角色体态塑造能力
- 场景和道具理解能力
二、测试模型
本次共测试了 5 个模型:
- 官方 SD1.5
- DreamShaper 8
- Realistic Vision v5.1
- SDXL Base 1.0
- Counterfeit v3
这几个模型分别代表了几种比较典型的方向:
- 官方基础底模
- 综合创意融合模型
- 写实向模型
- 新一代通用底模
- 二次元偏向模型
三、测试原则
为了保证对比尽量公平,本次采用同一提示词、同一参数、只切换 checkpoint的方法。
也就是说:
- 相同 Prompt
- 相同 Negative Prompt
- 相同 Seed
- 相同分辨率
- 相同 Sampler
- 相同 Steps
- 相同 CFG
这样做的目的很明确:
尽量让差异只来自模型本身,而不是提示词或参数变化。
这是做 checkpoint 横向对比时,最标准的一轮测试方法。
四、ComfyUI 最小文生图工作流
本次使用的是 ComfyUI 最基础的文生图链路,核心节点包括:
- CheckpointLoaderSimple
- CLIP Text Encode(正向)
- CLIP Text Encode(负向)
- EmptyLatentImage
- KSampler
- VAEDecode
- SaveImage
在我当前的工作流中,EmptyLatentImage设置为512 × 768,batch 为2[1]。
这套最小工作流就是最基础的文生图流程:加载 checkpoint、编码正负提示词、生成空 latent,经KSampler采样,再通过VAEDecode解码并保存图片 [1]。
五、测试 Prompt
本次测试中使用的正向提示词如下:
a fat anthropomorphic orange tabby cat sitting on a wooden rocking chair, laughing while holding a smartphone, wearing red shorts, big round belly, fluffy fur, cute face, closed happy eyes, open mouth smile, 3d cartoon style, animated movie style, soft warm indoor lighting, highly detailed, adorable, cinematic, full body对应的负向提示词如下:
low quality, blurry, bad anatomy, extra limbs, extra arms, extra legs, extra fingers, deformed paws, human face, realistic photo, ugly, horror, text, watermark, cropped, worst quality这两组提示词来自我当前 ComfyUI 的测试工作流 [1]。
六、测试参数
本次横向对比中,参数统一如下:
- 分辨率:512 × 768
- Batch:2 [1]
- Steps:统一
- CFG:统一
- Sampler:统一
- Seed:统一
其中,工作流里EmptyLatentImage的尺寸是512x768,batch 为2[1]。这个尺寸比较适合做竖版角色图测试,尤其适合拟人角色这种主体居中的场景。
七、测试结果概览
从实际测试图来看,不同模型对同一提示词的理解差异非常明显。
虽然 prompt 完全一致,但最终结果在“风格倾向”上几乎像是不同物种:
- 有的偏简单卡通
- 有的偏 3D 动画
- 有的偏真实萌宠
- 有的偏商业插画
- 有的直接跑偏到二次元人物
这也再次说明,checkpoint 本身的风格偏置非常强。
八、逐个模型分析
1)官方 SD1.5:适合做基线,不适合做最终目标
官方 SD1.5 的输出更像“基础款卡通图”:
- 造型简化
- 细节偏少
- 毛绒感弱
- 对“拟人胖橘猫”的理解不够充分
它的优点是:
- 稳定
- 速度快
- 适合做测试基线
但如果目标是这种:
- 胖橘猫
- 夸张表情
- 拟人化
- 3D 动画电影风
那么官方 SD1.5 明显不够强。
结论:适合做基线,不适合做最终成图模型。
2)DreamShaper 8:最接近目标图方向
DreamShaper 的表现是这次测试里最接近目标的。
它在以下几个方面都明显优于其他几个候选:
- 拟人感更强
- 角色更圆润
- 氛围更柔和
- 更像动画角色
- 更容易生成“可爱、胖、圆”的拟人猫
虽然还不能说一步到位完全复刻目标图,但方向已经非常接近:
- 有 3D 卡通感
- 有角色叙事感
- 有暖光室内氛围
- 角色体块关系更舒服
结论:当前最适合继续精调的模型。
3)Realistic Vision v5.1:更像真实萌宠,不像动画角色
Realistic Vision 的输出也不差,但它的问题不是“质量低”,而是“方向不对”。
它更容易往这些方向跑:
- 半写实
- 萌宠摄影感
- 真实猫咪风格
也就是说,它生成出来的是“很可爱的猫”,但不是“动画电影里的拟人胖橘猫”。
如果你的目标是:
- 写实 furry
- 真实毛发质感
- 萌宠风
它可能不错。
但如果目标是:
- 拟人化
- 胖
- 动画感
- 3D 卡通
它就不是最佳答案。
结论:更适合写实/半写实,不适合本次目标。
4)SDXL Base 1.0:构图不错,但更像商业插画
SDXL 的结果整体很干净:
- 构图更稳
- 道具理解更完整
- 颜色搭配更舒服
- 画面商业感更强
但它的问题在于风格味道不太对。
从结果看,它更像:
- 儿童绘本风
- 平滑插画风
- 商业形象图
而不是那种:
- 毛茸茸的
- 厚重体积感的
- 电影 CG 风格的拟人猫
所以 SDXL 本轮不是最差,但也不是最贴题的。
结论:画面很干净,但风格不够贴近目标。
5)Counterfeit v3:彻底跑偏到二次元女性角色
Counterfeit 的结果最有代表性,因为它非常直观地展示了“模型先验风格”的强影响。
虽然 prompt 里明确写的是:
- anthropomorphic orange tabby cat
- rocking chair
- red shorts
但它还是很容易往:
- 二次元女性角色
- 猫耳娘
- 日漫人物
这个方向上跑。
这不能简单理解为“模型差”,而应该理解为:
它的风格先验与当前任务目标完全不匹配。
结论:不适合这类拟人胖橘猫目标。
九、综合排名
如果按“接近目标图程度”来排序,我个人的结论如下:
本轮测试排名
- DreamShaper 8
- SDXL Base 1.0
- Realistic Vision v5.1
- 官方 SD1.5
- Counterfeit v3
如果只考虑后续还要继续精调、甚至接 AnimateDiff:
最值得继续推进的模型
- DreamShaper 8
十、这次测试说明了什么?
1)同一个 prompt,不同模型差异非常大
这说明在文生图里,checkpoint 的重要性远比很多人预期的更高。
2)并不是“名气越大越适合你的任务”
比如 Realistic Vision 很强,但它适合的是写实方向;Counterfeit 也很成熟,但它适合的是二次元方向。
3)先做单图基线测试非常有必要
如果单图阶段都没选好底模,后面直接上 AnimateDiff,只会把调试成本成倍放大。
十一、后续计划
接下来我会按这个顺序继续推进:
第一步
使用DreamShaper 8单独精调 prompt,进一步逼近目标图风格。
第二步
尝试将DreamShaper 8 + SD1.5 AnimateDiff结合,做短视频测试。
第三步
如果短视频链路稳定,再逐步叠加:
- IPAdapter
- ControlNet(Canny / Depth)
做更强可控性的角色视频生成。
十二、结论
如果你的目标也是类似这种:
- 拟人化动物
- 胖胖的可爱角色
- 3D 卡通 / 动画电影感
- 非纯写实
- 非纯二次元
那么从这次测试结果来看:
DreamShaper 8 是当前最值得优先尝试的模型
它比官方 SD1.5 更有角色感,
比 Realistic Vision 更符合卡通方向,
比 Counterfeit 更不容易跑偏,
在这类任务上也比 SDXL 更接近“动画电影风”的目标。
十三、附:本次测试工作流说明
本次使用的是 ComfyUI 基础文生图工作流。
在我的配置中,核心包括:
CheckpointLoaderSimpleCLIPTextEncodeEmptyLatentImageKSamplerVAEDecodeSaveImage
其中:
EmptyLatentImage:512 × 768,batch =2[1]- 正向 prompt 和负向 prompt 如前文所示,均来自当前工作流 [1]
如果你只是做 checkpoint 横向对比,这套最小链路已经足够用了。
十四、写在最后
这次测试给我一个非常直观的感受:
不要一上来就问“哪个模型最强”,而要先问“哪个模型最适合你的目标”。
同样是生成“猫”,不同模型生成出来的,有的是卡通吉祥物,有的是宠物摄影,有的是绘本角色,还有的直接变成猫耳娘。
这不是简单的“好坏差异”,而是风格先验的巨大差异。