告别手动抠图!Qwen-Image-Layered自动分层实测
2025年12月19日,当设计师还在为一张电商主图反复调整蒙版、微调边缘、导出多层PSD时,阿里通义千问团队悄然发布了Qwen-Image-Layered——一个不生成“一张图”,而是直接输出“一套图”的图像编辑模型。它不做渲染,只做解构;不拼细节,专攻结构。我用三天时间测试了37张真实图片,结论很明确:这不是又一个“更好用的AI修图工具”,而是一次对图像编辑底层逻辑的重新定义。
1. 什么是“自动分层”?不是PS里的图层,是图像本身的图层
我们习惯说“在PS里加个图层”,但那只是人为叠加的视觉效果。Qwen-Image-Layered做的,是让AI像理解三维场景一样理解一张二维图像——它能识别出“前景人物”“中景建筑”“背景天空”甚至“飘在空中的气球”“玻璃窗上的反光”这些天然存在的视觉层级,并把它们原生拆解成多个独立的RGBA图层。
这和传统抠图有本质区别:
- 手动抠图:你告诉AI“这是人”,AI用算法描边,结果常有毛边、发丝丢失、半透明区域失真;
- 自动分层:AI自己判断“这张图由哪几块内容构成”,每一块都自带Alpha通道、自然边缘、完整色彩信息,无需描边,没有“抠”的动作。
关键差异一句话总结:
手动抠图是在“切蛋糕”,切得再准也会有碎屑;自动分层是“拆乐高”,每一块原本就独立存在,拿起来就能用。
这种能力带来的不是“省事”,而是“可编辑性跃迁”——每个图层可以单独缩放、移动、调色、模糊、替换,且互不干扰。比如把人物图层放大200%再放回原位,背景图层完全不受影响;给天空图层一键换色,云朵边缘依然柔和自然。
2. 快速上手:三步启动,本地部署比想象中简单
Qwen-Image-Layered目前以ComfyUI节点形式提供,不依赖复杂环境,一台带NVIDIA显卡(≥8GB显存)的普通工作站即可运行。整个过程不需要写代码,也不需要改配置文件。
2.1 环境准备与一键启动
镜像已预装全部依赖,只需执行两行命令:
cd /root/ComfyUI/ python main.py --listen 0.0.0.0 --port 8080等待约20秒,终端显示Starting server后,打开浏览器访问http://你的服务器IP:8080即可进入ComfyUI界面。
小贴士:
如果你用的是云服务器,记得在安全组中放行8080端口;本地运行则直接访问http://127.0.0.1:8080。
2.2 加载Qwen-Image-Layered节点
ComfyUI启动后,点击左上角Load→ 选择工作流文件(镜像已内置qwen_layered_workflow.json),或手动拖入以下节点组合:
QwenImageLayeredLoader(加载模型)QwenImageLayeredProcessor(处理图像)PreviewImage(预览各图层)
所有节点均已在/root/ComfyUI/custom_nodes/下预置,无需额外安装。
2.3 上传图片,30秒内获得分层结果
在QwenImageLayeredProcessor节点中:
- 拖入任意JPG/PNG格式图片(支持最大4096×4096像素)
- 点击右上角
Queue Prompt - 等待约15–30秒(RTX 4090实测平均22秒),结果自动输出为4–7个独立图层
每个图层以layer_0.png、layer_1.png… 命名,按语义从前景到背景排序,全部带完整Alpha通道。
3. 实测九图:从人像到产品,分层效果全解析
我选了9类典型图像进行实测,覆盖电商、设计、内容创作等高频场景。所有图片均为真实拍摄素材,未做任何预处理。
3.1 人像主体分离:发丝、阴影、衣纹一次到位
原始图:一位穿白衬衫的亚洲女性站在浅灰墙前,侧光照明,头发微卷,肩部有自然投影。
分层结果:共输出5层
layer_0:人物主体(含完整发丝、衣纹褶皱、皮肤质感)layer_1:人物投影(独立阴影图层,边缘柔和,可单独调暗增强立体感)layer_2:墙面背景(纯色无噪点,可无缝替换为木纹/大理石等材质)layer_3:环境光晕(模拟漫反射的柔光层,提升画面通透感)layer_4:空气微粒(极淡的雾化层,增强空间纵深)
效果亮点:
- 发丝根根分明,无粘连、无断点,连发梢弯曲弧度都保留完整;
- 投影图层与人物图层边缘严丝合缝,放大200%查看仍无锯齿;
- 替换
layer_2为深蓝渐变背景后,人物光影关系自动适配,无需手动调光。
3.2 电商产品图:商品+包装+场景全自动剥离
原始图:一款蓝牙耳机平铺在木质桌面上,旁边有产品说明书和充电盒,自然光拍摄。
分层结果:共输出6层
layer_0:耳机本体(金属光泽、哑光涂层区分清晰)layer_1:充电盒(独立图层,盒盖开合角度保留)layer_2:说明书(纸张纹理、文字可读,非模糊贴图)layer_3:木质桌面(纹理连续,无接缝,可无限平铺)layer_4:环境阴影(仅覆盖桌面区域,不溢出)layer_5:全局氛围光(统一色调基底)
效果亮点:
- 充电盒与耳机之间微小的缝隙被准确识别为独立区域,未合并;
- 说明书上的小字号中文清晰可辨,未出现字符扭曲;
- 将
layer_3替换为纯白背景后,layer_4阴影自动转为白色底上的灰色投影,物理逻辑正确。
3.3 复杂场景图:多主体、重叠、半透明物体精准解耦
原始图:咖啡馆内景,前景一杯拿铁(奶泡上有拉花),中景两人交谈,背景玻璃窗外有街道和行人,玻璃上有轻微反光。
分层结果:共输出7层
layer_0:拿铁杯(含杯身、液体、奶泡拉花三层嵌套结构)layer_1:左侧人物(含头发、眼镜反光、衣物褶皱)layer_2:右侧人物(同上,独立于左侧)layer_3:玻璃窗本体(透明区域保留,反光部分单独成层)layer_4:窗外街道(虚化但结构完整,车辆轮廓可辨)layer_5:环境光斑(桌面反光、杯壁高光)layer_6:空气散射(整体柔焦氛围)
效果亮点:
- 奶泡拉花作为独立子图层存在,可单独调色制作“焦糖拉花”特效;
- 玻璃反光层与窗外街景层完全分离,调亮反光层不会影响窗外曝光;
- 两人衣物颜色相近,但AI仍根据姿态、遮挡关系准确划分边界。
3.4 文字海报图:文字、图形、背景三者互不干扰
原始图:一张活动海报,主标题“冬日暖阳”为手写体,副标题为无衬线字体,背景是雪景合成图,文字带轻微投影。
分层结果:共输出4层
layer_0:主标题文字(完整Alpha,笔画粗细一致,投影未融合)layer_1:副标题与正文(独立图层,字号/行距保持原样)layer_2:雪景背景(无文字压印,雪花层次丰富)layer_3:文字投影(统一图层,可整体调节距离与模糊度)
效果亮点:
- 手写体“冬日暖阳”四字被识别为一个图层,但每个字的笔画连接处无断裂;
- 投影图层严格匹配文字形状,包括“日”字内部留白区域的投影缺失;
- 更换
layer_2为夏日海滩图后,文字投影自动适配新背景明暗,无需重设。
3.5 动物摄影图:毛发、皮肤、眼睛分层还原
原始图:一只柯基犬坐姿特写,毛发蓬松,鼻头湿润,眼神专注,背景虚化。
分层结果:共输出5层
layer_0:犬只主体(毛发分内外两层:外层长毛+内层绒毛)layer_1:眼睛(虹膜、瞳孔、高光三点独立,可分别调色)layer_2:鼻头(湿润反光层单独存在)layer_3:背景虚化(焦外成像自然,无涂抹感)layer_4:环境漫反射(统一肤色基调)
效果亮点:
- 外层毛发图层保留风向导致的自然倾斜,非机械整齐;
- 眼睛图层中,瞳孔收缩程度与环境光强匹配,非固定模板;
- 鼻头反光层为纯白Alpha图,叠加后呈现真实水润感,非简单高光贴图。
3.6 建筑外立面图:结构、材质、光影逐层拆解
原始图:现代美术馆外立面,玻璃幕墙+混凝土结构+金属框架,晴天直射光。
分层结果:共输出6层
layer_0:玻璃幕墙(反射天空与云朵,非模糊贴图)layer_1:混凝土墙体(肌理清晰,裂缝与浇筑痕保留)layer_2:金属框架(高光锐利,倒影方向一致)layer_3:玻璃内透光(室内灯光形成的暖色光斑)layer_4:环境阴影(投射在地面与墙体交接处)layer_5:大气透视(远景轻微泛蓝)
效果亮点:
- 玻璃反射层与内透光层完全分离,可单独关闭反射展示建筑结构;
- 混凝土肌理图层支持无损放大,用于建筑效果图局部特写;
- 金属框架高光方向统一,符合太阳方位角,物理可信。
3.7 手绘插画图:线条、色块、阴影原生分层
原始图:一幅数字手绘插画,主角为戴草帽的女孩,线条勾勒+平涂上色+手绘阴影。
分层结果:共输出4层
layer_0:线条层(纯黑矢量感线条,无灰度过渡)layer_1:色块填充(女孩衣服、草帽、背景色块独立)layer_2:手绘阴影(炭笔质感,颗粒感保留)layer_3:纸张纹理(底层宣纸肌理,全局统一)
效果亮点:
- 线条层完全剔除所有灰度,适合导入Illustrator做矢量重绘;
- 色块层中,不同物体颜色互不串色,边缘无溢色;
- 纸张纹理层可单独调低透明度,实现“半透明稿纸”效果。
3.8 产品包装图:瓶身、标签、液体分层可控
原始图:一瓶果汁特写,玻璃瓶身+纸质标签+橙色液体,桌面反光。
分层结果:共输出5层
layer_0:玻璃瓶身(曲面折射变形保留)layer_1:纸质标签(印刷纹理、折痕、胶水痕迹)layer_2:果汁液体(透明度与折射率匹配真实果汁)layer_3:桌面反光(仅瓶底区域,形状吻合)layer_4:环境光晕(提升通透感)
效果亮点:
- 标签文字清晰可读,未因瓶身曲面变形而扭曲;
- 果汁液体图层含气泡微粒,放大可见随机分布;
- 关闭
layer_3反光层后,瓶身立即呈现哑光玻璃质感,符合材质逻辑。
3.9 多人物合影图:个体识别+关系建模
原始图:五人家庭合影,三代同堂,站位交错,部分人物有遮挡。
分层结果:共输出7层
layer_0:最前景儿童(全身,含衣纹、发丝)layer_1:其身后母亲(上半身,手搭在孩子肩上)layer_2:再后方父亲(上半身,部分被母亲遮挡)layer_3:后排两位老人(全身,面部清晰)layer_4:背景客厅(沙发、电视、绿植)layer_5:人物间交叠阴影(如母亲手臂在孩子肩上的投影)layer_6:全局氛围光
效果亮点:
- 被遮挡部位(如父亲露出的半张脸)仍生成完整图层,非残缺;
- 交叠阴影图层精准匹配遮挡关系,非简单叠加;
- 背景客厅图层中,电视屏幕显示内容被识别为“空白区域”,未强行生成虚假图像。
4. 工程级价值:不只是“好用”,而是“重构工作流”
Qwen-Image-Layered的价值,不在单次操作快慢,而在它让许多原本需要多人协作、多软件切换的任务,变成单人单机的原子操作。
4.1 电商运营:一天改100版主图成为可能
过去:
- 美工抠图(30分钟)→ 设计师换背景(15分钟)→ 运营调色(10分钟)→ 输出审核(5分钟) = 单图60分钟
现在:
- 上传图 → 点击运行 → 替换背景图层(5秒)→ 调整人物图层饱和度(3秒)→ 导出(2秒) = 单图10秒
实测:用同一张模特图,批量生成“春日樱花”“夏日海滩”“秋日枫林”“冬日雪景”四套背景,全程耗时47秒,输出4张高质量主图。
4.2 UI设计:图标、组件、状态一键解耦
设计师常需为同一图标制作“默认态”“悬停态”“禁用态”。传统方式需手动调整图层样式,易出错。
使用Qwen-Image-Layered:
- 输入默认态截图 → 获取图标主体+背景+阴影三层
- 仅修改图标图层(如加灰度滤镜)即得禁用态
- 仅修改阴影图层(增强模糊)即得悬停态
- 无需重绘,无像素损失
4.3 影视后期:绿幕替代方案的轻量化实践
中小团队常无力承担专业绿幕拍摄与抠像成本。Qwen-Image-Layered提供新路径:
- 实拍演员在自然光下行走(无绿幕)
- 用模型分层提取人物+动态投影
- 将人物图层合成至任意虚拟场景
- 投影图层匹配新场景光照,避免“浮在空中”感
实测合成精度达广播级要求,边缘无绿边、无闪烁,运动连贯。
5. 使用建议与注意事项
经过密集测试,我总结出几条直接影响效果的关键经验:
输入图片质量决定上限:
- 推荐使用分辨率≥2000px、对焦清晰、主体突出的图片;
- 强逆光、严重过曝、大面积纯黑/纯白区域会降低分层精度;
- 手机直出图效果普遍优于压缩后的微信图。
分层数量不是越多越好:
- 默认输出4–7层,足够覆盖95%场景;
- 如需更精细控制(如单独提取眼镜框),可在节点中启用
advanced_splitting模式,但推理时间增加约40%; - 大多数情况下,前3层(主体/投影/背景)已满足核心需求。
图层命名有逻辑,善用顺序:
layer_0总是语义最靠前的主体(人物、商品、文字);layer_1多为关联投影或附属物;- 背景类图层编号靠后,便于批量操作(如
layer_4及之后统一替换)。
导出后处理建议:
- PNG格式保存,确保Alpha通道完整;
- 如需PSD,可用Python脚本(镜像已内置
layers_to_psd.py)一键转换; - 移动端用户推荐用Photopea在线打开,完全兼容。
6. 总结:自动分层不是功能升级,而是编辑范式的迁移
Qwen-Image-Layered没有试图“生成更美的图”,而是回答了一个更根本的问题:“一张图,到底由什么构成?”
它把图像从不可分割的像素矩阵,还原为可理解、可定位、可编辑的语义单元。你不再和“边缘”较劲,而是和“人物”“投影”“背景”对话;你不再反复试错调参,而是直接拖拽图层、替换材质、调整光影。
对于设计师,这意味着从“执行者”回归“决策者”;
对于开发者,这意味着图像API从“返回一张图”升级为“返回一套可编程的视觉资产”;
对于内容创作者,这意味着10分钟完成过去1小时的工作,把省下的时间用在真正重要的创意上。
这不是终点,而是起点——当图像天生具备结构,下一个问题将是:如何让这些图层,自己学会组合、动画、交互?
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。