wen-Image-Layered 是阿里 QwenLM 团队推出的一款开源 AI 图像编辑模型,核心能力就是把一张普通图片 “拆解开” 成多个带透明通道的 RGBA 图层。就像用 Photoshop 做设计时,设计师会把背景、人物、文字等元素放在不同图层上一样,这个模型能自动完成分层工作,让每个语义或结构组件都单独存在一个图层里。
这样一来,后续编辑就不用 “牵一发而动全身” 了 —— 可以只改某个图层的内容,其他部分完全不受影响。它支持在 Huggingface Spaces 和 Modelscope Studio 上直接试用,也能下载权重本地部署,不管是设计师日常修图,还是开发者二次开发,都能轻松上手,目前采用 Apache-2.0 开源许可证,完全免费可用。
核心功能特色
智能分层,语义独立:不用手动抠图、分层,模型能自动识别图片中的不同元素,拆解成多个 RGBA 图层。比如一张包含文字、人物、背景的图片,会被拆成 “背景层”“人物层”“文字层”,每个图层都有独立的透明通道,边界处理自然,不会出现模糊或残留。
自由编辑,操作无干扰:拆分后的图层支持各种独立操作,而且都是高保真效果:
- 基础操作:给某个图层换颜色、调整大小(不会变形)、移动位置,比如把广告图里的产品移到画面中间,单独给文字改成红色;
- 进阶操作:干净删除不需要的元素(比如去掉图片里的杂物)、修改图层内容(比如把图层里的女孩换成男孩、把文字改成其他内容),全程不影响其他图层的完整性。
- 灵活分解,满足多样需求
- 可变图层数量:不用固定拆成多少层,根据需求自由设置,比如简单图片拆 3 层就够,复杂图片可以拆到 8 层甚至更多;
- 递归无限分解:不仅能拆原图,任何一个已经拆分出来的图层,还能再继续往下拆,比如把 “人物层” 再拆成 “头部层”“身体层”,实现无限拆分,精细度拉满。
- 便捷部署,支持多格式导出:上手简单:只要满足 transformers 版本≥4.51.3,安装好 diffusers、psd-tools 等依赖,复制示例代码就能本地运行;
- 可视化操作:运行脚本就能启动 Gradio 网页界面,不用写代码也能上传图片、拆分图层,还能把分层结果导出成 PPTX、ZIP、PSD 格式,直接导入 Photoshop 等工具继续编辑;
- 支持二次组合:编辑完单个图层后,用专门的脚本就能按 “从下到上” 的顺序把图层重新组合成一张新图片,流程完整。
- 文本辅助,适配不同场景:输入文本提示时,不用指定单个图层的内容,只要描述图片整体内容(包括被遮挡的元素,比如 “被前景挡住的文字”),模型就能更精准地识别分层逻辑。不过要注意,它的核心是 “图片拆分层”,文本生成多层图像的能力目前还比较有限。
应用场景
广告设计与电商修图:广告图里的产品、背景、宣传语可以快速分层,设计师能随时更换背景、调整产品位置、修改文字内容,不用重新制作整张图;电商商品图也能拆分后单独优化产品细节,比如调整商品颜色、去除背景杂物,提高修图效率。
创意设计与海报制作:设计师可以把参考图拆解成多个图层,提取喜欢的元素进行重组、修改,比如把不同图片的文字层、图形层拆分后,重新组合成新的海报;也能通过递归拆分,对细节元素做精细化调整,激发更多创意。
影视后期与短视频制作:对影视画面或短视频素材进行分层,比如把角色、道具、背景分开,方便单独添加特效、调整颜色、替换背景,不用对整个画面做后期处理,节省时间还能保证画面质量。
图像修复与优化:老照片修复时,把破损的部分(比如划痕、污渍)单独拆成一个图层,针对性修复,不会影响照片其他完好的部分;也能拆分图片后,单独优化某个元素的清晰度、亮度,让整体画面更协调。
教育演示与教学场景:教学中可以把复杂图像(比如生物结构图、机械原理示意图)拆成简单图层,一步步展示图像的构成,帮助学生理解各个部分的关系;也能让学生自己动手拆分、编辑图层,直观学习图像编辑的基本原理。
开发者二次开发:开发者可以基于这个模型的分层能力,搭建自己的图像编辑工具,比如集成到在线修图平台、设计类 App 中,为用户提供自动分层、便捷编辑的功能,降低开发难度。
快速上手
- 环境准备:确保 Python 环境中 transformers 版本≥4.51.3(支持 Qwen2.5-VL),然后安装依赖:
pip install git+https://github.com/huggingface/diffusers
pip install python-pptx
pip install psd-tools
- 基础使用:复制示例代码,替换输入图片路径,设置分层数量(比如 layers=4)、分辨率(推荐 640)等参数,运行后就能得到拆分后的各个图层,自动保存为图片文件。
- 可视化部署:
- 运行 python src/app.py,启动分层与导出界面,可上传图片拆分后导出为 PPTX、ZIP、PSD 格式;
- 运行 python src/tool/edit_rgba_image.py,启动图层编辑界面,能对拆分后的 RGBA 图层进行透明编辑;
- 编辑完图层后,运行 python src/tool/combine_layers.py,按从下到上的顺序上传图层,即可组合成新图片。
- 扩展使用:vLLM-Omni 已支持该模型,可查看相关教程实现更高效的部署和推理。
仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!
链接: https://fly63.com/nav/4879