🚀 核心实战价值
一句话说明: 用Qwen Image Edit + ComfyUI,实现单模型多参考图的精准编辑——换装、双人交互、角色融合,只靠自然语言+2张图,无需PS,4步出片。解决“AI编辑只能单图/无法保持角色一致”的痛点。
📊 核心参数表 / 工作流拆解
核心模型与节点速查(表格内参数均为硬性配置)
| 模块 / 节点 | 说明 | 关键参数 / 路径 |
|---|---|---|
| Qwen Image Edit 模型 | 多图编辑扩散模型 (FP8) | diffusion_models/ qwen_image_edit_fp8_e4m3fn.safetensors |
| 文本编码器 | Qwen2.5-VL 7B FP8 | text_encoders/ qwen_2.5_vl_7b_fp8_scaled.safetensors |
| VAE | 专用图像VAE | vae/ qwen_image_vae.safetensors |
| LoRA (加速) | Qwen-Image-Lightning 4步LoRA | loras/ Qwen-Image-Lightning-4steps-V1.0.safetensors✅ 推理步数: 4步 |
| Image Stitch (核心节点) | 将两张参考图并排拼接为单图 | 方向: 水平 (side-by-side) |
| Scale Image to Total Pixels | 缩放拼接后的图像至 ≤1M 像素 | 总像素上限: 1,000,000 px (避免模型超限) |
| 初始Latent (换装流) | 编码主图像作为起始噪声 | 直接取自“Main image”节点,非拼接图 |
| 初始Latent (双人交互流) | 空白潜变量 (Empty Latent) | 自由设定输出尺寸,不偏向任一张参考 |
两个核心工作流对比
| 工作流 | 应用场景 | 输入图 | 初始Latent | 提示词示例 |
|---|---|---|---|---|
| WF1 · 换装 | 保留人物身份,替换服装/配饰 | 主图(人物) + 参考图(服装) | 主图编码 | “Put the dress on her. Take off her hoodie.” |
| WF2 · 双人互动 | 两个角色组合,动作/场景可控 | 参考图A + 参考图B | 空白潜变量 (任意尺寸) | “Two girls holding hands walk down a beautiful street.” |
🎨 画面/镜头表现技巧
构图逻辑与一致性控制
- 并排拼接即“上下文”:Qwen原生只接受单图输入,利用 Image Stitch 将两张参考图水平拼接,模型自动理解左侧为主图/右侧为参考。比例尽量保持一致,避免畸变。
- 主图优先 vs 中立融合:换装WF把主图编码进初始潜空间,所以人物脸型、姿态更保真;双人WF用空白潜变量,模型从两张图自由“捏合”互动姿势,适合创造新构图。
- 提示词顺序不敏感,但要点出“移除/替换”:Qwen容易“叠加”而非替换(例如把裙子穿在卫衣外面),必须显式要求
Take off …或remove …,指令可乱序。 - 分辨率锚点:拼接后必须缩放到≤1M像素(约1152×864或1280×800),否则推理显存爆炸或细节崩坏。WF2通过空白潜变量可直接设置宽高比(如1024×768)。
💡 避坑指南 & 高级技巧
- 最容易失败的地方
- 模型装错路径:FP8模型必须放在
diffusion_models而非unet,LoRA放在loras,编码器放在text_encoders。用ComfyUI Manager的缺失模型对话框一键下载最稳。 - “穿戴叠加”陷阱:只写“穿上裙子”会保留原外套,必须加“脱掉/移除”指令。Qwen对逻辑冲突比较宽容,但反向指令(先脱后穿)仍需显式声明。
- 拼接图尺寸超限:两张1000+px的图直接拼接会超过2M像素,导致OOM或黑图。务必串联 Scale Image to Total Pixels 节点,目标设为1.0M。
- 模型装错路径:FP8模型必须放在
- 高级微调建议
- LoRA强度自适应:Lightning LoRA默认强度1.0,若细节丢失可微调至0.85~0.95;若风格不符可用0.7并增至6步(但失去4步优势)。
- 双人姿势控制:在空白潜变量WF中,先用 Empty Latent 设置矩形画布(如3:2),再用提示词强化交互词(“arm around shoulder”“holding hands”),必要时加入背景描述,避免模型把两人“P”到奇怪场景。
- 局部重绘混合模式:如果只想改上装而保留背景,可以将主图+蒙版输入到另一个分支,利用Qwen的inpaint能力(需单独蒙版节点),本作未展开但高手可以拼接蒙版实现区域编辑。
📁 实战资源 & 模型清单
所有模型均来自HuggingFace Comfy-Org 和 lightx2v,可直接下载:
- qwen_image_edit_fp8_e4m3fn.safetensors →
ComfyUI/models/diffusion_models/ - qwen_2.5_vl_7b_fp8_scaled.safetensors →
ComfyUI/models/text_encoders/ - qwen_image_vae.safetensors →
ComfyUI/models/vae/ - Qwen-Image-Lightning-4steps-V1.0.safetensors →
ComfyUI/models/loras/
工作流JSON下载 (原创教程配套):
下载后直接拖入ComfyUI,Manager会自动检测缺失节点(需安装ComfyUI Manager)。
🧪 操作四步法 (速查)
- 更新ComfyUI → Manager → Update ComfyUI → 重启。
- 装模型 → 下载上述4个文件到对应目录,或使用Manager自动下载。
- 加载工作流 → 拖入JSON → 上传图片(主图/参考图) → 修改提示词。
- 生成 → 点击Queue Prompt,4步即出。
提示:若用Colab,选用 Qwen_Image_Edit 预设,无需手动下载模型。
换装案例效果(左: 原人物+参考裙 → 右: 合成结果)



双人互动案例(两张参考图 → 牵手行走)



🔧 首席技术教练提醒:当你第一次把裙子“穿”在卫衣外面,别怀疑——加一句“Take off her hoodie”即可。这是Qwen的思维惯性,指令越具体,越少“创造性理解”。
基于 Stable Diffusion Art 教程重构 · 实战验证工作流。遵守白底黑字、无深色背景、纯原生列表。