Qwen图像编辑实战复现：零基础保姆级多图工作流教程

一句话说明： 用Qwen Image Edit + ComfyUI，实现单模型多参考图的精准编辑——换装、双人交互、角色融合，只靠自然语言+2张图，无需PS，4步出片。解决“AI编辑只能单图/无法保持角色一致”的痛点。

核心模型与节点速查（表格内参数均为硬性配置）

模块 / 节点	说明	关键参数 / 路径
Qwen Image Edit 模型	多图编辑扩散模型 (FP8)	`diffusion_models/ qwen_image_edit_fp8_e4m3fn.safetensors`
文本编码器	Qwen2.5-VL 7B FP8	`text_encoders/ qwen_2.5_vl_7b_fp8_scaled.safetensors`
VAE	专用图像VAE	`vae/ qwen_image_vae.safetensors`
LoRA (加速)	Qwen-Image-Lightning 4步LoRA	`loras/ Qwen-Image-Lightning-4steps-V1.0.safetensors` ✅ 推理步数: 4步
Image Stitch (核心节点)	将两张参考图并排拼接为单图	方向: 水平 (side-by-side)
Scale Image to Total Pixels	缩放拼接后的图像至 ≤1M 像素	总像素上限: 1,000,000 px (避免模型超限)
初始Latent (换装流)	编码主图像作为起始噪声	直接取自“Main image”节点，非拼接图
初始Latent (双人交互流)	空白潜变量 (Empty Latent)	自由设定输出尺寸，不偏向任一张参考

两个核心工作流对比

工作流	应用场景	输入图	初始Latent	提示词示例
WF1 · 换装	保留人物身份，替换服装/配饰	主图(人物) + 参考图(服装)	主图编码	“Put the dress on her. Take off her hoodie.”
WF2 · 双人互动	两个角色组合，动作/场景可控	参考图A + 参考图B	空白潜变量 (任意尺寸)	“Two girls holding hands walk down a beautiful street.”

构图逻辑与一致性控制

并排拼接即“上下文”：Qwen原生只接受单图输入，利用 Image Stitch 将两张参考图水平拼接，模型自动理解左侧为主图/右侧为参考。比例尽量保持一致，避免畸变。
主图优先 vs 中立融合：换装WF把主图编码进初始潜空间，所以人物脸型、姿态更保真；双人WF用空白潜变量，模型从两张图自由“捏合”互动姿势，适合创造新构图。
提示词顺序不敏感，但要点出“移除/替换”：Qwen容易“叠加”而非替换（例如把裙子穿在卫衣外面），必须显式要求 Take off … 或 remove …，指令可乱序。
分辨率锚点：拼接后必须缩放到≤1M像素（约1152×864或1280×800），否则推理显存爆炸或细节崩坏。WF2通过空白潜变量可直接设置宽高比（如1024×768）。

最容易失败的地方
- 模型装错路径：FP8模型必须放在 diffusion_models 而非 unet，LoRA放在 loras，编码器放在 text_encoders。用ComfyUI Manager的缺失模型对话框一键下载最稳。
- “穿戴叠加”陷阱：只写“穿上裙子”会保留原外套，必须加“脱掉/移除”指令。Qwen对逻辑冲突比较宽容，但反向指令（先脱后穿）仍需显式声明。
- 拼接图尺寸超限：两张1000+px的图直接拼接会超过2M像素，导致OOM或黑图。务必串联 Scale Image to Total Pixels 节点，目标设为1.0M。
高级微调建议
- LoRA强度自适应：Lightning LoRA默认强度1.0，若细节丢失可微调至0.85～0.95；若风格不符可用0.7并增至6步（但失去4步优势）。
- 双人姿势控制：在空白潜变量WF中，先用 Empty Latent 设置矩形画布（如3:2），再用提示词强化交互词（“arm around shoulder”“holding hands”），必要时加入背景描述，避免模型把两人“P”到奇怪场景。
- 局部重绘混合模式：如果只想改上装而保留背景，可以将主图+蒙版输入到另一个分支，利用Qwen的inpaint能力（需单独蒙版节点），本作未展开但高手可以拼接蒙版实现区域编辑。