🚀 核心实战价值

一句话说明: 用Qwen Image Edit + ComfyUI,实现单模型多参考图的精准编辑——换装、双人交互、角色融合,只靠自然语言+2张图,无需PS,4步出片。解决“AI编辑只能单图/无法保持角色一致”的痛点。


📊 核心参数表 / 工作流拆解

核心模型与节点速查(表格内参数均为硬性配置)

模块 / 节点 说明 关键参数 / 路径
Qwen Image Edit 模型 多图编辑扩散模型 (FP8) diffusion_models/ qwen_image_edit_fp8_e4m3fn.safetensors
文本编码器 Qwen2.5-VL 7B FP8 text_encoders/ qwen_2.5_vl_7b_fp8_scaled.safetensors
VAE 专用图像VAE vae/ qwen_image_vae.safetensors
LoRA (加速) Qwen-Image-Lightning 4步LoRA loras/ Qwen-Image-Lightning-4steps-V1.0.safetensors
✅ 推理步数: 4步
Image Stitch (核心节点) 将两张参考图并排拼接为单图 方向: 水平 (side-by-side)
Scale Image to Total Pixels 缩放拼接后的图像至 ≤1M 像素 总像素上限: 1,000,000 px (避免模型超限)
初始Latent (换装流) 编码主图像作为起始噪声 直接取自“Main image”节点,非拼接图
初始Latent (双人交互流) 空白潜变量 (Empty Latent) 自由设定输出尺寸,不偏向任一张参考

两个核心工作流对比

工作流 应用场景 输入图 初始Latent 提示词示例
WF1 · 换装 保留人物身份,替换服装/配饰 主图(人物) + 参考图(服装) 主图编码 “Put the dress on her. Take off her hoodie.”
WF2 · 双人互动 两个角色组合,动作/场景可控 参考图A + 参考图B 空白潜变量 (任意尺寸) “Two girls holding hands walk down a beautiful street.”

🎨 画面/镜头表现技巧

构图逻辑与一致性控制

  • 并排拼接即“上下文”:Qwen原生只接受单图输入,利用 Image Stitch 将两张参考图水平拼接,模型自动理解左侧为主图/右侧为参考。比例尽量保持一致,避免畸变。
  • 主图优先 vs 中立融合:换装WF把主图编码进初始潜空间,所以人物脸型、姿态更保真;双人WF用空白潜变量,模型从两张图自由“捏合”互动姿势,适合创造新构图。
  • 提示词顺序不敏感,但要点出“移除/替换”:Qwen容易“叠加”而非替换(例如把裙子穿在卫衣外面),必须显式要求 Take off …remove …,指令可乱序。
  • 分辨率锚点:拼接后必须缩放到≤1M像素(约1152×864或1280×800),否则推理显存爆炸或细节崩坏。WF2通过空白潜变量可直接设置宽高比(如1024×768)。

💡 避坑指南 & 高级技巧

  • 最容易失败的地方
    • 模型装错路径:FP8模型必须放在 diffusion_models 而非 unet,LoRA放在 loras,编码器放在 text_encoders。用ComfyUI Manager的缺失模型对话框一键下载最稳。
    • “穿戴叠加”陷阱:只写“穿上裙子”会保留原外套,必须加“脱掉/移除”指令。Qwen对逻辑冲突比较宽容,但反向指令(先脱后穿)仍需显式声明。
    • 拼接图尺寸超限:两张1000+px的图直接拼接会超过2M像素,导致OOM或黑图。务必串联 Scale Image to Total Pixels 节点,目标设为1.0M。
  • 高级微调建议
    • LoRA强度自适应:Lightning LoRA默认强度1.0,若细节丢失可微调至0.85~0.95;若风格不符可用0.7并增至6步(但失去4步优势)。
    • 双人姿势控制:在空白潜变量WF中,先用 Empty Latent 设置矩形画布(如3:2),再用提示词强化交互词(“arm around shoulder”“holding hands”),必要时加入背景描述,避免模型把两人“P”到奇怪场景。
    • 局部重绘混合模式:如果只想改上装而保留背景,可以将主图+蒙版输入到另一个分支,利用Qwen的inpaint能力(需单独蒙版节点),本作未展开但高手可以拼接蒙版实现区域编辑。

📁 实战资源 & 模型清单

所有模型均来自HuggingFace Comfy-Org 和 lightx2v,可直接下载:

工作流JSON下载 (原创教程配套):

下载后直接拖入ComfyUI,Manager会自动检测缺失节点(需安装ComfyUI Manager)。


🧪 操作四步法 (速查)

  1. 更新ComfyUI → Manager → Update ComfyUI → 重启。
  2. 装模型 → 下载上述4个文件到对应目录,或使用Manager自动下载。
  3. 加载工作流 → 拖入JSON → 上传图片(主图/参考图) → 修改提示词。
  4. 生成 → 点击Queue Prompt,4步即出。

提示:若用Colab,选用 Qwen_Image_Edit 预设,无需手动下载模型。

换装案例效果(左: 原人物+参考裙 → 右: 合成结果)

原人物休闲装
主图:休闲女孩
参考裙子
参考图:裙子
换装结果
输出:穿裙 (脱掉卫衣)

双人互动案例(两张参考图 → 牵手行走)

参考人物A
参考A
参考人物B
参考B (背景人物)
双人合成
输出:牵手街道

🔧 首席技术教练提醒:当你第一次把裙子“穿”在卫衣外面,别怀疑——加一句“Take off her hoodie”即可。这是Qwen的思维惯性,指令越具体,越少“创造性理解”。

基于 Stable Diffusion Art 教程重构 · 实战验证工作流。遵守白底黑字、无深色背景、纯原生列表。