🚀 核心实战价值
一句话说明:在ComfyUI中集成Meta SAM 3,仅用一句文字描述(如“红色外套的人”或“中间的水母”)即可一键生成精准分割蒙版与边界框,告别繁琐的手动点选和Grounding DINO+SAM2复合流程,成倍提升AI视频/图像后期、背景替换、目标跟踪的效率。
📊 核心参数表 / 工作流拆解
| 节点/组件 | 功能 | 关键参数 / 模型 |
|---|---|---|
| Load Image | 载入待分割图像(支持任意尺寸) | 直接选择本地图片;工作流预置测试图 |
| SAM3 模型加载器 (custom node) | 加载Meta SAM 3权重 | 模型文件:sam3.pt;路径:ComfyUI/models/sam3/需HuggingFace授权 |
| 文本提示节点 | 输入分割描述词(例如:“girl”“boy”“person in red jacket”) | 支持自然语言;区分单数/复数、属性描述 |
| Confidence Threshold (置信阈值) | 过滤低置信度预测框/蒙版 | 默认0.2;调至0.4可剔除误检(如将男孩识别为女孩) |
| SAM3 Point Collector (点选模式) | 在图像上点击正样本点,仅分割指定目标 | 结合文本提示:点+描述可精准锁定单一实例 |
| Preview / Mask输出 | 显示边界框、分割蒙版、坐标数据 | 可逐一下载蒙版,坐标输出用于下游工作流 |
🎨 画面/镜头表现技巧
构图与镜头逻辑: SAM 3的核心升级在于“文本驱动分割”,对于复杂多人场景,通过置信度阈值和属性细化提示(如“女孩”+提高阈值到0.4)可精确提取特定人群,无需点选。对于需要角色唯一性的镜头(如视频跟踪),先使用点+文本混合模式:在目标主体上点击一次,同时输入“person”或“girl”,模型会将点击的实例与语义锁定,避免漂移。配合后续视频工作流(如Dancing Spaghetti),蒙版边缘平滑,背景替换时几乎无闪烁。声音配合方面,因模型无音频能力,建议在后期合成时利用蒙版区域叠加音效(例如只给分割出的角色增加脚步或环境混响)。
💡 避坑指南 & 高级技巧
- 最容易失败的地方: 模型访问权限未申请——SAM 3在HuggingFace上处于“gated”状态,必须先登录并提交请求(通常24小时内审批),否则ComfyUI加载模型报错。另外,
ComfyUI-SAM3自定义节点必须通过ComfyUI Manager安装,手动安装容易遗漏依赖。 - 高级微调1 · 置信度反选: 当提示“girl”误检到男孩时,不要盲目降低阈值,反而调高阈值至0.4~0.5,模型只保留最高置信度的检测,误报几乎消失。配合提示词细化(如“girl with long hair”)效果更极致。
- 高级微调2 · 点+文本混合锁定: 在“点选分割”工作流中,即使只用点也能分割,但加上文本提示(例如点选一个人并输入“man”)可以显著提升边缘质量,并防止点击点靠近其他物体时发生歧义。这是SAM 3相比SAM 2的杀手锏——多模态提示融合。
- 视频追踪预告: 本文聚焦图像,但工作流稍加修改可直接用于视频帧序列(下一期教程),核心是保持每帧的prompt一致,并利用SAM 3的时序记忆(内置tracking能力)减少抖动。
⚙️ 手把手:纯提示词分割工作流
- 安装模型:在
ComfyUI/models/sam3/放入sam3.pt(需先到HuggingFace申请访问)。 - 加载工作流:下载 sam3_image_segmentation.json 拖入ComfyUI。
- 补节点:通过ComfyUI Manager → Install Missing Custom Nodes 安装 PozzettiAndrea/ComfyUI-SAM3。
- 设置图像与提示:Load Image选择图片,在文本节点输入描述(例如“jellyfish at the center”) 。
- 调节阈值:若结果混杂,提高 confidence threshold(例如从0.2→0.4)过滤误检。
- 运行:输出包含边界框、蒙版叠加图,并可下载单独mask。
示例效果: 输入水母群图,提示“jellyfish at the center” → 仅中心水母被完美分割(边界框+蒙版)。
🖱️ 点选+提示词混合分割(精准锁定单目标)
- 加载工作流 sam3_segmentation_points.json 并补全节点。
- 在 SAM3 Point Collector 节点预览图像上点击目标物体(出现绿色点)。
- 文本提示框中输入目标类别(如“person”),可选。
- 点击Queue Prompt,蒙版仅包含你点击的那个实例。
典型应用: 多人合照中只分割“穿红色外套的人”,点一下+提示“person in red jacket”即可,无视其他人。
首席技术教练提示: SAM 3的真正爆发力在于文本+点+置信度三者协同。对于AI短剧制作,先对首帧用提示词分割所有角色,再结合视频跟踪蒙版,可实现全自动绿幕替换,节省80%抠像时间。后续教程将解锁视频分割与3D生成,保持关注。