AI 图像生成全家桶
10 件套,给规模化跑图的开发者和创作者。ComfyUI 节点图、AUTOMATIC1111 + Fooocus 跑 SDXL、InvokeAI 上生产、Flux + ControlNet 做空间控制、Kohya 训 LoRA、Diffusers 做 Python 底座、AnimateDiff 出动画、Replicate 云端批量 — 按复利顺序装。
这个 pack 包含什么
这是一个真正搞图像生成的工程师周末会装的核心 — 不是 Civitai 收藏夹倾倒。每个都是开源、活跃维护、值得占磁盘的。安装顺序经过精心安排:每个工具回答前一个工具产生的问题。
如果你一周只生成一张图,本 pack 你用不上 — Midjourney 就够了。本 pack 针对的是这些场景:要可复用可版本化的工作流图、要训练自己的人物 / 风格 LoRA、要 ControlNet 姿态 / 深度条件控制、要在 Replicate 上批量跑 10k 张、要把图像生成通过 MCP 接进 Claude / Codex agent。2026 年这一摞需求只能用开源解决。
推荐安装顺序
- ComfyUI — 工作流引擎。从这里开始,因为后面所有工具最终都会接到 ComfyUI 的某个节点里。图形化、JSON 可序列化的工作流,1000+ 自定义节点支持 Flux / SDXL / ControlNet / LoRA。装完 ComfyUI,其他东西都只是
models/checkpoints/里的一个文件。 - AUTOMATIC1111 (SD Web UI) — 基础模型 UI。新下载一个 SDXL / SD 1.5 checkpoint 想快速验证、不想接节点的最低门槛方式。留着做快速健康检查;正经生产还是 ComfyUI。
- InvokeAI — 生产级画布 + 队列。A1111 是研究员的玩具场,InvokeAI 才是真 UI:团队友好的元数据、prompt 库、队列管理。出图量真正起来的时候上它。
- Fooocus — 有主见的 SDXL,默认参数香。「就给我一张好图」的兄弟版。适合团队里的非工程师,也是「好的默认参数长什么样」的参考。
- ControlNet — 空间条件控制。能生成之后立刻就会想加:姿态、深度、边缘、分割。ControlNet 就是答案;它不是独立 app,而是在 ComfyUI / A1111 / InvokeAI / Diffusers 里加载的模型插件。
- Diffusers (Hugging Face) — Python 底座。上面所有工具底层都是 Diffusers。当你要脚本化批量 5 万张、从 notebook 调用、或者组合 pipeline(SDXL + IP-Adapter + ControlNet + Refiner)— 就下沉到 Diffusers。别从这里开始,要的时候才下沉。
- Kohya sd-scripts — LoRA 训练事实标准。SD 1.5 / SDXL / Flux 的 LoRA 训练社区都用它。跑两周图你就会想要一个人物 / 风格 LoRA — 社区都是这么训的。配 24GB 显卡或者租一小时 A100。
- AnimateDiff — 扩散模型的运动模块。在 ComfyUI 里接一个节点,现有图像模型直接出 16 帧视频片段。不学新模型族进入 AI 视频的最便宜入口。
- Replicate — 本地不够用时上云批量。要 10k 张图,或者模型太大跑不动(Flux dev 满精度要 24GB+),API 推给 Replicate。按秒计费。同样的模型 — 把 prompt JSON 推过去,拿 URL 回来。
- mcp-image — 给 agent 的 MCP server。最新一层:通过 MCP 把图像生成暴露成 Claude Code / Codex / Gemini CLI 的工具。让 agent 自己「画好图嵌进文档」而不是来求你。
它们怎么协同
ComfyUI (工作流引擎)
│
├─ 从磁盘加载 checkpoints + LoRAs + ControlNet 模型
│
└─ 节点底层调 Diffusers (HF)
│
├─ Kohya 训出 ComfyUI 要加载的 LoRA
│
└─ AnimateDiff 是 ComfyUI 的一个节点,不是独立 app
AUTOMATIC1111 / Fooocus — 基础模型快速健康检查
InvokeAI — 生产画布 + 队列(和 ComfyUI 平行)
ControlNet — 模型插件,活在以上所有工具内部
Replicate — 同样的模型文件,通过 HTTPS 跑在云端
mcp-image — 把以上任何一个暴露成 MCP 工具
核心组合是 ComfyUI + ControlNet + Kohya + Diffusers。这四件套覆盖:什么都能生成、能训自己的风格、能加姿态 / 深度 / 边缘条件、UI 走不通的时候下沉到 Python。pack 里其他全都是绕这四件套的专用适配器。
你会遇到的取舍
- ComfyUI vs AUTOMATIC1111 vs InvokeAI — A1111 用来快速测模型。ComfyUI 用来搭可复用的正经工作流。InvokeAI 给需要真队列 + 元数据的团队。三个都装、各司其职,别想用一个工具搞定三件事。
- Fooocus vs ComfyUI — Fooocus 默认参数好,ComfyUI 天花板高。Fooocus 给设计师同事,ComfyUI 留自己用。
- 本地训 LoRA vs 租 A100 — 1024 分辨率 SDXL LoRA 在 Kohya 上:4090 大概 1.5-3 小时,A100 大概 25-45 分钟(约 $1.50)。一周不到一个 LoRA 就租;多了就本地买。
- Replicate vs 自建 — Replicate 适合脉冲负载和本地跑不动的大模型(Flux dev 满精度要 24GB+)。稳定吞吐量的话,自己一张 4090 在 SDXL 量级下不到 30 天回本。
- MCP 图像生成 vs 直接 API — 只在你的 agent 真的需要出图时才接 mcp-image,否则就是个没人用的活动部件。
常见踩坑
- 磁盘按 30GB / checkpoint 起步消失 — SDXL base 约 7GB、Flux dev 约 24GB、加 LoRA(每个 150MB)、加 ControlNet 模型(每个约 1.5GB)、加 VAE。认真搞至少 500GB SSD 起步。
- CUDA / xformers 版本漂移 — 上面每个工具想要的 PyTorch + CUDA + xformers 组合都略不同。一个 venv 一个工具,pin 死版本。别想让 ComfyUI + A1111 + InvokeAI 共享一个 venv。
- Kohya 训出来的 LoRA 一眼坏了的人物 — 99% 是数据集问题(10 张 768px 是底线,30+ 张 1024px 才安全),不是超参问题。先把数据集打磨好再碰学习率。
- ControlNet 模型和 base 不匹配 — SDXL 的 ControlNet 不能用在 SD 1.5 上,反过来也是。不匹配 = 一团噪声。下载前看文件名后缀(
_sdxl/_sd15)。 - AnimateDiff 第一次跑出来是幻灯片不是动画 — context length / motion scale / 采样步数要联调。先跑官方发布的示例工作流再自己改。
10 个资产打包就绪
常见问题
跑这套需要多少显存?
12GB 是 SDXL 通过 ComfyUI / A1111 跑图的底线。16GB 能在 Kohya 上训 SDXL LoRA。24GB(4090)是舒适目标 — 能本地跑 Flux dev、合理时间训 LoRA、能扛 ControlNet + LoRA 叠加。12GB 以下只能跑 SD 1.5 和量化 Flux 变体,重活推荐丢给 Replicate。
为啥不直接用 Midjourney?
Midjourney 适合一次性的创意出图。本 pack 针对 Midjourney 干不了的场景:训练你自己人物 / 产品的 LoRA、从输入图做 ControlNet 姿态条件、10k 张图带一致元数据的批量任务、通过 MCP 把图像生成接进 Claude Code / Codex agent、敏感输入下 100% 离线运行。如果这些场景都用不上 — Midjourney 就是对的答案。
ComfyUI 看着挺吓人 — 要不先从 AUTOMATIC1111 开始?
从你能先装上的那个开始。A1111 上手快(文本框 + 点生成)。ComfyUI 第一小时陡,但一旦你想要可版本化、可分享、可确定性重跑的工作流,立刻回本。如果你是开发者,ComfyUI 的 JSON 序列化图谱一天内就会让你感到「对味」。
Diffusers 和 ComfyUI 都要装吗?
一开始不用。ComfyUI 底层就是 Diffusers,你通过节点图就拿到了 Diffusers 的能力。直接用 Diffusers 的时机是:要脚本化批量、要搭自定义 pipeline(一次调用里 SDXL + IP-Adapter + ControlNet + Refiner)、或者要把图像生成嵌进更大的 Python 应用。交互式跑图的话,光 ComfyUI 就够了。
训 LoRA 难吗?
机械上不难 — Kohya sd-scripts 的默认参数能用。难的是数据集:30+ 张多样、高分辨率、清晰打标的目标图。机械操作半天学完,数据集打磨才是真正的手艺。第一个 LoRA 给自己一个周末,前两次有心理准备会扔掉。