TOKREPO · 主题包
本周新建

AI 图像生成全家桶

10 件套,给规模化跑图的开发者和创作者。ComfyUI 节点图、AUTOMATIC1111 + Fooocus 跑 SDXL、InvokeAI 上生产、Flux + ControlNet 做空间控制、Kohya 训 LoRA、Diffusers 做 Python 底座、AnimateDiff 出动画、Replicate 云端批量 — 按复利顺序装。

10 个资产

这个 pack 包含什么

这是一个真正搞图像生成的工程师周末会装的核心 — 不是 Civitai 收藏夹倾倒。每个都是开源活跃维护值得占磁盘的。安装顺序经过精心安排:每个工具回答前一个工具产生的问题。

如果你一周只生成一张图,本 pack 你用不上 — Midjourney 就够了。本 pack 针对的是这些场景:要可复用可版本化的工作流图、要训练自己的人物 / 风格 LoRA、要 ControlNet 姿态 / 深度条件控制、要在 Replicate 上批量跑 10k 张、要把图像生成通过 MCP 接进 Claude / Codex agent。2026 年这一摞需求只能用开源解决。

推荐安装顺序

  1. ComfyUI — 工作流引擎。从这里开始,因为后面所有工具最终都会接到 ComfyUI 的某个节点里。图形化、JSON 可序列化的工作流,1000+ 自定义节点支持 Flux / SDXL / ControlNet / LoRA。装完 ComfyUI,其他东西都只是 models/checkpoints/ 里的一个文件。
  2. AUTOMATIC1111 (SD Web UI) — 基础模型 UI。新下载一个 SDXL / SD 1.5 checkpoint 想快速验证、不想接节点的最低门槛方式。留着做快速健康检查;正经生产还是 ComfyUI。
  3. InvokeAI — 生产级画布 + 队列。A1111 是研究员的玩具场,InvokeAI 才是真 UI:团队友好的元数据、prompt 库、队列管理。出图量真正起来的时候上它。
  4. Fooocus — 有主见的 SDXL,默认参数香。「就给我一张好图」的兄弟版。适合团队里的非工程师,也是「好的默认参数长什么样」的参考。
  5. ControlNet — 空间条件控制。能生成之后立刻就会想加:姿态、深度、边缘、分割。ControlNet 就是答案;它不是独立 app,而是在 ComfyUI / A1111 / InvokeAI / Diffusers 里加载的模型插件。
  6. Diffusers (Hugging Face) — Python 底座。上面所有工具底层都是 Diffusers。当你要脚本化批量 5 万张、从 notebook 调用、或者组合 pipeline(SDXL + IP-Adapter + ControlNet + Refiner)— 就下沉到 Diffusers。别从这里开始,要的时候才下沉。
  7. Kohya sd-scripts — LoRA 训练事实标准。SD 1.5 / SDXL / Flux 的 LoRA 训练社区都用它。跑两周图你就会想要一个人物 / 风格 LoRA — 社区都是这么训的。配 24GB 显卡或者租一小时 A100。
  8. AnimateDiff — 扩散模型的运动模块。在 ComfyUI 里接一个节点,现有图像模型直接出 16 帧视频片段。不学新模型族进入 AI 视频的最便宜入口。
  9. Replicate — 本地不够用时上云批量。要 10k 张图,或者模型太大跑不动(Flux dev 满精度要 24GB+),API 推给 Replicate。按秒计费。同样的模型 — 把 prompt JSON 推过去,拿 URL 回来。
  10. mcp-image — 给 agent 的 MCP server。最新一层:通过 MCP 把图像生成暴露成 Claude Code / Codex / Gemini CLI 的工具。让 agent 自己「画好图嵌进文档」而不是来求你。

它们怎么协同

ComfyUI (工作流引擎)
   │
   ├─ 从磁盘加载 checkpoints + LoRAs + ControlNet 模型
   │
   └─ 节点底层调 Diffusers (HF)
         │
         ├─ Kohya 训出 ComfyUI 要加载的 LoRA
         │
         └─ AnimateDiff 是 ComfyUI 的一个节点,不是独立 app

AUTOMATIC1111 / Fooocus — 基础模型快速健康检查
InvokeAI — 生产画布 + 队列(和 ComfyUI 平行)

ControlNet — 模型插件,活在以上所有工具内部

Replicate — 同样的模型文件,通过 HTTPS 跑在云端

mcp-image — 把以上任何一个暴露成 MCP 工具

核心组合是 ComfyUI + ControlNet + Kohya + Diffusers。这四件套覆盖:什么都能生成、能训自己的风格、能加姿态 / 深度 / 边缘条件、UI 走不通的时候下沉到 Python。pack 里其他全都是绕这四件套的专用适配器。

你会遇到的取舍

  • ComfyUI vs AUTOMATIC1111 vs InvokeAI — A1111 用来快速测模型。ComfyUI 用来搭可复用的正经工作流。InvokeAI 给需要真队列 + 元数据的团队。三个都装、各司其职,别想用一个工具搞定三件事。
  • Fooocus vs ComfyUI — Fooocus 默认参数好,ComfyUI 天花板高。Fooocus 给设计师同事,ComfyUI 留自己用。
  • 本地训 LoRA vs 租 A100 — 1024 分辨率 SDXL LoRA 在 Kohya 上:4090 大概 1.5-3 小时,A100 大概 25-45 分钟(约 $1.50)。一周不到一个 LoRA 就租;多了就本地买。
  • Replicate vs 自建 — Replicate 适合脉冲负载和本地跑不动的大模型(Flux dev 满精度要 24GB+)。稳定吞吐量的话,自己一张 4090 在 SDXL 量级下不到 30 天回本。
  • MCP 图像生成 vs 直接 API — 只在你的 agent 真的需要出图时才接 mcp-image,否则就是个没人用的活动部件。

常见踩坑

  • 磁盘按 30GB / checkpoint 起步消失 — SDXL base 约 7GB、Flux dev 约 24GB、加 LoRA(每个 150MB)、加 ControlNet 模型(每个约 1.5GB)、加 VAE。认真搞至少 500GB SSD 起步。
  • CUDA / xformers 版本漂移 — 上面每个工具想要的 PyTorch + CUDA + xformers 组合都略不同。一个 venv 一个工具,pin 死版本。别想让 ComfyUI + A1111 + InvokeAI 共享一个 venv。
  • Kohya 训出来的 LoRA 一眼坏了的人物 — 99% 是数据集问题(10 张 768px 是底线,30+ 张 1024px 才安全),不是超参问题。先把数据集打磨好再碰学习率。
  • ControlNet 模型和 base 不匹配 — SDXL 的 ControlNet 不能用在 SD 1.5 上,反过来也是。不匹配 = 一团噪声。下载前看文件名后缀(_sdxl / _sd15)。
  • AnimateDiff 第一次跑出来是幻灯片不是动画 — context length / motion scale / 采样步数要联调。先跑官方发布的示例工作流再自己改。
安装 · 一行命令
$ tokrepo install pack/ai-image-generation-pack
丢给 agent,或粘到终端
包内含什么

10 个资产打包就绪

Skill#01
ComfyUI — Node-Based AI Image Generation

The most powerful modular AI image generation GUI with a node/graph editor. Supports Stable Diffusion, Flux, SDXL, ControlNet, and 1000+ custom nodes. 107K+ stars.

by AI Open Source·193 views
$ tokrepo install comfyui-node-based-ai-image-generation-02888d06
Skill#02
Stable Diffusion Web UI by AUTOMATIC1111 — The Definitive Local AI Image Generator

AUTOMATIC1111's Stable Diffusion Web UI is the most popular interface for running Stable Diffusion locally. It supports text-to-image, image-to-image, inpainting, ControlNet, LoRA, embeddings, extensions, and every model variant — all in a self-hosted browser UI.

by Script Depot·120 views
$ tokrepo install stable-diffusion-web-ui-automatic1111-definitive-local-ai-b0727fbf
Skill#03
InvokeAI — Professional Creative Engine for Stable Diffusion

A leading open-source creative engine for Stable Diffusion and Flux models with a polished WebUI, node-based workflows, and production-grade image generation.

by Script Depot·123 views
$ tokrepo install invokeai-professional-creative-engine-stable-diffusion-4d4c2b85
Prompt#04
Fooocus — Focus on Prompting and Generating, Not the Tooling

Fooocus is a Stable Diffusion image generator that strips away every dial and toggle. Just type a prompt and get magazine-quality results — opinionated defaults, automatic prompt engineering, and SDXL-grade output with one click.

by Script Depot·87 views
$ tokrepo install fooocus-focus-prompting-generating-not-tooling-b0b1b970
Skill#05
ControlNet — Add Spatial Control to Diffusion Models

ControlNet lets you add precise spatial conditioning such as edge maps, depth, and pose to Stable Diffusion, giving fine-grained control over AI image generation.

by AI Open Source·13 views
$ tokrepo install controlnet-add-spatial-control-diffusion-models-74fc6ef5
Skill#06
Diffusers — Universal Video & Image Generation Hub

Hugging Face's diffusion model library. Run CogVideoX, AnimateDiff, Stable Video Diffusion, and 50+ video/image models with a unified API. 33,200+ stars.

by Script Depot·170 views
$ tokrepo install diffusers-universal-video-image-generation-hub-4ef1950f
Skill#07
Kohya sd-scripts — Training Scripts for Stable Diffusion and Flux

Comprehensive training, fine-tuning, and generation scripts for Stable Diffusion, SDXL, and Flux models. The standard toolkit for LoRA, DreamBooth, and textual inversion training.

by AI Open Source·106 views
$ tokrepo install kohya-sd-scripts-training-scripts-stable-diffusion-flux-cd2c15cb
Skill#08
AnimateDiff — Plug-and-Play Animation for Diffusion Models

A plug-and-play motion module that turns community text-to-image Stable Diffusion models into animation generators without additional training. ICLR 2024 Spotlight paper.

by AI Open Source·103 views
$ tokrepo install animatediff-plug-play-animation-diffusion-models-04d7fee0
Skill#09
Replicate — Run AI Models via Simple API Calls

Cloud platform to run open-source AI models with a simple API. Replicate hosts Llama, Stable Diffusion, Whisper, and thousands of models — no GPU setup or Docker required.

by Replicate·204 views
$ tokrepo install replicate-run-ai-models-via-simple-api-calls-e80aca76
MCP#10
mcp-image — MCP Image Generation & Editing Server

mcp-image is an MCP server for image generation/editing with quality presets; verified 110★ and documents `npx -y mcp-image` configs for Cursor and Claude.

by MCP Hub·56 views
$ tokrepo install mcp-image-mcp-image-generation-editing-server
常见问题

常见问题

跑这套需要多少显存?

12GB 是 SDXL 通过 ComfyUI / A1111 跑图的底线。16GB 能在 Kohya 上训 SDXL LoRA。24GB(4090)是舒适目标 — 能本地跑 Flux dev、合理时间训 LoRA、能扛 ControlNet + LoRA 叠加。12GB 以下只能跑 SD 1.5 和量化 Flux 变体,重活推荐丢给 Replicate。

为啥不直接用 Midjourney?

Midjourney 适合一次性的创意出图。本 pack 针对 Midjourney 干不了的场景:训练你自己人物 / 产品的 LoRA、从输入图做 ControlNet 姿态条件、10k 张图带一致元数据的批量任务、通过 MCP 把图像生成接进 Claude Code / Codex agent、敏感输入下 100% 离线运行。如果这些场景都用不上 — Midjourney 就是对的答案。

ComfyUI 看着挺吓人 — 要不先从 AUTOMATIC1111 开始?

从你能先装上的那个开始。A1111 上手快(文本框 + 点生成)。ComfyUI 第一小时陡,但一旦你想要可版本化、可分享、可确定性重跑的工作流,立刻回本。如果你是开发者,ComfyUI 的 JSON 序列化图谱一天内就会让你感到「对味」。

Diffusers 和 ComfyUI 都要装吗?

一开始不用。ComfyUI 底层就是 Diffusers,你通过节点图就拿到了 Diffusers 的能力。直接用 Diffusers 的时机是:要脚本化批量、要搭自定义 pipeline(一次调用里 SDXL + IP-Adapter + ControlNet + Refiner)、或者要把图像生成嵌进更大的 Python 应用。交互式跑图的话,光 ComfyUI 就够了。

训 LoRA 难吗?

机械上不难 — Kohya sd-scripts 的默认参数能用。难的是数据集:30+ 张多样、高分辨率、清晰打标的目标图。机械操作半天学完,数据集打磨才是真正的手艺。第一个 LoRA 给自己一个周末,前两次有心理准备会扔掉。

更多主题包

12 个主题包 · 80+ 精选资产

回首页浏览全部精选合集

返回主题包总览