TOKREPO · 主题包

稳定

AI 图像生成全家桶

10 件套，给规模化跑图的开发者和创作者。ComfyUI 节点图、AUTOMATIC1111 + Fooocus 跑 SDXL、InvokeAI 上生产、Flux + ControlNet 做空间控制、Kohya 训 LoRA、Diffusers 做 Python 底座、AnimateDiff 出动画、Replicate 云端批量 — 按复利顺序装。

10 个资产

关于这个主题包

这个 pack 包含什么

这是一个真正搞图像生成的工程师周末会装的核心 — 不是 Civitai 收藏夹倾倒。每个都是开源、活跃维护、值得占磁盘的。安装顺序经过精心安排：每个工具回答前一个工具产生的问题。

如果你一周只生成一张图，本 pack 你用不上 — Midjourney 就够了。本 pack 针对的是这些场景：要可复用可版本化的工作流图、要训练自己的人物 / 风格 LoRA、要 ControlNet 姿态 / 深度条件控制、要在 Replicate 上批量跑 10k 张、要把图像生成通过 MCP 接进 Claude / Codex agent。2026 年这一摞需求只能用开源解决。

它们怎么协同

ComfyUI (工作流引擎)
   │
   ├─ 从磁盘加载 checkpoints + LoRAs + ControlNet 模型
   │
   └─ 节点底层调 Diffusers (HF)
         │
         ├─ Kohya 训出 ComfyUI 要加载的 LoRA
         │
         └─ AnimateDiff 是 ComfyUI 的一个节点，不是独立 app

AUTOMATIC1111 / Fooocus — 基础模型快速健康检查
InvokeAI — 生产画布 + 队列（和 ComfyUI 平行）

ControlNet — 模型插件，活在以上所有工具内部

Replicate — 同样的模型文件，通过 HTTPS 跑在云端

mcp-image — 把以上任何一个暴露成 MCP 工具

核心组合是 ComfyUI + ControlNet + Kohya + Diffusers。这四件套覆盖：什么都能生成、能训自己的风格、能加姿态 / 深度 / 边缘条件、UI 走不通的时候下沉到 Python。pack 里其他全都是绕这四件套的专用适配器。

你会遇到的取舍

ComfyUI vs AUTOMATIC1111 vs InvokeAI — A1111 用来快速测模型。ComfyUI 用来搭可复用的正经工作流。InvokeAI 给需要真队列 + 元数据的团队。三个都装、各司其职，别想用一个工具搞定三件事。
Fooocus vs ComfyUI — Fooocus 默认参数好，ComfyUI 天花板高。Fooocus 给设计师同事，ComfyUI 留自己用。
本地训 LoRA vs 租 A100 — 1024 分辨率 SDXL LoRA 在 Kohya 上：4090 大概 1.5-3 小时，A100 大概 25-45 分钟（约 $1.50）。一周不到一个 LoRA 就租；多了就本地买。
Replicate vs 自建 — Replicate 适合脉冲负载和本地跑不动的大模型（Flux dev 满精度要 24GB+）。稳定吞吐量的话，自己一张 4090 在 SDXL 量级下不到 30 天回本。
MCP 图像生成 vs 直接 API — 只在你的 agent 真的需要出图时才接 mcp-image，否则就是个没人用的活动部件。

常见踩坑

磁盘按 30GB / checkpoint 起步消失 — SDXL base 约 7GB、Flux dev 约 24GB、加 LoRA（每个 150MB）、加 ControlNet 模型（每个约 1.5GB）、加 VAE。认真搞至少 500GB SSD 起步。
CUDA / xformers 版本漂移 — 上面每个工具想要的 PyTorch + CUDA + xformers 组合都略不同。一个 venv 一个工具，pin 死版本。别想让 ComfyUI + A1111 + InvokeAI 共享一个 venv。
Kohya 训出来的 LoRA 一眼坏了的人物 — 99% 是数据集问题（10 张 768px 是底线，30+ 张 1024px 才安全），不是超参问题。先把数据集打磨好再碰学习率。
ControlNet 模型和 base 不匹配 — SDXL 的 ControlNet 不能用在 SD 1.5 上，反过来也是。不匹配 = 一团噪声。下载前看文件名后缀（_sdxl / _sd15）。
AnimateDiff 第一次跑出来是幻灯片不是动画 — context length / motion scale / 采样步数要联调。先跑官方发布的示例工作流再自己改。

安装 · 一行命令

$ tokrepo install pack/ai-image-generation-pack

丢给 agent，或粘到终端

包内含什么

10 个资产打包就绪

Skill#01

ComfyUI — Node-Based AI Image Generation

The most powerful modular AI image generation GUI with a node/graph editor. Supports Stable Diffusion, Flux, SDXL, ControlNet, and 1000+ custom nodes. 107K+ stars.

by AI Open Source·422 views

$ tokrepo install comfyui-node-based-ai-image-generation-02888d06

Skill#02

Stable Diffusion Web UI by AUTOMATIC1111 — The Definitive Local AI Image Generator

AUTOMATIC1111's Stable Diffusion Web UI is the most popular interface for running Stable Diffusion locally. It supports text-to-image, image-to-image, inpainting, ControlNet, LoRA, embeddings, extensions, and every model variant — all in a self-hosted browser UI.

by Script Depot·323 views

$ tokrepo install stable-diffusion-web-ui-automatic1111-definitive-local-ai-b0727fbf

Skill#03

InvokeAI — Professional Creative Engine for Stable Diffusion

A leading open-source creative engine for Stable Diffusion and Flux models with a polished WebUI, node-based workflows, and production-grade image generation.

by Script Depot·267 views

$ tokrepo install invokeai-professional-creative-engine-stable-diffusion-4d4c2b85

Prompt#04

Fooocus — Focus on Prompting and Generating, Not the Tooling

Fooocus is a Stable Diffusion image generator that strips away every dial and toggle. Just type a prompt and get magazine-quality results — opinionated defaults, automatic prompt engineering, and SDXL-grade output with one click.

by Script Depot·215 views

$ tokrepo install fooocus-focus-prompting-generating-not-tooling-b0b1b970

Skill#05

ControlNet — Add Spatial Control to Diffusion Models

ControlNet lets you add precise spatial conditioning such as edge maps, depth, and pose to Stable Diffusion, giving fine-grained control over AI image generation.

by AI Open Source·141 views

$ tokrepo install controlnet-add-spatial-control-diffusion-models-74fc6ef5

Skill#06

Diffusers — Universal Video & Image Generation Hub

Hugging Face's diffusion model library. Run CogVideoX, AnimateDiff, Stable Video Diffusion, and 50+ video/image models with a unified API. 33,200+ stars.

by Script Depot·391 views

$ tokrepo install diffusers-universal-video-image-generation-hub-4ef1950f

Skill#07

Kohya sd-scripts — Training Scripts for Stable Diffusion and Flux

Comprehensive training, fine-tuning, and generation scripts for Stable Diffusion, SDXL, and Flux models. The standard toolkit for LoRA, DreamBooth, and textual inversion training.

by AI Open Source·261 views

$ tokrepo install kohya-sd-scripts-training-scripts-stable-diffusion-flux-cd2c15cb

Skill#08

AnimateDiff — Plug-and-Play Animation for Diffusion Models

A plug-and-play motion module that turns community text-to-image Stable Diffusion models into animation generators without additional training. ICLR 2024 Spotlight paper.

by AI Open Source·227 views

$ tokrepo install animatediff-plug-play-animation-diffusion-models-04d7fee0

Skill#09

Replicate — Run AI Models via Simple API Calls

Cloud platform to run open-source AI models with a simple API. Replicate hosts Llama, Stable Diffusion, Whisper, and thousands of models — no GPU setup or Docker required.

by Replicate·321 views

$ tokrepo install replicate-run-ai-models-via-simple-api-calls-e80aca76

MCP#10

mcp-image — MCP Image Generation & Editing Server

mcp-image is an MCP server for image generation/editing with quality presets; verified 110★ and documents `npx -y mcp-image` configs for Cursor and Claude.

by MCP Hub·166 views

$ tokrepo install mcp-image-mcp-image-generation-editing-server

常见问题

跑这套需要多少显存？

12GB 是 SDXL 通过 ComfyUI / A1111 跑图的底线。16GB 能在 Kohya 上训 SDXL LoRA。24GB（4090）是舒适目标 — 能本地跑 Flux dev、合理时间训 LoRA、能扛 ControlNet + LoRA 叠加。12GB 以下只能跑 SD 1.5 和量化 Flux 变体，重活推荐丢给 Replicate。

为啥不直接用 Midjourney？

Midjourney 适合一次性的创意出图。本 pack 针对 Midjourney 干不了的场景：训练你自己人物 / 产品的 LoRA、从输入图做 ControlNet 姿态条件、10k 张图带一致元数据的批量任务、通过 MCP 把图像生成接进 Claude Code / Codex agent、敏感输入下 100% 离线运行。如果这些场景都用不上 — Midjourney 就是对的答案。

ComfyUI 看着挺吓人 — 要不先从 AUTOMATIC1111 开始？

从你能先装上的那个开始。A1111 上手快（文本框 + 点生成）。ComfyUI 第一小时陡，但一旦你想要可版本化、可分享、可确定性重跑的工作流，立刻回本。如果你是开发者，ComfyUI 的 JSON 序列化图谱一天内就会让你感到「对味」。

Diffusers 和 ComfyUI 都要装吗？

一开始不用。ComfyUI 底层就是 Diffusers，你通过节点图就拿到了 Diffusers 的能力。直接用 Diffusers 的时机是：要脚本化批量、要搭自定义 pipeline（一次调用里 SDXL + IP-Adapter + ControlNet + Refiner）、或者要把图像生成嵌进更大的 Python 应用。交互式跑图的话，光 ComfyUI 就够了。

训 LoRA 难吗？

机械上不难 — Kohya sd-scripts 的默认参数能用。难的是数据集：30+ 张多样、高分辨率、清晰打标的目标图。机械操作半天学完，数据集打磨才是真正的手艺。第一个 LoRA 给自己一个周末，前两次有心理准备会扔掉。

更多主题包

12 个主题包 · 80+ 精选资产

回首页浏览全部精选合集

返回主题包总览