TOKREPO · 主题包

稳定

AI 视频生成包

给从文本或图像生成视频的创作者和开发者准备的十件套：开源模型（CogVideo / Open-Sora / AnimateDiff / Diffusers）、对接 Sora / Veo / Runway / Pika 的商业 API 桥、ControlNet + Motion Canvas 的镜头与运动控制、Real-ESRGAN 超分放大，再加把这些片段串起来的剪辑器。

10 个资产

关于这个主题包

这个 pack 是干嘛的

AI 视频已经不是「一个模型」的事，而是一条流水线：选模型 → 写 prompt → 关键帧约束 → 控制镜头/运动 → 超分放大 → 剪辑。本 pack 把每个环节最值得装的一个挑出来，加起来十件 — 有主见，不求全 — 让你从空白 prompt 走到可看的成片，不用在十个 repo 的 README 之间反复横跳。

这套刻意做了拆分：开源模型负责本地控制、零单价成本，加一个商业 API 桥用于真的需要 Sora 级画质且愿意付钱的时刻。绝大多数实际跑通的流水线都同时用两边。

它们怎么协同

Prompt ─► CogVideo / Open-Sora / Diffusers / Together API
               │
               ▼
        原始 720p 片段
               │
   ControlNet ─┤ （可选：锁构图）
   AnimateDiff ┤ （可选：给静图加运动）
   Motion Canvas ┤ （可选：确定性镜头）
               ▼
        Real-ESRGAN  ─►  4K 放大片段
               │
               ▼
            OpenCut
               │
               ▼
         成片 mp4

关键分水岭：扩散模型「幻觉」出运动，代码工具「指挥」出运动。要惊喜和氛围用扩散（CogVideo / Open-Sora / AnimateDiff）；镜头轨迹一寸不能动、观众一眼看得出漂移就用 Motion Canvas。

你会遇到的取舍

本地 vs API — 本地零单价但耗 GPU 时间和调参；API 出片快画质高，但按秒收费 + 配额限制。迭代用本地，关键镜头用 API。
CogVideo vs Open-Sora — CogVideo 安装更稳、显存门槛低；Open-Sora 在跑得通的时候片段更长更连贯。先用 CogVideo，等长度成为瓶颈再换。
AnimateDiff vs 原生视频模型 — AnimateDiff 是把运动模块焊到 SD checkpoint 上（风格库巨大，连贯性一般）；原生视频模型端到端在视频上训练（运动干净，风格库少）。看内容：风格化 → AnimateDiff，写实 → CogVideo / Open-Sora。
Real-ESRGAN vs 付费超分 — Real-ESRGAN 免费、对 Web 交付够用；Topaz Video AI 这类付费工具在人脸细节上更锐，但要钱。先用 Real-ESRGAN 交付，被甲方挑出来再升级。

常见踩坑

显存数学 — CogVideo-5B 跑 720p 大约 24 GB。Open-Sora 经常要 40 GB+。租 GPU 之前先看 model card。
跨帧 prompt 漂移 — 任何扩散模型的长镜头大约 3 秒后就开始角色 / 光线漂移。3 秒为段生成，在 OpenCut 里拼，比硬刚 10 秒一镜到底省事。
音频是独立环节 — 这套工具都不出匹配音轨。规划单独的 TTS / SFX 流程，最后在 OpenCut 合成。
商业 API 条款 — 每家商业生成商在商用、训练 opt-out、水印上规则都不一样。客户项目发稿前先看清 TOS。

安装 · 一行命令

$ tokrepo install pack/ai-video-generation-pack

丢给 agent，或粘到终端

包内含什么

10 个资产打包就绪

Skill#01

CogVideo — Text and Image to Video Generation

An open-source video generation framework from Zhipu AI supporting text-to-video and image-to-video with CogVideoX models. Generates high-quality clips up to 6 seconds.

by Script Depot·366 views

$ tokrepo install cogvideo-text-image-video-generation-7e2317bb

Skill#02

Open-Sora — Open-Source Text-to-Video Generation

Open-source alternative to Sora by HPC-AI Tech. Generate videos from text prompts with an 11B parameter model. Apache 2.0 licensed. 28,800+ stars.

by Script Depot·393 views

$ tokrepo install open-sora-open-source-text-video-generation-ff30d766

Skill#03

Together AI Video Generation Skill for Claude Code

Skill that teaches Claude Code Together AI's video generation API. Covers text-to-video, image-to-video, and keyframe control for AI-powered video creation workflows.

by Together AI·256 views

$ tokrepo install together-ai-video-generation-skill-claude-code-d848ded0

Skill#04

Diffusers — Universal Video & Image Generation Hub

Hugging Face's diffusion model library. Run CogVideoX, AnimateDiff, Stable Video Diffusion, and 50+ video/image models with a unified API. 33,200+ stars.

by Script Depot·394 views

$ tokrepo install diffusers-universal-video-image-generation-hub-4ef1950f

Skill#05

AnimateDiff — Plug-and-Play Animation for Diffusion Models

A plug-and-play motion module that turns community text-to-image Stable Diffusion models into animation generators without additional training. ICLR 2024 Spotlight paper.

by AI Open Source·235 views

$ tokrepo install animatediff-plug-play-animation-diffusion-models-04d7fee0

Skill#06

Real-ESRGAN — Practical Image and Video Super-Resolution

General-purpose image and video restoration tool that trains on pure synthetic data to handle real-world degradations including blur, noise, JPEG compression, and resize artifacts.

by AI Open Source·166 views

$ tokrepo install real-esrgan-practical-image-video-super-resolution-73d0fc65

Skill#07

ControlNet — Add Spatial Control to Diffusion Models

ControlNet lets you add precise spatial conditioning such as edge maps, depth, and pose to Stable Diffusion, giving fine-grained control over AI image generation.

by AI Open Source·142 views

$ tokrepo install controlnet-add-spatial-control-diffusion-models-74fc6ef5

Skill#08

Motion Canvas — Create Animated Videos with Code

A TypeScript library and editor for creating publication-quality animated videos programmatically, combining the precision of code with a visual preview workflow.

by AI Open Source·165 views

$ tokrepo install motion-canvas-create-animated-videos-code-1a626bf6

Skill#09

OpenCut — Open-Source AI Video Editor

An open-source alternative to CapCut for video editing with AI-assisted features, timeline editing, and professional export options.

by Script Depot·295 views

$ tokrepo install opencut-open-source-ai-video-editor-f40e235a

Skill#10

Generative Media Skills — muapi + npx skills add

Generative Media Skills is a multi-modal skill library: run image/video recipes via muapi-cli, installable into Claude Code/Cursor with `npx skills add`.

by Skill Factory·260 views

$ tokrepo install generative-media-skills-muapi-npx-skills-add

常见问题

从 CogVideo 还是 Open-Sora 开始？

没有 40+ GB GPU 和「必须更长镜头」的明确理由，就从 CogVideo 开始。CogVideo 单卡 24 GB 能跑，文档更全，常见报错都有解。等 CogVideo 的片段长度上限成为瓶颈，再换 Open-Sora — 不要更早。

真的需要同时装开源模型和商业 API skill 吗？

实际跑通的流水线大多两个都装。本地模型给你零单价的迭代、确定的 seed、自由的实验空间 — 适合一个 prompt 试 50 个变体。商业 API（Together AI skill 或生成式媒体 Skill）给你 Sora / Veo / Runway 级的成片画质 — 适合最后那几个关键镜头。一边迭代一边交付，分工明确。

怎么控制镜头，不只是主体？

两条路。对扩散模型，把镜头动词写进 prompt（「slow dolly forward」「static lock-off」「orbit 90 degrees」），在电影 caption 上训练过的模型懂这套词汇。镜头需要精确取景或轨迹时，换 Motion Canvas 用代码写运动，再把扩散输出合成进框定好的镜头里。

ControlNet 不是给图像用的吗，怎么用在视频？

ControlNet 是把一个结构信号（pose / depth / canny）注入到扩散去噪步骤里。当那一步恰好是视频生成的第一帧时，整个片段都继承了这个构图。要让生成视频稳在指定构图里（比如产品镜头、角色固定姿势），这是最干净的办法 — 你不能让模型自由发挥版面。

一台单 GPU 机能不能跑完整条流水线？

能，前提是把各阶段串行而不是并行。先用 CogVideo 生成（24 GB），卸载，再跑 Real-ESRGAN（约 6 GB），最后 OpenCut 走 CPU。瓶颈在生成那一步，下游环节都很便宜。如果只有 16 GB 卡，要么降到 CogVideo 小尺寸版本，要么让生成走商业 API，把超分 + 剪辑留在本地。

更多主题包

12 个主题包 · 80+ 精选资产

回首页浏览全部精选合集

返回主题包总览

AI 视频生成包

这个 pack 是干嘛的

推荐安装顺序

1. 选模型

2. 写 prompt

3. 关键帧约束

4. 加运动

5. 放大

6. 剪辑