TOKREPO · 主题包
本周新建

AI 视频生成包

给从文本或图像生成视频的创作者和开发者准备的十件套:开源模型(CogVideo / Open-Sora / AnimateDiff / Diffusers)、对接 Sora / Veo / Runway / Pika 的商业 API 桥、ControlNet + Motion Canvas 的镜头与运动控制、Real-ESRGAN 超分放大,再加把这些片段串起来的剪辑器。

10 个资产

这个 pack 是干嘛的

AI 视频已经不是「一个模型」的事,而是一条流水线:选模型 → 写 prompt → 关键帧约束 → 控制镜头/运动 → 超分放大 → 剪辑。本 pack 把每个环节最值得装的一个挑出来,加起来十件 — 有主见,不求全 — 让你从空白 prompt 走到可看的成片,不用在十个 repo 的 README 之间反复横跳。

这套刻意做了拆分:开源模型负责本地控制、零单价成本,加一个商业 API 桥用于真的需要 Sora 级画质且愿意付钱的时刻。绝大多数实际跑通的流水线都同时用两边。

推荐安装顺序

1. 选模型

  • CogVideo(#2458)— 文生视频 + 图生视频。智谱 THUDM 的成熟开源基线,单卡高显存能跑。要一个可复现的本地流水线,从这里起步。
  • Open-Sora(#109)— 复刻 Sora 风格的开源项目。长镜头和运动连贯性比 CogVideo 强,但硬件门槛更高。
  • Diffusers(#111)— Hugging Face 的模型 hub。一个 Python 接口同时加载 CogVideo / Stable Video Diffusion / HunyuanVideo / Wan / Mochi,新模型上线当周就能用。要统一接口就先装 Diffusers,其他模型当权重就行。
  • Together AI Video Generation Skill(#777)— 商业 API 桥。当你需要 Sora / Veo / Runway / Pika 级画质又不想自己管 GPU 集群,就用它。按秒计费,当天可交付。

2. 写 prompt

  • 规则跟图像生成一样,多加运动动词:「dolly forward」「orbit left」「static lock-off」。在电影数据上训练过的模型对电影词汇敏感。
  • 主体放在前 12 个 token 内 — 大多数文生视频模型 attention 仍然偏前部。

3. 关键帧约束

  • ControlNet(#4664)— 喂入 pose / depth / canny 图,锁死构图。当你心里有一个特定取景、不想让模型自由发挥时用它。
  • 图生视频本身就把图作为关键帧 — 这种情况不需要额外 ControlNet。

4. 加运动

  • AnimateDiff(#2463)— Stable Diffusion 家族的即插即用运动模块。把现成的图像生成 pipeline 动起来,不用重训。风格化/动漫内容首选。
  • Motion Canvas(#4618)— 当你要的运动是确定性的(UI 演示、数据可视化、程序化镜头移动),不要跟扩散模型较劲,直接用代码写动画。

5. 放大

  • Real-ESRGAN(#2495)— 实用的 4× 超分模型,支持视频。生成模型大多输出 512×512 或 720p,要交付 4K 就靠它。放在最后一步,编码之前。

6. 剪辑

  • OpenCut(#4027)— 开源 AI 视频剪辑器。裁切、拼接、调色生成的片段。不用导出去闭源 NLE 走一遭。
  • 生成式媒体 Skill(#3602)— muapi + npx skill 安装器,把十几个商业生成 API 统一在一个 CLI 后面。当 agent 需要调用「生成 5 秒片段」而不想每次选 vendor 时很好用。

它们怎么协同

Prompt ─► CogVideo / Open-Sora / Diffusers / Together API
               │
               ▼
        原始 720p 片段
               │
   ControlNet ─┤ (可选:锁构图)
   AnimateDiff ┤ (可选:给静图加运动)
   Motion Canvas ┤ (可选:确定性镜头)
               ▼
        Real-ESRGAN  ─►  4K 放大片段
               │
               ▼
            OpenCut
               │
               ▼
         成片 mp4

关键分水岭:扩散模型「幻觉」出运动,代码工具「指挥」出运动。要惊喜和氛围用扩散(CogVideo / Open-Sora / AnimateDiff);镜头轨迹一寸不能动、观众一眼看得出漂移就用 Motion Canvas。

你会遇到的取舍

  • 本地 vs API — 本地零单价但耗 GPU 时间和调参;API 出片快画质高,但按秒收费 + 配额限制。迭代用本地,关键镜头用 API。
  • CogVideo vs Open-Sora — CogVideo 安装更稳、显存门槛低;Open-Sora 在跑得通的时候片段更长更连贯。先用 CogVideo,等长度成为瓶颈再换。
  • AnimateDiff vs 原生视频模型 — AnimateDiff 是把运动模块焊到 SD checkpoint 上(风格库巨大,连贯性一般);原生视频模型端到端在视频上训练(运动干净,风格库少)。看内容:风格化 → AnimateDiff,写实 → CogVideo / Open-Sora。
  • Real-ESRGAN vs 付费超分 — Real-ESRGAN 免费、对 Web 交付够用;Topaz Video AI 这类付费工具在人脸细节上更锐,但要钱。先用 Real-ESRGAN 交付,被甲方挑出来再升级。

常见踩坑

  • 显存数学 — CogVideo-5B 跑 720p 大约 24 GB。Open-Sora 经常要 40 GB+。租 GPU 之前先看 model card。
  • 跨帧 prompt 漂移 — 任何扩散模型的长镜头大约 3 秒后就开始角色 / 光线漂移。3 秒为段生成,在 OpenCut 里拼,比硬刚 10 秒一镜到底省事。
  • 音频是独立环节 — 这套工具都不出匹配音轨。规划单独的 TTS / SFX 流程,最后在 OpenCut 合成。
  • 商业 API 条款 — 每家商业生成商在商用、训练 opt-out、水印上规则都不一样。客户项目发稿前先看清 TOS。
安装 · 一行命令
$ tokrepo install pack/ai-video-generation-pack
丢给 agent,或粘到终端
包内含什么

10 个资产打包就绪

Skill#01
CogVideo — Text and Image to Video Generation

An open-source video generation framework from Zhipu AI supporting text-to-video and image-to-video with CogVideoX models. Generates high-quality clips up to 6 seconds.

by Script Depot·155 views
$ tokrepo install cogvideo-text-image-video-generation-7e2317bb
Skill#02
Open-Sora — Open-Source Text-to-Video Generation

Open-source alternative to Sora by HPC-AI Tech. Generate videos from text prompts with an 11B parameter model. Apache 2.0 licensed. 28,800+ stars.

by Script Depot·194 views
$ tokrepo install open-sora-open-source-text-video-generation-ff30d766
Skill#03
Together AI Video Generation Skill for Claude Code

Skill that teaches Claude Code Together AI's video generation API. Covers text-to-video, image-to-video, and keyframe control for AI-powered video creation workflows.

by Together AI·113 views
$ tokrepo install together-ai-video-generation-skill-claude-code-d848ded0
Skill#04
Diffusers — Universal Video & Image Generation Hub

Hugging Face's diffusion model library. Run CogVideoX, AnimateDiff, Stable Video Diffusion, and 50+ video/image models with a unified API. 33,200+ stars.

by Script Depot·173 views
$ tokrepo install diffusers-universal-video-image-generation-hub-4ef1950f
Skill#05
AnimateDiff — Plug-and-Play Animation for Diffusion Models

A plug-and-play motion module that turns community text-to-image Stable Diffusion models into animation generators without additional training. ICLR 2024 Spotlight paper.

by AI Open Source·104 views
$ tokrepo install animatediff-plug-play-animation-diffusion-models-04d7fee0
Skill#06
Real-ESRGAN — Practical Image and Video Super-Resolution

General-purpose image and video restoration tool that trains on pure synthetic data to handle real-world degradations including blur, noise, JPEG compression, and resize artifacts.

by AI Open Source·44 views
$ tokrepo install real-esrgan-practical-image-video-super-resolution-73d0fc65
Skill#07
ControlNet — Add Spatial Control to Diffusion Models

ControlNet lets you add precise spatial conditioning such as edge maps, depth, and pose to Stable Diffusion, giving fine-grained control over AI image generation.

by AI Open Source·16 views
$ tokrepo install controlnet-add-spatial-control-diffusion-models-74fc6ef5
Skill#08
Motion Canvas — Create Animated Videos with Code

A TypeScript library and editor for creating publication-quality animated videos programmatically, combining the precision of code with a visual preview workflow.

by AI Open Source·38 views
$ tokrepo install motion-canvas-create-animated-videos-code-1a626bf6
Skill#09
OpenCut — Open-Source AI Video Editor

An open-source alternative to CapCut for video editing with AI-assisted features, timeline editing, and professional export options.

by Script Depot·88 views
$ tokrepo install opencut-open-source-ai-video-editor-f40e235a
Skill#10
Generative Media Skills — muapi + npx skills add

Generative Media Skills is a multi-modal skill library: run image/video recipes via muapi-cli, installable into Claude Code/Cursor with `npx skills add`.

by Skill Factory·92 views
$ tokrepo install generative-media-skills-muapi-npx-skills-add
常见问题

常见问题

从 CogVideo 还是 Open-Sora 开始?

没有 40+ GB GPU 和「必须更长镜头」的明确理由,就从 CogVideo 开始。CogVideo 单卡 24 GB 能跑,文档更全,常见报错都有解。等 CogVideo 的片段长度上限成为瓶颈,再换 Open-Sora — 不要更早。

真的需要同时装开源模型和商业 API skill 吗?

实际跑通的流水线大多两个都装。本地模型给你零单价的迭代、确定的 seed、自由的实验空间 — 适合一个 prompt 试 50 个变体。商业 API(Together AI skill 或生成式媒体 Skill)给你 Sora / Veo / Runway 级的成片画质 — 适合最后那几个关键镜头。一边迭代一边交付,分工明确。

怎么控制镜头,不只是主体?

两条路。对扩散模型,把镜头动词写进 prompt(「slow dolly forward」「static lock-off」「orbit 90 degrees」),在电影 caption 上训练过的模型懂这套词汇。镜头需要精确取景或轨迹时,换 Motion Canvas 用代码写运动,再把扩散输出合成进框定好的镜头里。

ControlNet 不是给图像用的吗,怎么用在视频?

ControlNet 是把一个结构信号(pose / depth / canny)注入到扩散去噪步骤里。当那一步恰好是视频生成的第一帧时,整个片段都继承了这个构图。要让生成视频稳在指定构图里(比如产品镜头、角色固定姿势),这是最干净的办法 — 你不能让模型自由发挥版面。

一台单 GPU 机能不能跑完整条流水线?

能,前提是把各阶段串行而不是并行。先用 CogVideo 生成(24 GB),卸载,再跑 Real-ESRGAN(约 6 GB),最后 OpenCut 走 CPU。瓶颈在生成那一步,下游环节都很便宜。如果只有 16 GB 卡,要么降到 CogVideo 小尺寸版本,要么让生成走商业 API,把超分 + 剪辑留在本地。

更多主题包

12 个主题包 · 80+ 精选资产

回首页浏览全部精选合集

返回主题包总览