AI 视频生成包
给从文本或图像生成视频的创作者和开发者准备的十件套:开源模型(CogVideo / Open-Sora / AnimateDiff / Diffusers)、对接 Sora / Veo / Runway / Pika 的商业 API 桥、ControlNet + Motion Canvas 的镜头与运动控制、Real-ESRGAN 超分放大,再加把这些片段串起来的剪辑器。
这个 pack 是干嘛的
AI 视频已经不是「一个模型」的事,而是一条流水线:选模型 → 写 prompt → 关键帧约束 → 控制镜头/运动 → 超分放大 → 剪辑。本 pack 把每个环节最值得装的一个挑出来,加起来十件 — 有主见,不求全 — 让你从空白 prompt 走到可看的成片,不用在十个 repo 的 README 之间反复横跳。
这套刻意做了拆分:开源模型负责本地控制、零单价成本,加一个商业 API 桥用于真的需要 Sora 级画质且愿意付钱的时刻。绝大多数实际跑通的流水线都同时用两边。
推荐安装顺序
1. 选模型
- CogVideo(#2458)— 文生视频 + 图生视频。智谱 THUDM 的成熟开源基线,单卡高显存能跑。要一个可复现的本地流水线,从这里起步。
- Open-Sora(#109)— 复刻 Sora 风格的开源项目。长镜头和运动连贯性比 CogVideo 强,但硬件门槛更高。
- Diffusers(#111)— Hugging Face 的模型 hub。一个 Python 接口同时加载 CogVideo / Stable Video Diffusion / HunyuanVideo / Wan / Mochi,新模型上线当周就能用。要统一接口就先装 Diffusers,其他模型当权重就行。
- Together AI Video Generation Skill(#777)— 商业 API 桥。当你需要 Sora / Veo / Runway / Pika 级画质又不想自己管 GPU 集群,就用它。按秒计费,当天可交付。
2. 写 prompt
- 规则跟图像生成一样,多加运动动词:「dolly forward」「orbit left」「static lock-off」。在电影数据上训练过的模型对电影词汇敏感。
- 主体放在前 12 个 token 内 — 大多数文生视频模型 attention 仍然偏前部。
3. 关键帧约束
- ControlNet(#4664)— 喂入 pose / depth / canny 图,锁死构图。当你心里有一个特定取景、不想让模型自由发挥时用它。
- 图生视频本身就把图作为关键帧 — 这种情况不需要额外 ControlNet。
4. 加运动
- AnimateDiff(#2463)— Stable Diffusion 家族的即插即用运动模块。把现成的图像生成 pipeline 动起来,不用重训。风格化/动漫内容首选。
- Motion Canvas(#4618)— 当你要的运动是确定性的(UI 演示、数据可视化、程序化镜头移动),不要跟扩散模型较劲,直接用代码写动画。
5. 放大
- Real-ESRGAN(#2495)— 实用的 4× 超分模型,支持视频。生成模型大多输出 512×512 或 720p,要交付 4K 就靠它。放在最后一步,编码之前。
6. 剪辑
- OpenCut(#4027)— 开源 AI 视频剪辑器。裁切、拼接、调色生成的片段。不用导出去闭源 NLE 走一遭。
- 生成式媒体 Skill(#3602)— muapi + npx skill 安装器,把十几个商业生成 API 统一在一个 CLI 后面。当 agent 需要调用「生成 5 秒片段」而不想每次选 vendor 时很好用。
它们怎么协同
Prompt ─► CogVideo / Open-Sora / Diffusers / Together API
│
▼
原始 720p 片段
│
ControlNet ─┤ (可选:锁构图)
AnimateDiff ┤ (可选:给静图加运动)
Motion Canvas ┤ (可选:确定性镜头)
▼
Real-ESRGAN ─► 4K 放大片段
│
▼
OpenCut
│
▼
成片 mp4
关键分水岭:扩散模型「幻觉」出运动,代码工具「指挥」出运动。要惊喜和氛围用扩散(CogVideo / Open-Sora / AnimateDiff);镜头轨迹一寸不能动、观众一眼看得出漂移就用 Motion Canvas。
你会遇到的取舍
- 本地 vs API — 本地零单价但耗 GPU 时间和调参;API 出片快画质高,但按秒收费 + 配额限制。迭代用本地,关键镜头用 API。
- CogVideo vs Open-Sora — CogVideo 安装更稳、显存门槛低;Open-Sora 在跑得通的时候片段更长更连贯。先用 CogVideo,等长度成为瓶颈再换。
- AnimateDiff vs 原生视频模型 — AnimateDiff 是把运动模块焊到 SD checkpoint 上(风格库巨大,连贯性一般);原生视频模型端到端在视频上训练(运动干净,风格库少)。看内容:风格化 → AnimateDiff,写实 → CogVideo / Open-Sora。
- Real-ESRGAN vs 付费超分 — Real-ESRGAN 免费、对 Web 交付够用;Topaz Video AI 这类付费工具在人脸细节上更锐,但要钱。先用 Real-ESRGAN 交付,被甲方挑出来再升级。
常见踩坑
- 显存数学 — CogVideo-5B 跑 720p 大约 24 GB。Open-Sora 经常要 40 GB+。租 GPU 之前先看 model card。
- 跨帧 prompt 漂移 — 任何扩散模型的长镜头大约 3 秒后就开始角色 / 光线漂移。3 秒为段生成,在 OpenCut 里拼,比硬刚 10 秒一镜到底省事。
- 音频是独立环节 — 这套工具都不出匹配音轨。规划单独的 TTS / SFX 流程,最后在 OpenCut 合成。
- 商业 API 条款 — 每家商业生成商在商用、训练 opt-out、水印上规则都不一样。客户项目发稿前先看清 TOS。
10 个资产打包就绪
常见问题
从 CogVideo 还是 Open-Sora 开始?
没有 40+ GB GPU 和「必须更长镜头」的明确理由,就从 CogVideo 开始。CogVideo 单卡 24 GB 能跑,文档更全,常见报错都有解。等 CogVideo 的片段长度上限成为瓶颈,再换 Open-Sora — 不要更早。
真的需要同时装开源模型和商业 API skill 吗?
实际跑通的流水线大多两个都装。本地模型给你零单价的迭代、确定的 seed、自由的实验空间 — 适合一个 prompt 试 50 个变体。商业 API(Together AI skill 或生成式媒体 Skill)给你 Sora / Veo / Runway 级的成片画质 — 适合最后那几个关键镜头。一边迭代一边交付,分工明确。
怎么控制镜头,不只是主体?
两条路。对扩散模型,把镜头动词写进 prompt(「slow dolly forward」「static lock-off」「orbit 90 degrees」),在电影 caption 上训练过的模型懂这套词汇。镜头需要精确取景或轨迹时,换 Motion Canvas 用代码写运动,再把扩散输出合成进框定好的镜头里。
ControlNet 不是给图像用的吗,怎么用在视频?
ControlNet 是把一个结构信号(pose / depth / canny)注入到扩散去噪步骤里。当那一步恰好是视频生成的第一帧时,整个片段都继承了这个构图。要让生成视频稳在指定构图里(比如产品镜头、角色固定姿势),这是最干净的办法 — 你不能让模型自由发挥版面。
一台单 GPU 机能不能跑完整条流水线?
能,前提是把各阶段串行而不是并行。先用 CogVideo 生成(24 GB),卸载,再跑 Real-ESRGAN(约 6 GB),最后 OpenCut 走 CPU。瓶颈在生成那一步,下游环节都很便宜。如果只有 16 GB 卡,要么降到 CogVideo 小尺寸版本,要么让生成走商业 API,把超分 + 剪辑留在本地。