短视频创作者 AI — TikTok / Reels / Shorts 流水线
给做 TikTok / Instagram Reels / YouTube Shorts / 抖音的短视频创作者准备的十件套:一键流水线(MoneyPrinterTurbo / OpenMontage)、对接 Sora / Runway / Kling 的商业 API 桥(Together AI / Generative Media Skills)、Remotion 程序化电影感短视频管线、ElevenLabs 真人级配音、VideoCaptioner 字幕、OpenCut 剪辑器,以及打底的 FFmpeg 多媒体处理工具。
这个 pack 是干嘛的
现在的短视频已经不是一个工具的事 — 是一条五层流水线:选一个正在火的话题、写一个 3 秒内勾住人的脚本、生成或者拍素材、烧上手机静音也能读的字幕、最后剪片 + 同步发到三四个算法和画幅都不一样的平台。
这个 pack 围绕 TikTok / Reels / Shorts / 抖音 创作者 把每一层串起来 — 不求全,求好用 — 让你从一个热门话题到一条已发布的竖屏短片,不用同时翻十个 repo 的文档。整套刻意分两条路:一键流水线(MoneyPrinterTurbo / OpenMontage)扛日更那 3 条/天的量;商业 API 桥(Together AI / Generative Media Skills)打 hero shot,需要 Sora / Veo / Runway / Kling 那种画质时用;程序化路径(Remotion)留给那些字体、节奏、品牌一致性必须卡死的系列内容。
推荐安装顺序
1. 选题 + 编排层
- OpenMontage (#855) — AI 视频制作系统,输入一个话题,自动调度后面整条管线。当你不想自己手动把 MoneyPrinterTurbo + Remotion + FFmpeg 用胶水粘起来时,用它当指挥。
- Video AI Toolkit (#107) — 整个视频 AI 生态的参考集合。先扫一遍知道哪个零件干嘛,再决定 stack 怎么组。
2. 脚本层 — 前 3 秒必须有钩子
- MoneyPrinterTurbo (#108) — 话题进去,9:16 成片出来。脚本环节用 OpenAI / Gemini / DeepSeek 跑,不到一分钟产出一个 hook 在前的旁白脚本。哪怕你换掉后面整条管线,也可以单独用它生成脚本。
- Together AI Video Generation Skill (#777) — 商业 API 桥。同一个 skill 既能调 Sora / Veo / Runway 也能用同一个 workflow 调 LLM 起草脚本。按调用付费,不需要自己跑 GPU。
3. 视频生成 — AI 生成 / 库存素材 / 程序化
- Remotion AI Video Production Skill (#1150) — React 写的电影感短视频。当你在乎字体、动效、品牌一致时走这条;底层 render 走 FFmpeg 输出 mp4。
- Generative Media Skills (#3602) — muapi +
npx skills add安装器,把 Sora / Runway / Kling / Pika 等十几个商业生成 API 统一到一个 CLI 后面。当 agent 需要喊一句「生成一段 5 秒视频」而不想每次选 vendor 时,就上这个。
4. 字幕层 — 手机静音状态可读
- VideoCaptioner (#110) — 端到端 AI 字幕管线。识别、分句、样式、烧字幕一条龙。针对 9:16 竖屏安全区做了优化,词级时间戳。
- Remotion AI Voiceover Skill — ElevenLabs TTS (#102) — 用 ElevenLabs 生成旁白并同步到 Remotion 合成。和字幕 skill 搭配,让烧上去的字和音频对齐。
5. 剪辑 + 发布
- OpenCut (#4027) — 开源 AI 视频剪辑器。裁剪、拼接、调色匹配 AI 生成的片段。让 agent 收尾时不用导出到闭源 NLE 走一圈。
- FFmpeg (#1157) — 多媒体处理的底座。上面所有工具最后都在调 FFmpeg。值得作为一等 CLI 装好,方便按平台偏好的编码 / 码率重编码,不用重新 render。
它们怎么协同
热门话题
│
▼
OpenMontage ──► MoneyPrinterTurbo (脚本+组装)
│ │
│ ┌───────┴───────┐
│ ▼ ▼
│ Together AI Generative Media Skills
│ (Sora/Veo) (Sora/Runway/Kling/Pika)
│ │ │
│ └───────┬───────┘
│ ▼
│ 原始 9:16 片段
│ │
│ ┌───────┴───────┐
│ ▼ ▼
│ Remotion ElevenLabs 配音
│ (字体+动效设计) (Remotion AI
│ │ Voiceover Skill)
│ └───────┬───────┘
│ ▼
│ VideoCaptioner
│ (词级字幕)
│ │
│ ▼
│ OpenCut
│ (终剪)
│ │
│ ▼
└──► FFmpeg
(按平台重编码)
│
┌─────────┬─────┴─────┬──────────┐
▼ ▼ ▼ ▼
TikTok Reels Shorts 抖音
关键的两条路:一键路径(MoneyPrinterTurbo 或 OpenMontage 直接到 OpenCut)扛日更量;程序化路径(Remotion + ElevenLabs + VideoCaptioner)做品牌片,字体节奏必须精确。商业 API 在两条路里都可以插进来打 hero shot。
你会遇到的取舍
- AI 生成素材 vs 真人素材 — AI 生成又快又无限,但 TikTok / Reels 的算法越来越能识别纯 AI 内容并降权。混着用:B-roll 用 AI,A-roll 用真拍,旁白用真人声(或者高度接近真人的 ElevenLabs)。
- 一键 vs 程序化 — MoneyPrinterTurbo 5 分钟出一条能发的;Remotion 第一次要 5 小时,之后每条 30 分钟。日更用一键,系列片用 Remotion 保证 50 集风格一致。
- 一稿多发 vs 各平台定制 — 一个 9:16 母版几分钟同步到 4 个平台;按平台定制(TikTok 上 CapCut 风钩子、Shorts 按完播曲线重剪、Reels 去水印版本)能显著提升触达。先一稿多发,等数据出来再对赢家做定制重剪。
- 本地生成 vs 商业 API — 本地模型(Open-Sora / CogVideo)按秒免费但吃 GPU 和调参时间。商业 API(Sora / Runway / Kling,通过 Together AI 或 Generative Media Skills)按秒收费但当天能交付。本地用于迭代,API 用于必须打中的 hero shot。
常见踩坑
- Hook 太弱 → 3 秒流失 — TikTok / Reels 在前 3 秒就量完播。「大家好今天我们来聊聊」就是稳定流失。用一个问题、一个数字、或者一个反差开场。MoneyPrinterTurbo 默认脚本 prompt 只是起点,不是成品 hook。
- 字幕颜色 + 位置 — 亮背景上白字读不清;底部三分之一会被 TikTok 的 UI 挡住。字幕放在画面中间偏下三分之一,加描边或者底板。VideoCaptioner 自带各平台安全区预设。
- Reels 拒绝带 TikTok 水印的内容 — Shorts 也会降权。导出母版时不要带任何平台水印;OpenCut 的干净导出比直接下载 TikTok 视频再传安全。
- 没研究发布时间 — 同一条片早 7 点发和晚 9 点发,起始曝光能差 5-10 倍。每个平台高峰不一样,先看后台数据再定档期。
- AI 内容检测 / 限流 — TikTok / YouTube Shorts / 抖音 都跑 AI 检测降权。混入真摄像头 B-roll、真人开场、录屏 UI 来抬升信任分 — 纯合成视频很快撞天花板。
10 个资产打包就绪
常见问题
纯 AI 生成的短视频会被 TikTok / Reels / Shorts 限流吗?
越来越会。最近一年三大平台都把 AI 检测信号接进了排序。纯合成上传能发但触达通常会被压制。实操绕法是混合:B-roll 和补片用 AI 生成,但前 3 秒开场加一段真摄像头、真人声音、或者录屏 UI。Hook 段尤其要听起来像真人,哪怕正文是合成的也行。
字幕用哪个最准?
英文和主流欧洲语言,Whisper(VideoCaptioner 底层包的就是它)现在是精度基准且本地免费跑。中文 / 日文 / 韩文 VideoCaptioner 有专门的管线,超过裸 Whisper — 因为它把分句长度和词级时间戳针对竖屏窄安全区做了优化。但不管哪个,数字、品牌名、专有名词都要预留手动校对时间 — 没有任何自动字幕能 100% 对上。
Sora / Runway / Kling 怎么选?
默认选你脚本内容能过审的那个。Sora 在自然语言提示和物理一致性上最强;Runway 在风格化运动和图生视频上最强;Kling 在人像和舞蹈动作上最强。Generative Media Skills (#3602) 安装器让你用一个 CLI 同时调三个 — 同一个 scene 喂三家然后挑赢家,这才是实际工作流,而不是提前选一个。
一稿多发 vs 各平台定制?
先一稿 9:16 母版同步到 4 个平台 — 这是上量的路径。等数据出来,某条片在某个平台明显跑赢(比如 Reels 上 3 倍均值但 TikTok 平),再针对赢家平台做重剪:换更紧的 hook、换封面帧、字幕重新避开该平台 UI。按平台重剪是给爆款交的优化税,不是每条上传前的必走流程。
前 3 秒的 viral hook 怎么写?
三个跨平台都能活的句式:(1) 抛反差 — 「你用 FFmpeg 的方式是错的,这条说为啥」;(2) 用一个需要解开的数字开场 — 「我试了 12 个 AI 视频工具,9 个根本没法用」;(3) 抛一个答案就是后面内容的问题 — 「为什么这个 200 行脚本干掉了 500 美金/月的 SaaS?」。避免打招呼、自我介绍、任何听起来像播客片头的东西。MoneyPrinterTurbo 和 Together AI 的脚本 prompt 都接受 hook 模板 — 喂它们其中一种句式,不要让模型默认从问候开始。