内容创作者的 AI 工作室
给 YouTuber、播客主、Newsletter 作者、TikTok 创作者的十件 AI 资产:选题、剧本、配音(云端 + 开源)、字幕、缩略图、B-roll 生成、加上一个能把这些串起来的发布平台。
这个 pack 里装了什么
这是一个独立创作者意识到「兼职剪辑回不来了」之后会自己搭起来的工具栈。十件资产覆盖内容流水线的每一个环节 —— 从「这周该做什么选题」到「邮件发出去了、视频上传了、缩略图渲染好了」。每一件都在真实生产流程里有明确分工。
pack 刻意在两个最容易让 API 账单失控的环节 —— 配音和图像生成 —— 同时给了云端方案和开源兜底方案。摸索内容形态时先用云端版本,等每周产量把账单上的那一行刷得让你不舒服时,再切到自托管版本。
它默认你是个多平台创作者:同一份剧本会变成一支视频、一集播客、一条 Newsletter 短文,再加三条 TikTok 切片。yt-dlp + whisper.cpp + Ghost 这三件二次创作工具的意义就是:让周二的一份剧本产出周二的五条内容。
安装顺序(选题 → 剧本 → 制作 → 剪辑 → 分发)
- Claude Code Agent: Content Marketer —— 从这里开始,因为选题不对其他都白搭。一个 Claude Code 子 agent,把一句话点子展开成 outline、hook、节奏点,并生成不同平台版本(长视频脚本 + 60 秒短切 + 推文 thread)。
- ElevenLabs Voice Design —— 目前最不像「机器人念稿」的云端 TTS。用 Voice Design 通过 prompt 铸造一个属于你自己的稳定旁白,把那个 voice ID 长期复用,让你的频道有个能被认出来的「声音标识」。
- StyleTTS 2 —— 当 ElevenLabs 账单超过你心理价位时切到的开源 TTS。基于 style-diffusion,质量接近人声,单张消费级 GPU 就能跑。作为兜底,或者拿来配「不需要是『那个声音』」的 B-track 旁白。
- whisper.cpp —— 本地 STT。这是默默承担最多脏活的工具:把原始录音转成文字方便剪辑、生成字幕、喂二次创作流水线(文字稿 → Newsletter 短文 → 推文 thread)。完全离线跑,未剪辑 B-roll 不出本机。
- CogVideo —— 文+图生短视频,专门给你没实拍素材的 B-roll 兜底。6 秒一段,够覆盖「办公桌前的人」「城市街景」这类填充镜头。它不替代真实素材,它替代的是 stock 库订阅。
- Together AI Image Generation —— 缩略图与频道艺术图引擎。托管的 Flux/SD 模型 + 干净 API + 独立开发者负担得起的定价。一分钟出 8 张缩略图候选,挑最好的发出去。
- ImageMagick —— 命令行图像处理。「把这张缩略图分别 resize 到 1280×720、1080×1080、1920×1080」这类活,一个平台一行 bash 搞定。是这个 pack 里你会用得最多但最不会去吹的工具。
- Remotion Captions & Subtitles —— 给短视频烧字幕。TikTok / Shorts / Reels 用户默认静音看,字幕不是「加分项」是「必备项」。Remotion 字幕渲染把样式写成代码,让每个视频排版一致。
- Ghost —— 既是发布平台也是 Newsletter 引擎。一个真相源:长文 + 发给订阅者的邮件 + SEO 友好的公开页面,三件事同一份内容。一个可自托管的 Node 应用替代「WordPress + Mailchimp + Buffer」。
- yt-dlp —— 二次创作流水线的基石。下载自己过去的节目、嘉宾的旧演讲、想剪片的会议录像 —— 同一条命令搞定所有平台。下游接 whisper.cpp 转写、接 Remotion 剪片。
它们怎么串起来(ASCII 内容流水线)
┌── Content Marketer Agent ──┐
│ (点子 → outline → 剧本) │
└──────────────┬──────────────┘
▼
┌── ElevenLabs Voice Design ──┐
│ 或 StyleTTS 2(开源) │
│ (剧本 → 旁白 WAV) │
└──────────────┬───────────────┘
▼
┌──── whisper.cpp(转写旁白) ────┐
│ ▼ │
│ SRT + 纯文本 │
│ │ │ │
│ ▼ ▼ │
│ 字幕 Newsletter 草稿 │
│ (Remotion) (Ghost) │
│ │ │ │
│ ▼ ▼ │
│ B-roll 订阅邮件 │
│ (CogVideo) + 公开文章 URL │
└────────┬─────────────────────────┘
▼
┌── Together AI 图像生成 ──┐
│ (缩略图候选) │
│ │ │
│ ▼ │
│ ImageMagick │
│ (resize 1280×720 / │
│ 1080×1080 / 1920×1080) │
└───────────────────────────┘
│
▼
yt-dlp(之后)
把发出去的视频拉回来 →
切片 → 二次创作
两个关键拼接点:whisper.cpp → 字幕 + Newsletter(同一份文字稿喂两个出口)、Together AI → ImageMagick(一张生成的缩略图变成三个平台尺寸)。把这两个点拼对,单条内容的人力消耗直接减半。
你会遇到的取舍(DIY AI 声音 vs 真人,AI 缩略图 vs 设计师)
- DIY AI 声音 vs 真人配音 —— 2026 年 AI 声音越过了「不让人尴尬」这条线,但还没越过「听起来像一个真的在乎这个话题的人」那条线。频道门面的旁白人格请自己录。播客里的广告口播、不能露脸的平台、B-roll 旁白用 AI 配,10 倍速出片。先用 ElevenLabs Voice Design 摸清哪部分该真人、哪部分该 AI。
- AI 缩略图 vs 设计师 —— Together AI 60 秒给你「能用」的缩略图。真人设计师 4-8 小时给你「点得动」的缩略图。在内容增长期保持周更,AI 缩略图加 5 分钟人工调整(文字叠加、裁剪、对比度)在速度上完胜外包。粉丝过 10 万、每提升 1 个 CTR 点都值真金白银时,再请设计师。
- ElevenLabs 费用 vs StyleTTS 2 自托管 —— ElevenLabs 独立开发者档 $22-99/月,音质确实更好。StyleTTS 2 在你已有的 GPU 上免费跑,音质差不多够。经验法则:每周生成音频 30 分钟以内留在 ElevenLabs;超过这个量自托管的账自然平。
- Ghost vs Substack/Beehiiv —— Ghost 是「自托管、自己拿订阅者名单」的开源方案:你拥有名单,平台不会某周二改规则。代价:你得维护一台服务器。Substack 是「租平台流量」的方案:零运维,但他们想改条款随时改。如果你已经在管自己的网站,选 Ghost。如果你下周二就要发刊,选 Substack。
- CogVideo vs 付费 stock 素材 —— CogVideo 适合做填充式的场景空镜。在观众盯着看那段镜头时(特写、人脸、特定动作)就不行了。给真正承担信息的镜头预算 $20-40/月买 Pexels Pro / Artgrid 这类正经 stock 库,CogVideo 用来做切镜过渡。
常见踩坑(听起来像 AI、版权陷阱)
- 视频开始有「AI 味」。症状:每篇剧本都用「让我们深入了解」「在这期视频里我们将探索」「XX 的世界」。原因:模型默认表达渗进了你的口吻。解法:维护一份
style.md让 Content Marketer agent 每次先读 —— 明确列出「禁用短语」「句子节奏示例」「你的犀利观点是 X、Y、Z」。每月更新一次。 - 生成声音/图像的版权陷阱。ElevenLabs Voice Design 生成的声音是你的、可商用,但未经授权克隆他人的声音是禁区、会被平台封号。Together AI 出图同理:多数模型允许商用,但训练数据来源不够干净,别生成「模仿某在世艺术家风格」。
- 字幕烧错宽高比。16:9 渲染字幕再裁切成 9:16 给 Shorts,右半边字直接没了。一定要按最终平台宽高比直接渲染;Remotion Captions skill 有显式的
width/height参数 —— 用上。 - 忘了按平台重编码。YouTube 要 H.264 + AAC 高码率;TikTok 偏好稍低码率 + 激进 web 优化。同一份源文件,不同导出。给每个平台加一步 ffmpeg 处理;别上传一份 master MP4 然后听天由命。
- Newsletter 和视频对不齐。周二发视频,周五 Newsletter 引用它,结果你忘了把 Ghost 里缩略图换掉。解法:一篇内容对应一篇 Ghost 文章,邮件从那篇文章生成。别并行起两份草稿。
- 二次创作只复制不改写。把视频文字稿原封不动贴进 Newsletter 是最懒的操作,读起来也确实是。让 Content Marketer agent 把文字稿改写成 Newsletter 语气(短句、不要「就像我视频里说的」、换个新 hook)。复用观点不复用句子。
10 个资产打包就绪
常见问题
10 件都要装吗?还是可以先上小一点的子集?
先上四件:Content Marketer agent 出剧本、ElevenLabs Voice Design 出旁白、whisper.cpp 出文字稿+字幕、Ghost 出博客+Newsletter。这四件就能跑起一个完整的 YouTube + Newsletter 流水线。手做缩略图烦了再加 Together AI + ImageMagick;开始发 Shorts/Reels 再加 Remotion Captions;需要 B-roll 再加 CogVideo;ElevenLabs 账单开始扎眼再加 StyleTTS 2;决定要把老节目剪二创时再加 yt-dlp。10 件全装只有在每周出多条内容时才有意义。
对一个独立创作者来说,这套每月实际花多少?
现实基线(每周 1 视频 + 1 Newsletter):Hetzner $5/月 跑 Ghost,whisper.cpp / StyleTTS 2 / ImageMagick / yt-dlp 全开源 $0,ElevenLabs starter $22/月,Together AI 出图独立开发者用量 ~$5/月,CogVideo API 按需 $0-10/月。合计大约 $40/月,加你的 Claude 或 GPT 订阅给 Content Marketer agent 用。涨得最快的成本线是 ElevenLabs;StyleTTS 2 存在的意义就是替换它。
AI 生成的旁白会让我 YouTube 频道被取消盈利吗?
单独用不会。YouTube 在 2026 年的立场:AI 内容只要有清晰的创意输入、不是「批量、重复、低质」就可以盈利。你写的剧本、你剪的视频、你定的编辑观点,加一个 AI 旁白,不会触线。会被砍盈利的是:20 个频道上传同一份 AI 生成剧本、同一个 AI 声音、同一段 AI B-roll。你的品味才是护城河。
为什么是 Ghost 不是直接 Substack?
Substack 上手更快 —— 注册、写、发。Ghost 需要你跑一台服务器(或者付 Ghost Pro $9-25/月)。那为什么还选 Ghost:(1)订阅者名单完全归你,平台不在中间,(2)它是真正的 CMS,同一篇内容直接成为 SEO 友好的公开页面,不只是个邮件存档,(3)平台不能某天改分成或改内容政策来卡你。如果你打算做 5 年以上选 Ghost,如果你下周二就要发刊选 Substack。
字幕、配音、B-roll 真的能从一份剧本同时生成吗?
能 —— 整条流水线就是为这个设计的。Content Marketer agent 出剧本。剧本送进 ElevenLabs(或 StyleTTS 2)生成旁白 WAV。WAV 送进 whisper.cpp 生成带时间戳的 SRT(通过 Remotion 变成字幕)。同一份剧本还会作为分镜 prompt 送进 CogVideo 生成 B-roll 片段。周二一份剧本,自动旁白、自动字幕、自动 B-roll 建议。你仍然在 loop 里把关品味 —— 选最好的 take、修不对劲的 B-roll —— 但人工转写、对时、找素材这些活全没了。