TOKREPO · 主题包
本周新建

内容创作者的 AI 工作室

给 YouTuber、播客主、Newsletter 作者、TikTok 创作者的十件 AI 资产:选题、剧本、配音(云端 + 开源)、字幕、缩略图、B-roll 生成、加上一个能把这些串起来的发布平台。

10 个资产

这个 pack 里装了什么

这是一个独立创作者意识到「兼职剪辑回不来了」之后会自己搭起来的工具栈。十件资产覆盖内容流水线的每一个环节 —— 从「这周该做什么选题」到「邮件发出去了、视频上传了、缩略图渲染好了」。每一件都在真实生产流程里有明确分工。

pack 刻意在两个最容易让 API 账单失控的环节 —— 配音和图像生成 —— 同时给了云端方案和开源兜底方案。摸索内容形态时先用云端版本,等每周产量把账单上的那一行刷得让你不舒服时,再切到自托管版本。

它默认你是个多平台创作者:同一份剧本会变成一支视频、一集播客、一条 Newsletter 短文,再加三条 TikTok 切片。yt-dlp + whisper.cpp + Ghost 这三件二次创作工具的意义就是:让周二的一份剧本产出周二的五条内容。

安装顺序(选题 → 剧本 → 制作 → 剪辑 → 分发)

  1. Claude Code Agent: Content Marketer —— 从这里开始,因为选题不对其他都白搭。一个 Claude Code 子 agent,把一句话点子展开成 outline、hook、节奏点,并生成不同平台版本(长视频脚本 + 60 秒短切 + 推文 thread)。
  2. ElevenLabs Voice Design —— 目前最不像「机器人念稿」的云端 TTS。用 Voice Design 通过 prompt 铸造一个属于你自己的稳定旁白,把那个 voice ID 长期复用,让你的频道有个能被认出来的「声音标识」。
  3. StyleTTS 2 —— 当 ElevenLabs 账单超过你心理价位时切到的开源 TTS。基于 style-diffusion,质量接近人声,单张消费级 GPU 就能跑。作为兜底,或者拿来配「不需要是『那个声音』」的 B-track 旁白。
  4. whisper.cpp —— 本地 STT。这是默默承担最多脏活的工具:把原始录音转成文字方便剪辑、生成字幕、喂二次创作流水线(文字稿 → Newsletter 短文 → 推文 thread)。完全离线跑,未剪辑 B-roll 不出本机。
  5. CogVideo —— 文+图生短视频,专门给你没实拍素材的 B-roll 兜底。6 秒一段,够覆盖「办公桌前的人」「城市街景」这类填充镜头。它不替代真实素材,它替代的是 stock 库订阅。
  6. Together AI Image Generation —— 缩略图与频道艺术图引擎。托管的 Flux/SD 模型 + 干净 API + 独立开发者负担得起的定价。一分钟出 8 张缩略图候选,挑最好的发出去。
  7. ImageMagick —— 命令行图像处理。「把这张缩略图分别 resize 到 1280×720、1080×1080、1920×1080」这类活,一个平台一行 bash 搞定。是这个 pack 里你会用得最多但最不会去吹的工具。
  8. Remotion Captions & Subtitles —— 给短视频烧字幕。TikTok / Shorts / Reels 用户默认静音看,字幕不是「加分项」是「必备项」。Remotion 字幕渲染把样式写成代码,让每个视频排版一致。
  9. Ghost —— 既是发布平台也是 Newsletter 引擎。一个真相源:长文 + 发给订阅者的邮件 + SEO 友好的公开页面,三件事同一份内容。一个可自托管的 Node 应用替代「WordPress + Mailchimp + Buffer」。
  10. yt-dlp —— 二次创作流水线的基石。下载自己过去的节目、嘉宾的旧演讲、想剪片的会议录像 —— 同一条命令搞定所有平台。下游接 whisper.cpp 转写、接 Remotion 剪片。

它们怎么串起来(ASCII 内容流水线)

           ┌── Content Marketer Agent ──┐
           │ (点子 → outline → 剧本)   │
           └──────────────┬──────────────┘
                          ▼
          ┌── ElevenLabs Voice Design ──┐
          │   或 StyleTTS 2(开源)      │
          │   (剧本 → 旁白 WAV)        │
          └──────────────┬───────────────┘
                          ▼
     ┌──── whisper.cpp(转写旁白) ────┐
     │            ▼                     │
     │      SRT + 纯文本                │
     │       │            │              │
     │       ▼            ▼              │
     │   字幕         Newsletter 草稿   │
     │  (Remotion)  (Ghost)         │
     │       │            │              │
     │       ▼            ▼              │
     │   B-roll       订阅邮件          │
     │  (CogVideo)   + 公开文章 URL    │
     └────────┬─────────────────────────┘
              ▼
  ┌── Together AI 图像生成 ──┐
  │   (缩略图候选)          │
  │            │              │
  │            ▼              │
  │     ImageMagick           │
  │  (resize 1280×720 /      │
  │   1080×1080 / 1920×1080) │
  └───────────────────────────┘
              │
              ▼
        yt-dlp(之后)
        把发出去的视频拉回来 →
        切片 → 二次创作

两个关键拼接点:whisper.cpp → 字幕 + Newsletter(同一份文字稿喂两个出口)、Together AI → ImageMagick(一张生成的缩略图变成三个平台尺寸)。把这两个点拼对,单条内容的人力消耗直接减半。

你会遇到的取舍(DIY AI 声音 vs 真人,AI 缩略图 vs 设计师)

  • DIY AI 声音 vs 真人配音 —— 2026 年 AI 声音越过了「不让人尴尬」这条线,但还没越过「听起来像一个真的在乎这个话题的人」那条线。频道门面的旁白人格请自己录。播客里的广告口播、不能露脸的平台、B-roll 旁白用 AI 配,10 倍速出片。先用 ElevenLabs Voice Design 摸清哪部分该真人、哪部分该 AI。
  • AI 缩略图 vs 设计师 —— Together AI 60 秒给你「能用」的缩略图。真人设计师 4-8 小时给你「点得动」的缩略图。在内容增长期保持周更,AI 缩略图加 5 分钟人工调整(文字叠加、裁剪、对比度)在速度上完胜外包。粉丝过 10 万、每提升 1 个 CTR 点都值真金白银时,再请设计师。
  • ElevenLabs 费用 vs StyleTTS 2 自托管 —— ElevenLabs 独立开发者档 $22-99/月,音质确实更好。StyleTTS 2 在你已有的 GPU 上免费跑,音质差不多够。经验法则:每周生成音频 30 分钟以内留在 ElevenLabs;超过这个量自托管的账自然平。
  • Ghost vs Substack/Beehiiv —— Ghost 是「自托管、自己拿订阅者名单」的开源方案:你拥有名单,平台不会某周二改规则。代价:你得维护一台服务器。Substack 是「租平台流量」的方案:零运维,但他们想改条款随时改。如果你已经在管自己的网站,选 Ghost。如果你下周二就要发刊,选 Substack。
  • CogVideo vs 付费 stock 素材 —— CogVideo 适合做填充式的场景空镜。在观众盯着看那段镜头时(特写、人脸、特定动作)就不行了。给真正承担信息的镜头预算 $20-40/月买 Pexels Pro / Artgrid 这类正经 stock 库,CogVideo 用来做切镜过渡。

常见踩坑(听起来像 AI、版权陷阱)

  • 视频开始有「AI 味」。症状:每篇剧本都用「让我们深入了解」「在这期视频里我们将探索」「XX 的世界」。原因:模型默认表达渗进了你的口吻。解法:维护一份 style.md 让 Content Marketer agent 每次先读 —— 明确列出「禁用短语」「句子节奏示例」「你的犀利观点是 X、Y、Z」。每月更新一次。
  • 生成声音/图像的版权陷阱。ElevenLabs Voice Design 生成的声音是你的、可商用,但未经授权克隆他人的声音是禁区、会被平台封号。Together AI 出图同理:多数模型允许商用,但训练数据来源不够干净,别生成「模仿某在世艺术家风格」。
  • 字幕烧错宽高比。16:9 渲染字幕再裁切成 9:16 给 Shorts,右半边字直接没了。一定要按最终平台宽高比直接渲染;Remotion Captions skill 有显式的 width/height 参数 —— 用上。
  • 忘了按平台重编码。YouTube 要 H.264 + AAC 高码率;TikTok 偏好稍低码率 + 激进 web 优化。同一份源文件,不同导出。给每个平台加一步 ffmpeg 处理;别上传一份 master MP4 然后听天由命。
  • Newsletter 和视频对不齐。周二发视频,周五 Newsletter 引用它,结果你忘了把 Ghost 里缩略图换掉。解法:一篇内容对应一篇 Ghost 文章,邮件从那篇文章生成。别并行起两份草稿。
  • 二次创作只复制不改写。把视频文字稿原封不动贴进 Newsletter 是最懒的操作,读起来也确实是。让 Content Marketer agent 把文字稿改写成 Newsletter 语气(短句、不要「就像我视频里说的」、换个新 hook)。复用观点不复用句子。
安装 · 一行命令
$ tokrepo install pack/content-creator-ai-studio
丢给 agent,或粘到终端
包内含什么

10 个资产打包就绪

Skill#01
Claude Code Agent: Content Marketer

Use this agent when you need to develop comprehensive content strategies, create SEO-optimized marketing content, or execute multi-channel content campaigns to drive engagement...

by TokRepo精选·46 views
$ tokrepo install claude-code-agent-content-marketer-721d23c5
Skill#02
ElevenLabs Voice Design — Generate Voices from Prompts

ElevenLabs Voice Design generates new voices from text prompts. Describe age, accent, tone — get a voice you own and reuse via TTS API.

by ElevenLabs·102 views
$ tokrepo install elevenlabs-voice-design-generate-voices-from-prompts
Skill#03
StyleTTS 2 — Human-Level Text-to-Speech via Style Diffusion

A TTS system that achieves human-level speech synthesis through style diffusion and adversarial training with large speech language models. Fast inference with natural prosody.

by Script Depot·108 views
$ tokrepo install styletts-2-human-level-text-speech-via-style-diffusion-e7a8aaaf
Skill#04
whisper.cpp — Local Speech-to-Text in Pure C/C++

High-performance port of OpenAI Whisper in C/C++. No Python, no GPU required. Runs on CPU, Apple Silicon, CUDA, and even Raspberry Pi. Real-time transcription.

by Script Depot·1602 views
$ tokrepo install whisper-cpp-local-speech-text-pure-c-c-e1fd7c46
Skill#05
CogVideo — Text and Image to Video Generation

An open-source video generation framework from Zhipu AI supporting text-to-video and image-to-video with CogVideoX models. Generates high-quality clips up to 6 seconds.

by Script Depot·155 views
$ tokrepo install cogvideo-text-image-video-generation-7e2317bb
Skill#06
Together AI Image Generation Skill for Claude Code

Skill that teaches Claude Code Together AI's image generation API. Covers FLUX and Kontext models for text-to-image, image editing, and style transfer with correct parameters.

by Together AI·125 views
$ tokrepo install together-ai-image-generation-skill-claude-code-84500559
Skill#07
ImageMagick — Command-Line Image Processing for 200+ Formats

ImageMagick is a free, open-source software suite for creating, editing, compositing, and converting images. It supports over 200 image formats including PNG, JPEG, TIFF, WebP, SVG, and PDF.

by Script Depot·162 views
$ tokrepo install imagemagick-command-line-image-processing-200-formats-044138c3
Skill#08
Remotion Captions & Subtitles — AI-Powered Video Subtitles

AI skill for generating and rendering captions in Remotion videos. Supports transcription, word-level timing, and styled subtitle export.

by Skill Factory·197 views
$ tokrepo install remotion-captions-subtitles-ai-powered-video-subtitles-7775f06a
Skill#09
Ghost — Professional Publishing Platform for Modern Journalism

Ghost is an open-source publishing platform built for professional publishers. It bundles a blazing-fast Node.js CMS, Substack-style paid memberships, email newsletters, and SEO — everything a modern publication needs, self-hosted.

by AI Open Source·194 views
$ tokrepo install ghost-professional-publishing-platform-modern-journalism-300e919c
Skill#10
yt-dlp — Feature-Rich Audio & Video Downloader

yt-dlp is a feature-rich command-line tool for downloading audio and video from thousands of websites. A community-maintained fork of youtube-dl with active development, format selection, post-processing, and SponsorBlock integration.

by Script Depot·106 views
$ tokrepo install yt-dlp-feature-rich-audio-video-downloader-05ad6f38
常见问题

常见问题

10 件都要装吗?还是可以先上小一点的子集?

先上四件:Content Marketer agent 出剧本、ElevenLabs Voice Design 出旁白、whisper.cpp 出文字稿+字幕、Ghost 出博客+Newsletter。这四件就能跑起一个完整的 YouTube + Newsletter 流水线。手做缩略图烦了再加 Together AI + ImageMagick;开始发 Shorts/Reels 再加 Remotion Captions;需要 B-roll 再加 CogVideo;ElevenLabs 账单开始扎眼再加 StyleTTS 2;决定要把老节目剪二创时再加 yt-dlp。10 件全装只有在每周出多条内容时才有意义。

对一个独立创作者来说,这套每月实际花多少?

现实基线(每周 1 视频 + 1 Newsletter):Hetzner $5/月 跑 Ghost,whisper.cpp / StyleTTS 2 / ImageMagick / yt-dlp 全开源 $0,ElevenLabs starter $22/月,Together AI 出图独立开发者用量 ~$5/月,CogVideo API 按需 $0-10/月。合计大约 $40/月,加你的 Claude 或 GPT 订阅给 Content Marketer agent 用。涨得最快的成本线是 ElevenLabs;StyleTTS 2 存在的意义就是替换它。

AI 生成的旁白会让我 YouTube 频道被取消盈利吗?

单独用不会。YouTube 在 2026 年的立场:AI 内容只要有清晰的创意输入、不是「批量、重复、低质」就可以盈利。你写的剧本、你剪的视频、你定的编辑观点,加一个 AI 旁白,不会触线。会被砍盈利的是:20 个频道上传同一份 AI 生成剧本、同一个 AI 声音、同一段 AI B-roll。你的品味才是护城河。

为什么是 Ghost 不是直接 Substack?

Substack 上手更快 —— 注册、写、发。Ghost 需要你跑一台服务器(或者付 Ghost Pro $9-25/月)。那为什么还选 Ghost:(1)订阅者名单完全归你,平台不在中间,(2)它是真正的 CMS,同一篇内容直接成为 SEO 友好的公开页面,不只是个邮件存档,(3)平台不能某天改分成或改内容政策来卡你。如果你打算做 5 年以上选 Ghost,如果你下周二就要发刊选 Substack。

字幕、配音、B-roll 真的能从一份剧本同时生成吗?

能 —— 整条流水线就是为这个设计的。Content Marketer agent 出剧本。剧本送进 ElevenLabs(或 StyleTTS 2)生成旁白 WAV。WAV 送进 whisper.cpp 生成带时间戳的 SRT(通过 Remotion 变成字幕)。同一份剧本还会作为分镜 prompt 送进 CogVideo 生成 B-roll 片段。周二一份剧本,自动旁白、自动字幕、自动 B-roll 建议。你仍然在 loop 里把关品味 —— 选最好的 take、修不对劲的 B-roll —— 但人工转写、对时、找素材这些活全没了。

更多主题包

12 个主题包 · 80+ 精选资产

回首页浏览全部精选合集

返回主题包总览