TOKREPO · 主题包

稳定

内容创作者的 AI 工作室

给 YouTuber、播客主、Newsletter 作者、TikTok 创作者的十件 AI 资产：选题、剧本、配音（云端 + 开源）、字幕、缩略图、B-roll 生成、加上一个能把这些串起来的发布平台。

10 个资产

关于这个主题包

这个 pack 里装了什么

这是一个独立创作者意识到「兼职剪辑回不来了」之后会自己搭起来的工具栈。十件资产覆盖内容流水线的每一个环节 —— 从「这周该做什么选题」到「邮件发出去了、视频上传了、缩略图渲染好了」。每一件都在真实生产流程里有明确分工。

pack 刻意在两个最容易让 API 账单失控的环节 —— 配音和图像生成 —— 同时给了云端方案和开源兜底方案。摸索内容形态时先用云端版本，等每周产量把账单上的那一行刷得让你不舒服时，再切到自托管版本。

它默认你是个多平台创作者：同一份剧本会变成一支视频、一集播客、一条 Newsletter 短文，再加三条 TikTok 切片。yt-dlp + whisper.cpp + Ghost 这三件二次创作工具的意义就是：让周二的一份剧本产出周二的五条内容。

安装顺序（选题 → 剧本 → 制作 → 剪辑 → 分发）

Claude Code Agent: Content Marketer —— 从这里开始，因为选题不对其他都白搭。一个 Claude Code 子 agent，把一句话点子展开成 outline、hook、节奏点，并生成不同平台版本（长视频脚本 + 60 秒短切 + 推文 thread）。
ElevenLabs Voice Design —— 目前最不像「机器人念稿」的云端 TTS。用 Voice Design 通过 prompt 铸造一个属于你自己的稳定旁白，把那个 voice ID 长期复用，让你的频道有个能被认出来的「声音标识」。
StyleTTS 2 —— 当 ElevenLabs 账单超过你心理价位时切到的开源 TTS。基于 style-diffusion，质量接近人声，单张消费级 GPU 就能跑。作为兜底，或者拿来配「不需要是『那个声音』」的 B-track 旁白。
whisper.cpp —— 本地 STT。这是默默承担最多脏活的工具：把原始录音转成文字方便剪辑、生成字幕、喂二次创作流水线（文字稿 → Newsletter 短文 → 推文 thread）。完全离线跑，未剪辑 B-roll 不出本机。
CogVideo —— 文+图生短视频，专门给你没实拍素材的 B-roll 兜底。6 秒一段，够覆盖「办公桌前的人」「城市街景」这类填充镜头。它不替代真实素材，它替代的是 stock 库订阅。
Together AI Image Generation —— 缩略图与频道艺术图引擎。托管的 Flux/SD 模型 + 干净 API + 独立开发者负担得起的定价。一分钟出 8 张缩略图候选，挑最好的发出去。
ImageMagick —— 命令行图像处理。「把这张缩略图分别 resize 到 1280×720、1080×1080、1920×1080」这类活，一个平台一行 bash 搞定。是这个 pack 里你会用得最多但最不会去吹的工具。
Remotion Captions & Subtitles —— 给短视频烧字幕。TikTok / Shorts / Reels 用户默认静音看，字幕不是「加分项」是「必备项」。Remotion 字幕渲染把样式写成代码，让每个视频排版一致。
Ghost —— 既是发布平台也是 Newsletter 引擎。一个真相源：长文 + 发给订阅者的邮件 + SEO 友好的公开页面，三件事同一份内容。一个可自托管的 Node 应用替代「WordPress + Mailchimp + Buffer」。
yt-dlp —— 二次创作流水线的基石。下载自己过去的节目、嘉宾的旧演讲、想剪片的会议录像 —— 同一条命令搞定所有平台。下游接 whisper.cpp 转写、接 Remotion 剪片。

它们怎么串起来（ASCII 内容流水线）

           ┌── Content Marketer Agent ──┐
           │ （点子 → outline → 剧本）   │
           └──────────────┬──────────────┘
                          ▼
          ┌── ElevenLabs Voice Design ──┐
          │   或 StyleTTS 2（开源）      │
          │   （剧本 → 旁白 WAV）        │
          └──────────────┬───────────────┘
                          ▼
     ┌──── whisper.cpp（转写旁白） ────┐
     │            ▼                     │
     │      SRT + 纯文本                │
     │       │            │              │
     │       ▼            ▼              │
     │   字幕         Newsletter 草稿   │
     │  （Remotion）  （Ghost）         │
     │       │            │              │
     │       ▼            ▼              │
     │   B-roll       订阅邮件          │
     │  （CogVideo）   + 公开文章 URL    │
     └────────┬─────────────────────────┘
              ▼
  ┌── Together AI 图像生成 ──┐
  │   （缩略图候选）          │
  │            │              │
  │            ▼              │
  │     ImageMagick           │
  │  （resize 1280×720 /      │
  │   1080×1080 / 1920×1080） │
  └───────────────────────────┘
              │
              ▼
        yt-dlp（之后）
        把发出去的视频拉回来 →
        切片 → 二次创作

两个关键拼接点：whisper.cpp → 字幕 + Newsletter（同一份文字稿喂两个出口）、Together AI → ImageMagick（一张生成的缩略图变成三个平台尺寸）。把这两个点拼对，单条内容的人力消耗直接减半。

你会遇到的取舍（DIY AI 声音 vs 真人，AI 缩略图 vs 设计师）

DIY AI 声音 vs 真人配音 —— 2026 年 AI 声音越过了「不让人尴尬」这条线，但还没越过「听起来像一个真的在乎这个话题的人」那条线。频道门面的旁白人格请自己录。播客里的广告口播、不能露脸的平台、B-roll 旁白用 AI 配，10 倍速出片。先用 ElevenLabs Voice Design 摸清哪部分该真人、哪部分该 AI。
AI 缩略图 vs 设计师 —— Together AI 60 秒给你「能用」的缩略图。真人设计师 4-8 小时给你「点得动」的缩略图。在内容增长期保持周更，AI 缩略图加 5 分钟人工调整（文字叠加、裁剪、对比度）在速度上完胜外包。粉丝过 10 万、每提升 1 个 CTR 点都值真金白银时，再请设计师。
ElevenLabs 费用 vs StyleTTS 2 自托管 —— ElevenLabs 独立开发者档 $22-99/月，音质确实更好。StyleTTS 2 在你已有的 GPU 上免费跑，音质差不多够。经验法则：每周生成音频 30 分钟以内留在 ElevenLabs；超过这个量自托管的账自然平。
Ghost vs Substack/Beehiiv —— Ghost 是「自托管、自己拿订阅者名单」的开源方案：你拥有名单，平台不会某周二改规则。代价：你得维护一台服务器。Substack 是「租平台流量」的方案：零运维，但他们想改条款随时改。如果你已经在管自己的网站，选 Ghost。如果你下周二就要发刊，选 Substack。
CogVideo vs 付费 stock 素材 —— CogVideo 适合做填充式的场景空镜。在观众盯着看那段镜头时（特写、人脸、特定动作）就不行了。给真正承担信息的镜头预算 $20-40/月买 Pexels Pro / Artgrid 这类正经 stock 库，CogVideo 用来做切镜过渡。

常见踩坑（听起来像 AI、版权陷阱）

视频开始有「AI 味」。症状：每篇剧本都用「让我们深入了解」「在这期视频里我们将探索」「XX 的世界」。原因：模型默认表达渗进了你的口吻。解法：维护一份 style.md 让 Content Marketer agent 每次先读 —— 明确列出「禁用短语」「句子节奏示例」「你的犀利观点是 X、Y、Z」。每月更新一次。
生成声音/图像的版权陷阱。ElevenLabs Voice Design 生成的声音是你的、可商用，但未经授权克隆他人的声音是禁区、会被平台封号。Together AI 出图同理：多数模型允许商用，但训练数据来源不够干净，别生成「模仿某在世艺术家风格」。
字幕烧错宽高比。16:9 渲染字幕再裁切成 9:16 给 Shorts，右半边字直接没了。一定要按最终平台宽高比直接渲染；Remotion Captions skill 有显式的 width/height 参数 —— 用上。
忘了按平台重编码。YouTube 要 H.264 + AAC 高码率；TikTok 偏好稍低码率 + 激进 web 优化。同一份源文件，不同导出。给每个平台加一步 ffmpeg 处理；别上传一份 master MP4 然后听天由命。
Newsletter 和视频对不齐。周二发视频，周五 Newsletter 引用它，结果你忘了把 Ghost 里缩略图换掉。解法：一篇内容对应一篇 Ghost 文章，邮件从那篇文章生成。别并行起两份草稿。
二次创作只复制不改写。把视频文字稿原封不动贴进 Newsletter 是最懒的操作，读起来也确实是。让 Content Marketer agent 把文字稿改写成 Newsletter 语气（短句、不要「就像我视频里说的」、换个新 hook）。复用观点不复用句子。

安装 · 一行命令

$ tokrepo install pack/content-creator-ai-studio

丢给 agent，或粘到终端

包内含什么

10 个资产打包就绪

Skill#01

Claude Code Agent: Content Marketer

Use this agent when you need to develop comprehensive content strategies, create SEO-optimized marketing content, or execute multi-channel content campaigns to drive engagement...

by TokRepo精选·203 views

$ tokrepo install claude-code-agent-content-marketer-721d23c5

Skill#02

ElevenLabs Voice Design — Generate Voices from Prompts

ElevenLabs Voice Design generates new voices from text prompts. Describe age, accent, tone — get a voice you own and reuse via TTS API.

by ElevenLabs·271 views

$ tokrepo install elevenlabs-voice-design-generate-voices-from-prompts

Skill#03

StyleTTS 2 — Human-Level Text-to-Speech via Style Diffusion

A TTS system that achieves human-level speech synthesis through style diffusion and adversarial training with large speech language models. Fast inference with natural prosody.

by Script Depot·247 views

$ tokrepo install styletts-2-human-level-text-speech-via-style-diffusion-e7a8aaaf

Skill#04

whisper.cpp — Local Speech-to-Text in Pure C/C++

High-performance port of OpenAI Whisper in C/C++. No Python, no GPU required. Runs on CPU, Apple Silicon, CUDA, and even Raspberry Pi. Real-time transcription.

by Script Depot·2132 views

$ tokrepo install whisper-cpp-local-speech-text-pure-c-c-e1fd7c46

Skill#05

CogVideo — Text and Image to Video Generation

An open-source video generation framework from Zhipu AI supporting text-to-video and image-to-video with CogVideoX models. Generates high-quality clips up to 6 seconds.

by Script Depot·366 views

$ tokrepo install cogvideo-text-image-video-generation-7e2317bb

Skill#06

Together AI Image Generation Skill for Claude Code

Skill that teaches Claude Code Together AI's image generation API. Covers FLUX and Kontext models for text-to-image, image editing, and style transfer with correct parameters.

by Together AI·269 views

$ tokrepo install together-ai-image-generation-skill-claude-code-84500559

Skill#07

ImageMagick — Command-Line Image Processing for 200+ Formats

ImageMagick is a free, open-source software suite for creating, editing, compositing, and converting images. It supports over 200 image formats including PNG, JPEG, TIFF, WebP, SVG, and PDF.

by Script Depot·315 views

$ tokrepo install imagemagick-command-line-image-processing-200-formats-044138c3

Skill#08

Remotion Captions & Subtitles — AI-Powered Video Subtitles

AI skill for generating and rendering captions in Remotion videos. Supports transcription, word-level timing, and styled subtitle export.

by Skill Factory·370 views

$ tokrepo install remotion-captions-subtitles-ai-powered-video-subtitles-7775f06a

Skill#09

Ghost — Professional Publishing Platform for Modern Journalism

Ghost is an open-source publishing platform built for professional publishers. It bundles a blazing-fast Node.js CMS, Substack-style paid memberships, email newsletters, and SEO — everything a modern publication needs, self-hosted.

by AI Open Source·343 views

$ tokrepo install ghost-professional-publishing-platform-modern-journalism-300e919c

Skill#10

yt-dlp — Feature-Rich Audio & Video Downloader

yt-dlp is a feature-rich command-line tool for downloading audio and video from thousands of websites. A community-maintained fork of youtube-dl with active development, format selection, post-processing, and SponsorBlock integration.

by Script Depot·233 views

$ tokrepo install yt-dlp-feature-rich-audio-video-downloader-05ad6f38

常见问题

10 件都要装吗？还是可以先上小一点的子集？

先上四件：Content Marketer agent 出剧本、ElevenLabs Voice Design 出旁白、whisper.cpp 出文字稿+字幕、Ghost 出博客+Newsletter。这四件就能跑起一个完整的 YouTube + Newsletter 流水线。手做缩略图烦了再加 Together AI + ImageMagick；开始发 Shorts/Reels 再加 Remotion Captions；需要 B-roll 再加 CogVideo；ElevenLabs 账单开始扎眼再加 StyleTTS 2；决定要把老节目剪二创时再加 yt-dlp。10 件全装只有在每周出多条内容时才有意义。

对一个独立创作者来说，这套每月实际花多少？

现实基线（每周 1 视频 + 1 Newsletter）：Hetzner $5/月跑 Ghost，whisper.cpp / StyleTTS 2 / ImageMagick / yt-dlp 全开源 $0，ElevenLabs starter $22/月，Together AI 出图独立开发者用量 ~$5/月，CogVideo API 按需 $0-10/月。合计大约 $40/月，加你的 Claude 或 GPT 订阅给 Content Marketer agent 用。涨得最快的成本线是 ElevenLabs；StyleTTS 2 存在的意义就是替换它。

AI 生成的旁白会让我 YouTube 频道被取消盈利吗？

单独用不会。YouTube 在 2026 年的立场：AI 内容只要有清晰的创意输入、不是「批量、重复、低质」就可以盈利。你写的剧本、你剪的视频、你定的编辑观点，加一个 AI 旁白，不会触线。会被砍盈利的是：20 个频道上传同一份 AI 生成剧本、同一个 AI 声音、同一段 AI B-roll。你的品味才是护城河。

为什么是 Ghost 不是直接 Substack？

Substack 上手更快 —— 注册、写、发。Ghost 需要你跑一台服务器（或者付 Ghost Pro $9-25/月）。那为什么还选 Ghost：（1）订阅者名单完全归你，平台不在中间，（2）它是真正的 CMS，同一篇内容直接成为 SEO 友好的公开页面，不只是个邮件存档，（3）平台不能某天改分成或改内容政策来卡你。如果你打算做 5 年以上选 Ghost，如果你下周二就要发刊选 Substack。

字幕、配音、B-roll 真的能从一份剧本同时生成吗？

能 —— 整条流水线就是为这个设计的。Content Marketer agent 出剧本。剧本送进 ElevenLabs（或 StyleTTS 2）生成旁白 WAV。WAV 送进 whisper.cpp 生成带时间戳的 SRT（通过 Remotion 变成字幕）。同一份剧本还会作为分镜 prompt 送进 CogVideo 生成 B-roll 片段。周二一份剧本，自动旁白、自动字幕、自动 B-roll 建议。你仍然在 loop 里把关品味 —— 选最好的 take、修不对劲的 B-roll —— 但人工转写、对时、找素材这些活全没了。

更多主题包

12 个主题包 · 80+ 精选资产

回首页浏览全部精选合集

返回主题包总览