TOKREPO · 主题包

稳定

Voice Cloning + Podcast — 一个人撑起整个播客

做独立播客、配音、YouTube 的单兵 10 件套：Audacity 收音 + 降噪 + 剪辑、Whisper / whisper.cpp 转写出稿、ElevenLabs / OpenVoice / GPT-SoVITS / Fish Speech / Coqui TTS 做声音克隆和多语配音、KrillinAI 一键把视频 dub 成 100 国语言、VideoCaptioner 自动烤字幕。录音 → 降噪 → 克隆 → 配音 → 剪辑发布，一个人全跑。

10 个资产

关于这个主题包

这个 pack 包含什么

这是给一个独立播客主 / 配音师 / YouTuber 一个人撑整套节目而设计的 rig —— 没有制片人、没有混音师、没有翻译公司。10 件，刻意排序，要么开源要么有靠谱免费档。不是「所有相关工具」，是「能让一个人周一录、周五出多语字幕降噪克隆版本」的最小集。

五层、每层在真有取舍的地方给两个选项：

层	选项	用途
1. 录音 + 降噪	Audacity	免费 DAW。多轨录音、去嘶声/喷麦/click、什么格式都能导。
2. 转写	Whisper（云）· whisper.cpp（本地）	云端精度最高；whisper.cpp 用于离线 / 敏感内容 / 批量 / 移动端。
3. 克隆自己的声音	ElevenLabs · OpenVoice · GPT-SoVITS	ElevenLabs = 音质天花板，付费。OpenVoice = 即时音色+风格克隆，MIT。GPT-SoVITS = few-shot 克隆，可自部署。
4. 多语配音	Fish Speech · Coqui TTS · KrillinAI	Fish Speech 支持 80+ 语种。Coqui TTS = 可插拔引擎。KrillinAI 直接吃视频文件，一键 dub 成另一种语言。
5. 字幕 + 发布	VideoCaptioner	给 TikTok / Reels / Shorts 的竖屏剪辑烤词级字幕。

这套是按单兵作战裁的尺寸。如果你是 3 人播客网络带剪辑师，Audacity 换 Reaper / Adobe Audition（付费）、KrillinAI 换人工翻译、再加发布排期工具。其他人就装这套。

它们怎么协同

[ 麦克风 / Riverside / Zoom 录音 ]
             │
             ▼
   ┌─────────────────────┐
   │ Audacity            │  noise gate / EQ / 归一化 / click 去除
   └─────────────────────┘
             │  干净 WAV
             ▼
   ┌─────────────────────┐
   │ Whisper / whisper.cpp │  转写 + 词级时间戳
   └─────────────────────┘
             │  按删文字编辑，不按拉波形
             ▼
   ┌─────────────────────────────────┐
   │ 声音克隆（三选一）：           │
   │   ElevenLabs · OpenVoice ·     │  → 你的人声模型
   │   GPT-SoVITS                   │
   └─────────────────────────────────┘
             │
             ├──► 补录某句口误：打字给「你的声音」念
             │
             ▼
   ┌─────────────────────────────────┐
   │ 多语配音（三选一）：           │
   │   Fish Speech（TTS 引擎）·     │
   │   Coqui TTS · KrillinAI        │  → ES / JA / DE / FR 音轨
   │   （全视频流水线）             │
   └─────────────────────────────────┘
             │
             ▼
   ┌─────────────────────┐
   │ VideoCaptioner      │  逐词烤字幕，竖屏切片
   └─────────────────────┘
             │
             ▼
   [ YouTube / 小宇宙 / TikTok / Reels / 视频号 ]

这套真正的解锁点是 按文字编辑，而不是按波形编辑。Whisper 给你带时间戳的转写以后，删一个「呃」就是从文本文件里删一个词然后重渲染 —— 5 倍提速的来源不是克隆、不是 dub，是再也不用拉 90 分钟波形。

你会遇到的取舍

ElevenLabs vs OpenVoice vs GPT-SoVITS 选哪个克隆自己声音。 ElevenLabs 是音质天花板 —— 3 分钟干净音频克隆出来朋友都听不出来，但月费 $5–$330 + 字符超量计费，模型还存在他们服务器上。OpenVoice 是 MIT 许可、消费级 GPU 能跑，质量是「播客开场没问题、长篇旁白勉强」。GPT-SoVITS 是开源里最强的，但每个音色都要 fine-tune 一遍。要最快出结果选 ElevenLabs；在意授权或月费选 OpenVoice / GPT-SoVITS。
云端 Whisper vs whisper.cpp。 云端精度最高，中文、日文、专有名词尤其明显。whisper.cpp 不用联网、不按分钟计费、数据不出本机 —— 有名人嘉宾的播客走云端；敏感内部 / 记者采访保护信源走本地。
KrillinAI vs DIY（Fish Speech + Coqui）。 KrillinAI 吃一个视频文件，吐回同一个视频在新语言下的版本，唇形大致对得上、字幕带好 —— 一条命令。DIY 路径（提取音频 → 转写 → 翻译 → re-TTS → 混回去）每步可控但整合工作量是 5 倍。一稿用 KrillinAI；某一步要精调时下沉到 DIY。
多语保真度现实校准。 英语训练的克隆模型做中文 / 日语 / 韩语都会有「外国口音」。本 pack 里 Fish Speech 是最强的多语种 TTS。商业级本地化（付费客户）依然该找母语配音员，克隆只是草稿质量、不是播出质量。
实时 vs 离线。 本 pack 没有任何实时方案 —— 这是后期录制棚不是直播 rig。要实时去看 Voice AI Stack pack。

常见踩坑（含一个伦理的）

你没有克隆别人声音的权利。 克隆嘉宾、公众人物、已故人士、任何你没拿到书面授权的声音 —— 一条直通诉讼、平台封号、（很多司法管辖区）刑事责任的捷径。ElevenLabs 要求克隆别人声音前先录一段同意声明；OpenVoice 和 GPT-SoVITS 不强制这点 —— 你自己来执行。克隆前拿到书面授权，并存档。
模型偏见生成你不要的口音。 美式英语主导训练数据的克隆模型会让你的印度英语 / 澳洲 / 苏格兰口音听起来微微「美国化」。整季节目押注之前先把你全口音范围跑一遍测试。
专有名词转写错率。 Whisper 会幻觉名字。「Linus Torvalds」90% 时候对；「Anthropic」会变「and topic」。给你节目每个反复出现的名字 / 术语建一份自定义词表 + 替换脚本。
长音频 token 成本。 用云 Whisper 转写 2 小时播客没问题（$0.006/分钟 ≈ $0.36）。用 ElevenLabs 多语种档 dub 2 小时播客 ≈ 10 万字符/小时 ≈ 每集每语言 $20–60。承诺「每集 10 国语言」之前先算账。
STT 之前先挂 VAD。 不做语音活动检测、直接把静音段喂给 Whisper —— 你会得到经典幻觉转写 Thank you for watching! 直接烤进字幕里。在任何 STT 调用前加 30 行 silero-vad。
没存原始母带。 克隆 + 重混 + 重 dub 是破坏性链路。Audacity 工程原始多轨永远存档 —— 客户、律师、未来的你都会需要。

伦理 disclaimer

声音克隆有正经用途：补录自己的口误、可访问性旁白、把自己的内容 dub 成不会说的语言、ALS 患者的声音保存。也有显而易见的滥用：冒充诈骗、未经同意的 deepfake、把话塞进公众人物嘴里。本 pack 提供工具，规矩你来定。 克隆非自己声音前先拿书面授权。在 show notes 里披露 AI 生成音频。各大平台（YouTube / TikTok / Spotify / Meta / 小宇宙国内合规要求）现在都要求合成媒体必须披露，藏着的会被取消变现 / 下架。把披露写进你的发布步骤，从第一天就这样做。

安装 · 一行命令

$ tokrepo install pack/voice-clone-podcast-studio

丢给 agent，或粘到终端

包内含什么

10 个资产打包就绪

Skill#01

Audacity — Free Cross-Platform Audio Editor

Audacity is a free, open-source digital audio editor and recorder for Windows, macOS, and Linux. It supports multi-track editing, a wide range of audio formats, real-time effects, and plugin extensibility for recording, editing, and mastering audio.

by AI Open Source·191 views

$ tokrepo install audacity-free-cross-platform-audio-editor-44f450b6

Skill#02

Whisper — OpenAI Speech-to-Text

OpenAI's open-source speech recognition model. Transcribe audio/video to text with word-level timestamps in 99 languages. Essential for subtitle generation.

by OpenAI·399 views

$ tokrepo install whisper-openai-speech-text-eb0f9dd6

Skill#03

whisper.cpp — Local Speech-to-Text in Pure C/C++

High-performance port of OpenAI Whisper in C/C++. No Python, no GPU required. Runs on CPU, Apple Silicon, CUDA, and even Raspberry Pi. Real-time transcription.

by Script Depot·2088 views

$ tokrepo install whisper-cpp-local-speech-text-pure-c-c-e1fd7c46

Script#04

ElevenLabs Python SDK — AI Text-to-Speech

Official ElevenLabs Python SDK for AI voice generation. Create realistic voiceovers with 30+ languages, voice cloning, and streaming support.

by ElevenLabs·338 views

$ tokrepo install elevenlabs-python-sdk-ai-text-speech-16d32da9

Skill#05

OpenVoice — Instant Voice Cloning with Tone and Style Control

OpenVoice is an open-source voice cloning framework from MyShell AI that reproduces a speaker's voice from a short audio sample while giving independent control over emotion, accent, rhythm, and language.

by AI Open Source·197 views

$ tokrepo install openvoice-instant-voice-cloning-tone-style-control-ae7169ee

Skill#06

GPT-SoVITS — Few-Shot Voice Cloning and Text-to-Speech

An open-source TTS system that can clone any voice from just one minute of audio data, combining GPT-style language modeling with VITS synthesis for natural speech generation.

by AI Open Source·326 views

$ tokrepo install gpt-sovits-few-shot-voice-cloning-text-speech-8b48f7ce

Skill#07

Fish Speech — Multilingual TTS for 80+ Languages

Fish Speech is a state-of-the-art open-source TTS system supporting 80+ languages. 29K+ GitHub stars. 4B dual-AR model, voice cloning, emotional control with 15K+ tags, real-time inference.

by AI Open Source·406 views

$ tokrepo install fish-speech-multilingual-tts-80-languages-88c15e9c

Script#08

Coqui TTS — Deep Learning Text-to-Speech Engine

Generate speech in 1100+ languages with voice cloning. XTTS v2 streams with under 200ms latency. 44K+ GitHub stars.

by TokRepo精选·481 views

$ tokrepo install coqui-tts-deep-learning-text-speech-engine-a059dce2

Skill#09

KrillinAI — AI Video Translation and Dubbing in 100 Languages

An open-source tool that uses LLMs to translate and dub video content into over 100 languages with one-click deployment, optimized for YouTube, TikTok, and other platforms.

by AI Open Source·207 views

$ tokrepo install krillinai-ai-video-translation-dubbing-100-languages-e0ea662e

Skill#10

VideoCaptioner — AI Subtitle Pipeline

LLM-powered video subtitle tool: Whisper transcription + AI correction + 99-language translation + styled subtitle export. 13,800+ stars.

by Script Depot·433 views

$ tokrepo install videocaptioner-ai-subtitle-pipeline-d12d8441

常见问题

克隆自己的声音合法吗？

克隆自己的声音自己用，几乎所有司法管辖区都合法。麻烦从这里开始：(1) 克隆你没有授权的声音 —— 嘉宾、名人、已故人士；(2) 用克隆冒充某人做欺诈或诽谤，就算克隆的是你自己的声音，被别人滥用也算；(3) 在要求披露的平台（YouTube / TikTok / Spotify / Meta 现在全都要求）上隐瞒音频是 AI 生成的。给自己播客的开场、补录、把自己内容翻译 dub —— 都没问题。涉及第二个人，先拿书面授权。

ElevenLabs vs Fish Speech vs OpenVoice，哪个干嘛？

ElevenLabs 是英语 / 西语 / 德语的质量领导者、付费 SaaS —— 在乎音质胜过月费、能接受云依赖时选它。Fish Speech 是本 pack 里最强的开源多语 TTS —— 覆盖 80+ 语言含强劲中日，GPU 上能跑，是 ElevenLabs 在你目标语言里「太洋化」时的解药。OpenVoice 是最快的开源克隆 —— 3 秒参考音频、MIT 许可、消费级 GPU 能跑，但质量上限是「播客开场」不是「播音级旁白」。典型配置：主声音克隆走 ElevenLabs，中日 dub 走 Fish Speech，一次性角色配音走 OpenVoice。

中文音质谁最好？

中文专项：GPT-SoVITS 和 Fish Speech 都比 ElevenLabs 开箱即用更好，因为它们在更大量中文数据上训练。GPT-SoVITS 尤其有强大中文社区，公开 few-shot 教程基本都是中文的。ElevenLabs 这一年中文进步明显，但四声上仍能听出英语影响的音调瑕疵。整集中文播客或 dub 轨：用 ~30 分钟干净普通话参考 fine-tune GPT-SoVITS 或 Fish Speech；英语节目里夹一句中文：ElevenLabs 够用。

真能用 KrillinAI 一键 dub 一个 1 小时播客吗？

技术上能：喂 episode.mp4、选目标语言、拿回 episode-es.mp4 带翻译字幕和 dub 音频。现实里发布前要做一遍人工审校：(1) 翻译会曲解几个文化梗和内梗，(2) 克隆会念错你领域里的专有名词和缩写，(3) 长视频唇形 80% 片段对得上、20% 明显错位。能跑通的工作流：KrillinAI 先在 5 分钟宣传片段跑一稿；质量 OK 再全集批；审校转写校术语；重渲染。1 小时一集端到端：人工 ~3 小时 vs 外包翻译公司 ~3 天。

播客转社交剪辑哪个视频剪辑工具最快？

如果是从 90 分钟节目里剪 60 秒竖屏切片给 TikTok / Shorts / Reels：VideoCaptioner 是关键解锁，因为最大的时间黑洞不是剪、是给每条切片做词级字幕动效。VideoCaptioner 直接吃 Whisper 已经给你的转写，把动态词级字幕烤进竖屏导出。配 FFmpeg crop 或 Shotcut / Kdenlive 做剪本身。要单 GUI 一站式剪 + 字 + 导：OpenCut 和 Shotcut 都行但单条更费时。最快路径：在 Audacity / 文本编辑器里按文字剪，FFmpeg 渲染切片，VideoCaptioner 上字幕，发布。

更多主题包

12 个主题包 · 80+ 精选资产

回首页浏览全部精选合集

返回主题包总览