AI 音乐与音频生成包
给用 AI 做音乐和音效的音乐人、播客主、创作者的十件资产:Bark / AudioCraft 负责生成,Cartesia / Chatterbox 出人声,MuseScore / LMMS 编曲混音,Tone.js / howler.js 上 Web,Demucs 做人声/伴奏分离,Audacity 收尾母带 — 按生产管线顺序排列。
这个 pack 包含什么
这是给用 AI 生成音频、并且要在自己控制的工具里收尾的音乐人、播客主、游戏/网页创作者的一套配置 — 不是把母带锁在某个 SaaS 网页 app 里。每件资产要么完全开源,要么有真正的 API(不接受网页复制粘贴流)。十件里有九件是 MIT 或 Apache 协议。
整套覆盖音频生产管线的全部 5 个阶段。不需要每个都装 — 根据你要的产出(音乐 / 人声 / 音效 / 乐谱 / Web 播放)选对应那一行,串起来跑。
按生产管线顺序安装
阶段 1 — 生成
- Bark — Suno 研究团队出的 transformer 文本到音频模型。从文字 prompt 生成 12+ 语言的语音、音乐、背景噪音、音效,支持
[laughs][music]等非语音 tag。MIT 协议,本地跑约需 12 GB 显存。需要一个万金油模型先粗略出活就用它。 - AudioCraft(MusicGen) — Meta 的 PyTorch 音乐生成库。比 Bark 的器乐音乐连贯性更高,可以用文字 prompt 或哼唱旋律条件化生成。你真正要的是音乐而不是人声时选它。
- Cartesia Sonic TTS — 状态空间模型 TTS,首音节响应 75ms,100+ 声音、5 秒克隆、流式 WebSocket。云 API。需要实时人声(直播 agent、歌词试唱快速迭代)时用。
- Chatterbox — Resemble AI 出的开源 TTS,对韵律、情感、表现力可精细控制。当你要自托管、希望出来的歌词或旁白不像 GPS 语音播报时,这是 Cartesia/ElevenLabs 的本地替代。
阶段 2 — 编排
- MuseScore — 免费开源记谱软件。把 AI 生成的 MIDI/旋律想法变成正式编曲的桥梁。导出 MIDI、MusicXML、音频。
- LMMS — 跨平台免费 DAW,内置合成器、节拍序列器、效果链。AI 生成的素材在这里才变成歌。不想为了叠四轨花 200 美元买 FL Studio / Ableton 时的开源替代。
阶段 3 — 上 Web(可选,给要出货的创作者)
- Tone.js — Web Audio 互动音乐框架。当你的产出不是 WAV 而是体验(生成式网页音乐、互动 loop、浏览器里的乐器)时用。
- howler.js — 跨浏览器音频播放库。和 Tone.js 配套用(Tone 负责合成,Howler 负责播放成品)。三行 API 解决你本来要花一周末调试的所有浏览器音频 bug。
阶段 4 — 修复 / 音源分离
- Demucs — Meta 的 AI 音乐源分离。把任意一首歌分成 鼓 / 贝斯 / 人声 / 其他 四轨。这是人声去除/伴奏提取的那一步(任何歌做卡拉 OK、从 AI 生成的混音里抽出人声、修补串音)。
阶段 5 — 母带 & 导出
- Audacity — 全地球播客和 YouTube 旁白配音都在用的跨平台音频编辑器。降噪、归一化、EQ、限制器、导出 MP3/WAV/FLAC。故意保守 — 母带应该可预测。
它们怎么串起来
文字 prompt / 歌词
│
├─ Bark(任意音频)──┐
├─ MusicGen(音乐)─┤
├─ Cartesia(人声)─┼─→ 分轨 WAV
└─ Chatterbox(人声)┘
│
┌────────────────────┘
▼
MuseScore(记谱 / MIDI 草稿)→ LMMS(DAW 编排 + 叠轨)
│
├─ Demucs(如需可再做分离 / 抽轨)
│
▼
Audacity(清理、EQ、限制器、母带)
│
├─ WAV / MP3 → 上 Spotify / YouTube / 播客主机
└─ Tone.js + howler.js → 嵌进网页
整条链路最关键的转折点是阶段 2 的 LMMS — 没有 DAW,AI 生成的素材就停留在「一次性新鲜玩意」;有 DAW,四个 Bark/MusicGen take 才能拼成一首结构完整的歌。
你会遇到的取舍
- Bark vs MusicGen — Bark 更宽(人声 + 音乐 + 音效)但音乐更松散。MusicGen 更窄(器乐音乐)但更连贯。要的是完整歌曲:MusicGen 出伴奏 + Bark 或 Cartesia 出人声。要的是播客 intro、音效、氛围音:Bark 单挑就够。
- Cartesia vs Chatterbox — Cartesia 最快(首音节 75 ms)声音也最好,但云 API 按用量计费。Chatterbox 自托管不按次收费。Cartesia 适合生产环境的实时 agent;Chatterbox 适合批量出人声、对延迟不敏感的场景。
- Tone.js vs howler.js — Tone.js 做合成(振荡器、乐器、调度)。Howler.js 跨浏览器播放成品文件。多数项目两个都要。如果你不在运行时生成音频,直接 Howler 就行。
- Demucs 进攻 vs 防御用法 — 进攻:从任意参考曲拉分轨研究或重混。防御:当 AI 生成的人声和伴奏同一次渲染时,把它们拆开避免共振伪影。
- Suno/Udio 网页 UI vs 本套 — Suno 网页 app 出 30 秒 meme 更快。但一旦你想迭代(只重生成副歌)、拥有母带(无 DRM、自己的 WAV)、批量编曲(隔夜跑 50 个 prompt),本套就赢了。
常见踩坑
- Bark 显存 — 全模型要 12 GB 显存。8 GB 显卡设
SUNO_USE_SMALL_MODELS=True。CPU 也能跑但慢 10 倍。 - AudioCraft 协议陷阱 — MusicGen 某些 checkpoint 是 CC-BY-NC(禁商用)。上架前读 model card确认协议。
- Demucs CPU 太慢 — 4 分钟歌曲 CPU 跑约 3 分钟,3060 跑 20 秒。批量隔夜走 CPU;交互式必须 GPU。
- Audacity 响度战争 — 限制器别推过 -1 dBTP。母带太响在 Spotify 会被自动衰减,反而难听。
- Cartesia 流式 + 浏览器 — WebSocket 音频块需要仔细缓冲;客户端用 Tone.js 或 Howler.js 播放,别用裸
<audio>标签。
10 个资产打包就绪
常见问题
这套真能替代 Suno 或 Udio 吗?
出 30 秒一次性片段,替代不了 — Suno 网页 app 更快。但其他场景(只重做副歌、握住母带文件、批量生成 50 个 take、人声和伴奏分别调音)都能替代,而且更强。本套给的是制作人的工作流,不是老虎机式 UI。MusicGen + Bark 覆盖生成层;LMMS 给你 Suno UI 隐藏掉的编排层;Demucs 让你拉出 Suno 永远不开放的分轨。
AI 唱歌应该用哪个模型?
这里面没有任何一个是专门为唱歌调过的 — 全部都是语音模型。要 AI 唱:Bark 配合特定声音预设 + [singing] tag 是创作性最松的选项;Cartesia 和 Chatterbox 出来更可控但明显是「说话腔」,可以在 LMMS 里变调假装旋律,但听感像在自动 tune 里说话。真正的 AI 唱歌目前仍然要走 Suno 的托管模型。本 pack 在这点上不藏着掖着。
纯本地路径的最低硬件要求是多少?
Apple Silicon Mac(M1 及以上)或者 12 GB 显存的台式机(RTX 3060 及以上)能在可用速度下本地跑 Bark / MusicGen / Demucs / Chatterbox。8 GB 显卡开 small-model 模式。纯 CPU 这四个也能跑,但比 GPU 慢 10 倍 — 隔夜批量没问题,交互迭代会很痛。
怎么从 AI 生成的音乐里拿到干净的分轨?
用 MusicGen 对同一个 prompt 生成 4 个短变体,每个都过一遍 Demucs 拆成 鼓 / 贝斯 / 人声 / 其他,然后在 LMMS 里把好的部分再叠起来。这是核心套路:生成模型给你的是过得去的完整混音,但 Demucs 让你从第 3 个 take 抽出唯一好听的鼓 loop,从第 1 个 take 抽出贝斯。比连续重 roll 几小时等整个 take 落地干净得多。
Tone.js 和 howler.js 都需要装吗?
只有当你要把音频部署到网页才需要。Howler.js 负责播放成品文件(Audacity 出来的母带 WAV),跨浏览器自动播放兼容性好。Tone.js 负责浏览器里合成或调度音频(生成式音乐、互动乐器)。静态音乐网站:只要 Howler。生成式 Web 乐器:两个都要 — Tone 合成,Howler 播放预渲染的采样。