Meta 发布音频/语音生成 AI 模型 Voicebox

软餐获悉，Meta 发布了最新的音频/语音生成 AI 模型 Voicebox 。该模型可帮助创作者执行语音生成任务，例如完成音频编辑、采样和样式化等工作。 Meta 举例说，该模型可帮助视障人士以他们的声音收听朋友发来的文本消息，或用自己的声音朗读外语。该模型还可帮助消除音频中汽车喇叭等不必要的干扰。

Voicebox 目前支持 6 种语言：英语、法语、西班牙语、德语、波兰语和葡萄牙语。该模型已接受了超过 50,000 小时的公共领域有声读物的录制语音和转录文本的训练，它还可以在给定周围语音和转录文本的情况下预测语音片段。

Meta 将微软 Vall-E 和 YourTTS 列为 Voicebox 的竞争产品。它表示 Voicebox 在比较单词错误率和风格相似性时优于这两种模型。 Meta 不会向普通公众开放 Voicebox，该模型也不会开源。

本站电报频道 / 电报群

Meta 发布音频/语音生成 AI 模型 Voicebox

发表回复