AI初创公司MyShell发布OpenVoice算法，实现精准语音克隆-助攻财富

Respeecher、Voicemod 和 ElevenLabs 这三家初创公司都有一个共同点，它们都提供用于制作语音克隆的算法和人工智能软件。

现在，加拿大人工智能初创公司 MyShell 宣布开源其用于即时语音克隆的 OpenVoice 算法。

MyShell 在社交媒体平台 X 上分享了这一更新，并表示：“仅使用一个小音频片段，就能以无与伦比的精度克隆声音，对音调进行精细控制，从情感到口音、节奏、停顿和语调。”

在此次合作下，来自麻省理工学院、MyShell.ai 和清华大学的研究人员推出了 OpenVoice，它可以复制说话者的声音，并仅使用原始来源的简短音频片段来生成多种语言的语音。

它还捕捉说话者声音的独特音调和音色。

今天，我们自豪地开源 OpenVoice 算法，秉承我们的核心精神——人工智能为所有人。立即体验：https://t.co/zHJpeVpX3t。

克隆声音具有无与伦比的精确度，可以对音调进行精细控制，从情感到重音、节奏、停顿和语调，只需使用… pic.twitter.com/RwmYajpxOt

— MyShell (@myshell_ai) 2024 年 1 月 2 日

据该公司称，该算法添加了关键的风格元素，如情感、口音、节奏、停顿和语调。

这些元素对于使语音听起来真实并创造有趣的对话至关重要。

它有助于避免常规文本转语音时经常出现的无聊声音。

语音克隆人工智能模型如何工作

在一篇研究论文中，OpenVoice 分享了其语音克隆人工智能背后的方法。

OpenVoice 由两个不同的人工智能模型组成：文本转语音 (TTS) 模型和“音调转换器”。

该模型可以管理风格参数和语言，并接受了英语（美式和英式口音）、汉语和日语使用者的“使用 30,000 个句子的训练”。

训练包括根据表达的情绪标记样本，模型从这些音频片段中学习语调、节奏和停顿。

另一方面，音调转换器模型是在来自 20,000 多个不同说话者的超过 300,000 个音频样本的庞大数据集上进行训练的。

在这两种情况下，人类语音音频都被转换为音素（区分单词的特定声音）并使用向量嵌入来表示。

TTS 模型使用“基本扬声器”，与训练过程中用户录制的音频所产生的音调相结合。

这两个模型一起可以复制用户的声音并修改音色——口语文本中传达的情感表达。

这家初创公司成立于 2023 年。去年，MyShell 筹集了 560 万美元的种子资金，由 INCE Capital 领投，Folius Ventures、Hashkey Capital、SevenX Ventures、TSVC 和 OP Crypto 等知名投资者参与其中。

该公司表示，这笔资金将有助于推进专有人工智能模型、创建专为人工智能原生应用程序量身定制的创作者工作室，以及在区块链技术领域建立充满活力的创作者生态系统。

AI 初创公司 MyShell 发布用于精确语音克隆的 OpenVoice 算法的帖子首先出现在 Metaverse Post 上。

热点：AI 公司

AI初创公司MyShell发布OpenVoice算法，实现精准语音克隆