1. 首页 > 币圈资讯  > AI初创公司MyShell发布OpenVoice算法,实现精准语音克隆

AI初创公司MyShell发布OpenVoice算法,实现精准语音克隆

广告 X
OK欧意app

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

APP下载  官网地址

Respeecher、Voicemod 和 ElevenLabs 这三家初创公司都有一个共同点,它们都提供用于制作语音克隆的算法和人工智能软件。

现在,加拿大人工智能初创公司 MyShell 宣布开源其用于即时语音克隆的 OpenVoice 算法。

MyShell 在社交媒体平台 X 上分享了这一更新,并表示:“仅使用一个小音频片段,就能以无与伦比的精度克隆声音,对音调进行精细控制,从情感到口音、节奏、停顿和语调。”

在此次合作下,来自麻省理工学院、MyShell.ai 和清华大学的研究人员推出了 OpenVoice,它可以复制说话者的声音,并仅使用原始来源的简短音频片段来生成多种语言的语音。

它还捕捉说话者声音的独特音调和音色。

今天,我们自豪地开源 OpenVoice 算法,秉承我们的核心精神——人工智能为所有人。立即体验:https://t.co/zHJpeVpX3t。

克隆声音具有无与伦比的精确度,可以对音调进行精细控制,从情感到重音、节奏、停顿和语调,只需使用… pic.twitter.com/RwmYajpxOt

— MyShell (@myshell_ai) 2024 年 1 月 2 日

据该公司称,该算法添加了关键的风格元素,如情感、口音、节奏、停顿和语调。

这些元素对于使语音听起来真实并创造有趣的对话至关重要。

它有助于避免常规文本转语音时经常出现的无聊声音。

语音克隆人工智能模型如何工作

在一篇研究论文中,OpenVoice 分享了其语音克隆人工智能背后的方法。

OpenVoice 由两个不同的人工智能模型组成:文本转语音 (TTS) 模型和“音调转换器”。

该模型可以管理风格参数和语言,并接受了英语(美式和英式口音)、汉语和日语使用者的“使用 30,000 个句子的训练”。

训练包括根据表达的情绪标记样本,模型从这些音频片段中学习语调、节奏和停顿。

另一方面,音调转换器模型是在来自 20,000 多个不同说话者的超过 300,000 个音频样本的庞大数据集上进行训练的。

在这两种情况下,人类语音音频都被转换为音素(区分单词的特定声音)并使用向量嵌入来表示。

TTS 模型使用“基本扬声器”,与训练过程中用户录制的音频所产生的音调相结合。

这两个模型一起可以复制用户的声音并修改音色——口语文本中传达的情感表达。

这家初创公司成立于 2023 年。去年,MyShell 筹集了 560 万美元的种子资金,由 INCE Capital 领投,Folius Ventures、Hashkey Capital、SevenX Ventures、TSVC 和 OP Crypto 等知名投资者参与其中。

该公司表示,这笔资金将有助于推进专有人工智能模型、创建专为人工智能原生应用程序量身定制的创作者工作室,以及在区块链技术领域建立充满活力的创作者生态系统。

AI 初创公司 MyShell 发布用于精确语音克隆的 OpenVoice 算法的帖子首先出现在 Metaverse Post 上。

热点:AI 公司