日前,微软颁布最新 Azure神经网络语音分解技术Uni-TTSv3多言语语音分解模型。与上一代语音分解模型相比,Uni-TTSv3语音分解保真度更高、速度更快、训练期间更短,更降本增效。借助Uni-TTSv3,微软更新美语分解女声Jenny。全新更新的Jenny MultilingualNeural,领有跨言语才干,支持14个国度和地域的言语。此外,基于Uni-TTSv3而构建的深度神经网络定制语音服务,也裁减了跨言语定制服务性能,客户只有提供一个言语的录音数据作为语料,即可训练定制模型同时说多个言语。
Jenny Multilingual Neural音频示例
随着技术始终迭代,微软默认语音性能已能媲美真人,并支持超越110个国度和地域的言语,提供超越270个神经网络声响。为进一步拓宽语音经常使用场景,满足各行业客户的多元化需求,微软默认语音也在始终探求新的服务和才干:
l 跨语种语音技术需求: 仅用一个音色就能生成同时笼罩环球用户的多言语运行需求,譬如在虚构游戏中创立具备多言语才干的NPC (Non-Player Character ,非玩家角色),在默认客服等场景中经常使用多种言语与用户交谈,优化用户体验。
l 稳固高效的平台需求: 使语音模型愈加鲁棒(robust,系统稳固性),即使在定制服务场景中,也可以不受外界环境影响,稳固、高效的处置不同类型的训练数据。
新一代神经网络语音分解技术Uni-TTSv3的提出,旨在处置上述诉求并完善如下性能:
保真度高
Uni-TTSv3是非自回归语音分解模型,基于FastSpeech 2(极速高品质语音分解模型)构建,经过间接经常使用实在语音启动训练,并引入更多无关语速、语调、重音形式等语音变动消息,提高分解语音品质。经行业公认的、专业评价语音人造度的 MOS(MeanOpinion Score平均意见评分)评测结果显示,默认分解女声Jenny Multilingual Neural 的各语种语音平均评分到达 4.2分以上(总分5分),语音保真度高。
Uni-TTSv3模型结构图
多言语通用
Uni-TTSv3是弱小的多言语语音模型,在多言语和多谈话人数据集上训练。Uni-TTSv3经过训练来自50多个不同地域和口音的发音人在不同场景下录制的超越3,000个小时的语音数据,构建多言语通用基础语音模型,确保 AI 语音在语速、语和谐重音形式等不变的状况下归结多国言语。
训练期间更短
Uni-TTSv3授权 Azure语音分解平台和自定义神经语音支持多语种语音。借助Uni-TTSv3更新自定义神经语音训练管道,支持客户用更短的训练期间创立高品质的语音模型。与上一代语音分解模型相比,Uni-TTSv3调优环节繁难,尤其在声学训练部分,训练期间清楚缩小 50% 左右,愈加降本增效。
Uni-TTSv3 模型训练示用意
想即刻试用体验Uni-TTSv3多言语语音分解模型吗?想经常使用微软 Azure 有声内容制造平台制造高品质分解语音吗?请 点此 立刻试用吧!