Facebook AI(bushi),更准确地说是Meta AI,刚刚发布了自监视 语音处置 模型,共允许 128种言语 。
这项技术与Meta公司最新“元宇宙”愿景严密关系。
相互交谈是人们互动的一种人造模式,随着语音技术的开展,未来的虚构环球可以经常使用咱们技术启动互动,虚构体验将与物理环球融为一体。
说人话,就是让母语不同的人在元宇宙里社交:一位说着英语,一位说着汉语,两人可以靠XLS-R在元宇宙中无阻碍对话。
实践效果如何呢?
MetaAI在HuggingFace上发布了试用版 语音直译模型 ,允许从22种言语转换到16种言语,咱们先来试试它的英译中效果。
(虽然翻译腔较浓,但仍算准确,7秒钟的句子成功翻译仅1.53秒)
咱们知道,环球上的言语有上千种,要用AI成功这些言语的互通并非易事。
普通语料库的丰盛水平选择了言语翻译模型的品质,语音翻译普通集中于几个资源多大语种之间。然而因为小语种往往语料匮乏,经常使用这类母语的人往往很难取得较高的AI翻译品质。
XLS-R经过自监视技术对10倍的语音数据启动训练,大大改善了以前的多言语模型,尤其是小语种的处置。
XLS-R的原理
XLS-R基于Facebook去年发布的 wav2vec 2.0 技术。
wav2vec 2.0与BERT相似,是经过预测音频mask局部的语音单元来训练的。它们的区别是,语音音频是一种延续的信号,不能随便明晰地宰割成单词或其余单位。
wav2vec 2.0经过学习25毫秒长的基本单元来处置这个疑问,以便能够学习初级高低文示意。
在仅领有一小时的标志训练数据的状况下,wav2vec 2.0能经事先续无监视的训练数据,在LibreSpeech测试基准的100小时子集上到达SOTA水平。
之后,Facebook又推出了齐全无监视的高功能语音识别模型,它纯正从录制的语音音频和未配对的文本中学习。
为了wav2vec-U让学习识别音频录音中的单词,Facebook训练了一个GAN。生成器依据嵌入在自监视示意中的每个音频段,预测与言语中的声响对应的音素。
而甄别器担任评价预测的音素序列能否实在。最后,转录十分蹩脚,但随着期间的推移,随着甄别器的反应,转录变得准确。
经过这种模式,它学会了辨别生成器的语音识别输入和实在文本。
Facebook在此基础上推出了蕴含53种言语的XLSR。
而最新发布的XLS-R有128种言语之多,语种数量是XLSR的两倍多,数据量更是后者10倍——合计长达 43.6万小时 的语音。
XLS-R共有 20亿参数 ,它在测试的37种言语中,体现优于大少数语种先前的上班。甚至在老挝语等小语种识别上,也能低于之前的失误率。
此外XLS-R也让低资源言语与英语之间的翻译大幅改良,例如从印度尼西亚语到英语的翻译,其中BLEU(双语互译品质评价)的准确性平均翻了一番。
CoVoST-2语音翻译基准测试中,XLS-R在21个英语翻译方向上比之前技术平均提高了7.4 BLEU。
从下图中可以看出,XLS-R对低资源语种的优化尤为显著。
微调XLS-R
XLS-R只是一个预训练模型,为了能更好地服务于详细义务,还须要对模型启动微调。
Hugging Face官网提供了详细的微调教程。
此外官网还提供不同参数规模的语音识别模型,以及15种言语与英语之间的互译模型,供用户下载。
传送门
官网博客:
GitHub页:
论文地址:
试用网页地址:
微调方法简介: