译者 |李睿
审校 |孙淑娟
本文将简明概述语音识别技术及其经常出现运行,并演示一个收费的语音到文本的API,该API可用于以MP3和WAV文件格局转录音频。这个演示将包括逐渐指令经常使用“即运转Node.js代码”示例调用这个API。
语音识别技术的概述
人们通常将语音识别技术视为当代技术畛域的一个相对较新的补充,而这只是一局部理想。语音识别技术曾经存在了半个多世纪,从上世50年代初的一些先驱公司开发的配置有限的数字/文字识别系统开局。,虽然语音识别技术有着悠久的历史,过去十年来在智能生产类设施畛域获取了宽泛运行,但语音识别依然是当今市场上较为形象的技术之一。这是由于各种语音识别技术都超过了计算机迷信、计算言语学和数学/统计学等畛域,须要各个畛域的少量输入才干取得准确的语音到文本结果。
在(十分)高的级别上,为了让语音识别技术实施其最基本的义务,必定首先对给定的音频文件启动预处置以提升其品质。而后将其合成为更小的重量信号并启动排序。这些经过排序的信号必定足够小,以便数学模型可以将其与某些音素(联合在一同生成单词的特定于言语的声响;例如“eeee”或“ahhh”噪音)婚配,这有助于与该言语中的短语或句子启动比拟。归根结底,语音识别服务的指标很繁难:尽或者准确地猜想录制的音频中经常使用了哪些单词,并始终改良和裁减其言语数据库,直到猜想到达可接受的准确性水平。
这种复杂且固有的有限消息猜想系统甚至使最基本的语音识别服务也依赖于言语和方言,由于它们依赖于音频品质。言语、口音、词汇的变动以及背景噪音的存在都会发生边界,这关于单个语音到文本模型很难克制。此外,这种复杂性反映了一个基本理想,即语音识别服务是高度资源密集型的,依赖于宏大并且始终增长的参考数据集启动语音比拟,须要相当大的计算才干才干有效应用这些数据集。这些起因独特使得训练一个全新的语音到文本模型成为一项艰难的义务。
语音识别的运行
语音识别在很大水平上是由于在更大的技术市场上发生了一些无处不在的翻新,尤其是近乎有限的云计算数据存储处置打算的增长,语音识别已成为人们如今在日常生存中意识到的高效而有用的生产者服务。人们可以间接驳回手机、固定电话和办公室设施启动沟通和对话,以智能查问所须要的消息,记载和组织自己的想法供经常使用,以及听到大声宣读的短信,等等。
目前,生产者运行只是语音识别技术运行的冰山一角。语音识别的许多相互关联的环节的提高发明了裁减音频转录输入的时机,并激励越来越多的商业运行程序启动语音到文本转换。在人们的周围有很多这样的例子。许多虚构会议平台如今经常使用语音识别服务(通常是实时的)对团队演示文稿启动转录,生成的文本可以繁难地存储给任何或者错过会议的人。聊天机器人应用语音识别协助人们在手机上启动选用,这些对话中转录的音频可以用于其余用途:为未来更好的客户服务虚践提供消息。人们或者参与的讲座、访谈、演讲和其余演讲优惠可以经过团体设施启动录制和转录,以消弭人工抄录笔记的上班。例如,这些转录可以经过人造言语处置(NLP)模型启动处置,以从转录文本中寻觅以前看不到(或听不到)的见地。
值得一提的是,适用的内容调理和搜查引擎提升配置也可以从可裁减的语音到文本剖析服务中取得——而这次是在企业数据存储环境中取得。思考到大少数客户端上行内容的无法靠性,智能转录上行到网站的音频文件可以轻松调理父级音频文件的言语,以确保其对一切听众安保(例如检查能否蕴含极有争议的言语、恼恨舆论或任何方式的对团体或集团的骚扰)。这清楚缩小了内容检查人员的上班量,并提高了其效率。这些相反的转录文件还可以用于生成有用的关键字,从而使音频文件更容易从大型数据库中搜查和检索。
示范:CloudMersive语音到文本API
将语音识别作为一项服务加以应用的一种方法是经过蕴含Cloudmersive语音到文本API。该API目前允许MP3或WAV格局,并驳回深度学习人工智能模型提供高精度的音频转录。其API参数十分繁难,只有要输入音频文件和Cloudmersive API密钥(API密钥可以经过在其网站上注册一个收费帐户取得,该帐户每月最多生成800个API调用)。以下将演示如何经常使用互补Node.js代码段构建API调用。
第一步是装置Node.js SDK。这可以经过运转以下命令来做到:
另外,可以将以下这一代码段增加到其软件包中。
在装置成功之后,可以经常使用以下代码块构建API调用。此时,须要确保曾经预备好以下参数:
(1)MP3或WAV音频文件。
(2)CloudMersive API密钥。
这样就成功了API的构建,无需进一步的代码段。成功的API呼叫将前往蕴含API转录结果的Textresult字符串。务必记住的是,输入文件中的音频品质将对API创立准确转录的才干发生严重影响,因此倡导在实施这一操作之前尽或者预处置和提升音频品质。
原文题目: How to Leverage Speech-to-Text With Node.js ,作者:Brian O'Neill