语音识别可以定义为可以解释人类语音的计算机或硬件设备的软件程序。其通常的功能是在不使用鼠标或键盘的情况下运行设备,执行说明并执行书写任务。
如何为产品添加语音识别
可以使用两个选项使产品在语音上运行:基于设备的和基于云的。
设备上选项使设备能够在设备本身上进行所有语音解释,而基于云的替代方法在云上的超高速计算机服务器上执行所有繁重的处理。
语音识别如何工作?
语音解释包括说出每个单词时分别识别它们。第一步通常在硬件设备中执行,在该设备中,进入的模拟声音通过模数转换器(ADC)转换为数字信号。此外,此生成的信号消除了任何背景噪声,并调整了幅度变化。然后在样本中调整说话者的说话率。
语音分析
单词是音素和摩擦音的混合体。音素被定义为语音的基本单位成分(例如,鸟中b的声音和插头中p的声音),而摩擦音是语音中的另一种不同成分。例如,字母“ s”在单词“ shut”和“ yes”中听起来不同。通过单独评估语音的各个部分,排序,组合单词并从字典中获得帮助,可以确定口语单词,尽管可能会遇到错误。
如果应用程序包含查找相同的单词或满足一个单词的指令,则前面提到的语音识别机制就足够了。可以借助设备上本地的微控制器来完成。
句法分析
通过此分析,可以提高单词识别的准确性。例如,考虑以下短语:“男人是狮子”和“男人是狮子”。对于语音分析,如果第三个单词是“是”或“他的”,则几乎不可能最终确定。在这种情况下,将句法分析付诸实践,并迅速阐明第三个单词必须是“ is”,因为第二个句子不使用动词。
语义分析
考虑到上一段中的句子,很容易解释为“男人是狮子”这个句子对于句法分析是准确的,但是在逻辑上是不正确的。确定句子的逻辑含义的方法称为语义分析。它有助于找到语音或请求的确切含义。
设备上的语音命令
对于具有基本语音激活属性的设备或没有互联网连接的产品,设备上的语音识别效果最佳。例如,如果设备必须遵循简单的单字指令,例如移动,暂停或重置,则在设备本身上使用语音识别是最合适的选择。
易于语音控制功能的实现可以通过廉价的微控制器来完成,该微控制器不需要更快,更复杂的微处理器。在谈论设计用于语音识别的硬件时,很容易添加一个单词的指令,并且通常需要在软件上进行改进。
软件程序开发来自一家名为Sensory的公司,该公司制造了一种称为Truly Handsfree的语音识别引擎,其中包括少量单词。它在ARM Cortex-M4微控制器上运行。ARM还为所有关键字查找程序提供了一个不受限制的库,该库可在Cortex-M微控制器上运行。
可以从名为Snips的公司那里获得另一种程序,该程序提供了一个完整的语音识别设置,称为Snips Flow,可以在Linux或Android操作系统上运行。Snips Flow支持在微型产品上使用人工智能(AI)。Snips Flow提供的用户友好界面有助于自定义语音程序。
与基于云的设备相比,设备上的语音识别的基本优势包括无需互联网即可工作的能力,从而快速获得结果,并且数据在设备本身上时仍可保持安全和私密性。对于需要执行简单指令的设备,在设备上执行语音识别变得毫无麻烦且不复杂。
基于云的语音识别
最著名的基于云的识别程序是Google Assistant和Amazon Alexa,它们各自具有特定的优势。Alexa在许多产品中普遍可用,而Google更适合提出问题和进行网络搜索。同样,Alexa也受到产品公司的青睐,因为它在处理常见的个人数据数字馆藏方面被证明是最好的。
Google声称现在有1,600台家庭自动化设备和10,000台其他设备可以与Google Assistant一起使用,而亚马逊正在通过称为Alexa Connect Kit的简单芯片将Alexa添加到产品中。谷歌还宣布了类似的名为Google Assistant Connect的芯片。但是使用该芯片的产品必须与Google智能设备建立无线连接才能处理语音数据。
结论
对于简单和基本的设备或没有互联网的设备,最合适的选择是执行一字语音指令,其中所有语音信号解释均在设备本身上完成。高产量的微控制器不仅可以进行语音分析,还可以在阶段进行语音评估。
需要完全语音识别的复杂项目应具有基于云的识别。这种语音识别程序能够进行语法和语义分析,这对于复杂的语音识别功能是必不可少的。