随着硬件和软件的不断发展,语音作为与各种日常设备的通信方式,将为用户提供更具包容性和定制化的体验。
当涉及用于语音控制的传感器技术时,从音频设备本身到软件和算法的各个方面都在进行创新,并且在MEMS麦克风方面取得了重大改进。
FierceElectronics最近与迪米特里奥斯Damianos,技术与市场分析师和自定义项目业务开发谈到YoleDéveloppement公司(Yole)对这一趋势以及如何进行语音检测,语音识别和环境感知。
随着语音控制的发展,设计工程师将需要考虑技术的独特要求和问题。
FierceElectronics(FE):您已经说过,MEMS和传感器的下一个创新将是音频,用于声音和语音控制。它有什么不同?
Dimitrios Damianos(DD):自2003年将MEMS麦克风用于第一部摩托罗拉Razr手机以来,就一直使用它们。从那时起,它们已经走了很长一段路:他们取代了传统的驻极体电容式麦克风(ECM),以提供更好的性能,有更高的灵敏度和更低的成本,并且每年出货数十亿个。
自几年前以来,语音控制作为人机界面(HMI)一直风靡一时。现在有许多设备包括语音/虚拟个人助理(VPA),例如智能手机,智能手表,以及最近的智能扬声器和汽车。音频方面的创新实际上是在更大,更全面的范围内进行的:MEMS麦克风需要一流的性能(灵敏度)以及低功耗,因为它们用于始终开启的设备中。另外,必须捕获高质量的声音,以便进行有效的处理和高质量的渲染。
在系统级别,您还需要考虑从设备到音频编解码器的整个音频链,音频软件和算法(降噪,波束成形等),数字信号处理器(DSP),最后是音频放大器和扬声器。因此,在所有这些变量的优化上,特别是在使用AI对数据进行分析的各个方面,都发生了创新。
FE:哪些技术会打开新的应用程序?将发挥什么作用?
DD:现在,大多数计算都在云中完成,在云中训练模型,并在其中进行推理。这可以分析具有巨大价值的数据。
但是,这种情况下的数据通常由全球的GAFAM(Google,Apple,Facebook,Amazon和Microsoft)掌握,这会引起隐私问题。我们正在看到向云训练和边缘推理以减少延迟问题的转变。最终,将在边缘进行训练和推理,以解决隐私问题。在这种情况下,一切都在本地设备完成,并且没有数据发送到云。为了使所有训练都以小尺寸,靠近设备(在边缘)和低功耗的方式进行,正在重新考虑机器算法,并且正在研究新的计算架构,例如神经网络。
FE:未来有哪些未来应用程序?
DD:我们正朝着语音互联网(IoV)时代迈进,越来越多的应用采用语音作为与各种日常设备的接口。确实,未来就在眼前,随着硬件和软件的不断完善,它将不断改善,为用户提供更具包容性和定制化的体验。这样,随着各种延迟,功耗,计算和隐私问题开始被清除,越来越多的人将在日常生活中通过各种设备使用VPA。
FE:随着老年人口的增长,我们何时可以看到基于MEMS麦克风的优质助听器?
DD:每个助听器制造商都有不同的要求,并希望开发一款特定的麦克风,这使其成为一个小批量,高要求的市场(需要高品质的麦克风),从而导致高麦克风ASP诞生。考虑到这些限制,对于各种麦克风制造商来说,这似乎不是一个有利可图的市场。
尽管如此,尽管传统ECM仍然是该应用中使用最多的麦克风,但助听器仍越来越多地采用MEMS麦克风。长期以来,MEMS麦克风的小尺寸一直是其主要优势,但在噪声性能,功耗,稳定性和助听器的可重复性方面,它们的性能与ECM或者更好。MEMS麦克风可实现新功能,例如定向听力,语音识别以带来更高的精确度。