跟踪对话并精确地转录它是人工智能(AI)研究中最大的挑战之一。现在,卡尔斯鲁厄理工学院(KIT)的研究人员首次成功开发出一种计算机系统,该系统相对于人类能以较短的时间识别谈话的内容。
KIT信息学教授亚历克斯•韦贝尔(Alex Waibel)表示:“当人们交谈时,会出现停顿、结巴、犹豫,比如‘呃’或‘嗯’,还会大笑或咳嗽。”“单词通常发音不清楚。”这使得人们甚至很难准确地记录谈话内容。“到目前为止,这对人工智能来说更加困难。”KIT公司旗下的初创公司kite的科学家和员工现在已经编写了一套计算机系统,该系统能比人类更好地执行这项任务,而且比其他系统更快。
怀贝尔已经开发了一种自动实时翻译,可以直接将大学的德语或英语讲座翻译成外国学生讲的语言。这个“演讲翻译”从2012年开始在KIT的演讲厅使用。“对自发语言的识别是这个系统中最重要的组成部分,”怀贝尔解释说,“因为识别中的错误和延迟会使翻译变得难以理解。在会话言语方面,人的错误率约为5.5%。我们的系统现在达到了5.0%。”然而,除了精度之外,系统产生输出的速度也同样重要,这样学生就可以现场听讲座。研究人员现在已经成功地将延迟时间缩短到1秒。Waibel说,这是迄今为止语音识别系统达到的最小延迟。
错误率和延迟是使用标准化的国际公认的科学的“交换台基准”测试来测量的。这个标准(由美国NIST定义)被国际人工智能研究人员广泛应用于他们的竞赛中,以建造一台在类似条件下在识别自发语音方面接近人类,甚至超过人类的机器。
根据Waibel的说法,快速、高精度的语音识别是进一步下游处理的必要步骤。它支持对话、翻译和其他AI模块,提供更好的基于语音的机器交互。