让Alexa这样的语音助手支持一门新的语言并非易事,而亚马逊的研究者在其发表的博客论文中介绍了一种加速和简化这一过程的新方法。该方法只需极少的数据就能让由一种语言训练出的机器学习模型适配另一种语言,这其中需要应用到迁移学习,准确的说是“跨语言迁移学习”。科学家们声称,在实验中,新的方法对目标语言数据的需求量下降最高可达50%。
口语理解(SLU)系统一般涉及两种子任务,分别是意图分类和槽标注。意图指的是用户想要执行的任务,而槽是指执行该意图所在的实体。共同训练意图和槽分类器能够提升系统性能,因此研究者共同训练了6种不同的神经网络。在比较了它们的性能后,团队从中找出了能更好处理两种分类任务的3个神经网络。
随后,研究者用词语嵌入和字符嵌入进行了测试,也就是将它们输入进总共6种不同的神经网络中。依靠预训练SLU模型并用目标数据集对其进行调整,研究者用源语言数据提升了神经网络对德语的口语理解能力。