人工智能机器也许能够生成语法正确和非常人性化的文本,但在常识方面,它们仍然远远落后于我们这些人类。
来自南加州大学(USC)、华盛顿大学和艾伦人工智能研究所的计算机科学家团队设计了一项新的测试,测试机器学习系统中的语言推理能力。他们会给定一组简单的名词和动词,让自然语言处理模型将其串成句子来描述一个常见的场景。
例如,“狗”、“飞盘”、“扔”、“捡”这几个词促使一个模型产生了这样的句子:“两只狗向彼此扔飞盘。”虽然文字是连贯的,但这不是人类会想出来的东西。犬类玩飞盘游戏的想法并不是太离奇,但更合理的说法是,人将飞盘扔给狗去捡。
南加州大学的博士生林玉晨(音)告诉媒体:“事实上,在我们的论文中,人工智能模型的生成在语法上也是基本正确。”
他们的问题在于可信度低——人工智能生成在日常生活中要么非常罕见,要么不可能。例如,“在下面或桌子上的垃圾桶”在语法上都是正确的,但就常识而言,“在下面”更好。”
研究人员建立了一个由35141个场景组成的数据集,使用人类生成的77449个句子描述。到目前为止,他们已经测试了8种不同的语言模型。排行榜显示,表现最好的一种是芝加哥大学(University of Chicago)学者开发的KG-BART,准确率为32.7%,谷歌的T5基础模型准确率为22%。然而,所有机器学习系统的得分都低于人类,人类的准确率一般为63.5%。
林解释说:“为了评估我们提出的任务的模型,我们使用了几种流行的机器生成自动指标:BLEU、METEOR、CiDER和SPICE。这些指标基本上是程序,可以在模型生成和我们从许多人那里收集到的人类参考之间打分。”
“BLEU和METEOR更多是为机器翻译的任务而设计的,相反,CiDER和SPICE是为讲故事而设计的,因此更适合我们的任务,因为我们也对不同的场景持开放态度。”
林和他的同事们认为,如果人工智能模型没有常识,声控助手或机器人等应用程序在与人类互动时就很容易出错。神经网络常常无法培养推理能力,因为它们依赖于记忆训练数据集,而没有对现实世界的理解。
林说:“目前的机器文本生成模型可以写出对很多人都有说服力的文章,但它们基本上是在模仿它们在训练阶段看到的东西。”
他希望通过开发常识测试,研究人员能够在未来构建更好的算法。他总结道:“通过向机器介绍常识和其他特定领域的知识,我相信有一天我们会看到像电影《她》(Her)中的萨曼莎(Samantha)那样的人工智能代理能够产生自然反应,并与我们的生活互动。”