最近的研究表明,已经不存在的大多数语言都不再有人使用,也就是说,因为我们对它们的语法、词汇或语法了解不够,无法真正理解它们的意思。
语言的流失不仅仅是一种学术上的研究,没有他们,我们会错过哪些曾经使用过这些语言的人的全部知识。不幸的是,它们中的大多数记录极少,科学家无法使用Google Translate之类的机器翻译算法来解密它们。有些语言没有“相对”语言进行比较,并且经常缺少传统的分隔符,例如空格和标点符号。
麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员最近在该领域取得了重大进展:一种新系统已被证明能够自动解密一种丢失的语言,而无需对其与其他语言的关系有深入的了解。 他们还表示,他们的系统本身可以确定语言之间的关系,并用它来证实最近的学术研究:伊比利亚语言实际上与巴斯克语无关。
该团队的最终目标是使该系统能够使用几千个单词来解密数十年来一直躲藏在语言学家手中的语言。
该系统由麻省理工学院教授里贾纳·巴兹莱(Regina Barzilay)牵头,它依赖于以历史语言学的见解为基础的几项原则,例如语言通常仅以某些可预测的方式发展。例如,虽然一种给定的语言很少添加或删除整个声音,但是很可能会发生某些声音替换。母语中带有“ p”的单词可能会在其后代中变为“ b”,但是由于明显的发音差距,变为“ k”的可能性较小。
通过整合这些和其他语言限制,Barzilay和MIT博士生罗嘉明开发了一种解密算法,该算法可以处理可能的转换的巨大空间以及输入中引导信号的稀缺性。该算法学习将语言声音嵌入多维空间,在该多维空间中,发音的差异反映在相应矢量之间的距离中。这种设计使他们能够捕获语言变化的相关模式并将其表示为计算约束。生成的模型可以将古代语言中的单词进行细分,并将其映射到相关语言中的对应单词。
该项目建立在Barzilay和Luo去年写的一篇论文的基础上,该论文解密了Ugaritic和Linear B的死语言,后者以前需要数十年的时间才能被人类解码。但是,与该项目的主要区别在于,该团队知道这些语言分别与希伯来语和希腊语的早期形式有关。
在新系统中,算法之间可以推断语言之间的关系。这个问题是解密中最大的挑战之一。花了数十年的时间才发现正确的已知后代。对于伊比利亚人而言,学者们仍无法就相关语言达成一致:有些人主张巴斯克语,而另一些人则反驳了这一假设,并声称伊比利亚人与任何已知语言均无关。
该算法可以评估两种语言之间的接近度。实际上,当对已知语言进行测试时,它甚至可以准确地识别语言族。该团队将他们的算法应用于考虑了巴斯克(Basque)的伊比利亚人,以及不太可能来自罗曼史,日耳曼语,突厥语和乌拉尔语系的候选人。尽管巴斯克语和拉丁语比其他语言更接近伊比利亚语,但它们仍然相差太大,因此不能被认为是相关的。
在将来的工作中,该小组希望将工作扩展到将文本与已知语言的相关单词相关联的行为之外,这种方法称为“基于同源的解密”。这种范例假设存在这样一种已知的语言,但是伊比利亚人的例子表明情况并非总是如此。团队的新方法将涉及识别单词的语义,即使他们不知道如何阅读它们。
“例如,我们可以识别文档中所有涉及人或地点的信息,然后可以根据已知的历史证据对其进行进一步调查,” Barzilay说。“这些“实体识别”方法如今已广泛用于各种文本处理应用程序中,并且具有很高的准确性,但是关键的问题是,在没有任何古代语言训练数据的情况下,这项任务是否可行?” 。