丧失古老的语言不仅是学术界的损失,也是全人类文明的损失。MIT新开发的系统旨在帮助语言学家解读已被遗忘的「死语言」。
要说大英博物馆里最出名的文物,罗塞塔石碑(RosettaStone)绝对名列前三。它矗立在橱窗里,古老、神秘,沉默不语,但身上密密麻麻的字,却记载着古埃及的历史。
当时拿破仑的部队远征埃及,有人在尼罗河附近发现了这块石碑,上面刻有3种文字,1种是古希腊语,记录了年幼的托勒密五世登基成为法老一周年。
但另外2种看不懂,连拿破仑都想方设法破译上面的文字。
之后,一个叫商博良的「语言天才」历时约20年,终于破译了上面的其他文字。原来,这三种语言写的是同一件事。
如果商博良出生在现代,也许他20年的钻研NLP很快就能解决。
MIT新研究:无需「裙带关系」,就能破译语言
时至今日,世界上至少有12种语言仍未被破译。破译失传语言,很多时候要靠它和其他语言的关系。
商博良能破译象形文字,也是靠着他会多门语言的天赋。
麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员声称,已开发出一种系统,该系统可以在不知道丢失的语言与其他语言的关系的情况下,对其进行解密。
而且他们还表明,他们的系统本身可以确定语言之间的关系,并用它来证实最近的学术研究——伊比利亚语言与巴斯克语确实无关。
巴斯克语
是一种使用于巴斯克地区(西班牙东北部的巴斯克和纳瓦拉两个自治州,以及法国西南部)的孤立语言。
作为西欧唯一的孤立语言,巴斯克语与现存语言是否有关争议很大。
伊比利亚语
伊比利亚语是一个土生土长的西欧人的语言,经希腊和罗马资料证实,他们在前移民时代(约公元前年)居住在伊比利亚半岛的东部和东南部地区。
破译「死语言」的两个难点
大多数未被破译的失传语言都有两个特点,这对破译工作构成了重大挑战:
(1)分割不够细致,没有被完全分割成「字符」
(2)不知道「近亲」是哪种,尚未确定最接近的已知语言
为此,MIT的研究人员创立了译码模型。通过学习基于国际音标(IPA)的字符嵌入来获取答案。
该项目建立在作者去年写的一篇论文基础上,该论文解密了乌加里特文(Ugaritic)和线性语言B,后者需要数十年的时间才能被人类解码。
在这个项目里,这两种语言都已知与与希伯来语和希腊语的早期形式有关。
这次作者挑战的是语言间的未知关系。
通过学习基于国际音标(IPA)的字符嵌入来获取答案
该算法学习将语音嵌入到一个多维空间中,语音的差异通过对应向量之间的距离反映出来。这种设计使他们能够捕获语言变化的相关模式,并将它们表示为计算约束。
生成的模型可以在一种古老的语言中分割单词,并将它们映射到相关语言中的对应单词。
模型概述:
生成丢失的文本从较小的单位-从字符到标志,从标志到铭文。字符映射首先在已知语言的音标上执行。根据这些映射,已知词汇表y中的一个标记y根据潜在对齐变量a被转换为丢失语言中的标记x。最后,所有生成的标记以及未匹配的跨越中的字符被连接起来,形成丢失的碑文。
蓝色框显示与模型的每一级相关联的语言属性
x范围的生成图形模型:一个生成spanx的图模型表示:
不匹配的字符将按照独立同分布的条件生成,而匹配的字符范围以两个隐变量为条件:y表示已知的同源字符,a表示x和y之间的字符级对齐
IPA嵌入图:
每个音位首先由一个音位特征向量表示。该模型首先嵌入每个特征,然后将所有相关的特征嵌入连接起来,得到IPA嵌入。例如,电话[b]可以表示为voiced,stop和labial嵌入的连接
虽然给定的语言很少添加或删除一个音,但某些音替换可能会发生。在父语言中带有「p」的单词在后代语言中可能会变成「b」,但是由于发音上的巨大差距,变成「k」的可能性较小。
提出的算法可以评估两种语言之间的接近度。事实上,当测试已知语言时,它甚至可以准确地识别语族。
DeepMind早有开发,识别石头上的希腊碑文
这并不是唯一将人工智能应用于失传语言领域的。
DeepMind开发了一个名为Pythia的系统,该系统可以识别件包含多万个单词的文物中的模式。
它设法从包括石头、陶器和金属在内的希腊碑文中猜出了年至年前遗失的单词或字符。
残损铭文:雅典议会关于管理雅典卫城的法令
人类现存语言约为种,如同象形文字一样,大多数曾经存在过的语言现已不再使用了,其中几十种也被认为已经消失,或未被破译。
如果没有它们,我们就有可能失去关于历史上使用它们的人的大量知识。团队的目标更为远大,他们希望日后能够靠几千个单词就能破译语言。
作者介绍
JiamingLuo
CSAIL的一名博士生,也是MITNLP小组的成员。在来MIT之前,他也在北大做过一些情绪分析和总结的工作。
参考链接: