破译罗塞塔石碑要几十年华裔MIT博士

丧失古老的语言不仅是学术界的损失，也是全人类文明的损失。MIT新开发的系统旨在帮助语言学家解读已被遗忘的「死语言」。

要说大英博物馆里最出名的文物，罗塞塔石碑（RosettaStone）绝对名列前三。它矗立在橱窗里，古老、神秘，沉默不语，但身上密密麻麻的字，却记载着古埃及的历史。

当时拿破仑的部队远征埃及，有人在尼罗河附近发现了这块石碑，上面刻有3种文字，1种是古希腊语，记录了年幼的托勒密五世登基成为法老一周年。

但另外2种看不懂，连拿破仑都想方设法破译上面的文字。

之后，一个叫商博良的「语言天才」历时约20年，终于破译了上面的其他文字。原来，这三种语言写的是同一件事。

如果商博良出生在现代，也许他20年的钻研NLP很快就能解决。

MIT新研究：无需「裙带关系」，就能破译语言

时至今日，世界上至少有12种语言仍未被破译。破译失传语言，很多时候要靠它和其他语言的关系。

商博良能破译象形文字，也是靠着他会多门语言的天赋。

麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员声称，已开发出一种系统，该系统可以在不知道丢失的语言与其他语言的关系的情况下，对其进行解密。

而且他们还表明，他们的系统本身可以确定语言之间的关系，并用它来证实最近的学术研究——伊比利亚语言与巴斯克语确实无关。

巴斯克语

是一种使用于巴斯克地区（西班牙东北部的巴斯克和纳瓦拉两个自治州，以及法国西南部）的孤立语言。

作为西欧唯一的孤立语言，巴斯克语与现存语言是否有关争议很大。

伊比利亚语

伊比利亚语是一个土生土长的西欧人的语言，经希腊和罗马资料证实，他们在前移民时代(约公元前年)居住在伊比利亚半岛的东部和东南部地区。

破译「死语言」的两个难点

大多数未被破译的失传语言都有两个特点，这对破译工作构成了重大挑战：

(1)分割不够细致，没有被完全分割成「字符」

(2)不知道「近亲」是哪种，尚未确定最接近的已知语言

为此，MIT的研究人员创立了译码模型。通过学习基于国际音标(IPA)的字符嵌入来获取答案。

该项目建立在作者去年写的一篇论文基础上，该论文解密了乌加里特文（Ugaritic）和线性语言B，后者需要数十年的时间才能被人类解码。

在这个项目里，这两种语言都已知与与希伯来语和希腊语的早期形式有关。

这次作者挑战的是语言间的未知关系。

通过学习基于国际音标(IPA)的字符嵌入来获取答案

该算法学习将语音嵌入到一个多维空间中，语音的差异通过对应向量之间的距离反映出来。这种设计使他们能够捕获语言变化的相关模式，并将它们表示为计算约束。

生成的模型可以在一种古老的语言中分割单词，并将它们映射到相关语言中的对应单词。

模型概述：

生成丢失的文本从较小的单位-从字符到标志，从标志到铭文。字符映射首先在已知语言的音标上执行。根据这些映射，已知词汇表y中的一个标记y根据潜在对齐变量a被转换为丢失语言中的标记x。最后，所有生成的标记以及未匹配的跨越中的字符被连接起来，形成丢失的碑文。

蓝色框显示与模型的每一级相关联的语言属性

x范围的生成图形模型：一个生成spanx的图模型表示：

不匹配的字符将按照独立同分布的条件生成，而匹配的字符范围以两个隐变量为条件：y表示已知的同源字符，a表示x和y之间的字符级对齐

IPA嵌入图：

每个音位首先由一个音位特征向量表示。该模型首先嵌入每个特征，然后将所有相关的特征嵌入连接起来，得到IPA嵌入。例如，电话[b]可以表示为voiced，stop和labial嵌入的连接

虽然给定的语言很少添加或删除一个音，但某些音替换可能会发生。在父语言中带有「p」的单词在后代语言中可能会变成「b」，但是由于发音上的巨大差距，变成「k」的可能性较小。

提出的算法可以评估两种语言之间的接近度。事实上，当测试已知语言时，它甚至可以准确地识别语族。

DeepMind早有开发，识别石头上的希腊碑文

这并不是唯一将人工智能应用于失传语言领域的。

DeepMind开发了一个名为Pythia的系统，该系统可以识别件包含多万个单词的文物中的模式。

它设法从包括石头、陶器和金属在内的希腊碑文中猜出了年至年前遗失的单词或字符。

残损铭文:雅典议会关于管理雅典卫城的法令

人类现存语言约为种，如同象形文字一样，大多数曾经存在过的语言现已不再使用了，其中几十种也被认为已经消失，或未被破译。

如果没有它们，我们就有可能失去关于历史上使用它们的人的大量知识。团队的目标更为远大，他们希望日后能够靠几千个单词就能破译语言。

作者介绍

JiamingLuo

CSAIL的一名博士生，也是MITNLP小组的成员。在来MIT之前，他也在北大做过一些情绪分析和总结的工作。

参考链接：

转载请注明：http://www.180woai.com/afhzz/1812.html

冀ICP备2021022604号-10

当前时间：

最新文章

推荐文章

热门文章

破译罗塞塔石碑要几十年华裔MIT博士