38、数学语言学(1/1)
科学的逻辑38、数学语言学:准备有声小说在线收听
数学和语言学在很长一段历史时期里没有多少交集,它们沿着各自的轨迹发展着,直到计算机科学的兴起,才逐渐将它们融合起来。香农的经典作品《通信的数学原理》为用数学方法,尤其是数学中的概率论方法来分析和处理信息的有关问题提供了理论平台,特别是信息熵概念的引入,为我们从数学和概率的角度理解信息成为可能。而语言是信息的一种载体,通常情况下,我们都是通过语言来传递和理解信息的,这就为用数学方法处理语言问题找到了一条全新的道路。
语言可以以不同种类的文字或字母的形式存在,也可以通过说话来表达,但这些不同的方式可以用来传递相同的信息,透过这些表象,我们可以理解到这些隐藏在不同外衣下的相同信息。信息这种表述上的多样化和灵活性,让我们看到了不同文字或语音之间相互翻译的可能。计算机可以快速处理大量信息,因此借助计算机进行语言文字或语音的处理,或者实现不同信息载体之间的快速机器翻译,是一种很有前景的方法。
早期用计算机对语言进行处理时,由于没有注意到语言背后的信息本质,而只关心每种语言总结出来的语法规则,由于语法是一种经验性的东西,没有多少内在的规律性,不同语言的语法差异很大,因此在这方面走了很多弯路,建立在这种思维基础上的机器翻译和自然语言处理效果很差,难以走出实验室成为实用的产品。现在我们知道,信息并不是隐含在语法之中,而是隐含在符号或者语音的概率分布之中,这从香农经典的信息熵公式中可以体会到。这样,对自然语言进行处理和运算的方式发生了明显的变化,从当初的语法规则转变为如今的概率统计模型,并迅速取得了许多重要的突破,一些有实用价值的处理自然语言的软件或产品也走出实验室,获得了大量现实应用。
许多现实问题的难度在它的正反两方面存在不小的差异,例如将文字转化为语音是容易的,一个汉字通常只有一种读音,多音字很少,但是将语音转换成文字则难了许多,同一个音一般有许多汉字。为解决这类问题,通过引入概率模型,就可以以很高的准确率实现语音识别,并转换为文字。这是因为,虽然一个音往往对应许多汉字,但是与之相邻的汉字与之一起出现的概率是大不一样的。就像“语言”这个词,当我们知道第一个字是“语”的时候,后面那个字是“言”的概率要大的多,通过这种概率模型,几乎不可能将这个词识别成“语炎”。机器翻译也是这样,如今的自然语言处理已经建立起了标准语言数据库,每个字在文章中出现的概率,以及相邻的字词之间出现的概率都有了标准化的数值。有了这些概率,我们就可以将这篇文章数字化,首先通过一定的算法对一篇文章进行分词,并对每个词分配一个标准语言库中的概率,这样,一篇文章变成了一串按照一定次序排列好的概率,这在数学上相当于某个数学空间中的向量。通过概率匹配和与相邻字词同时出现的概率进行匹配和计算,也就可以推算出为描述这组信息,在另一个语种中,是什么样子,这样就实现了不同自然语言之间的机器翻译。
通常情况下,信息隐含在字词出现的概率分布之中,因此上下文之间的关联对理解信息很重要。但是有时上下文之间相联系的跨度会很大,为描述这种概率分布所需要的计算量也会急剧增大。为避免这种情况,一般需要引入一个常用的简化假设:马尔科夫链。也就是说,我们假设每个字词只与和它相邻的字词存在关联,而与更远的字词没有关系。这一假设尽管稍稍降低了机器翻译的准确度,却大幅度的简化了计算模型和计算量,使基于统计语言模型的机器翻译效果远远超出传统的翻译方法。机器翻译在统计分析的基础上,通过人工智能方法进行强化学习,可以不断优化算法。随着大数据时代的到来,训练得到的算法也越来越优秀,机器翻译的结果也越来越专业。如今的同声传译系统已经非常专业,由于中英文的语序一般不太相同,甚至当某个中文词还没有说到时,同声传译系统做出的英文翻译就已经出来了。
将字词这样的语言学对象作为数学对象来看待是一种新颖的想法,通过分词和概率化,一篇文章转换成了一个数学向量。而在数学领域,对向量进行处理和运算的数学工具非常多,这也为用数学思路解决语言学问题提供了大量新的方法。例如,我们往往需要将大量不同的文章进行分类,有些属于小说,有些属于历史,有些则是科学专著,这在从前,需要许多有经验的人通过阅读和判断进行人为分类,费时费力,效率低下。而从数学角度看,这些文章都是在某个抽象的数学空间中的向量或坐标点,如果某些向量之间夹角很小,其坐标点就会离得很近,它们就是同一类型的文章,反之,如果向量之间夹角很大,说明它们是不同领域的内容。而在数学上计算向量夹角是很容易的,只需要计算两个向量的内积和各自的长度就可以了。这样,就可以用计算机算法对大量文章进行迅速有效的分类。数学的方法还可以应用到语音识别和图像识别之类的领域,我们可以通过数学计算的方式分辨哪句话是哪个人说的,哪幅画是哪个人画的,也可以在遍布各地的摄像头采集的海量数据中,迅速准确的识别出某个逃犯等等。数学语言学尽管已经硕果累累,但它还很年轻,在未来还会有更多应用和惊喜等着我们,相信前方的风景会更加好看。