上外新闻> 学术> 观点评论> 正文

新华文摘|胡开宝:语言学与语言智能

【观点评论】 2022-09-08 作者 / 胡开宝、尚文博 来源 / 新华文摘 116 1

语言切换

语言智能是指语言信息的智能化,运用计算机信息技术模仿人类语言的智能,分析和处理人类语言的科学。语言智能的发展经历了由基于规则的发展阶段向基于实例和统计的发展阶段的转变。在基于规则的语言智能发展阶段,语言学知识和理论发挥着十分重要的作用。然而近年来,语言智能的发展愈来愈依赖于语言数据,语言学对于语言智能的重要性似乎逐渐下降,以至于一些学者认为语言学研究对于语言智能发展的意义并不大。现代语音识别和自然语言处理研究的先驱Frederick Jelinelik在1988年指出,“每当解雇一个语言学家时,语音识别器的性能就会改善”。然而,语言学对于语言智能的发展具有多大价值?是否真的如同许多计算机专家所认为的那样一文不值?语言学与语言智能之间的关系如何?这些问题显然需要我们予以回答。鉴于此,本文在分析语言智能内涵和发展历程的基础之上,从语言智能的历史、现状和未来趋势等角度,探讨语言学理论对于语言智能发展的价值,并分析语言智能对于语言学理论研究的意义。

—  语言智能的内涵与发展历程

(一)语言智能的内涵

语言智能旨在运用计算机技术和信息技术,让机器理解、处理和分析人类语言,实现人机语言交互,使得机器在一定程度上拥有理解、应用和分析人类语言的能力。

一般而言,语言智能技术包括文本数据挖掘、语音处理、智能写作、智能批改、智能问答和机器翻译等。文本数据挖掘是指利用计算机技术从文本数据中抽取有价值的信息进而发现文本知识的技术,涵盖文本摘要、文本分类、文本聚类以及可视化等技术。语音处理包括语音识别和语音合成,前者是指利用计算机技术将语音自动转换为书面文字,后者指将文本转换成自然流畅的语音输出。智能写作是指计算机自动生成自然语言的技术。智能批改则指计算机自动给出学生作业或作文评分和反馈的技术。智能问答系统可以自动分析用户提问和辨识用户意图,并提供答案。机器翻译是指利用计算机把一种语言文字翻译成另外一种语言文字。

(二)语言智能的发展历程

语言智能的发展到目前为止已有70余年的历程,经历了理性主义主导的自然语言处理初期阶段、经验主义主导的人机对话和机器翻译阶段以及机器学习阶段等三大发展阶段。

第一阶段始于20世纪50年代,直至80年代。该阶段以理性主义为主导思想,强调将语言知识或语言规则输入计算机,开展基于规则的机器翻译和自然语言处理相关领域的研究。1954年,首次俄英机器翻译实验在美国乔治敦大学开展。20世纪70年代,人们采用程序推演的方法研制语义、语用和语境分析系统,实现了初级的人机互动。

第二阶段为1980—2000年。在该阶段,机器学习理论、算法、语料库和知识库等先后应用于自然语言处理、机器翻译和人机对话等领域,语言智能的研究因而取得快速发展。1993年,麻省理工学院成功研制出世界上第一个基于网页的问答系统START。1998年,IBM公司推出语音识别软件ViaVoice。

第三阶段始于2001年,即“机器学习”阶段。在该阶段,大数据和深度机器学习日益广泛地应用于语言智能,机器学习实现了由统计学习向集成学习和深度学习的转变。各种各样的算法先后问世并快速迭代升级,机器翻译则进入神经网络机器翻译阶段。

二  语言学对语言智能发展的意义

前文述及,语言智能旨在使计算机具有某种语言智能,即理解、分析和运用人类语言的能力。要实现这一目标,必须依据关于特定语言智能假设编制的计算机程序。为此,我们需要理解自然语言系统和结构的特征,把握自然语言词汇、语法和语义之间的关系,并通过形式化表达手段将语言学知识和规则输入给计算机,让计算机归纳这些知识和规则,并生成统计模型。从这个意义上讲,语言学对于语言智能的发展具有十分重要的理论支撑作用。尽管当代语言智能的发展进入机器学习阶段,愈来愈依赖语言数据,对句法和语义等语言学知识的应用愈来愈少,然而这并不意味着语言学知识对于语言智能的研究与发展没有多大价值。相反,大数据驱动的语言智能的发展目前已接近天花板,面临这样或那样的问题,恰恰是因为没有对语言学知识的应用予以足够重视。众所周知,作为语言智能发展的物质基础,语言数据质量的高低直接影响到语言智能发展水平的高低。然而,现有语言数据往往未能充分依据有关语言学理论进行词性标注和句法分析处理,语言数据质量不高,直接制约了语言智能的发展。此外,语言智能目前仍然不能理解人类话语所表达的复杂含义,也不能用语言表达出复杂的话语含义。而要突破这一瓶颈,必须理解人类语言的机制,这需要心理语言学和神经认知语言学的理论支持。事实上,无论是过去还是将来,语言智能的发展离不开语言学的支撑,人工智能算法并不能代替语言学理论。近年来,由于过分强调计算算法和语言数据,忽略了对语言学理论的借鉴与应用,人工智能在自然语言处理尤其是语义分析上始终不尽如人意。为此,语言智能的未来发展应当走语言数据和语言学知识并重的双轨发展道路。

(一)语言学与自然语言的理解和生成

自然语言的理解和生成是语言智能技术发展的重要基础,涵盖自然语言理解和自然语言生成。前者是指使机器理解语言和文本等,提取有用信息,具体表现为使自然语言结构化,如分词、词性标注和句法分析等,构建文本表示的文本分类,提取信息。后者是指使计算机提供结构化的数据,如文本图标、音频和视频等,生成人类可以理解的自然语言形式的文本,具体划分为文本到文本、文本到其他和其他到文本等三种形式。

自然语言理解和生成是语言智能的重要物质基础。能否实现自然语言理解和生成,直接关系到语言智能发展的成败和水平。然而,要让计算机能够理解和生成自然语言,需要对语言数据进行分词、词性标注和句法分析,并对大量高质量标注语料进行训练,以构建分词模型和句法模型。词性标注涉及词性歧义消解和未知词的词性识别。句法分析包括依存句法分析、短语结构句法分析、深层文法句法分析和基于深度学习的句法分析。应当指出,无论是分词、词性标注和句法分析,还是对语料进行标注和训练,均需要以语言学理论或语言学规则为依据。尽管凭借机器学习,我们可以实现语言的理解和生成,但凭借大量语料的训练,机器学习所学到的只是大概率下最可能的说法,生成的文字往往呆板有余,灵性不足,缺乏情感的表现。鉴于此,我们应将语言学理论应用于语言智能研究之中。只有如此,才能解决自然语言理解和生成存在的以上问题。以人机对话为例,语用学和社会语言学理论的应用,可以使机器能够理解“寒暄”“安抚”和“幽默”等言语行为。我们还可以在深度学习中融入语言学尤其是心理语言学和认知语言学的研究成果,使机器能够在语义理解的基础之上,识别文本的意图和情感,从而让机器读懂人类语言,实现人机之间的交往和互动。

目前,语言智能发展面临语义理解的瓶颈。无论语言数据规模有多大,机器翻译系统迄今为止尚不能对具体语境进行分析,将多义词译成合适的目的语对应词。以“pen”的翻译为例,无论是谷歌的机器翻译还是微软的机器翻译,都不能根据具体语境将其译成合适的汉语对应词,即“钢笔”或“围栏”。为解决这些问题,就必须对人类语言进行语义角色标注,以期让机器理解人类自然语言的语义。正确理解和标注人类语言的语义角色不仅是实现机器问答以及信息理解和抽取所不可缺少的重要步骤,而且也为自然语言生成提供约束规则。然而,语义角色的标注需要计算语义学、词汇语义学和计算词汇语义学等语言学理论的支撑,尤其需要语义知识库的支撑。要真正解决语言智能发展所面临的语义理解问题,最终还是要借助于传统语言学理论研究的成果,单纯依靠统计方法和大数据驱动无法取得实质性突破。事实上,语言智能要获得突破,最终还是要靠知识驱动。孙茂松指出大数据与富知识双轮驱动或成为解决语言智能发展瓶颈的关键,即在大数据驱动的基础上加入富知识驱动,而这些知识主要源自语言学理论。

(二)语言学与语音处理

语音处理主要包括语音识别和语音合成。语音识别系统主要涵盖4个部分,即特征提取、声学模型、语言模型和解码搜索。其中,特征提取和语言模型均涉及对相关语言数据所做的语言学分析,尤其是语音学分析。语音合成系统包括文本分析模块、韵律处理模块和声学处理模块。作为语音合成系统的前端,文本分析是指对输入的文本进行分析,提取包括读音和节奏在内的语言学信息和语音学信息。这些信息的分析和提取直接关系到语音合成系统能否成功研制。韵律处理强调在文本分析的基础上,分析具体语流中的抑扬顿挫和轻重缓急,包括重音的位置分布及其等级差异、语调与声调、节奏和重音的关系等。声学处理模块侧重于根据文本分析模块和韵律处理模块等提供的信息来生成自然语音波形。有必要指出,文本分析旨在对输入的文本进行分析,以提取尽可能多的语言学和语音学信息,如韵律和节奏等,而韵律处理涉及语音学、声学、心理学和物理学。具体而言,语音合成系统需要建构包括自动分词器、自动标音器和韵律预测器在内的三个计算模型,而这些模型的建构一方面需要直接依据语言学理论,对输入文本的语音学特征进行分析,另一方面需要利用语言学相关知识,通过语法词典、注音词典、分词和多音字转换韵律分析等建构以上模型,采用与规则库相结合的数据驱动的学习模型。最后,语音合成还需要利用语言学信息标注处理过的文本数据库和言语数据库,进行上述模型的参数训练,并利用这些模型完成由输入文本到发音描述符号的转换计算。显见,作为语音合成的重要步骤,文本分析和韵律处理均离不开语言学理论的指导。

必须指出,在语言智能发展的初期,学界关于语音识别的研究未曾对韵律这一重要的口语区别性特征进行系统深入的探讨,语音识别效果不太理想,生成的语音没有语调的升降,没有语气的强弱,不能识别和表现人类话语的情感。要解决这些问题,唯有加强语音学尤其是韵律和情感的分析,将语调、语气和韵律这些区别性特征信息充分应用于语音识别和语音合成系统的研发,才能让语音识别和语音合成的质量更上一个台阶。

(三)语言学与机器翻译

机器翻译始自20世纪30年代,当时法国人George Artsouni和俄国人PetrSmirnov-Troyanskii以机器翻译为主要内容申请了专利。自那时以来,机器翻译已走过了90余年的发展历程,历经了四大发展阶段,即基于规则的机器翻译、基于实例的机器翻译、基于统计的机器翻译和神经网络机器翻译。

基于规则的机器翻译通常依据输入计算机的源语分析规则、源语和目的语之间的转换规则以及目的语生成规则,将源语语言的句子转换为目的语句子。基于实例的机器翻译从已有的源语句库中挑出与待译语句相似的语句,在对这些语句进行调整、修改的基础之上,得出与之对应的目的语语句,并根据类比原则确定待译语句的译文。基于统计的机器翻译主要依据基于大规模平行语料分析所归纳的翻译规则对输入语句进行匹配,得到该语句的翻译候选,并凭借语言模型和翻译模型的应用对这些翻译候选进行排序,挑选打分最高的翻译候选作为译文。神经网络机器翻译利用深度学习技术,通过计算机模拟人类大脑神经系统功能设计出网络神经模型,通过端到端的神经网络直接实现不同语言之间的转换。具体而言,神经网络机器翻译通过编码器将源语言文本进行编码,然后再把源语言句子反向解码得到目标语句子,即通过编码器将源语言文本变换表征为一个稠密向量,之后通过编码器把稠密向量解码成译文。

总体而言,机器翻译的发展历程可大致划分为理性主义阶段和经验主义阶段。在理性主义阶段,机器翻译强调对源语、目的语以及源语和目的语之间转换的相关规则进行描写,并依据这些规则进行源语和目的语之间的转换。其中,语言学知识发挥着十分重要的理论支撑作用,因为这些规则的描写和制定均需要以语言学理论为依据。在经验主义阶段,基于统计的机器翻译尤其是神经网络机器翻译的翻译质量要优于基于规则的机器翻译。对于这些机器翻译而言,语言数据愈来愈重要,而语言学理论似乎越来越无足轻重。甚至有声音认为,语言学知识不仅对机器翻译没有什么用处,甚至还会有反作用。Mireia Farrus等人指出:“从理论上讲,使用统计机器翻译,不需要语言学知识。”在许多学者看来,如果有充足的语言数据,便可利用机器学习方法开展机器翻译,不需要语言学知识,也不需要懂源语言或目标语言。

然而,事实并非如此。对于不同种类的机器翻译而言,语言学理论和知识不论是在过去、现在还是将来都发挥着或将会发挥重要作用。

一方面,机器翻译系统通常由数据获取、数据预处理、译前编辑、双语转换、译后编辑和性能评测等步骤组成。其中,机器翻译的性能评测需要依据有关翻译理论和语言学理论,在对双语转换关系、目的语语言文化规范以及翻译文本语言特征进行分析的基础之上,评价机器翻译的质量。译前编辑包括词语的消歧、短语的切分、长句的切分与断句等。译后编辑主要是指从选词、语法、语义完整性和逻辑性方面进行编辑、润色。对译文进行润色,不仅要检查和改正过译、漏译、错译和术语翻译错误的现象,增加连接词和短语,使译文自然流畅,而且还需要补足理解译文所需的情景知识和文化背景。毋庸讳言,无论是原文的消歧和词句的切分,还是译文的润色以及情境知识的补充,均需要语义学、句法学和文体学等语言学知识的理论支撑。此外,神经网络机器翻译并不像许多学者所宣称的那样与语言学无关。恰恰相反,在神经网络机器翻译系统中,基于语料库的词向量训练过程涉及词语概率统计因素、语义和语法结构相关排列组合,与语言学的词汇和语法信息密切相关。

另一方面,尽管与基于规则的机器翻译相比,基于实例或统计的机器翻译以及神经网络机器翻译的质量获得了前所未有的提高,但也存在不少问题。首先,机器翻译的译文虽然流畅,但准确性不够。其次,机器翻译模型构建所需的数据量太大,成本高。此外,由于低资源语言的数据量往往不大,且不易获得,这些机器翻译系统在低资源语言文本翻译方面的表现往往不尽如人意。再者,神经网络模型迁移比较困难,导致神经网络机器翻译系统的跨领域适应性差。最后,也最让人担忧的是,神经网络机器翻译的过程很难从语言学角度加以解释,从而使得我们难以理解特定机器翻译的结果,无法确定机器翻译错误的原因进而对这些错误进行修正。基于实例或统计的机器翻译以及神经网络机器翻译依据大规模语言数据的分析来构建语言模型或翻译模型,表面上看起来要比基于规则的机器翻译更加客观、科学。然而,我们不能忽略这样一个事实,即相对于人类自然语言规模的浩大以及翻译的复杂性而言,无论多大规模的语言数据都是不充分的,不能涵盖人类翻译的多样性,因而无法真正达到 人类智能的水平。而且,机器翻译无法回避人类语言模糊性和词汇多义性等问题所带来的困难。一方面,一些语句或短语往往表达多种意义,没有明确、可靠的规则作为依据予以区分,给机器翻译增 加了很多困难;另一方面,词汇也表达多项意义,尽管上下文和搭配线索可以帮助我们确定词义,但很多情况下却不能提供可靠的线索。

应当指出,基于统计的机器翻译和神经网络机器翻译之所以面临以上问题,不仅仅是因为语言本 身的复杂性,更重要的是学界严重忽略了语言学理论和知识对于机器翻译的价值。为此,我们应当重视语言学理论和知识在机器翻译中的应用,努力走出一条规则和数据相结合的机器翻译发展道路。我们可以在基于统计的机器翻译模型或神经网络机器翻译模型中融入语言学信息,在数据训练结果输出之前,增加语言学检测,以发现机器翻译出现的异常情况,并以此作为研究人员改进算法或模型的依据。事实上,神经网络机器翻译的过程只能通过语言学理论和知识来加以解释,而从神经机器翻译模型中提取出相应的语言学知识来解释机器翻译过程并改进翻译模型,已成为当代机器翻译研究领域的热门话题和未来发展方向。

三  语言智能发展对于语言学研究的价值

必须指出,语言学与语言智能之间有着非常紧密的联系。语言学研究可以为语言智能的发展提供重要的理论支撑,而语言智能的发展能够有力推进语言学研究。

其一,语言智能的发展可以推进语言学研究方法产生重要变革。长期以来,语言学研究方法一直以定性研究为主,研究人员依据相关语言学理论,往往在观察少量语言事实的基础上,凭借主观演绎和个人判断,就语言现象或语言功能提出相关理论假设,研究结论难免失之于片面、主观。而语言智能相关技术尤其是自然语言处理和文本数据挖掘技术的应用,不仅可以使语言学研究建立在大规模语言数据的观察和统计分析的基础之上,将定量研究引入语言学研究之中,而且可以通过模型的构建来考察和解释相关语言现象,语言学研究因而更加趋于客观和全面。尤为重要的是,语言智能技术在语言学研究中的应用可以实现语言学研究的智能化、数据化和可视化。语言智能技术的应用可以使语言现象或语言事实的观察和分析更加迅速和便捷,并且能够帮助我们发现仅凭肉眼无法发现的语言现象。

其二,语言智能的发展可以深化并拓展语言学研究。一方面,随着语言智能的发展,语言智能目前所面临的诸多问题必然会得到解决,如机器合成的语音不够自然、缺乏情感,机器生成的语言较为呆板、不够灵活,等等。这些问题的解决以语音学和语义学研究的发展为前提,必然会推进语言学研究,尤其是面向语言智能应用的语音学和语义学研究的发展。另一方面,由于语言智能技术在语言学研究领域的应用,使我们原先很少涉足的研究成为可能,一些由于缺乏技术条件而无法深入进行的领域研究能够得以深化。传统历史语言学研究主要采用文献阅读和比较的方法,由于缺乏相关技术条件的支撑,很少基于大数据考察某一语言的历史演变过程,难以描绘出语言演变的全景图。利用自然语言处理技术,我们可以从时空和地理角度清晰地描绘出具体概念发展演变的轨迹及其对语言体系的影响,揭示在特定历史时期内某一民族语言在词汇、形态、句法、语义和语用层面所发生的变迁,阐明词汇化和语法化发生的机制,从而深化历史语言学研究。语言智能技术的应用使得历史语言学研究建立在大规模语料的统计分析基础之上,这使得历史语言学的实证研究成为可能。就社会语言学而言,男性和女性语言使用的差异一直是学界感兴趣的话题,但该领域的研究由于缺乏必要的技术条件一直停滞不前。利用包括语料库技术和数据挖掘技术在内的语言智能技术,我们可以对大规模语料进行考察和统计,客观揭示男性和女性语言的差异。

近年来,话语研究逐渐发展成为语言学研究的热点,以自然语言处理技术为代表的语言智能技术先后应用于话语研究。许家金运用词网、潜在语义分析和奇异值分解等自然语言处理技术对语篇衔接连贯的程度进行分析。邵珊珊、王立非采用词向量(Word2vec)方法、长短期记忆网络和GRU深度学习模型等语言智能技术分析了电子商务话语的情感。应当指出,这些研究不仅促使该领域研究由定性研究向定性研究和定量分析相结合的方向转变,而且在很大程度上深化了话语研究。

还应指出,语言智能和语言学研究均涉及人类语言的理解、分析和应用,两者之间具有天然的共性。由于这一共性,语言智能可以与语言学研究有机融合,形成以语言智能技术应用为主要特色的全新的语言学研究领域,如计算话语学、计算词典学、计算语用学等。计算话语学是指利用计算机可计算的形式抽象描写话语意义的操作模型,是话语分析同认知语言学、语言智能和自然语言处理之间的有机融合。该领域的研究内容主要包括话语概念意义求解的主题计算和针对人际意义求解的话语评价计算。计算词典学源于词典学与自然语言处理之间的融合,研究内容主要包括电子词库的理论研究与实体构建、词典语料的精加工与数据化以及自然语言处理技术在词典编纂中应用等。计算语用学由语用学与语言智能融合而成,是对话语与语境之间关系的计算研究,主要从计算角度研究话语与语境之间的关系。毋庸讳言,这些研究领域从计算维度开创了全新的语言学研究领域,大大拓宽了语言学的疆域。

结 语

综上所述,语言学与语言智能之间存在天然的共性,相互支撑,相得益彰。一方面,语言智能的发展离不开语言学理论和知识的支撑。尽管数据驱动的语言智能技术对于语言学知识的依赖愈来愈少,甚至已发展到似乎不需要语言学理论的地步,但语言智能的总体发展依然需要运用语言学知识,毕竟语言智能的算法不能代替语言学理论。在当代,数据驱动的语言智能之所以面临这样或那样的问题,恰恰是因为没有对语言学理论的支撑作用给予足够的重视。无论是过去、现在还是将来,语言智能的发展始终离不开语言学理论的指导。另一方面,语言智能的发展对于语言学研究同样具有重要的价值。具体而言,语言智能技术在语言学研究中的应用不仅使得语言学研究方法发生重要的变革,而且深化了语言学研究,催生全新的语言学研究分支学科,从而拓展了语言学研究的疆域。

初审 / 编校 / 柳源 责任编辑 / SISU
媒体联络
上海外国语大学党委宣传部
电话:+86 (21) 3537 2378
传真:+86 (21) 3537 2378
邮箱:news@shisu.edu.cn
地址:中国上海市大连西路550号