作者单位:华东师范大学
出版时间:2013年1月第1版第1次
本书概述:本书运用结构主义语言学、语料库语言学、认知语言学、功能语言学等多种理论,对现代汉语指人名词进行研究。并探讨了由计算机处理汉语引发的语言工程的系统性、两可现象与语法规则、语法、非语法形式与静态、动态等问
作者姓名: 韩蕾
出版社: 中国书籍出版社
订购电话:400-6677-036
优惠活动:出书作者购书享受65%折优惠。
购书服务:满59免运费 : 由一站出版服务网发货,并提供售后服务。6:00前完成下单,预计5天可送达
图书定价:48
内容简介
本书运用结构主义语言学、语料库语言学、认知语言学、功能语言学等多种理论,对现代汉语指人名词进行研究。并探讨了由计算机处理汉语引发的语言工程的系统性、两可现象与语法规则、语法、非语法形式与静态、动态等问题。
作者简介
韩 蕾 女,1973年生,籍贯江苏。汉语言文学博士,现为华东师范大学中文系副教授、硕士研究生导师。2009年至2011年任韩国高丽大学客座教授。学术兼职为中国语言学会会员、上海语文学会会员。
研究兴趣为现代汉语中的汉字、词汇、语法、语义、语用与修辞。曾在国内外专业期刊、语文刊物上发表学术论文、札记40余篇,已出版专著一部、编著一部。承担并完成国家哲学社会科学基金项目、国家汉办、上海市教委、上海市语委等课题多项。
第一章 引言:语料库与语言学研究
1.自然语言处理与语料库
2.语料库发展与语言学理论
3.汉语语料库与中文信息处理
4.现代汉语语料库与语法研究
第二章 研究背景
1.选题的目的
2.选题的依据
3.面向信息处理的“名·名”研究现状简介
4.选题的研究定位
5.选题的研究思路
第三章 关于名词多层级分类标注的构想
1.理论架构
2.名词多层级加工实践
3.对MCT法的理论反思
4.小 结
第四章 指人名词的分类研究
1.已有的分类研究
2.指人名词的确定
3.指人名词分类的必要性及方法
4.框架测试法的理据及运用
5.指人名词分类结果
6.余 论
第五章 指人名词同位组构的内部限制
1.“同位”概念的历史
2.同位短语的地位
3.现存的问题
4.指人名词同位组构模式
5.余 论
第六章 指人名词同位组构的外部限制
1.外部研究要解决的问题
2.外部定界规则的类型、表述形式和特点
3.确认规则
4.否认规则
5.有待进一步研究的若干问题
6.余论
第七章 小结
1.本书研究的总结
2.与本书研究相关的若干问题
参考文献
附录1:指人名词表
附录2:名词研究札记二则
附录3:现代汉语否定肯定对用格式研究
后 记
第一章 引言:语料库与语言学研究
1.自然语言处理与语料库
自然语言处理(Natural Language Processing,简称NLP)就是以电子计算机为工具对自然语言信息进行各种类型处理和加工的技术。
1946年第一台电子计算机诞生后不久,人们就想用计算机来研究和处理自然语言。从上个世纪50年代初期到60年代中期,机器翻译一直是研究的中心。当时采用的主要是“词对词”的翻译方式,译文效果很差。机器翻译的困境使人们意识到:要让计算机真正具备类似于人那样的处理自然语言的能力,就必须对语言自身的规律进行深入的挖掘。因此,自60年代中期以后,人们便开始重视研究自然语言的语法、语义和语用等基本问题,并尝试实现计算机的自然语言理解,即人机对话,也就是人用自然语言向计算机提出问题,相应的,计算机也能够理解并用自然语言做出回答。当前,除了机器翻译和自然语言理解之外,自然语言处理的内容还涉及情报自动检索、语音自动识别与合成、文字自动识别、词典自动编纂、自动文摘、计算机辅助教学等众多领域。(冯志伟1996)
随着自然语言处理深度和广度的增加,语料库(corpus)的作用日益明显。语料库,顾名思义,就是存放语言材料的仓库,但严格意义上的语料库主要指熟语料库,即“由大量搜集的书面语或口语构成,经过计算机储存和处理,用于语言学研究的文本库”(Renouf 1987)。
语言学史上第一个大型电脑语料库是“英语用法调查”(Survey of English Usage)(SEU),该库由伦敦大学语言学教授R.Quirk于1959年建立,共收集200个语篇,内容涉及各种不同的语体。几乎与此同时,美国英语语料库也在美国布朗大学诞生,1961年,以N.Francis和H.Kucera为首的一批语言学家和计算机专家联合攻关,建成世界上最早的机读语料库——BROWN语库,语篇取自60年代有代表性的美国英语出版物,选材严格按照随机原则,语域也非常全面均衡,迄今仍被视为标准语料库。一般认为,这两个库可视为现代语料库语言学开端的标志。(王伯浩1998)但就语料库语言学自身短暂的几十年发展历程而言,20世纪中期正是它的低谷期。
80年代以来,英语语料库语言学(corpus linguistics)复兴,相继出现COBUILD、英国国家语料库(British National Corpus,简称BNC)等容量达上亿词的大型语料库,到了90年代末,世界上主要语种基本上都开发了各自的语料库。语料库发展迎来一个前所未有的高潮。“计算机语料库研究者们突然发现处在一个不断扩大的世界”,“这种发展应使那些语料库的先驱者们感到欣慰。他们就像是从一辆驴车突然坐到了游行队伍中的一辆花车上”(Leech,1991)。
这中间的一个重要原因就是,计算机科学的飞速发展与计算机技术的迅速普及和应用。(丁信善,1998)语料库与自然语言处理的关系十分密切:从大规模、高质量语料库中提取出的细粒度语言规则,是制作出高精度自然语言处理软件的基础;高精度的语言处理软件反过来又可以提高语料处理水平,保证语料库的质量。
2.语料库发展与语言学理论
自1957年Chomsky发表《句法结构》一书后,以转换生成语言学为代表的形式主义就逐渐占据语言学界的主导地位。跟早期结构主义者不同,Chomsky反对Bloomfield学派信奉的经验主义哲学和行为主义心理学基础,其观点十分符合17世纪笛卡尔的理性主义哲学。他认为,人脑不是一张白纸,不是经验主义学派所说的被动接收器,在那儿等着外部印象和数据印到上边。人脑天生具有一种非常丰富而且颇为细密的程序,用于接受、理解、贮存和使用来自感官的随意信息。人类之所以能学会语言,就在于大脑中先天赋予的语言习得机制(Language Acquisition Device),具体地说就是普遍语法。因此,Chomsky区分语言能力(competence)和语言运用(performance),并认为语言学的中心任务就是前者。在材料的来源上,他主张从“内部”观察、获取本族语使用者的感觉和反应。这从Chomsky论著中的例句也能看出,他从不注明例句的出处,只要凭内省合乎规则的就是合格的句子,即使现在没有人说,将来也还可能有人说,这就使得有些例句显得十分古怪。这种对待例句的态度,充分反映了他面向理论(theory-oriented)而不是面向材料(data-oriented)的语言学立场。
正是由于转换生成理论把语料视作经验主义产物进行了全盘否定,并不遗余力地鼓吹研究者个人直觉在语言研究中的重要作用,因此,20世纪中期第一代语料库工作者的努力被当时的主流看成不合时宜的徒劳,整个语言学界在随后20多年的时间里差不多唯直觉是从、唯思辨独尊。语料库建设虽未绝迹,却只能小规模、不成气候地进行,基于语料库的研究方法也大受打击、名誉扫地。
经过对转换生成语法的跟从、应用和反思,人们逐渐发现形式主义唯理方法的最大不足在于其不可验证性(丁信善,1998),拿自造的例句、想当然的推论以及未经验证的假设进行语言学研究无异于“拿一束塑料花去研究植物学”(Sinclair,1991)。
20世纪末兴起的以Halliday为代表的功能主义语法,则把语言看成是一种社会行为,而不是独立的客观存在。认为只有从语言功能,即语言使用的角度,才能对语言做出最终的解释。他继承了Firth的实证主义传统,其基石是对可观察的对象进行研究。显然,作为人们外部行为的语言运用是可观察的、可靠的依据;人们内在的语言能力则不可直接观察,只能通过语用实例进行推断。因此,功能主义特别看重语料库中语言的真实使用情况。
近年来,功能主义在跟形式主义的对峙中逐渐占据上风,语料库语言学也毫无疑问地由当初的边缘地位上升为语言研究的主流。因此,有学者认为,语料库正是语言学中形式主义与功能主义两大理论阵营“对垒天平上的一个举足轻重的砝码”(顾曰国,1998)。
3.汉语语料库与中文信息处理
3.1 汉语语料库加工思路
我国历来有注重语料的传统,20世纪20年代就有学者手工建设语料库。比较有代表性的是著名教育家陈鹤琴,为了编选千字课本,他与助手用了两年多时间,建立了包含语文课本、通俗报刊、儿童用书、妇女杂志、小学生课外作品、古今小说等6种合计55万余字的语料库,并在此基础上进行字频统计,最终选定4261个单字,编成《语体文应用字汇》,于1928年6月由商务印书馆出版,这是第一本现代汉字字频统计的著作,为汉字的计量研究做出了宝贵的贡献。
在西方语料库语言学的影响下,80年代以来,零星的机器可读汉语语料库的建设也开始起步。1991年,国家语言文字工作委员会开始建立国家级的大型汉语语料库,以推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,计划规模为7000万汉字,当时宣称,这将成为世界上最大的汉语语料库。近年来,各高校、科研院所也纷纷开始了汉语语料库的建设工作(冯志伟,2002)。
大规模、高质量的汉语语料库建设是信息工程的重要基础工程,可以给中文信息处理研究提供更为有效的支持,在语料库开发的几个环节(即规划、设计、选材、建库和标注)中(刘连元,1996),最后一个阶段(即标注)对语料库能起多大作用至关重要。所谓标注,是指计算机系统自动对未加工的语料库进行分析,使其具有语言学结构语义信息和其他信息特征标记。正因为语料库的功能跟语料标注的深度有如此密切的关系,因此,目前国内外许多研究机构的主要精力都花在用大量的人力、物力来制作大规模汉语标注语料库。据我们所知,北京大学计算语言学研究所跟日本富士通研究开发中心共同制作的一年《人民日报》(约2600万汉字)标注语料库是迄今为止世界上规模最大的汉语语料库之一。同时,上海师范大学也正在积极筹建“当代汉语语料库”。
总起来看,当前国内语料库加工的主要思路有两种(许嘉璐,2000):
主流作法是以传统计算语言学为基本理论,循序研究语素——词——短语——句子——语段——篇章。北京大学开发的语料库基本采用此法,有这样几个环节:生语料——自动分词——语法标注——句法分析——语义语用分析——语言知识库,其中,词语加工的两个环节(即自动分词、词性的语法标注)是结合在一起同时进行的,所以,从未加工的生语料到形成语言知识库(静态词典、语法规则库和动态的上下文相关信息),中间主要经过三个环节:词语加工、句法加工和语义语用加工(周强、段慧明,1993)。另外,许嘉璐教授主持的国家社会科学“九五”重大项目“信息处理用现代汉语词汇研究”包含了九个子课题,这九个子课题是:①信息处理用现代汉语分词词表 ②歧义切分与部分专有名词识别 ③信息处理用现代汉语词类及标记集规范 ④汉语词类兼类问题 ⑤现代汉语词的语法属性研究(之一) ⑥现代汉语词的语法属性研究(之二)——现代汉语动词电子词典的扩充和名词槽关系 ⑦现代汉语知识词典的建立和词汇内部语义网络描述 ⑧现代汉语真实文本短语结构的人工标注 ⑨现代汉语词的构造研究。可参看许嘉璐(2000)。重在解决现代汉语词的构造、分词、词类、兼类、词的语法属性等一系列中文信息处理技术所需要解决的基础性问题,是这一处理思想比较突出和集中的体现。
跟传统的基于句法知识的语言表述及处理模式不同的有黄曾阳先生的概念层次网络理论(HNC)。该理论认为:人对语言的理解本质上是一种认知行为,计算机对自然语言的处理就应建立在模拟人脑的这种语言感知过程的基础上。而人脑的认知机制“绝不是语法或句法,而是概念联想网络”,对联想网络的表述是语言深层(即语言的语义层面)的根本问题。联想网络分为局部和全局两类,前者对应着词汇层面、后者对应着语句层面。语料库加工的基本步骤为:语义块感知和句类假设——句类分析——语义块构成分析(黄曾阳,1998)。此外,具有探索性的研究还有陆汝占先生的基于内涵模型论的语义分析理论,目标是把汉语的语句表达式转换成逻辑公式,并进行模型解释,也是要深入到语义层面来处理汉语。但总的来说,从意义方面处理汉语的思想还没有用于大规模语料库的加工。
3.2 中文信息处理的难题
当“自然语言=中文或汉语”时,自然语言处理就是中文信息处理。因此,中文信息处理,就是利用计算机处理汉语信息(包括书面的和口头的)。跟其他自然语言相比,由于汉语本身的特点,中文信息处理有一些特殊的难题:
首先是汉字的输入输出。我国自70年代以来开始汉字自动识别的研究,80年代中后期完成历史性的突破,基本上解决了汉字在计算机上显示的问题。
由于汉语书面语中词与词之间不像拼音文字以空格为界,字处理问题基本解决后,计算机面对着单个方块汉字线性排列的字符串,一个接踵而至的难题就是要像人那样能够把字符串“理解”成一串词,这就是汉语特有的自动分词问题。从80年代末期开始,国内多家单位着手开发自动分词系统和自动词性标注系统,分析精度不断提高,许多计算机自动分词应用系统都宣称达到了95%以上的正确率,但还有相当多的问题没有解决,仍离不开人工校对。具体说来有:
① 歧义字段
据统计,汉语真实文本中,歧义切分现象的出现频率约为1/110,即平均110个汉字中出现一个歧义切分。如:
(1)爱人,也被人爱。
(2)未来的3年都会是连续的无赤字财政年度。
例1中,“爱人”这一形式,在句中不是一个名词,而应该切分为动词“爱”和名词“人”,计算机对此很难判断。例2中,是副词与助动词构成的短语“都(dōu)/会”还是名词“都(dū)会”,机器也有可能出错。这些就是所谓的组合型歧义问题,即字符串AB中,AB本身是词,切开来A、B也分别是词,计算机不知道该合并还是该切分,即要不要“多切一刀”的问题。此外,还有“不如、既是、又是、也是、就是、只是、既要、又要、只要、只有、还有”等一批同形同音字段,需要区分是词还是短语。如:
(3)基辛格说,“那可是一个伟大的时刻”。
(4)可是他最终还是没有能等到这一天。
但大量的歧义切分现象倒不是组合型的,而是交集型的,占总数的86%。所谓交集型歧义,是指在字符串ABC中,字符B可同时与前面A或后面C成词。如:
(5)去年,全市组织干部在田园/化工/程等事业中义务投劳3万个工日。
(6)中国建设银行在我国的经济和社会发展中起着重/大/作用。
例5中,“化”既可以作为后接成分与前边的“田园”组成动词“田园化”,也可以与后边的“工”构成简称词“化工”。例6中,“重”可与“着”、“大”分别成词。让计算机判断应切成AB/C还是A/BC,即这一刀“切在哪里”是比较困难的。例句中的斜线为计算机所做的错误切分。
② 未登录词的处理
未登录词是指计算机系统配备的词典中没有的词。据统计,这类词约占文本的1%—3%,如果不予处理,将导致为数可观的分词错误,其影响甚至超过歧义切分字段。如:
(7)周真国主动请/缨到小学任教。
机用词典并没有收录词条“请缨”,计算机由于查不到该词便做出了错误判断。其中,专有名词中人名的识别已被作为一个专门课题进行研究。如:
(8)副主任/高伟向/记者介绍说。
例8中,姓名的右边界切分错误,联系上下文,正确的切分应是“高伟/向”。事实上,词典不论如何扩容,总会存在未登录词问题。这时,只能根据文本的实际情况进行处理。
据段慧明(2000),随着可供机器学习的语料逐渐增加,未登录词将相应减少,切分错误也会大幅度下降;但由于语料量的增加会带来多词性词的增多,所以词性标注错误会上升。这意味着,机器进行词语加工的难点相对来说并不是词语切分,而是词性标注。
机器自动标注词性时的最大困难就是多类词的词性选择。传统语法研究多局限于在兼类词的范围内讨论同一语言成分的多词性现象,如,“繁荣”是一词多义,在“繁荣市场”中,表示“使昌盛”义,作动词;在“市场繁荣”中,表示“昌盛”,作形容词。而汉语自然语言处理中的多类词,范围要大大拓宽。因为机器处理书面文本时,无法区分同形异音词与同形同音词,所以信息处理中,不但要区分“你别来”和“进校门要别校徽”之类同形同音词“别”的词性,还要区分“他是个好(hǎo)人”与“他好(hào)睡懒觉”中同形异音词“好”的词性。信息处理把这些并非同一语言成分的多词性现象连同语法研究中的一词多功能的兼类词都统称为多类词。(俞士汶1999)常见的多类词有:
名、动多类 如:代表、报告、领导……
形、动多类 如:繁荣、端正、明白……
介、动多类 如:通过、作为、针对……
介、连多类 如:和、跟、同、与……
副、连多类 如:就、才、可、不过……
计算机只有完成了词语分析,才能继续下面的句法和语义语用分析。目前词语切分和词性标注软件的正确率封闭测试最高也就是90%多一些,这个数字还会随着语料量的增加而下降。因此,词处理阶段遗留下来的上述问题应尽早寻求解决办法,否则将始终影响词语加工的效率,并直接困扰后续加工。
可见,严格说来,计算机对汉语“词”的处理尚未达到完全自动化。虽然如此,从实用角度看,当前的汉语自动切词软件也还是能够满足基本要求的,为后续的语言处理提供了一定基础。但计算机可用的人的句法、语义、语用等多层面语言知识仍极度贫乏,这是制约计算机开展下一步处理的瓶颈。
句法分析(Parsing)是自然语言理解的关键步骤,在句法分析的基础上可再进行语义、语用等的分析,从而最终达到对一个句子的理解。大规模语料库的句法加工是当前语料库语言学的前沿课题,也是计算语言学研究的一个热点。国外对英语的自动句法分析取得了一定成果,已研制出几个英语句法分析器,如PASIFAL,Fidditch,ESG,Cass等,并在语言模型、语法规则构造和分析算法等方面取得了许多经验,而且构建了几个规模比较大的英语树库(treebank),如英国的Lancaster-Leeds树库项目和美国的Penn树库项目,都达到了200万词以上。近几年来,国内关于汉语语料库句法自动标注的研究也开始起步,有一些小规模的树库,一般是几千个句子。理论、算法研究方面正处于实验探索阶段,例如,周强(1996)利用统计排歧策略提出了一个短语的自动界定模型,可以较好地确定经过正确切分和词性标注处理的汉语句子中不同短语的边界位置。总的来说,对自然语言的自动句法加工,目前国内外都未取得根本性的突破。特别是因为汉语在句处理阶段所碰到的困难要比字处理和词处理更大,自动句法分析的现状更不尽如人意。
……