打印

计算机如何理解汉语文本?

计算机如何理解汉语文本?

计算机要理解汉语文本,就必须有技术对文本进行词语切分。北京语言大学信息科学学院语言信息处理研究所开发的现代汉语通用分词系统,为国内外第一个具有通用性的分词系统。

计算机如何理解汉语文本?

《 中华读书报 》( 2012年08月22日   05 版)

    汉语书面文本是以字为基本单位的,词和词之间没有分隔符号。计算机要理解汉语文本,就必须有技术对文本进行词语切分。汉语的自动分词并不是简单的机械操作,而是一项高度智能性的工作。一方面,词的概念是模糊的,词和短语的界限、词和语素的界限不能彻底分清;另一方面,词的界定又有动态性,词典中列出的词条在实际语境中有的时候是词,有的时候不是词;再者,汉语中的人名、地名、组织名等专用名词没有任何区别于普通词的标记,更增加了分词的困难。计算机自动分词技术是汉语信息处理领域的研究热点,多年来有不少论文发表,但能够直接支持应用的分词软件不多,而且这类分词软件往往准确率低,运行速度慢,通用性差。

    北京语言大学信息科学学院语言信息处理研究所在国家自然科学基金、国家863计划支持下开发了现代汉语通用分词系统。该系统首次提出分词系统通用性和柔性分词的概念,并研发了一系列创新性的技术,如双层多级词库、柔性词内结构、词码索引、专名识别排歧一体化、认知理论指导的概率化人名识别等。该系统是国内外第一个具有通用性的分词系统,能支持不同的应用目标、不同的专业领域、不同的华语地区对于分词的不同需求,并且具有一流的准确率,运行速度比同类系统快出1个数量级以上。

    以通用分词技术为基础,语言信息处理研究所又研制成功多个应用软件。面向语言教学和研究的汉语语料检索系统CCR使语言工作者摆脱收集资料的繁重手工劳动,计算机辅助汉语校对系统能明显提高汉语文本成品的文字质量,网上术语定义提取系统对于提高民众的科学素质有重要作用。通用分词技术及相关应用软件对国内外多家著名企业、大学和研究单位进行技术转让,取得了经济效益和社会效益。

    2006年1月,“现代汉语通用分词系统及其应用”获2005年度教育部提名国家科学技术进步二等奖。获奖后,该项成果又继续发展,延伸出语境相似词聚簇、网上人物关系发现、词语隔距共现模式发现、网上舆情监测等新技术。

    该项成果的研发单位语言信息处理研究所(http://clip.blcu.edu.cn)成立于1987年,是国内第一个以汉语信息处理为主要研究方向的研究所。2009年,在该所的基础上成立了汉语国际教育技术研发中心(http:/nlp.blcu.edu.cn)。该中心立足北语,服务汉语国际教育事业,着力研发推进汉语国际教育发展的关键技术、资源和工具,在国内外引领汉语国际教育技术的发展。几年来,该中心研发出一系列新技术,包括E-learning图书数字化制作平台、E-testing数字化考试平台、笔段网格汉字错字描画技术、非母语汉语作文计算机评测技术、汉字书写自动评判技术;还建设了多项语言文字信息资源,如汉字信息资源库、汉语词汇信息资源库、留学生高等作文语料库、中国小学生、外国学生手写汉字资源库等。有多个系统可以在该中心网站上在线使用。

TOP