|
中文全文检索技术研究 |
刘 畅 (吉林工商学院,吉林 长春 130062) |
摘 要:随着信息技术的快速发展,网络信息席卷全球,产生了大量的文本、图像、多媒体等各种形式的电子信息资源。为了能在海量的文本信息中找到自己的所需,人们迫切需要一个高效的检索工具。怎样高效的存储和查询文本这种非结构数据,就是一个颇值得研究的问题.这其中以全文检索技术成为国内外学者研究的热点。国外的全文检索软件虽然较早地得到应用,但对中国用户有很多不适用的地方。中文全文检索技术在原理上同西文全文检索是一致的,但汉语本身的特点使中文系统的实现比西文系统更为复杂。本文的重点放在了全文检索技术的研究上,对如何利用新技术、改善检索系统的结构、提高检索系统的性能和效率、加快检速度、不断适应网络信息发展等方面做了重点研究。 关键词:中文全文检索;搜索引擎;自动分词 中图分类号:G273.4 文献标识码:A 文章编号:1008-7508(2012)03-0146-03 |
引言 搜索引擎发展至今,已经有十几年的历史,而国外搜索引擎技术的研究比中国要早近十年,国内开始研究搜索引擎是在上世纪末本世纪初。中文全文检索技术在原理上同西文全文检索是一致的,但文和英文两种语言自身的书写方式不同,汉语本身的特点使中文系统的实现比西文系统更为复杂。不得不承认目前国内的研究水平与国际上还有较大差距,坐等国外成果,然后加以移植改造的老路是行不通的,因此在国内进行中文全文检索的研究非常必要。 一、全文索引技术 全文索引技术是目前搜索引擎的关键技术。原理是先定义一个词库,然后在文章中查找每个词条出现的频率和位置,把这样的频率和位置信息按照词库的顺序归纳,这样就相当于对文件建立了一个以词库为目录的索引,这样查找某个词的时候就能很快的定位到该词出现的位置。 问题是在处理英文文档的时候显然这样的方式是非常好的,因为英文自然的被空格分成若干词,只要我们有足够大的词汇库就能很好的处理。但是中文字符因为没有空格作为断词标志,所以就很难判断一个词,而且人们使用的词汇在不断的变化,而维护一个可扩展的词汇库的成本是很高的,所以问题出现了。解决出现这样的问题使“分词”成为全文索引的关键技术。目前有两种基本的方法: 二元法:它把所有有可能的每两两汉字的组合看为一个词组,这样就没有维护词库的开销。 词库法:它使使用词库中的词作为切分的标准,这样也出现了词库跟不上词汇发展的问题,除非你维护词库。 实际上现在很多著名的搜索引擎都使用了多种分词的办法,比如“正向最大匹配”+“逆向最大匹配”,基于统计学的新词识别,自动维护词库等技术,但是显然这样的技术还没有做到完美。 二、中文全文检索系统 中文全文检索技术的研发始于1987年左右,主要使用的是中文分词技术,众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思,把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词,其处理过程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 1、基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下: 1)正向最大匹配法(由左到右的方向); 2)逆向最大匹配法(由右到左的方向); 3)最少切分(使每一句中切出的词数最小)。 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。 2、基于理解的分词方法这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。 3、基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计。 虽然有了成熟的分词算法,但是中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。 第一,歧义识别 歧义是指同样的一句话,可能有两种或者更多的切分方法。 第二,新词识别 新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。 三、发展趋势 自主中文全文检索技术目前已经达到了较高水平,在传统市场也获得了很高的占有率,但是要在整体上提高中文全文检索系统的水平和可用性,必须在如下几个方面有突破: 1、中文自然语言处理技术 无论从数据挖掘角度来提高全文检索的查全率和查准率,还是提供更易使用的自然语言查询接口方面,中文自然语言处理仍然是关键因素,这也是中文全文检索系统领先于国外同类产品的问题所在。 2、全文检索系统的评价 与其他领域一样,我国全文检索技术的研究和系统开发缺乏科学的评价,国际上TREC Conference 被认为是最具权威的信息检索技术评测规范,实验室系统、商业系统均积极参加。但国内的系统至今没有参与,要得到国际上的认可,就必须参加TREC。 3、系统的可靠性 没有99.999%以上的可靠性,就无法适应NonStop eBusiness(永不停顿电子商务)等关键业务的苛刻需求。 4、系统的响应速度 分析用户检索表达式的使用频度,大大加速在子集里检索的速度。无论数据库多大,检索词的检索速度均在1秒之内。 四、最新进展 以中文全文检索为核心开发的fullsearcher检索系统,可以广泛地应用于各种信息数据库、信息门户的建设, 以及从Web站点检索、Internet搜索引擎到电子商务等各种应用中文信息的发布检索。在众多的中文全文检索软件中,其最新的进展表现在: 1、领先的中文信息处理技术 内嵌汉语自动分词系统,支持按词索引、按字索引、按关键词索引、字词混合索引,大大提高了检索的准确性和响应时间。 2、检索信息快、准而且全 基于成本优化的查询算法,使得G级数据库查询速度达到亚秒级,并支持大量并发用户同时访问。允许使用文中的任意字、词、句和片段进行检索,提供了基于文献内容而不仅仅是文献外部特征的全文检索手段。TRS所提供的按词和按用户自定义关键词进行索引和检索,以及基于知识词典的扩展检索功能,满足了特殊应用领域的高查准率和高查全率的要求。 3、检索功能强大 全方位检索手段,支持与搜索、去除搜索等标准的国际搜索语法。另外拼音搜索、南方音模糊搜索、多字漏字错字模糊搜索、对检索结果按与检索表达式的相关性和重要性程序排序等。 五、结论与讨论 全文检索技术是当今信息检索发展的最高端和最前沿,它从上个世纪发展至今.在文本检索方面已比较成熟。近年来,随着Intemet的迅速发展,网络上信息日趋繁多和复杂,对信息检索的要求越来越高。全文检索技术以其较高的查准率和查全率,较简单的检索算法被广泛应用于网络信息的检索。本文旨在研究中文全文检索技术,并尝试构造适合于一定范围的搜索引擎。今后还需对如何更大程度的提高检索速度和检索效率作进一步研究。
参考文献: [1]颜维龙,盖杰,武港山,袁春风.面向网络的全文检索中索引文件的组织[M ].计算机应用研究,2002:124-126 [2]中文搜索引擎技术揭密:中文分词
收稿日期:2012-02-23 作者简介:刘畅(1978~),吉林长春人,计算机网络教研室,讲师,研究方向:计算机网络。
|
| |
|
时代人物 智库 2012-11-05 21:52:12 作者:http://www.ems86.com/ 来源: 文字大小:[大][中][小] |
|
|
|
|