大学IT网 - 最懂大学生的IT学习网站! QQ资料交流群:367606806
当前位置:大学IT网 > Java技巧 > Lucene:分词器和索引文件

Lucene:分词器和索引文件

关键词:JavaLucene:分词器和索引文件  阅读(810) 赞(12)

[摘要]本文主要是对Lucene:分词器和索引文件的讲解,希望对大家学习Lucene:分词器和索引文件有所帮助。

    Lucene系列介绍
   
    Lucene:分词器和索引文件
   
    1、分词器
   
    分词器,对文本资源进行切分,将字符文本串按照一定的规则切分为一个个可以进行索引的最小单位(关键词),以便检索时使用。

    建立索引和进行检索时都要用到分词器。为了保证能正确的检索到结果,在建立索引与进行检索时使用的分词器应是同一个。
   


    2.  索引文件结构
   
    索引库是一组索引文件的集合。

    索引文件的检索:索引表规模相对较小,文档集合规模较大。进行检索时,先从检索索引表开始,然后找到相对应的文档。如果查询中仅包含一个关键词,则在索引表中找到该关键词,并取出它所对应的文档就可以了。如果查询中包含多个关键词,则需要将各个关键字检索出的文档记录进行合并。
   
    索引文件的维护:维护索引常使用三个操作:插入、删除和更新文档。但是更新操作需要较高的代价,因为文档修改后(即使是很小的修改),也可以造成文档中的很多的关键词的位置发生了变化,这时需要频繁的读取和修改记录,这种代价是相当高的。因此,一般不进行更新操作,而是使用“先删除,后创建”的方式代替更新操作。



相关评论