lucene 类介绍-白红宇

lucene 类介绍

阅读量：5119 次

发布时间：2019-06-13

本文共 1409 字，大约阅读时间需要 4 分钟。

lucene中重要的类：

IndexWriter:lucene中最重要的类之一，主要用于索引的创建

Analyzer(抽象类):分析器，主要用于分析文本，常用的有StandardAnalyzer分析器,StopAnalyzer分析器,WhitespaceAnalyzer分析器等

标准分析器的功能如下：

1、对原有句子按照空格进行了分词

　　 2、所有的大写字母都可以能转换为小写的字母

　　 3、可以去掉一些没有用处的单词，例如"is","the","are"等单词，也删除了所有的标点。

对于中文，lucene自带了三种中文分析器

StandardAnalyzer ：单字分词，就是按照中文一个字一个字地进行分词。如：“我爱中国”，效果：“我”、“爱”、“中”、“国”

CJKAnalyzer ：二分法分词，按两个字进行切分。如：“我是中国人”，效果：“我是”、“是中”、“中国”、“国人”。

SmartChineseAnalyzer ：对中文支持较好，但扩展性差，扩展词库，禁用词库和同义词库等不好处理。

Directory：索引存放的位置，lucene提供了两种索引存储的为止，一种是磁盘，一种是内存。相应的lucene提供了FSDirectory,RAMDirectory两个类。

Document：Document 是用来描述文档的，这里的文档可以指一个 HTML 页面，一封电子邮件，或者是一个文本文件。一个 Document 对象由多个 Field 对象组成的。可以把一个 Document 对象想象成数据库中的一个记录，而每个 Field 对象就是记录的一个字段。

Field：Field 对象是用来描述一个文档的某个属性的，比如一封电子邮件的标题和内容可以用两个 Field 对象分别描述。

Query(抽象类):这个类的目的是把用户输入的查询字符串封装成 Lucene 能够识别的 Query。他有多个实现，比如模糊查询，语义查询，短语查询，组合查询等一些类，相应的有TermQuery, BooleanQuery, PrefixQuery等。

Term：Term 是搜索的基本单位，一个 Term 对象有两个 String 类型的域组成。生成一个 Term 对象可以有如下一条语句来完成：Term term = new Term(“fieldName”,”queryWord”); 其中第一个参数代表了要在文档的哪一个 Field 上进行查找，第二个参数代表了要查询的关键词。

TermQuery：TermQuery 是抽象类 Query 的一个子类，它同时也是 Lucene 支持的最为基本的一个查询类。生成一个 TermQuery 对象由如下语句完成： TermQuery termQuery = new TermQuery(new Term(“fieldName”,”queryWord”)); 它的构造函数只接受一个参数，那就是一个 Term 对象。

IndexSearch：IndexSearcher 是用来在建立好的索引上进行搜索的。它只能以只读的方式打开一个索引，所以可以有多个 IndexSearcher 的实例在一个索引上进行操作。

Hits：Hits 是用来保存搜索的结果的

转载于:https://www.cnblogs.com/jnba/p/10522714.html

你可能感兴趣的文章