正如我們已經(jīng)看到在前一章的Lucene索引過(guò)程,Lucene使用IndexWriterwhich分析用分析儀文件,然后根據(jù)需要?jiǎng)?chuàng)建/打開(kāi)/編輯索引。在本章中,我們將討論不同類型的分析對(duì)象,哪些是在分析過(guò)程中使用的相關(guān)對(duì)象。了解分析過(guò)程中,分析儀如何工作,會(huì)給Lucene索引文件很大的啟示。
以下是我們將在適當(dāng)?shù)臅r(shí)候討論對(duì)象的列表。
| Sr. No. | 類和說(shuō)明 |
|---|---|
| 1 |
Token 令牌表示(起始偏移量,結(jié)束偏移,令牌類型和位置增量位置,)在像它的元數(shù)據(jù)相關(guān)的詳細(xì)信息的文檔中的文本或字。 |
| 2 |
TokenStream TokenStream是分析過(guò)程中的一個(gè)輸出,它包括串聯(lián)的令牌。它是一個(gè)抽象類。 |
| 3 |
Analyzer 這是對(duì)每個(gè)類型分析器的抽象基類。 |
| 4 |
WhitespaceAnalyzer 該分析儀analyzer分割的基礎(chǔ)的空白文檔中的文本。 |
| 5 |
SimpleAnalyzer 此分析器分割在基于非字母字符的文檔的文本,然后小寫(xiě)它們。 |
| 6 |
StopAnalyzer 該分析儀的工作原理類似于SimpleAnalyzer并刪除常用詞像 'a','an','the'等等。 |
| 7 |
StandardAnalyzer 這是最復(fù)雜的分析,并能處理姓名,電子郵件地址等,它小寫(xiě)每個(gè)標(biāo)記,并刪除常用詞和標(biāo)點(diǎn)符號(hào)(如有)。 |