07、全文检索 — Solr — Solr 全文检索之为索引库添加中文分词器

本文介绍: Solr 全文检索之为索引库添加中文分词器

将 Solr 的 contribanalysis-extraslucene-libs 文件夹
目录下的 lucene-analyzers-smartcn-x.x.x.jar 包
复制到 Solr的 serversolr-webappwebappWEB-INFlib 目录下。

如果要添加第三方中文分词器，只要同样将JAR包复制到WEB-INFlib目录下。

在这里插入图片描述

  <!-- 设置中文分词器 -->
  <fieldType name="text_cn" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
	  <!-- HMMChineseTokenizerFactory 是一个中文分词器   -->
      <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
	  <!-- 过滤英文大小写，就是保存关键字的时候不区分大小写，统统把关键字都弄成小写再保存 -->
      <filter class="solr.LowerCaseFilterFactory"/>
      <!-- 添加停用词文档，用于过滤停用词 -->
      <!-- 停用词列表在 words 属性中指定，并且忽略大小写（ignoreCase="true"） -->
      <filter class="solr.StopFilterFactory" words="lang/stopwords_cn.txt" ignoreCase="true"/>
	  <!-- 这个是词干化，用于对英语文本进行词干提取。它基于 Porter 算法，可以将英语单词转换为其基本形式（词干 -->
      <filter class="solr.PorterStemFilterFactory"/>
    </analyzer>
  </fieldType>