控制词干提取 | Elasticsearch: 权威指南

控制词干提取 | Elasticsearch: 权威指南 | Elastic

2026-07-24

请注意:
本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。

» » »

控制词干提取编辑

开箱即用的词干提取方案永远也不可能完美。尤其是算法提取器，他们可以愉快的将规则应用于任何他们遇到的词，包含那些你希望保持独立的词。也许，在你的场景，保持独立的 skies 和 skiing 是重要的，你不希望把他们提取为 ski （正如 english 分析器那样）。

语汇单元过滤器 keyword_marker 和 stemmer_override 能让我们自定义词干提取过程。

阻止词干提取编辑

语言分析器（查看配置语言分析器）的参数 stem_exclusion 允许我们指定一个词语列表，让他们不被词干提取。

在内部，这些语言分析器使用 keyword_marker 语汇单元过滤器来标记这些词语列表为 keywords ，用来阻止后续的词干提取过滤器来触碰这些词语。

例如，我们创建一个简单自定义分析器，使用 porter_stem 语汇单元过滤器，同时阻止 skies 的词干提取：

PUT /my_index
{
  "settings": {
    "analysis": {
      "filter": {
        "no_stem": {
          "type": "keyword_marker",
          "keywords": [ "skies" ] 
        }
      },
      "analyzer": {
        "my_english": {
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "no_stem",
            "porter_stem"
          ]
        }
      }
    }
  }
}

参数 keywords 可以允许接收多个词语。

使用 analyze API 来测试，可以看到词 skies 没有被提取：

GET /my_index/_analyze?analyzer=my_english
sky skies skiing skis

返回: sky, skies, ski, ski

虽然语言分析器只允许我们通过参数 stem_exclusion 指定一个词语列表来排除词干提取，不过 keyword_marker 语汇单元过滤器同样还接收一个 keywords_path 参数允许我们将所有的关键字存在一个文件。这个文件应该是每行一个字，并且存在于集群的每个节点。查看更新停用词（Updating Stopwords）了解更新这些文件的提示。

自定义提取编辑

在上面的例子中，我们阻止了 skies 被词干提取，但是也许我们希望他能被提干为 sky 。 The stemmer_override 语汇单元过滤器允许我们指定自定义的提取规则。与此同时，我们可以处理一些不规则的形式，如：mice 提取为 mouse 和 feet 到 foot ：

PUT /my_index
{
  "settings": {
    "analysis": {
      "filter": {
        "custom_stem": {
          "type": "stemmer_override",
          "rules": [ 
            "skies=>sky",
            "mice=>mouse",
            "feet=>foot"
          ]
        }
      },
      "analyzer": {
        "my_english": {
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "custom_stem", 
            "porter_stem"
          ]
        }
      }
    }
  }
}

GET /my_index/_analyze?analyzer=my_english
The mice came down from the skies and ran over my feet

	规则来自 `original=>stem` 。
	`stemmer_override` 过滤器必须放置在词干提取器之前。
	返回 `the`, `mouse`, `came`, `down`, `from`, `the`, `sky`, `and`, `ran`, `over`, `my`, `foot` 。

正如 keyword_marker 语汇单元过滤器，规则可以被存放在一个文件中，通过参数 rules_path 来指定位置。

« 选择一个词干提取器原形词干提取 »

官方地址：https://www.elastic.co/guide/cn/elasticsearch/guide/current/controlling-stemming.html

有任何技术问题请点击这里网站运营推广招聘

IT PHP 编程语言开发编程 Linux 科技 Elasticsearch 数据库面试 HTML/CSS/XML 网络 JAVA NoSQL 操作系统 C/C++ Golang Git 算法正则表达式 Redis 互联网 MySql 软件运维 JavaScript 国际商业架构设计 Mac OS TCP/IP Excel Windows Oracle Socket VR Vim MongoDB 运营 Python MemCache 硬件电子娱乐设计摄影 nginx 游戏 WordPress HTTP 团建数码电器 Docker 大模型

Elasticsearch集群模式知多少携程Elasticsearch数据同步实践 Elasticsearch是做什么的以及它的使用和基本原理 elasticsearch动态映射 elasticsearch配置 Elasticsearch简介与实战如何配置使用Elasticsearch的动态映射 (dynamic mapping) elasticsearch最新版安装 elasticsearch出现只读索引如何操作 blocked by: [FORBIDDEN/12/index read-only / allow delete (api)];') 【Elasticsearch集群】打分策略详解与explain手把手计算 es 相关配置文件 ES查找空字符串两节点Elasticsearch集群 ElasticSearch自带的分词类型 Elasticsearch 映射参数 fields [Elasticsearch] 多字段搜索 (一) - 多个及单个查询字符串 Elasticsearch－基础介绍及索引原理分析 Elasticsearch集群节点(角色)类型解释node.master和node.data ElasticSearch集群中的分片查询方式 Elasticsearch 模糊查询 wildcard、regexp、prefix选型

略微加速

Elasticsearch权威指南 - 互联网笔记

控制词干提取编辑

阻止词干提取编辑

自定义提取编辑

略微加速

Elasticsearch权威指南 - 互联网笔记

控制词干提取编辑

阻止词干提取编辑

自定义提取编辑

Getting Started Videos