Ngrams 在部分匹配的应用 | Elasticsearch: 权威指南

Ngrams 在部分匹配的应用 | Elasticsearch: 权威指南 | Elastic

2026-07-24

请注意:
本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。

» » »

Ngrams 在部分匹配的应用编辑

之前提到：“只能在倒排索引中找到存在的词。” 尽管 prefix 、 wildcard 、 regexp 查询告诉我们这种说法并不完全正确，但单个词的查找确实要比在词列表中盲目挨个查找的效率要高得多。在搜索之前准备好供部分匹配的数据可以提高搜索的性能。

在索引时准备数据意味着要选择合适的分析链，这里部分匹配使用的工具是 n-gram 。可以将 n-gram 看成一个在词语上 滑动窗口 ， n 代表这个 “窗口” 的长度。如果我们要 n-gram quick 这个词 —— 它的结果取决于 n 的选择长度：

长度 1（unigram）： [ q, u, i, c, k ]
长度 2（bigram）： [ qu, ui, ic, ck ]
长度 3（trigram）： [ qui, uic, ick ]
长度 4（four-gram）： [ quic, uick ]
长度 5（five-gram）： [ quick ]

朴素的 n-gram 对 词语内部的匹配 非常有用，即在 Ngram 匹配复合词介绍的那样。但对于输入即搜索（search-as-you-type）这种应用场景，我们会使用一种特殊的 n-gram 称为 边界 n-grams （edge n-grams）。所谓的边界 n-gram 是说它会固定词语开始的一边，以单词 quick 为例，它的边界 n-gram 的结果为：

q
qu
qui
quic
quick

可能会注意到这与用户在搜索时输入 “quick” 的字母次序是一致的，换句话说，这种方式正好满足即时搜索（instant search）！

« 索引时优化索引时输入即搜索 »

官方地址：https://www.elastic.co/guide/cn/elasticsearch/guide/current/_ngrams_for_partial_matching.html

有任何技术问题请点击这里网站运营推广招聘

IT PHP 编程语言开发编程 Linux 科技 Elasticsearch 数据库面试 HTML/CSS/XML 网络 JAVA NoSQL 操作系统 C/C++ Golang Git 算法正则表达式 Redis 互联网 MySql 软件运维 JavaScript 国际商业架构设计 Mac OS TCP/IP Excel Windows Oracle Socket VR Vim MongoDB 运营 Python MemCache 硬件电子娱乐设计摄影 nginx 游戏 WordPress HTTP 团建数码电器 Docker 大模型

Elasticsearch集群模式知多少携程Elasticsearch数据同步实践 Elasticsearch是做什么的以及它的使用和基本原理 elasticsearch动态映射 elasticsearch配置 Elasticsearch简介与实战如何配置使用Elasticsearch的动态映射 (dynamic mapping) elasticsearch最新版安装 elasticsearch出现只读索引如何操作 blocked by: [FORBIDDEN/12/index read-only / allow delete (api)];') 【Elasticsearch集群】打分策略详解与explain手把手计算 es 相关配置文件 ES查找空字符串两节点Elasticsearch集群 Elasticsearch 映射参数 fields ElasticSearch自带的分词类型 [Elasticsearch] 多字段搜索 (一) - 多个及单个查询字符串 Elasticsearch－基础介绍及索引原理分析 Elasticsearch集群节点(角色)类型解释node.master和node.data ElasticSearch集群中的分片查询方式 Elasticsearch 模糊查询 wildcard、regexp、prefix选型

略微加速

Elasticsearch权威指南 - 互联网笔记

Ngrams 在部分匹配的应用编辑

略微加速

Elasticsearch权威指南 - 互联网笔记

Ngrams 在部分匹配的应用编辑

Getting Started Videos