June 2, 2021

Elasticsearch 7.13 版新增功能：更快的聚合

在上一节中，我提到了一些关于 date_histogram 的速度改进。所以我也迫不及待地想看看是否可以将同样的原则应用于其他聚合。在过去的几个月里，我大部分时间都在忙于开发运行时字段，但最终我抽时间研究了一下 terms 聚合。

是时候谈谈 terms 了！

在 date_histogram 聚合方面，我们通过在内部将其重写为 filters 聚合，获得了巨大的性能提升。将 terms 重写为 filters 产生了更为复杂的结果。我经常会看到惊人的速度提升 (454ms -> 131ms)。请查看链接的 PR，详细了解一下“经常”具体是指多频繁。但是，现在我们已经将聚合重写为 filters，我们可以更进一步了！

我们实现了另一项令我非常兴奋的优化。这是一条非常好的捷径，它让人觉得对原始代码不公平。这项优化包含了出色的代码！而且运行起来很好用！但是，新代码根本不收集命中信息。它只是从索引元数据中读取计数。这是一种不需要执行搜索的搜索。知道了吧，我们必须存储包含每个术语的文档计数，以便能够将其发送到相似度来计算分数。而且，如果大约有七个先决条件成立（见下图），那么计数正好是原始代码给出的答案。所以我们只是读取计数，而不是执行搜索。130 毫秒的请求时间缩短到了 37 毫秒。这对于能够使用这种优化的请求是相当常见的。特别是对于那些已经存在一段时间的分片尤为明显。这一点非常重要，因为这些分片通常最终会出现在旋转型磁盘上，甚至是可搜索d快照，这两者的 IO 速度都比高级 SSD 上的“热”分片要慢。

3.5 倍的速度提升并不是它的全部。我所做的其他大多数改进都是为了加快*收集*速度。因此，聚合的运行时间仍然与分片上的文档数量有关。根据您的查询，您会看到一些 O(docs_in_index)、一些 O(log docs_in_index) 和一些 O(matching_docs)。但是这个优化是 O(1)。换句话说，无论您在索引中放入多少文档，它都会在相同的时间内返回。可以说八九不离十。我们必须对每个段的统计数据求和，如果索引中有更多的文档，那么就会有更多的段。段数与文档数大致成对数增长。但是，与读取元数据相关的常量因素非常低，我希望您不会注意到。因此，实际上，运行时与文档数量无关。

我们将 3,300 万个气候测量值 (5.9GB) 的索引时间从 130 毫秒缩短到了 37 毫秒。如果实际情况一切顺利，您将在更大的数据集上看到更大的提升。您可能会问，为什么要收集气候数据？因为我喜欢啊，而且谁让我是运行性能测试的人呢。

别走开，精彩继续

在上一节中，我们谈到了将 date_histogram 重写为 filters。具体来说，它变成了一个包含 range 查询的 filters 聚合。这就是我们优化的内容 — range 查询。但是 Elasticsearch 很棘手。有时，当您要求它构建一个 range 查询时，它会构建一个 exists 查询。如果该字段的所有值都在 range 内，它就会这样做。我们可以对 exists 查询使用类似于 terms 查询的优化。这一点在 7.13 版中没有成行，但它将会在 7.14 发行版中。🚂

当 date_histogram 或 terms 具有子聚合（如 max 或 avg，甚至是其他的 terms 聚合）时，7.13 版会应用其中的一些优化。我们不能对元数据使用任何真正不公平的优化，因此您不会看到任何 8ms 聚合或类似内容。但是通过这一改变，我们在过去几个版本中所做的许多优化可以应用到更多的地方。我们的基准测试发现了这样一个改进。下图显示了从 320 毫秒下降到 270 毫秒左右的过程。

基准测试中 50 毫秒的下降相当于 15% 的聚合性能提升。这 15% 很可能表明，我们能够将这些经过优化的顶级收集机制用于子聚合。子聚合本身需要相同的时间，这在某种程度上“稀释”了我们通过加快顶级聚合速度而获得的性能增益。

试过 filters 吗？

到目前为止，我只谈到了 terms 和 date_histogram 的性能。特别介绍了我们如何加快这两个聚合的速度，方法就是：将它们作为 filters 运行，然后加快 filters 的聚合速度。filters 曾经是我们最慢的聚合之一。当然，如果不能走快速路径，它仍然是最慢的。我们只是在将 terms 或 date_histogram 作为 filters 运行时不采用这条路径。就这么简单！

但是，如果您出于某种原因*需要* filters 聚合怎么办？filters 的“快速路径”比慢速路径快大约 20 倍。现在，如果 filters 是最顶层的聚合，并且您不使用其他存储桶，那么就可以获得快速路径。在执行我上面提到的子聚合更改之前，您*还*必须确保 filters 聚合下没有聚合。

计划中的计划

现在，当 terms 或 date_histogram 不是搜索中最顶层的聚合时，这些高级的优化都不起作用。但从这个角度看，这是合乎逻辑的下一步。然后，我们就可以优化 date_histogram 内的 terms，或者 terms 内的 terms。拭目以待！

以上全部改进现已在 Elasticsearch 7.13.0 中发布 — 只需在 Elastic Cloud 上点几下鼠标即可。

上下文工程

向量数据库

Search AI 驱动的应用程序

日志

威胁防护

工作流

Elasticsearch

Kibana（Discover、仪表板）

Elastic 智能体生成器

自动操作

管道化查询语言

Jina AI 搜索模型

Elastic Cloud Serverless

Elastic Cloud 托管

自管型 Elasticsearch

电子商务搜索

客户服务搜索

搜索驱动型应用程序

日志分析

基础架构监测

数字体验监测

应用性能监控

AIOps

LLM 可观测性

新一代 SIEM

安全工作流

XDR 和终端安全

面向安全的 AI

实现数据价值十倍跃升

云服务提供商

Elastic AI 生态系统

Search AI 合作伙伴计划

AV-Comparatives

Forrester Wave™ XDR

Gartner 魔力象限领导者

IDC MarketScape

Search

安全性

可观测性

开始使用

演示库

下载

集成

文档

Elasticsearch Labs

Elastic 安全实验室

Elastic 可观测性实验室

博客

社区

活动

网络研讨会

讨论

培训

支持

咨询

Elasticsearch 7.13 版新增功能：更快的聚合

是时候谈谈 terms 了！

别走开，精彩继续

试过 filters 吗？

计划中的计划