通过 best_compression 提升 Elasticsearch 性能

在为高并发工作负载调优 Elasticsearch 时，标准方法是最大限度地增加 RAM，将工作文档集保存在内存中，以实现低搜索延迟。因此，best_compression 很少被考虑用于搜索工作负载，因为它主要被视为 Elastic Observability 和 Elastic Security 用例中优先考虑存储效率的节省存储措施。

在本博客中，我们证明当数据集大小显著超出操作系统页面缓存时，best_compression通过减少 I/O 瓶颈来提升搜索性能和资源效率。

设置

我们的用例是一个运行在 Elastic Cloud CPU 优化实例上的高并发搜索应用程序。

数据量：约 5 亿份文档
基础架构：6 个 Elastic Cloud（Elasticsearch 服务）实例（每个实例：1.76 TB 存储 | 60 GB 内存 | 31.9 个 vCPU）
内存与存储比率：约 5% 的总数据集可存储在 RAM 中

症状：高延迟

我们观察到，当当前请求数在 19:00 左右激增时，搜索延迟显著恶化。如图 1 和图 2 所示，尽管每个 Elasticsearch 实例的流量峰值约为每分钟 400 个请求，但平均查询服务时间仍恶化至超过 60 毫秒。

每个 Elasticsearch 实例的每分钟请求数达到峰值 — *图 1：Elasticsearch 实例每分钟的请求数在 19:00 刚过就达到了峰值，约为 400。*

Elasticsearch 平均查询服务时间 — *图 2：平均查询服务时间开始飙升，上升并持续保持在 60 毫秒以上。*

在完成初始连接处理后，CPU 使用率保持相对较低，表明计算并非瓶颈。

Elasticsearch CPU 使用率 — *图 3：初始跃升后，CPU 使用率保持相对较低。*

查询量与页面错误之间出现了强相关性。随着请求增加，我们观察到页面错误比例上升，峰值约为每分钟 40 万次。这表明活跃数据集无法完全放入页面缓存。

Elasticsearch 性能的页面错误次数 — *图 4：页面错误次数很高，峰值约为每分钟 40 万次。*

同时，JVM 堆使用率也显示正常且平稳。这排除了垃圾回收问题，并确认瓶颈在于 I/O。

诊断：I/O 瓶颈

系统存在 I/O 瓶颈。Elasticsearch 依赖操作系统页面缓存从内存提供索引数据。当索引过大而无法放入缓存时，查询会触发开销很大的磁盘读取。虽然典型的解决方案是水平扩展（添加节点/RAM），但我们希望先充分利用现有资源的效率改进。

解决方案

默认情况下，Elasticsearch 对其索引段使用 LZ4 压缩，在速度和大小之间取得平衡。我们假设，改用 best_compression （使用 zstd）会减少索引的大小。更小的占用空间使得更大比例的索引能够放入页面缓存，以微不足道的 CPU 增加（用于解压缩）换取磁盘 I/O 的减少。

为了启用 best_compression，我们使用索引设置 index.codec: best_compression 重新索引了数据。或者，也可以通过关闭索引、将索引编解码器重置为 best_compression，然后进行段合并，也可实现相同的结果。