Elasticsearch Labs

Kibana 中的 AI Chat 现已原生支持呈现仪表板

Teresa Alvarez Soler, Robert Jaszczurek — Mon, 25 May 2026 00:00:00 GMT

Kibana 中的 Elastic AI Chat 现在可以将自然语言问题转换为基于 ES|QL 的可视化内容或完整仪表板，所有操作均可直接在对话中完成。您可以描述所需指标，边调查边细化，并在分析脉络清晰成形后保存。在您准备保存之前，所有内容都会保留在对话中；保存后，它们会成为正式的 Kibana 对象，您的团队可以打开、编辑并重复使用。在 Elastic 9.4 中作为技术预览版提供

Watch video on Vidyard

该智能体可以从零开始构建仪表板，也可以与您已有的内容配合使用。查看仪表板时打开 AI Chat 侧边栏，它就会自动关联当前仪表板。您可以询问某项指标为何激增，按区域对其进行细分，或添加对比面板。您现有的仪表板会成为分析起点，而不只是最终产物。

幕后解析：我们如何在 AI Chat 中构建仪表板

我们通过“技能”让智能体学会特定任务；技能是说明如何处理特定问题的结构化描述。但是，构建仪表板技能意味着要教 LLM 生成有效的 Kibana 仪表板，而旧版 Saved Object API 使这一过程变得非常棘手：JSON 深度嵌套、版本之间存在细微差异，引用关系也很脆弱。我们需要一种全新的方法

专为以编程方式构建仪表板而打造的 API

新的仪表板 API 正是为这种场景而构建的。它没有暴露原始内部状态，而是为每种面板类型提供类型化、验证过的模式。API 负责在干净的外部结构与 Kibana 内部表示之间进行转换，因此代理可以专注于仪表板应包含的内容，而不是如何格式化它。

一个技能、一个工具、多种操作

dashboard-management 技能提供一个 manage_dashboard 工具，该工具接受有序的操作数组。每项操作都是一个独立动作：设置元数据、添加 Markdown 面板、根据自然语言创建基于 ES|QL 的可视化内容、编辑现有面板、将面板分组到可折叠分区，或重新定位网格中的项目。

智能体可以通过一次调用描述整个仪表板：标题、描述、分区，以及其中的每个面板：

{
 "operations": [
   { "operation": "set_metadata", "title": "Checkout latency investigation" },
   {
     "operation": "add_section",
     "title": "Overview",
     "panels": [
       { "query": "p95 checkout latency over the last 24h", "chartType": "xy" },
       { "query": "checkout error rate by region", "chartType": "metric" }
     ]
   }
 ]
}

操作按顺序执行，因此后面的步骤可以参考前面的步骤并在此基础上进行扩展。这种设计使对话始终集中在意图上，而不是实施细节上。

可视化管道：从自然语言到 ES|QL 再到可视化

当您请求生成仪表板时，智能体会探查您的数据，包括索引、字段映射和类型，然后规划可视化内容并调用 manage_dashboard。

每个面板都会经过各自的流水线：图表类型选择、ES|QL 生成、可视化配置和验证。我们将这一步从主智能体线程中隔离出来；每个面板的可视化构建都需要多次模型调用，如果混入主上下文，就会撑大上下文窗口，并干扰推理过程。

在 manage_dashboard 内部，所有面板会并发构建，然后按顺序重新组装。最终生成的是一个包含内嵌面板的完整仪表板，不会产生孤立的可视化内容，也不会出现同步问题。

为何将可视化创建纳入仪表板工具中

我们最初的方法是使用一个独立的 create_visualization 工具：每个面板调用一次，然后将每个附件移交给仪表板工具处理。这种方法确实可行，但每个可视化内容都需要单独的工具调用、独立的生命周期，以及明确的移交过程。更糟糕的是，在对话中编辑可视化内容并不会同步更新仪表板面板，容易让用户感到困惑。

我们将可视化创建直接纳入 manage_dashboard。同样的并行工作流仍会运行，但面板会直接组装到仪表板结构中，无需中间附件。调用更少，没有同步问题，生命周期也更统一。

独立可视化内容仍然可用；您可以通过附件引用将现有图表添加到仪表板中。但如果要从头开始构建，内联创建是更简洁的路径

面向安全团队

SOC 分析师和检测工程师在调查中途无法承受来回切换到仪表板编辑器的时间成本。借助 AI Chat，您可以按规则类型、主机或 MITRE 战术统计告警量，并在约一分钟内在对话线程中看到结果。随着威胁搜寻推进，您可以在不中断上下文的情况下逐步添加面板，例如进程执行异常、网络连接和时间线对比。

完成后即可保存。该仪表板可作为事件后复盘的参考、下一位分析师的起点，或每周威胁简报的基础，无需重复说明。

阅读这篇博客文章，详细了解安全团队如何使用仪表板创建功能以及近期推出的其他 AI Chat 功能。

面向可观测性和站点可靠性工程师 (SRE)

当服务在凌晨 2 点出现性能下降时，您没有时间从头开始构建仪表板。借助 AI Chat，SRE 可以描述所需指标（按服务划分的 p99 延迟、与部署事件相关的错误率、过去一小时的 Pod 重启次数），并在约一分钟内在调查对话线程中获得完整仪表板。随着排查思路逐渐清晰，智能体可以逐步细化仪表板：添加面板、更改时间窗口，或按区域细分。

保存仪表板后，它会立即在战情室中供所有加入事件处理会议的成员使用，并保持相同的面板和分析框架。事件结束后，它会成为事件后复盘的基础。

未来发展

我们正在推进 token 优化、更丰富的全屏交互、更广泛的面板支持，并持续提升质量。技术预览阶段正是确定开发优先事项的合适时机；如果有任何缺失，请通过顶部菜单中的“提交反馈”图标告知我们。

试用

升级到 Elastic 9.4（或开始试用），以全屏模式打开 AI Chat，并在真实调查场景中试用。您可以让智能体为您正在查看的指标生成图表，然后要求它继续细分。当分析脉络清晰成形后，即可保存并分享：相同的面板，相同的分析框架，无需重复说明。需要企业许可证（开始使用）。本文中描述的任何特性或功能，其发布及发布时间均由 Elastic 自行决定。当前尚未推出的任何特性或功能可能无法按时交付，甚至可能不会交付。

Kibana 将仪表板加载时间最多缩短了 25%——以下是其背后的轮询策略

Drew Tate, Matthias Wilhelm — Fri, 22 May 2026 00:00:00 GMT

由于采用了连续轮询，Kibana 仪表板和 Discover 的加载速度现在最多可提升 25%。现在，Kibana 不再在定期检查之间休眠，而是保持 HTTP 连接开放，并在 Elasticsearch 查询结果准备就绪时立即提供。在 HTTP/2+（Kibana 默认从 9.0 开始使用）上，此功能会自动启动，无需任何配置。在 HTTP/1 上，Kibana 会回退到传统轮询以防止连接池耗尽。

Kibana 在加载仪表板时如何获取数据

打开仪表板后，大部分面板（我们在内部称之为嵌入式面板）都会启动一个或多个 Elasticsearch 查询。但我们使用的不是同步 (sync) 搜索的简单调用和响应，而是异步 (async) 搜索（文档）的强大功能。

使用异步搜索，查询结果会保存在 Elasticsearch 中，而无需依赖任何特定的 HTTP 请求。这非常重要，因为它

使数据加载不受网络动荡的影响
为我们的后台搜索功能提供支持，让用户在等待长时间运行的仪表板或 Discover 会话时，仍能在 Kibana 中处理其他任务

提交初始查询后，Kibana 会监测搜索，以检测搜索何时完成并检索结果集。

传统轮询如何影响 Kibana 仪表板的加载时间

在传统轮询中，Kibana 会提交查询，关闭初始连接，然后定期检查 Elasticsearch 是否完成。

我们确实会在查询提交后给 Elasticsearch 一小段时间来完成搜索并返回结果。如果搜索完成得这么快，那就相当于一次简单的请求与响应。但是对于较长的搜索，初始连接会关闭，Kibana 开始定期检查搜索是否完成。这被称为轮询。

传统轮询的性能缺陷

从上图可以看出，这种方法的性能缺陷是：搜索很可能在 Kibana 的某个休眠间隔期间完成，从而造成时间损失。

在最坏的情况下（搜索在休眠期开始时完成），整个轮询间隔的时间都将浪费。

退避策略的影响

在进行轮询时，采用退避策略是一种标准做法。这意味着搜索时间越长，我们的轮询频率越低。

然而，这也意味着潜在的损失时间会随着搜索持续时间的增加而扩展。

轮询间隔如何产生锯齿延迟模式

将这些因素综合起来，我们损失的时间就成了一个阶梯状的锯齿函数。

在这里，峰值是最坏的情况，峰谷是最好的情况。这表明，传统轮询的成本取决于搜索持续时间（以及网络状况），可能从零到整个轮询间隔的全部时长不等。

持续轮询：Kibana 如何消除等待时间

传统轮询的问题在于 Kibana 和 Elasticsearch 之间缺乏基本的协调。理想情况下，Kibana 能够立即知道结果是否可用。那么，如果我们将轮询模式颠倒，使几乎所有时间都用于检查 Elasticsearch，而不再有任何休眠时间，会怎么样？

通过这种长轮询和取消睡眠间隔，因此一旦准备就绪，就能立即获得结果。

HTTP/1 降级

这个理论很可靠。那么，为什么启用连续轮询后，Kibana 部署的性能会下降这么多？

关键在于，此部署通过 HTTP/1 运行。在 HTTP/1 中，HTTP 请求与 TCP 连接一一对应。因此，多个长期轮询请求占用了浏览器有限的连接池，导致其他请求排队等待。

另一方面，在 HTTP/2+ 中，网络请求可以通过多路复用共享 TCP 连接，因此我们不会遇到这个问题。

因此，在 HTTP/2+ 中，持续轮询是一种优点，但在 HTTP/1 中，它却变成了一种缺点。

	HTTP/1	HTTP/2+
TCP 连接	每个 HTTP 请求均有一个	多路复用（多个请求共享连接）
连续轮询行为	性能下降（连接池耗尽）	全面获益（立即见效）

Kibana 如何检测 HTTP 协议以优化轮询

HTTP/2 是推荐使用的协议，而且自 9.0 版起已成为 Kibana 的默认协议，因此不提供这项性能提升将是一大遗憾。另一方面，HTTP/1 体验已严重下降，任何尚未升级协议的本地部署均不应冒险使用该协议。答案显而易见：我们需要检测正在使用的协议，并采用最佳轮询策略。

Kibana 服务器当然有可能知道它使用的是哪种协议。但有一个问题：限制因素是浏览器的连接池。这意味着，真正重要的是浏览器所传达的信息。

由于代理的存在，这些并不总是相同的。

如果我们基于服务器协议进行优化，可能会有两种原因出错。

在不应进行连续轮询的情况下进行轮询，会降低体验。
未能在需要时应用连续轮询，就会错过优化机会。

幸运的是，现代浏览器提可以通过使用 PerformanceObserver 来检测任何已完成请求的最后一个网络跳转的协议。因此，我们会关注首次提交查询的协议，并在此基础上进行优化。

new PerformanceObserver((list) => {
  const entries = list.getEntries();
  const entry = entries.find(({ name }) => name.includes('/internal/search/'));
  if (entry) {
    this.protocolSupportsMultiplexing = ['h2', 'h3'].includes(entry.nextHopProtocol);
  }
});

实验室结果：Kibana 中的连续轮询与传统轮询的对比

为了验证连续轮询，我们创建了查询延迟时间为 1 至 23 秒的仪表板，并测量了已启用和未启用优化的加载时间。然后，我们加载了带连续轮询和不带连续轮询的仪表板，以衡量收益（我们在 race-for-the-prize 中获得了很多乐趣）。

该模式与我们最初的锯齿状图相呼应。对于某些查询时长，收益很小，而对于其他查询时长，收益可达数秒。

结论

这一优化成功地用更高效的连续轮询策略取代了传统轮询固有的延迟。主要挑战在于有条件地实施此优化，以防止 HTTP/1 部署的性能下降。我们使用浏览器的 PerformanceObserver 来可靠地检测最终网络跳转所使用的协议，从而解决了这个问题。

实验室测试验证了这一理论，表明连续轮询可以在结果准备就绪后立即提供结果。平均而言，这将显著改善用户体验，使数据加载速度提高 25%。

这项工作是我们致力于缩短用户获得见解时间的最新举措。通过使 Kibana 成为 Elasticsearch 数据的更透明代理，我们推动了自身影响范围内的性能极限。更多精彩，敬请期待！

(在 2025 年，Thomas Neirynk 对提升 Kibana 仪表板性能的方法和动机进行了精彩的概述。这是该计划的最新进展。）

用描述代替手动绘制：通过 MCP 和 ES|QL 构建 AI 原生 Kibana 仪表板。

Stratoula Kalafateli — Fri, 22 May 2026 00:00:00 GMT

example-mcp-dashbuilder 是一款开源 MCP 应用，可将简单英文提示词转换为实时、交互式 Kibana 仪表板，所有操作都在编辑器的聊天窗口中完成。描述您想要实现的仪表板，AI 会探查您的索引结构，为每个可视化内容编写正确的 ES|QL 聚合，并在运行过程中以内联方式渲染预览。完成后，只需一条命令即可导出功能完整的 Kibana 仪表板：真实的 Lens 可视化内容、精确的网格布局和自定义颜色都会保留下来。目前支持六种图表类型，完整的 Kibana Lens 图表集已列入路线图。

Kibana 仪表板构建器是什么？

想象一下：您只需用简单英文描述所需仪表板，就能看着它逐步呈现，并配有交互式图表、拖放式布局以及一键导出到 Kibana 的功能。

这正是 example-mcp-dashbuilder 的作用。它是一款开源 MCP（Model Context Protocol，模型上下文协议）应用，可将 AI 助手连接到 Elasticsearch，让您通过对话创建完整的 Kibana 仪表板。无需在菜单间反复点击。无需手动编写可视化配置。只需描述您的需求，AI 就会探查您的数据、编写 ES|QL 查询、构建图表，并在编辑器的聊天窗口中交付实时交互式仪表板。

Watch video on Vidyard

从提示词到仪表板，仅需数秒

实际运行效果如下。您可以输入类似这样的内容：

“为我构建一个基于 logstash-* 的 Web 流量仪表板，包含总请求数、随时间变化的传输字节数、主要地理来源以及响应代码细分”

随后，AI 会：

探查您的数据：列出索引并检查字段映射。
编写 ES|QL 查询：根据您的架构量身定制，并使用正确的聚合。
创建可视化内容：条形图、折线图、带迷你图的指标图、热力图、饼图。
组织所有内容：可折叠分区、有意义的标题、合理的布局。
渲染交互式预览：直接显示在聊天中，并配有工具提示、时间选择器和拖放功能。

每个图表在创建时都会内联显示，因此您可以实时查看进度。随后，view_dashboard 会显示完整的仪表板，所有面板都会按照 Kibana 的 48 列网格完成布局。

单个图表的内联预览

由 ES|QL 提供支持

所有数据检索均使用 ES|QL，即 Elasticsearch 的管道式查询语言。AI 不只是传递原始查询，还会利用其对 ES|QL 语法的内置知识，并结合您的数据结构信息，为每种可视化类型编写正确且高效的查询。

该服务器包含一份全面的 ES|QL 参考文档，并将其作为 MCP 资源提供。在编写任何查询之前，AI 会先读取这份参考文档，以了解可用的命令、函数和模式。结合数据可视化最佳实践指南（同样作为资源提供），AI 不仅知道如何查询，还懂得什么样的可视化效果更好：

针对时间序列使用 BUCKET(@timestamp, 1 day)；始终按时间字段 SORT 排序。
使用 | SORT value DESC | LIMIT 6 将饼图限制为最多六个扇区。
类别比较选用条形图，趋势分析选用折线图，关键绩效指标 (KPI) 选用指标图。

AI 驱动的数据探索，支持开放式分析

在脑海中设计好一个仪表板并将其构建出来是一回事。询问“这个索引中有哪些值得关注的内容？”并获得有用答案则更难；这要求 AI 懂得如何探索数据，而不仅仅是绘制图表。

example-mcp-dashbuilder 提供了一个 analysis://guidelines 资源，用于定义结构化探索流程：剖析数据、运行有针对性的聚合、呈现值得调查的模式、为最值得关注的发现构建图表，并提出用户接下来可能需要的下钻查询。“分析我的日志”或“在这个索引中寻找模式”等触发短语，会促使 AI 在执行任何其他操作前先读取该操作手册。因此，开放式提示词生成的是逻辑连贯的分析过程，而不是一堆随机图表。

结果是：您可以将一个陌生索引交给 AI，并获得一个起点，包括一个仪表板，以及一组简短提示，例如“以下是我注意到的情况，需要我深入分析其中某一项吗？”

Kibana 仪表板的导出与导入：完整闭环

导出/导入闭环让 example-mcp-dashbuilder 对已经在 Kibana 中工作的团队真正显现价值。example-mcp-dashbuilder 是一个独立工具，也是位于编辑器内的对话式仪表板界面，但它不会让您的工作局限于此。在这里构建的仪表板可以在需要时导入 Kibana；现有 Kibana 仪表板也可以反向导入，以便进行 AI 辅助编辑。

导出到 Kibana

当您对仪表板满意后，只需一条命令即可导出：

将此仪表板导出到 Kibana

每个面板都会转换为 Kibana Lens 原生可视化内容。转换过程会保留：

ES|QL 查询：直接作为 Lens ES|QL 数据源传输。
网格位置：沿用 Kibana 使用的 48 列系统，因此您的布局看起来完全一致。
自定义颜色：系列调色板、指标背景、热力图色带。

最终生成的是一个功能完整的 Kibana 仪表板。不是屏幕截图。不是嵌入内容。而是一个真实的仪表板，您可以在 Kibana 中分享并继续编辑。

Kibana 仪表板与 Cursor 聊天中的仪表板并排显示。

从 Kibana 导入

该闭环同样支持反向操作：

“导入 ID 为 abc-123 的 Kibana 仪表板”

这会获取现有 Kibana 仪表板，将其 Lens 可视化内容转换回可编辑的图表配置，保留网格布局和分区，并将所有内容加载到 example-mcp-dashbuilder 中。之后，您可以使用自然语言修改该仪表板并重新导出。

这使得 AI 成为您现有 Kibana 工作流程中的协作者，而不是替代品。

自定义主题和颜色

想要品牌化仪表板？直接提出需求：

“创建一个粉色主题的仪表板，并使用自定义颜色”

所有可视化类型都支持自定义颜色配置：

图表：palette 接受用于系列和扇区的十六进制颜色数组。
指标：color 设置背景颜色。
热力图：colorRamp 定义从低值到高值的颜色渐变。

AI 能自然理解主题请求。输入“海洋主题”，它会选择蓝色和蓝绿色。输入“匹配我们的品牌颜色”并提供十六进制值，这些颜色会在导出时一并带入 Kibana。

采用自定义颜色的主题仪表板。

example-mcp-dashbuilder 的工作原理：MCP 架构

example-mcp-dashbuilder 基于 MCP 构建；MCP 是用于连接 AI 助手与外部工具和数据的开放标准。以下是其高层级架构概览：

MCP 服务器提供 25 个可由 AI 直接调用的工具，涵盖从运行 ES|QL 查询到导出仪表板的各类操作。同时，它还提供少量仅供应用内部调用的工具，供内联预览用于获取数据、持久化布局更改和检测时间字段。它提供三类资源：数据可视化最佳实践指南、ES|QL 参考文档，以及会在遇到开放式提示词（如“分析我的日志”“这个索引中有哪些值得关注的内容？”）时触发的深度分析操作手册。它既可以通过 stdio 运行，也可以通过 HTTP 运行；HTTP 传输支持流式响应和会话管理，因此多个客户端可以连接到同一台服务器。

MCP App 是交互式预览界面。它使用 React、Elastic Charts 和 Elastic UI 构建，并打包成一个独立且自包含的 HTML 文件。当 AI 调用 view_dashboard 或创建图表时，宿主程序会在沙盒化 iframe 中渲染此 HTML。该应用完全通过 MCP Apps 协议与服务器通信，并通过 postMessage 使用 callServerTool() 来获取数据、保存布局和检测时间字段。无需 localhost 服务器，无需配置端口，也没有外部网络依赖。

这意味着它可以与任何兼容 MCP 的客户端配合使用：Cursor、Claude Desktop、Claude.ai、VS Code with Copilot 等。

example-mcp-dashbuilder 支持哪些图表类型？

在撰写本文时，支持六种图表类型，涵盖了最常见的仪表板场景：

类型	适用场景	示例
条形图	类别比较	按地理来源划分的请求数
折线图	随时间变化的趋势	每小时传输的字节数
区域	随时间变化的数据量	随时间变化的请求量
饼图	局部与整体的比例关系（最多六个扇区）	响应代码分布
指标	带迷你图的单一 KPI	总请求数及每小时趋势
热力图	跨两个维度的模式	按星期几和小时划分的请求数

仪表板支持用于组织内容的可折叠分区、可自动检测时间字段的时间选择器，以及保存多个仪表板并在其间切换的功能；并行聊天会话通过贯穿每次工具调用的 dashboardId 保持相互隔离。

如何安装和运行 example-mcp-dashbuilder

example-mcp-dashbuilder 是开源项目，可直接使用。您需要 Node.js 22+、一个 Elasticsearch 实例（本地或 Elastic Cloud），以及一个兼容 MCP 的客户端。

Claude Desktop：从 GitHub Releases 下载最新 .mcpb 文件，然后双击安装。Claude Desktop 会提示您输入 Elasticsearch 凭据。

Cursor / Claude Code / VS Code Copilot：将您的 MCP 配置指向已发布的 tarball 压缩包；无需克隆，也无需 npm install：

{
  "mcpServers": {
    "example-mcp-dashbuilder": {
      "type": "stdio",
      "command": "npx",
      "args": ["https://github.com/elastic/example-mcp-dashbuilder/releases/latest/download/example-mcp-dashbuilder.tgz"]
    }
  }
}

将 ES_NODE, ES_API_KEY（或 ES_USERNAME / ES_PASSWORD）和 KIBANA_URL 设置为环境变量。如果您更倾向于基于源代码运行，请克隆仓库并运行 npm run setup，以启动交互式向导；该向导可处理本地 Elasticsearch 和 Elastic Cloud（Cloud ID + API 密钥）。

然后开始构建：

“探索 logs 索引，并尽可能为我构建最具洞察力的仪表板”

剩下的交给 AI 即可。😉

路线图：example-mcp-dashbuilder 即将推出的功能

这是一个早期版本，我们正在积极开发中。我们专注的一些领域：

更多图表类型：仪表图、环形图、树状图、数据表和标签云，以覆盖 Lens 的完整功能。
将仪表板推送到 Git：将仪表板配置写入代码仓库，用于版本控制和代码审查工作流。
更友好的错误处理体验：当 ES|QL 查询失败时提供更详细的反馈，并给出常见修复建议。
更丰富的分析流程：扩展深度分析操作手册，以覆盖更多数据形态（日志、指标、链路追踪）。

我们很期待看到您用它构建出的成果。欢迎试用、提交 issue，并告诉我们哪些可视化内容和工作流对您的团队最有帮助。

GitHub：elastic/example-mcp-dashbuilder

致谢

感谢 Walter Rafelsberger 和 Tim Schnell 在实现方面作出的贡献。

常见问题解答

什么是 example-mcp-dashbuilder？example-mcp-dashbuilder 是一款开源 MCP (Model Context Protocol) 应用，用于将 AI 助手连接到 Elasticsearch。它让您可以用简单英文描述 Kibana 仪表板，并自动生成 ES|QL 查询、创建可视化内容，在编辑器的聊天窗口中交付实时交互式仪表板。

example-mcp-dashbuilder 使用哪种查询语言来检索数据？所有数据检索均使用 ES|QL，即 Elasticsearch 的管道式查询语言。MCP 服务器包含一份内置 ES|QL 参考文档，AI 在编写任何查询之前都会先阅读该参考文档，从而确保每种可视化类型都具备正确语法和高效聚合。

我可以将使用 example-mcp-dashbuilder 构建的仪表板导出到 Kibana 吗？可以。运行“将此仪表板导出到 Kibana”会将每个面板转换为真正的 Kibana Lens 可视化内容，并保留 ES|QL 查询、48 列网格布局、自定义颜色和系列调色板。最终呈现的是一个功能完整的 Kibana 仪表板，而不是屏幕截图或嵌入内容。

我可以将现有 Kibana 仪表板导入 example-mcp-dashbuilder，以便进行 AI 辅助编辑吗？可以。只需提供 Kibana 仪表板 ID，系统便会获取现有仪表板，将其 Lens 可视化内容转换为可编辑的图表配置，并加载到 example-mcp-dashbuilder 中。之后，您可以使用自然语言修改仪表板，并重新导出到 Kibana。

哪些 MCP 客户端与 example-mcp-dashbuilder 兼容？example-mcp-dashbuilder 可与任何兼容 MCP 的客户端配合使用，包括 Cursor、Claude Desktop、Claude.ai 和 VS Code with Copilot。它同时支持 stdio 和 HTTP 传输，无需 localhost 服务器或端口配置。

example-mcp-dashbuilder 支持哪些图表类型？当前版本支持六种图表类型：条形图、折线图、面积图、饼图、指标图（带迷你图）和热力图。计划新增仪表图、环形图、树状图、数据表和标签云，以覆盖 Kibana Lens 的完整功能。

运行 example-mcp-dashbuilder 需要什么？您需要 Node.js 22 或更高版本、一个 Elasticsearch 实例（本地或 Elastic Cloud），以及一个兼容 MCP 的客户端。设置环境变量 ES_NODE、ES_API_KEY（或 ES_USERNAME/ES_PASSWORD）和 KIBANA_URL。对于 Claude Desktop，请从 GitHub Releases 下载 .mcpb 文件，然后双击安装。

一次查询，多个 Elasticsearch Serverless 项目：隆重推出跨项目搜索

Michael Peterson, Najwa Harif — Mon, 18 May 2026 00:00:00 GMT

跨项目搜索 (CPS) 现已在 Elastic Cloud Serverless 中提供。通过一个像 FROM logs* 这样的单个查询，您即可跨多个孤立项目搜索数据——无需网络对等连接、无需证书管理、无需数据重复。项目保留在各自的区域和云中；只有结果会返回给您。对于处理数据驻留要求、租户隔离或因复制日志而产生跨区流量成本的团队，CPS 意味着您的数据可以存储在其所属的位置，同时仍然可以作为一个整体进行查询。

Elastic Cloud Serverless 已经消除了管理基础架构和版本升级的麻烦。CPS 则更进一步。我们用简单的链接模型取代了复杂的网络对等连接和人工证书管理。现在，您可以将 Elastic Cloud Serverless 项目视为数据的简单命名空间。无论您是在应对严格的数据驻留法律、隔离租户数据，还是只是试图避免由于复制日志而产生的巨额跨区流量费，CPS 都支持您通过单次查询在数据所在的位置搜索数据。

在这篇文章中，我们将介绍 CPS 的工作原理、如何使用项目标签控制搜索，以及这种新模式与传统的跨集群搜索 (CCS) 有何不同。

如何链接项目以进行跨项目搜索

如要开始跨项目搜索，请在 Elastic Cloud 控制台或 API 中链接项目。链接过程非常简单，而且是单向的：选择一个源项目，然后连接它应该搜索的项目。这些链接可以跨越区域、云服务提供商和项目类型，因此您的数据可以在不放弃统一搜索体验的情况下保留在原位置。

链接创建完成后，通常会在一分钟左右生效。如果您已经打开了 Kibana，请刷新页面以查看新的跨项目搜索功能。

跨项目搜索如何默认查询所有链接项目

一旦项目被链接起来，跨项目搜索就会将独立的项目变成一个单一的逻辑搜索面。如果日志跨越多个项目，则类似 FROM logs* 这样的查询会搜索源项目和有匹配数据的任何链接项目。您不必事先为每个远程目标命名。

这比跨集群搜索有了重大改进。在 CCS 中，访问本地和远程数据通常意味着编写类似 FROM logs*,*:logs* 的内容。对于用户来说，这意味着查询复杂性降低。对于团队而言，这让我们离实现跨分布式数据的真正“单一视图”更近了一步。

有关更多信息，请参阅 CPS 搜索模型文档。

如果您有兴趣了解我们如何构建此功能的技术细节，请参阅跨项目搜索 (CPS) 在 Elasticsearch Serverless 中如何工作。

通过项目路由控制搜索

默认情况下跨所有关联项目进行搜索，对于许多工作流而言既便捷又实用；然而，并非每一次搜索都应当覆盖所有范围。跨项目搜索引入了项目路由，这是一种将查询限制到特定项目子集的方式。

它通过 Elastic Cloud 中定义的项目标签工作。每个项目都有内置属性，例如其别名、云服务提供商和区域。您还可以添加自己的标签，以反映您的组织对其数字资产的划分方式，如 environment:prod, environment:test、业务单元或客户名称。Elasticsearch 可以使用该元数据来决定哪些链接的项目应参与搜索。

所有支持跨项目搜索的 Elasticsearch 终端都接受 project_routing 参数。在技术预览版中，路由功能仅限于使用项目别名。例如，将 project_routing 设置为 _alias:my-linked-project 将会把查询仅发送到该关联项目，而设置为 _alias:_origin 则会将查询保留在源项目内。随着时间的推移，这个模型将为更丰富的路由功能打开大门，届时，查询范围将完美契合贵公司的逻辑架构，而不再受制于基础设施的物理布局。

请参阅项目路由文档了解示例和更多关于工作原理的信息。

Kibana 空间层级的默认项目路由

关于您的查询路由为何需要更精准的范围，举例而言，盲目查询所有链接项目可能会导致您的 Kibana 检测规则触发大量误报，或者让您现有的仪表盘数据变得极其混乱。如要解决这个问题，您可以在 Kibana 中设置空间层级的默认项目范围。这相当于为该特定空间设置了一个安全预设——这意味着所有仪表板、Discover 会话和告警规则都会自动遵循该设置。分析师在调查过程中如果需要更广泛的视角，仍可手动调整覆盖范围。

这对于共享中央项目的团队（例如 MSP、MSSP 和卓越中心）来说很重要：您可以为每个团队分配自己的 Kibana 空间，并将其限制为仅查询其特定的客户项目，从而保证租户特定的体验。分析师在调查过程中如果需要更广泛的视角，仍可手动调整覆盖范围。

您在云用户界面中链接项目之前或之后可以配置此空间默认设置。但由于 CPS 在链接建立后立即开启“全局搜索”行为，因为先设置 Kibana 默认值可以确保现有的检测规则不会突然在海量全球数据下产生误报或导致团队不堪重负。

在搜索中使用标签

除了使用标签进行项目路由，您还可以在 ES|QL 和搜索查询中使用标签。这可以用来识别结果集中每条记录或行的来源，或者按这些标签进行排序、过滤或聚合。

例如，如果您想查看 ES|QL 响应中每一行数据来自哪个项目，可以将 _project._alias 标签添加到 ES|QL 查询中：

FROM logs* METADATA _project._alias | ...

这样一来，您就可以在查询的其他部分（包括 KEEP 子句）中使用 “_project._alias”，在查询的其他部分（包括 KEEP 子句）中，从而使其呈现在最终结果中。

FROM logs* METADATA _project._alias | ... | KEEP @timestamp, message, _project._alias

有关在查询中使用标签的更多示例，请参阅此文档，其中介绍了如何在搜索 API 和 ES|QL 中使用标签。

如果您有兴趣了解如何为搜索和 ES|QL 查询添加标签的技术细节，请参阅在 Elasticsearch Serverless 中使用项目标签和路由加快跨项目搜索。

跨项目搜索如何平等地处理源项目和链接项目

如果您用过CCS，您可能知道本地群集与远程群集的处理方式有所不同。

本地群集错误的处理方式与远程群集错误的处理方式不同。特别是，CCS 使用 skip_unavailable 设置来控制来自远程群集的错误的行为方式，但本地群集不存在该设置。
本地集群没有“集群别名”，因此索引表达式 *:logs* 搜索所有远程项目，但会跳过本地集群。如要同时搜索两者，您必须使用索引表达式 logs*,*:logs*。

在 CPS 中，我们已经改变了这两种行为，使原始项目和链接项目处于更加平等的地位。

首先，在 Elastic Cloud Serverless 中不使用 skip_unavailable 设置。相反，您可以通过在 _search 或 _async_search 中使用 allow_partial_search_results 参数，或在 ES|QL 中使用 allow_partial_results 参数，来控制是否希望在搜索时获得部分结果。

其次，在 Elastic Cloud Serverless 中，源项目有一个项目别名。它在 Elastic Cloud 中定义，就像所有项目标签一样。因此，在 CPS 中，下面的所有查询都是等价的，它们针对的都是有“日志”索引的所有项目：

POST logs/_search

POST *:logs/_search


POST logs/search 
{
  "project_routing": "_alias:*"
}

注意：在针对缺失索引的错误处理方面，限定索引表达式 *:logs 和非限定表达式 logs 之间存在重要区别。有关详细信息，请参阅公共文档中的非限定和限定搜索表达式。

跨项目搜索的访问控制和安全模型

Elastic 创建了一种新的基于云的安全模型，即通用身份和访问管理 (UIAM)，它实现了跨项目搜索的一个关键原则：您可以访问的项目和数据不依赖于您访问它的位置。

无论您是从主要的可观测项目还是从临时分析项目启动搜索，您对链接数据的访问都保持一致，因为这些访问权限已在集中位置进行了统一定义。该云端认证与授权模型利用云 UIAM 服务，确保无论源自哪个项目，您的访问权限均保持统一。

试用跨项目搜索

最终，Elastic Cloud Serverless 和 CPS 可共同减少操作摩擦，为您提供更多基于逻辑而非物理或操作因素来组织数据的选择。跨项目搜索允许您的用户纯粹关注数据的逻辑组织，提供统一的搜索体验，而不受过去物理复杂性的限制。

在 Elasticsearch 中使用确定性防护措施实现智能 AI 搜索，以确保查询安全执行

Alexander Marquardt, Honza Král, Taylor Roy — Mon, 18 May 2026 00:00:00 GMT

本系列第 1 至第 7 部分介绍了用于电子商务搜索的受治理控制平面。用户输入查询。控制平面在查询产品目录之前，先进行意图分类、执行业务约束、解决策略冲突，并路由到合适的检索策略。整个架构的假设前提是，输入是由人类购物者键入的搜索字符串。

最后一篇文章提出的问题是：当输入来自 AI 智能体时，会发生什么变化？

答案是架构本身不需要改变，但风险等级发生了变化。当上游决策者是大型语言模型 (LLM) 时，受治理的控制平面中那些对人工编写的查询至关重要的每一个属性，都会变得更加重要。确定性、可审计性、冲突解决和约束执行，从操作便利性变成了关键的防护措施，因为产生输入的系统本质上是概率性的。

智能体搜索问题

目前实现 AI 驱动搜索的最常见方法非常直接：给 LLM 提供数据库模式，在提示中提供业务规则，然后让智能体直接生成查询。

对于电子商务聊天机器人，这意味着将 Elasticsearch 索引映射、字段类型、类别分类法、定价逻辑和业务约束注入智能体的上下文窗口，然后要求 LLM 将自然语言转换为有效的 Elasticsearch 查询 DSL。此时，LLM 扮演了查询作者的角色。

这种方法在演示环境中可行，但在生产环境中会因以下四个原因而失败。

上下文膨胀

企业电子商务索引映射绝非小文档。字段定义、嵌套对象、多字段配置以及分析器设置，在尚未加入任何业务逻辑之前，就可能已经消耗数千个词元。除了映射之外，智能体还需要类别分类法（在企业电子商务中可能包含数万个值）、定价规则、品牌层级、资格约束以及促销活动逻辑。

其结果是，上下文窗口被结构化的元数据所占据，而非用户的实际意图。这会增加延迟，增加词元成本，并随着上下文的增加而降低 LLM 遵循指令的能力。这是一种有据可查的现象，有时被称为上下文腐烂）：提示越长，模型对任何特定指令的关注度就越弱。

概率性幻觉

LLM 基于其训练数据中的模式以及提供的上下文来生成查询。当要求生成 Elasticsearch Query DSL 时，模型可能会幻觉出不存在的字段名、构造出语法无效的查询子句、将过滤器类型误用于不匹配的字段类型，或者生成语法正确但语义错误的查询，最终返回与用户意图不符的结果。

Google Cloud 的 Text-to-SQL 任务的 BIRD 基准测试展示了这种方法的极限。Google 最先进的单模型结果达到了 70% 至 80% 的准确率，意味着将近四分之一的生成查询是错误的。这针对的是 SQL，它远比 Elasticsearch Query DSL 更加标准化。在真实生产环境中，面对复杂的映射和业务特定的语义，LLM 生成 Elasticsearch 查询的错误率很可能会更高。

对于一个收入至关重要的电子商务系统来说，四分之一查询出错率并非可以迭代解决的调优问题，而是该方法本身的架构性局限。

安全差距

当 LLM 能够访问数据库模式并充当查询作者时，系统就容易遭受间接提示注入攻击。与电子商务聊天机器人交互的用户可以精心构造输入，诱导智能体生成非预期的查询。

这并非理论上的风险。在已部署的 LLM 系统中，提示注入是研究最活跃的攻击面之一。根本问题在于，当智能体编写查询时，用户意图与查询执行之间不存在结构性边界。LLM 同时解释用户请求和构建数据库操作。任何对前者的操纵都会直接影响后者。

高基数扩展失败

某些电子商务字段具有极高的基数。一个产品目录可能包含 17,000 个类别值、数千个品牌名称和数百种属性组合。标准智能体工作流需要将这些值注入上下文，以便LLM在构建查询时能够选择正确的值。

这就产生了一个不可能的选择：要么注入所有可能的值（消耗巨大上下文并降低性能），要么注入一个子集（并接受智能体无法引用该子集之外的值），要么退回到无治理的搜索。这与第 1 部分的核心问题直接相关：如果 LLM 搜索“橙子”而 Elasticsearch 返回橙味苏打水，聊天体验就会像搜索体验一样降级。缺乏治理意味着系统无法强制执行购物者的预期解析结果。

一种已知的替代方案是根据查询动态检索相关值，但这会增加一个非确定性步骤，且检索过程本身可能遗漏相关值。此外，这还会为每一次查询增加延迟和复杂度。

架构替代方案：将意图与执行解耦

本系列第 1 至第 7 部分所描述的受治理控制平面提供了一种根本不同的方法。LLM 的角色不再是为最终查询执笔，而是被缩减为一个边界清晰的任务：从用户的自然语言输入中提取一个搜索意图字符串。

用户说：“我在找便宜的棕色鞋子。”智能体的任务不是生成 Elasticsearch 查询，而是提取搜索意图（在此例中类似“便宜的棕色鞋子”）并将其传递给控制平面。控制平面随后执行其既定功能：根据存储的策略过滤意图字符串，通过级联转换组合匹配的策略，以确定性方式解决冲突，并最终生成一个受治理的 Elasticsearch 查询。

LLM 永远看不到索引映射。它从未了解字段类型、类别分类法或价格阈值。它永远不会构造查询子句。它运行在一个架构边界的自然语言侧，我们称之为元数据隔离层，即概率性组件 (LLM) 和结构化数据层（架构、策略和查询构造）之间的严格分离。

元数据隔离层的作用

模式盲性。LLM 无法访问数据库模式，因此无法生成无效查询、幻觉字段名，或被操纵而暴露结构信息。模式仅存在于隔离层的确定性一侧。
极简上下文。LLM 的提示中不再包含数千词元的映射数据、业务规则和类别分类法，而仅包含角色设定和意图提取指令。这显著降低了词元成本、延迟和上下文腐化。
确定性执行。每个到达 Elasticsearch 的查询都由控制平面使用经过人工验证的策略模板来构建，而非由 LLM 概率性地生成。句法有效性得到保证。语义正确性由第 1 至第 6 部分所述的同一策略框架强制执行。
架构性安全。提示注入在结构上失效。即使用户操纵智能体产生一个异常的意图字符串，该字符串也会与存储的策略进行反向匹配。如果没有策略匹配，就不会生成任何查询。用户无法指示智能体构造查询，因为智能体根本就不构造查询。控制平面负责构造，而控制平面是确定性的。

各组件如何连接

以下演练展示了受治理的控制平面如何处理代理介导的查询。

第 1 步：用户与智能体对话

一位与电子商务聊天机器人交互的购物者说：“我想买便宜的巧克力，不要含花生的。”

第 2 步：智能体提取意图

LLM 的角色是意图提取，而不是查询生成。通过一个极简的提示，指示它识别产品意图，智能体输出搜索意图字符串：“便宜的巧克力，不含花生”。

这是一个轻量级的分类任务。LLM 不需要索引映射、类别分类法或定价规则来执行此任务。它只需要理解自然语言，而这正是 LLM 所擅长的。

第 3 步：控制平面治理查询

意图字符串“便宜的巧克力，不含花生”被传递给控制平面，控制平面将根据策略索引进行过滤。匹配到三条策略：

“便宜”策略（提取“便宜”，并根据产品类别应用价格过滤）。
“巧克力”策略（将结果限制在巧克力类别）。
“不含”否定策略（提取排除目标，并应用 must_not 过滤器）

控制平面按照第 3 部分和第 4 部分所述的级联转换来应用这些策略：优先级排序、按字段冲突解决、已消耗短语跟踪。如果“圣诞活动”策略也同时激活，它会与产品策略按第 3 部分所述方式组合——智能体的介入丝毫不改变治理模型。

第 4 步：受治理的查询执行

控制平面生成一个完全受治理的 Elasticsearch 查询：搜索“巧克力”，限制在适当的类别内，带有由“便宜”策略导出的价格上限，包含针对含花生制品的排除过滤器，并应用任何生效的促销活动加权。如果“巧克力”策略还包含了经济优化权重（第 7 部分），这些权重也会被应用。由于“巧克力”属于浏览型查询，零售商希望推广利润率更高的产品，因此利润率提升系数被设为 3.0 倍。如果购物者拥有历史购买记录（第 6 部分），个性化信号也会叠加其上。该查询在结构上天生合法，在语义上通过策略设计而保证正确。

步骤5：结果通过代理返回

产品结果返回给智能体，智能体以对话方式呈现给用户。在返回路径中，智能体的角色是呈现：格式化结果、回答追问、提供产品详情。检索过程本身是受治理的、确定性的、可解释的。

智能体的优势（与劣势）

这种架构充分发挥了 LLM 的优势，同时保护系统免受其劣势的影响。

LLM 擅长理解自然语言意图。“我想买便宜的巧克力，不要含花生的”是一个自然语言理解任务：解析意图、识别产品指代、识别否定。LLM 能够可靠地处理这一任务，因为它本质上是一个分类问题，而非生成问题。输出是一个简短的意图字符串，而不是复杂的结构化查询。

在复杂的约束条件下，LLM 难以实现精确的结构化输出。生成有效的 Elasticsearch Query DSL 需要精确的字段名称、正确的子句嵌套、适用于每个字段的恰当过滤器类型，以及跨数千个边缘情况统一应用的业务规则。这些正是确定性系统可以轻松保证，而概率性系统却难以稳定实现的属性。

受治理的控制平面将每个组件置于其应属的位置：LLM 负责自然语言侧，确定性策略引擎负责查询构建侧，二者之间由架构边界隔开。

治理约束影响范围

这正是第 3 部分的相同见解，扩展到了智能体上下文。在第 3 部分中，我们观察到治理通过在检索开始之前缩小候选集，使语义检索更加安全。在受治理的类别中对 500 个产品进行语义搜索，与对 500,000 个 SKU 进行语义搜索，本质上是不同的命题。

同样的原则也适用于智能体介导的查询。如果没有治理，当智能体错误解读“便宜的巧克力”时，可能生成一个全目录搜索的查询，不带任何价格约束、类别过滤或排除条件。有了治理之后，即使智能体产生了一个不完美的意图字符串，控制平面也会将查询限制在匹配的策略范围内。最坏的情况是触发的策略更少，而不是无限查询会影响产品目录。

治理缩小了概率性错误的影响范围。无论概率性组件是语义检索模型还是 LLM 智能体，这一点都成立。

LLM 建议的政策：扩大覆盖范围

第 2 部分提出了一个想法：LLM 可以建议新的策略，这些策略会进入与人工编写策略相同的“编写 → 测试 → 上线”管道。在智能体上下文中，这形成了一个强大的反馈循环。

LLM 可以分析查询日志，识别出控制平面没有匹配策略（即直接落到未修改检索上的查询）的模式，并建议新的策略来填补这些空白。运营人员会审查每条建议，进行测试，如果产生预期行为则将其上线。治理模型确保任何由 LLM 建议的策略都必须经过人工验证才能进入生产环境。

随着时间的推移，这会形成一个良性循环：控制平面的策略覆盖范围不断扩大，需要未修改检索的查询比例不断缩小，系统变得越来越受治理，每一条策略都是可审计、可版本控制和可单独反转。

更广泛的模式：概率系统的确定性防护措施

本系列所描述的架构——位于概率性输入源与数据检索系统之间的确定性控制平面——并不仅限于电子商务搜索。凡是 AI 智能体需要与结构化数据交互的场景，都可以应用同样的模式。

智能体查询 SQL 数据库时面临同样的挑战：因注入模式导致的上下文膨胀、幻觉出的列名、提示注入风险，以及高基数值的选择问题。智能体与 Jira 等工单系统、Salesforce 等客户关系管理 (CRM) 系统或 GitHub 等代码存储库交互时，也会遇到类似的问题。在每种情况下，核心架构问题都是相同的：应该让 LLM 来编写查询，还是让 LLM 提取意图并将其传递给一个确定性层来编写查询？

受治理的控制平面为该问题提供了一个可复现的答案。策略即数据。意图提取是 LLM 的工作。查询构建是控制平面的工作。元数据隔离层使它们保持分离。治理框架（优先级排序、冲突解决、级联转换、可审计性）确保随着策略数量的增长，确定性层在操作上是可管理的。

结论

本系列所描述的电商搜索治理模式（策略即数据，编写 → 测试 → 上线的流程，级联转换，按字段冲突解决，基于反向匹配的逆向匹配，以及多层降级）最初设计用于运营人员编写策略、购物者键入查询的场景。但该架构的潜力远不止于其初始用例。

当输入源是 AI 智能体而非人类购物者时，受治理的控制平面就成为概率性系统与生产数据存储之间的关键安全层。它提供了企业系统所必需的、而 LLM 自身无法提供的确定性保障：语法合法性、语义正确性、可审计性和安全性。

确定性控制平面并非要替代 AI 智能体。它使 AI 智能体可以安全部署。

将受治理的电子商务搜索付诸实践

本系列所描述的受治理控制平面架构（从“策略即数据”范式，到基于反向匹配的查找，再到个性化、经济优化以及智能体隔离层）均由 Elastic 服务工程团队设计并构建。本系列中描述的每一种模式都源自一个在实际企业级产品目录上构建并验证过的生产系统。

如果您的团队正在构建 AI 驱动的搜索体验，并需要为智能体介导的查询设置确定性的防护措施，或者您希望在 Elasticsearch 上实现一个受治理、可由业务编辑的搜索架构，Elastic 专业服务团队可以加速您的实施。请联系 Elastic 专业服务团队。

加入讨论

对搜索治理、检索策略或电子商务搜索架构有疑问？加入更广泛的 Elastic 社区讨论。

Elastic Cloud on Kubernetes 简化：区域感知、重启和 mTLS

Omer Kushmaro — Fri, 15 May 2026 00:00:00 GMT

ECK 3.4 使 Kubernetes 上的 Elastic Stack 更易于操作。区域感知 HA、安全滚动重启和 Kibana↔Elasticsearch mTLS 在您的清单中都仅需一行配置即可实现。

如果您运行的是 Kubernetes 上的 Elastic Cloud (ECK)，此版本旨在减少您日常工作中的摩擦。

更易于操作，更易于理解

ECK 3.4 版本的重点是减少在 Kubernetes 上运行 Elastic Stack 时需要考虑的问题。每个标题的更改都选取了一个多步骤任务，并将其转化为一个单一的陈述性答案：

简化的区域感知。现在，只需在 NodeSet 上填写一个字段，即可告知 ECK 集群应分布在多个可用区。操作员将代表您处理拓扑、调度和 Elasticsearch 端的感知配置。您的清单反映的是您的意图，而不是其连接方式。
重启群集的方法与其他方法相同。触发滚动重启现在是 Elasticsearch 资源上的一个注释。它是声明式的，符合 GitOps，并且会留下审计跟踪。不要为了发布而对无关字段进行强制编辑。
mTLS 由运营商自动配置。在 Kibana 和 Elasticsearch 手动连接互联 TLS 需要管理 CA、每个组件的客户端证书、挂载、轮换以及两端的配置。ECK 3.4 能够处理所有这些问题：在 Elasticsearch 上设置一个标记，将 Kibana 指向它，然后操作员就可以管理其余部分。

这次发布旨在让 ECK 的日常操作变得枯燥乏味，但这是最好的那种枯燥乏味：需要记住的字段更少，保持同步的额外操作更少，清单也更易于理解。

简化的区域感知

通过在 NodeSet 上设置一个字段，即可实现 Elasticsearch 集群在多个可用区内的高可用性。ECK 3.4 可为您处理拓扑分布、Pod 调度和 Elasticsearch 端感知配置。

在此之前，您必须在四个不同的对象之间手动连接所有这些设置：Elasticsearch 资源上用于向下节点标签的注释、NodeSet 配置中的感知属性、Pod 模板中用于显示区域的 fieldRef 环境变量、匹配的 topologySpreadConstraints 块以及将集群固定到特定区域的 nodeAffinity 规则。大约 40 行 YAML，很容易配置错误。

在 ECK 3.4 中，同一个区域感知集群由四行组成：

apiVersion: elasticsearch.k8s.elastic.co/v1
kind: Elasticsearch
metadata:
  name: my-cluster
spec:
  version: 9.4.0
  nodeSets:
  - name: default
    count: 3
    zoneAwareness: {}

要固定到特定的区域集，请为其命名，ECK 会添加与其匹配的所需节点亲和规则：

spec:
  nodeSets:
  - name: hot
    count: 3
    zoneAwareness:
      zones: ["us-east-1a", "us-east-1b", "us-east-1c"]

如果您确实需要自定义 maxSkew 或 whenUnsatisfiable，在 podTemplate 中提供具有相同 topologyKey 的匹配拓扑扩展约束仍然是最佳选择。您的覆盖设置仍然有效。

升级注意事项：在现有 NodeSet 上启用 zoneAwareness 会更改 StatefulSet Pod 模板（新拓扑分布约束、ZONE 环境变量、节点亲和性、node.attr.zone），这会触发受影响 NodeSet 的一次性滚动重启。请做好相应的规划。

要了解有关简化区域管理的更多信息，您可以阅读 Elastic 文档上的此页面。

声明式滚动重启

在 3.4 版本中，无需更改配置即可重启 Elasticsearch 集群已成为一项标准工作流。Elasticsearch 资源上的两个新注释完成了这项工作：

eck.k8s.elastic.co/restart-trigger：设置或更改此值（通常选择时间戳）以启动滚动重启。更改该值会触发稍后的另一次重启，而删除注释则不会。
eck.k8s.elastic.co/restart-allocation-delay：可选的持续时间字符串（例如“20m”）作为重启期间的分配延迟传递给 Elasticsearch 节点关闭 API，以便在 Pod 回收期间暂缓重新平衡操作。

apiVersion: elasticsearch.k8s.elastic.co/v1
kind: Elasticsearch
metadata:
  name: my-cluster
  annotations:
    eck.k8s.elastic.co/restart-trigger: "2026-04-30T10:00:00Z"
    eck.k8s.elastic.co/restart-allocation-delay: "20m"
spec:
  version: 9.4.0

在底层，ECK 将触发值传播到 Pod 注释，这会更改 StatefulSet 模板哈希值，并使每个 Pod 通过现有的滚动升级路径进行处理（节点关闭 API、谓词、逐个删除 Pod）。没有新的重启机制需要学习，滚动升级中已有的状态消息和可观测性也会沿用。

对于 GitOps 用户而言，这意味着 Flux/ArgoCD 管道只需修改一个注释即可请求重启：无需处理规格漂移，无需处理差异更新，也无需强制编辑无关字段。

Kibana ↔ Elasticsearch 的托管 mTLS

Kibana 与 Elasticsearch 之间的双向 TLS 协调功能已随本次发布推出。Elasticsearch CRD 接受一个新的字段 spec.http.tls.client.authentication: true，该字段指示集群在其 HTTP 接口上要求客户端证书。ECK 负责其余工作：它会根据任何标记为 eck.k8s.elastic.co/client-certificate: true 的密钥构建信任包，将其挂载到 Elasticsearch Pod 中，设置 xpack.security.http.ssl.client_authentication: required，并签发操作员端客户端证书，以便在整个部署过程中能够持续与集群通信。

这使得为堆栈启用和配置 mTLS（在此次发布中仅限 Elasticsearch 和 Kibana）成为一项更简单的任务。

在 Elasticsearch 上启用 mTLS：

apiVersion: elasticsearch.k8s.elastic.co/v1
kind: Elasticsearch
metadata:
  name: secure-cluster
spec:
  version: 9.4.0
  http:
    tls:
      client:
        authentication: true # <---- This is all you need
  nodeSets:
  - name: default
    count: 3

在客户端，Kibana 的关联控制器现在可以检测引用的 Elasticsearch 上的 client-authentication-required 注释，并自动为 Kibana 生成客户端证书，无需额外配置。如果您想使用自己的证书（如 cert-manager 或内部 PKI），请指向您已配置的密钥：

apiVersion: kibana.k8s.elastic.co/v1
kind: Kibana
metadata:
  name: kibana
spec:
  version: 9.4.0
  count: 1
  elasticsearchRef:
    name: secure-cluster
    clientCertificateSecretName: my-custom-client-cert

ECK 会轮换证书，将密钥挂载到 Kibana 容器中，并连接 elasticsearch.ssl.certificate 和 elasticsearch.ssl.key。mTLS 资源的清理工作将延迟到所有 Pod 都完成滚动更新后进行，因此在整个过渡期间都能保持连接性。

Kibana 是首个在 3.4 版本中获得这种优先级待遇的堆栈组件。对 APM 服务器、Beats、Fleet Server、Elastic Agent、Logstash、Maps 和 Enterprise Search 的支持将于近期推出。与此同时，一份新的教程详细介绍了如何使用 cert-manager 为这些组件手动配置 mTLS。

其他显著改进

此版本还包含其他值得关注的改进。以下是一份包含其相关拉取请求的列表。

在已启用 FIPS 的操作员（单独镜像）中支持原生 Go FIPS 140-3。FIPS 风格的 ECK 镜像（docker.elastic.co/eck/eck-operator-fips:3.4.0，以及 UBI 变体 eck-operator-ubi-fips:3.4.0）现已支持原生 Go FIPS 140-3，固定在经过认证的 GOFIPS140=v1.0.0 模块上，并在运行时强制执行。标准 eck-operator 图像保持不变。对于 Elasticsearch 9.4.0 或更高版本，操作员在设置 xpack.security.fips_mode.enabled: true 时还会自动生成并挂载符合 FIPS 的密钥存储密码 (#9263，#9287）。
值得特别指出的可靠性修复：
- 现在可检测到证书链中的过期 CA，并触发重新签发 (#9197）。
- 远程 CA 密钥生成失败不会导致阻塞 (#9271)。
- 在软多租户配置中，NetworkPolicy 命名空间选择器标签是固定的 (#9153)。
- 如果已经存在同名卷，则 Elasticsearch 控制器会跳过其默认 PVC (#9199)。
- DaemonSet 调节器处理过期缓存的方式与部署调节器相同 (#9256)。

开始使用

如果您已在运行 ECK，请使用 Helm 升级至 3.4.0：

helm upgrade elastic-operator elastic/eck-operator -n elastic-system

或直接应用最新的操作员清单：

kubectl apply -f https://download.elastic.co/downloads/eck/3.4.0/crds.yaml
kubectl apply -f https://download.elastic.co/downloads/eck/3.4.0/operator.yaml

如果您是 ECK 的新手，请从快速入门指南开始，几分钟内即可在 Kubernetes 上运行 Elasticsearch 集群。

有关更改的完整列表，请参阅 GitHub 上的 ECK 3.4.0 发行说明。

要立即开始使用 Elastic Cloud，请登录到 Elastic Cloud 控制台或注册免费试用。

常见问题

如何在 ECK 中使 Elasticsearch 集群具备区域感知能力，而无需编写拓扑分布约束？

在 Elasticsearch 资源上设置 spec.nodeSets[].zoneAwareness: {}。ECK 会导出拓扑结构，附加 node.attr.zone，设置 maxSkew=1 拓扑分布约束，并为您注入向下标签。如果要绑定到一组特定的可用区，请提供 zones: [...]。在现有 NodeSet 上启用此功能会导致一次性滚动重启。

我能否在不编辑规范的情况下触发 Kubernetes 上 Elasticsearch 集群的滚动重启？

是的。ECK 3.4 在 Elasticsearch 资源上引入了两个注释：eck.k8s.elastic.co/restart-trigger（设置或更改值，例如时间戳，以启动滚动重启）和 eck.k8s.elastic.co/restart-allocation-delay（传递给 Elasticsearch 节点关闭 API 的可选持续时间字符串）。删除触发器注释不会启动新的重启。

如何在 Kubernetes 上启用 Kibana 和 Elasticsearch 之间的双向 TLS？

使用 ECK 3.4，在 Elasticsearch CRD 上设置 spec.http.tls.client.authentication: true，并通过 elasticsearchRef 从 Kibana 引用它。ECK 会自动为 Kibana 生成客户端证书，从任何标记为 eck.k8s.elastic.co/client-certificate: true 的密钥构建信任包，并为您配置 xpack.security.http.ssl.client_authentication: required。适用于 Kibana ↔ Elasticsearch 的 mTLS 在 3.4 版本中是技术预览。

ECK 3.4 的 mTLS 支持是否涵盖 Beats 和 Fleet 等所有堆栈组件？

还没有。Kibana 是首个在 3.4 版本中获得优先 mTLS 支持的堆栈组件——操作员会自动生成客户端证书。对 APM 服务器、Beats、Fleet Server、Elastic Agent、Logstash、Maps 和 Enterprise Search 的支持将在下一个版本中提供。一份新的教程详细介绍了如何为目前使用 cert-manager 的组件手动配置 mTLS。

ECK 支持 FIPS 140-3 吗？

是的，在单独的操作员图像中。ECK 3.4 发布了支持 Go FIPS 140-3 原生版本的 FIPS 风格的版本（docker.elastic.co/eck/eck-operator-fips:3.4.0，外加 UBI 变体）。标准 eck-operator 图像保持不变。对于 Elasticsearch 9.4.0 或更高版本，当设置 xpack.security.fips_mode.enabled: true 时，ECK 还会自动生成并挂载符合 FIPS 标准的密钥库密码。

为 Elasticsearch 注入活力：添加对原生 Prometheus API 的支持

Felix Barnsteiner — Mon, 11 May 2026 00:00:00 GMT

将任何与 Prometheus 兼容的客户端指向 Elasticsearch，直接对照现有指标运行 PromQL。Elasticsearch 正在以技术预览版形式添加原生 Prometheus 查询、发现及元数据终端，这些终端适用于通过 Prometheus Remote Write、OpenTelemetry 或批量 API 采集的指标。API 运行在 Elasticsearch 的时序数据流 (TSDS) 之上，因此无需额外维护独立的 Prometheus 专用存储层。

本文解释了查询、发现和元数据终端如何基于先前的摄取和查询工作，共同构成该 API 接口表面。多篇配套文章对各个部分进行了更深入的探讨：

ES|QL 中的原生 PromQL 支持涵盖了如何将 PromQL 查询转换为 ES|QL 执行计划。
使用 Remote Write 将 Prometheus 指标发送到 Elasticsearch，涵盖了数据摄取设置。
How Prometheus Remote Write Ingestion Works in Elasticsearch 一文介绍了 Prometheus 远程写入的摄取内部机制。

这项工作仍在进行中。以下各节列出了目前支持的部分以及仍在发展的部分。

API 接口表面

如今，与 Prometheus 兼容的 API 接口表面分为三类。

查询终端

查询终端允许 Prometheus 兼容客户端评估 PromQL 表达式：

GET /_prometheus/api/v1/query_range 在一个时间窗口内（矩阵结果）评估 PromQL 表达式。
GET /_prometheus/api/v1/query 在单一时间点评估（向量结果）。当前实现为返回最后一个样本的短范围查询。

目前查询终端仅支持 GET 方法。某些客户端默认使用 POST 请求，因此您可能需要将其配置为使用 GET 请求。Prometheus 的 POST 约定使用 application/x-www-form-urlencoded 主体，Elasticsearch 的 HTTP 层会在请求到达处理程序之前将其拒绝，以防止 CSRF 攻击。

有关 PromQL 的完整覆盖状态，请参阅 ES|QL 中有关 PromQL 的配套文章。

元数据终端

元数据终端提供客户端进行自动补全、变量下拉列表和指标浏览所需的发现信息。

系列、标签和标签值终端均接受 match[] 选择器和时间范围（start/end）。参数 match[] 接受一个 Prometheus 系列选择器（如 http_requests_total{job="api"}），并将响应限制为匹配的时间序列。这确保了在具有大量指标的集群上，响应速度快且相关性高。例如：

GET /_prometheus/api/v1/series?match[]=http_requests_total{job="api"}

GET /_prometheus/api/v1/labels?match[]=http_requests_total

GET /_prometheus/api/v1/label/instance/values?match[]=http_requests_total{job="api"}

第一个返回 http_requests_total 中符合 job="api" 条件的所有系列及其完整标签集。第二个仅返回 http_requests_total 系列中存在的标签名称。第三个仅返回匹配序列中出现的 instance 值。

GET /_prometheus/api/v1/metadata 有所不同：它返回每个指标的类型和单位，并可通过 metric 参数按名称筛选。

GET /_prometheus/api/v1/metadata?metric=http_requests_total

它不接受 match[] 选择器或时间范围。在 Prometheus 中，元数据是从活动抓取目标（它们公开的 HELP、TYPE 和 UNIT 行）收集的，因此响应不涉及数据扫描。Elasticsearch 没有那样的专用元数据存储，因此当前实现通过访问最近 24 小时的时间序列数据来发现指标元数据。这样可以保持快速查询，而无需进行完整的索引扫描。该 24 小时回看窗口是固定的：Prometheus 元数据 API 不公开 start 或 end 参数，Elasticsearch 无法利用这些参数来实现用户可调。

元数据终端的工作原理，包括支持它们的 TS_INFO 和 METRICS_INFO 命令，已在下方详细说明。

索引预过滤

所有查询和元数据终端都接受 /_prometheus/ 之后的可选 {index} 路径段：

GET /_prometheus/metrics-prod-*/api/v1/query_range?query=up&start=...&end=...

这限制了在任何表达式评估开始之前，查询针对哪些 Elasticsearch 索引运行。在跨团队或环境拥有大量数据流的集群中，这避免了扫描无关索引，并能显著降低查询延迟。您可以为每个索引模式配置单独的数据源，以便团队获得对其自身指标的限定访问权限。

关于远程写入的说明

对于数据摄取，Elasticsearch 还公开了标准的 Prometheus Remote Write 终端：

POST /_prometheus/api/v1/write 通过 Prometheus Remote Write v1 协议摄取时间序列。v2 暂不支持。

Remote Write 将数据写入 Elasticsearch 的现有时序数据流 (TSDS)，而不是一个单独的 Prometheus 特定存储层。Prometheus 标签变成 TSDS 维度，而度量名称变成索引映射中的字段。远程写入架构文章详细介绍了完整的映射，包括如何推断指标类型以及如何使用 labels. 前缀存储标签。

运作方式

在底层，所有终端的工作方式相同：解析传入的 HTTP 参数，构建 ES|QL 查询计划，针对时序数据流执行，并将列式结果转换回 Prometheus 客户端期望的 JSON 格式。

TS_INFO 和 METRICS_INFO

元数据终端需要回答诸如“存在哪些标签？”或“定义了哪些指标类型？”等问题，要在可能数百万个时间序列中完成，而无需扫描每个数据点。

在内部实现上，Prometheus 元数据终端会通过围绕两个新的处理命令 METRICS_INFO 和 TS_INFO 构建 ES|QL 计划，来回答这些问题。您无需直接使用这些命令即可使用 Prometheus API，但它们是元数据响应背后的核心执行原语。两者都通过每个时间序列仅访问一个文档来提取其元数据，而不是扫描所有样本。这意味着它们的成本与不同时间序列的数量成正比，而不是与数据点的数量成正比。

METRICS_INFO 为每个不同的指标返回一行，包含其名称、类型、单位和关联的维度字段。TS_INFO 更加细粒度：为每个（指标，时间序列）组合返回一行，将实际的维度值作为一个 JSON 对象包含在内。

TS metrics-*
| METRICS_INFO
| SORT metric_name

一篇关于 TS_INFO 和 METRICS_INFO 的专门博客文章即将推出，内容将涵盖两阶段执行模型、它们的扩展方式，以及如何在 ES|QL 查询中直接使用它们，而不仅仅是通过 Prometheus API。

元数据终端如何使用它们

每个元数据终端都会都以这些命令之一为核心构建 ES|QL 计划。

/api/v1/labels /api/v1/series 使用 TS_INFO，因为它们需要按时间序列的详细信息（存在哪些标签，每个系列由哪些维度值标识）。/api/v1/metadata和/api/v1/label/__name__/values使用METRICS_INFO，因为它们只需要每个指标的信息（指标名称、类型、单位）。

/api/v1/label/{name}/values 对于常规标签（除 __name__ 之外的任何标签），则不使用这两个命令。如 job 或 instance）的常规标签是索引中的实际维度字段，因此终端可以直接使用分组聚合来查询它们。当提供 match[] 选择器时，它们将转换为 WHERE 子句，在聚合运行之前对时序进行筛选。

__name__ 标签需要一种不同的策略，因为它并不总是作为维度字段存在。Prometheus Remote Write 确实存储 labels.__name__，但通过其他路径（OpenTelemetry、批量 API）摄取的指标则不会。指标名称被编码在字段名称本身中（例如 metrics.http_requests_total）。您可以通过查看索引映射来枚举字段名称，但仅凭映射无法告诉您哪个指标具有哪些维度，也无法通过 match[] 选择器的标签值进行筛选。METRICS_INFO 可以同时执行两项操作：跨索引枚举指标名称，同时使用上游 WHERE 筛选器。

在所有情况下，API 层都会将转换处理回 Prometheus 约定：去除 labels. 和 metrics. 存储前缀，并为缺少它的非 Prometheus 指标合成 __name__。

结语

结果：任何兼容 Prometheus 的客户端都可以通过其已经理解的终端来查询和探索 Elasticsearch 指标。Remote Write 指标、OpenTelemetry 指标以及通过其他途径索引的指标，都将通过同一 API 呈现，并由相同的 TSDS 索引提供支持。

本文提及的所有 Prometheus API 目前在 Elasticsearch Serverless 中以技术预览版形式提供。对于自管型集群和 Elastic Cloud Hosted 部署，除 GET /_prometheus/api/v1/metadata 外，其他 API 在 Elasticsearch 9.4 中以技术预览版形式提供。要在本地进行实验，请使用 start-local。

个性化电子商务搜索：整合购买历史记录和用户群组

Alexander Marquardt, Honza Král, Taylor Roy — Mon, 11 May 2026 00:00:00 GMT

本系列的第 1 至第 5 部分介绍了一个受治理控制平面，它在查询产品目录之前，完成意图分类、约束强制执行、策略冲突解决以及路由到适当的检索策略。到目前为止描述的所有机制都等同对待所有购物者。无论购物者是素食者、为孩子购买生日礼物的家长，还是遵守清真饮食规定的消费者，搜索“巧克力”都会产生相同的结果集。

本文介绍了两种个性化机制，它们可在不改变治理控制平面架构的前提下对其进行扩展。这两种机制与第 1 至第 5 部分的治理层叠加：策略仍会触发，约束仍会执行，冲突仍会解决，个性化信号被组合成同一治理查询，确保 Elasticsearch 返回的结果已经个性化。

第一种机制会提升购物者之前购买过的产品。第二种机制则根据购物者资料激活针对特定群组的策略。两者共同表明：个性化并非一个独立于搜索之外、或作为检索后处理来附加的系统，而是策略驱动的控制平面的一种自然扩展。

如需深入了解本文中使用的个性化技术的数学原理，请参阅《无需 ML 后处理的 Elasticsearch 个性化搜索》和《Elasticsearch 中基于群组感知的排名》。

要观看关于如何使用购买历史记录提升回头客搜索结果的现场演示，请观看视频：可解释的个性化：利用购买历史记录提升搜索结果。

个人购买历史记录提升

最简单的个性化推荐方式也是最有效的之一：如果购物者之前购买过某款产品，当他们搜索相关商品时，就提升该产品。一个经常购买某品牌巧克力曲奇的购物者，在搜索“曲奇”时，应该看到这些曲奇排名更靠前——这不是因为模型预测了偏好，而是因为有直接的行为证据。

运作方式

当搜索请求包含用户标识符（例如用户处于已开启的会话中）时，控制平面会使用线程池并行运行两个 Elasticsearch 查询：

针对策略索引的 percolator 查询（即第 3 和第 4 部分中描述的治理查找）。
对 user_purchases 索引进行购买历史记录查询，通过 term(user_id) 过滤到特定用户，然后将当前搜索字符串与该用户的产品标题进行匹配。

这两个查询并发执行（互不等待），因此个性化查找不会显著增加治理管道的延迟。

在将当前搜索字符串与存储的产品标题进行匹配时，购买历史记录查询使用 Elasticsearch 的文本分析（提取词干、词汇切分）。这意味着，通过标准文本分析，搜索“曲奇”时，系统会匹配到过去购买的“布朗尼曲奇”，而无需进行精确的字符串匹配。

计算提升权重

并非所有过去的购买都应获得相同的提升。权重考虑了两种直观因素：购物者购买该产品的频率，以及最近购买时间。上周购买 15 次的产品，其信号强度远高于六个月前仅购买过一次的产品。权重计算采用频率的对数缩放（避免单一高频购买产品压倒其他一切产品），以及近因的指数衰减（使较早的购买随时间自然弱化）。

有关提升公式的数学细节，请参阅《无需 ML 后处理的 Elasticsearch 个性化搜索》。

如何成为查询的一部分

购买历史记录提升作为最外层的评分层被组合到查询中，包裹了第 3 和第 4 部分的治理策略筛选器和提升，以及任何业务信号提升，例如利润和热度（我们将在第 7 部分探讨）。这意味着由治理策略移除的产品不会因购买历史记录的提升而重新出现。治理控制结果集；个性化 调整其中的排序。没有任何购买历史记录的产品不会被降权。它们的治理排名保持不变，但在其他条件相同的情况下，具有相关购买历史记录的产品会排在它们上面。

为什么每次搜索都要查询 Elasticsearch？

每次搜索时，购买历史记录都会从 Elasticsearch 中查询，而不是缓存在应用程序层中。这是一个经过深思熟虑的设计选择。由于查询通过 Elasticsearch 的文本分析管道匹配当前的搜索字符串与产品名称，系统受益于与产品搜索本身相同的词干提取、词汇切分和语言处理。缓存内存中的查找需要重新实施该分析，或接受更粗糙的匹配。

要了解为什么这种排序很重要，可以考虑一位以前购买过橙汁但现在正在搜索“橙子”的购物者。购买历史记录查询通过文本分析将“橙汁”与搜索词“橙子”进行匹配，并为该产品计算提升。但治理层已经将“橙子”限制在农产品类别中，完全过滤掉了橙汁。查询中包含针对橙汁的购买历史记录提升，但由于受控结果集中没有匹配的文档供其作用，因此该条件无效。购物者看到的是新鲜橙子，按相关性和个性化排序。治理机制依然有效。

性能成本极低：购买历史记录索引很小（一个用户的购买历史记录通常只有几十到几百个文档，而非数百万），并且查询与 Percolator 查找并行运行，因此不会延长关键路径。

无用户历史记录时搜索“spring water”的示例

如果未登录用户或从未购买过“spring water”的用户搜索，他们可能会看到类似以下的结果：

用户购买历史记录示例

另一方面，一位名叫 Carol 的用户的购物历史包含以下产品：

使用上述购买历史记录搜索“Spring water”的示例

如果 Carol 搜索“spring water”，她将看到反映她过去购买记录的个性化结果。从上面的购买历史来看，她购买了“Carbonated Spring Water”（绿色瓶子）约 40 次，最近一次购买是两天前。如果她搜索“spring water”，我们知道她喜欢这个产品，因此该产品会被提升。请注意，在非个性化结果中，Rubicon spring water 反而成为了第一个匹配项。

群组意识策略激活

个人购买历史记录对具有既定行为的回头客很有效。但许多购物者都是新用户、匿名用户，或在常规模式之外浏览。对于这些购物者来说，群组成员身份提供了一种不同类型的个性化服务，这种服务基于购物者的身份，而不是他们过去的行为。

一个素食者搜索“巧克力”时，应该看到素食巧克力排名更高。一个清真饮食者搜索“零食”时，应该突出显示清真认证的选项。一个注重健康的购物者搜索“酸奶”时，应该提升益生菌选项。

群组作即策略，而非产品标签

产品已带有其常规属性，包括 dietary_restrictions: ["vegan"] 或 dietary_restrictions: ["halal"] 等字段。问题在于，连接购物者群组与这些产品属性的逻辑应该放在哪里。

天真的做法是在应用层或搜索模板中硬编码该映射：如果用户是素食者，则在 dietary_restrictions: "vegan" 上添加提升。但这与第 1 部分中描述的应用层杂乱无章的情况相同，也会造成同样的运营摩擦：添加新群组或更改群组的含义都需要修改代码。

受治理控制平面将群组逻辑保留在策略引擎中。群组策略将两项内容关联起来：购物者的群组成员身份（例如“素食者”）和产品属性（例如 dietary_restrictions: “vegan”）。策略定义了连接：当素食者群组中的购物者进行搜索时，提升包含 dietary_restrictions “素食者”的产品。

由于群组逻辑存在于策略引擎而非应用代码中，这意味着：

添加新群组只需创建新策略，无需重新索引产品。
群组策略使用完整的规则引擎：它们可以添加过滤器、应用软提升、扩展同义词、更改检索策略，或执行策略可以采取的任何其他操作。
群组行为通过与其他所有策略相同的管理界面进行管理：运营人员可以通过第 2 部分中描述的“编写 → 测试 → 推广”工作流来创建、测试和推广群组策略。

素食群体政策示例

运营人员制定了一项具有以下特征的群组策略：

队列：["vegan"]。
匹配标准：匹配任何查询（或特定产品类别）。

动作：对 dietary_restrictions: "vegan" 进行软提升，提升权重为 2。

群组激活的工作原理

每份策略文档都有一个 cohorts 字段。适用于所有购物者（无论群组如何）的通用策略可以将此字段留空，控制平面将在内部为其分配 "_all" 的值。群组特定策略存储其目标群组的名称，例如 ["vegan", "kosher", “sweet_tooth”]。

当搜索请求包含用户资料时，控制平面为 percolator 查询构建一个简单的 terms 筛选器：

{ "terms": { "cohorts": ["_all", "vegan", "health_conscious"] } }

这个单一筛选器包含所有通用策略以及用户特定群组的策略。_all 哨兵使其成为一个简洁的包含筛选器：无需 must_not 或 exists 查询来处理策略没有群组限制的情况。

然后 percolator 照常评估策略匹配。唯一的区别是候选策略集已被缩小到与该购物者的群组相关的那些策略。所有下游操作（级联转换、按字段冲突解决、消费短语跟踪）与第 3 部分和第 4 部分所描述的非个性化流程完全相同。

非素食（标准）用户搜索“巧克力”的结果

当非素食用户搜索巧克力时，搜索结果不会应用素食用户群体的推荐提升。他们经常在热门搜索结果中看到非素食巧克力，具体如下：

搜索“巧克力”时显示的素食者群组策略结果

当素食群组购物者搜索“巧克力”时，此策略会包含在 percolator 候选集中。它与之匹配，控制平面会对经过素食认证的巧克力进行软提升。该提升是乘法性的：素食巧克力排名更高，但非素食巧克力不会被完全排除，因为上述筛选器被定义为软性提升，我们在本系列的第 3 部分对此进行了详细描述。

不过，如果购物者明确搜索“好时牛奶巧克力”，素食提升效果仍然有效，但可能会被“好时牛奶巧克力”产品更强的文本相关性所抵消。

对于那些不在素食群组范围但搜索相同关键词的购物者而言，他们永远不会看到“素食群组”策略；该策略不在他们的候选集中。治理层完全相同，只是激活的策略集不同。

有购买历史记录的群组

一位拥有丰富购买历史记录的素食购物者，会同时获得针对素食者群组的策略激活以及基于其购买历史记录的产品提升。对于新用户或匿名购物者，仅隐含的群组成员资格即可提供有意义的个性化设置，无需任何行为数据（例如，一个匿名用户只搜索过素食产品，那么我们可以将其归类为素食群组成员）。一个在创建账户时自我标识为清真饮食者的购物者，在第一次搜索时就会立即获得清真定制的结果。

个性化层的组合方式

function_score层的嵌套顺序很重要。从最内到最外：

基本查询：带有命名查询（fulltext_match、title_phrase_match）的关键词或语义匹配。
治理政策层：硬过滤作为bool.filter 条款，软提升作为function_score 功能（第 3 和第 4 部分）。
业务信号提升：利润和热度提升（我们将在第 7 部分探讨）。
购买历史记录提升：最外层的 function_score 层。

这种排序方式可确保治理层控制结果集（显示什么内部），业务信号调整该集合内的排名（从零售商角度看什么显示在前面），而购买历史记录则根据个人行为进一步调整排序（从购物者的角度看什么显示在前面）。每一层以乘法方式包裹前一层，因此效果是叠加而非冲突。

这在运营层面上意味着什么

通过受治理的控制平面进行个性化，保留了第 1 和第 2 部分中描述的所有运营属性：

零部署变更。群组策略通过管理界面创建、测试和推广。新增饮食偏好群组或调整提升权重，无需修改代码，也不需要工程师介入。
可审计性。每个群组策略都是一个离散、版本化的文档。当运营人员询问“为什么这个用户的素食产品排名更高？”时，答案是一个具有特定优先级的特定策略，可以在调试面板中与该查询触发的所有其他策略一起看到。
冲突解决。群组策略第 3 部分中描述的相同按字段冲突解决机制。如果群组策略的类别提升与营销活动策略的类别覆盖冲突，冲突会由相同的优先级和策略框架确定性解决，无需特殊处理。
可衡量性。由于群组策略是离散且可以单独切换，它们对转化率、点击率和加购率的影响可以独立衡量，就像系统中任何其他策略一样。

本系列内容预告

下一篇文章将探讨受治理控制平面的另一个维度：如何通过策略按查询调整利润和热度提升，将经济优化转变为治理决策，而非静态配置。

参见第 7 部分：查询治理的经济优化：按查询的利润与热度提升

将受治理的电子商务搜索付诸实践

本文介绍的个性化模式（个人购买历史记录提升和群组感知策略激活）由 Elastic Services Engineering 设计并构建，是我们可复用的电子商务搜索加速器的一部分。这两种机制都与本系列中描述的受治理控制平面架构集成。请联系 Elastic Professional Services。

加入讨论

对搜索治理、检索策略或电子商务搜索架构有疑问？加入更广泛的 Elastic 社区讨论。

一个索引，涵盖所有媒体：jina-embeddings-v5-omni 正式发布

Scott Martens — Mon, 11 May 2026 00:00:00 GMT

jina-embeddings-v5-omni 将文本、图像、视频和音频整合到单个 Elasticsearch 索引中。v5-omni 套件扩展了同类最佳的jina-embeddings-v5-text 模型，通过创新的架构增加了视觉和音频编码，使文本主干完全相同，在一个非常紧凑的嵌入模型中提供了前沿的性能。

您现在可以为文本、图像、视频和录音创建高性能语义嵌入，涵盖近 100 种语言，并将它们用于分类、聚类、语义相似度测量和检索索引。如果您的数据以 PDF、录音、视频和文本的形式存在，您不再需要为每种格式单独建立数据管道。

jina-embeddings-v5-omni 系列是目前市场上最紧凑的嵌入模型，支持图片、语音、文本和视频。它提供：

jina-embeddings-v5-text的前沿级文本嵌入，用于检索、分析和 AI 代理应用。
用于视觉语义相似性、视觉理解和图像检索的同类最佳嵌入 。在所有参数规模为 10 亿（10⁹）的模型中，jina-embeddings-v5-omni-small 在图像基准测试中表现最佳，且优于我们之前的 jina-clip-v2 。只有少数几个具有 3 到 30 倍参数的模型可以击败它。
用于多语种视觉理解和检索的最先进嵌入技术，可击败规模比它大 20 倍的模型。
同类最佳的音频嵌入，在标准基准测试中，只有参数量是其两倍或更多的模型才能表现得更好。
支持视频，特别擅长定位视频片段中的物体和事件。

这项技术可应用于信息检索、文档处理和数据分析等各个领域。jina-embeddings-v5-omni 可打破存储在不同媒体孤岛中的信息壁垒，使其能够被 AI 智能体进行检索、分析和利用。在您的数据生态系统中，音频和视频、PDF、打印页面的扫描件以及信息图表中的信息，都与数字化文本处于同等地位。

和 jina-embeddings-v5-text 一样，这些模型有两种尺寸：small 和 nano。这两个模型都在其对应的纯文本版本基础上，通过增加额外的模块，实现了对音频和视觉输入的支持用户可以在加载时选择模块。此外，针对语义相似度、分类、聚类和信息检索等特定任务的扩展功能通过紧凑的低秩适配器 (LoRAs) 实现；这些适配器均已预载，用户可以在推理时直接选择使用。

两个模型的尺寸都非常精简。jina-embeddings-v5-omni-small 可以在配备常规 GPU 的服务器上运行，而 jina-embeddings-v5-omni-nano 的体积很小，可以在通用硬件上运行。这意味着可以节省大量的计算成本，并使得获得许可的本地安装及边缘处理成为可能，从而降低延迟并增强对自身数据的控制。

v5-omni 套件采用创新的模型设计和机器技术，能够通过已有的预训练模型来组合成新的嵌入模型，无需对它们进行重新训练。我们使用来自预训练且经过语言对齐的嵌入模型的编码器作为音频和视频媒体的输入预处理器，用于我们现有的 jina-embeddings-v5-text 模型套件。生成的模型能够为图像和录音生成嵌入，这些嵌入在语义上与其为文本生成的嵌入是兼容的。

v5-omni 模型生成的文本嵌入与 jina-embeddings-v5-text 相同（即，jina-embeddings-v5-omni-small 与 jina-embeddings-v5-text-small；以及 jina-embeddings-v5-omni-nano 与 jina-embeddings-v5-text-nano），因此您可以将现有的文本检索存储库扩展到多媒体应用程序，而无需重建索引。

集成的编码器全部源自开源权重模型。对于图像和视频，我们使用来自 Qwen3.5 模型的编码器：

对于jina-embeddings-v5-omni-nano ，我们使用来自 Qwen3.5-0.8B 中经过微调的 SigLIP2 Base 编码器。
对于 jina-embeddings-v5-omni-small ，我们使用来自 Qwen3.5-2B 中经过微调的 SigLIP2 So400m 编码器。
为了实现音频支持，我们为 small 和 nano 版添加了从 Qwen2.5-Omni-7B 中提取的 Whisper-large-v3 编码器。

我们通过训练跨模态投影器，将这些媒体专用的编码器与文本处理主干网络连接了起来。这些投影器将其原生输出转换为与 jina-embeddings-v5-text 兼容的输入嵌入。jina-embeddings-v5-omni 模型中唯一新训练的部分是这些投影器中的权重。

这种架构意味着我们只需要为四个 LoRA 适配器中的每一个训练跨模态投影器，其参数量在 jina-embeddings-v5-omni-small 模型中约为 550 万，在 jina-embeddings-v5-omni-nano 模型中则低于 350 万。这种方法可最大限度地减少连接不同嵌入模型所需的额外训练，通过利用各模型原有的专业化训练成果，打造出了一套极其精简、高性能且模块化的嵌入套件。

选定的模型属性

输入/输出

型号名称	输入上下文窗口大小	嵌入大小
jina-embeddings-v5-omni-small	32,768 个词元*	1024 维（最小值：32）
jina-embeddings-v5-omni-nano	8,192 个标记*	768 个维度（最小值：32）

* 请参见下文的 使用 jina-embeddings-v5-omni 部分，了解非文本媒体如何进行切片化的更多信息。

大小

型号名称	总大小
jina-embeddings-v5-omni-small（纯文本基础模型 + 4 个 LoRA 适配器）	700M 参数
图像/视频支持（SigLIP2 So400m 编码器提取自 Qwen3.5-2B）	1.006B 参数
音频支持（Whisper-large-v3 编码器提取自 Qwen2.5-Omni-7B）	1.354B 参数
亦或是两种情况都有	1.660B 个参数
LoRA适配器（每个）	20M
jina-embeddings-v5-omni-nano（纯文本基础模型 + 4 个 LoRA 适配器）	266M 参数
图像/视频支持（SigLIP2 Base 编码器提取自 Qwen 3.5-0.8B）	354M 个参数
音频支持（Whisper-large-v3 编码器提取自 Qwen2.5-Omni-7B）	916M 参数
亦或是两种情况都有	1.004B 个参数
LoRA适配器（每个）	7M

* 请参见下文的 使用 jina-embeddings-v5-omni 部分，了解非文本媒体如何进行切片化的更多信息。

特定任务训练

jina-embeddings-v5-omni 系列支持与 jina-embeddings-v5-text 相同的任务专用 LoRA 适配器：

任务	示例用法
检索	信息检索既可以独立使用，也可以结合其他检索和候选评估技术共同使用。借助 v5-omni 模型，您只需通过一个索引、一次查询，即可同时检索音频、视频和图像。
聚类	跨所有媒体的主题发现与自动主题组织。
分类	分类、情感分析和相关任务。
语义相似度	跨媒体数据去重、推荐系统、相关媒体、查找与语音匹配的文本、识别翻译以及类似任务。

输出嵌入取决于选定的任务类别。例如，您不应该将检索导向的嵌入用于聚类任务，也不应该将语义相似度的嵌入用于分类任务。

多媒体、多模态、多语言、多功能

为了展示 jina-embeddings-v5-omni 的功能，我们以两部小说的著名开篇为例，并测量它们的语义相似度：

《双城记》（查尔·狄更斯）

It was the best of times, it was the worst of times, it was the
age of wisdom, it was the age of foolishness, 
it was the epoch of belief, it was the epoch of incredulity,
it was the season of Light, it was the season of Darkness,
it was the spring of hope, it was the winter of despair,
we had everything before us, we had nothing before us,
we were all going direct to Heaven, we were all going
direct the other way—in short, the period was so far like
the present period, that some of its noisiest authorities
insisted on its being received, for good or for evil, in 
the superlative degree of comparison only.

《傲慢与偏见》（简·奥斯汀）

It is a truth universally acknowledged, that a 
single man in possession of a good fortune must
be in want of a wife. However little known the
feelings or views of such a man may be on his first
entering a neighbourhood, this truth is so well
fixed in the minds of the surrounding families,
that he is considered as the rightful property of
some one or other of their daughters.

使用 jina-embeddings-v5-omni-small及其语义相似度适配器，这些文本的相似度为 0.5329。

如果不进行对比，这个数值就没有太大意义。因此，让我们使用相同的模型和适配器，将这两段文本与它们的法语翻译版本进行对比：

跨语言文本的语义相似度分数

	《双城记》（英语）	傲慢与偏见（英语）
《双城记》（法语）（《Paris et Londres en 1783》，翻译：H. Loreau）	0.9095	0.5074
《傲慢与偏见》（法语）（《Orgueil et Préjugés》，翻译：Leconte 和 Pressoir）	0.4826	0.8784

这两段文本与其对应的翻译版本之间表现出了极高的相似度，远高于它们与同语言或其他语言下的不同文本之间的相似度。这反映了 jina-embeddings-v5-text-small 极其出色的多语言语义嵌入性能，而这一性能已被原封不动地整合进了 jina-embeddings-v5-omni-small 中。

向 jina-embeddings-v5-omni 增加多媒体支持，意味着我们可以将这一实验扩展到完全不同类型的数据上。例如，我们从旧印刷版本中获取了两本小说的第一页扫描图：

图 2：《双城记》，19 世纪无日期版本；《傲慢与偏见》，1903 年麦克米伦版。

让我们再次使用语义相似度适配器，将文本与扫描件进行比较：

文本和图像之间的语义相似度评分

	双城记》（扫描版）	《傲慢与偏见》（扫描版）
《双城记》（文本）	0.7336	0.4891
《傲慢与偏见》（文本）	0.4804	0.7213

您会发现，语义相似度分值明显更倾向于那些与图像内容相匹配的文本。

我们还可以将文本与引用这些文本的社交媒体帖子和模因的截图进行比较，并使用相同的设置：

图 3：Elon Musk 引用《双城记》的推文，以及引用《傲慢与偏见》著名开篇的表情包。

文本和图像之间的语义相似度评分

	双城记	傲慢与偏见
马斯克推文（图片）	0.7156	0.4912
Keep Calm 梗图（图片）	0.4555	0.6244

我们也可以对语音执行相同的操作。我们获得了两种文本的英语和法语朗读录音：

跨语言的文本与音频之间的语义相似度分值

	双城记（英语音频）	双城记 (法语有声)	傲慢与偏见（英语音频）	傲慢与偏见（法语配音）
《双城记》（英文文本）	0.3816	0.3106	0.1607	0.1774
《双城记》（法语文本）	0.3528	0.3253	0.1598	0.1721
《傲慢与偏见》（英语文本）	0.1910	0.1682	0.3511	0.3398
《傲慢与偏见》（法语文本）	0.1667	0.1474	0.3018	0.3702

这种多语言和多媒体能力也延伸到信息检索。

jina-embeddings-v5-omni 模型的检索适配器实现了非对称检索。这意味着它们嵌入查询的方式与嵌入检索目标文档的方式不同，因此跨模式查询总是具有“方向性”的，即查询在一种媒体中，文档在另一种媒体中，这导致如果您将两者调换（即反向查询），得到的分值也会有所不同。

下表显示了《双城记》和《傲慢与偏见》的文本、音频和页面扫描图像的检索得分，其中《双城记》的文本（英文）被编码为查询：

（文本搜文本）

文档	检索得分
《双城记》（法语文本节选）	0.7597
《傲慢与偏见》（英文文本节选）	0.1482
《傲慢与偏见》（法语文本节选）	0.0523

文本搜图像

文档	检索得分
《双城记》（英文页面扫描件）	0.5517
《双城记》（法文版扫描）	0.3576
《傲慢与偏见》（英文版扫描图）	0.1917

文本到音频

文档	检索得分
双城记（英语音频）	0.3277
双城记 (法语有声)	0.1980
傲慢与偏见（英语音频）	0.1419
傲慢与偏见（法语配音）	0.1759

用户还可以反向运行查询，进行音频搜文本和图像搜文本的检索。

以下是使用《双城记》的英语音频作为查询以及各种文本作为文档的分数：

图片搜文本

文档	检索得分
《双城记》（英文文本节选）	0.3352
《双城记》（法语文本节选）	0.2650
《傲慢与偏见》（英文文本节选）	0.1626
《傲慢与偏见》（法语文本节选）	0.1385

使用《双城记》（英文）第一页扫描页作为查询得出的分数：

音频转文本

文档	检索得分
《双城记》（英文文本节选）	0.5304
《双城记》（法语文本节选）	0.4845
《傲慢与偏见》（英文文本节选）	0.1467
《傲慢与偏见》（法语文本节选）	0.0761

视频搜索

jina-embeddings-v5-omni的视频索引与搜索功能为 Elasticsearch 数据库带来了新的能力，但它也受到许多与处理文本时相同的限制/警告约束。为一部长篇电影生成单一的嵌入就像为一部长篇小说生成单一的嵌入一样：详细的信息会被淹没，导致生成的嵌入可能会与许多风马牛不相及的查询产生虚假匹配。

如果您对《指环王》的全文（约 50 万字）进行嵌入，无论您搜什么，它可能都会显示“高度匹配”。同样，如果您为一部两小时的好莱坞电影编制索引，您会得到很多虚假的匹配并丢失所有细节。因此 jina-embeddings-v5-omni 是处理短视频剪辑的理想选择。

在这个示例中，我们下载了 1961 年电影《蒂凡尼的早餐》的预告片。这段预告片时长仅为 158 秒，且属于公共领域。您可以在互联网档案馆上观看这段预告片。

图 4：《蒂凡尼的早餐》剧场版海报。

我们使用 PySceneDetect 将预告片分割成 28 个独立场景，长度从 1.877 秒（45 帧）到 18.393 秒（441 帧）不等。场景检测虽然不完美，但它提供了一种足够的机制，可以将视频分割成易于检索的小片段。然后我们使用 jina-embeddings-v5-omni-small 为 28 个片段中的每个片段生成了文档嵌入，以便测试文本查询在寻找视频中特定元素的有效性。

例如，查询 “cat” 会返回以下片段作为前三个结果。包含猫的那一个场景位于顶部，得分为 0.1634：

观看片段一。

次高匹配的片段得分为 0.1237，要低得多：

观看片段二。

您还可以查询动作。如果使用字符串“kiss”进行查询，前四个匹配结果都包含亲吻动作：

观看片段三。其得分为0.2864。

分数：分别对应第二匹配项（0.2494）、第三匹配项（0.2099）和第四匹配项（0.2068）

而且您可以搜索视频中显示的文本，比如“Buddy Ebsen”，它只出现一次。jina-embeddings-v5-omni-small 能够轻松将其识别为最佳匹配项，得分为 0.3885，显著高于次佳匹配项：

巴迪·埃布森剪辑。

可视化文档检索

Jina AI 多模态嵌入模型在视觉文档处理方面表现优异，在多语言视觉文档处理方面处于最先进水平。这意味着要处理包含文本、图形和结构化信息的图像数据。重要数据通常以印刷扫描件、PDF文件、图表、技术图纸、截图、图片、信息图表等形式存在。这类图像通常是机械合成或计算机生成的。它们通常无法在不损失含义的情况下还原为文本，且不适合那些专为自然场景摄影设计的计算机视觉模型。

jina-embeddings-v5-omni的嵌入包括图像中的事物、印在图像上的文字以及两者之间的关系。视觉文档检索使得对包含物体和相关文本的丰富图像进行索引成为可能，并且可以跨语言进行索引。

我们使用来自不同电子商务网站的四张产品图片举例：

现在，让我们看看 jina-embeddings-v5-omni-small 对这四张图片在“拉面”这个查询词上的得分表现如何：

Campbell's Chunky 鸡肉面（加拿大包装）	Kraft Dinner (加拿大包装)	Maruchan 味噌口味新鲜拉面（日本包装）	Birkel 意面（德国包装）
0.0872	0.0711	0.1123	0.0886

它很快就找到了日本产品的匹配项。

现在，让我们尝试查询“マカロニチーズ”（日语的通心粉和奶酪）：

Campbell's Chunky 鸡肉面（加拿大包装）	Kraft Dinner (加拿大包装)	Maruchan 味噌口味新鲜拉面（日本包装）	Birkel 意面（德国包装）
0.2207	0.3487	0.2760	0.2674

它能像英语查询一样轻松地找到正确的匹配。

jina-embeddings-v5-omni 也擅长解读信息丰富的图像，例如图表。如需查看实际效果，请参阅以下两个柱状图：

两张图表，左边的图表 1 关于全球疾病负担，右边的图表 2 关于犬种寿命。

让我们看看使用 jina-embeddings-v5-omni-small 进行检索时，这两张图表与两个特定的文本问题（每个问题仅与其中一张图表相关）的匹配程度如何：

文本问题	图表 1	图表2
“老年人常见的健康问题有哪些？”	0.2787	0.1099
“狗能活多久？”	0.1350	0.3564

您还可以反向搜索，使用图像作为查询来查找文本。下表显示了从主题相关的科学论文摘要中提取的目标文档及其检索分数，使用图表图像作为查询：

	文本 1	文本2
	长期以来，生活在极端贫困中的人群健康一直是全球发展工作的重点，在可持续发展目标时代，这仍然是一个优先事项。然而，近二十年来，尚未有人系统地尝试量化这一特定人群中疾病负担的程度和原因。我们按病因估算了全球最贫困的十亿人口的患病率，并将其与高收入人群的相应患病率进行比较。	伴侣犬是表型多样性最为丰富的物种之一。品种间的差异不仅体现在形态和行为方面，还体现在寿命上。尽管如此，很少有研究致力于评估不同品种之间的寿命期望变化或评估长寿的系统发育特征的潜力。
图表 1	0.2377	0.1357
图表2	0.0673	0.3576

功能

可截断嵌入

我们利用 Matryoshka 表征学习技术训练了支撑 jina-embeddings-v5-omni 的骨干 jina-embeddings-v5-text 模型，因此您可以从这些模型中截断文本和多媒体嵌入。

默认情况下，jina-embeddings-v5-omni-small 生成 1024 维的嵌入，以 16 位精度存储时，每个嵌入占用 2KB 的存储空间。jina-embeddings-v5-omni-nano 的嵌入有 768 个维度，占用大约 1.5KB。您可以将这些嵌入的大小减少到 32 维（64 字节），在一定程度上牺牲了准确性，但大大提高了处理速度并降低了资源使用成本。通常情况下，将嵌入大小减半会使准确率下降约 2%，降至 128 维以下时，准确率下降速度会更快。

截断嵌入允许用户根据自身的用例，在准确性、速度和成本之间做出最佳权衡。

量化

jina-embeddings-v5-omni 系列还继承了其 jina-embeddings-v5-text骨干在量化处理下的强大性能。通过存储精度较低的数值，这能进一步提升速度，并降低计算和存储成本。我们已经训练他们使用 Elasticsearch 的 Better Binary Quantization (BBQ) ，以提供与未量化嵌入几乎相同的性能。在大规模文本嵌入基准测试 (MTEB) 检索基准套件中，二值化与完整的 16 位值相比，性能降低不到 3%，却节省了 93% 的空间，并显著提升了处理和检索速度。

跨语言性能

jina-embeddings-v5-text的广泛多语言训练延续到了 jina-embeddings-v5-omni 中，其中 jina-embeddings-v5-text-small 的预训练涵盖近 100 种语言，而 jina-embeddings-v5-text-nano 则涵盖了 15 种主要全球语言。对于音频媒体，Whisper-large-v3 模型在其训练中大约涵盖了 100 种语言，而集成在 jina-embeddings-v5-omni-small 和 -nano 中经过 Qwen 修改后的 SigLip2 视觉模型则使用来自 201 种不同语言和方言的数据进行训练。

基准性能

文本

jina-embeddings-v5-omni 模型在仅用于文本时与 jina-embeddings-v5-text 模型相同。在语义文本嵌入领域，它们在各自的参数规模类别中，均是 MMTEB 基准测试套件中的佼佼者。

图 5：与竞争模型相比，jina-embeddings-v5-omni 在文本基准测试中的大小和性能。所引用的大小未加载其他媒体的扩展。

视觉语义相似度

在标准的视觉语义相似度基准测试中，jina-embeddings-v5-omni 的得分在同等规模的模型中名列前茅。jina-embeddings-v5-omni 模型在同等规模的公开开放权重模型中表现出迄今为止最佳的性能。jina-embeddings-v5-omni-small 在视觉语义相似度任务中仅被三倍其大小的模型击败，而 jina-embeddings-v5-omni-nano 仅被 jina-embeddings-v5-omni-small 和比它大 10–25 倍的模型击败。

图 6：jina-embeddings-v5-omni-small 、jina-embeddings-v5-omni-nano 和可比模型的视觉语义相似度基准平均得分，以及它们的大小（包括视觉扩展）。

可视化文档检索

jina-embeddings-v5-omni-small 在参数量保持在 10 亿以下的同时，它的性能足以媲美参数量为 30 亿和 70 亿的模型。jina-embeddings-v5-omni-nano 在同类规模中同样表现出众，其性能甚至超越了规模比它大 10 到 60 倍的模型。

图 7：ViDoRe 视觉文档检索在六个基准测试中的平均得分：DocVQA、InfoVQA、ShiftProj、SynAI、Tabfquad 和 TatDQA。

音频检索

在标准 MAEB（大规模音频嵌入基准测）音频检索基准测试中，jina-embeddings-v5-omni-small 和 jina-embeddings-v5-omni-nano 均名列前茅。只有非常大的模型——比 jina-embeddings-v5-omni-small 大三倍以上——才能超过它的得分。

图 8：MAEB 音频检索基准测试中各种模型的平均分数。

虽然LAION的 larger_clap_general 模型在参数更少的情况下比jina-embeddings-v5-omni-nano的分数有所提升，但它是一个纯音频模型，没有v5-omni套件中额外的多模态功能。

视频

在视频方面，jina-embeddings-v5-omni-small 擅长找到视频中与文本查询匹配的位置。Charades-STA 和 MomentSeeker 测试是该任务的标准基准测试。从下方图表可以看出，尽管 jina-embeddings-v5-omni-small 的尺寸要小得多，但它在同类开放权重模型中得分最高。

图 9：不同模型的 Charades-STA 分数及大小。

图 10：不同模型的 MomentSeeker 分数及大小。

我们还将 jina-embeddings-v5-omni-small 与 ByteDance 的 Seed 1.6 进行比较，后者是一个参数规模未披露的封闭权重模型。在 Charades-STA 基准测试中，我们的模型大幅领先于 Seed 1.6；在 MomentSeeker 上我们的模型则几乎与其持平。

模型	Charades-STA 得分	MomentSeeker 分数
seed-1.6-embedding	29.30	59.30
jina-embeddings-v5-omni-small	55.57	58.93

优势与局限性

jina-embeddings-v5-omni 模型通过多种方式扩展用户对数字化信息的索引、搜索和分析能力，特别是：

从文本查询中进行多语言语音检索。
PDF、扫描和可视化文档搜索。
视频时序定位，即从视频中识别出与自然语言文本描述相匹配的部分。
音频类型分类，包括音乐类型。
基于场景信息与目标识别的图像分类。

在其他一些领域的表现则较为有限。也许可以使用 jina-embeddings-v5-omni 来完成这些任务，但我们尚未进行相关训练，结果可能不佳。

我们正在积极改进这些领域的技术：

根据自然语言描述查找特定视频。
图像到图像的语义相似度与检索。
语音中的意图分类，例如识别语音指令。
处理混合媒体输入，即图像和随附的文本，或音频、图像和文本的组合。

使用 jina-embeddings-v5-omni

此模型套件支持通过三个入口点输入：文本、音频以及图像和视频。jina-embeddings-v5-omni 运行于一个框架内，该框架可转换各种标准格式并进行其他预处理。

我们使用初始 SigLip2 版本中提供的相同 NaFlex 方法来处理图像：如果输入图像小于 262,144 像素（相当于 512x512 分辨率），则会将其放大，直到超过这个最小值；如果图像大于 3,072,000 像素，则会将其缩小，直到小于这个最大值。转换过程确保图像的高度和宽度均为 14 像素的倍数，并尽可能减少宽高比变形以实现这一目标。结果被分割成 28x28 像素的块，因此总块数是覆盖图像所需的 28x28 方块的数量。每一块在推理时被视为单个词元，并且每个图像输入都由特殊的开始和结束词元来划分单个图像。

jina-embeddings-v5-omni 模型修改视频分辨率的方式与修改图像的方式相同（见上文），我们从视频中最多提取 32 个帧。如果视频有超过 32 帧（这很可能，因为标准格式通常至少每秒 24 帧），我们会均匀分布我们提取的帧。然后，视频预处理器每两帧生成一组词元，这组词元的数量等同于覆盖视频画面所需的 28x28 像素方块的总数。

图11：jina-embeddings-v5-omni 从视频中提取 32 个等距帧。如果您的视频很长，这意味着会丢失很多内容。

有关视频预处理的更多详细信息，请参阅 Siglip 2 技术文档。

音频词元化遵循 Qwen-2.5-Omni 内置的方法：声音文件被切割成 30 秒的段落；如果长于 30 秒，则重新采样到 16kHz，转换为 128 通道的梅尔频谱图。每 40 毫秒被视为一个词元，因此每 30 秒的片段被处理为 750 个词元，每 40 毫秒音频一个词元，此外还带有专门的开始和结束标记，用以划分单个样本。

有关音频预处理的更多详细信息，请参阅 Qwen-2.5-Omni 技术报告。

可用性

开始使用

如要将 jina-embeddings-v5-omni 用于文本，您可以像使用 jina-embeddings-v5-text 一样，通过 semantic_text 字段进行集成。只需将 inference_id 设置为 .jina-embeddings-v5-omni-small 或 .jina-embeddings-v5-omni-nano 即可。请参阅参考指南以获取说明。

要使用 jina-embeddings-v5-omni 为其他媒体生成嵌入，您需要使用推理 API。例如：

POST _inference/embedding/.jina-embeddings-v5-omni-small
{
  "input": [
    {
      "content": { 
        "type": "image", 
        "format": "base64", 
        "value": "data:image/jpeg;base64,..." 
      } 
    }, 
    { 
      "content": { 
        "type": "text", 
        "value": "Some text to create an embedding" 
      } 
    } 
  ] 
}

对于 jina-embeddings-v5-omni-nano，请将 POST URI 更改为 _inference/embedding/.jina-embeddings-v5-omni-nano。

如要对其他媒体中的文档进行编码，或生成用于分类或集群的嵌入，您需要创建推理端点并使用 jinaai 服务。

对于查询，请使用如下示例中的查询构建器。将 inference_id 的值替换为 .jina-embeddings-v5-omni-nano，即可使用 nano 模型，而不是 small 模型。

POST my-index/_search
{
  "knn": {
    "field": "dense-vector-field",
    "k": 10,
    "num_candidates": 100,
    "query_vector_builder": {
      "embedding": {
        "inference_id": ".jina-embeddings-v5-omni-small",
        "input": {
          "type": "image",
          "format": "base64",
          "value": "data:image/jpeg;base64,..."
        }
      }
    }
  }
}

有关更多信息，请参阅查询生成器文档。

如要通过 jina-embeddings-v5-omni 使用 BBQ，请按照 BBQ 索引的说明操作。

用于电子商务搜索治理的 Elasticsearch percolator：将模糊查询转化为受控检索策略

Alexander Marquardt, Honza Král, Taylor Roy — Mon, 04 May 2026 00:00:00 GMT

本文将深度解析第 3 部分所述控制平面架构在 Elasticsearch 中的实现，展示如何使用 Elasticsearch percolator 构建该架构。本文还概述了在生产环境中实现确定性、受治理的策略引擎所采用的模式。

从架构到实现

第 3 部分介绍了控制平面架构：将反向匹配作为查找原语、使用策略文档分离匹配与操作，以及通过级联转换将多个策略组合成单一执行计划。本文将通过实际操作介绍驱动策略查找的 Elasticsearch 核心功能：percolator 查询。

percolator 与治理场景天然契合，因为它正是以控制平面所需的方式反转了搜索方向。本文将逐步讲解实现过程：先清晰说明 percolator 的作用及其重要性，再介绍索引设计、策略存储、查询时评估和多策略组合。

常规搜索的工作原理

在电子商务系统中，您可能拥有数十万甚至数百万个产品文档，其中包含 title、category 和 price 等字段。当用户搜索匹配文档时，实际上是在让 Elasticsearch 将用户的搜索字符串与这些产品文档中存储的一个或多个字段进行比较。作为 Elasticsearch 的默认分析器，standard analyzer（标准分析器）会将文本转为小写，并将其拆分为词元。搜索 “oranges” 会匹配 “Oranges”，因为分析器会执行小写化处理。使用包含词干提取功能的语言感知分析器时，它也会匹配 “orange”，因为这两种形式都会归约到相同的词干。例如，以下 match 查询会返回 “title” 字段中包含 “orange” 或 “oranges” 的文档。

POST products/_search
{
  "query": {
    "match": {
      "title": "oranges"
    }
  }
}

因此，对于上述查询，Elasticsearch 会返回 title 字段与 “oranges” 匹配的产品文档，结果可能包括 “Orange Fruit Spread”“Orange Juice”“Juicy oranges”“Orange Marmalade” 等。需要记住的关键点是：Elasticsearch 通常用于将搜索字符串与文档进行比较，并返回与该搜索字符串匹配的文档。

治理问题：搜索产品前先找到相关策略

如第 1 部分至第 3 部分所述，受治理的搜索系统不会将用户的搜索字符串直接发送到产品目录。它会先检查是否有策略适用于该搜索字符串。

一位商品经理决定，当有人精确搜索 “oranges” 时，结果应限制在 Oranges 类别中，从而排除 orange juice、orange marmalade 和 orange soda。这一业务决策会存储为一项策略。当用户输入 “oranges” 时，控制平面需要找到该策略，读取其指令，并相应修改针对产品目录的搜索。为此，控制平面需要确定哪些已存储的策略与该搜索字符串相关。

企业部署中可能有数百甚至数千项此类策略。使用 if/else 逻辑逐一检查这些策略，正是第 2 部分所述的应用层反模式。我们需要一种方法，将所有策略存储在一个索引中，并即时找到与给定搜索字符串匹配的策略。这正是 percolator 发挥作用的地方。

反转方向：percolator

我们之前提到，在常规搜索中，Elasticsearch 通常用于将搜索字符串与文档进行比较，并返回包含该搜索字符串的文档。

percolator 会反转这一过程。使用 percolator 时，您会拥有一个索引，其中每个文档都存储一个查询模式。随后，系统会将传入的搜索字符串与这些已存储的查询进行比对，以确定哪些已存储的查询模式被触发。

在治理场景中，“已存储的查询模式”就是策略。每项策略都包含一个模式，用于描述它应匹配哪类搜索字符串。例如，搜索字符串是精确匹配 “oranges”，还是包含 “olive oil”？传入字符串是用户的搜索文本，它会在查询时到达，并需要与所有已存储的策略模式进行比对。相关 PRISM 视频的 4:09 处对此进行了介绍。

逐步解析：搜索 “oranges” 如何找到对应策略

策略

一位商品经理编写了一项策略，用于在用户仅搜索 “oranges” 且不包含任何其他词时触发匹配。percolator 匹配后，文档的其余部分会包含控制平面用于构建产品查询的规则；在本例中，其中一条规则是将结果限制（过滤）到 Fruits 类别。

{
  "percolator": {
    "match_phrase": { "query": "START oranges END" }
  },
  "rule_type": "filter",
  "rule_args": {
    "filters": [
      {
        "field": "categories",
        "values": ["Fruits"],
        "mode": "hard_filter",
        "on_conflict": "soft_boost",
        "on_conflict_boost_weight": 1.0
      }
    ]
  },
  "priority": 0,
  "enabled": true
}

percolator 字段包含用于定义该策略何时触发的模式。在这种情况下，它会匹配短语 "START oranges END"。rule_type 和 rule_args 字段定义该策略触发时应执行的操作。START 和 END 令牌是边界标记，我们稍后会对此进行说明。

您可以在 PRISM Studio UI 中查看策略的创建方式，详情请参阅相关 PRISM 视频的 2:52 处。

用户发起搜索

购物者在搜索栏中输入 “oranges”。

控制平面检查是否存在匹配策略

在搜索产品目录之前，控制平面会拦截用户搜索字符串，用边界标记将其包裹起来，并将其发送到 percolator：

POST policies/_search
{
  "query": {
    "percolate": {
      "field": "percolator",
      "document": {
        "query": "START oranges END"
      }
    }
  }
}

字符串 "START oranges END" 会与所有已存储的策略模式进行比对。Elasticsearch 会在内部针对此字符串运行已存储的策略模式，并返回匹配项。这就是 percolator 的运行机制。系统将用户的搜索字符串与所有已存储的策略模式进行匹配，并返回匹配项。无需 if/else 语句链。无需顺序评估。匹配由索引处理。

控制平面应用策略

控制平面读取匹配策略的操作。上述策略指示控制平面将结果限制为水果类别。控制平面按如下方式构建针对产品目录的最终 Elasticsearch 查询：

POST products/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "title": "oranges" } }
      ],
      "filter": [
        { "terms": { "categories": ["Fruits"] } }
      ]
    }
  }
}

用户搜索的是 “oranges”。产品目录收到一个受 Fruits 类别约束的 “oranges” 查询。由于这一约束，Orange Juice、Orange Marmalade 和 Orange Soda 会被排除。

为什么 “orange marmalade” 不会触发 oranges 策略

假设另一位用户搜索 “orange marmalade”。控制平面会包裹该字符串并执行 percolator 匹配："START orange marmalade END"。oranges 策略的模式是 match_phrase: "START oranges END"。oranges 策略不匹配，因此不会应用该策略，结果也不会限制在 Fruits 类别中。

这就是 START 和 END 边界标记的作用。没有这些标记时，匹配 “oranges” 一词的策略可能会被 “orange marmalade” 这样的查询意外触发。通过使用 START 和 END 包裹用户的搜索字符串，并在策略模式中包含这些标记，我们可以确保该策略仅在 “oranges” 是完整搜索字符串且不包含其他词时触发。这同时符合购物者和商品经理的意图。

第二项策略：基于词干化字段的 “olive oil”

并非每项策略都需要精确字符串匹配。“olive oil” 策略会在词干化字段上匹配，因此即使存在轻微词形变化，也会触发：

{
  "percolator": {
    "bool": {
      "should": [
        { "match_phrase": { "query.stemmed": "START olive oil END" } }
      ]
    }
  },
  "rule_type": "filter",
  "rule_args": {
    "filters": [
      {
        "field": "categories",
        "values": ["Olive oils"],
        "mode": "hard_filter",
        "on_conflict": "soft_boost",
        "on_conflict_boost_weight": 1.0
      }
    ]
  },
  "priority": 300,
  "enabled": true
}

此策略的模式会匹配 query.stemmed，而不是 query。当用户的搜索字符串到达时，它会同时存储在 query 字段（精确文本）和 query.stemmed 字段中（使用词干提取分析器进行分析，该分析器会将单词归约到词干，因此 “olives” 和 “olive” 会归约为相同词干，“oils” 和 “oil” 也是如此）。该策略的模式会与字符串的词干化版本进行比对，因此即使存在轻微词形变化，也会触发。

START 和 END 边界标记同样适用于词干化字段，确保该策略仅在 “olive oil” 是完整搜索字符串时触发，而不会在它作为较长搜索字符串的一部分出现时触发。

本文其余部分将介绍让该方案可用于生产环境的实现细节：支持两种匹配模式的索引映射、高亮如何驱动短语移除和已消耗短语跟踪，以及多个冲突策略如何组合成单一执行计划。

策略索引映射

策略索引需要一个 percolator 字段来保存已存储的查询模式，还需要一个文本字段，其结构与传入搜索字符串保持一致，供 percolator 匹配。为便于理解，以下映射经过简化。生产部署更加复杂，会使用自定义分析器来处理边界标记、可变模式匹配（例如识别 “under $4” 包含货币值）以及其他类型的分析。

PUT policies
{
  "mappings": {
    "properties": {
      "percolator": {
        "type": "percolator"
      },
      "query": {
        "type": "text",
        "fields": {
          "stemmed": {
            "type": "text",
            "analyzer": "stemming"
          }
        }
      },
      "rule_type": { "type": "keyword" },
      "rule_args": { "type": "object", "enabled": false },
      "priority": { "type": "integer" },
      "enabled": { "type": "boolean" }
    }
  }
}

该索引命名为 policies，因为每个文档都代表第 2 部分中定义的一项完整受治理策略，其中包括匹配条件、操作、优先级和元数据。rule_type 和 rule_args 字段包含策略的操作组件，其中的指令将由控制平面用来组合查询，并针对产品目录执行该查询。

query 字段是 percolator 用于匹配的字符串。它有两个变体：精确版本和词干化版本。当用户的搜索字符串到达时，它会被放入临时内存索引中的这个字段。匹配 query 的策略会看到精确字符串；匹配 query.stemmed 的策略会看到词干化版本。

结合高亮、筛选和排序进行 percolator 匹配

上述简单示例展示的是最简 percolation 请求。在实际应用中，控制平面会添加高亮、过滤已禁用策略，并按优先级排序：

POST policies/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "percolate": {
            "field": "percolator",
            "document": {
              "query": "START olive oil END"
            }
          }
        },
        {
          "term": { "enabled": true }
        }
      ]
    }
  },
  "highlight": {
    "fields": {
      "query": {
        "matched_fields": ["query.stemmed"]
      }
    }
  },
  "sort": [
    { "priority": { "order": "desc" } }
  ]
}

高亮配置使用 "query" 作为字段键，并在 matched_fields 中包含 "query.stemmed"。这会告诉 Elasticsearch 的 unified highlighter 在父 query 字段上返回高亮，同时在确定要高亮哪些词元时，也考虑来自 query.stemmed 子字段的匹配项。这样一来，基于词干化字段匹配的策略仍能在原始文本上生成准确的高亮片段；控制平面需要这些片段来执行短语移除和已消耗短语跟踪。

enabled: true 筛选器可确保跳过已禁用的策略。基于优先级的 sort 可确保优先级较高的策略先返回，使控制平面能够按照正确顺序处理它们，以执行级联转换。highlight 字段是最重要的新增内容；它能准确告诉我们用户搜索字符串中的哪些词触发了每次匹配。

“olive oil” 搜索的响应可能如下所示：

{
  "hits": {
    "hits": [
      {
        "_id": "en_2c3021c8",
        "_source": {
          "rule_type": "filter",
          "rule_args": {
            "filters": [
              {
                "field": "categories",
                "values": ["Olive oils"],
                "mode": "hard_filter",
                "on_conflict": "soft_boost",
                "on_conflict_boost_weight": 1.0
              }
            ]
          },
          "priority": 300
        },
        "highlight": {
          "query": ["START olive oil END"]
        }
      }
    ]
  }
}

高亮为何重要

请注意响应中的高亮："START olive oil END"。Elasticsearch 正在准确告诉我们，用户搜索字符串中的哪些词导致了策略匹配。这并不是为了美观。高亮元数据会驱动两个关键的下游行为：

短语移除。有些策略需要在构建产品目录查询之前，从搜索字符串中移除匹配文本。例如，匹配 “cheap” 的策略会移除该词，并将其转换为价格过滤器。高亮会准确标识搜索字符串中与策略匹配的区间，因此系统知道要移除哪些内容。

已消耗短语跟踪。如第 3 部分所述，当多个策略匹配同一搜索字符串时，优先级较高的策略可能会移除优先级较低的策略也匹配到的词。通过将每项策略的高亮与当前（不断演变的）搜索字符串进行比较，系统可以检测到某个短语已被消耗，从而跳过优先级较低的策略。这样可以防止重复处理，并确保行为具有确定性。

您可以在这篇文章中详细了解高亮的工作原理。

从 percolator 匹配到执行计划

percolator 会返回一组匹配的策略。但如第 3 部分所述，查找只完成了一半。另一半是将这些匹配项组合成一个连贯的执行计划。下面以一个具体查询为例说明。

示例：圣诞活动期间的 “Cheap chocolate”

假设系统有两个有效策略：“Cheap chocolate” 策略（优先级 210）和 “Christmas chocolates” 策略（优先级 300），这两个策略均已在第 3 部分中详细介绍。

第 1 步：执行 percolator 匹配。用户搜索 “cheap chocolate”。控制平面将搜索字符串包装为 "START cheap chocolate END"，并将其发送到 percolator。有两项策略匹配：“Cheap chocolate” 策略的模式匹配短语 “cheap chocolate”；“Christmas chocolates” 策略的模式则通过词干化字段匹配 “chocolate”。

第 2 步：按优先级排序。percolator 返回两个策略，并按优先级降序排序。系统会先处理 “Christmas chocolates” 策略（300），再处理 “Cheap chocolate” 策略（210）。

第 3 步：应用级联转换。这就是第 3 部分中的 initial state → [Policy A] → state' → [Policy B] → state'' → execution plan 模型。

“Christmas chocolates” 策略（优先级 300）首先应用：

添加类别硬性过滤器：“Christmas foods and drinks”、“Christmas sweets”。
添加价格过滤器：低于 $7。
添加类别软性提升：“Advent calendars” (3x)。

接下来，“Cheap chocolate” 策略（优先级 210）会应用于修改后的状态：

尝试添加硬性类别过滤器：“Chocolates”、“Milk chocolates”；但 Christmas 策略已使用 on_conflict: override 设置该字段，因此 Cheap chocolate 类别会被丢弃。
尝试添加价格过滤器：$2，圣诞节政策将价格设置为 on_conflict: restrict，而 $2 比 $7 更严格，因此 $2 获胜。
从搜索字符串中移除 “cheap”。

第 4 步：构建 Elasticsearch 查询。控制平面将执行计划组装为针对产品目录的单个 Elasticsearch 查询：

POST products/_search
{
  "query": {
    "function_score": {
      "query": {
        "bool": {
          "must": [
            { "match": { "title": "chocolate" } }
          ],
          "filter": [
            { "terms": { "categories": ["Christmas foods and drinks", "Christmas sweets"] } },
            { "range": { "price": { "lt": 2 } } }
          ]
        }
      },
      "functions": [
        {
          "weight": 1
        },
        {
          "filter": { "terms": { "categories": ["Advent calendars"] } },
          "weight": 3
        }
      ],
      "score_mode": "sum",
      "boost_mode": "multiply"
    }
  }
}

原始搜索字符串是 “cheap chocolate”。到达产品目录的查询是一个受治理且具备意图感知能力的检索计划：“cheap” 一词已被消耗并转换为价格约束，结果限制在圣诞季节性类别中，Advent calendar 产品获得排名提升，价格上限则采用较低优先级策略中更严格的值。每一次转换都是确定性的、可追溯且可解释的。

如需快速了解这些乘数如何与 BM25 基础分数相互作用，请参阅相关 PRISM 视频的 8:45 处，其中简要讨论了乘法提升（multiplicative boosts）。

为何具备扩展性

由于这种不对称性，percolator 在此用例中非常高效：企业电子商务系统可能拥有数百万个产品，但只有数百或数千项治理策略。percolator 会将一个传入搜索字符串与那组已存储的策略模式进行比对，而不是扫描完整产品目录。开销与策略数量成正比；同时，Elasticsearch 会应用内部优化（例如从已存储的查询模式中索引词项、对布尔逻辑进行短路处理），以保持快速匹配。

添加新策略只是为一个新文档建立索引。禁用策略只是更新一个字段。无需修改代码，无需部署，无需重启。

从查找到受控检索

percolator 提供了快速反向匹配原语，让第 3 部分介绍的控制平面架构在规模化场景中切实可行。策略是一种数据，会被存储和索引，并能与传入的搜索字符串进行高效匹配。控制平面通过第 3 部分所述的级联转换和逐字段冲突解决，将匹配策略组合成受治理的执行计划。随后，检索引擎会针对产品目录执行该受治理的执行计划。

由此形成的系统可让商品经理在不改动应用程序代码的情况下创建新策略，针对代表性查询进行测试，将其推广到生产环境，并立即看到效果。percolator 让策略查找更快速；控制平面让策略组合具有确定性；受治理的工作流则让整个流程更加安全可靠。

本系列内容预告

本系列的下一篇文章会将受治理的控制平面拓展到新领域。文中将介绍一种多层搜索架构，说明如何在保持稳定分页和分面的同时，编排严格检索、宽松检索和语义检索。

将受治理的电子商务搜索付诸实践

本文介绍的基于 percolator 的控制平面，从索引映射和边界标记，到由高亮驱动的短语跟踪和级联策略组合，均由 Elastic Services Engineering 构建，是我们可复用电子商务搜索加速器的一部分。本文展示的每个查询示例和策略结构，均来自一个已针对企业级产品目录完成验证的实际运行系统。

如果您希望在 Elasticsearch 上实现一个受治理、由策略驱动的控制平面，Elastic Services 可以帮助您更快达成目标。请联系 Elastic Professional Services。

加入讨论

对搜索治理、检索策略或电子商务搜索架构有疑问？加入更广泛的 Elastic 社区讨论。

如何衡量和提升 Elasticsearch 搜索召回率：通过混合搜索将召回率从 0.43 提升至 0.75

Jeffrey Rengifo — Mon, 04 May 2026 00:00:00 GMT

词汇搜索使用 BM25 排序算法，对于各种查询来说成本低、速度快且非常有效。但它有一个盲点：无法处理与文档没有共同标记的查询。在本文中，您将准确衡量 BM25 的不足之处。我们将使用 Elasticsearch 的排名评估 API (rank_eval)，并通过添加 Jina AI 嵌入，通过 Elastic 推理服务 (EIS) 来缩小这一差距。您会看到召回分数从 0.43 提升到 0.75，并理解其原因。

什么是召回？

召回率以 0 到 1 的范围来衡量用户真正想要的文档有多少出现在搜索结果中。如果某个查询应显示三个产品，而您的搜索结果仅有两个进入前 10 名，则该查询的得分为 recall@10 = 0.67。这是一个基于集合的指标：它并不关心相关文档在这 k 个结果中的位置。位置 10 的相关文档与位置 1 的相关文档具有同等效力。高召回率意味着您不会丢失相关结果。

该图表显示了两组文档：所有相关文档（左侧）和 BM25 实际检索到的文档（前 10 个，右侧）。只有交集部分才计入召回率，找到了 prod_1 和 prod_2，而 prod_3、prod_4 和 prod_6 则完全遗漏。结果：Recall@10 = 2/5 = 0.40。

准备工作

让我们言归正传，更好地了解召回的工作原理。本演示使用 Python。您可以在配套笔记本 (notebook.ipynb) 中跟着操作，其中每个代码块都是一个可直接运行的单元。

提供的代码使用以下内容：

Elasticsearch 9.3+
Python 3.10+

pip install elasticsearch pandas plotly python-dotenv

包含 Elasticsearch 凭据的 .env 文件

ELASTICSEARCH_URL=https://your-cluster-url
ELASTICSEARCH_API_KEY=your-api-key

该数据集

我们将使用包含 1,000 种产品的产品目录，涵盖鞋类、电子产品、工具等多个类别。

每份文档有四个字段：

字段	类型
“标题”	文本
“描述”	文本
“品牌”	关键字
`类别`	关键字

该数据集加载自 dataset.csv。

词汇搜索的支持和局限性

BM25 是 Elasticsearch 和大多数搜索引擎的默认排名算法。它根据查询词在文档中的出现频率对其进行评分，并根据文档长度和这些词在整个索引中的出现频率进行调整。在此基础上，您还可以获得分析器：小写规范化、词干提取和停用词消除。查询“跑步鞋”将匹配“跑步鞋”，也可能匹配“跑步”。

这对很多查询都很有效：

“跑鞋”会立即匹配标题中包含这些确切标记的产品。
“蓝牙扬声器”会显示便携式音频产品，因为这些词语是逐字匹配的。

搜索结果具有确定性和可解释性：文档排名靠前，是因为查询词出现在其中。调试相关性很简单。

出现问题的地方

现在，让我们针对同一目录尝试这些查询：

“护肤流程”：在任何产品标题中都没有出现“流程”这个词。BM25 能够部分匹配“护肤”这一词，但面部精华液、身体精油和保湿霜等产品是用“维生素 C”、“视黄醇”或“提亮”等术语来描述的，这些术语与查询词都没有重叠。构成完整护肤流程的产品分散在索引中，没有任何共同的令牌将其关联起来。

ID: B06XX6DS3P, Score: 9.0552, Title: Replenix Retinol Smooth + Tighten Body Lotion - Collagen-Boosting, Regenerating Anti-Aging Body Cream, Reduces Appearance of Stretch Marks, 6.7 oz.

  ID: B08XMPKJ1L, Score: 5.2699, Title: Bio-Oil Skincare Body Oil (Natural) Serum for Scars and Stretchmarks, Face and Body Moisturizer Hydrates Skin, with Organic Jojoba Oil and Vitamin E, For All Skin Types, 6.7 oz

  ID: B01CY764KQ, Score: 5.0057, Title: Nike Up Or Down Men Deodorant - Pack of 2 | Long-Lasting Fragrance, Body Spray Combo for Men | Deodorant for Active Living | Nike Men's Deo Set | Ultimate Odor Protection | Grooming Essentials | Signature Nike Scent | High-Performance Men's Deodorant

“宠物旅行配件”：这是一个用例分组，而非产品类别。宠物狗背带、宠物汽车座椅和旅行笼都与此相关，但它们的描述侧重于便携性、安全性和舒适性，而非“旅行配件”。BM25 与“宠物”大致匹配，但无法区分旅行专用产品与宠物目录中的其他产品。

ID: B0BVV7BKTW, Score: 7.4371, Title: Large Foldable Travel Duffel Bag with Shoes Compartment

ID: B07TNPHYNV, Score: 6.6455, Title: 40 Pieces Christmas Bronze Jingle Bells Craft Small Bells

ID: B08R8FRW53, Score: 6.6335, Title: CUBY Dog and Cat Sling Carrier
ID: B08QMCQYGM, Score: 6.5259, Title: YTFGGY Whiteboard Pinstripe Tape 6 Rolls 1/8"
ID: B0CP3LQSWM, Score: 6.2994, Title: Portable Dog Water Bottle 32 Oz

这是一个召回问题。相关文档已存在于您的索引中。BM25 无法找到它们，因为用户的用词和文档中的词语匹配度不够高。

添加同义词有助于处理已知情况。但您无法枚举用户表达某种意图的所有方式。这就是向量发挥作用的地方。

为何要测量召回率

在解决问题之前，需要先对问题进行量化。

Recall@k 衡量有多少用户真正想要的文档出现在搜索结果中。正式来说：

Recall@k = (relevant documents found in top k) / (total relevant documents)

Precision@k 衡量前 k 个结果，以及其中有多少是实际相关的：

Precision@k = (relevant documents in top k) / k

高精度意味着您返回的结果质量较高。在电子商务领域，缺少相关产品（召回率低）通常比显示稍有瑕疵的结果（精度较低）更糟糕，因为隐藏的产品意味着销售损失。

Elasticsearch 的 rank_eval API 允许您系统地测量两者。您提供一系列查询，每个查询都有一组已评分的文档，Elasticsearch 会为您计算所有查询的指标。

设置评估

rank_eval API 需要一个评级数据集：查询与每个查询相关的文档之间的映射，以及相关性等级（0＝不相关，1＝相关，2＝高度相关）。

在笔记本中，这是判断列表：

judgments = [
    # Query 1: "running shoes" BM25 handles well (tokens appear in product titles) 
    {"query_id": "q1", "doc_id": "B09NQJFRW6", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B08JMD4LMM", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B08VRJ6F2Q", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B07S8NRRWR", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B01HD620I8", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B07DX86321", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B0968YVLQ8", "grade": 1, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B093QJ39ZS", "grade": 1, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B096FGSC39", "grade": 1, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B01GVQWVV2", "grade": 1, "query": "running shoes"},

    # Query 2: "skincare routine" intent-based, "routine" never appears in product titles
    {"query_id": "q2", "doc_id": "B08XMPKJ1L", "grade": 2, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B0BN3WQB92", "grade": 2, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B0BT7B7P5T", "grade": 2, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B00NPA2WEY", "grade": 2, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B06XX6DS3P", "grade": 1, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B07PDRD1KT", "grade": 1, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B074J7869B", "grade": 1, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B08JV31QW4", "grade": 1, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B00K3TVJMQ", "grade": 1, "query": "skincare routine"},

    # Query 3: "study desk setup" intent-based, products are desks/stands/organizers
    {"query_id": "q3", "doc_id": "B08CS35J2T", "grade": 2, "query": "study desk setup"},
    {"query_id": "q3", "doc_id": "B09B3LFDXJ", "grade": 2, "query": "study desk setup"},
    {"query_id": "q3", "doc_id": "B07W58LMND", "grade": 1, "query": "study desk setup"},
    {"query_id": "q3", "doc_id": "B0CHYDX91L", "grade": 1, "query": "study desk setup"},

    # Query 4: "pet travel accessories" use-case grouping, products are carriers/crates/seats
    {"query_id": "q4", "doc_id": "B08R8FRW53", "grade": 2, "query": "pet travel accessories"},
    {"query_id": "q4", "doc_id": "B01MYUYX33", "grade": 2, "query": "pet travel accessories"},
    {"query_id": "q4", "doc_id": "B003C5RKE4", "grade": 2, "query": "pet travel accessories"},
    {"query_id": "q4", "doc_id": "B09GF8GBF6", "grade": 1, "query": "pet travel accessories"},
    {"query_id": "q4", "doc_id": "B0CP3LQSWM", "grade": 1, "query": "pet travel accessories"},
]

这种混合是有意为之：q1 是 BM25 可以很好处理的查询（产品标题中的精确标记），而 q2、q3 和 q4 是基于意图的查询，用户的意图是以概念而非具体产品关键词来表达的。

测量 BM25 基线召回率

首先，设置 Elasticsearch 客户端，并对原始文本数据建立索引：

import os
import json
import pandas as pd
import plotly.graph_objects as go
from elasticsearch import Elasticsearch, helpers
from dotenv import load_dotenv

load_dotenv()

es = Elasticsearch(
    os.getenv("ELASTICSEARCH_URL"),
    api_key=os.getenv("ELASTICSEARCH_API_KEY")
)

INDEX_NAME = "ecommerce-products"

现在为 BM25 构建 rank_eval 请求。列表中的每个请求都将会查询及其评分结合起来：

judgments_df = pd.DataFrame(judgments)

bm25_requests = []
for query_id, query_text in (
    judgments_df[["query_id", "query"]].drop_duplicates().values
):
    relevant_docs = judgments_df[judgments_df["query_id"] == query_id]
    ratings = [
        {"_index": INDEX_NAME, "_id": row["doc_id"], "rating": row["grade"]}
        for _, row in relevant_docs.iterrows()
    ]

    bm25_requests.append({
        "id": query_id,
        "request": {
            "query": {
                "multi_match": {
                    "query": query_text,
                    "fields": ["title", "description"]
                }
            }
        },
        "ratings": ratings,
    })

bm25_eval = {
    "requests": bm25_requests,
    "metric": {"recall": {"k": 10, "relevant_rating_threshold": 1}},
}

bm25_result = es.rank_eval(index=INDEX_NAME, body=bm25_eval)
print("BM25 Recall@10:", bm25_result.body["metric_score"])

结果：

BM25 Recall@10: 0.43

0.43 这意味着在所有四个查询中，BM25 只找到了它应该找到的文档的 43%。这种不足集中体现在基于意图的查询中：“护肤流程”漏掉了面部精华液和身体精油，因为“流程”一词从未出现在产品标题中；而“宠物旅行配件”则检索出了一些不相关的宠物产品，却遗漏了那些以便携性和安全性而非“旅行配件”来描述的宠物笼和宠物箱。

这就是我们的基准。现在我们有了一个要超越的数字。

使用 Jina 嵌入添加向量搜索

Vector search 将文档和查询编码为高维向量，这是一种由数百甚至数千个数值组成的向量，每个数值都对它所代表的数据的特定特征进行编码。意义相似的文档最终会在向量空间中靠近，即使它们没有共同的词汇。“健身器材”和“哑铃套装”会放在一起，因为这两个概念是相关的。我选择 Elasticsearch 作为我的向量数据库，是因为它支持混合搜索，让我既能理解语义，又能精确查找关键字。

EIS 包括通过其推理 API 嵌入模型的开箱即用支持。

步骤 1：使用 Jina 嵌入 v5 作为推理终端

INFERENCE_ENDPOINT_ID = ".jina-embeddings-v5-text-small"

如果您的集群具有 GPU 资源（在 Elastic Cloud 和 Elasticsearch 9.3+ 中可用），嵌入将在 GPU 上生成，这比 CPU 推理快得多，并消除了历史上使向量在扩展时变得昂贵的性能权衡。

为什么要特别选用 Jina 嵌入？jina-embeddings-v5-text 是一种多语言模型（支持 119 种以上语言），具有 32,000 个标记的上下文窗口，并支持特定任务的低秩自适应 (LoRA) 适配器。它适用于开箱即用的简短产品描述。点击此处了解有关 jina-embeddings-v5-text 模型的更多信息。

步骤 2：创建具有语义字段的索引

index_mappings = {
    "mappings": {
        "properties": {
            "title": {"type": "text", "copy_to": "semantic_field"},
            "description": {"type": "text", "copy_to": "semantic_field"},
            "brand": {"type": "keyword"},
            "category": {"type": "keyword"},
            "semantic_field": {
                "type": "semantic_text",
                "inference_id": INFERENCE_ENDPOINT_ID,
            },
        }
    }
}

if not es.indices.exists(index=INDEX_NAME):
    es.indices.create(index=INDEX_NAME, body=index_mappings)
    print(f"Created index: {INDEX_NAME}")

这里的关键在于 semantic_text 字段类型。这是对 dense_vector 的更高级别的抽象：您将其指向一个推理终端，Elasticsearch 会自动生成嵌入。

title 和description 上的 copy_to 属性意味着这两个字段的内容都会流入 semantic_field 进行嵌入，因此单个向量就能捕获完整的产品表示。

步骤 3：为产品编制索引

def bulk_index(products, index_name):
    actions = []
    for product in products:
        doc_id = product.get("_id")
        source = {k: v for k, v in product.items() if k != "_id"}
        action = {"_index": index_name, "_source": source}
        if doc_id:
            action["_id"] = doc_id
        actions.append(action)

    success, failed = helpers.bulk(es, actions, raise_on_error=False)
    if failed:
        for error in failed:
            print(f"Error: {error}")
    else:
        print(f"Successfully indexed {success} documents")

bulk_index(products, INDEX_NAME)

索引时，Elasticsearch 会调用每个文档的推理端点，并将生成的嵌入存储在 semantic_field 中。您无需编写任何额外代码。

混合搜索：将 BM25 与向量结合并采用 RRF

添加向量可以提高召回率，但仅使用向量可能会在精确匹配查询中失去精度；“跑鞋”仍应将逐字匹配的结果排在首位。混合搜索则保留词汇成分，以保持这种精确性。

使用倒数排序融合 (RRF) 的混合搜索可以保持两者的优点：

BM25 可以高精度处理精确和近似精确的查询。
语义搜索能以高召回率处理基于意图和多语言的查询。
RRF 将两份排名表合并为一份排名表。

RRF 公式根据每个文档在每个结果列表中的排名，为每个文档分配分数：

score = sum(1 / (rank_constant + rank))

在两个列表中均排名靠前的文档将获得更高的综合得分。rank_constant用于控制排名较低的文档获得的权重大小。

hybrid_requests = []

for query_id, query_text in (
    judgments_df[["query_id", "query"]].drop_duplicates().values
):
    relevant_docs = judgments_df[judgments_df["query_id"] == query_id]
    ratings = [
        {"_index": INDEX_NAME, "_id": row["doc_id"], "rating": row["grade"]}
        for _, row in relevant_docs.iterrows()
    ]

    hybrid_requests.append({
        "id": query_id,
        "request": {
            "retriever": {
                "rrf": {
                    "retrievers": [
                        {
                            "standard": {
                                "query": {
                                    "multi_match": {
                                        "query": query_text,
                                        "fields": ["title", "description"],
                                    }
                                }
                            }
                        },
                        {
                            "standard": {
                                "query": {
                                    "match": {
                                        "semantic_field": {"query": query_text}
                                    }
                                }
                            }
                        },
                    ],
                    "rank_window_size": 50,
                    "rank_constant": 5,
                }
            }
        },
        "ratings": ratings,
    })

hybrid_eval = {
    "requests": hybrid_requests,
    "metric": {"recall": {"k": 10, "relevant_rating_threshold": 1}},
}

hybrid_result = es.rank_eval(index=INDEX_NAME, body=hybrid_eval)
print("Hybrid Recall@10:", hybrid_result.body["metric_score"])

结果：

Hybrid Recall@10: 0.75

混合搜索在 BM25 (0.43) 的基础上有了显著提升，并为“跑鞋”等精确匹配查询保留了精确度。

结果：前后结果对比

以下是所有三种方法的完整对比：

methods = {
    "BM25 (Lexical)": bm25_requests,
    "Hybrid (BM25 + Vectors)": hybrid_requests,
}

recall_metric = {"recall": {"k": 10, "relevant_rating_threshold": 1}}

comparison_data = []
for method_name, requests in methods.items():
    result = es.rank_eval(
        index=INDEX_NAME,
        body={"requests": requests, "metric": recall_metric}
    )
    comparison_data.append({
        "method": method_name,
        "recall@10": result.body["metric_score"]
    })

comparison_df = pd.DataFrame(comparison_data)
print(comparison_df.to_string(index=False))

结果：

方法	Recall@10
BM25（词法）	0.43
混合型（BM25 + 向量）	0.75

按查询细分：

结论

在这篇文章中，我们看到，当用户键入精确的查询时，BM25 词汇搜索是可靠的，但当他们根据意图而非关键词进行搜索时，其召回率就会下降。借助 rank_eval，我们建立了一个可重复的基线，用真实数据来衡量这一差距。在此基础上，我们添加了一个由 Jina 嵌入提供支持的 semantic_text 字段，并再次运行了评估。结果：混合搜索将召回率从 0.43 提高到 0.75，同时保留了精确匹配查询的精确度，但实际幅度取决于您的查询组合。

该模式可扩展至本示例之外：从用户的实际查询中收集判断，以 rank_eval 作为基准运行，添加 semantic_text，然后再次进行测量。您将确切了解改进了哪些方面以及改进了多少。

后续步骤

深入了解召回与向量搜索：《召回与向量搜索量化》，作者：Jeff Vestal
添加重排序功能，以进一步提升前几条结果的精准度
探索 Elasticsearch 混合搜索文档
阅读有关 rank_eval API 的更多信息

构建用于治理电子商务搜索的控制平面

Alexander Marquardt, Honza Král, Taylor Roy — Fri, 01 May 2026 00:00:00 GMT

本系列第 1 部分和第 2 部分已经阐明，电子商务搜索为什么需要一个治理层：它是在用户查询与检索引擎之间的决策层，用于识别意图、实施约束，并将查询路由到正确的检索策略（例如 BM25、语义检索、混合检索）。本文展示了如何使用一个简单的架构原语构建该层：将查询解释策略存储为文档，并在查询时通过快速反向匹配进行检索。由于新的检索策略（例如“提升品牌 X”或“仅显示类别 Y”）无需修改代码，最终形成的路由层可以在策略不断演变的同时保持稳定，并让检索引擎在高风险环境中保持安全可控。如果您想在继续阅读之前了解该架构的最终效果，请观看此视频：在数秒内修复搜索相关性：PRISM 简介。

为何查询解释常常是一个挑战

将策略作为代码存储（应用层中的 if/else 块）会产生成千上万行脆弱逻辑，而且没有任何索引可用于在查询时高效检索策略。迭代速度很慢（单个查询行为变更可能需要 6 周的部署周期），责任归属不清（为什么结果会发生变化？），并且业务用户无法在没有工程团队介入的情况下修改搜索行为。下图左侧展示了这一点：

上图右侧展示了将策略作为数据存储在 Elasticsearch 索引中的方式。这种方法解决了硬编码查询求解逻辑所带来的所有问题。然而，要使其奏效，您需要一种方法来快速确定哪些策略适用于用户查询，以及应如何解决冲突。这正是治理型控制平面发挥作用的场合。

控制平面模式

受治理的控制平面位于原始用户查询和 Elasticsearch 检索之间。它接收用户文本作为输入，输出一个包含筛选器、提升规则和检索路由决策的执行计划。

控制平面流水线包括：

用户查询：用户输入表示自己要查找内容的字符串，例如 “oranges” 或 “gift for grandpa”。
策略查找：将用户查询与策略索引进行匹配。
返回匹配策略：从策略索引中返回与用户查询匹配的策略。
策略应用：控制平面分析这些返回的策略，并将匹配策略组合成一个单一、连贯的执行计划。该计划包括筛选器、提升规则、覆盖规则和护栏，并会应用适当的检索方法（例如词汇检索、语义检索或混合检索）。
执行：修改后的意图感知型 Elasticsearch 查询会传递给应用程序，并针对产品目录索引执行。
解释（可选）：除了创建能够提供与业务和意图一致结果的查询外，控制平面还会提供一个可选的可解释性数据载荷，用于显示触发了哪些策略，以及这些策略如何组合。

要确定应对用户的搜索字符串应用哪些策略，需要一个快速反向匹配原语；我们使用 percolator 查询来解决这个问题。检索到相关策略后，要将多个匹配策略组合成统一的执行计划，还需要一个判断框架：优先级、冲突策略、已消耗短语跟踪，以及按顺序而非独立地应用策略的级联转换。此外，还需要选择最合适的检索技术（例如针对 “oranges” 使用 BM25，针对 “gift for grandpa” 使用语义搜索）。

策略查找：搜索产品前检查查询语句

当购物者输入查询时，带有受治理控制平面的搜索系统不会直接将该查询发送到产品目录执行。系统会先将查询与一组已存储的策略进行比对，然后根据查询意图和业务优先级对其进行修改。

政策结构

每项策略都是一个简单文档，用于定义两件事：

匹配条件：哪些查询文本会触发此策略。它可以是精确短语、单个词、某种模式，或以上内容的组合。
操作：策略触发时应执行什么操作。这可以是应用类别筛选器、排除产品、提取价格约束，或更改检索策略。

系统会找到所有匹配的策略，将它们组合成一个执行计划，然后才运行产品搜索。综合来看，各项策略就像一位知识渊博的店员，了解您想要什么，并引导您找到正确的货架。

策略模式

本系列前几篇文章介绍了策略应用的示例：将 “oranges” 限制在蔬果类别，将 “without peanuts” 视为排除条件，并将 “gift for grandpa” 路由到语义检索。关键的架构要点是，在每种情况下，都会先将查询与已存储的策略进行比对，然后才开始产品搜索。这些策略决定要应用哪些约束、修改哪些文本，以及使用哪种检索策略。只有在策略应用完成并创建新的重写查询之后，才会针对产品目录执行查询。

为何它如此快速

企业电子商务系统可能有数百万种产品，但只有数百或数千项策略。策略查找步骤是在一个经过整理的小型索引中搜索，而不是搜索完整产品目录，因此速度很快。此外，由于策略作为数据存储在自己的索引中，商品经理添加新策略时无需改动应用程序代码，工程师优化产品搜索时也无需改动策略索引。这两项职责可以独立演进。

以上例子从概念上描述了所发生的情况。在底层，策略查找是通过 Elasticsearchpercolator 查询类型实现的，该类型专为这种模式设计：将传入文本与一组存储的查询进行匹配。本系列的第 4 部分深入探讨了 percolator 的实现，包括索引映射、边界标记和高亮驱动的短语跟踪。在第 4 部分深入介绍了查找机制之后，我们来探讨策略文档的实际内容，以及控制平面如何将多个策略组合成单一的执行计划。

策略示例

既然我们已经从概念上了解了策略的作用，接下来看看它们实际包含哪些内容。以下两项策略有意设计为相互冲突，用于演示后续章节介绍的冲突解决系统。

廉价巧克力

下面显示的策略会检测用户提交的搜索是否包含短语 “cheap chocolate”。如果包含，则将结果限制在 “Chocolates” 和 “Milk chocolates” 类别中。该策略还会应用 $2 的价格筛选器。此外，请注意，该策略的优先级为 210；我们会在更详细讨论冲突解决时回到这一点。

此处显示的筛选器模式和冲突策略设置（hard_filter、soft_boost、restrict、override）将在下方的冲突解决部分详细说明。

启用上述策略后，搜索 “cheap chocolate” 会遵循 $2 的价格筛选条件，并将结果限制在 “Chocolates” 和 “Milk chocolates” 类别中。示例结果如下所示：

圣诞巧克力

下面显示的策略示例适用于圣诞节场景。此示例会将结果限制在 “Christmas foods and drinks” 和 “Christmas sweets” 类别中，提升同时属于 “Advent calendars” 类别的所有产品，并应用低于 $7 的价格筛选器，以重点展示价格适中的季节性商品。此外，请注意，该策略的优先级为 300。我们会在更详细讨论冲突解决时回到这一点。

在没有任何冲突策略的情况下启用上述策略时，搜索 “chocolate” 会遵循 $7 的价格筛选器，将结果限制在 “Christmas food and drinks” 和 “Christmas sweets” 类别中，并提升任何标记为 “Advent calendars” 的产品。示例结果如下所示：

组合匹配策略

上文所述的策略查找只完成了一半。另一半是当多个策略匹配同一个查询时会发生什么。

在任何较为复杂的部署中，单个查询通常会同时触发多项策略。“Cheap chocolate” 会同时匹配我们在上文演示的两项策略。每项策略单独来看都是正确的。真正的挑战在于将它们组合成一个单一、连贯的执行计划，避免矛盾、重复计算，也避免某项策略悄然抵消另一项策略的作用。

这不是查找问题，而是判断问题。系统必须做出决定：

应用顺序：如果否定策略从查询中移除了 “without peanuts”，那么价格策略看到的还是原始文本，还是修改后的文本？
筛选器冲突：如果两项策略设置了不同的价格上限，哪一个会生效？未生效的一方会被静默丢弃，还是会平滑降级为软性提升？
短语归属权：如果两项策略都匹配同一个词，而第一项策略已经消耗了该词，第二项策略是否仍应触发？

一种朴素实现方式（独立应用所有匹配策略，然后合并结果）会在策略发生交互时失效。该架构需要一个显式模型来描述策略如何组合。接下来的两节将介绍这个模型：优先级和冲突解决框架，以及让策略交互具有确定性的级联转换模型。

核心在于，策略应用不是一组独立操作，而是一个级联转换。每项策略都会接收由所有更高优先级策略生成的重写状态，并在此基础上继续转换：

初始状态 → [策略 A] → 状态' → [策略 B] → 状态'' → … → 执行计划

状态会携带重写后的查询文本、累积的筛选器、当前意图以及所有同义词扩展。高优先级策略可以从查询中移除文本，而每项后续策略看到的都是修改后的查询，而不是原始查询。上下文会不断累积。顺序至关重要。

优先级与冲突解决：确定性至关重要

具体采用哪些冲突策略属于设计选择。不同组织可能会根据自身业务需求，以不同方式解决冲突。下面的方法展示了控制平面所需的一类判断框架。关键不在于这些具体策略本身，而在于系统需要具备明确、确定性的策略，而不是让冲突通过不可预测的交互自行解决。

优先级排序

策略按优先级排序（优先级最高的在前）。当多个策略匹配同一查询时，它们会按优先级顺序应用。如果两个策略尝试设置同一个过滤字段，则优先级更高的策略对该字段声明的策略优先。如果触发了多个具有相同优先级的策略，则优先级最高的策略（ID 最大）将优先；这种选择确保了冲突发生时的确定性行为。

按字段解决，而非按策略

一个关键设计原则是：冲突解决按字段（例如品牌、类别或描述）进行，而不是按策略进行。当两项策略生成的筛选器在特定字段上重叠时，只有这些特定字段会受冲突解决策略影响，并且解决策略由优先级最高的匹配策略定义。两个策略中未发生冲突的字段会完整保留。

这一点很重要，因为如果采用按策略处理的方法，那么即使只有某一个字段发生冲突，系统也必须接受或拒绝整项策略。

按字段解决可以最大限度保留有用的约束信息。

每个过滤器字段有三种设置

每个策略中的筛选字段都有三个独立的设置：

筛选器模式：没有冲突时如何应用筛选器。

hard_filter （默认）：作为 Elasticsearch bool.filter 子句应用。这适用于完全排除无关产品。例如，将 “oranges” 的搜索范围限制在 produce 类别中，可以排除 orange juice 和 orange marmalade 等搜索结果。不匹配的文档会从结果中完全排除。
soft_boost作为 Elasticsearch function_score 权重应用，并可配置 boost_weight。匹配的文档会获得排名提升，但不匹配的文档不会被排除。这适用于提升某个品牌的排名，同时又不排除其他品牌的场景。

冲突策略

当较低优先级的策略设置相同字段时会发生什么：

override：此高优先级策略的值会生效；较低优先级的值会被完全丢弃。适用于所有字段类型。
restrict：取限制性更强的数值（例如，price_max 取较低上限，price_min 取较高下限）。仅适用于数值范围字段。
merge：将两个值合并为并集。仅适用于非数值字段。
soft_boost：将冲突的筛选器转换为具有可配置 boost_weight 的 function_score 权重，而不是硬性筛选器。有关 function_score 提升的更多详情，请参阅《在 Elasticsearch 中使用乘法提升影响 BM25 排名》。这仅适用于非否定字段。

值：实际筛选值（例如，类别列表、价格阈值）。

按字段类型划分的策略：并非所有策略都适用于所有字段类型。例如，排除本质上是二元决策，因此不能进行软性提升。下表显示了每种字段类型可用的策略：

字段类型	可用策略	默认值
否定字段 (__not, __match__not)	override、merge	覆盖
数值范围字段 (__max, __min, __gt, __lt)	限制、覆盖、软提升	限制
所有其他字段（关键词、文本）	soft_boost、override、merge	soft_boost

否定字段不能进行软性提升，因为排除逻辑本质上是二元决策。将 “never show canned foods” 转换为 “slightly prefer not-canned-foods” 会从根本上改变语义；来自 “canned foods” 的产品仍然会出现，只是排名略低，这违背了排除的初衷。

具体示例：圣诞活动期间搜索 “cheap chocolate”

假设商品经理已经创建了我们之前演示的两项巧克力策略：一项是针对 “cheap chocolate” 的较低优先级策略，另一项是在圣诞节期间启用的较高优先级巧克力相关策略。如果这两项策略都已启用，那么它们的组合方式取决于优先级更高策略的筛选器模式和冲突策略。如果前面讨论的两项策略都已启用，它们将按如下方式组合：

这里显示了两个冲突：一个发生在类别上，另一个发生在价格上。值得注意的是，此次转换之后将要执行的查询具有以下特征：

仅展示属于 “Christmas foods and drinks” 和 “Christmas sweets” 类别的产品。
在这些类别中，如果产品还被标记为 “Advent calendars” 类别，则会获得 3 倍排名提升。
应用了 $2 的价格筛选器，该筛选器来自较低优先级策略（因为较高优先级策略指定在发生冲突时使用 “Restrict”）。
移除 “cheap” 一词，仅返回与 “chocolate” 匹配的产品。

启用这两项策略后，“cheap chocolate” 返回的结果类似于下图所示：

放宽限制

也许零售商并不希望在圣诞节期间排除 “Chocolates” 和 “Milk chocolates” 类别中的产品。Christmas 策略的设置可能过于强势，无意中移除了 “cheap chocolate” 策略应用的类别。这个示例说明，在某些情况下，将较低优先级策略与存在冲突的较高优先级策略组合起来，可能更符合业务需求。例如，我们可以修改 Christmas chocolates 促销策略，使其在发生冲突时不使用 “Override”，而是采用软性提升。该策略的变更如下：

完成此修改后，“cheap chocolate” 的查询重写转换流水线如下所示：

通过对冲突的软提升，冲突的筛选器被转换为软提升，而不是被丢弃。在此转换之后将在商品目录上执行的查询具有以下特征：

由于较高优先级策略的 “On conflict” 设置为 “Soft boost”，冲突将按如下方式转换为提升：
- “圣诞食品和饮料”以及“圣诞甜点”类别的产品将会获得 1 倍的提升。
- “Chocolates” 和 “Milk chocolates” 类别中的产品会获得 3 倍提升。
与前面的示例一样，如果产品还被标记为 “Advent calendars” 类别，则会获得 3 倍提升。
与前例相同，会应用 $2 的价格筛选器。
移除 “cheap” 一词，仅返回与 “chocolate” 匹配的产品。

放宽筛选条件后，结果如下所示：

使用高优先级策略中的价格覆盖原有价格

或者，零售商可能希望通过将最高价格提高到 $7，允许在圣诞节期间展示价格稍高的巧克力。为了确保有人搜索 “cheap chocolates” 时，Christmas chocolates 策略中的最高价格不会被覆盖，我们可以将价格的冲突模式设置为 “override”，而不是 “restrict”，如下所示：

通过这种覆盖，“廉价巧克力”查询忽略了“廉价巧克力政策”中定义的最高价格，仅应用“圣诞巧克力”政策中规定的价格，具体如下：

这与上一个示例类似，不同之处在于最高价格会设置为较高优先级策略中的 $7，因为该策略指定在发生冲突时使用 “Override”。当 Christmas 价格筛选器优先生效时，结果如下所示：

这三种变体（override、soft_boost 和价格覆盖）展示了该系统的一项关键特性：商品经理只需修改单一策略中某个字段的设置，即可改变两项策略的交互方式，而无需部署任何代码。冲突策略是控制业务行为的杠杆。

已消耗短语跟踪

还有一种更微妙的冲突形式：两项策略匹配同一个短语。如果优先级较高的策略从查询中移除了 “without peanuts”，那么同样匹配 “without” 的较低优先级策略就没有可作用的内容。系统会检测重写后的查询中是否已不再存在该匹配短语，并跳过优先级较低的策略。

意图策略不受已消耗短语跟踪影响：它们会根据原始查询匹配结果设置检索策略，而不考虑更高优先级策略移除了哪些文本。

优先级排序、每字段冲突解决以及消耗短语跟踪共同为控制平面提供了一个确定性组合模型。有了这个基础，系统可以做出在没有它的情况下可能存在风险的路由决策。

治理让检索策略更安全

关于路由到正确检索方法（文本、语义或混合），一个重要见解是：这一过程发生在治理之后。如果您的策略已经强制应用 “produce category”，那么语义检索的风险会低得多，因为候选集已经受到约束。对 500 个产品项执行语义搜索，与对 500,000 个 SKU 执行语义搜索，完全是两种不同的情况。治理会在检索开始前缩小爆炸半径，从而降低风险影响范围。

例如，如果没有治理，对 “Fruit high in vitamin C under $4” 进行语义查询时，除了水果之外，可能还会返回瓶装维生素、胡萝卜和青椒。控制平面会确保这些不需要的结果甚至不会被纳入语义扩展的考虑范围。

在该约束生效后，控制平面会应用务实的路由逻辑：

词汇检索用于导航型查询和高频头部查询，即确定性精度至关重要的场景。
语义检索用于描述性发现查询，即概念匹配能够发挥作用的场景。
在约束已执行且业务接受更广泛召回的情况下，选择性使用混合检索。

从架构到实施

受治理的控制平面会将业务意图转化为确定性、可组合的执行计划，而无需将该逻辑嵌入应用代码。策略就是数据：在查询时进行匹配，通过显式的逐字段冲突策略解决冲突，并作为级联转换应用，从而生成可解释的结果。Elastic Services Engineering 已为企业电子商务团队构建并部署了这种架构，并使用可复用的模式和加速器，缩短从概念到生产落地的路径。您可以在 YouTube 上观看我们控制平面实现的演示：在数秒内修复搜索相关性：PRISM 简介。

本系列内容预告

下一篇文章将通过实际操作介绍实现过程：Elasticsearch percolator 如何驱动策略查找，包括索引映射、边界标记、高亮驱动的短语跟踪，以及具体查询示例。

将受治理的电子商务搜索付诸实践

本文介绍的控制平面架构（逐字段冲突解决、级联策略转换和受治理约束的检索路由）由 Elastic Services Engineering 设计并构建。本系列展示的每个模式、截图和转换流水线，均来自由 Elastic Services Engineering 构建，并已针对企业级产品目录完成验证的实际运行系统。

如果您希望在 Elasticsearch 上实现一个受治理、由策略驱动的控制平面，Elastic Services 可以帮助您更快达成目标。

加入讨论

对搜索治理、检索策略或电子商务搜索架构有疑问？加入更广泛的 Elastic 社区讨论。

因映射冲突重索引数据流

Lisa Larribas — Fri, 24 Apr 2026 00:00:00 GMT

当字段中出现映射冲突时，无论这些字段是符合 Elastic Common Schema (ECS) 标准，还是源自特定数据源，都需要使用 Dev Tools 对数据进行重索引。这些冲突可能会对数据摄取后的下游功能产生负面影响，进而导致结果不准确，或导致完整数据集无法用于可视化、仪表板、Security 应用和聚合等功能。本文详细介绍了重索引流程的具体步骤。

本博客的内容是使用 Elastic 版本 9.2.8 和 8.19.14，以及 Filestream Integration 版本 2.3.0 和 1.2.0 开发和验证的。

重要提示：具体步骤可能需要根据您的环境进行适当调整。此外，请注意，自 Filestream Integration 2.3.3 版本起，动态模板已从 @package 组件模板中移除。

在开始重索引流程之前，请先评估当前环境中的存储分配情况。下文步骤会创建现有后备索引的一个副本，该副本将暂时存放在热层中。

Elasticsearch 数据层

热层：时序数据进入 Elasticsearch 的入口，存放最新且查询最频繁的数据。热层节点需要快速读写能力，因此需要更多资源和更快的存储（SSD）。该层为强制层，新的数据流索引会自动分配到此层。
温层：当时序数据的查询频率低于热层中近期索引的数据时，便可将其移到温层。温层通常保存最近几周的数据。仍允许更新，但更新频率通常较低。温层节点通常不需要像热层节点那样高的性能。为提高弹性，温层中的索引应配置一个或多个副本。
冷层：查询频率较低的数据可以从温层移到冷层。冷层仍可搜索，但优先降低存储成本，而非追求搜索速度。或者，冷层也可以存储带副本的常规索引，而不是可搜索快照。这样可以使用成本更低的硬件来存放较旧数据，但相比温层，并不会降低磁盘空间需求。
冻结层：查询频率很低或不再查询的数据，会从冷层移到冻结层，并在剩余生命周期中保留于此。该层使用快照存储库和部分挂载的索引来存储和加载数据，在降低本地存储占用和成本的同时，仍支持搜索。冻结层上的搜索速度通常慢于冷层，因为 Elasticsearch 可能需要从快照存储库中读取冻结的数据。建议使用专用的冻结层节点。

前提条件：确定哪些字段存在冲突

要确定哪些字段存在映射冲突，请依次前往 Stack Management → 数据视图 → logs-*（logs-* 数据视图是 logs- 前缀下覆盖范围最广的数据视图）。如果有冲突，会显示一个黄色提示框。可以点击“查看冲突”，也可以在搜索框旁边的“字段类型”下拉菜单中选择“冲突”。

点击黄色的“冲突”按钮，可看到哪些索引关联了哪种映射类型。

这种情况（字段同时映射为 keyword 和 long）通常是因为在相关数据流的组件模板中定义该字段的具体映射类型之前，数据就已经被摄取。此时，Elasticsearch 会尝试根据其动态模板来设定映射。

要判断该字段应采用哪种映射，以及它是否属于 ECS 字段，需要查阅 ECS 字段参考文档进行验证。如果不是 ECS 字段，则必须检查其实际值，以确定正确的映射类型。

如果像本例中的 log.offset 字段在 ECS 中未被记录，下一步是调查该字段的值，确定哪种冲突映射类型有最多的支持索引，并检查其他索引的组件模板。

通常，与最多索引关联的映射类型是正确的，但仍建议您查看字段的实际值来确认。要确认某映射类型（如 long）的有效性，还需验证字段值确实符合该类型。验证可通过 Discover 搜索相关字段来完成。也可以查看包含相同字段的其他数据流来进一步确认。

要查看映射问题字段的实际值，请回到前面提到的黄色“冲突”按钮，点击“冲突”按钮，选中某个后备索引，并将其粘贴到 Discover 会话中。您的 Kibana Query Language (KQL) 语句应类似于下面的截图，并包含 _index: 字段分隔符。

准备新的后备索引自定义组件模板

要解决数据流中的映射冲突，首先检查相关的 @package 组件模板。可以在 Stack Management → 索引管理 -> 组件模板中找到它。搜索目标数据流，并选择对应的 @package 链接。该模板开箱即包含字段映射；虽然映射不匹配的情况并不常见，但有时更合适的字段类型可能会被遗漏。

检查模板，确认它包含了所需的字段嵌套和映射。例如，如果模板错误地将 log.offset 列为 keyword，这就是问题的根源。

重要提示：由于不建议修改 @package/托管模板，您必须使用或创建 @custom 组件模板，为未来所有数据修正映射类型（例如，将 log.offset 修正为正确类型）。

不建议修改 @package/托管模板，因为当集成更新到新版本时，对 @package 模板所做的任何更改都会被覆盖。这就是为什么我们建议使用 @custom 模板。
如果数据流遇到映射冲突，需要向数据流的 @custom 组件模板中添加所有缺失的字段（包括 ECS 和非 ECS）的嵌套或映射。如果该模板不存在，请创建它，并确保为字段指定正确的映射类型。
如果数据视图中存在多个冲突，请一次性为数据流添加所有必要的缺失映射，这样只需重索引一次，而不是多次。在 @custom 组件模板中为正确的数据类型配置条目，可以确保未来摄取的所有数据都遵循相同的映射规则。

要创建 @custom 组件模板（或确认它是否已存在并被使用），请进入“索引模板”，输入数据流名称，然后点击该数据流所使用的 @custom 模板。如果模板还未创建，会出现黄色提示框，可以通过界面创建。

下图展示了点击“创建组件模板”后的页面。保持第一页的默认设置，然后点击“映射”或“下一步”，直到进入“映射”页面。

若要为新传入的字段明确设置映射，或更新存在映射冲突的字段，则需要为冲突字段添加条目。这样，当数据流因索引生命周期管理 (ILM) 策略触发滚动时，新映射即可生效。

以下将为 filestream 数据流的 @custom 组件模板中的 log.offset 字段设置映射。根据需要重复上述步骤，添加自定义字段或更新 @package 中的必要字段，并为该数据集配置对应的映射。在本例中，将 offset 设置为 Long 时，字段类型将为 Numeric，数值类型将为 Long。点击“添加字段”，然后点击该区域外部以继续。

添加完所有需要的字段后，继续点击直至进入审核步骤；准备就绪后，选择“创建组件模板”。从此步骤开始摄取的所有新数据，其 log.offset 都将设置为 long 类型。

创建新的后备索引结构

新的后备索引需要包含数据流组件模板中的现有映射，以及 ecs@mappings 组件模板中的映射。ecs@mappings 组件模板在数据流组件之后应用，作为兜底模板，捕获可能未被前面组件模板覆盖的额外映射。

在浏览器中打开数据流的 @package 映射页面。（依次前往 Stack Management → 索引管理 → 组件模板 → logs-filestream.generic@package → 管理 → 编辑。）进入后，点击“审核”部分，然后点击“请求”，最后点击右侧的“复制”按钮。复制组件模板的 JSON 内容，可以确保在更新 log.offset 字段映射时，其余的字段映射和设置得以保留。该 JSON 将构成新重索引后的后备索引的结构基础。

重要提示：如果不复制模板的 JSON 就直接进行重索引，虽然 log.offset 冲突会解决，但因为当前映射的完整性没有被保留，集成中会出现新的冲突，导致需要额外的工作才能解决原始问题。

打开第二个浏览器标签页，进入 Dev Tools，粘贴刚刚复制的内容。接下来，按以下方式清理粘贴的内容：

对请求进行以下修改：

1. 索引名称：将 _component_template/logs-filestream.generic@package 替换为您要重索引的后备索引名称，并在末尾加上 -1。例如，使用 PUT -1。

附加的 -1 表示重新索引，并且不会与默认的 ILM 滚动更新设置冲突，这些设置基于索引的创建日期。

2. 设置：删除 "template" 这一行（第 3 行），以及整个 JSON 负载的最后一个右花括号；第 3 行应以 "settings": { 开头。

将 settings 部分的内容替换为 "index.codec": "best_compression"。此操作会在索引创建时应用 Elastic 的最佳压缩算法。
添加 "index.lifecycle.name": "logs"，以及一行 "index.lifecycle.rollover_alias": ""。
1. "index.lifecycle.name": "logs" 会将日志 ILM 策略应用到新的后备索引。如果您未使用日志，请修改 ILM 策略名称。
2. "index.lifecycle.rollover_alias": "" 为空，因为此后备索引不会发生滚动；但必须保留此设置，以避免索引从“热”阶段进入下一个 ILM 阶段时出现 ILM 滚动错误。

3. 结构：请求现在应包含 Settings 部分和 Mappings 部分。在 "mappings": { 中，应包含 "dynamic_templates" 和一个 "properties" 部分，后者含有预定义的字段及其映射。

4. 动态模板修改：当前的 dynamic_templates 部分中，有些字段条目在后续添加 ecs@mappings 动态模板时可能被覆盖，造成冗余和不必要的代码行。

删除 "dynamic_templates" 中除了标题为 "_embedded_ecs-data_stream_to_constant": { 的第二部分以外的所有部分。
重复上述过程；不过这次收集的是 ecs@mappings 组件模板的动态映射，而不是 @package 组件模板的动态映射。
- 更简单的方式是：从 ecs@mappings 组件模板的界面中复制全部映射内容，粘贴到 Dev Tools 的 dynamic_templates 部分，然后酌情删除重复和不必要的行。将这些动态模板设置内容放在 "_embedded_ecs-data_stream_to_constant": { 条目的后面。在 Dev Tools 中，dynamic_templates 部分应与下面的示例内容非常相似。
如果未包含 dynamic_templates 或将其全部移除，其他字段（见下方截图）就会出现双重映射，即同时映射为 text 和 keyword，而不是保留 dynamic_templates 部分时应有的正确映射。剩下应当只有 "mappings" 下的 "properties" 部分。这也会导致数据视图中出现字段被重复映射的问题（如果之前没被这样映射过），从而引发更多映射冲突。

5. 元数据删除：删除最后一个名为 "_meta" 的部分，以及名为 "version" 的部分（如果存在）。

6. 格式化：对剩余部分进行自动缩进，并调整或删除任何会导致执行失败的多余花括号。

7. 映射更改：定位到 "properties" 部分，找到 "log"，然后找到其下嵌套的 "offset"。将类型从 keyword 改为 long，并删除标记为 "ignore_above": 1024, 的行条目（包括逗号）。如果在前面创建的 @custom 组件模板中添加了多个条目，请在此处一并列出。

此时，您的 Dev Tools 控制台视图应与下面的示例类似。

PUT .ds-logs-filestream.generic-default-2026.04.14-000001-1
{
  "settings": {
    "index.codec": "best_compression",
    "index.lifecycle.name": "logs",
    "index.lifecycle.rollover_alias": ""
  },
  "mappings": {
    "dynamic_templates": [
      {
        "_embedded_ecs-data_stream_to_constant": {
          "path_match": "data_stream.*",
          "mapping": {
            "type": "constant_keyword"
          }
        }
      },
      {
        "ecs_timestamp": {
          "mapping": {
            "ignore_malformed": false,
            "type": "date"
          },
          "match": "@timestamp"
        }
      },
      {
        "ecs_message_match_only_text": {
          "path_match": [
            "message",
            "*.message"
          ],
          "mapping": {
            "type": "match_only_text"
          },
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_non_indexed_keyword": {
          "path_match": [
            "*event.original"
          ],
          "mapping": {
            "index": false,
            "type": "keyword",
            "doc_values": false
          }
        }
      },
      {
        "ecs_non_indexed_long": {
          "path_match": [
            "*.x509.public_key_exponent"
          ],
          "mapping": {
            "index": false,
            "type": "long",
            "doc_values": false
          }
        }
      },
      {
        "ecs_ip": {
          "path_match": [
            "ip",
            "*.ip",
            "*_ip"
          ],
          "mapping": {
            "type": "ip"
          },
          "match_mapping_type": "string"
        }
      },
      {
        "ecs_wildcard": {
          "path_match": [
            "*.io.text",
            "*.message_id",
            "*registry.data.strings",
            "*url.path"
          ],
          "mapping": {
            "type": "wildcard"
          },
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_path_match_wildcard_and_match_only_text": {
          "path_match": [
            "*.body.content",
            "*url.full",
            "*url.original"
          ],
          "mapping": {
            "fields": {
              "text": {
                "type": "match_only_text"
              }
            },
            "type": "wildcard"
          },
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_match_wildcard_and_match_only_text": {
          "mapping": {
            "fields": {
              "text": {
                "type": "match_only_text"
              }
            },
            "type": "wildcard"
          },
          "unmatch_mapping_type": "object",
          "match": [
            "*command_line",
            "*stack_trace"
          ]
        }
      },
      {
        "ecs_path_match_keyword_and_match_only_text": {
          "path_match": [
            "*.title",
            "*.executable",
            "*.name",
            "*.working_directory",
            "*.full_name",
            "*file.path",
            "*file.target_path",
            "*os.full",
            "*email.subject",
            "*vulnerability.description",
            "*user_agent.original"
          ],
          "mapping": {
            "fields": {
              "text": {
                "type": "match_only_text"
              }
            },
            "type": "keyword"
          },
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_date": {
          "path_match": [
            "*.timestamp",
            "*_timestamp",
            "*.not_after",
            "*.not_before",
            "*.accessed",
            "created",
            "*.created",
            "*.installed",
            "*.creation_date",
            "*.ctime",
            "*.mtime",
            "ingested",
            "*.ingested",
            "*.start",
            "*.end",
            "*.indicator.first_seen",
            "*.indicator.last_seen",
            "*.indicator.modified_at",
            "*threat.enrichments.matched.occurred"
          ],
          "mapping": {
            "type": "date"
          },
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_path_match_float": {
          "path_match": [
            "*.score.*",
            "*_score*"
          ],
          "mapping": {
            "type": "float"
          },
          "path_unmatch": "*.version",
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_usage_double_scaled_float": {
          "path_match": "*.usage",
          "mapping": {
            "scaling_factor": 1000,
            "type": "scaled_float"
          },
          "match_mapping_type": [
            "double",
            "long",
            "string"
          ]
        }
      },
      {
        "ecs_geo_point": {
          "path_match": [
            "*.geo.location"
          ],
          "mapping": {
            "type": "geo_point"
          }
        }
      },
      {
        "ecs_flattened": {
          "path_match": [
            "*structured_data",
            "*exports",
            "*imports"
          ],
          "mapping": {
            "type": "flattened"
          },
          "match_mapping_type": "object"
        }
      },
      {
        "all_strings_to_keywords": {
          "mapping": {
            "ignore_above": 1024,
            "type": "keyword"
          },
          "match_mapping_type": "string"
        }
      }
    ],
    "properties": {
      "input": {
        "properties": {
          "type": {
            "ignore_above": 1024,
            "type": "keyword"
          }
        }
      },
      "@timestamp": {
        "ignore_malformed": false,
        "type": "date"
      },
      "ecs": {
        "properties": {
          "version": {
            "ignore_above": 1024,
            "type": "keyword"
          }
        }
      },
      "log": {
        "properties": {
          "file": {
            "properties": {
              "inode": {
                "ignore_above": 1024,
                "type": "keyword"
              },
              "path": {
                "ignore_above": 1024,
                "type": "keyword"
              },
              "device_id": {
                "ignore_above": 1024,
                "type": "keyword"
              },
              "fingerprint": {
                "index": false,
                "type": "keyword"
              }
            }
          },
          "offset": {
            "type": "long"
          },
          "level": {
            "ignore_above": 1024,
            "type": "keyword"
          }
        }
      },
      "data_stream": {
        "properties": {
          "namespace": {
            "type": "constant_keyword"
          },
          "type": {
            "type": "constant_keyword"
          },
          "dataset": {
            "type": "constant_keyword"
          }
        }
      },
      "event": {
        "properties": {
          "original": {
            "index": false,
            "type": "keyword",
            "doc_values": false
          },
          "module": {
            "type": "constant_keyword",
            "value": "filestream"
          },
          "dataset": {
            "type": "constant_keyword",
            "value": "filestream.generic"
          }
        }
      },
      "message": {
        "type": "match_only_text"
      },
      "tags": {
        "ignore_above": 1024,
        "type": "keyword"
      }
    }
  }
}

当您的控制台内容与示例相似（包括任何额外的自定义字段和符合您环境的值）后，执行命令创建新后备索引的骨架；如果出现错误，先暂停并处理。

开始重索引

新的后备索引成功创建后，下一步是执行重索引并解决映射冲突。

重要提示：如果存在映射冲突的后备索引是最新索引，并且是当前写入索引（例如，后备索引的结尾编号为 -000001），则需要对数据流执行滚动。必须执行数据流滚动，因为当前写入索引正在接收文档，是一个实时的后备索引，不能被修改。

通过前面创建的 @custom 组件模板，正确的字段映射现已应用到较新的写入索引，此后所有新文档都会体现这一更改。

通过执行以下命令来完成：

POST /_rollover

例如：

POST logs-filestream.generic-default/_rollover

重索引是指将数据从现有后备索引复制到同一命名规范下的新索引中，通常用于应用必要的变更。这些变更可能包括更新组件模板，或添加新的摄取流水线来处理数据。

接下来，数据会从不正确映射的后备索引复制到新的后备索引中。原始后备索引已经完成滚动，这意味着无法再向其中添加新文档。新后备索引会沿用相同的命名规范，在应用正确的 ILM 策略的同时保持数据可见性和完整性，但会加上 -1 后缀来表示已经过重索引。

根据需要调整索引名称，并将以下代码粘贴到控制台中。通过包含 wait_for_completion=false，您可以跟踪文档复制的进度，从而帮助估算剩余的重新索引时间。没有此设置，您无法使用下面的 GET _tasks 命令跟踪状态，只能使用 GET -1/_count 检查较新的后备索引中的文档计数。

重要提示：如果在重索引过程中出现问题，不要重新执行重索引命令，否则会重启进程，并在以 -1 结尾的索引中生成重复记录。如果必须重启，先删除 -1 后缀的索引，然后重新执行前面的 PUT 命令，以重建新后备索引的骨架。

POST _reindex?wait_for_completion=false
{
  "source": {
    "index": ""
  },
  "dest": {
    "index": "-1"
  }
}

i.e.
POST _reindex?wait_for_completion=false
{
  "source": {
    "index": ".ds-logs-filestream.generic-default-2026.04.13-000001"
  },
  "dest": {
    "index": ".ds-logs-filestream.generic-default-2026.04.13-000001-1"
  }
}

执行后，响应中会包含一个任务 ID。可以使用该任务 ID 通过 GET _tasks/ 命令监控重索引的进度。

重新索引的持续时间取决于原始索引中的数据量。可以通过在执行 GET 命令时查找 "completed": true 来跟踪完成情况，这应该会产生类似的输出。

GET _tasks/

在重索引流程完成并核对文档数量后，下一步是验证新后备索引以及相关字段的映射是否正确。

GET -1/_mapping

例如：

GET .ds-logs-filestream.generic-default-2026.04.13-000001-1/_mapping

可以确认 log.offset 的映射如下。要确认其他字段只有一个映射条目（而不是同时存在 text 和 keyword），可以将它们与前面 PUT 命令中不属于 dynamic_templates 部分的字段进行对比。

如果正在重索引的后备索引包含大量文档，可以检查这些文档复制到新后备索引的状态；您可以使用以下两个 Dev Tools 命令比较文档数量。

GET .ds-logs-filestream.generic-default-2026.04.14-000001/_count

GET .ds-logs-filestream.generic-default-2026.04.14-000001-1/_count

确认文档计数一致且映射正确后，请更新数据流，将新的后备索引纳入其中，以避免在索引管理中出现孤立的后备索引；否则，ILM 策略将不会在该后备索引上触发。

如果成功，返回值应为 true。

POST _data_stream/_modify
{
  "actions": [
    {
      "add_backing_index": {
        "data_stream": "logs-filestream.generic-default",
        "index": ".ds-logs-filestream.generic-default-2026.04.14-000001-1"
      }
    }
  ]
}

使用以下命令确认新后备索引是否已添加，并确保 ilm_policy 正确：

GET _data_stream/logs-filestream.generic-default

使用下列命令检查后备索引的 ILM 状态：

看到索引处于热状态是正常的，因为它是最近创建的（请参阅第 8 行或第 10 行）。

GET .ds-logs-filestream.generic-default-2026.04.14-000001-1/_ilm/explain

执行以下命令，将后备索引从热层转换到该数据流 ILM 策略中 hot 阶段之后的下一个合适数据层。在上方截图中，可以分别从第 11、13、15 行找到 current_step 中 phase、action 和 name 的具体值。

next_step 的值表示索引将要转入的下一个 ILM 阶段或数据层。

例如：

POST _ilm/move/.ds-logs-filestream.generic-default-2026.04.14-000001-1
{
  "current_step": {
    "phase": "hot",
    "action": "rollover", 
    "name": "check-rollover-ready"
  },
  "next_step": {
    "phase": "warm" 
  }
}

虽然不是必需步骤，但作为安全措施，您可以再次执行 _ilm/explain 命令，确认后备索引已进入下一阶段，且不再处于"热"阶段。

一旦满足以下条件，您就可以安全地删除具有映射冲突的原始后备索引：

新的后备索引已成功创建。
文档已迁移到新索引，且计数一致。
映射已修正（包括数据流专用映射和 ECS 映射）。
数据流包含了新的支持索引。
ILM 策略已生效，索引已离开 hot 阶段。

重要提示：或者，在删除原始索引之前，可以查看“数据视图”页面。选择 logs-*，确认重索引后的后备索引（以 -1 结尾）现在显示在 long 部分。原始后备索引应仍存在于 keyword 下。如果重索引后的后备索引不在 long 部分，请返回检查前面的步骤，并做出必要修正。

例如：

DELETE .ds-logs-filestream.generic-default-2026.04.14-000001

冲突解决后，回到“数据视图”页面，选择 logs-*。如果冲突仅与 log.offset 相关，则不应再看到任何列出的冲突。如果还存在其他冲突，原始后备索引应不再出现在冲突列表中；相反，新的后备索引现在应列在 long 部分。

您还可以在 Discover 中验证 log.offset 字段现在显示了合适的图标。

继续重复上述步骤，处理每个存在映射冲突的后备索引，直到所有冲突都成功解决。

参考资料：

总结

遵循本文步骤，您将能够解决映射冲突，并确保所有新数据都被正确映射。这可以通过将必要的组件模板关联到数据源来实现。该工作流不仅解决了当前问题，还建立了一套安全且可重复的流程，用于随着数据和需求演进来管理架构变更。

我们如何构建 Elasticsearch simdvec，使其成为世界上速度最快的向量搜索之一

Chris Hegarty, Lorenzo Dematte, Simon Cooper — Thu, 23 Apr 2026 00:00:00 GMT

Elasticsearch simdvec 是 Elasticsearch 中每一次向量距离计算的核心引擎。它为 Elasticsearch 支持的每一种向量类型提供手动调优的 AVX-512 和 NEON 内核。其批量评分架构通过 x86 上的显式预取和 ARM 上的交错加载来隐藏内存延迟；当数据规模超出 CPU 缓存容量时，性能最高可比 FAISS 和 jvector 等库快 4 倍。在本文中，我们将介绍为何要打造它、其内部构成，以及它如何让 Elasticsearch 向量搜索跻身全球最快之列。

我们如何构建 Elasticsearch simdvec

Elasticsearch 中的每一次向量搜索查询，无论是分层导航小世界 (HNSW) 遍历、倒排文件 (IVF) 扫描，还是重排序阶段，最终都会归结为同一个问题：在一次查询中，数百万次计算向量之间的距离。Elasticsearch 支持广泛的数据类型和量化策略，从 float32 到 int8、bfloat16、binary 以及 Better Binary Quantization (BBQ)。每种类型都在内存、吞吐量和召回率之间形成不同取舍。而这一切背后都有一个统一的引擎：simdvec。

我们打造 simdvec，是为了让每一次距离计算都尽可能逼近硬件允许的性能上限。在本文中，我们将介绍为何要打造它、它的内部构成，以及它在哪些场景中影响最大。

设计得如同一辆赛车

作为一级方程式赛车 (F1) 爱好者（我们其中一人曾效力于法拉利 F1 车队），我们看到了一个清晰的相似之处。F1 赛车的设计只有一个目标：取得最佳单圈成绩。发动机功率、空气动力学和底盘设计之所以重要，是因为它们都服务于这一结果。向量数据库也是如此：索引吞吐量、查询延迟和召回率决定了成功与否。

最终结果固然重要，但要达到最高性能水平，就需要每个组件都做到极致。它不能只是“足够好”，而必须是同类中的“最佳”。simdvec 正是以这种思路打造的，聚焦于系统中的一个关键部分：引擎。它是一个专门构建、针对单指令多数据 (SIMD) 优化的内核库，提供手动调优的原生 C++ 距离函数，并通过 Panama 外部函数接口 (FFI) 从 Java 调用这些函数。它支持批量评分、缓存行预取，以及 Elasticsearch 中使用的所有向量类型和布局。

这就是每个查询背后的引擎。

为什么我们要自研

我们在 2023 年从 Apache Lucene 中的 Panama Vector API 起步。它在处理 float32 点积时表现良好，但 Elasticsearch 的需求很快就超出了它的能力范围。Elasticsearch 需要支持一系列量化向量类型：int8、int4、bfloat16、单比特以及非对称 BBQ。每种类型都有不同的 SIMD 策略、打包布局和累加器要求。除了类型覆盖范围之外，Elasticsearch 的评分路径还需要的不只是单对向量吞吐量：HNSW 需要在一次过程中为多个图邻居评分，IVF 需要对数千个候选项进行带预取的批量评分，而基于磁盘的评分需要直接在 mmap 映射内存上工作，实现零拷贝。我们考察了现有方案，发现没有一个能完全满足这些要求。

于是，我们打造了 simdvec：通过 FFI 从 Java 调用手动调优的原生 C++ 内核，具备批量评分和预取能力，并支持 Elasticsearch 使用的每一种向量类型。通过自有这个库，我们可以控制完整技术栈。当我们添加 BBQ 这样的新量化类型时，它会获得经过调优的 SIMD 内核，并完整接入整个系统。我们无需等待上游库支持它，也无需在任何类型的性能上做出妥协。Elasticsearch 中的每一次向量查询——无论是 HNSW、IVF、重排序还是混合检索——都运行在这个引擎之上。这个引擎正是围绕我们实际使用的操作和类型量身打造的。

simdvec 针对 x86 和 ARM 分别提供原生库，每种库都有多个指令集架构 (ISA) 层级，并在启动时选择。通过 FFI 从 Java 调用的开销非常低，仅为个位数纳秒级。

技术格局

我们并不是唯一在打造 SIMD 优化向量距离内核的团队。这个生态系统非常丰富，我们希望了解 simdvec 的表现。这并非为了给项目排名，而是为了提供上下文，说明 Elasticsearch 的引擎处在什么位置。我们选择了三个项目作为参考点，每个代表一种不同的技术路径：

jvector：一个 Java 近似最近邻 (ANN) 库，使用 Panama Vector API 进行向量化距离计算，并在 x86 上提供可选的原生 C 加速。
FAISS：一个广泛部署的开源矢量搜索框架，带有手动调整的 AVX2/AVX-512 内核。
NumKong（原 SimSIMD）：一个包含 2,000 多个手动调优 SIMD 内核的综合库，覆盖距离函数、矩阵运算和地理空间计算。

每个项目服务于不同的目标，有着不同的取舍。我们引用它们的参考数据，是为了给 simdvec 在 Elasticsearch 所需特定操作上的性能提供参照。

我们如何衡量

simdvec 和 jvector 基准测试使用 Java 编写，并采用 JMH（标准 JVM 微基准测试框架），测试中包含 FFI 开销。对于 NumKong 基准测试和 FAISS 基准测试，我们使用 Google Benchmark（标准 C++ 微基准测试框架）编写了小型 C/C++ 测试程序。两个框架都会在预热和迭代校准后报告每次操作所需的纳秒数。我们通过硬件性能计数器验证了所有库在两个平台上都确实使用了 SIMD。所有基准测试代码均已公开在链接的 GitHub 存储库中；对于 simdvec，代码位于 elasticsearch 存储库中。

软件：JDK 25.0.2、JMH 1.37、GCC 14、Google Benchmark（最新版）。

一次处理一个向量

向量搜索中最基础的操作是计算两个向量之间的距离。每一次 HNSW 邻居评估、每一次 IVF 候选项评分、每一次重排序比较，都会归结为这个内层循环。

我们在两个平台上测量了 1024 维下的单对向量吞吐量，首先从 float32 开始。这是基准类型，也是生态系统中竞争最激烈的类型。我们将 simdvec 与 FAISS 和 jvector 进行了对比；我们排除了 NumKong，因为它在 float32 上使用 float64 累加器，速度慢 3.2 到 5.3 倍（取决于平台），这是以吞吐量换取数值精度。为了保持同类对比，我们改为在 int8 上测试 NumKong，因为此时它采用的累加器策略与 simdvec 相同。

在 x86 上，FAISS AVX-512 是最快的单对内核，耗时 23 ns。simdvec AVX-512 紧随其后，为 28 ns，这一差距反映了 FFI 调用开销。两者都使用 512 位 FMA，并采用多累加器展开。在 AVX2 层级，两者更接近，分别为 36 ns 和 39 ns，都受限于 256 位寄存器和内存加载宽度。jvector 使用 Java Panama Vector API，耗时 44 ns。Panama 能生成良好的 SIMD 代码，但手动调优的 C++ 内部函数仍然具有优势。

在 ARM 上，simdvec 以 70 ns 领先，明显快于 110 ns 的 jvector 和 156 ns 的 FAISS。simdvec 针对 aarch64 提供手动调优的 NEON 内核。jvector 没有 ARM 原生代码，依赖 Panama。FAISS 依赖编译器自动向量化，而非显式的 NEON 内部函数，这也解释了更大的性能差距。这体现了拥有自有内核库的一个实际优势：当 Elasticsearch 扩展到 Graviton 时，我们添加了专门构建的 NEON 内核。而 jvector 和 FAISS 尚未以同等程度优先投入 ARM 原生代码。

但 Elasticsearch 评分的远不止 float32。int8 量化可将内存占用降至原来的四分之一，bfloat16 降至原来的一半，BBQ 降至原来的三十二分之一。每种类型都需要自己的 SIMD 策略，而 simdvec 为所有这些类型都提供手动调优的原生内核。

在我们比较的库中，只有 NumKong 拥有可用于 int8 对比的内核。我们测量了 1024 维度下的 int8 点积、平方欧几里得距离和余弦计算。

Int8 单对评分（1024 维，ns/vec op – 越低越好）

在两种架构上，NumKong 在中小维度下持平或更快，差异主要来自更低的调用开销（直接 C 调用 vs Java FFI）。在更高维度下，simdvec 迎头赶上，因为更高效的内核实现（使用级联展开）摊薄了调用成本：随着维度增加，这一差距会缩小并最终反转。交叉点出现在 768 到 1536 维之间，具体取决于函数和架构。

尽管 Java FFI 存在略高的开销，simdvec 的表现仍足以媲美高度优化的 C/C++ 库。它不仅是唯一一个同时为 float32 和 int8 提供优化内核的库，而且在 ARM 上保持领先，在 x86 上的 float32 方面也仅略逊于 FAISS，在 int8 上与 NumKong 在两个架构上都非常接近。对于 bfloat16、int4、binary 和 BBQ，虽然存在其他替代方案，但 simdvec 的优势在于，它能够针对每种类型的数据布局进行手动 SIMD 调优。

然而，生产环境下的搜索引擎不会一次只为一个向量评分，而是会在每次查询中为数千个向量评分。接下来的问题是：在如此规模下性能表现如何？

一次处理数千个向量

单对向量性能只是整体图景的一部分。在实践中，真正重要的是系统在负载下的行为。一次 HNSW 查询可能会为数百个图邻居评分。一次 IVF 扫描可能会为数千个倒排列表条目评分。一次重排序阶段可能会为数万个候选项评分。单对吞吐量固然重要，但更关键的是评分大量向量时的速度，以及当工作集超出 CPU 缓存时性能下降是否平缓。

simdvec 为每一种数据类型都提供了批量评分功能。这绝非简单的单对内核循环，而是使用了多累加器内层循环：在每个维度步长 (stride) 中仅加载一次查询向量，并让多个文档向量共享该向量，同时针对下一批次执行显式的缓存行预取。在本文撰写之时，jvector 和 FAISS 都没有提供等效功能。jvector 没有批量 API，调用者只能在循环中逐对评分。FAISS 暴露了 fvec_inner_products_ny，但在撰写本文时，其实现方式仍是循环调用单对向量距离函数，没有查询向量摊销，也没有预取。

Float32。为了在内核层面衡量影响，我们使用随机访问模式来模拟类似 HNSW 的分散式图邻居查找，并让单个查询对数量不断增加的 1024 维 float32 文档向量进行评分。我们选择了 32、625 和 32,500 个向量这三种数据集规模，使工作集分别超出 L1、L2 和 L3 缓存。

当数据能放入缓存时，simdvec 在两个平台上都是最快的，但优势不大，因为此时内核算术运算占主导。真正的差距出现在工作集超出 L3 缓存之后。在 x86 上，simdvec 每个向量 95 ns，而 FAISS 需要 165 ns，jvector 需要 412 ns。在 ARM 上，模式相同：simdvec 保持在 162 ns，而 FAISS 攀升到 347 ns，jvector 到 476 ns。simdvec 中的预取和查询向量摊销能够以简单循环调用单对向量内核无法匹敌的方式掩盖内存延迟；而在真实搜索工作负载所处的大量访问主内存的场景中，这种优势会进一步扩大。

Int8。同样的模式在量化类型上也成立。我们测量了 1024 维 int8 点积的批量评分，数据集大小同样选择为超出 L1、L2、L3 缓存边界，将 simdvec 的批量评分与 NumKong 循环调用的单对评分进行了对比。

在 x86 上，simdvec 快 1.2 倍到 1.9 倍，这得益于显式预取和批处理的结合。在 ARM 上，simdvec 再次胜出，在所有数据集大小下快 1.7 倍到 1.9 倍。优势来自每次批处理四个向量，通过交错访问模式提供内存级并行性。在这两种情况下，最引人注目的结果都出现在最大数据集规模上，而这也正是最关键的场景。

平方距离和余弦计算的结果也呈现类似模式：ARM 上加速 1.4 倍到 1.8 倍，x86 上加速 1.3 倍到 3.0 倍（详见此处）。

当内存成为瓶颈

生产环境中的向量索引通常无法放入 CPU 缓存。一个包含 1,000 万个 1024 维 int8 向量的索引大小为 10 GB。为候选项评分意味着需要从 DRAM 流式读取数据，而这正是批量评分架构发挥作用的地方。

我们使用硬件性能计数器来测量批量评分过程中 CPU 内部的实际运行情况，结果发现，隐藏内存延迟需要两种截然不同的策略，每种架构各对应一种。

在 x86 上，显式预取大幅减少了缓存未命中。批量内核会按顺序处理向量，先完整计算一个向量，再处理下一个，同时为下一批数据发出预取指令。未来所需的数据在 CPU 需要之前就被拉入 L1 缓存。

在 ARM 上，即使使用预取，顺序处理方法也表现不佳。取而代之的是，批量内核采用交错加载策略：在每个步幅位置交错加载四个向量的数据，为乱序执行引擎提供四个独立的内存流。CPU 并没有加快取数速度，而是在内存请求在途时，通过始终保持有计算任务可做来减少等待时间。详细分析可参阅此 GitHub issue。

这些数字讲述了两个不同的故事：

在 x86 上，预取将缓存未命中从 13.9 万次降低到 1.9 万次，每周期指令数 (IPC) 提升了一倍以上。批量处理的优势会随着数据集规模增长而扩大：当工作集位于 L2 时为 1.2 倍，超出 L3 后则达到 2.8 倍，因为预取能够掩盖越来越高的 DRAM 往返访问开销。
在 ARM 上，缓存未命中几乎没有变化。真正变化的是利用率：后端停顿减少 40%，因为交错访问模式让流水线持续有任务可执行。这一优势在不同数据集规模下稳定保持在 1.8 倍，因为内存级并行性无论数据来自缓存还是 DRAM 都同样适用。

两种架构，两种策略，一个结果：在生产规模下，即使向量散落在主内存各处，simdvec 也能让 CPU 流水线保持忙碌。

这对 Elasticsearch 用户意味着什么

这些内核层面的能力会不断叠加。一次向量搜索查询可能会执行数百万次距离操作：HNSW 图遍历、候选项评分、重排序。在数千个并发查询下，每次操作的纳秒级差异都会直接影响查询延迟和集群吞吐量。无论您使用 float32、int8、bfloat16 还是 BBQ，无论您的索引在内存中还是磁盘上，simdvec 都是底层的引擎，而每一次操作都运行在这个引擎上，并经过了哪怕一纳秒都不放过的极致精细调优。

关键结论是，在生产规模下，向量搜索性能并不主要由原始 SIMD 吞吐量决定，而是取决于系统能否在持续处理数百万次小型操作的同时，高效掩盖内存延迟。

simdvec 内核几乎会随每个 Elasticsearch 版本持续改进。当新的量化类型和硬件平台出现时，它们从第一天起就能获得经过调优的内核。而现有类型也会随着我们不断优化已发布的实现而持续变快。

Jina Embeddings v3 现已登陆 Gemini Enterprise Agent Platform Model Garden

Sa Zhang — Wed, 22 Apr 2026 00:00:00 GMT

今天我们推出 jina-embeddings-v3，这是第一个以可自行部署的合作伙伴模型形式登陆 Gemini Enterprise Agent Platform Model Garden 的 Jina 搜索基础模型。自行部署意味着模型在您的 Google Cloud 项目和虚拟私有云 (VPC) 中的 GPU 实例上运行。没有外部 API 调用，没有按词计量，没有速率限制。

通过此次集成，Elasticsearch 用户获得了一个新的部署选项，能够将数据控制在安全边界内，实现可预测的基础设施成本，并原生运行于 Google Cloud 上。与此同时，更广泛的 Google Cloud 生态系统也能够使用 Jina 专为搜索和检索构建的最先进模型。

这是更广泛发布计划的第一阶段。与后续即将推出的模型一起，这一系列将构成一个完整的检索堆栈：嵌入您的数据、嵌入查询、检索和重排序候选结果、使用多模态嵌入将搜索扩展到图像——所有这些都在您控制的基础架构上完成。您今天就可以从 jina-embeddings-v3 开始，模型已经通过 Elastic Inference Service（EIS）在 Elasticsearch 生态系统中为生产搜索管道提供支持。

模型	类型	参数	主要功能	在 Model Garden 中的状态
`jina-embeddings-v3`	文本嵌入	572M	久经考验的多语言主力，8K 上下文，1024 维输出，可截断至 32 维	现已提供
`jina-embeddings-v5-text-small`	文本嵌入	677M	先进的小于 1B 参数多语言模型，32K 上下文，1,024 维输出，可截断至 32 维	即将推出
`jina-embeddings-v5-text-nano`	文本嵌入	239M	5 亿参数以内的最佳模型，8K 上下文，768 维输出，可截断至 32 维	即将推出
`jina-reranker-v3`	重排序器	600M	Listwise 重排序器，131K 上下文，最多支持 64 个文档	即将推出
`jina-clip-v2`	多模态嵌入	9亿参数	文本+图像共享空间，89 种语言，8K 文本上下文，512×512 图像	即将推出

每个模型都运行在单个 NVIDIA L4（24 GB）上，这是 Google Cloud 上最具成本效益的 GPU 层级。Google Cloud Model Garden 上的大多数其他嵌入模型都需要 A100 80 GB 或 H100，其每小时实例成本大约是 L4 的三倍，这还没有算上词元用量。

通过 Vertex AI 部署时，无需额外的商业许可证。

为什么选择模型花园？

为什么要通过 Model Garden 进行部署，而不是使用 API？归结为三个因素：控制、成本和上下文。

您的数据永远不会离开本地环境

对大多数开发者来说，最大的吸引力在于自行部署的架构。当您通过 Model Garden 部署 Jina 模型时，模型权重运行在您自己的 Google Cloud 项目以及您自己的 VPC 内的 GPU 实例上。这对于任何面临数据安全顾虑（如金融或医疗行业）的从业者来说，都是一个颠覆性的改变。由于没有外部 API 调用，您的敏感数据始终保留在安全边界内。

按预测进行扩展

您不需要为每次嵌入句子或重排序文档付费，而是支付固定的每小时实例成本。而且，因为每个 Jina 模型都可以在 Google Cloud 上最经济的 GPU 级别 NVIDIA L4 上运行，所以入门门槛很低。无论您处理数千个请求还是数十亿个请求，您的基础架构费用都是可预测的。这种模式实际上会奖励您的流量增长，而不是向您征税。

一切尽在同一屋檐下

如果您的数据已经存放在 Google Cloud 上的 Elasticsearch、BigQuery 或 Cloud Storage 中，那么将推理引擎保持在这些数据附近是非常合理的。通过 Model Garden 部署，Jina 搜索基础模型继承了您已经在使用的所有企业级功能：用于访问控制的身份与访问管理 (IAM)、在现有 Google Cloud 账单上的统一计费，以及接入 Vertex AI Pipelines 进行机器学习运维 (MLOps) 工作流的能力。

虽然 Jina AI Cloud API 和 Elastic Cloud 为突发流量或现有搜索工作流提供了最快的路径，但 Model Garden 对于需要严格数据安全和大规模可预测成本的企业应用来说是理想选择。Elastic 希望在任何您需要的地方满足您的需求。

Jina AI 模型

jina-embeddings-v3

我们成熟的多语言嵌入模型，具有 572M 个参数和 8K 个词元上下文。在 Massive Text Embending Benchmark (MTEB) 英语测试中获得 65.5 分。支持五种任务特定的低秩适配 (LoRA) 适配器（检索查询/段落、文本匹配、分类、集群）以及从 1024 到 64 维度的 Matryoshka 截断。该模型已通过 EIS 在 Elasticsearch 生态系统中得到广泛采用。

我们首先推出 v3，因为许多生产系统已经依赖于它。如果您正在将基于 v3 的管道迁移到 Google Cloud，您现在可以直接运行相同的模型，无需更改嵌入维度或重建索引。

jina-embeddings-v5-text（small 和 nano）

我们于 2026 年 2 月发布的第五代文本嵌入模型，达到了顶级性能，可与数倍于其规模的模型相媲美。

v5-text-small （6.77 亿参数）：在多语言 MTEB（MMTEB）基准套件上得分为 67.0，该套件涵盖 9 种任务类型的 131 项任务；在 MTEB 英文基准上得分为 71.7。它是 MTEB 排行榜上最强大的 10 亿以下多语言嵌入模型。

v5-text-nano （2.39 亿参数）：在 MMTEB 上得分为 65.5。没有其他 5 亿参数以下的模型能达到这一水平。其规模不到大多数同类模型的一半，是边缘计算和延迟敏感型部署的自然选择。

两种模型均支持：

四个特定任务的 LoRa 适配器：检索、文本匹配、分类、集群。在推理时通过 task 参数选择合适的适配器。
Matryoshka 维度截断：将嵌入维度从 1024（nano 为 768）减少至 32。适度截断（例如 256 维）时质量损失极小。维度减半大致使存储减半。
二值量化：使用二值化将 1,024 维嵌入从 2 KB 压缩到 128 字节。专门的训练使得这种压缩的损失极小。
多语言：small 支持 119 种语言，nano 支持 93 种语言。

jina-reranker-v3

一个 0.6B 参数的多语言 listwise 重排序器，采用最后但不晚的交互架构。查询和最多 64 个候选匹配项被输入到单个 131K 词元的上下文窗口中，模型在评分前执行跨文档比较。Jina Reranker v3 在 BEIR 上达到了 61.94 的 nDCG@10，优于规模大 6 倍的模型。这与 pointwise 重排序器（对每个文档单独评分）有本质区别，能产生更好的结果，尤其是对于从单个文档中进行段落检索。

jina-clip-v2

一个 0.9B 参数的多模态、多语言嵌入模型，将文本和图像映射到共享的 1024 维空间。它支持：

89 种语言的文本图像检索。
图像分辨率为 512×512。
8K 词元文本输入。
针对两种模态的 Matryoshka 截断（从 1024 维到 64 维）

在图像到文本基准测试中表现出色，包括多语言任务。

开始使用

Jina Embeddings v3 即日起在 Model Garden 上线。以下是运行它的方法。

您需要一个启用了 Vertex AI API 的 Google Cloud 项目，以及足够的 GPU 配额用于至少一个 g2-standard-8 实例（NVIDIA L4）。如果您是 Google Cloud 的新用户，请从设置指南开始。

Jina Embeddings v3 的 Model Garden 页面将引导您完成整个流程：上传模型、创建终端节点、选择机器类型，然后部署。在自己的项目中打开它，并遵循指导步骤。在区域和配额允许的情况下，也可以使用 A100 和 H100 机器，但入门只需 L4 即可。

从点击到首次嵌入，整个过程只需几分钟。

后续计划

Jina Embeddings v3 是一个起点。在接下来的几周里，我们将把 Jina 检索堆栈的其余部分带到 Model Garden：v5 文本嵌入（small 和 nano）、jina-reranker-v3 以及用于多模态搜索的 jina-clip-v2。所有这些模型都将以相同的自行部署模式在单个 L4 GPU 上运行。

Elastic Security、Observability 和 Search 现已在您的 AI 工具中支持交互式 UI。

David Elgut, Graham Hudgins, Jesse Miller — Tue, 21 Apr 2026 00:00:00 GMT

AI 智能体的强大与否，很大程度上取决于其返回的交互界面。如果仅以纯文本形式输出，仪表板、告警列表、调查图谱或分布式追踪等原本直观、可交互的内容将变得索然无味。对话不应仅仅局限于一问一答；否则，一旦任务复杂度增加，您就不得不切换到其他标签页、产品或身份验证环境。

MCP 应用改变了答案的呈现形态。工具现在可以在返回文本摘要的同时提供交互式 UI，而宿主端（如 Claude Desktop、Claude.ai、VS Code Copilot、Cursor）则会直接在对话中进行内联渲染。模型利用保留的精炼文本进行逻辑推理。用户在聊天窗口旁就能获得一个实时可交互的界面。

三个特性让这种集成方式区别于“返回 URL 的 webhook”：

上下文保留。UI 就在对话中。无需切换标签页，无需切换上下文。
双向数据流。UI 可以调用 MCP 服务器上的工具以获取最新数据，宿主端也能将智能体的新结果推送回 UI，无需额外的 API 层或复杂的身份验证基础设施。
沙盒化的信任边界。MCP 应用在由宿主管控的 iframe 中运行。它们无法访问父页面、读取 Cookie，也无法逸出其容器。

安全运营依托于告警分类、调查图谱和 Attack Discovery，AI 智能体可将数百条告警关联为少数几条攻击链。可观测性意味着分布式链路追踪和时间序列下钻。在 Kibana 中构建意味着采用网格化的仪表板布局。如果将这些内容平铺成文字，就会失去其有用之处。我们为这三个平台都构建了 MCP 应用，并将它们一起开源，这样同一个对话就可以从分类队列转移到依赖关系图，再到实时仪表板，而无需离开聊天界面。

三个参考应用中的每一个都是一个为多个交互视图提供服务的 MCP 服务器，而不是一组独立的产品。仅安全应用就提供六个仪表板，它们共享同一个服务器框架、同一个工具可见性模型和同一个宿主桥接层。这种模式虽然轻量，但其提供的交互面正是价值倍增之处。

Elastic Security MCP 应用

为什么这对 SOC 很重要

当智能体告诉 SOC 分析师“主机 host-314 上有 47 条告警，这是摘要”时，它实际上并未开始实质性工作。它只是指出了工作的起点。真正的工作发生在告警列表、进程树、调查图谱和案例记录中。您无法仅凭一段文本就完成这些实际工作。

安全 MCP 应用程序返回了工作流本身。分析师提示代理，代理在聊天中返回了一个交互式仪表板，分析师可以在其中深入查看警报、运行威胁搜寻、关联攻击链并打开案例，所有这些操作都不会丢失对话的线索。由于所有发现、查询和案例都会回写到 Elasticsearch，同样的调查会在 Kibana 中等待，分析师可以在对话结束后接着处理。

六个交互式仪表板

Elastic Security MCP 应用提供了六个交互式组件，分别对应 SOC 的核心工作流。每个都是一个 React UI，当代理调用相应工具时，会在对话中以内联方式渲染：

工具	功能说明	交互式 UI
告警分类	获取、筛选和分类安全警报	严重程度分组、AI 判定卡、进程树、网络事件
Attack Discovery	基于 AI 关联的攻击链分析，支持按需生成	攻击叙事卡片，包含置信度评分、实体风险，MITRE 映射
案例管理	创建、搜索和管理调查案例	包含告警、可观测对象、评论选项卡和 AI 操作的案例列表
检测规则	浏览、调优和管理检测规则	带 KQL 搜索、查询验证和噪声规则分析的规则浏览器
威胁搜寻	支持实体调查的 ES\|QL 工作台	查询编辑器、可点击实体和调查图表
样例数据	针对常见攻击场景生成 ECS 安全事件。	带有四条预设攻击链的场景选择器

每个工具都会返回一个紧凑的文本摘要，供模型进行推理，同时分析人员可以在交互式 UI 上操作。UI 还可以通过 MCP 主机桥在幕后获取最新数据。完整的工具模型和桥接 API 位于代码库的架构文档。

该应用还随附 Claude Desktop 技能，以及 SKILL.md 文件，用于指导代理何时以及如何使用各个工具。从最新版本下载预构建的技能 zip 压缩包。

从告警到案例

四项技能覆盖了 SOC 的核心工作流。每个技能都会接收一个提示，调用一个工具，并返回一个交互式仪表板，以及供模型推理的文本摘要。分析师的一天通常从告警队列开始。

对告警进行分类。让代理按主机、规则、用户或时间窗口进行分类。Alert Triage 技能会返回一个 AI 判定仪表板，位于原始警报列表上方。每个检测规则都有一个判定，将该规则的活动分类为良性、可疑或恶意，并附有置信度分数和推荐操作。点击任意警报即可打开包含进程树、网络事件、相关警报和 MITRE ATT&CK 标签的详细视图。无需在 AI 会话与 Kibana 告警仪表板之间反复来回，一切操作都在对话中实时完成。

开展威胁搜寻。让代理在您的索引中执行威胁搜寻。Threat Hunt 技能会返回一个 ES|QL 工作台，该工作台预先填充并自动执行了查询，结果中的每个实体均可点击进行深入查看。模型在表格下方写了一个简短的读数：哪些地方异常、哪些内容彼此关联、哪些值得进一步查看。然后，它会给出下一步切入点：要么更深入地研究威胁，要么在 MCP 应用中开始一项新技能，以补充迄今为止所做的工作。与之完美契合的是启动 Attack Discovery，从而为您已深入探究的告警和目前搜寻到的威胁收集更多上下文信息。

运行 Attack Discovery。Attack Discovery 技能会触发 Attack Discovery API，并返回按优先级排序的发现列表。每个发现都是一组相互关联的警报，这些警报会被串联成一条攻击链，并会在前面优先展示 MITRE 策略、风险评分、置信度标签，以及受影响的主机和用户。智能体的摘要会按相同的排名顺序显示在发现下方，而对话现在已包含采取行动所需的一切：搜寻查询、分类决策、关联的链条，均已为下一步做好准备。

无需离开聊天窗口即可创建案例。批量批准发现项，或让代理为特定告警创建案例。案例管理技能会根据批准的发现项创建一个案例（附带源告警，继承自攻击链的 MITRE 策略），并以内联方式渲染实时案例列表。点击案例以查看其详细视图，其中包含一行 AI 操作按钮：总结案例、建议下一步、提取 IOC 和生成时间线。每个按钮都会将一个结构化的提示放回聊天中，这样代理就能获取案例上下文，无需重新说明上下文。代理的摘要位于案例列表下方，涵盖了完整的事件响应队列，包括刚创建的案例和仍需处理的早期发现。

本演练中的每一步都运行相同的循环：收到提示后，技能接收提示，工具返回一个简洁的文本摘要供模型进行推理，同时返回一个交互式用户界面（UI）供分析师操作。形成端到端的 SOC 流程——搜寻、分类、关联、创建案例，并推动下一步。模型会在每一步中保留会话上下文。单独调用其中任何一个，它仍然是完整的仪表板，指向您指定的数据切片。无论哪种方式，工作都会在对话中积累；没有标签切换，没有复制粘贴，没有交接。

另外两项技能补全了这个应用：检测规则浏览器，用于调整噪声较高的规则；样本数据生成器，用于在新集群上生成逼真的 ECS 事件。后续文章将深入探讨全部六个方面：调查图谱、攻击流程画布和端到端演练。

“Elastic Security 的 MCP 应用弥合了自动检测和手动搜索之间的差距。”通过将安全数据直接导入 Claude Desktop 的单一接口，我们在不到一小时内发现了“无声”威胁，这些风险不会触发标准警报，但需要立即采取行动。对于我们的分析师来说，这是一个力量倍增器。”Mandy Andress：Elastic 首席信息安全官（CISO）。

运作方式

每个 MCP 应用都是一个小型 Node.js 服务器，其工具会返回供模型推理的精炼文本摘要，以及由宿主内联渲染的 React UI。由于它是基于开放的 MCP 应用程序规范构建的，因此同一服务器可在任何兼容主机上运行——有关完整设计，请参阅软件仓库的架构文档。

试用

需要启用 Security 的 Elasticsearch 9.x，以及用于案例、规则和攻击发现的 Kibana。最快的方式是使用最新版本中的一键式 .mcpb 安装包——在 Claude Desktop 中双击它，系统会提示您输入 Elasticsearch URL 和 API 密钥。Cursor、VS Code、Claude Code、Claude.ai 和从源代码构建的设置指南都在软件仓库中。

Watch video on Vidyard

Elastic Search MCP 应用程序：通过对话构建的仪表板

Kibana 用户都深知创建仪表板的繁琐：必须停下工作，打开 Kibana，选择索引、字段和可视化效果，最后再调整保存。一个图表还没显示出来，就已经经历了五次上下文切换。

新的 example-mcp-dashbuilder 参考应用将其简化为一个提示。要求代理“为我构建一个包含收入指标、订单趋势和类别细分的仪表板”，而且仪表板会在对话中返回，无需切换标签。

在该提示后，代理通过 ES|QL 探索您的 Elasticsearch 数据，并选择与数据相匹配的图表类型：用于比较的条形图、用于趋势的折线图、用于 KPI 的指标卡，以及用于二维模式的热力图。它在 Kibana 的 48 列网格上布置面板，使用 Elastic UI Borealis 主题，结果是完全交互式的：您可以直接在聊天中拖动、调整大小和将面板分组到可折叠的部分中。当仪表板看起来合适时，只需一次工具调用即可将其导出到 Kibana，同时保留 ES|QL 查询和自定义颜色。您还可以将现有的 Kibana 仪表板导入到聊天中，以便进行 AI 辅助编辑。

其原理与 Security 应用相同：当产物本身就是产品时，在对话中直接返回它，就能打通从描述需求到看到结果之间的闭环。

在底层，它遵循相同的 MCP 应用模式。Node.js 服务器注册一个面向模型的 view_dashboard 工具，以及一组仅供应用内部调用、由 UI 直接调用的工具（数据获取、布局持久性、时间字段检测、导出/导入）。仪表板视图本身是一个单一的独立 HTML 文件，与 vite-plugin-singlefile 捆绑在一起，并作为 MCP 应用资源提供。开发者复刻（fork）该代码库后，会获得与 Security 应用中相同的服务器 shell 和主机桥，但面向不同的任务场景。example-mcp-dashbuilder README 文件包含了完整的架构和图表类型参考。

Watch video on Vidyard

Elastic Observability MCP 应用

第三个参考应用 Elastic Observability MCP 应用则是针对 SRE 场景解决这一“交互形态”问题的对应版本。当生产环境中出现故障时，值班工程师需要的答案不是一张图表，而是由 K8s 指标、APM 拓扑、ML 异常、风险评估等信息拼接而成的诊断。答案的形式是一个因果故事：什么失败了，为什么，什么取决于它，以及下一步该怎么做。

六种支持可观测调查工作流的工具

工具	依赖关系	它的功能是什么
观测	通用	瞬时 ES\|QL + ML 异常访问原语——执行一次查询、实时采样指标，或一直等待直到阈值触发或异常出现。
管理警报	通用	创建、列出、获取和删除 Kibana 自定义阈值告警规则。省略 Kibana URL 以运行为只读模式。
ML 异常	ML 作业	查询 ML 异常记录，并打开内联的异常说明视图。
apm-health-summary	Elastic APM	基于 APM 遥测的集群级健康汇总；在可用时还会纳入 K8s 和 ML 上下文的各层信息。
apm-service-dependencies	Elastic APM	服务依赖图——上游/下游、协议、调用量。
k8s-blast-radius	Kubernetes 指标	节点故障影响——完全中断、性能降级、不受影响、重调度可行性。

集群健康状况汇总

询问“哪里出故障了？”或“给我一份状态报告”，即可一目了然地掌握全局：包括整体健康状态标识、性能下降的服务及其原因、内存占用最高的 pod、异常严重程度分解，以及服务吞吐量——全部在一个内联视图中。这是当您感觉有些不对劲，但又不知道该从哪里入手的时候的起点。视图会根据您的部署支持的内容进行调整。APM 为您提供服务运行状况。Kubernetes 指标添加了 pod 和 Node 上下文。ML 作业也会将异常纳入其中。

服务依赖关系图表

问“哪些服务会调用 checkout？”或者“显示拓扑结构”并获取分层依赖图表——上游调用者、下游依赖项、协议、每条边的调用量和延迟。让我们让 Claude “给我看看前端的服务依赖关系”：

缩放、平移和悬停以获取理解复杂服务关系所需的所有详细信息：

利用影响半径评估风险

询问“如果我的 k8s Node 宕机会发生什么？”并获取一个辐射状影响图：目标 Node 位于中心，完全中断的部署用红色表示，性能下降的用琥珀色表示，未受影响的用灰色表示。浮动摘要卡显示有风险的 pod 和重新调度的可行性。单副本部署被标记为单点故障。

观测

代理访问 Elastic 的主要方式——一个工具，三种模式，满足三种不同需求。说“CPU 当前情况如何？”，它会运行一次 ES|QL 查询并返回一个表。说“显示我接下来 60 秒的前端延迟”，它会实时采样该指标，并原地更新图表。说“当内存降到 80MB 以下时告诉我”或“在接下来 10 分钟内留意任何异常”，它会一直等待，直到条件触发或时间窗口结束。视图可根据模式进行调整：用于单次查询的结果表、用于采样和阈值条件的带当前/峰值/基线统计数据的实时趋势图，以及用于异常模式的按严重程度评分的触发卡。

运作方式

与 Security 和 Search 应用相同的 MCP 应用模式：一个 Node.js 服务器，六个面向模型的工具，对应六个单文件视图资源。工具按部署后端（通用、APM 依赖、K8s 依赖、ML 依赖）进行分组，因此代理和用户都可以提前知道哪些工具适用于特定部署，而不是在调用时发现功能缺口。MCP 应用还包含一个示例的 Agent Builder 工作流：k8s-crashloop-investigation-otel 可以在 Kubernetes 告警触发时启动，并在您打开任何仪表板前返回结构化的根因摘要。

Watch video on Vidyard

代理化技术栈，交互式

关于此模式的三个属性值得直接说明。首先，工具结果不再是工作的终点，而是工作的起点：对话返回的是您可以采取行动的接口，而不是您必须采取行动的摘要。其次，同一个智能体、同一个模型上下文和同一个对话线程，现在可以在 Security、Search 和 Observability 界面之间顺畅切换，而无需离开对话。第三，这之所以可行，是因为 Elasticsearch 和 Kibana 已经公开了 API。MCP 应用程序是我们已提供的产品功能之上的一个轻量级的交互层。

Attack Discovery 已经为该应用内的关联发现视图提供支持。在堆栈内部，同样的代理模式进一步延伸：Elastic 工作流自动执行确定性步骤（丰富实体、创建案例、隔离主机），而 Agent Builder 则对数据进行推理并调用这些工作流作为工具。MCP 应用将同一套安全界面引入外部对话；工作流和 Agent Builder 则在技术栈内部对其进行扩展。不同的入口点，底层是相同的 Elastic API。

试用：

安全性：example-mcp-app-security
搜索与仪表板： example-mcp-dashbuilder
可观测性：example-mcp-observability

还没有 Elasticsearch 集群吗？开始免费试用 Elastic Cloud。如需进一步了解安全应用背后的构建模块，请参阅相关 Security Labs 文章：Elastic 工作流和 Agent Builder、Agent 技能，以及攻击发现。

为 Elastic Cloud Serverless 和 Elasticsearch 引入统一的 API 密钥。

Alex Chalkias — Mon, 20 Apr 2026 00:00:00 GMT

假设您是一名站点可靠性工程师 (SRE)，负责管理不断增长的 Elastic Cloud Serverless 项目组合：用于生产基础架构的 Elastic Observability、用于安全运营中心 (SOC) 团队的 Elastic Security，以及用于面向客户应用程序的 Elasticsearch。每个项目都有自己专用的 Elasticsearch API 密钥。您的持续集成和持续交付（CI/CD）管道需要单独一个 Cloud API 密钥来配置和管理这些项目。每季度一次的密钥轮换日到来时：您需要逐个检查每个项目，生成新密钥，更新 Terraform 状态，重新部署管道，并希望一切不出纰漏。当凌晨 2 点发生故障，需要快速撤销访问权限时，您不得不对照一份电子表格来确认哪个密钥属于哪个项目、哪个服务。

如今，这一切变得简单得多。Elastic Cloud API 密钥现在可以直接在 Elastic Cloud Serverless 上对 Elasticsearch 和 Kibana API 进行身份验证。您现在可以使用单一凭证来管理组织的资源并执行数据操作，例如 Elasticsearch 查询语言 (ES|QL) 查询、数据摄取和告警。

下面我们来看看我们构建这一功能的原因、如何设计全局分布式身份层来实现这一目标，以及它如何为跨项目搜索奠定基础。

秘密管理负担

围绕数据平台构建可靠的 CI/CD 管道、GitOps 工作流或 Terraform 自动化，都伴随着一项隐性成本：秘密信息蔓延。

在旧模式下，开发人员面临割裂的身份验证体验：

控制平面 (Elastic Cloud API 密钥)：组织级密钥，组织级作用域的密钥，用于通过 Elastic Cloud API 创建项目、邀请用户和管理计费。
数据平面（Elasticsearch API 密钥）： 项目范围密钥是在特定的 Serverless 项目中创建的，用于与 Elasticsearch 和 Kibana API 进行交互。

这意味着您的部署脚本必须对 Elastic Cloud 进行身份验证，配置 Serverless 项目，从该特定项目中提取新生成的 Elasticsearch API 密钥，然后将该密钥注入下游应用程序或自动化工具，从而导致复杂的管道、分散的审计日志以及更高的凭证泄露风险。

Elastic Cloud Serverless 中的统一身份验证

通过此次发布，Serverless 项目的拆分问题将不复存在。您现在可以创建一个明确授权用于 云、Elasticsearch 和 Kibana API 的 Elastic Cloud API 密钥。

以前：Elastic Cloud API 密钥严格来说是控制平面令牌。它可以创建项目、管理计费和邀请用户，但存在一个硬边界：它不能用于调用这些项目内部的 Elasticsearch 或 Kibana API。您始终需要第二个特定于项目的密钥来执行数据操作。
现在： 在创建 Elastic Cloud API 密钥时，选择 Cloud、Elasticsearch 和 Kibana API 访问权限，Serverless 的硬边界就被移除了。该 API 密钥成为一个真正统一的凭证。它保留了管理组织基础架构的能力，同时获得了跨任何已授权 Serverless 项目进行查询、摄取和分析数据的原生访问能力。

通过将这一切统一到单个 Elastic Cloud API 密钥之下，您获得了一个统一的身份，可以作为一个整体进行范围限定、审计、轮换和撤销。每个 API 调用——无论是配置新项目还是运行 ES|QL 查询——都会在审计日志中显示为使用同一凭证，从而在事件调查或合规性审查期间为您提供单一的追踪线索。凭证轮换成为一步操作，而无需跨独立的控制平面和数据平面秘密信息进行协调更新。而且由于角色分配是按项目进行的，一个密钥可以跨多个项目使用——在您的可观测项目中管理数据摄取，在安全项目中运行查询——无需为每个项目分别管理不同的凭证。

重要的是，统一并不意味着全部权限。通过使用 role_assignments 有效负载，您可以将统一密钥严格限定到单个项目和特定角色（例如只读），从而确保即使凭证泄露，其影响范围也能得到完全控制。如果某位开发人员离职或某个应用程序被停用，您可以在 Elastic Cloud Console 中撤销单个密钥，立即终止对控制平面以及所有关联 Elasticsearch 项目的访问。

(注意：对于 Elastic Cloud Hosted / 托管部署，Cloud API 密钥仍仅用于控制平面管理。计划在未来的版本中支持将其扩展到托管堆栈 API。）

自动化您的工作流

入门很简单。您可以完全通过 Elastic Cloud 控制台进行配置，也可以使用 Elastic Cloud API 对其进行自动配置。

UI 流程保持不变，但现在您可以在项目角色分配下选择 Cloud、Elasticsearch 和 Kibana API 访问权限。

下面说明如何使用 Elastic Cloud API 以编程方式创建统一密钥。请注意 application_roles 数组，正是它授予了密钥对 Elasticsearch 数据平面的原生访问权限：

curl -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: ApiKey $EC_API_KEY" \
  "https://api.elastic-cloud.com/api/v1/users/auth/keys" \
  -d '{
    "description": "unified-automation-key",
    "expiration": "90d",
    "role_assignments": {
      "project": {
        "elasticsearch": [
          {
            "role_id": "elasticsearch-admin",
            "organization_id": "YOUR_ORG_ID",
            "all": false,
            "project_ids": ["YOUR_PROJECT_ID"],
            "application_roles": ["admin"]
          }
        ]
      }
    }
  }'

一旦创建，您只需在 Authorization: ApiKey 标头中向 api.elastic-cloud.com 以及您的特定 Serverless Elasticsearch 终端传递完全相同的这个密钥即可。

底层实现：构建分布式身份层

使一个 Cloud API 密钥能够在控制平面和数据平面同时工作，并不像传递一个令牌那么简单。这需要解决一个根本性的分布式系统挑战。

过去，Cloud API 密钥存储在一个中心化的全局安全集群中。这对于可以接受较高延迟的控制平面操作来说没有问题。然而，Elasticsearch 数据请求要求超低延迟。我们不能为了验证每个搜索查询或摄取请求而在全局范围内往返访问中央控制平面。

为了解决这个问题，我们引入了一种由全局分布式数据存储提供支持的新身份验证架构。下面的序列图展示了一个客户端使用 Elastic Cloud API 密钥发送 Elasticsearch 查询的过程，说明了身份验证完全在本地区域内完成，无需往返全局控制平面。Elasticsearch 将身份验证委托给区域 IAM 服务，该服务针对全局分布式数据库的本地副本验证密钥并解析其角色分配。一旦授权通过，Elasticsearch 执行查询并将结果返回给客户端。

全局分布式持久化

Elastic Cloud API 密钥及其关联的角色定义不再仅依赖集中式安全集群，而是持久化存储在全球分布的高可用数据库中。该数据库在全球控制平面与实际运行您的 Serverless 项目的区域数据平面之间同步身份与访问管理 (IAM) 数据。

使用区域 IAM 进行本地验证

当您的客户端使用 Elastic Cloud API 密钥向 Elasticsearch 发送请求时，该请求不会返回全局控制平面。相反，它会被路由到新的区域 IAM 服务。它会验证本地数据库副本中的密钥，确保身份验证几乎无延迟，并且完全不受全局控制平面故障的影响。

动态角色映射

身份验证只是成功的一半；系统还需要对请求进行授权。区域 IAM 服务可立即将您的云端角色分配 (例如 application_roles) 转换为原生 Elasticsearch 权限。Elasticsearch 随后可在本地授权并执行请求，完全无需本地 .security 索引。

跨项目搜索的基础

这种分布式身份架构是 Elastic 平台未来发展的基础构建块。

由于身份和访问权限现在统一且全局同步，我们拥有了在不同项目之间安全传递您身份所需的框架。这为 Serverless 即将推出的 跨项目搜索 (CPS) 功能提供了支持。

借助 CPS，您将能够查询跨越多个远程 Serverless 项目的数据，例如将安全负载和可观测负载组合起来，就像它们是单一数据集一样简单。通过依赖统一 API 密钥，系统可以自动评估您在所有项目上的权限，而无需您在每个目标项目上配置复杂的信任关系、证书或重复的凭证。

了解详情

准备好简化您的技术栈了吗？

请参阅 Elastic Cloud API 密钥文档，了解如何分配堆栈访问权限。
请参考 Create API key（Elastic Cloud API）文档，以实现密钥自动生成。
查看 Elastic API 密钥，了解 Elastic 平台中各类密钥的完整对比。

立即开始在 Elastic Cloud 上构建或继续您的构建之旅。

免责声明

本文中描述的任何功能或功能性的发布和时间均由 Elastic 自行决定。当前尚未发布的任何功能或功能性可能无法按时提供或根本无法提供。

基于 Elasticsearch + Jina 嵌入的无监督文档集群

Matthew Adams — Fri, 10 Apr 2026 00:00:00 GMT

向量搜索从查询开始，但如果您没有查询呢？

组织往往会积累大量文档，例如支持工单、法律文件、新闻资讯和研究论文；在提出正确的问题之前，首先需要了解这些文档里都包含哪些内容。没有标签或训练数据，手动审查数千份文档是不切实际的。当您不知道要搜索什么时，传统搜索无济于事。

本文将介绍一种 Elasticsearch 原生方法，用于无监督文档集群和时序故事追踪，帮助解决这一发现难题。读完本文后，您就可以像这样跨天追踪故事脉络：

您将发现：

为什么当您希望在没有查询的情况下进行主题发现时，集群嵌入（而非检索嵌入）至关重要。
如何借助 Elasticsearch 的 k 近邻 (kNN) 和批量 msearch，通过密度探测质心分类按主题对文档进行分组。
significant_text 如何自动为集群添加标签，让主题在无需训练模型的情况下也能清晰呈现。
时间故事链如何将每日集群联系起来，展示主题如何逐日演变。

该管道以来自 BBC News 和 The Guardian 的约 8,500 篇 2025 年 2 月文章作为测试语料库。新闻之所以适合作为示例，是因为它具有清晰的时间演化特征；而在任何文档发现至关重要的场景中，这种模式同样适用，例如法律审查、合规监控、研究整合和客户支持分流。

技术栈：

Jina v5 集群嵌入：用于主题分组的任务专用低秩自适应 (LoRA) 适配器。Jina 已加入 Elastic，其模型可通过 Elastic Inference Service (EIS) 原生调用。
Elasticsearch：可扩展的 kNN、significant_text 标签生成和向量存储。
DiskBBQ：一种基于磁盘的向量索引格式，结合了 Better Binary Quantization (BBQ) 与分层 k-means 分区，以加速近似最近邻 (ANN)。这种索引分区是向量搜索的内部机制，与本文使用的密度探测集群算法相互独立。与 bbq_hnsw 相比，bbq_disk 将量化向量存储在磁盘上，并仅在堆内存中保留分区元数据，在保持高召回率的同时，大幅降低了资源需求。
全局集群 + 每日时间链接：发现与故事演变。

您需要：

Elasticsearch 部署（Elastic Cloud、Elasticsearch Serverless 或 Elastic 自托管 8.18+/9.0+）：bbq_disk 需要 8.18 或更高版本。可选的 diversify retriever 部分需要 9.3+ 或 serverless。
Jina API 密钥：免费层级包含 1,000 万个 token，足以覆盖核心集群管道的需求（约 425 万个 token）。可选的 retrieval-versus-clustering 对比需要进行第二轮嵌入计算。
Guardian API 密钥（免费）。

设置

安装所需软件包：

pip install elasticsearch pandas numpy plotly umap-learn python-dotenv pydantic-settings datasets requests

可选（仅当您从此仓库运行抓取帮助程序时）：

pip install beautifulsoup4

然后在项目根目录的 .env 文件中配置 API 密钥：

ELASTIC_CLOUD_ID=your-cloud-id        # or ELASTIC_HOST=https://...
ELASTIC_API_KEY=your-api-key
JINA_API_KEY=your-jina-key
GUARDIAN_API_KEY=your-guardian-key

此笔记本调用 load_dotenv(override=True)，因此本地 .env 值优先。

Connected to Elasticsearch

第 1 部分：发现式集群 —— 为什么要使用集群嵌入？

大多数向量搜索都会使用经过训练的检索嵌入来将查询与相关文档进行匹配。这对于搜索非常合适，但并不适合用于发现。当您希望在没有任何查询的情况下找到语料库中的主题时，您需要使用能将相似文档组合在一起的嵌入。

Jina v5 通过面向特定任务的低秩适配 (LoRA) 适配器解决了这个问题。LoRA 在保持大部分基础模型权重冻结的同时，对目标内部层添加小幅低秩更新，使模型行为转向特定任务，而无需完全重新训练。同一基模型根据 task 参数产生不同的嵌入：

任务	训练用于	用例
检索.段落	查询-文档匹配	搜索，检索增强生成 (RAG)
聚类	主题分组（针对紧密集群进行优化）	发现与分类

集群适配器经过训练，使相同主题的文档在嵌入空间中更接近，而不同主题的文档则更远离。下面的可视化对比会更直观地呈现这种差异。

检索与集群：可视化对比

为了展示这种差异，我们分别使用两种任务类型对文档样本进行嵌入。集群在原始 1024 维嵌入空间中执行；Uniform Manifold Approximation and Projection (UMAP) 仅用于将这些嵌入投影到 2D 进行可视化。UMAP 保留局部邻域结构，因此可用于比较集群的分离程度。

下图展示了同一组 480 篇文档样本分别采用两种任务类型进行嵌入后，再通过 UMAP 投影到 2D 的结果。请观察集群面板中那些更紧密、彼此分离更明显的颜色分组。

    Full dataset: 8,495 articles
    Sources: guardian: 5749, bbc: 2746
    Date range: 2025-02-01 to 2025-02-28


    Sample: 480 docs across 8 sections
    section
    Film              60
    World news        60
    Australia news    60
    Opinion           60
    Football          60
    US news           60
    Sport             60
    Business          60


    Clustering embeddings: 480
    Retrieval embeddings:  480


    UMAP projection complete

检索嵌入（左）会更分散地铺开各个主题；集群嵌入（右）则会基于相同文档形成更紧密、彼此分离更明显的分组。

集群嵌入能够形成更紧密、视觉上也更清晰的分组。检索嵌入会更均匀地分布各个主题，因此非常适合搜索（细粒度相似度）；但对发现来说，更关键的是紧密的主题集群。

这就是为什么在本演练的其余部分中使用 task="clustering" 的原因。

加载数据集

该语料库结合了 2025 年 2 月的两个新闻来源：

BBC News通过RealTimeData/bbc_news_alltimeHuggingFace 数据集。
The Guardian 通过 Guardian Open Platform API。

纳入多个来源，有助于验证集群识别出的是真正的主题，而不是某个来源特有的写作风格。

    Total articles:  8,495
    
    Source breakdown:
    source
    guardian    5749
    bbc         2746
    
    Date range: 2025-02-01 → 2025-02-28
    Days covered: 28
    
    Sample article:
      Source:  guardian
      Title:   Carbon monoxide poisoning ruled out in death of Gene Hackman and wife, police sa
      Section: Film
      Text:    Authorities have ruled out that Gene Hackman and his wife, Betsy Arakawa, died from carbon monoxide poisoning earlier this week in their home in Santa Fe, New Mexico. The Santa Fe county sheriff, Adan...

使用集群任务进行嵌入

在调用 Jina v5 API 处理所有文档时均会传入 task="clustering"。嵌入会缓存到磁盘，因此后续运行会完全跳过 API。

API 调用很简单。task 参数是与典型嵌入使用的关键区别：

payload = {
    "model": "jina-embeddings-v5-text-small",
    "input": texts,
    "task": "clustering",  # ← This selects the clustering LoRA adapter
}

以下时间反映的是缓存命中情况。第一次对 API 运行时间更长，具体取决于语料库大小。

    Embeddings ready: 8,495 vectors of dimension 1024
    Time: 0.6s

索引到单个 Elasticsearch 索引

对于发现式集群，整个月的数据都会写入同一个索引 (docs-clustering-all)。每日分区会在后续阶段进行，用于实现时间故事链接。

索引映射对向量字段使用 bbq_disk：

{
  "embedding": {
    "type": "dense_vector",
    "dims": 1024,
    "index": true,
    "similarity": "cosine",
    "index_options": {
      "type": "bbq_disk"        // hierarchical k-means partitioning for ANN index lookup; separate from this post's clustering algorithm
    }
  }
}

1024 维 float32 向量大小为 4 KB。 bbq_disk 使用分层 k-means 将向量划分为小集群，对其进行二进制量化，并将全精度向量存储在磁盘上以便进行二次评分。只有分区元数据保留在堆内存中，因此即使面对大型语料库，内存需求仍然较低。对于能够承受更多堆内存的工作负载，bbq_hnsw 构建分层可导航小世界 (HNSW) 图，以实现更快的查找，但资源消耗更高。

dense_vector 字段类型支持多种量化策略：bbq_disk 和 bbq_hnsw 最适合高维嵌入，例如此处使用的 1,024 维向量。

    Indexed 8,495 documents into docs-clustering-all
    Time: 57.5s

集群：基于密度探测的质心分类

传统的集群算法（如 HDBSCAN）假设您可以将完整的 N×d 向量矩阵保存在内存中，并运行重复的完整遍历更新。对于 8,495 篇 1024 维文档而言，这一规模尚可管理（约 35 MB）；但如果没有额外基础设施，这种方法就无法扩展到数百万篇文档。

从概念上看，该算法类似于采用 Voronoi 分配和噪声底限的 KMeans++ 初始化；但它将 Elasticsearch kNN 搜索作为计算原语，因此几乎所有工作都在服务器端完成。

抽取 5% 的文件 作为密度探针（随机抽样，至少 50 个）。
通过批量 msearch kNN 查询探测密度。每个探针发出 kNN 查询，并记录其邻居的平均相似度。高平均相似度 = 嵌入空间中的稠密区域。msearch 在单个 HTTP 调用中发送多个搜索请求，这一点至关重要：密度探测生成数百个 kNN 查询，批量处理可避免每个请求的开销。
通过多样化策略选择高密度种子：将密度高于中位数的候选种子按密度从高到低排序，只有当它与每个现有种子的余弦相似度都低于分离阈值时，才按贪婪策略予以接受。这是唯一的客户端计算（8k 文档约 0.01 秒）。
通过 msearch kNN 按质心对所有文档进行分类：每个种子都作为一个质心，kNN 搜索会检索相似度高于阈值的邻近文档。每个文档都会被分配给返回该文档且得分最高的质心。小集群被归为噪声。

Elasticsearch 负责处理核心计算：使用 msearch 进行密度探测和分类，并使用 significant_text 生成标签。对于该语料库（8,495 个文档），5% 的密度探针样本会发起 425 个 kNN 探针查询，msearch 会将其批量处理为 9 次 HTTP 调用（批大小为 50），从而避免每个探针单独发起一次请求的开销。再结合 bbq_disk ANN 查找，整个集群阶段便能兼顾速度与可扩展性。在集群过程中，kNN 查询会使用尽可能小的 num_candidates 值来提升速度；而在生产环境的搜索查询中，则应使用更高的 num_candidates 值，以牺牲一定延迟为代价换取更高的召回率。

集群的自然大小由每个质心周围的嵌入空间密度决定，而非硬性的 k 上限。主题越密集的区域，形成的集群就越大；而越小众的主题，则会形成更小的集群。

为什么不选择 KMeans 或 HDBSCAN？

KMeans 假设集群为球形，并需要将完整的 N×d 矩阵加载到内存中。对于适合内存的语料库，HDBSCAN 是一个强有力的替代方案。它既可以处理任意形状的集群，也具备更易理解的密度语义。

密度探测质心方法面向的是另一类场景：您希望在同一系统中完成存储、检索和集群，或者数据规模已经大到使客户端矩阵运算变得不切实际。它使用 Elasticsearch kNN 作为计算原语，处理任意大小的集群，并将几乎所有计算保留在服务器端。

    Clustered global index in 31.6s
      Total clusters: 82
      Total noise:    2420 (28.5%)
      Density probes: 425 kNN queries via 9 _msearch HTTP calls

理解噪声率

约 28% 的噪声率是有意为之，并不意味着系统出现了故障。在配置的 similarity_threshold 下，不属于任何密集集群的文档将保持未分配状态，而不是被强制匹配到不合适的集群中。这相当于一道质量门槛：评论专栏、短文和一次性报道往往难以形成集群，因为它们缺乏构成连贯分组所需的主题密度。

阈值可调：降低 similarity_threshold 会产生更激进的集群（分配更多文档，但集群更松散），提高则会收紧集群并增加噪声比例。对于这种包含混合新闻内容的语料库，约 30% 的噪声比例是一个合理的平衡点。生产部署应根据特定领域的质量标准调整阈值。

使用 significant_text 自动添加标签

现在，每个集群都需要一个便于人工理解的标签。Elasticsearch 的 significant_text 聚合会找出在前景集（集群）中出现异常频繁、而在背景集（完整语料库）中不常见的词项。

其底层采用统计启发式方法（默认为 JLH 分数），平衡了绝对频率与相对频率的变化，无需机器学习，也无需调用大语言模型 (LLM)。例如，一个关于英国政治的集群，可能会浮现出 starmer、labour、downing 等词项，因为与整体新闻语料库相比，这些词项在该集群中出现得异常频繁。

在这一全局处理阶段，标签直接基于 docs-clustering-all 计算，因此前景集和背景集都取自整个月的数据。在第 2 部分中，标签会使用每日索引模式 (docs-clustering-*)。这是一个通配符，可让查询同时覆盖所有匹配的索引，从而为 significant_text 提供更广泛的背景，以获得更好的对比效果。

一个最小查询形状如下所示：

{
  "size": 0,
  "query": { "term": { "cluster_id": "72" } },
  "aggs": {
    "label_terms": {
      "significant_text": {
        "field": "text",
        "size": 5,
        "filter_duplicate_text": true
      }
    }
  }
}

significant_text significant_text 也可作为一道质量门槛：未产生任何显著词项的集群，说明其缺乏可区分的词汇特征。这类分组本身并不连贯，因此应归为噪声，而不应赋予带有误导性的标签。

一个轻量级的确定性清理步骤会移除噪声较大的标签词项（如数字 token 和通用词），并在必要时回退到代表性标题。这样既保留了 Elasticsearch 原生标签的特点，也提升了可读性。

    Sample cluster labels:
      cluster   3  (200 docs)  arsenal | mikel | villa
      cluster   1  (198 docs)  volodymyr | ukrainian | kyiv
      cluster   0  (196 docs)  hostages | hamas | israeli
      cluster   4  (187 docs)  scrum | rugby | borthwick
      cluster  52  (185 docs)  fossil | renewable | renewables
      cluster  10  (156 docs)  labour | gwynne | mps
      cluster  40  (151 docs)  novel | novels | literary
      cluster  11  (149 docs)  mewis | sarina | wiegman
      cluster  44  (143 docs)  flooding | rainfall | rain
      cluster  13  (131 docs)  doge | musk | elon
      cluster  12  (128 docs)  murder | insp | knockholt
      cluster   5  (124 docs)  putin | backstop | starmer


    Reassigned 35 docs from incoherent clusters to noise
    Total docs: 8,495
    Clustered:  6,040 (71.1%)
    Noise:      2,455 (28.9%)

集群可视化

下方的可视化结果展示了全局集群阶段的发现，包括按日期划分的集群文档与噪声文档分布、整个月的 UMAP 投影，以及用于验证集群反映的是主题而非来源的来源构成图。

2025 年 2 月期间，集群文档与噪声文档的每日分布情况。

UMAP 中的每个彩色岛屿都代表一个集群：一组关于同一主题的文章，纯粹是通过嵌入相似性而发现的。灰色噪声点则是未能明确归入任何集群的文章（通常是短篇文章、观点文章或一次性报道）。

来源细分图表确认，集群中的文章同时来自 BBC News 和 The Guardian。集群找到的是主题，而非来源，这正是无监督发现应该产生的结果。

使用 diversify retriever 探索集群的广度

普通 kNN 返回与集群质心（密集核心）最相似的文档。但真实的集群往往还会涵盖多个子主题。diversify retriever 使用最大边际相关性 (MMR)，呈现既与质心相关、彼此之间又有所差异的文档。

关键参数是λ（lambda）：

λ = 1.0 → 纯相关性（与普通 kNN 相同）。
λ = 0.0 → 纯多样性（结果最大程度分散）。
λ = 0.5 → 均衡：既与主题保持相关，又能覆盖不同角度。

最简 retriever 请求结构如下：

{
  "size": 8,
  "retriever": {
    "diversify": {
      "type": "mmr",
      "field": "embedding",
      "lambda": 0.5,
      "query_vector": "",
      "retriever": {
        "knn": {
          "field": "embedding",
          "query_vector": "",
          "k": 50,
          "num_candidates": 100
        }
      }
    }
  }
}

在 diversify 层级，type、field 和 query_vector 参数均为必需：field 用于告知 MMR 应使用哪个 dense_vector 字段来计算结果之间的相似度，而 query_vector 则提供相关性评分的参考向量。

这可以让您回答：“这个集群到底涵盖了什么？”而不仅仅是“它的中心是什么？”

    Exploring cluster 52 (185 docs)
    Label: fossil | renewable | renewables
    Centroid computed (dim=1024)


    ========================================================================
    Plain kNN (closest to centroid)
    ========================================================================
      1. [0.9738] Green campaigners fear ministers are poised to award billions of pounds in fresh subsidies to Drax power station, despite strong concerns...
      2. [0.9710] Thirteen more oil and gas licences could be cancelled as ministers decide new guidance for fossil fuel extraction after a landmark court...
      3. [0.9699] Experts have accused the fossil fuel industry of seeking special treatment after lobbyists argued greenhouse gas emissions from oilfields...
      4. [0.9681] Burning wood is a terrible way of producing electricity . Chopping down trees destroys habitats for wildlife, and growing new trees cannot...
      5. [0.9649] Keir Starmer will do huge damage to the global fight against climate change if he gives in to political pressure and allows the development...
      6. [0.9641] Labour will next week be confronted with stark policy choices that threaten to expose the fault lines between the Treasury and the...
      7. [0.9638] The Drax power station near Selby in north Yorkshire burns imported wood pellets  The government has agreed a new funding arrangement with...
      8. [0.9581] If you care about the world we are handing on to future generations, the news on Thursday morning was dramatic. This January was the...
    
    ========================================================================
    Diversify retriever (MMR, lambda=0.5)
    ========================================================================
      1. [0.9738] Green campaigners fear ministers are poised to award billions of pounds in fresh subsidies to Drax power station, despite strong concerns...
      2. [0.9434] Oil and gas interests have waged a coordinated campaign to kill pro-electrification policies that ban gas connections in new buildings ,...
      3. [0.9303] It was interesting to read that new licences for oil and gas production in the North Sea are being delayed by legal action ( Thirteen more...
      4. [0.9139] The US energy secretary, Chris Wright, has said he “would love to see Australia get in the game of supplying uranium and maybe going down...
      5. [0.9077] Rachel Reeves was facing criticism on Saturday night as it was confirmed that a report she cited as evidence that a third runway at...
      6. [0.8996] When Margaret Thatcher opened the Hadley Centre for Climate Change in 1990 journalists suggested she was attempting to appear to be doing...
      7. [0.8993] The vast majority of governments are likely to miss a looming deadline to file vital plans that will determine whether or not the world has...
      8. [0.8987] European imports of seaborne gas shipments fell by a fifth last year to their lowest level since the pandemic, according to a new report,...
    
    Overlap: 1/8 documents appear in both result sets
    
    Avg pairwise similarity (lower = more diverse):
      Plain kNN:          0.9057
      Diversify retriever: 0.6965

普通 kNN 的结果往往集中在主题的某一个侧面，也就是那些与质心最相似、彼此之间也最相似的文档。diversify retriever 则会展示同一集群的不同侧面，包括子主题、不同来源和多样化视角。

多样性指标定量证实了这一点：diversify retriever 结果的平均两两相似度较低，意味着返回的文档覆盖范围更广。

这适用于：

理解一个集群实际涵盖的范围，不仅要关注其中心，还要关注其边缘。
生成摘要。多样化且有代表性的文档为 LLM 提供了更好的素材。
寻找代表性示例，用于人工审核或下游标签生成。
质量检查。如果多样化结果看起来不够连贯，就说明这个集群可能需要进一步拆分。

第 2 部分：时间故事链

跨天追踪故事

第 1 部分对整个月的数据进行了全局集群，以发现其中的主题。为了呈现时间演化，同样的密度探测质心分类会按天在每日索引上独立运行，再将相邻日期的集群连接起来。请注意，每日集群与第 1 部分中的全局集群相互独立；每天都会生成自己的集群分配和标签，并根据当天的内容进行调整。

链接方法：采样与查询

对于第 A 天的每个集群：

采样几个代表性文档。
对 B 天的索引运行 kNN。
统计落入 B 天每个集群的命中数量。
如果命中比例超过阈值（kNN 比例 ≥ 0.4），则记录一条链接。

这速度很快（每个集群只查询少量文档，不是全部），并且使用 Elasticsearch 的原生 kNN，无需外部工具。

Preparing daily indices for temporal linkage...


Indexed 8,495 docs into 28 daily indices


Temporal links found: 808 in 145.4s

Strongest links:
  2025.02.01 'league | arsenal | premier' -> 2025.02.02 'league | season | striker'  (100%)
  2025.02.03 'league | striker | loan' -> 2025.02.04 'league | striker | season'  (100%)
  2025.02.03 'score | operator | gedling' -> 2025.02.04 'league | striker | season'  (100%)
  2025.02.12 'playoff | leg | bayern' -> 2025.02.13 'league | players | injury'  (100%)
  2025.02.14 'league | injury | football' -> 2025.02.15 'league | premier | football'  (100%)
  2025.02.18 'russia | ukraine | talks' -> 2025.02.19 'saudi | russia | arabia'  (100%)
  2025.02.18 'football | league | bayern' -> 2025.02.19 'league | manchester | players'  (100%)
  2025.02.21 'league | premier | manchester' -> 2025.02.22 'game | players | defeat'  (100%)
  2025.02.21 'rugby | calcutta | brilliant' -> 2025.02.22 'game | players | defeat'  (100%)
  2025.02.26 'metals | kyiv | ukrainian' -> 2025.02.27 'ukraine | russia | talks'  (100%)

kNN 比例达到 100% 表示源集群中的所有采样文档都落入同一个目标集群，也就是强度最高的跨日关流水以上大多数关联都与足球相关，这很合理：英超联赛的报道每天都有，且主题一致性很高。

score | operator | gedling → league | striker | season 链接是一个小众本地足球集群（Gedling 是一家非联赛俱乐部）在第二天被吸收到更广泛的英超联赛集群中的一个例子，这是每日以不同粒度重新集群的自然效果。

构建故事链

故事链是由连续多天的关联集群组成的序列。

单个配对链接可以显示周一与周二“英国政治”集群之间的关联。故事链则能揭示完整的发展脉络：一个故事从周一开始，在一周内持续发展，并在周五逐渐淡出。

链通过贪婪策略构建，所依据的是 kNN 比例 ≥ 0.4 的关联；这意味着源集群中至少有 40% 的采样文档会落入同一个目标集群。算法从最早出现的集群开始，并始终沿着最强的出向关联继续延伸。

    Strong links (kNN fraction >= 0.4): 244
    Story chains spanning 3+ days: 18
      Chain 1: 'ukrainian | kyiv | eastern' (19 days: Feb 3 → Feb 21)
      Chain 2: 'playing | opposition' (19 days: Feb 10 → Feb 28)
      Chain 3: 'tadhg | maro | cadan' (10 days: Feb 1 → Feb 10)
      Chain 4: 'invade | china | putin' (8 days: Feb 21 → Feb 28)
      Chain 5: 'elected | labour | leader' (7 days: Feb 12 → Feb 18)
      Chain 6: 'film | swift | awards' (6 days: Feb 2 → Feb 7)
      Chain 7: 'amendment | termination | reporting' (6 days: Feb 12 → Feb 17)
      Chain 8: 'officers | scene | police' (5 days: Feb 1 → Feb 5)

最长的链条连续 19 天追踪乌克兰–俄罗斯相关报道。考虑到 2025 年 2 月持续紧张的地缘政治局势，这并不令人意外。其次是贯穿当月 19 天的英超足球报道。更短的链条则对应于颁奖季（电影/颁奖，6 天）、六国橄榄球赛（10 天）以及英国政治领导层相关报道（7 天）。每条链都代表一条故事轨迹，这些轨迹完全是基于每日索引之间的嵌入相似性自动发现的。

Sankey：可视化故事流

Sankey 图是一种流向可视化图表，其中连线宽度表示连接强度。在这里，每个垂直条带代表一天，每个节点代表一个每日集群（大小由文档数量决定），每条彩色路径则描绘出一条跨时间延展的故事链。链接宽度表示 kNN 重叠强度：更粗的链接意味着更多采样文档落入目标集群。每条链都使用统一颜色，因此从左到右的一条同色路径就代表一个故事的发展过程。

例如，乌克兰－俄罗斯链（作为较长路径之一清晰可见）从 2 月初一直延续到第三周；其链接始终较粗，表明该主题在不同日期之间具有很强的连续性。

时间故事链贯穿 2025 年 2 月。每条彩色路径都代表一个跨天延续的故事；连线宽度表示 kNN 重叠强度。

这种方法的成果

本文完整介绍了基于 Elasticsearch 构建的无监督文档集群管道：

集群嵌入：Jina v5 的任务专用适配器可生成针对主题分组优化的嵌入，而不仅仅是用于查询-文档匹配。
全局发现式集群：在一个索引中对整个月的数据进行集群，可最大限度地发掘跨日主题。
密度探测质心分类：取样 5%，通过 msearch kNN 探测密度，选择不同的高密度种子，再根据这些质心对所有文档进行分类。Elasticsearch 负责处理大部分计算任务；客户端仅负责耗时极短（约 0.01 秒）的种子选择工作。
significant_text标签生成：无需借助 ML 模型或人工标注，显著性检验就能生成有意义的集群标签。无法产生任何显著词项的集群，说明其内部缺乏连贯性，因此会被降为噪声——这也是一种内置的质量控制机制。
时间故事链接：借助每日索引以及跨索引的采样与查询 kNN，追踪故事如何随时间演变。

关键要点：

嵌入任务类型至关重要：集群嵌入能够形成明显更紧密的主题分组。
借助 kNN 搜索，Elasticsearch 既可以充当存储层，也可以充当集群引擎。
密度探测质心分类几乎将所有计算保留在服务器端，并生成由嵌入空间密度决定的自然大小的集群。
significant_text 该方法速度快、可解释性强，在自动标注和质量门控方面同样十分有效。

这种方法适用的场景：

您拥有带有时间戳的文本，且希望在无标注训练数据的情况下进行主题发现。
您希望使用同一套技术栈完成存储、向量搜索、标注和时间关联。

还可以进一步探索的扩展方向：

多周期集群（如按周、按月汇总）
通过增量集群分配进行实时摄取。
以 significant_text 词项为种子生成 LLM 集群摘要。
在更大规模下，采样得到的 KMeans 质心可以作为基于密度的集群算法的热启动种子，从而降低探测阶段的成本。

亲自试用

您可以将其替换为自己的带时间戳文档语料库；任何包含日期信息的文本集合都适用于这一管道。完整的笔记本和支持代码可在配套仓库中找到。

开始免费试用 Elastic Cloud：几分钟内即可启动一个支持 bbq_disk 的托管集群。
试用 Elasticsearch Serverless：无需管理集群，可自动扩展，并支持本演练涵盖的全部内容。

为什么电子商务搜索需要治理

Alexander Marquardt, Honza Král, Taylor Roy — Thu, 09 Apr 2026 00:00:00 GMT

电子商务零售商需要在同一系统中处理各种有本质区别的查询类型。搜索“橙子”的购物者期望看到的是这种水果，而不是包含“橙色”一词的产品，例如橙汁或橙子果酱，也不是在语义上相关的柑橘类产品。搜索“送给爱吃甜食的爷爷的礼物”的购物者需要的是语义发现，而不是字面上的关键字匹配。

词汇检索（文本匹配）、语义检索（概念匹配）和混合检索（结合词汇和语义信号）本身并不能解决这些问题。词汇检索可能返回所有包含“橙子”的结果，而针对“橙子”这类高意图查询的纯语义检索，则可能扩展至相关商品（如柠檬或葡萄柚）。混合检索虽能融合词汇与语义信号，但仍无法判定该查询应被视为导航型搜索、需应用哪些约束条件，或应遵循何种业务规则。问题根源不在于检索技术本身，而在于缺乏治理层。该层级需在检索启动前，识别查询类型并确定需执行的约束规则。

在这篇博文中，我们将探讨电子商务搜索管理、其重要性以及控制层如何确保可预测的准确检索。

电子商务搜索中的治理含义

在此语境下，治理意味着在用户查询与检索引擎之间引入决策层。该层执行以下功能：

对查询意图进行分类：这是导航（“橙子”）还是发现（“送给爷爷的礼物”）？
适用业务限制：适用哪些类别界限、资格规则、供应限制或商品推广政策？
通向适当策略的路径：这应该使用词汇检索、语义检索，还是混合检索？

治理层决定每次查询应使用哪种检索方法，必须执行哪些限制条件，以及在检索开始前应适用哪些业务策略。重要的是不要将治理层与混合检索混为一谈：混合检索是一种结合了词汇和语义信号的检索策略，而治理层是决定应使用词汇检索、语义检索还是混合检索的上游决策层。

现状：应用层“spaghetti”的实现

当前，许多零售商试图通过直接在应用层添加逻辑来解决这一问题，但这往往导致“意大利面代码”，即由数千行硬编码的条件语句、正则表达式和复杂搜索模板堆砌而成的代码结构。

这种方法可以提供如上所示的期望搜索结果；然而，它会产生很大的操作障碍：

工程依赖问题：业务人员与商品运营团队若需修改搜索行为，必须通过提交工程工单并经历长达数周的部署周期，导致操作效率低下且灵活性受限。
碎片化：搜索逻辑分散于应用代码与搜索模板之间，难以解释或审计，导致后续迭代风险陡增。

即使团队认识到路由规则的必要性，争论也常常集中在错误的问题上：选择哪种检索方法。

错误的选择：词汇、语义与混合

搜索团队经常将挑战描述为检索策略的选择：词法/BM25、语义/向量和混合。这种框架是可以理解的（检索方法很重要），但它忽略了实际部署中最常见的失败模式，即对所有查询使用单一检索方法会导致次优结果。

商业搜索融合了几种截然不同的意图：

确定性、高意图导航（“橙子”、“牛奶”、“不含花生的巧克力”、“廉价橄榄油”）。
探索发现（“山区徒步旅行夹克”，“送给喜欢机器人的 12 岁孩子的礼物”）。
运营限制（供应、尺寸、价格、颜色）。
商品推广与活动（包括流量提升、降权、季节性活动）

当系统通过相同的检索策略来处理所有这些问题时，由于运行模式缺乏管理，结果往往会以可预见的方式出现系统性错误。当团队没有意识到这是一个治理缺口时，他们会用他们唯一掌握的手段来应对，那就是进行更多的调整。

为何“相关性调整”会周而复始

如果没有路由层，“相关性”通常会变成永无止境的待办事项：

为何此查询结果将配件显示在核心产品之上？
为什么这个主查询突然开始出现相关内容？
为什么在我们添加同义词、调整分析器或启用混合模式后，结果发生了变化？
为什么业务团队需要一个工程版本来修复一个查询？

团队的回应是更多的调整：更多的同义词，更多的提升，更多的重新排名的实验，更多的应用程序代码中的异常。这种方法可以维持一段时间，但常常导致脆弱行为，因为系统仍缺乏明确的决策层来确定查询类型并在检索前强制执行正确的约束。

剖析电子商务意图：“头部”与“尾部”

在本节中，我们采用“头部”与“尾部”作为电商领域中常见导航与探索性查询模式的实用简称。实际上，许多查询都同时包含这两方面的特征：

头部查询（确定性意图）

这些是直接的导航查询，用户清楚地知道自己想要什么：

单项意图（“橙子”、“牛奶”、“面包”）。
具体品牌或产品系列（例如“iPhone 15 Pro”、“健怡可乐”）。
SKU、型号、尺寸（“ABC123”、“air max 270”）。

对于这些查询而言，词汇检索能够处理词元对应关系（即匹配单词），但业务层面还期望能够遵循相关限制条件、返回可预测的排序结果，并确保结果可控。商品运营人员需要确保查询在正确的类别范围内得到解析，遵循适用性规则，并凸显特定的业务优先级。

需要建立治理机制以确保查询按预期分类解析。例如，“橙子”应归类至生鲜蔬果类别，而非橙汁、橙酱或橙味汽水等细分品类。

尾部查询（探索性发现）

这些是描述性强、意图明确的查询，购物者通过此类查询进行探索性搜索：

“送给爱吃甜食的爷爷的礼物”
“山区徒步旅行夹克”
“适合全天站立的鞋子”

在这方面，词汇检索往往会遇到问题。语义检索之所以出色，是因为它能将查询概念与产品联系起来，即使在措辞不匹配的情况下也是如此。但仅靠语义检索也很少能达到要求。无论使用哪种检索方法，实际查询通常都需要执行限制条件。

约束条件与检索方法正交

对语义检索进行约束并不意味着混合搜索。这些都是正交的概念。诸如 Elasticsearch 中的过滤器和增强等约束条件可以应用于任何词汇、语义或混合检索。所面临的挑战是决定如何解释查询、必须执行哪些约束条件以及使用哪种检索策略。

以下是一些结合检索与硬约束的查询示例：

橙子：对“橙子”进行词汇检索，并加上类别限制，如“水果”或“农产品”，排除橙子果酱、橙汁和橙汽水。
价格低于 4 美元且富含维生素 C 的水果：营养意图语义检索加上限制条件，结果仅限于水果类别和 4 美元以下的产品。
舒适的工作鞋：针对上下文意图的语义检索加上限制结果为鞋的类别约束。

这些查询无法通过单一方法来处理：

纯词汇检索在此场景下往往不足，因为“富含维生素 C”或“舒适”等短语可能并非以清晰的结构化属性形式存在。这类信息通常需从产品描述、用户评价或规格参数中推断得出。
纯语义检索往往也不足，因为如果没有明确限制，像“富含维生素C的水果”这样的查询可能会扩展到维生素补充剂、水果味饮料或高维生素蔬菜，超出预期类别和价格范围。

治理层决定查询是否需要词汇检索、语义理解、约束执行或这些方面的组合。如果没有这一层，电子商务团队可能会最终：

过度限制：将词汇检索用于语义请求（例如“送给爷爷的礼物”）。
限制不足：对高意图的头部查询使用语义查询（例如“橙子”）。

治理挑战在于构建一个能够针对每类查询做出正确判断的系统。

在没有治理的情况下会发生什么

最常见的故障模式很简单：团队直接获取原始用户查询并将其传递给单一检索策略（词汇、语义或混合），而没有中间治理层。

词汇检索未能达到预期的解析效果

当用户搜索“橙子”时，词汇检索策略可能会返回任何包含该词项的内容：橙汁、橙子果酱或橙子汽水。系统正确匹配了该术语，但如果没有治理，它可能无法解析预期的购物上下文（水果）。

语义检索的范围已超出预期限制

当用户搜索“橙子”时，语义系统可能会检索邻近产品概念中与概念相关的项目。系统可能会正确理解更宽泛的领域（水果或农产品），但如果没有明确的治理，它仍然会超出用户的预期限制（具体来说就是橘子）。

差距在于治理

所需的是一个上游决策层，该层在检索开始之前确定查询意图并强制执行正确的约束条件。这解决了以下问题：

类似或相关的项目会出现在用户实际想要的项目旁边。
模糊的类别界限（“饮料”与“农产品”）。
无法进行季节性促销或活动。
不可预测且无法解释的结果。

意图理解与路由规则：必要的控制平面

治理型搜索系统在检索前（在 Elasticsearch 中执行查询之前）引入了一个轻量级控制平面。控制机制将在本博客系列的第 3 部分和第 4 部分中详细讨论。目前，我们只讨论它能做什么，而不谈具体工作原理：

控制平面可以理解意图、应用业务策略，并确保采用适当的检索策略，具体如下：

1. 检测意图信号

此查询是导航型还是发现型？
这是已知的头部查询（牛奶、面包、香蕉）吗？
是否有已知的产品、品牌或类别解释（例如，“橙子”应解析为农产品）。
查询是否为类似 SKU 的模式？
查询是否属于活动或季节性政策（例如圣诞节期间，提升与火鸡相关的结果）？
查询是否包含约束条件（类别、属性、排除项、价格/尺寸/颜色）？

2. 应用治理与业务政策

首先强制执行确定性约束（类别/属性/否定/可用性）。
应用当前有效的商品推广策略（提升/下调/置顶/覆盖）。
通过优先规则解决冲突（例如活动覆盖与全局策略）。

3. 选择合适的检索策略

用于导航/高意图头部查询的词汇（快速、确定性）。
为真正的发现查询提供语义检索。
在明确业务约束下，结合词汇和语义信号可增加价值的混合搜索。

实际上，控制平面的输出并不只是“使用混合检索”或“使用语义检索”。这是一个受治理的检索方案：对购物者意图的解读、应适用的约束和政策，以及应执行的检索策略。以下几个简单示例可以具体说明这一点：

购物者查询	受治理的解释	检索方案示例
“不含花生的巧克力”	具有硬性排除约束的产品导向查询	巧克力的词义检索以及含有花生的产品的排除过滤器
“廉价橄榄油”	有价格限制的产品/类别查询	针对橄榄油且价格筛选上限设为零售商“低价”阈值的词汇检索
“价格低于 4 美元且富含维生素 C 的水果”	需要语义理解和硬约束的发现查询	营养意图语义检索，限于水果类别，筛选价格低于 4 美元的产品

控制平面会为每个查询选择合适的策略和检索策略，且能够一致、可预测且可扩展。这使得高级检索方法在生产中的可预测性更高，因为首先执行的是意图一致性约束，路由决策为显式而非隐式。

与其他方法的关系

有些团队使用改进的嵌入模型来更好地捕捉产品语义，这可以大大提高语义检索的质量。其他方法则使用重新排序方法（如学习排序 (LTR)），在检索结果生成后基于用户交互或业务指标优化结果排序。这两种方法均有价值且常互为补充。更优质的嵌入向量能提升相似度匹配精度，而重排序可优化候选结果间的排序质量。

治理解决了问题的另一层：它位于检索的上游。它决定应使用哪种检索策略（例如，词汇检索、语义检索或混合检索）、需要哪些确定性约束，以及哪些查询应结合多项业务策略。

受治理控制平面可实现哪些功能

一旦治理层就位，运营模式将发生根本性变革。与收入紧密相关的查询将具备可预测性。业务团队无需等待工程团队的发布周期，即可自主更新搜索行为，而语义检索、混合检索等高级方法，则可通过路由规则和管控机制逐步部署，而非直接全局启用或禁用。

本系列的下一篇文章将探讨该操作模型在实践中的具体表现，以及为什么它可能与其背后的检索技术同等重要。

如果商户必须打开一个 Jira 工单并等待部署来修复一个关键的收入查询，瓶颈不在于引擎；而在于运营模式。现代电子商务搜索需要一种方式，能够快速安全地将业务意图转化为受控、可审计的搜索行为，同时在可测量增值的地方使用高级检索。

本系列内容预告

将受治理的电子商务搜索付诸实践

在企业级电商服务场景中，工程瓶颈、应用层逻辑脆弱性以及搜索结果不可预测性等问题，均可通过 Elastic Services 的专业服务得以解决。本系列所述的受治理控制平面架构，正是由 Elastic Services 工程团队精心打造。

若您的团队仍在耗费大量工程资源将商品运营需求转化为代码修改，或搜索相关性优化任务积压始终难以缩减，我们可协助评估现有技术架构，并规划一条实现搜索配置业务化、可治理的转型路径。请联系 Elastic Services。

加入讨论

对搜索治理、检索策略或电子商务搜索架构有疑问？加入更广泛的 Elastic 社区讨论。

如何使用 Mastra 和 Elasticsearch 构建代理式 AI 应用程序

Enrico Zimuel — Wed, 08 Apr 2026 00:00:00 GMT

在本文中，我们将介绍如何使用 Mastra TypeScript 框架来构建与 Elasticsearch 交互的智能体应用。

我们最近通过添加对 Elasticsearch 作为向量数据库的支持，参与了 mastra-ai/mastra 开源项目。借助这项新功能，您可以在 Mastra 中原生使用 Elasticsearch 来存储嵌入内容。除了向量之外，Elasticsearch 还提供了一系列高级功能，以满足您所有的上下文工程需求。(例如混合搜索和重排序).

本文详细介绍了使用 Elasticsearch 实现检索增强生成 (RAG) 架构的智能体的创建过程。我们将展示一个演示项目，其中采用智能体方法来与存储在 Elasticsearch 中的科幻电影数据语料库进行交互。该项目可在 elastic/mastra-elasticsearch-example 获取。

Mastra

Mastra 是一个用于创建智能体 AI 应用的 TypeScript 框架。

Mastra的项目结构如下：

src/
├── mastra/
│   ├── agents/
│   │   └── weather-agent.ts
│   ├── tools/
│   │   └── weather-tool.ts
│   ├── workflows/
│   │   └── weather-workflow.ts
│   ├── scorers/
│   │   └── weather-scorer.ts
│   └── index.ts
├── .env.example
├── package.json
└── tsconfig.json

在 Mastra 中，您可以构建智能体、工具、工作流和评分。

智能体是一个接收消息作为输入并产生响应作为输出的类。智能体可以使用工具、大型语言模型 (LLM) 和内存（图 1）。

智能体的工具允许其与“外部世界”交互，例如与 Web API 通信或执行内部操作，如查询 Elasticsearch。内存组件对于存储对话历史（包括过去的输入和输出）至关重要。这些存储的上下文使智能体能够利用过去的交互，为未来的问题提供更知情且更相关的响应。

工作流允许您使用清晰、结构化的步骤来定义复杂的任务序列，而不是依赖单个智能体的推理（图 2）。它们让您可以完全控制任务的分解方式、数据在任务之间的移动方式以及何时执行哪些任务。工作流默认使用内置执行引擎运行，也可以部署到工作流运行器。

在 Mastra 中，您还可以定义分数，这些分数是通过模型评分、基于规则和统计方法来评估智能体输出的自动化测试结果。评分器返回分数：量化输出满足评估标准程度的数值（通常在 0 到 1 之间）。这些分数使您能够客观地跟踪性能、比较不同方法并识别 AI 系统中的改进领域。您可以使用自己的提示和评分函数自定义评分器。

Elasticsearch

要运行演示项目，我们需要一个正在运行的 Elasticsearch 实例。您可以在 Elastic Cloud 上激活免费试用版，或使用 start-local 脚本在本地安装：

curl -fsSL https://elastic.co/start-local | sh

这将在您的计算机上安装 Elasticsearch 和 Kibana，并生成一个用于配置 Mastra 集成的 API 密钥。

API 密钥将显示为上一条命令的输出，并存储在 elastic-start-local 文件夹中的 .env 文件内。

安装与配置演示

我们创建了一个 elastic/mastra-elasticsearch-example 存储库，其中包含演示项目的源代码。存储库中报告的示例演示了如何在 Mastra 中创建一个实现 RAG 架构、用于从 Elasticsearch 检索文档的智能体。

我们为演示提供了一个关于科幻电影的数据集。我们从 Kaggle 上的 IMDb 数据集中提取了 500 部电影。

第一步是使用 npm 安装项目依赖，执行以下命令：

npm install

然后我们需要配置包含各项设置的 .env 文件。我们可以使用以下命令，复制 .env.example 文件的结构来生成该文件：

cp .env.example .env

现在我们可以编辑 .env 文件，补充缺失的信息：

OPENAI_API_KEY=
ELASTICSEARCH_URL=
ELASTICSEARCH_API_KEY=
ELASTICSEARCH_INDEX_NAME=scifi-movies

Elasticsearch 索引的名称为 scifi-movies。如果您想更改它，可以使用环境变量 ELASTICSEARCH_INDEX_NAME。

我们使用 OpenAI 作为嵌入服务，这意味着您需要在 OPENAI_API_KEY 环境变量中提供 OpenAI 的 API 密钥。

示例中使用的嵌入模型是 openai/text-embedding-3-small，嵌入维度为 1536。

为了生成最终答案，我们使用了 openai/gpt-5-nano 模型来降低成本。

RAG 架构允许您使用性能较低（且通常成本较低）的 LLM 模型，因为答案落地的主要工作是由检索组件（此处为 Elasticsearch）承担。

较小的 LLM 仅负责两个主要任务：

重写/嵌入查询：将用户的自然语言问题转换为用于语义搜索的向量嵌入。
综合答案：获取高度相关的检索上下文块（文档/电影），并将它们合成为一个连贯的、最终的、人类可读的答案，并遵循给出的提示指示。

由于 RAG 流程可提供答案所需的精确事实上下文，最终的 LLM 不需要非常庞大或高度复杂，也不需要在其自身参数中拥有所有必需的知识（这正是大型、昂贵模型的优势所在）。它本质上是一个针对 Elasticsearch 提供的上下文的高级文本摘要器和格式化器，而不是一个功能齐全的知识库本身。这使得可以使用像 gpt-5-nano 等模型来优化成本和延迟。

配置完 .env 文件后，可以使用以下命令将电影数据导入 Elasticsearch：

npx tsx src/utility/store.ts

您应该看到如下输出：

🚀 Starting ingestion of 500 movies from 500_scifi_movies.jsonl...
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 1/500 (0%) | ok:1 | fail:0 | chunks:1 | eta:19m 33s | current:Capricorn One
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 2/500 (0%) | ok:2 | fail:0 | chunks:2 | eta:10m 32s | current:Doghouse
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 3/500 (1%) | ok:3 | fail:0 | chunks:3 | eta:7m 33s | current:Dinocroc
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 4/500 (1%) | ok:4 | fail:0 | chunks:7 | eta:6m 10s | current:Back to the Future           
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 5/500 (1%) | ok:5 | fail:0 | chunks:9 | eta:5m 14s | current:The Projected Man            
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 6/500 (1%) | ok:6 | fail:0 | chunks:11 | eta:4m 41s | current:I, Robot
...
✅ Ingestion complete in 1m 46s. Success: 500, Failed: 0, Chunks: 693.

scifi-movies 索引的映射包含以下字段：

embedding：dense_vector，1536 维，cosine 相似度。
description，包含电影描述的文本。
director，包含导演姓名的文本。
title，包含电影标题的文本。

我们使用 title + description 生成嵌入向量。由于 title 和 description 是两个独立的字段，将两者拼接可以确保生成的嵌入向量同时捕获电影的具体唯一标识 (title) 和丰富的描述性上下文 (description)，从而实现更准确、更全面的语义搜索结果。这种组合输入为嵌入模型提供了更好的文档内容单一表示，便于相似性匹配。

运行演示

您可以使用以下命令运行演示：

npm run dev

该命令将在 localhost:4111 启动一个 Web 应用，以访问 Mastra Studio（图3）。

Mastra Studio提供了一个交互式 UI 用于构建和测试您的智能体，以及一个将 Mastra 应用程序作为本地服务公开的 REST API。这让您可以立即开始构建，无需担心集成问题。

我们提供了一个 Elasticsearch Agent，它使用 Mastra 的 createVectorQueryTool 作为工具，利用 Elasticsearch 执行语义搜索。该智能体采用 RAG 方法搜索相关文档（即电影）来回答用户的问题。

该智能体使用以下提示：

You are a helpful assistant that answers questions based on the provided context.
Follow these steps for each response:

1. First, carefully analyze the retrieved context chunks and identify key information.
2. Break down your thinking process about how the retrieved information relates to the query.
3. Draw conclusions based only on the evidence in the retrieved context.
4. If the retrieved chunks don't contain enough information, explicitly state what's missing.

Format your response as:
THOUGHT PROCESS:
- Step 1: [Initial analysis of retrieved chunks]
- Step 2: [Reasoning based on chunks]

FINAL ANSWER:
[Your concise answer based on the retrieved context]

Important: When asked to answer a question, please base your answer only on the context provided in the tool. 
If the context doesn't contain enough information to fully answer the question, please state that explicitly and stop it.
Do not add more information than what is present in the retrieved chunks.
Remember: Explain how you're using the retrieved information to reach your conclusions.

如果您点击 Mastra Studio > Agents菜单并选择 Elasticsearch Agent，则可以使用聊天系统测试该智能体。例如，您可以提出如下关于科幻电影的问题：

查找五部关于 UFO 的电影或电视剧。

您会注意到智能体将执行 vectorQueryTool。您可以点击调用的工具来查看输入和输出。执行结束时，LLM 将根据来自 Elasticsearch 的 scifi-movies 索引的上下文回答您的问题（图 4）。

Mastra 在内部执行以下步骤：

向量转换：用户的问题 “查找五部关于 UFO 的电影或电视剧” 使用 OpenAI 的 openai/text-embedding-3-small 模型转换为向量嵌入。
向量搜索：然后将此嵌入向量用于通过向量搜索查询 Elasticsearch。
结果检索：Elasticsearch 返回一组与查询高度相关的 10 部电影（即那些向量与用户查询向量最接近的电影）。
答案生成：检索到的电影和原始用户问题被发送给 LLM，具体为 openai/gpt-5-nano。LLM 处理这些信息并生成最终答案，确保满足用户请求的五个结果。

Elasticsearch 智能体

下面我们展示了 Elasticsearch 智能体的源代码。

import { Agent } from "@mastra/core/agent";
import { ElasticSearchVector } from '@mastra/elasticsearch';
import { createVectorQueryTool } from '@mastra/rag';
import { ModelRouterEmbeddingModel } from "@mastra/core/llm";
import { Memory } from "@mastra/memory";

const es_url = process.env.ELASTICSEARCH_URL;
const es_apikey = process.env.ELASTICSEARCH_API_KEY;
const es_index_name = process.env.ELASTICSEARCH_INDEX_NAME;
const prompt = 'insert here the previous prompt';

const esVector = new ElasticSearchVector({
  id: 'elasticsearch-vector',
  url: es_url,
  auth: {
    apiKey : es_apikey
  }
});

const vectorQueryTool = createVectorQueryTool({
  vectorStore: esVector,
  indexName: es_index_name,
  model: new ModelRouterEmbeddingModel("openai/text-embedding-3-small")
});

export const elasticsearchAgent = new Agent({
  id: "elasticsearch-agent",
  name: "Elasticsearch Agent",
  instructions: prompt,
  model: 'openai/gpt-5-nano',
  tools: { vectorQueryTool },
  memory: new Memory(),
});

vectorQueryTool 是被调用来实现 RAG 示例中检索部分的工具。它使用了 Elastic 为 Mastra 贡献的 ElasticSearchVector 实现。

该智能体是 agent 类的一个对象，它使用了 vectorQueryTool、提示和内存组件。可以看出，将 Elasticsearch 连接到智能体所需的代码量非常少。

结论

本文展示了将 Elasticsearch 与 Mastra 框架集成以构建复杂的智能体 AI 应用程序的简便性和强大功能。具体来说，我们逐步实现了一个 RAG 智能体，能够对 Elasticsearch 中索引的科幻电影数据语料库执行语义搜索。

一个关键收获是 Elastic 对 Mastra 开源项目的直接贡献，提供了 Elasticsearch 作为向量存储的原生支持。这种集成显著降低了入门门槛，正如 Elasticsearch Agent 源代码所证明的那样。使用 ElasticSearchVector 和 createVectorQueryTool，将 Elasticsearch 连接到智能体的完整设置仅需最少数量的配置代码行。

Elasticsearch 提供了多项高级功能来增强结果相关性。例如，混合搜索通过将词法搜索与向量搜索相结合，显著提高了准确性。另一个有趣的功能是在混合搜索结束时使用最新的Jina 模型重排序。要了解有关这些技术的更多信息，请参阅 Elasticsearch Labs 的以下文章：

Elasticsearch 混合搜索 - Valentin Crettaz
Jina 模型介绍、功能及其在 Elasticsearch 中的应用作者：Scott Martens

我们还鼓励您探索所提供的示例，并开始使用 Mastra 和 Elasticsearch 构建自己的数据驱动的智能体应用。如需了解更多关于 Mastra 的信息，您可在此处查看官方文档。

使用 Elastic 工作流监测 Kibana 仪表板的浏览情况

Gustavo Llermaly — Fri, 03 Apr 2026 00:00:00 GMT

Kibana 会跟踪每个仪表板的查看次数，但这些数据不会在任何内置仪表板中直接显示。在本文中，我们将使用 Elastic 工作流每 30 分钟自动收集这些数据，并将其索引到 Elasticsearch 中，这样我们就可以在此基础上构建自己的分析。

Elastic 工作流是 Kibana 内置的自动化引擎，允许您通过简单的 YAML 配置定义多步流程。每个工作流都可以按计划或事件触发，也可以作为 Elastic Agent Builder 中的工具触发，并且每个步骤都可以调用 Kibana API、查询 Elasticsearch 或转换数据。

我们将使用仪表板查看计数作为具体示例，但同样的模式也适用于通过 Kibana 已保存对象 API 公开的任何指标。

准备工作

运行 9.3 的 Elastic Cloud 或自管型集群
已启用工作流（高级设置）

在开始构建之前，我们先了解目前有哪些数据。Kibana 将其大部分配置和元数据作为已保存对象存储在专用的内部索引中。Kibana 通过这种方式跟踪的事项之一是仪表板查看次数，它使用一种名为“使用计数器”的特殊保存对象类型来实现。您可以在开发工具中直接查询它们：

GET kbn:/api/saved_objects/_find?type=usage-counter&filter=usage-counter.attributes.domainId:"dashboard"%20and%20usage-counter.attributes.counterType:"viewed"&per_page=10000

响应类似如下：

{
  "page": 1,
  "per_page": 10000,
  "total": 1,
  "saved_objects": [
    {
      "type": "usage-counter",
      "id": "dashboard:346f3c64-ebca-484d-9d57-ec600067d596:viewed:server:20260310",
      "attributes": {
        "domainId": "dashboard",
        "counterName": "346f3c64-ebca-484d-9d57-ec600067d596",
        "counterType": "viewed",
        "source": "server",
        "count": 1
      },
      ...
    }
  ]

counterName 字段是仪表板 ID，而 count 是该仪表板在特定日期的累计查看次数。Kibana 每天会为每个仪表板创建一个计数器对象；您可以在对象 ID 中看到日期后缀 (...viewed:server:20260310)。随着用户打开仪表板，计数在一天中不断增长。

我们不会在索引中复制这种每日文档模型，而是为每个工作流执行创建一个文档。每份文档都记录了该仪表板在捕获时当天的累计浏览量。

步骤 2：创建目标索引

我们需要一个索引来存储仪表板视图快照。以下命令创建了明确的映射，以便我们稍后进行聚合和可视化。在开发工具中运行此命令：

PUT dashboard-views
{
  "mappings": {
    "properties": {
      "captured_at": {
        "type": "date"
      },
      "dashboard_id": {
        "type": "keyword"
      },
      "dashboard_name": {
        "type": "keyword"
      },
      "view_count": {
        "type": "integer"
      }
    }
  }
}

对 ID 和名称使用 keyword 映射可以进行聚合。使用 integer 来表示 view_count 是一个安全的默认设置，因为 Kibana 每天都会重置计数器，所以达到 32 位限制（一天内超过 20 亿次查看）并非实际需要担心的问题。它仍然支持数值运算，例如 max、avg 和 min 等。

步骤 3：创建工作流

前往 Stack Management > 工作流 > 新建工作流，然后粘贴以下工作流 YAML 配置：

name: dashboard-views-ingestion
triggers:
  - type: scheduled
    with:
      every: 30m

steps:
  - name: fetch_dashboard_views
    type: kibana.request
    with:
      method: GET
      path: >-
        /api/saved_objects/_find?type=usage-counter&per_page=10000&filter=usage-counter.attributes.domainId:"dashboard"%20and%20usage-counter.attributes.counterType:"viewed"

  - name: index_each_dashboard
    type: foreach
    foreach: "{{ steps.fetch_dashboard_views.output.saved_objects }}"
    steps:
      - name: fetch_dashboard_name
        type: kibana.request
        with:
          method: GET
          path: /api/saved_objects/dashboard/{{ foreach.item.attributes.counterName }}
        on-failure:
          continue: true

      - name: index_doc
        type: elasticsearch.request
        with:
          method: POST
          path: /dashboard-views/_doc
          body:
            dashboard_id: "{{ foreach.item.attributes.counterName }}"
            dashboard_name: "{{ steps.fetch_dashboard_name.output.attributes.title }}"
            view_count: "${{ foreach.item.attributes.count | plus: 0 }}"
            captured_at: "{{ execution.startedAt | date: '%Y-%m-%dT%H:%M:%SZ' }}"

在下一节中，我们将逐步分解工作流。

工作流如何运作

触发

工作流每 30 分钟按计划触发运行一次。这样我们就能获得时序数据，而不会对 API 造成过多压力。

fetch_dashboard_views

使用 kibana.request 调用 Kibana 已保存对象 API。无需进行身份验证设置：工作流引擎会根据执行上下文自动附加正确的标头。

index_each_dashboard（循环）

遍历由上一步返回的 saved_objects 数组。每次迭代中的当前项目均可作为 foreach.item。在循环内部，我们为每个仪表板运行两个嵌套步骤。

1. fetch_dashboard_name：

通过调用 GET /api/saved_objects/dashboard/{id} 来解决人类可读的仪表板标题。我们添加了 on-failure: continue: true，以便如果仪表板被删除但仍有浏览计数器，循环就会继续，而不是导致整个执行失败。

2. index_doc：

使用 POST /dashboard-views/_doc（无显式 ID）为每个文档建立索引，这样 Elasticsearch 就能自动生成 ID。这样，每次运行时都会创建一个新文档，从而随着时间推移构建浏览次数的历史记录，而不是覆盖之前的快照。

有两点值得注意：

captured_at 字段使用日期筛选器将时间戳格式化为 ISO 8601。如果没有它，值就会显示为 JavaScript 日期字符串，例如 Tue Mar 10 2026 05:03:47 GMT+0000，Elasticsearch 不会将其映射为日期。
view_count 使用 ${{ }} 语法和 | plus: 0 来保留数值类型。使用{{ }} 会将其显示为字符串，这将阻止在仪表板中进行数学运算。

UI 允许您可以很好地对每个工作流步骤进行故障排查。

第 4 步：构建统计仪表板

一旦工作流运行了几次并收集了数据，使用 dashboard-views Data view在 Kibana 中创建一个新的仪表板。

一些入门面板：

按浏览量排列的顶级仪表板：使用柱形图，X 轴为 dashboard_name，Y 轴为 last_value(view_count)。这将显示每个仪表板当前的每日浏览量。
随时间变化的浏览量：使用折线图，X 轴为captured_at，Y 轴为last_value(view_count)，按 dashboard_name 细分。由于每次运行都会添加一个新文档，因此使用最后一个值来获取每个时间分桶的峰值计数，而不是重复计数的总和。
当前快照：使用数据表和最新的 captured_at 来显示所有仪表板上最新的浏览量。

由于每个工作流都会创建一个新文档，因此您可以按时间范围进行筛选，以分析特定时段的活动、比较周与周之间的差异，或在仪表板低于浏览量阈值时发出警报。

结论

Elastic 工作流非常适合这种定期数据收集，因为源 (Kibana API) 和目标 (Elasticsearch) 都是原生的，这意味着无需管理任何凭据。工作流引擎会自动处理 kibana.request 和 elasticsearch.request 步骤的身份验证，因此您只需编写逻辑即可。

资源

当 TSDS 遇到 ILM：设计不会拒绝延迟数据的时序数据流

Bret Wortman — Thu, 02 Apr 2026 00:00:00 GMT

最近，我将客户的指标集群从“所有内容都在热层”迁移到了热层/冷层/冻结层架构。这是我以前已执行过几十次的更改。几分钟内，Logstash 就完全停止了数据传输。

Elasticsearch 拒绝了延迟到达的指标。这些拒绝导致管道滞后，导致更多的延迟数据，从而引发了更多的拒绝。最终，该管道彻底停滞了。

我们不得不从快照中恢复数据，重新索引数据，并重新设计摄取管道以恢复数据。

根本原因并非索引生命周期管理 (ILM) 本身。而是时序数据流 (TSDS) 以及它们如何执行有时间限制的后备索引。

TSDS 可以将指标的存储需求减少 40——70%，但使 TSDS 高效的架构更改也改变了索引随时间推移的行为方式。这些变化在设计 ILM 策略或数据摄取管道可能会产生延迟到达的数据时非常重要。

简要说明

使用 TSDS 时：

后备索引仅接受特定时间窗口内的文档。
如果在索引移动到冷冻或冻结状态后有延迟的数据到达，Elasticsearch 将拒绝接受这些文档，或将其路由到故障存储（如果已配置）。

设计规则：

warm_min_age > rollover_max_age + maximum_expected_lateness

什么是时序数据流？

时序数据流 (TSDS) 是针对指标数据进行了优化的专用数据流。对数据进行路由，使相关文档位于同一分片内，从而优化它们以进行查询和检索。下面介绍 Elasticsearch 如何实现这一操作：

每个文档包含：

时间戳。
用于识别时间序列的维度字段。
表示测量值的度量字段。

示例包括：

每台主机的 CPU 使用率。
每项服务的请求延迟。
每个传感器的温度读数。

维度确定了我们要测量的内容，而度量则代表了随时间变化的值。

尺寸

维度描述被测量的实体。

示例:

host.name
service.name
container.id

我们在映射中按以下方式定义它们：

time_series_dimension: true

指标

指标代表数值，并使用以下方式定义：

time_series_metric

常用指标类型：

计量：数值会上升和下降。
计数器：数值不断增加，直至重置。

Elastic Agent 主要收集指标和日志数据，因此，即使您没有手动启用任何 TSDS 索引，集群中仍可能包含这些索引。

_tsid 字段

Elasticsearch 内部会根据维度字段生成 _tsid 值。这样，具有相同尺寸的文档就可以路由到相同的分区，从而改进：

压缩。
查询位置。
聚合性能。

关键区别：有时间限制的后备索引

传统数据流始终写入最新的支持索引，称为 写索引，但 TSDS 的行为有所不同。

每个 TSDS 后备索引都有一个定义的时间窗口，并且仅接受 @timestamp 值在该窗口内的文档：

GET _data_stream/my-metrics-data-stream


     "index_mode": "time_series",
     "time_series": {
       "temporal_ranges": [
         {
           "start": "2026-01-15T14:35:50.000Z",
           "end": "2026-03-16T11:34:40.000Z"
         }
       ]
     }

为文档编制索引时，Elasticsearch 会将其路由到负责该时间戳的后备索引，这意味着与传统索引不同，TSDS 可以同时写入多个后备索引。

例如：

实时数据 → 最新索引。
较晚的数据 → 覆盖该时间范围的较早索引。

为延迟到达的数据进行设计

真正的摄取管道很少能完美地按时提供指标。指标可能会由于网络中断、传输过程中的积压、批量摄取以及边缘设备的丢失而延迟，这些设备重新连接后会开始追赶进度。

传统索引会悄然吸收这些延迟。TSDS 不会。

如果文档的时间戳超出了可写后备索引的范围，Elasticsearch 将拒绝该文档，这意味着您的 ILM 策略必须考虑延迟数据。

关键制约因素

后备索引必须保持足够长的可写时间，以接受延迟数据。

实际上：

time_until_readonly > maximum_expected_lateness

由于 ILM 衡量的是从滚动更新开始算起的年限，因此操作规则变为：

warm_or_cold_min_age > rollover_max_age + maximum_expected_lateness

例如，如果指标最多可能延迟六小时到达，则索引在滚动更新后必须保持至少六小时的可写状态。

正是由于没有考虑到这一限制，才导致了前面所述的摄取失败。延迟到达的数据被定向到一个早期索引，该索引已经处于冷层并因此被写入阻塞。

处理被拒绝的文档

当 TSDS 拒绝文档时，Elasticsearch 返回一个错误，表明时间戳不在可写索引的范围内。您的摄取管道如何处理该错误，决定了是丢失数据还是停止摄取。

处理被拒绝文档的主要机制是故障存储。

故障存储（在 Elasticsearch 9.1+ 中推荐）

Elasticsearch 9.1 引入了失败存储，它能自动捕获被拒绝的文档。Elasticsearch 不会将错误返回给客户端，而是将失败的文档写入数据流中的专用失败索引。

您可以使用以下方法检查故障：

GET metrics-myapp::failures/_search

使用故障存储可防止摄取管道因拒绝错误而阻塞，同时保留失败的数据以供分析或重新索引。

监测拒绝问题

延迟到达问题通常首先表现为摄取异常。您可能会先注意到它们：

索引速率突然下降。
拒绝的文档激增。
越来越多的故障存储条目。
管道输入和输出计数不匹配。

通过对这些信号发出警报，操作人员可以在管道停滞之前检测问题。工作流、机器学习作业和其他机制可用于自动检测和通知。

TSDS + ILM 迁移检查清单

如果要将指标集群迁移到 TSDS、引入 ILM 分层，或升级到指标默认为 TSDS 的 Elasticsearch 版本，请先查看这些项目。

1. 测量摄取延迟

在更改 ILM 策略之前，请确定：

正常摄取延迟。
事件期间的最坏延迟情况。
批量管道造成的延迟。

您的 ILM 设计必须适应最大实际延迟。

2. 验证索引时间窗口

检查您的 TSDS 支持索引：

GET _data_stream/

寻找：

time_series.start_time
time_series.end_time

这些界限决定了哪些索引可以接受文档。了解这些时间窗口有助于您确定数据最多可以延迟多久才不会被拒绝。

3. 为延迟到达的数据调整热层的大小

确保后备索引保持可写状态的时间足够长，以便写入延迟到达的数据。

操作规则：

warm_min_age > rollover_max_age + maximum_expected_lateness

请记住，如果指标可能晚到六个小时，那么索引必须至少在六个小时内保持可写状态。

4. 决定如何处理被拒绝的文档

在启用 TSDS 之前选择策略：

故障存储（在 Elasticsearch 9.1+ 中推荐）。
Logstash 死信队列。
为延迟到达的数据提供后备索引。
接受有限的数据丢失。

5. 监测摄取健康状况

为以下内容添加警报：

索引速率下降。
已拒绝的文档。
故障存储增长。
管道输入/输出不匹配。

数据延迟问题通常首先表现为摄取异常。

总结

时序数据流为指标工作负载提供重大的存储和性能改进，但它们引入了重要的架构变更：后备索引是时间绑定的，这影响了 ILM 的行为。

使用 TSDS 时：

索引必须保持足够长的可写时间，以接受延迟数据。
摄取管道应安全处理被拒绝的文档。

要记住的关键规则是：

warm_min_age > rollover_max_age + maximum_expected_lateness

如果围绕这一约束条件设计 ILM 策略，TSDS 就能很好地处理指标工作负载。

但若忽视这一限制，您的摄取管道可能会很难发现这些时间界限。

LINQ to Elasticsearch ES|QL：编写 C# 代码，查询 Elasticsearch

Florian Bernd, Martijn Laarman — Wed, 01 Apr 2026 00:00:00 GMT

从 v9.3.4 和 v8.19.18 开始，Elasticsearch .NET 客户端包含一个语言集成查询 (LINQ) 提供程序，可在运行时将 C# LINQ 表达式转换为 Elasticsearch 查询语言 (ES|QL) 查询。您可以使用Where、Select、OrderBy、GroupBy 和其他标准操作符来编写查询，而无需手工编写 ES|QL 字符串。提供程序负责转换、参数化和结果反序列化，包括按行流式传输，无论结果集大小如何，都能保持稳定的内存使用量。

您的第一个查询

首先定义一个映射到 Elasticsearch 索引的普通旧 CLR 对象 (POCO)。属性名称通过标准System.Text.Json 属性（如[JsonPropertyName]）或配置的JsonNamingPolicy 解析为 ES|QL 列名。适用于客户端其他部分的源序列化规则在这里也同样适用。

using System.Text.Json.Serialization;

public class Product
{
    [JsonPropertyName("product_id")]
    public string Id { get; set; }

    public string Name { get; set; }

    public string Brand { get; set; }

    [JsonPropertyName("price_usd")]
    public double Price { get; set; }

    [JsonPropertyName("in_stock")]
    public bool InStock { get; set; }
}

类型设置完成后，查询语句如下所示：

var minPrice = 100.0;
var brand = "TechCorp";

await foreach (var product in client.Esql.QueryAsync(q => q
    .From("products")
    .Where(p => p.InStock && p.Price >= minPrice && p.Brand == brand)
    .OrderByDescending(p => p.Price)
    .Take(10)))
{
    Console.WriteLine($"{product.Name}: ${product.Price}");
}

该提供程序将此转换为以下 ES|QL：

FROM products
| WHERE (in_stock == true AND price_usd >= ?minPrice AND brand == ?brand)
| SORT price_usd DESC
| LIMIT 10

需要注意的一些细节：

属性名称解析：由于 [JsonPropertyName] 属性，p.Price 变成了 price_usd，根据默认 camelCase 命名策略，p.Brand 变成 brand。
参数捕获：C# 变量 minPrice 和 brand 被捕获为命名参数 (?minPrice，?brand)。它们与 JSON 有效负载中的查询字符串分开发送，这样可以防止注入，并实现服务器端查询计划缓存。
流式传输：QueryAsync 返回 IAsyncEnumerable。从 Elasticsearch 返回数据时，数据会逐行具体化。

您还可以在不执行的情况下检查生成的查询及其参数：

var query = client.Esql.CreateQuery()
    .Where(p => p.InStock && p.Price >= minPrice && p.Brand == brand)
    .OrderByDescending(p => p.Price)
    .Take(10);

Console.WriteLine(query.ToEsqlString());
// FROM products | WHERE (in_stock == true AND price_usd >= 100) | SORT price_usd DESC | LIMIT 10

Console.WriteLine(query.ToEsqlString(inlineParameters: false));
// FROM products | WHERE (in_stock == true AND price_usd >= ?minPrice AND brand == ?brand) | SORT price_usd DESC | LIMIT 10

var parameters = query.GetParameters();
// { "minPrice": 100.0, "brand": "TechCorp" }

这如何运作？快速回顾一下 LINQ

使 LINQ 提供程序成为可能的机制是 IEnumerable 和 IQueryable 之间的区别。

在 IEnumerable 上调用 .Where(p => p.Price > 100) 时，lambda 会编译为 Func，即一个由运行时在进程内执行的常规委托。这就是 LINQ-to-Objects。

当您在IQueryable 上调用相同的方法时，C# 编译器会将 lambda 封装在Expression> 中。这是一种数据结构，表示代码的结构，而不是代码的可执行形式。在运行时，该表达式树可被检查、分析，并转换为另一种语言。

// IEnumerable: the lambda is a compiled delegate
IEnumerable local = products.Where(p => p.Price > 100);

// IQueryable: the lambda is an expression tree, a data structure
IQueryable remote = queryable.Where(p => p.Price > 100);

IQueryProvider 接口是扩展点。任何提供程序均可通过实现 CreateQuery 和 Execute，将这些表达式树转换为目标语言。实体框架就是利用此机制生成 SQL 语句。LINQ to ES|QL 提供程序使用它来生成 ES|QL 查询。

上述查询的表达式树如下所示：

示例查询的表达式树。

此表达式树由内而外嵌套：Take 包裹着 OrderByDescending，它又包裹着 Where，而后者再包裹着 From，而最内层是根节点 EsqlQueryable 常量。对于 &&、>= 和 == 这几种操作符而言，Where 谓词本身是一个由 BinaryExpression 个节点构成的子树，其中包含 MemberExpression 个叶子节点，这些叶子节点用于属性访问，以及对 minPrice 和 brand 变量的闭包捕获。提供程序会遍历这一数据结构，从而生成最终的 ES|QL 查询。

深入了解：转换管道

从 LINQ 表达式到查询结果的路径遵循六阶段管道：

转换管道概述。

1. 表达式树捕获

当在一个 IQueryable 对象上串联使用 .Where()、.OrderBy()、.Take() 及其他操作符时，标准的 LINQ 基础架构会构建一个表达式树。EsqlQueryable 实现了 IQueryable 接口，并将处理委托给 EsqlQueryProvider。

2. 翻译

当查询被执行 (通过枚举、调用 ToList()，或使用 await foreach) 时)，EsqlExpressionVisitor自内而外遍历表达式树。它会将每个 LINQ 方法调用分派给一个专门的访问器进行处理：

访客	翻译	进入
WhereClauseVisitor	.Where(predicate)	WHERE 条件
SelectProjectionVisitor	.Select(selector)	评估 + 保留 + 重命名
GroupByVisitor	.GroupBy().Select()	统计信息 ... 依据
OrderByVisitor	.OrderBy() / .ThenBy()	SORT 字段 [ASC\\|DESC]
EsqlFunctionTranslator	EsqlFunctions.、Math.、字符串方法	80+ ES\|QL 函数

在翻译过程中，表达式中引用的 C# 变量被捕获为命名参数。

3. 查询模型

访问器不会直接生成字符串。相反，它们会产生 QueryCommand 对象，一个不可变的中间表征。一个 FromCommand、一个 WhereCommand、一个 SortCommand 和一个 LimitCommand，各代表一条 ES|QL 处理命令。这些数据被收集到EsqlQuery 模型中。

查询模型和命令模式。

该中间模型与表达式树和输出格式均解耦。它可以被检查、拦截（通过 IEsqlQueryInterceptor）或在格式化前进行修改。

4. 格式化

EsqlFormatter 依次访问每个QueryCommand ，并生成最终的 ES|QL 字符串。每条命令占一行，通过 ES|QL 中用于串联处理命令的管道 (|) 运算符分隔。若标识符包含特殊字符，系统会自动用反引号进行转义处理。

5. 执行

格式化后的 ES|QL 查询字符串及捕获的参数会以 JSON 数据载荷的形式发送至 Elasticsearch 的 /_query 终端。而 IEsqlQueryExecutor 接口则对传输层进行了抽象封装，这正是分层包架构发挥作用的关键环节。

6. 实现

EsqlResponseReader 流式传输JSON响应，但不会将整个结果集缓冲到内存中。以流式方式传输 JSON 响应数据，无需将整个结果集缓存至内存。针对每次查询预先计算生成的 ColumnLayout 树结构，会将扁平化的 ES|QL 列名（如 address.street、address.city）映射到嵌套的 POCO 属性。每行数据会被组装为 T 实例，并通过 IEnumerable 或 IAsyncEnumerable 逐个返回。

分层架构

LINQ to ES|QL 功能分为三个软件包：

软件包架构。Elastic.Esql 是纯转换引擎。该组件完全不依赖 HTTP 协议栈，集成了表达式访问器、查询模型、格式化器及响应解析器等核心模块。您可独立使用它来构建和检查 ES|QL 查询（无需连接 Elasticsearch），这在测试验证、查询日志记录或自定义执行层开发等场景中极具实用价值。翻译要点解析：

// Translation-only: no Elasticsearch connection needed
var provider = new EsqlQueryProvider();
var query = new EsqlQueryable(provider)
    .From("products")
    .Where(p => p.InStock)
    .OrderByDescending(p => p.Price);

Console.WriteLine(query.ToEsqlString());
// FROM products | WHERE in_stock == true | SORT price_usd DESC

Elastic.Clients.Esql 是一款轻量级的独立 ES|QL 客户端。该组件通过 Elastic.Transport 在 Elastic.Esql 之上扩展了 HTTP 协议执行能力。如果您的应用程序仅需使用 ES|QL 而无需其他 Elasticsearch API，此方案可实现最小化依赖集成。

Elastic.Clients.Elasticsearch 是完整的 Elasticsearch.NET 客户端。它还建立在Elastic.Esql 的基础上，并通过client.Esql 命名空间公开 LINQ 提供程序接口。这是大多数应用程序的推荐入口点。

两个执行层组件包均提供了针对 IEsqlQueryExecutor 接口的独立实现。该策略接口作为转换与传输层的桥梁。

当与源码生成的 JsonSerializerContext 配合使用时，这三个组件包均支持原生 AOT 编译。如需完整客户端集成方案，请参阅原生 AOT 文档。

不只使用基础功能

上面的例子涵盖了筛选、排序和分页。该提供程序支持更广泛的操作范围。

聚合

GroupBy结合 Select 中的聚合函数，转换为 ES|QL STATS ... BY：

var stats = client.Esql.Query(q => q
    .GroupBy(p => p.Brand)
    .Select(g => new
    {
        Brand = g.Key,
        Count = g.Count(),
        AvgPrice = g.Average(p => p.Price),
        MaxPrice = g.Max(p => p.Price)
    }));

// -> FROM products | STATS COUNT(*), AVG(price_usd), MAX(price_usd) BY brand

投影

Select，使用匿名类型生成 EVAL、KEEP 和 RENAME 命令：

var query = client.Esql.CreateQuery()
    .Select(p => new { ProductName = p.Name, p.Price, p.InStock });

// -> FROM products | KEEP name, price_usd, in_stock | RENAME name AS ProductName

丰富的函数库

通过 EsqlFunctions 类，可以使用超过 80 个 ES|QL 函数，涵盖日期/时间、字符串、数学、IP、模式匹配和评分。标准 Math.* 和 string.* 方法也已转换：

.Where(p => p.Name.Contains("Pro"))       // -> WHERE name LIKE "*Pro*"
.Where(p => EsqlFunctions.CidrMatch(      // -> WHERE CIDR_MATCH(ip, "10.0.0.0/8")
    p.IpAddress, "10.0.0.0/8"))

查找连接

跨索引查找转换为 ES|QL LOOKUP JOIN：

var enriched = client.Esql.Query(q => q
    .LookupJoin(
        "category-lookup-index",
        product => product.Id,
        category => category.CategoryId,
        (product, category) => new { product.Name, category!.CategoryLabel }));

原生 ES|QL 直通接口

对于 LINQ 提供程序尚未涵盖的 ES|QL 功能，您可以添加原始片段：

var results = client.Esql.Query(q => q
    .Where(p => p.InStock)
    .RawEsql("| EVAL discounted = price_usd * 0.9"));

服务器端异步查询

对于长时间运行的查询，可将其提交给服务器进行后台处理：

await using var asyncQuery = await client.Esql.SubmitAsyncQueryAsync(
    q => q.Where(p => p.InStock),
    asyncQueryOptions: new EsqlAsyncQueryOptions
    {
        WaitForCompletionTimeout = TimeSpan.FromSeconds(5),
        KeepAlive = TimeSpan.FromMinutes(10)
    });

await asyncQuery.WaitForCompletionAsync();
await foreach (var product in asyncQuery.AsAsyncEnumerable())
    Console.WriteLine(product.Name);

服务器端异步查询对于长时间运行的分析型查询/大规模数据集处理尤其有用，这类操作可能会超出常规的超时阈值；在存在负载均衡器、API 网关或代理（这些组件会强制执行严格的 HTTP 超时设置）的超时敏感环境中，异步查询同样优势显著。异步查询通过将查询提交与结果获取解耦，避免了连接中断的情况。

开始使用

LINQ to ES|QL 自以下版本起可用：

Elastic.Clients.Elasticsearch v9.3.4（9.x 分支）
Elastic.Clients.Elasticsearch v8.19.18（8.x 分支）

从 NuGet 安装：

dotnet add package Elastic.Clients.Elasticsearch

入口点位于client.Esql上：

方法	返回值	用例
查询(...)	IEnumerable	同步执行
QueryAsync(...)	IAsyncEnumerable	异步流式处理
CreateQuery()	IEsqlQueryable	高级结构分析和检测
SubmitAsyncQueryAsync(...)	EsqlAsyncQuery	长时间运行的服务器端查询

有关完整的功能参考，包括查询选项、多字段访问、嵌套对象和多值字段处理，请参阅LINQ to ES|QL 文档。

结论

LINQ 转 ES|QL 将 C# LINQ 的强大表达能力引入到 Elasticsearch 的 ES|QL 查询语言中，让您无需手工编写查询字符串，就能生成强类型、可组合的查询。它具备自动参数捕获、流式物化功能，还拥有分层式的软件包架构，既能满足独立转换需求，也能适配完整的 Elasticsearch 客户端，可自然融入任意规模的 .NET 应用程序。安装最新客户端，将 LINQ 表达式指向索引，剩下的就交给该提供程序来处理。

使用 TypeScript 构建 Elasticsearch MCP 服务器

Jeffrey Rengifo — Fri, 27 Mar 2026 00:00:00 GMT

在 Elasticsearch 中处理大型知识库时，找到信息只是成功的一半。工程师通常还需要综合多个文档的结果，生成摘要，并追溯答案的来源。模型上下文协议 (MCP) 提供了一种标准化的方式，可将 Elasticsearch 与大语言模型 (LLM) 驱动的应用程序连接起来，以实现上述目标。虽然 Elastic 提供官方解决方案，例如 Elastic Agent Builder（其功能包括 MCP 终端），但构建自定义 MCP 服务器可让您完全掌控搜索逻辑、结果格式，以及如何将检索到的内容传递给 LLM，以用于综合分析、生成摘要和提供引用。

本文将探讨构建自定义 Elasticsearch MCP 服务器的优势，并展示如何使用 TypeScript 创建该服务器，以将 Elasticsearch 连接到 LLM 驱动的应用程序。

为什么要构建自定义 Elasticsearch MCP 服务器？

Elastic 为 MCP 服务器提供了一些替代方案：

如果您需要更好地控制 MCP 服务器与 Elasticsearch 的交互，构建自己的自定义服务器可以让您灵活地根据自身需求进行定制。例如，Agent Builder 的 MCP 终端仅限于 Elasticsearch 查询语言 (ES|QL) 查询，而自定义服务器允许您使用完整的查询 DSL。在将结果传递给 LLM 之前，您还可以控制结果的格式，并可以集成其他处理步骤，例如我们将在本教程中实现的由 OpenAI 驱动的摘要功能。

通过阅读本文，您将学会使用 TypeScript 创建 MCP 服务器，该服务器可搜索存储在 Elasticsearch 索引中的信息，对其进行总结并提供引用。我们将使用 Elasticsearch 进行检索，使用 OpenAI 的 gpt-4o-mini 模型提炼摘要并生成引用，并使用 Claude Desktop 作为 MCP 客户端和 UI 来接收用户查询并提供回复。最终我们将得到一个内部知识助手，帮助工程师在整个组织的技术文档中发现并综合最佳实践。

准备工作：

Node.js 20 +
Elasticsearch
OpenAI API 密钥
Claude Desktop

什么是 MCP？

MCP 是由 Anthropic 创建的开放标准，提供大型语言模型与外部系统（如 Elasticsearch）之间的安全双向连接。您可以在这篇文章中了解更多关于 MCP 现状的信息。

MCP 的发展每天都在变化，服务器的使用范围越来越广。此外，构建自定义 MCP 服务器也非常简单，我们将在本文中进行演示。

MCP 客户端

可用的 MCP 客户端由很多，每个客户端都有自己的特点和局限性。为了简化和普及，我们将使用 Claude Desktop 作为演示中的 MCP 客户端。它将作为聊天界面，用户可以用自然语言提问，它还将自动调用我们的 MCP 服务器提供的工具来搜索文档和生成摘要。

创建 Elasticsearch MCP 服务器

通过使用 TypeScript 软件开发工具包，我们可以轻松创建一个能够根据用户查询输入来查询 Elasticsearch 数据的服务器。

本文将介绍将 Elasticsearch MCP 服务器与 Claude Desktop 客户端集成的步骤：

为 Elasticsearch 配置 MCP 服务器。

首先，我们来初始化一个 Node 应用程序：

npm init -y

这将会创建一个 package.json 文件，有了它，我们就可以开始安装该应用程序所需的依赖项。

npm install @elastic/elasticsearch @modelcontextprotocol/sdk openai zod && npm install --save-dev ts-node @types/node typescript

@elastic/elasticsearch 将使我们能够访问 Elasticsearch Node.js 库。
@modelcontextprotocol/sdk 提供核心工具来创建和管理 MCP 服务器、注册工具以及处理与 MCP 客户端的通信。
openai 允许与 OpenAI 模型进行交互以生成摘要或自然语言响应。
zod 帮助定义和验证每个工具中输入和输出数据的结构化模式。

ts-node，@types/node 和 typescript 将在开发过程中用于键入代码和编译脚本。

配置数据集

为了提供 Claude Desktop 可以使用我们的 MCP 服务器进行查询的数据，我们将使用模拟的内部知识库数据集。来自该数据集的文档是这样子的：

{
    "id": 5,
    "title": "Logging Standards for Microservices",
    "content": "Consistent logging across microservices helps with debugging and tracing. Use structured JSON logs and include request IDs and timestamps. Avoid logging sensitive information. Centralize logs in Elasticsearch or a similar system. Configure log rotation to prevent storage issues and ensure logs are searchable for at least 30 days.",
    "tags": ["logging", "microservices", "standards"]
}

为了摄取数据，我们准备了一个脚本，该脚本在 Elasticsearch 中创建一个索引并将数据集加载到其中。您可以在这里找到它。

MCP 服务器

创建一个名为 index.ts 的文件，并添加以下代码来导入依赖项并处理环境变量：

// index.ts
import { z } from "zod";
import { Client } from "@elastic/elasticsearch";
import { McpServer } from "@modelcontextprotocol/sdk/server/mcp.js";
import { StdioServerTransport } from "@modelcontextprotocol/sdk/server/stdio.js";
import OpenAI from "openai";

const ELASTICSEARCH_ENDPOINT =
  process.env.ELASTICSEARCH_ENDPOINT ?? "http://localhost:9200";
const ELASTICSEARCH_API_KEY = process.env.ELASTICSEARCH_API_KEY ?? "";
const OPENAI_API_KEY = process.env.OPENAI_API_KEY ?? "";
const INDEX = "documents";

此外，让我们初始化客户端以处理 Elasticsearch 和 OpenAI 的调用：

const openai = new OpenAI({
  apiKey: OPENAI_API_KEY,
});

const _client = new Client({
  node: ELASTICSEARCH_ENDPOINT,
  auth: {
    apiKey: ELASTICSEARCH_API_KEY,
  },
});

为了使我们的实现更加稳健，并确保输入和输出结构化，我们将使用 zod 定义模式。这使我们能够在运行时验证数据，及早发现错误，并使工具响应更容易以编程方式进行处理：

const DocumentSchema = z.object({
  id: z.number(),
  title: z.string(),
  content: z.string(),
  tags: z.array(z.string()),
});

const SearchResultSchema = z.object({
  id: z.number(),
  title: z.string(),
  content: z.string(),
  tags: z.array(z.string()),
  score: z.number(),
});

type Document = z.infer;
type SearchResult = z.infer;

请在此处了解更多关于结构化输出的信息。

现在让我们初始化 MCP 服务器：

const server = new McpServer({
  name: "Elasticsearch RAG MCP",
  description:
    "A RAG server using Elasticsearch. Provides tools for document search, result summarization, and source citation.",
  version: "1.0.0",
});

定义 MCP 工具

完成所有配置后，我们就可以开始编写将由 MCP 服务器公开的工具了。此服务器公开两种工具：

search_docs：使用全文本搜索在 Elasticsearch 中搜索文档。
summarize_and_cite：汇总和综合先前检索到的文档中的信息，以回答用户的问题。该工具还可添加引用源文档的引文。

这两个工具共同构成了一个简单的“检索后总结”工作流，其中一个工具获取相关文档，另一个工具使用这些文档生成汇总的引用回复。

工具响应格式

每个工具都可以接受任意输入参数，但必须以以下结构作出响应：

内容：这是工具以非结构化格式做出的响应。该字段通常用于返回文本、图像、音频、链接或嵌入内容。在本应用程序中，它将用于返回包含工具生成的信息的格式化文本。
结构化内容： 这是一个可选返回，用于以结构化格式提供每个工具的结果。这对程序化用途非常有用。虽然本 MCP 服务器没有使用它，但如果您想开发其他工具或以编程方式处理结果，它可能会很有用。

基于这个结构，让我们详细探讨每个工具。

Search_docs 工具

此工具在 Elasticsearch 索引中执行全文本搜索，以根据用户查询检索最相关的文档。它突出显示关键匹配项，并快速提供相关性评分概述。

server.registerTool(
  "search_docs",
  {
    title: "Search Documents",
    description:
      "Search for documents in Elasticsearch using full-text search. Returns the most relevant documents with their content, title, tags, and relevance score.",
    inputSchema: {
      query: z
        .string()
        .describe("The search query terms to find relevant documents"),
      max_results: z
        .number()
        .optional()
        .default(5)
        .describe("Maximum number of results to return"),
    },
    outputSchema: {
      results: z.array(SearchResultSchema),
      total: z.number(),
    },
  },
  async ({ query, max_results }) => {
    if (!query) {
      return {
        content: [
          {
            type: "text",
            text: "Query parameter is required",
          },
        ],
        isError: true,
      };
    }

    try {
      const response = await _client.search({
        index: INDEX,
        size: max_results,
        query: {
          bool: {
            must: [
              {
                multi_match: {
                  query: query,
                  fields: ["title^2", "content", "tags"],
                  fuzziness: "AUTO",
                },
              },
            ],
            should: [
              {
                match_phrase: {
                  title: {
                    query: query,
                    boost: 2,
                  },
                },
              },
            ],
          },
        },
        highlight: {
          fields: {
            title: {},
            content: {},
          },
        },
      });

      const results: SearchResult[] = response.hits.hits.map((hit: any) => {
        const source = hit._source as Document;

        return {
          id: source.id,
          title: source.title,
          content: source.content,
          tags: source.tags,
          score: hit._score ?? 0,
        };
      });

      const contentText = results
        .map(
          (r, i) =>
            `[${i + 1}] ${r.title} (score: ${r.score.toFixed(
              2,
            )})\n${r.content.substring(0, 200)}...`,
        )
        .join("\n\n");

      const totalHits =
        typeof response.hits.total === "number"
          ? response.hits.total
          : (response.hits.total?.value ?? 0);

      return {
        content: [
          {
            type: "text",
            text: `Found ${results.length} relevant documents:\n\n${contentText}`,
          },
        ],
        structuredContent: {
          results: results,
          total: totalHits,
        },
      };
    } catch (error: any) {
      console.log("Error during search:", error);

      return {
        content: [
          {
            type: "text",
            text: `Error searching documents: ${error.message}`,
          },
        ],
        isError: true,
      };
    }
  }
);

我们将 fuzziness : “AUTO” 配置为根据被分析的词元的长度具有可变的拼写错误容忍度。我们还设置了 title^2 来提高标题字段匹配的文档的分数。

摘要和引用工具

该工具根据上一次搜索中检索到的文档生成摘要。它使用 OpenAI 的 gpt-4o-mini 模型来综合最相关的信息，提供直接来自搜索结果的响应，以回答用户的问题。除了摘要之外，它还返回所使用源文档的引用元数据。

server.registerTool(
  "summarize_and_cite",
  {
    title: "Summarize and Cite",
    description:
      "Summarize the provided search results to answer a question and return citation metadata for the sources used.",
    inputSchema: {
      results: z
        .array(SearchResultSchema)
        .describe("Array of search results from search_docs"),
      question: z.string().describe("The question to answer"),
      max_length: z
        .number()
        .optional()
        .default(500)
        .describe("Maximum length of the summary in characters"),
      max_docs: z
        .number()
        .optional()
        .default(5)
        .describe("Maximum number of documents to include in the context"),
    },
    outputSchema: {
      summary: z.string(),
      sources_used: z.number(),
      citations: z.array(
        z.object({
          id: z.number(),
          title: z.string(),
          tags: z.array(z.string()),
          relevance_score: z.number(),
        })
      ),
    },
  },
  async ({ results, question, max_length, max_docs }) => {
    if (!results || results.length === 0 || !question) {
      return {
        content: [
          {
            type: "text",
            text: "Both results and question parameters are required, and results must not be empty",
          },
        ],
        isError: true,
      };
    }

    try {
      const used = results.slice(0, max_docs);

      const context = used
        .map(
          (r: SearchResult, i: number) =>
            `[Document ${i + 1}: ${r.title}]\\n${r.content}`
        )
        .join("\n\n---\n\n");

      // Generate summary with OpenAI
      const completion = await openai.chat.completions.create({
        model: "gpt-4o-mini",
        messages: [
          {
            role: "system",
            content:
              "You are a helpful assistant that answers questions based on provided documents. Synthesize information from the documents to answer the user's question accurately and concisely. If the documents don't contain relevant information, say so.",
          },
          {
            role: "user",
            content: `Question: ${question}\\n\\nRelevant Documents:\\n${context}`,
          },
        ],
        max_tokens: Math.min(Math.ceil(max_length / 4), 1000),
        temperature: 0.3,
      });

      const summaryText =
        completion.choices[0]?.message?.content ?? "No summary generated.";

      const citations = used.map((r: SearchResult) => ({
        id: r.id,
        title: r.title,
        tags: r.tags,
        relevance_score: r.score,
      }));

      const citationText = citations
        .map(
          (c: any, i: number) =>
            `[${i + 1}] ID: ${c.id}, Title: "${c.title}", Tags: ${c.tags.join(
              ", ",
            )}, Score: ${c.relevance_score.toFixed(2)}`,
        )
        .join("\n");

      const combinedText = `Summary:\\n\\n${summaryText}\\n\\nSources used (${citations.length}):\\n\\n${citationText}`;

      return {
        content: [
          {
            type: "text",
            text: combinedText,
          },
        ],
        structuredContent: {
          summary: summaryText,
          sources_used: citations.length,
          citations: citations,
        },
      };
    } catch (error: any) {
      return {
        content: [
          {
            type: "text",
            text: `Error generating summary and citations: ${error.message}`,
          },
        ],
        isError: true,
      };
    }
  }
);

最后，我们需要用 stdio 启动服务器。这意味着 MCP 客户端将通过读取和写入其标准输入和输出流与我们的服务器进行通信。stdio 是最简单的传输选项，适用于客户端作为子进程启动的本地 MCP 服务器。在文件末尾添加以下代码：

const transport = new StdioServerTransport();
server.connect(transport);

现在请您使用以下命令编译该项目：

npx tsc index.ts --target ES2022 --module node16 --moduleResolution node16 --outDir ./dist --strict --esModuleInterop

这将创建一个 dist 文件夹，并在其中创建一个 index.js 文件。

将 MCP 服务器加载到 Claude Desktop。

请按照本指南配置 MCP 服务器和 Claude Desktop。在 Claude 配置文件中，我们需要设置以下值：

{
  "mcpServers": {
    "elasticsearch-rag-mcp": {
      "command": "node",
      "args": [   "/Users/user-name/app-dir/dist/index.js"
      ],
      "env": {
        "ELASTICSEARCH_ENDPOINT": "your-endpoint-here",
        "ELASTICSEARCH_API_KEY": "your-api-key-here",
        "OPENAI_API_KEY": "your-openai-key-here"
      }
    }
  }
}

args 的值应指向 dist 文件夹中的编译后文件。您还需要在配置文件中设置环境变量，使其名称与代码中定义的名称完全一致。

测试一下

在执行每个工具前，点击搜索和工具，确保这些工具已启用。您还可以在这里启用或禁用每个工具：

最后，让我们从 Claude Desktop 聊天中测试 MCP 服务器，并开始提问：

针对问题“搜索有关身份验证方法和基于角色的访问控制的文档”，已执行 search_docs 工具并返回以下结果：

Most Relevant Documents:
Access Control and Role Management (highest relevance) - This document covers role-based access control (RBAC) principles, including ensuring users only have necessary permissions, regular auditing of user roles, revoking inactive accounts, and implementing just-in-time access for sensitive operations.
User Authentication with OAuth 2.0 - This document explains OAuth 2.0 authentication, which enables secure delegated access without credential sharing. It covers configuring identity providers, token management with limited scope and lifetime, and secure storage of refresh tokens.
Container Security Guidelines - While primarily about container security, this document touches on access control aspects like running containers as non-root users and avoiding embedded credentials.
Incident Response Playbook - This mentions role assignment during incidents (incident commander, communications lead, etc.), which relates to access control in emergency scenarios.
Logging Standards for Microservices - This document includes guidance on avoiding logging sensitive information, which is relevant to authentication security.

回复是：“太好了！我找到了 5 份关于身份验证方法和基于角色的访问控制的相关文档。以下是找到的内容：”

该工具调用会将源文档作为其响应有效负载的一部分返回，这些文档随后用于生成引用。

您也可以在一次交互中串联使用多个工具。在这种情况下，Claude Desktop 会分析用户的问题，并确定首先需要调用 search_docs 来检索相关文档，然后将这些结果传递给 summarize_and_cite 以生成最终回答，所有这些都无需用户单独提示：

在这种情况下，对于“在我们的系统中改进身份验证和访问控制的主要建议是什么？附上参考文献”，我们得到了以下结果：

Based on the documentation, here are the main recommendations to improve authentication and access control across your systems:

Key Recommendations

1. Implement Role-Based Access Control (RBAC)
Ensure users have only the permissions necessary for their job functions. This principle of least privilege minimizes security risks by limiting access to what's truly needed. [1]

2. Regular Access Audits
Conduct regular audits of user roles and promptly revoke access for inactive accounts. This helps prevent unauthorized access from dormant or compromised accounts. [1]

3. Just-in-Time (JIT) Access
Implement just-in-time access for sensitive operations, where permissions are granted only when needed and for a limited duration. This reduces the attack surface by minimizing standing privileges. [1]

4. OAuth 2.0 for Secure Authentication
Use OAuth 2.0 to enable secure delegated access without sharing user credentials. This protocol allows third-party applications to access resources on behalf of users without exposing passwords. [2]

5. Token Security and Management
Configure your identity provider to issue tokens with limited scope and lifetime

Store refresh tokens securely
Validate access tokens consistently to maintain security [2]
References

Access Control and Role Management (Tags: security, access-control)
User Authentication with OAuth 2.0 (Tags: authentication, oauth)
These recommendations work together to create a defense-in-depth approach, where multiple security layers protect your systems from unauthorized access.

与上一步一样，我们可以看到每个工具对该问题的响应：

注意：如果出现子菜单询问是否批准使用每个工具，请选择“始终允许”或“允许一次”。

结论

MCP 服务器代表了本地和远程应用中 LLM 工具标准化的重要一步。虽然完全兼容仍在开发中，但我们正朝这个方向快速推进。

在本文中，我们学习了如何用 TypeScript 构建一个自定义 MCP 服务器，将 Elasticsearch 连接到基于 LLM 的应用。我们的服务器公开了两个工具：search_docs 用于使用查询 DSL 检索相关文档；summarize_and_cite 用于通过 OpenAI 模型和 Claude Desktop 作为客户端 UI 生成带引用的摘要。

不同客户端和服务器提供商之间的兼容性前景看起来一片光明。下一步包括为您的智能体添加更多功能和灵活性。这里有一篇实用的文章介绍了如何使用搜索模板参数化查询，以获得精确性和灵活性。

宣布 Kibana 仪表板的只读权限

Fabio Busatto, Teresa Alvarez Soler — Thu, 26 Mar 2026 00:00:00 GMT

您去过那里。您花了一个小时构建完美的仪表板来监测日志：每个图表、每个过滤器和每个标签。您将其分享给了团队。几天后，您打开它，发现有些不对劲。一位同事对查询进行了微调。或者有人更改了日期范围。也许他们以为自己是在帮忙。现在您正在翻查修改记录，对每个数字都心存疑虑。听起来很熟悉？

正因如此，我们才构建了只读仪表板。这是您一直在要求的控制权。放心地共享仪表板，无需担心下一个拥有编辑权限的人会更改或破坏仪表板。

注意：只读权限在 Elastic Cloud Serverless 中可用，并且从 9.3 版本开始在 Elastic Cloud Hosted 和 Elastic Self-Managed 中可用。

当“人人皆可编辑”成为障碍时

在 Kibana 中，共享通常意味着空间层级的权限。如果有人可以在某个空间创建仪表板，他们也可以编辑或删除其他人的仪表板。这对协作来说原本是件好事，直到情况变得不妙。一次意外的编辑可能会导致错误的决策、失去信任和大量的清理工作。

我们听说过一些替代方案：“我们在仪表板名称中加上‘只读’，希望用户能注意到”。或者：“我们给它们贴上标签，然后祈祷好运。”希望并不是一种权限模型。您需要一种真正的方法来锁定仪表板，同时又不将所有人拒之门外。

到底出了什么问题

Deb 和 Kevin 都拥有对运营空间中的日志监控仪表板的编辑权限。Kevin 对图表进行了一些更改。当 Deb 回来后，发现数字与她之前提交的不符。她必须追溯哪些地方发生了变化（通常凭记忆），然后进行修正，还要弄清楚有多少份报告发出了错误数据。

只读仪表板：合理的所有权和控制权

只读仪表板可解决此问题，让您能够控制其他用户是否可以编辑该仪表板。共享仪表板时，您可以选择：编辑（默认，与当前相同）或查看。在查看模式下，只有你（和 Kibana 管理员）可以对其进行更改或删除。其他人可以打开它、使用它、信任它，但他们无法对其进行修改。

您将获得的内容

仪表板完整性：在查看模式下，该空间内具有编辑权限的其他用户无法修改或删除仪表板。如果他们尝试，会被告知仪表板已锁定。您的图表和逻辑将保持原样。
您掌控一切：你是所有者。您随时都可以编辑、完善和更新。以“仅查看”的方式共享并不会将您锁定，而是会锁定其他人看到的版本。
灵活的生命周期：您可以随时将仪表板切换回“可编辑”状态。Kibana 管理员仍然可以管理所有仪表板（例如，在仪表板所有者离开的情况下）。因此，不会出现无人管理的情况。

您可以广泛共享最终确定的关键任务仪表板，并确信这些仪表板将保持一致。所有 Elastic 层级和产品（包括 Serverless）均提供此功能。

谁能做什么？

按角色快速参考：

仪表板所有者：您创建了它；您拥有完全的编辑权限。
Kibana 管理员：可以管理所有仪表板。
具有空间编辑权限的用户：可以创建和编辑自己的仪表板；但不能编辑或删除仅查看的仪表板。
具有空间视图的用户：只能查看（和列出）仪表板。

操作	仪表板所有者	Kibana 管理员	具有空间编辑权限的用户	具有空间视图的用户
列出并查看仪表板	✔	✔	✔	✔
创建新的仪表板	✔	✔	✔	✘
修改/删除可编辑的仪表板	✔	✔	✔	✘
修改/删除只读仪表板	✔	✔	✘	✘

如何启用只读

您可以在保存新仪表板时设置仅查看模式，也可以稍后从共享菜单中设置。

保存新仪表板时

创建您的仪表板，然后单击“保存”。
在“另存为新仪表板”模态框中，找到“权限”。
从“可编辑”更改为“可查看”。
单击“保存”。完成。它对其他所有人都是只读的。

对于您已拥有的仪表板

打开仪表板。
打开“共享仪表板”菜单。

在共享模式中，找到“权限”并切换到“可查看”。将立即应用更改；空间中的其他用户将无法再编辑或删除它。

您可以将鼠标悬停在“共享”操作上，查看给定仪表板拥有的权限类型。

查看哪些仪表板被锁定

在主仪表板列表中，无法编辑或删除的仪表板有一个禁用选择复选框。这为找出“仅查看”的内容提供了一种简便的方法。

在仪表板中，您还会发现“编辑”操作已禁用，并且会出现一个工具提示，说明仪表板已设置为“仅查看”。

试用

只读仪表板现已推出。创建仪表板，将其切换到“可查看”，然后共享。您的团队将获得单一可信来源，而您则高枕无忧。标题中不再包含“请勿编辑”字样。

我们很想听听您是如何使用只读仪表板的。在我们的社区论坛中分享您的反馈。

shell 工具并非上下文工程的灵丹妙药

Leonie Monigatti — Wed, 25 Mar 2026 00:00:00 GMT

智能体最重要的工具是那些它可以用来构建自身上下文的搜索工具。最近 LlamaIndex 和 LangChain 的帖子引发了一场讨论：shell 工具和文件系统是否就是智能体进行上下文工程所需的一切？不幸的是，讨论很快偏离了焦点，转向了文件系统与数据库之争。

本文重新聚焦于这个问题：智能体构建自身上下文需要哪些正确的搜索接口？它首先讨论了 shell 工具与专用数据库工具之间的取舍。在此基础上，它提供了一个实用的框架，用于为您的智能体需求找到正确的接口。

对智能体而言，“构建上下文”到底意味着什么？

在早期的 Retrieval-Augmented Generation (RAG) 管道中，开发人员设计了一个固定的检索管道，而大型语言模型（LLM）只是上下文的被动接收者。这是一个根本性的限制：无论是否需要，每次查询都要检索上下文，而且不检查上下文是否真的有帮助。

随着向智能体式 RAG 的转变，智能体现在可以访问一组搜索工具来构建自己的上下文。例如，Claude Code [1] 和 Cursor [2] 都允许智能体根据任务的实际需求，在不同的搜索工具之间进行选择，甚至将它们组合起来用于链式查询。

有哪些用于上下文工程的搜索接口？

上下文可以存在于不同的位置，例如网络上、本地文件系统中或数据库中。智能体可以通过不同的工具与这些脱离上下文的每个数据源进行交互：

shell 工具 可以执行 shell 命令并访问本地文件系统。一些内置 shell 工具的例子包括 Claude API 的 bash 工具、OpenClaw 的 exec 工具以及 LangChain 的 shell 工具。
专用数据库工具，例如来自模型上下文协议（MCP）服务器（例如，Elastic Agent Builder MCP 服务器）的工具或自定义工具（例如，run_esql(query) 或 db_list_index()），可以查询数据库。
专用文件搜索工具可以搜索和读取本地（或上传）文件（无需完整的 shell 访问权限）。一些内置文件搜索工具的例子是 Gemini API 的文件搜索工具或 OpenAI 的文件搜索工具。
网络搜索工具可以从网络上检索信息。
记忆工具会存储和回忆长期记忆中的内容（无论存储方式如何）。

如图所示，shell 工具功能强大，可用于从不同数据源检索上下文，包括：

文件系统：智能体会探索目录结构（ls、find），搜索相关内容（grep、cat），并不断重复，直到构建足够的上下文。
数据库：智能体可以使用数据库命令行接口（CLI）工具（例如，elasticsearch-sql-cli），通过 curl 调用 HTTP API 或运行脚本，这在与 Agent Skills 结合使用时特别有用。Agent Skills 是注入到智能体上下文中用于指导正确工具使用的可复用、带示例的文档（例如 Elastic Agent Skills for Elasticsearch）。
网络：智能体可以通过搜索提供商的 API，使用 curl 命令执行网络搜索。

然而，shell 工具提供直接的系统访问权限，因此需要采取安全措施，例如在隔离的沙盒环境中运行，并记录所有执行的命令。

何时使用哪种搜索接口

正确的搜索接口取决于您的数据、查询模式以及用例场景。本节将作为实用的入门起点。

文件系统并不会让数据库过时

文件系统与数据库的讨论并非关于存储层。例如，LangChain 解释说，其记忆系统实际上并不将记忆存储在真实的文件系统中。相反，它将记忆存储在数据库中，并以文件集合的形式呈现给智能体 [3]。

文件系统天然适用于以文件为中心的用例，例如编码智能体。它们也可以很好地用作临时暂存区或工作记忆，以及适用于无需考虑并发问题的单用户或单智能体场景。在这些情况下，在投入构建专用接口之前，使用物理文件系统或将数据表示为文件系统可以为您提供灵活性。

但是，文件系统存储确实存在缺点，例如并发性弱、需要手动执行模式约束、原子事务支持差。当您的应用程序需要扩展或迁移到多智能体场景时，这些缺点会更加明显。任何忽视这些缺点的人都注定要痛苦地重新发明更糟糕的数据库，却缺乏生产数据库已经提供的、经过数十年工程实践的事务安全或访问控制机制。此外，在大多数企业环境中，您并非选择是否使用数据库——因为数据库已经存在，并存储着业务关键数据。

Shell 工具 + 文件系统

对于文件系统搜索，shell 工具是自然的起点。当前，编码智能体正在推动该领域取得巨大进展。由于它们处理本地文件中的代码，因此自然是以文件为主的用例。因此，LLM 在后训练阶段会针对编码任务进行微调。这就是为什么许多 LLM 不仅擅长编写代码，还擅长使用 shell 命令和操作文件系统的原因。

使用带有内置 CLI（如 ls 和 grep）的 shell 工具来查找文件是有效的。使用 grep，像“Find all files that import matplotlib”这样的查询既快速、精确又廉价。但是，当智能体需要处理概念性查询（例如“How does our app handle failed authentication?”）时，使用 grep 进行模式匹配很快就会触及天花板。为了填补这一空白，出现了一些将语义搜索能力带到命令行的替代方案，包括 jina-grep。

然而，grep 及其许多语义搜索替代方案在语料库上的运行速度为 O(n)。对于代码库相关的使用场景，这可能没问题。但是，如果数据量增加，延迟就会变得很明显。在这种情况下，为了保持性能，需要使用索引数据存储。

shell 工具 + 数据库

另一种为数据添加更多搜索能力（例如语义搜索或混合搜索）的方法是将数据存储在数据库中，就像 Cursor 所做的那样。此外，当数据需要复杂的关系连接或聚合时，数据库接口是不可或缺的。

数据存储在数据库中而非文件系统上时，shell 工具可以在某些用例中充当轻量级的数据库接口。如果您的查询足够简单，只需 CLI 或 curl 调用即可完成，那么专用的数据库工具可能会带来不必要的复杂性。

这种方法也适用于早期的探索阶段，此时您还不知道智能体最终会发展出什么样的查询模式。在这种情况下，Agent Skills 可以为智能体提供足够的结构来正确执行查询，而无需投入构建专用工具。但是，当智能体需要大量迭代才能找出针对重复任务查询数据库的正确方式时，使用 shell 工具作为接口所带来的词元开销，就不再能抵消避免使用额外工具的简单性优势了。

专用数据库工具

特别是当重复的查询模式是结构化的或分析性的时，专用的数据库工具就变得必要了。Vercel 和 Braintrust 的一篇博客文章比较了拥有不同搜索工具集的智能体，在半结构化数据（如客户支持工单和销售通话记录）上执行真实世界的检索任务（例如，“How many open issues mention 'security'?”或“Find issues where someone reported a bug and later someone submitted a PR claiming to fix it?”）[4]。

拥有专用数据库工具的智能体，与仅拥有 shell 工具和文件系统的智能体相比，使用的词元更少，速度更快，犯的错误也更少。经验表明，当查询需要对半结构化数据进行分析推理时，直接使用数据库工具才是正确的选择。

组合使用搜索接口

没有哪一个搜索接口能完美处理所有查询。例如，Cursor 将 shell 工具（用于通过 grep 搜索）和语义搜索工具组合起来，让智能体根据用户提示选择正确的工具。智能体会选择 grep 来匹配特定的符号或字符串，选择语义搜索来处理概念性或行为性问题，并在探索性任务中同时使用两者。

Vercel 的实验报告了相同的结果：其混合型智能体可同时访问 shell 工具和专用数据库工具，通过首先使用专用数据库工具，然后通过文档系统 grepping 验证结果，在所有测试的智能体中取得了最佳性能。这种方法在工具选择和验证的推理上消耗了更多的词元和时间。

这两个示例中的模式是相同的：组合优于任何单一接口，但组合的代价是增加成本和延迟。

寻找合适工具的实用建议

合适的搜索接口应该简洁、目标明确，并且能够满足您的智能体的实际查询模式。当前的最佳实践是让智能体拥有尽可能少的工具，而不是让它拥有数百个 MCP 工具。这是因为，预先公开所有可能的工具会带来弊端：它会使上下文窗口臃肿，并使智能体困惑于到底该使用哪个工具。例如，据报道 Claude Code 只有大约 20 种工具。

相反，渐进式公开的理念是从一套最基本的工具开始，让智能体在需要时才发现额外的功能。Anthropic [5] 和 Cursor [6] 的研究表明，这种方法可以节省 47%–85% 的词元。例如，Claude Code 直接实现了这一点，允许智能体逐步发现如何查询 API 或数据库，而无需在每次 LLM 调用时都将这些知识消耗在上下文中。

一旦您熟悉了智能体的查询模式，就可以重新审视智能体默认可以访问的搜索工具集。一种思考这种取舍的有用方式是使用”低门槛，高上限“原则，用于决定哪些工具值得被纳入。高上限工具不会限制智能体的潜力。例如，一个通用的 shell 工具允许智能体编写完整的数据库查询（包括模糊查询），但代价是推理开销、更高的延迟和更低的可靠性。

“低门槛”工具则相反。它们是封装了特定查询的专用工具，智能体可以以最少的推理开销直接使用，从而产生更低的成本和更高的可靠性。但它们需要前期工程投入，无法覆盖所有可能的查询，并且可能使智能体更难选择正确的工具。

可将每个工具视为处在一条连续谱上：低门槛工具更容易被代理正确使用，但覆盖范围较窄。高上限工具用途广泛，但要用得好需要更多推理。

多数智能体需要混合使用不同的搜索工具。但每个工具都需要“凭实力”加入。我们建议从一个通用的搜索工具（例如 search_database() 工具或 shell 工具）开始。然后，复用您出于安全目的已经保留的命令日志，来跟踪智能体的实际行为，包括工具调用、重试次数以及每个用户查询的调用次数。并且，当您看到某个查询模式重复出现或执行失败时，这就是为该模式构建专用工具的信号。

总结

文件系统与数据库的争论分散了工程师们真正需要关注的问题：智能体构建自身上下文需要哪些正确的搜索接口？答案很可能是：不是单一一个接口。

shell 工具是一种用于与不同上下文外数据源交互的通用工具，因此是一个很好的起点。但在结构化分析查询的用例中，它的效率和准确度不如专用数据库工具。

目标是找到能够良好处理智能体实际查询模式的最小搜索工具集。从 shell 工具开始，记录智能体的实际行为。当您发现某个查询模式重复出现且执行失败时，就该为该模式设计专用工具了。

参考资料

1. Thariq (Anthropic). Lessons from Building Claude Code: Seeing like an Agent (2026).

2. Cursor: Documentation. Semantic & agentic search (2026).

3. Harrison Chase (LangChain). How we built Agent Builder’s memory system (2026).

4. Ankur Goyal (Braintrust) and Andrew Qu (Vercel). Testing if "bash is all you need" (2026).

5. Anthropic. Introducing advanced tool use on the Claude Developer Platform (2025).

6. Cursor. Dynamic context discovery (2026).

在无服务器环境中实现负载均衡的 Elasticsearch 副本

Andrei Dan — Tue, 24 Mar 2026 00:00:00 GMT

在 Elastic Cloud Serverless 中，我们会根据搜索负载自动调整索引的副本数量，确保查询性能最佳，无需手动配置。在这篇博客中，我们将解释副本如何扩展，系统何时添加或移除它们，以及这对您的索引意味着什么。

派对越来越拥挤了

您要举办一个披萨派对。您有几位朋友协助您招待宾客，他们分别在房间的不同位置。您把披萨分给每位朋友，他们会在饥饿的宾客陆续到来时开始分发披萨。

起初，一切运行顺利。有几位宾客陆续进来，朋友们端上披萨片，大家都很开心。但随后关于您的披萨的消息传开了。门铃一直在响。宾客们蜂拥而至。很快，人群聚集在您的一位朋友周围，就是那个拿着意式辣味香肠披萨的朋友，似乎大家都想要那块披萨。

您那位拿着意式辣味香肠披萨的朋友感到不知所措。宾客们正在等待，变得不耐烦了，还排起了长队。与此同时，您的朋友手持玛格丽特披萨站在那里，几乎没有人要一片。

您需要怎么做？

您又点了几份意式辣味香肠披萨，并把它们分给其他朋友。现在有三位朋友在拿着意式辣味香肠披萨分发，而不再只是一个人。人群散开了，突然间您就能一次性接待三倍数量的宾客。

随着您举办的派对越来越多，有几件事会变得越来越清晰：

并非所有披萨都同样受欢迎。有些供不应求，有些则鲜有人问津。您不需要为那些不受欢迎的披萨准备多余的“份数”。您需要为那些排队的披萨准备更多“份数”。
在排队人数变多之前多点几份披萨。如果您等到朋友已经忙得不可开交、客人都气得离场时才行动，那就太晚了。最好是在看到人群聚集时，就提前加点一份披萨。
别太快把披萨撤走。即使意式辣味香肠披萨周围的人群散开了五分钟，也不代表高峰期已经过去。也许他们只是在加饮料，甚至只是在聊天（现在还是这样吗？）。把多余的披萨准备好。如果冷场确实持续了一段时间，那时再撤走也不迟。
您能分发的披萨数量取决于有多少朋友来帮忙。如果您只有四个朋友在帮忙，十张披萨也改变不了结果。一次只能供应四份。将您的披萨数量与可用人手相匹配。
当一个朋友离开时，记得接管他的披萨。如果您的朋友需要离开，请立即拿走他们的披萨。披萨不能无人看管地放置。将它交给其他人，或者妥善收好。

我们已经聊完了披萨和副本

现在让我们把这些生动的小故事映射回 Elasticsearch。

在我们的类比中，披萨是副本（索引分片的副本），帮助提供服务的朋友是搜索节点，饥肠辘辘的宾客是搜索查询，而人头攒动的热门披萨则是搜索负载较高的热门索引。

当特定索引的搜索流量增加时，我们会创建额外的副本，并将它们分发到搜索节点上。任何副本都可以为该索引的任何查询提供服务，就像任何拿着意式辣味香肠披萨的朋友都可以分发意式辣味香肠披萨片一样。更多副本意味着更高的吞吐量：三个副本每秒处理的查询量是单个副本的三倍。

衡量饥饿程度

在决定订购多少披萨之前，我们需要了解人群的饥饿程度。

Elasticsearch 会跟踪每个分片的搜索负载。这是一个度量指标，用于衡量分片正在处理的搜索活动的数量。我们将此汇总到索引的所有分片中，以了解总的搜索需求。

最重要的是相对搜索负载：您的项目总搜索流量中，每个索引所占的比例是多少？如果一个索引的搜索量为 60%，而另一个索引的搜索量为 5%，我们就知道应该在哪里增加容量。

披萨背后的数学原理

我们按照以下公式计算最佳副本数量：

desired_replicas = min(ceil(L × N / (S × X)), N)

其中：

L = 索引的相对搜索负载（介于 0 和 1 之间）。
N = 项目中所需搜索节点的数量。
S = 索引中的分片数量。
X = 用于避免热点的阈值（默认值：0.5）。

示例：四个搜索节点，具有两个主分片的一个索引，接收 80% 的搜索流量：

desired_replicas = min(ceil(0.8 × 4 / (2 × 0.5)), 4)
                 = min(4, 4)
                 = 4

这个热索引有四个副本，分布在各个搜索节点上。

阈值 X（默认为 0.5）非常重要。我们不会等到副本完全不堪重负才采取行动；当副本的负载达到一半容量时，我们就会进行扩展。当看到人群聚集时再分发额外的披萨，而不是等到宾客已经开始离开的时候。

快速扩展，缓慢收缩

当搜索负载增加时，我们立即添加副本。没有理由让用户等待。

当搜索负载下降时，我们会等待一段时间再采取行动。在减少副本之前，我们需要看到持续约 30 分钟的低需求。（这是为了应对流量高峰，因为短暂的平静并不意味着派对结束。）

这很重要，因为添加副本是有成本的。在高效提供查询之前，新的副本会复制数据并预热其缓存。过于急切地移除副本意味着在流量自然波动时持续支付这种启动成本。

尊重拓扑边界

副本永远不能超过搜索节点的数量。拥有比节点更多的副本并不会带来任何好处（您能送出的披萨数量取决于帮忙的朋友数量）。

从您的项目中移除节点时，我们会立即减少副本数量以进行匹配。无需等待冷却时间，因为您无法拥有未分配的副本。朋友离开的那一刻，我们就会移除他们的披萨。

无服务器的全貌

用于搜索负载均衡的副本与其他自动缩放系统协同工作：

搜索自动缩放可调整搜索节点的数量（有多少朋友在帮忙）。
用于搜索负载均衡的副本通过调整每个索引的副本数量来分发流量（我们需要每种披萨的数量）。
数据流自动分片优化了写入的分片数量（如何将每个披萨切片，详情见上一篇文章）。

一个重要的设计原则：用于负载均衡的副本不会直接触发搜索自动扩展。相反，通过将搜索请求分发给更多副本，可以提高搜索节点的资源利用率。这种更高的利用率会触发我们现有的自动扩展逻辑，以便在需要时增加容量。用于负载均衡的副本可让自动扩展发挥作用，确保搜索节点真正得到使用，而不是将所有流量都集中在单个副本上造成瓶颈，而其他节点却处于闲置状态。

这对您意味着什么

您无需预测哪些索引会更受欢迎。当流量模式发生变化时，您无需手动调整副本。您无需因为流量激增导致最繁忙的索引不堪重负，而不得不凌晨 3 点起床进行处理。

系统会观察排队的地点，并为这些地点订购更多披萨。冷索引不会在不必要的副本上浪费资源。热门索引会获得所需的容量。您的预算用在了最重要的地方。

结论

在自动分片文章中，我们确保您的披萨切得恰到好处。现在，有了用于搜索负载均衡的副本，我们可以确保在饥饿的人群到来时，有足够的披萨送到他们手中。

试用 Elastic Cloud Serverless，让我们来处理披萨分发事宜。

使用 Elasticsearch 推理 API 以及 Hugging Face 模型

Jeffrey Rengifo — Mon, 23 Mar 2026 00:00:00 GMT

在最近的更新中，Elasticsearch 引入了原生集成，用于连接到托管在 Hugging Face Inference Service 上的模型。在本文中，我们将探讨如何配置此集成，并使用大型语言模型 (LLM) 通过简单的 API 调用执行推理。我们将使用 SmolLM3-3B，这是一款轻量级通用模型，在资源使用和答案质量之间取得了良好的平衡。

准备工作

Elasticsearch 9.3 或 Elastic Cloud Serverless：您可以按照这些说明创建云部署，或者改用 start-local 快速入门。
Python 3.12：在此处下载 Python。
Hugging Face 访问令牌。

使用 Hugging Face 推理终端完成聊天

首先，我们将构建一个实用示例，将 Elasticsearch 连接到 Hugging Face 推理终端，以从博客文章集合中生成 AI 驱动的推荐。对于应用知识库，我们将使用公司博客文章数据集，其中包含有价值但通常难以查找的信息。

通过这个终端，语义搜索可以检索与给定查询最相关的文章，而 Hugging Face LLM 则会根据这些结果生成简短的上下文推荐。

让我们来看看我们将要构建的信息流的高级概述：

在本文中，我们将测试 SmolLM3-3B 是否能将其紧凑的大小与强大的多语言推理和工具调用能力相结合。根据搜索查询，我们将把所有匹配的内容（英语和西班牙语）发送到 LLM，以生成一份推荐文章列表，并根据搜索查询和结果提供自定义描述。

以下是具备 AI 推荐生成系统的文章网站用户界面可能的外观。

您可以在已链接的笔记本中找到此应用程序的完整实现。

配置 Elasticsearch 推理终端

要使用 Elasticsearch Hugging Face 推理终端，我们需要两个重要元素：Hugging Face API 密钥和正在运行的 Hugging Face 终端 URL。它应该如下所示：

PUT _inference/chat_completions/hugging-face-smollm3-3b
{
    "service": "hugging_face",
    "service_settings": {
        "api_key": "hugging-face-access-token", 
        "url": "url-endpoint" 
    }
}

Elasticsearch 中的 Hugging Face 推理终端支持不同的任务类型：text_embedding、completion、chat_completion 和 rerank。在这篇博客文章中，我们使用 chat_completion 是因为我们需要模型根据搜索结果和系统提示生成对话式推荐。此终端允许我们使用 Elasticsearch API 以简单的方式直接从 Elasticsearch 执行聊天完成：

POST _inference/chat_completion/hugging-face-smollm3-3b/_stream
{
  "messages": [
      { "role": "user", "content": "" }
  ]
}

这将作为应用程序的核心，接收通过模型传递的提示和搜索结果。有了理论基础，我们就开始实施应用程序。

在 Hugging Face 上设置推理终端

要部署 Hugging Face 模型，我们将使用 Hugging Face 一键式部署，这是一种用于部署模型终端的简单快速的服务。请记住，这是一项付费服务，使用它可能会产生额外费用。此步骤将创建用于生成文章推荐的模型实例。

您可以从一键目录中选择一个模型：

让我们选择 SmolLM3-3B 模型：

从此处获取 Hugging Face 终端 URL：

正如在 Elasticsearch Hugging Face 推理终端文档中提到的，文本生成需要一个与 OpenAI API 兼容的模型。因此，我们需要将 /v1/chat/completions 子路径附加到 Hugging Face 终端 URL。最终结果将如下所示：

https://j2g31h0futopfkli.us-east-1.aws.endpoints.huggingface.cloud/v1/chat/completions

有了这个，我们就可以在 Python 笔记本中开始编码了。

生成 Hugging Face API 密钥

创建 Hugging Face 账户，并按照以下说明获取 API 令牌。您可以选择三种令牌类型：细粒度（推荐用于生产，因为它仅提供对特定资源的访问）、读取（适用于只读访问）或写入（适用于读取和写入访问）。在本教程中，读取令牌就足够了，因为我们只需要调用推理终端。请保存此密钥以备下一步使用。

设置 Elasticsearch 推理终端

首先，让我们声明一个 Elasticsearch Python 客户端：

os.environ["ELASTICSEARCH_API_KEY"] = "your-elasticsearch-api-key"
os.environ["ELASTICSEARCH_URL"] = "https://xxxx.us-central1.gcp.cloud.es.io:443"

es_client = Elasticsearch(
    os.environ["ELASTICSEARCH_URL"], api_key=os.environ["ELASTICSEARCH_API_KEY"]
)

接下来，我们创建一个使用 Hugging Face 模型的 Elasticsearch 推理终端。此终端将允许我们基于博客文章和传递给模型的提示来生成响应。

INFERENCE_ENDPOINT_ID = "smollm3-3b-pnz"

os.environ["HUGGING_FACE_INFERENCE_ENDPOINT_URL"] = (
 "https://j2g31h0futopfkli.us-east-1.aws.endpoints.huggingface.cloud/v1/chat/completions"
)
os.environ["HUGGING_FACE_API_KEY"] = "hf_xxxxx"

resp = es_client.inference.put(
        task_type="chat_completion",
        inference_id=INFERENCE_ENDPOINT_ID,
        body={
            "service": "hugging_face",
            "service_settings": {
                "api_key": os.environ["HUGGING_FACE_API_KEY"],
                "url": os.environ["HUGGING_FACE_INFERENCE_ENDPOINT_URL"],
            },
        },
    )

数据集

该数据集包含将要查询的博客文章，代表整个工作流中使用的多语言内容集：

// Articles dataset document example: 
{
    "id": "6",
    "title": "Complete guide to the new API: Endpoints and examples",
    "author": "Tomas Hernandez",
    "date": "2025-11-06",
    "category": "tutorial",
    "content": "This guide describes in detail all endpoints of the new API v2. It includes code examples in Python, JavaScript, and cURL for each endpoint. We cover authentication, resource creation, queries, updates, and deletion. We also explain error handling, rate limiting, and best practices. Complete documentation is available on our developer portal."
  }

Elasticsearch 映射

定义数据集后，我们需要创建一个适合博客文章结构的数据模式。以下索引映射将用于在 Elasticsearch 中存储数据：

INDEX_NAME = "blog-posts"

mapping = {
    "mappings": {
        "properties": {
            "id": {"type": "keyword"},
            "title": {
                "type": "object",
                "properties": {
                    "original": {
                        "type": "text",
                        "copy_to": "semantic_field",
                        "fields": {"keyword": {"type": "keyword"}},
                    },
                    "translated_title": {
                        "type": "text",
                        "fields": {"keyword": {"type": "keyword"}},
                    },
                },
            },
            "author": {"type": "keyword", "copy_to": "semantic_field"},
            "category": {"type": "keyword", "copy_to": "semantic_field"},
            "content": {"type": "text", "copy_to": "semantic_field"},
            "date": {"type": "date"},
            "semantic_field": {"type": "semantic_text"},
        }
    }
}


es_client.indices.create(index=INDEX_NAME, body=mapping)

在这里，我们可以更清楚地看到数据的结构。我们将使用语义搜索来检索基于自然语言的结果，同时使用 copy_to 属性将字段内容复制到 semantic_text 字段中。此外，title 字段包含两个子字段：original 子字段根据文章的原始语言存储英语或西班牙语标题；而 translated_title 子字段仅存在于西班牙语文章中，并包含原始标题的英语翻译。

采集数据

以下代码片段使用批量 API 将博客文章数据集摄取到 Elasticsearch 中：

def build_data(json_file, index_name):
    with open(json_file, "r") as f:
        data = json.load(f)

    for doc in data:
        action = {"_index": index_name, "_source": doc}
        yield action


try:
    success, failed = helpers.bulk(
        es_client,
        build_data("dataset.json", INDEX_NAME),
    )
    print(f"{success} documents indexed successfully")

    if failed:
        print(f"Errors: {failed}")
except Exception as e:
    print(f"Error: {str(e)}")

现在，我们已将文章摄取到 Elasticsearch 中，我们需要创建一个能够针对 semantic_text 字段进行搜索的函数：

def perform_semantic_search(query_text, index_name=INDEX_NAME, size=5):
    try:
        query = {
            "query": {
                "match": {
                    "semantic_field": {
                        "query": query_text,
                    }
                }
            },
            "size": size,
        }

        response = es_client.search(index=index_name, body=query)
        hits = response["hits"]["hits"]

        return hits
    except Exception as e:
        print(f"Semantic search error: {str(e)}")
        return []

我们还需要一个调用推理终端的函数。在这种情况下，我们将使用 chat_completion 任务类型调用终端，以获取流式响应：

def stream_chat_completion(messages: list, inference_id: str = INFERENCE_ENDPOINT_ID):
    url = f"{ELASTICSEARCH_URL}/_inference/chat_completion/{inference_id}/_stream"
    payload = {"messages": messages}
    headers = {
        "Authorization": f"ApiKey {ELASTICSEARCH_API_KEY}",
        "Content-Type": "application/json",
    }

    try:
        response = requests.post(url, json=payload, headers=headers, stream=True)
        response.raise_for_status()

        for line in response.iter_lines(decode_unicode=True):
            if line:
                line = line.strip()

                if line.startswith("event:"):
                    continue

                if line.startswith("data: "):
                    data_content = line[6:]

                    if not data_content.strip() or data_content.strip() == "[DONE]":
                        continue

                    try:
                        chunk_data = json.loads(data_content)

                        if "choices" in chunk_data and len(chunk_data["choices"]) > 0:
                            choice = chunk_data["choices"][0]
                            if "delta" in choice and "content" in choice["delta"]:
                                content = choice["delta"]["content"]
                                if content:
                                    yield content

                    except json.JSONDecodeError as json_err:
                        print(f"\nJSON decode error: {json_err}")
                        print(f"Problematic data: {data_content}")
                        continue

    except requests.exceptions.RequestException as e:
        yield f"Error: {str(e)}"

现在，我们可以编写一个函数，调用语义搜索函数以及 chat_completions 推理终端和建议终端，以生成将分配到卡片中的数据：

def recommend_articles(search_query, index_name=INDEX_NAME, max_articles=5):
    print(f"\n{'='*80}")
    print(f"🔍 Search Query: {search_query}")
    print(f"{'='*80}\n")

    articles = perform_semantic_search(search_query, index_name, size=max_articles)

    if not articles:
        print("❌ No relevant articles found.")
        return None, None

    print(f"✅ Found {len(articles)} relevant articles\n")

    # Build context with found articles
    context = "Available blog articles:\n\n"
    for i, article in enumerate(articles, 1):
        source = article.get("_source", article)
        context += f"Article {i}:\n"
        context += f"- Title: {source.get('title', 'N/A')}\n"
        context += f"- Author: {source.get('author', 'N/A')}\n"
        context += f"- Category: {source.get('category', 'N/A')}\n"
        context += f"- Date: {source.get('date', 'N/A')}\n"
        context += f"- Content: {source.get('content', 'N/A')}\n\n"

    system_prompt = """You are an expert content curator that recommends blog articles.

    Write recommendations in a conversational style starting with phrases like:
    - "If you're interested in [topic], this article..."
    - "This post complements your search with..."
    - "For those looking into [topic], this article provides..."


    FORMAT REQUIREMENTS:
    - Return ONLY a JSON array
    - Each element must have EXACTLY these three fields: "article_number", "title", "recommendation"
    - If the original title is in spanish, use the "translated_title" subfield in the "title" field

    Keep each recommendation concise (2-3 sentences max) and focused on VALUE to the reader.

    EXAMPLE OF CORRECT FORMAT:
    [
        {"article_number": 1, "title": "Article title in english", "recommendation": "If you are interested in [topic], this article provides..."},
        {"article_number": 2, "title": "Article title in english", "recommendation": " for those looking into [topic], this article provides..."}
    ]

    Return ONLY the JSON array following this exact structure."""

    user_prompt = f"""Search query: "{search_query}"

    Generate recommendations for the following articles: {context}
    """

    messages = [
        {"role": "system", "content": "/no_think"},
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt},
    ]

    # LLM generation
    print(f"{'='*80}")
    print("🤖 Generating personalized recommendations...\n")

    full_response = ""

    for chunk in stream_chat_completion(messages):
        print(chunk, end="", flush=True)
        full_response += chunk

    return context, articles, full_response

最后，我们需要提取信息并将其格式化以便打印：

def display_recommendation_cards(articles, recommendations_text):
    print("\n" + "=" * 100)
    print("📇 RECOMMENDED ARTICLES".center(100))
    print("=" * 100 + "\n")

    # Parse JSON recommendations - clean tags and extract JSON
    recommendations_list = []
    try:

        # Clean up  tags
        cleaned_text = re.sub(
            r".*?", "", recommendations_text, flags=re.DOTALL
        )
        # Remove markdown code blocks ( ... ``` or ``` ... ```)
        cleaned_text = re.sub(r"```(?:json)?", "", cleaned_text)
        cleaned_text = cleaned_text.strip()

        parsed = json.loads(cleaned_text)

        # Extract recommendations from list format
        for item in parsed:
            article_number = item.get("article_number")
            title = item.get("title", "")
            rec_text = item.get("recommendation", "")

            if article_number and rec_text:
                recommendations_list.append(
                    {
                        "article_number": article_number,
                        "title": title,
                        "recommendation": rec_text,
                    }
                )
    except json.JSONDecodeError as e:
        print(f"⚠️  Could not parse recommendations as JSON: {e}")
        return

    for i, article in enumerate(articles, 1):
        source = article.get("_source", article)

        # Card border
        print("┌" + "─" * 98 + "┐")

        # Find recommendation and title for this article number
        recommendation = None
        title = None
        for rec in recommendations_list:
            if rec.get("article_number") == i:
                recommendation = rec.get("recommendation")
                title = rec.get("title")
                break

        # Print title
        title_lines = textwrap.wrap(f"📌 {title}", width=94)
        for line in title_lines:
            print(f"│  {line}".ljust(99) + "│")

        # Card border
        print("├" + "─" * 98 + "┤")

        # Print recommendation
        if recommendation:
            recommendation_lines = textwrap.wrap(recommendation, width=94)
            for line in recommendation_lines:
                print(f"│  {line}".ljust(99) + "│")

        # Card bottom
        print("└" + "─" * 98 + "┘")

让我们通过询问一个有关安全博客文章的问题来测试一下：

search_query = "Security and vulnerabilities"

context, articles, recommendations = recommend_articles(search_query)

print("\nElasticsearch context:\n", context)

# Display visual cards
display_recommendation_cards(articles, recommendations)

如下所示，我们可以看到工作流在控制台中生成的卡片：

您可以在此文件中查看全部结果，包括所有点击和 LLM 响应。

我们正在征集与“安全与漏洞”相关的文章。此问题将用作针对 Elasticsearch 中存储的文档的搜索查询。然后将检索到的结果传递给模型，该模型根据这些结果的内容生成推荐。我们可以看到，该模型出色地生成了引人入胜的短文本，能够激发读者点击的欲望。

结论

本示例展示了如何将 Elasticsearch 和 Hugging Face 结合起来，为 AI 应用程序创建一个快速高效的集中式系统。由于 Hugging Face 拥有丰富的模型目录，这种方法不仅减少了人工操作，还具有灵活性。通过使用 SmolLM3-3B，我们特别看到了紧凑的多语言模型在与语义搜索搭配使用时，仍能提供有意义的推理和内容生成。这些工具共同为构建智能内容分析和多语言应用程序提供了可扩展且高效的基础。

快速与准确：测量量化向量搜索的召回率

Jeff Vestal — Fri, 20 Mar 2026 00:00:00 GMT

所有人都希望向量搜索能即时响应，但是高维向量占用的资源很大。一个 1024 维的 float-32 向量会占用大量内存，将其与数百万个其他向量进行比较的计算成本非常高昂。

为了解决这个问题，像 Elasticsearch 这样的搜索引擎使用了两种主要的优化策略：

近似搜索（分层可导航小世界 [HNSW]）：我们不需要扫描每一份文档，而是建立一个导航图，以便快速跳转到答案的可能邻域。
量化：我们对向量进行压缩（例如，从 32 位浮点数压缩为 8 位整数，甚至 1 位二进制值），以减少内存使用量并加快计算速度。

但优化往往会使准确性下降。

这种担忧是有道理的：“如果我在搜索过程中压缩数据并使用快捷方式，我会错过最佳结果吗？”“这种优化是否会降低搜索引擎的相关性？”

为了证明 Elastic 的量化不会降低结果，我们使用DBPedia-14 数据集构建了一个可重复的测试工具，以精确计算在使用 Elasticsearch 的默认优化时，准确率下降了多少（特别是召回率）才能提高速度。

总结：可能比您想象的要少得多。点击此处查看笔记本，亲自试试

定义（面向非专业人士）

在了解代码之前，让我们先明确一些术语。

相关性与召回率：相关性具有主观性（我找到的是优质内容吗？），而召回率则是基于数学计算。如果数据库中有 10 份文档与查询在数学层面完美匹配，而搜索引擎找到了其中 9 份，那么召回率就是 90%（或 0.9）。
精确搜索（扁平式）：有时也被称为“暴力搜索”法。搜索引擎会扫描索引中的每一份文档并计算距离。
- 优点：召回率达到 100%。
- 缺点：计算量大且大规模扩展缓慢。
近似搜索 (HNSW)：“捷径”方法。搜索引擎生成 HNSW 图表。它遍历图表以找到最近邻。
- 优点：速度极快且可扩展。
- 缺点：如果图表遍历过早停止，可能会错过近邻。

实验：精准与近似

为了测试召回率，我们使用了 DBPedia-14 数据集，这是一个包含 14 个本体类别的大型标题和摘要数据集，通常用于训练和评估文本分类模型。具体而言，我们将重点关注“电影”类别。我们希望将优化的生产设置与数学上完美的基准真值进行比较。

在此次实验中，我们采用 jina-embeddings-v5-text-small 模型。这是一款处于行业领先水平的多语言模型，在文本表征方面树立了行业基准。我们选择该模型，是因为它确立了当下高性能嵌入的标杆标准。通过将 Jina v5 卓越的精准度与Elasticsearch原生量化技术相结合，我们能够展示一种既具备高效计算能力，又在检索质量上毫不妥协的搜索架构。

我们设置了一个具有双重映射的索引。我们同时将相同的文本导入两个不同的字段：

content.raw 类型：flat。这会使 Elasticsearch 对全部 Float32 向量执行暴力扫描。通过这种扫描，系统会返回完全匹配的结果，并将用于我们的基线。
content 类型为semantic_text。默认情况下使用 HNSW + 更好的二进制量化 (BBQ)。这是用于近似匹配的标准、优化生产设置。

Recall@10 测试

在我们的评估指标中，我们使用了 Recall@10。

我们随机挑选了 50 部电影，并对这两个字段运行了相同的查询。

如果精确（扁平式）搜索显示前 10 个近邻是 ID [1, 2, 3……10]，
而近似 (HNSW) 搜索结果显示的是 ID [1，2，3... 9，99]。
我们正确地找到了前 10 个中的 9 个。得分为 0.9。

这是我们使用的映射：

# The "Control Group": Forces exact brute-force scan
"raw": {
    "type": "semantic_text",
    "inference_id": ".jina-embeddings-v5-text-small",
    "index_options": {
        "dense_vector": {
            "type": "flat"
        }
    }
}

结果：成功的“平直线”

我们进行了一次规模测试，重新加载了整个数据集，并对 1,000 到 40,000 个文档的索引规模进行了测试。

召回率得分情况如下：

文档	Recall@10得分
1,000	1.000 (100%)
5,000	0.998 (100%)
10,000	0.992 (99.4%)
20,000	0.999 (99.0%)
40,000	0.992 (98.8%)

结果非常稳定。即使我们扩大了搜索范围，近似搜索也能在 99% 的情况下与暴力精确搜索相匹配。

为什么它如此有效？

您可能会认为将向量压缩成二进制值会对准确性的影响更大。不这样做的原因在于 Elasticsearch 处理检索的方式。

目前大多数嵌入模型输出的是 Float32 向量，这些向量很大。为了提高搜索效率，Elasticsearch 对高维向量使用量化技术。具体来说，自 9.2 版起，它默认使用BBQ。

BBQ 采用重新打分机制：

遍历：搜索引擎使用压缩（量化）向量来快速遍历 HNSW 图表。由于向量较小，它可以高效地进行过度采样，收集更大的候选文档列表（例如，前 100 个大致相似的文档），而不会影响性能。
重新评分：一旦有了这些候选文件，它就会只检索这几份文件的全精度值，以计算出最终的精确排名。

这样就能两全其美，既能以量化的速度完成繁重的工作，又能以浮点运算的精度完成最终排序。

我们能做得更好吗？

值得注意的是，我们在这里看到的结果是使用默认设置和随机抽样数据得出的。可以将其视为高性能的起点。尽管 Jina v5 性能卓越，但这些召回率分数并非适用于所有数据集的“万能保障”。每个数据集都有其独特之处，虽然您肯定可以进一步调整优化以挖掘出更多性能潜力，但您始终应基于自身特定数据进行基准测试，以明确性能上限所在。

结论

这是一次规模非常小的测试。不过，本次测试的重点并非专门评估嵌入模型或 BBQ 的性能，而是要展示如何通过极简的设置轻松衡量数据集的召回率。

如果您想用自己的数据运行此测试，可以点击此处查看笔记本，亲自试试。

适用 Elasticsearch 的 Gemini CLI 扩展及工具和技能

Walter Rafelsberger, Enrico Zimuel — Tue, 17 Mar 2026 00:00:00 GMT

我们很高兴地宣布， Elastic 发布了适用于 Google 的 Gemini CLI 扩展，将 Elasticsearch 和 Elastic Agent Builder 的全部功能直接引入您的 AI 开发工作流。此扩展还提供几种最近开发的智能体技能，用于与 Elasticsearch 交互。

该扩展以开源项目的形式在此处提供。

Gemini CLI 是什么？如何安装？

Gemini CLI 是一个开源的 AI 智能体，它可将 Google 的 Gemini 模型直接引入命令行。它允许开发人员从终端与 AI 进行交互，以执行诸如生成代码、编辑文件、运行 shell 命令和从网上检索信息等任务。

与典型的聊天界面不同，Gemini CLI 可与您的本地开发环境集成，这意味着它可以直接在终端内理解项目上下文、修改文件、运行构建或测试，以及自动化工作流。这对于想要在不离开命令行工作流的情况下进行 AI 辅助编码和自动化的开发人员、网站可靠性工程师 (SREs) 和工程师来说非常有用。

Gemini CLI 可通过多个软件包管理器安装。最常用的方法是通过 npm 安装：

npm install -g @google/gemini-cli

如要了解其他安装选项，请参阅官方安装页面。

安装完成后，运行以下命令启动 CLI：

gemini

您会看到一个屏幕，如图 1 所示：

配置 Elasticsearch

我们需要运行一个 Elasticsearch 实例。如要使用模型上下文协议 (MCP) 服务器，您还需要安装 Kibana 9.3+。如要使用下面描述的 Elasticsearch 查询语言 (ES|QL) 技能 (esql)，则不需要 Kibana。

您可以在 Elastic Cloud 上激活免费试用版，或使用 start-local 脚本在本地安装：

curl -fsSL https://elastic.co/start-local | sh

这将在您的计算机上安装 Elasticsearch 和 Kibana，并生成一个用于配置 Gemini CLI 的 API 密钥。

API 密钥将显示为上一条命令的输出，并存储在 .env 文件中，该文件位于 elastic-start-local 文件夹。

如果您使用的是本地部署的 Elasticsearch（例如使用 start-local），并且您想将 Elastic Agent Builder 与 MCP 一起使用，那么您还需要连接一个大型语言模型 (LLM)。您可以阅读此文档页面以了解不同的选项。

如果您使用的是 Elastic Cloud（或无服务器架构），那么您已经预先建立了 LLM 连接。

安装 Elasticsearch 扩展

您可以使用以下命令为 Gemini CLI 安装 Elasticsearch 扩展：

gemini extensions install https://github.com/elastic/gemini-cli-elasticsearch

您可以通过打开 Gemini 并执行以下命令来检查扩展程序是否已成功安装：

/extensions list

您应该看到 Elasticsearch 扩展可用。

如要使用 MCP 集成，您需要安装 Elasticsearch 9.3 或更高版本。您需要从 Kibana 获取您的 MCP 服务器 URL：

从智能体处获取 MCP 服务器 URL > 查看所有工具 > 管理 MCP > 复制 MCP 服务器 URL。
URL 将如下所示：https://your-kibana-instance/api/agent_builder/mcp

您需要 Elasticsearch 终端 URL。这通常显示在 Kibana Elasticsearch 页面的顶部。如果您使用 start-local 运行 Elasticsearch，那么您已经在 start-local.env 文件的ES_LOCAL_URL 密钥中拥有了终端。

您还需要一个 API 密钥。如果您使用 start-local 运行 Elasticsearch，那么您已经在 start-local .env 文件中拥有了 ES_LOCAL_API_KEY。否则，您可以使用 Kibana 界面创建 API 密钥，详见此处：

在 Kibana 中：Stack Management > Security > API 密钥 > 创建 API 密钥。
我们建议仅设置 API 密钥的读取权限，并启用 feature_agentBuilder.read 权限，详见此处。
复制已编码的 API 密钥值。

在您的 shell 中设置所需的环境变量：

export ELASTIC_URL="your-elasticsearch-url"
export ELASTIC_MCP_URL="your-elasticsearch-mcp-url"
export ELASTIC_API_KEY="your-encoded-api-key"

安装示例数据集

您可以安装 Kibana 提供的电子商务订单数据集。它包含一个名为 kibana_sample_data_ecommerce 的单个索引，其中包含来自一家电子商务网站的 4675 个订单的信息。对于每笔订单，我们都有以下信息：

客户信息（姓名、ID 号码、出生日期、电子邮件等）。
订单日期。
订单编号。
产品（包含价格、数量、ID、类别、折扣和其他详情的所有产品列表）
SKU。
总价（不含税，含税）。
总数量。
地理信息（城市、国家、洲、位置、地区）。

如要安装示例数据，请在 Kibana 中打开集成页面（在顶部搜索栏中搜索“集成”），然后安装示例数据。更多详情请参阅此处的文档。

本文旨在展示如何轻松配置 Gemini CLI 以连接到 Elasticsearch 并与 kibana_sample_data_ecommerce 索引交互。

如何使用 Elasticsearch MCP（模型上下文协议）

您可以在 Gemini 中使用以下命令检查连接：

/mcp list

您应该会看到 elastic-agent-builder 已启用，如图 2 所示：

Elasticsearch 提供了一组默认工具。请参阅此处的描述。

使用这些工具，您可以与 Elasticsearch 进行交互，提出类似以下的问题：

Give me the list of all the indexes available in Elasticsearch.
How many customers are based in the USA in the kibana_sample_data_ecommerce index of Elasticsearch?

根据问题的不同，Gemini 会使用一个或多个可用工具来尝试回答问题。

/elastic 命令

在 Gemini CLI 的 Elasticsearch 扩展中，我们还添加了 /elastic 命令。

如果执行 /help 命令，您将看到所有可用的 /elastic 选项（图 3）：

这些命令在您想直接执行 elastic-agent-builder MCP 服务器的特定工具时会很有用。例如，使用以下命令可以获取 kibana_sample_data_ecommerce 的映射：

/elastic:get-mapping kibana_sample_data_ecommerce

这些命令本质上是执行特定工具的快捷方式，而不是依赖 Gemini 模型来确定应该调用哪个工具。

如何使用 Elasticsearch 的技能？

该扩展还附带了 ES|QL 的代理技能，ES|QL 是 Elasticsearch 中提供的 Elasticsearch 查询语言。Agent Skills 是一种开放格式，为 AI 编码智能体（如 Gemini CLI）提供特定任务的自定义指令。它们使用一种称为渐进式披露的概念，即在系统初始提示中只添加对技能的简要说明。当您要求智能体执行任务时，比如查询 Elasticsearch，它会将请求与相关技能匹配，并动态加载详细说明。这是一种高效管理词元预算的方法，同时为 AI 提供所需的准确上下文。

esql技能旨在让 Gemini CLI 直接针对集群编写和执行 ES|QL 查询。ES|QL 是一种功能强大的管道化查询语言，能非常直观地进行数据探索、日志分析和聚合。启用该技能后，您无需查找 ES|QL 语法；只需用自然语言向 Gemini CLI 提出有关数据的问题，智能体会处理剩下的问题。

执行操作是通过在终端中运行简单的 curl 命令来完成的。之所以能做到这一点，是因为 Elasticsearch 提供了一套丰富的 REST API，可轻松用于将系统集成到任何架构中。

esql 技能的功能：

发现索引和模式：智能体可以使用该技能的内置工具列出可用索引并获取字段映射。例如，在为电子商务数据集编写查询之前，智能体可以在 kibana_sample_data_ecommerce 上运行模式检查，以了解可用的字段，如 taxful_total_price 或 category。
无缝自然语言翻译：该技能不仅仅为智能体提供了一个简单的参考手册；它还提供了一个专门的指南，用于解读用户意图。当您用自然语言输入请求（如“按服务分组显示平均响应时间”）时，智能体会使用技能捆绑的模式匹配功能，将您的文字立即转换为正确的 ES|QL 聚合、筛选条件和命令。
自我纠正：如果查询失败（例如由于类型不匹配或语法错误），该技能会返回生成的查询以及确切的 Elasticsearch 错误信息，使智能体能够立即修复查询并再次尝试，而无需您进行干预。

由于 esql 技能也作为工具在 elastic-agent-builder MCP 服务器中可用，我们需要暂时禁用该服务器。您可以使用以下命令禁用它：

/mcp disable elastic-agent-builder

然后，您只需在 Gemini CLI 中输入类似这样的提示：

Find the top 5 product categories by total sales revenue in the kibana_sample_data_ecommerce index

代理将：

认识到 esql 技能的必要性。
检查 kibana_sample_data_ecommerce 的模式。
构建一个 ES|QL 查询，比如：FROM kibana_sample_data_ecommerce | STATS total_revenue = SUM(taxful_total_price) BY category.keyword | SORT total_revenue DESC | LIMIT 5。
针对 Elasticsearch API 执行查询。
直接在终端中向您展示最终答案。

在这里，我们分享了一个 Gemini 对先前提示的响应示例：

───────────────────────────────────────────────────────────
> Find the top 5 product categories by total sales revenue in the kibana_sample_data_ecommerce index   ───────────────────────────────────────────────────────────
✓  Activate Skill "esql": Interact with Elasticsearch using ES|QL and curl. Use when querying, managing indices,  …
Skill esql activated. Resources loaded from /home/user/.gemini/extensions/elasticsearch/skills/esql: 
Showing up to 200 items (files + folders).                                                                     /home/user/.gemini/extensions/elasticsearch/skills/esql/                                                            ├───SKILL.md 
└───references/
├───esql-reference.md 
├───generation-tips.md 
└───query-patterns.md

✦ I will start by exploring the mapping of the kibana_sample_data_ecommerce index to identify the fields for product category and sales revenue. Then, I will construct and execute an ES|QL query to determine the top 5 product categories by total sales revenue.

✓  Shell curl -s "${ELASTIC_URL%/}/kibana_sample_data_ecommerce/_mapping" -H "Authorization: ApiKey $(printenv ELAS…                                                                                                                       {  
   "kibana_sample_data_ecommerce": { 
     "mappings": { 
       "properties": {
         "category": { 
           "type": "text", 
           "fields": {
             "keyword": {
               "type": "keyword"
             }
           }
         }, 
         "currency": {
           "type": "keyword"
         }, 

✦ Okay, I have the mapping. The category is products.category.keyword and sales revenue is taxful_total_price. I'll now execute the ES|QL query to get the top 5 categories by revenue.

✓  Shell curl -s -X POST "${ELASTIC_URL%/}/_query" \  -H "Authorization: ApiKey $(printenv ELASTIC_API_KEY)" \  -H …
{ 
   "took": 62,
   "is_partial": false, 
   "completion_time_in_millis": 1772805644164,
   "documents_found": 4675,
   "values_loaded": 12084, 
   "start_time_in_millis": 1772805644102, 
   "expiration_time_in_millis": 1773237644087,  
   "columns": [ 
     { 
       "name": "total_revenue",    
       "type": "double"  
     }, 
     {   
       "name": "products.category.keyword",

✦ The query for top 5 product categories by revenue was successful. I'll format the returned JSON values into a   user-friendly list.

 ✓  Shell 
                             
 Top 5 product categories by total sales revenue: 
 1. Men's Clothing: 149393.91
 2. Women's Clothing: 135099.91
 3. Women's Shoes: 105479.17
 4. Men's Shoes: 91797.92
 5. Women's Accessories: 60830.31 

✦ I've found the answer; now I'll format it for clarity.

 ✓  Shell 

 Here are the top 5 product categories by total sales revenue:                                                        
                                                                      
 | Rank | Category              | Total Revenue | 
 |------|-----------------------|---------------| 
 | 1    | Men's Clothing        | 149,393.91    |
 | 2    | Women's Clothing      | 135,099.91    |
 | 3    | Women's Shoes         | 105,479.17    |
 | 4    | Men's Shoes           | 91,797.92     | 
 | 5    | Women's Accessories   | 60,830.31     | 

✦ I've formatted and presented the answer. I'm finished.
 ───────────────────────────────────────────────────────────

值得注意的是，Gemini 模型如何通过显示其遵循的所有步骤来生成最终响应。在这里，您可以清楚地看到技能对模型推理过程的影响。当模型第一次意识到需要使用某项技能或执行 shell 命令时，它会采用人机协同的方式请求权限。

通过处理模式发现、查询生成和执行的繁重工作，esql 技能可以让您完全专注于答案，而不是获得答案的机制。您将获得所需的数据，格式正确且直接存储在终端中，无需写一行语法或切换到其他应用。

结论

在本文中，我们介绍了我们最近发布的适用于 Gemini CLI 的 Elasticsearch 扩展。此扩展让您可以使用 Gemini 和 Elastic Agent Builder 提供的 Elasticsearch MCP 服务器（从 9.3.0 版本开始提供）以及 /elastic 命令与您的 Elasticsearch 实例进行交互。

此外，该扩展还包含一项 esql 技能，可以将用户的自然语言请求转换为 ES|QL 查询。这种技能在无法使用 MCP 服务器时特别有用，因为底层通信是由在终端中执行的简单 curl 命令驱动的。Elasticsearch 提供了一套丰富的 REST API，可以轻松集成到任何项目中。这在开发智能体 AI 应用时尤为有用。

有关 Gemini CLI 扩展的更多信息，请访问此处的项目库。

Elastic Agent Skills：将您的 AI 智能体变成 Elastic 专家。

Graham Hudgins, Matt Ryan — Mon, 16 Mar 2026 00:00:00 GMT

每一位尝试在专业平台上使用 AI 编码智能体的开发人员、站点可靠性工程师 (SRE) 或分析师都会遇到同样的问题。您要求智能体编写查询、配置警报或调查某件事，结果接近但不完全正确。Elastic 在这方面具有优势：十多年来积累的文档、博客文章和社区解答意味着 AI 智能体比大多数数据平台更了解 Elastic。但这种深度也伴随着噪音。已弃用的 API 与当前的 API 并存。过时的模式与最佳实践的排名一样高。该智能体自信地复现了三个版本前行之有效的方法，因为在其训练数据中，这种方法确实奏效了。结果是产生了纠错税：用户手动将文档输入上下文，修复虚构的语法，并绕过智能体，而不是与智能体合作。更糟糕的是，高级功能完全未被使用，不是因为用户不需要它们，而是因为智能体不知道它们的存在。

这就是为什么我们要开源 Elastic Agent Skills，即 Elasticsearch、Kibana、Elastic Observability 和 Elastic Security 方面的原生平台专业知识。您可以把它们添加到您已经使用的智能体运行时，把您的智能体从那种只会猜大量语法的“通才”提升成为一个具有专业知识的智能体，比如能像 Elastic 自己的工程团队一样使用许多架构标准。最初的技术预览版本侧重于与 Elastic Cloud Serverless 具有最大兼容性的技能，但后续版本将迅速发展，以包含对旧堆栈版本的更好支持。

此外，Elastic 正在从两头解决这个问题。对于 Elastic 平台上的智能体，Elastic Agent Builder（现已正式发布）允许您创建和交互那些继承了您的数据访问控制的 AI 智能体，使用内置的搜索和分析工具，并结合上下文协同仪表板、警报和调查开展工作。我们正在努力确保在 Elastic 平台上提供卓越的智能体体验。但并非每个智能体都与 Elastic 兼容。您的团队可能已经在使用 Cursor、Claude Code 或其他运行时，这些智能体也需要正确理解 Elastic。这时 Agent Skills 就派上用场了。

智能体在专业平台上为何面临重重困难

大语言模型 (LLM) 是非常强大的通才。由于其训练数据包含丰富的示例，它们可以编写 Python 代码、解释 Kubernetes 清单，并重构 React 组件。但是，当涉及到平台特定的工作时，例如涉及专有查询语言、深度 API 接口和特定领域的最佳实践，它们的不足之处是可以预见的。

对于 Elasticsearch 来说，差距具体体现出来：

Elasticsearch 查询语言 (ES|QL) 是一个新领域。LLM 主要使用 SQL 进行训练，但 ES|QL 是一种管道化查询语言，具有不同的语法、不同的函数和不同的语义。智能体经常编写看似合理但无法解析的查询。它们会混淆 WHERE 和 | WHERE，编造不存在的函数，并完全忽略了基于管道的组合模型。
API 接口表面范围广且具有专业深度。Elasticsearch、Kibana 和 Elastic Security 在搜索、摄取、告警、检测规则、案例管理、仪表板等多个领域有数百个 API。一个只配备一般训练数据的智能体必须猜测要调用哪个终端、请求正文是什么样子，以及如何处理响应。它经常会猜错，削弱了人们对它的信任。
最佳实践不在训练数据中。何时应该使用 semantic_text 而不是自定义嵌入管道？如何构建 10GB CSV 的摄取管道？MITRE ATT&CK 技术的正确检测规则语法是什么？通用智能体在默认情况下不会加载经过整理、结构可靠的 Elastic 特定知识。它们需要查找这些知识，即使找到了，原始文档也并不总是包含熟练从业人员所具备的判断和最佳实践。

结果就是，开发人员花在修复智能体输出上的时间比他们自己编写代码所需的时间还多。这不是任何人愿意接受的体验。

代理技能：Platform 知识，专为代理人员量身定制

Agent Skills 是包含指令、脚本和参考资料的独立目录，智能体运行时可以动态加载这些目录。当技能处于活动状态时，智能体可在正确的时间获得正确的上下文：查询语法、API 模式、验证逻辑、实例，因此它可以在第一次尝试时正确完成任务。

每个技能都遵循开放的 agentskills.io 规范：一个文件夹中包含一个 SKILL.md 文件，其中包含元数据和结构化说明。无专有格式，无锁定。技能可在智能体运行时中使用，包括 Cursor、Claude Code、GitHub Copilot、Windsurf、Gemini CLI、Cline 和 Codex 等。

v0.1.0 初始版本包含什么内容

Elastic Stack 的第一组技能跨越五个领域：

与 Elasticsearch API 交互（搜索、索引、集群管理）
构建和管理 Kibana 内容，例如仪表板、警报、连接器等
Elastic Observability 的领域专业知识
Elastic Security 的领域专业知识
在 Agent Builder 中创建高效的智能体

技能可组合

技能不是单一的。它们采用的是模块化设计。您的智能体仅加载与当前任务相关的技能。正在编写 ES|QL 查询？ES|QL 技能将激活。需要从这些结果构建仪表板？仪表板技能将激活。要评估应用程序的健康状况？服务健康技能将发挥作用。要调查安全警报？随着调查的深入，分流技能将逐步衔接到案件管理和响应技能。

这种可组合性意味着您不需要一个庞大的、试图涵盖一切的单一提示。每种技能都完全符合其领域所需的语境，不多也不少。

适用于构建搜索和 AI 应用程序的开发人员

如果您正在将数据加载到 Elasticsearch、编写查询或迁移索引，技能可以缩短生成代码、遇到错误和搜索文档以查明问题所在的周期。

让您的智能体加载一个 CSV 文件，它会使用流式摄取工具来处理背压并从数据中推断映射。它不是那种手动编写的 _bulk 循环，不会在处理第一个大文件时就耗尽内存。让它使用 ES|QL 进行查询，它会发现您的实际索引名称和字段模式，然后编写具有正确语法、适当聚合和版本感知功能选择的有效管道查询，而不是需要三轮调试的 SQL 风格猜测。让它跨集群重新索引，它会遵循完整的操作工作流：用显式映射创建目的地，调整吞吐量设置，异步运行作业，完成后恢复生产设置，而不是简单地调用 _reindex，跳过有经验的操作员会遵循的一半步骤。

您得到的不是一个给您一个似是而非的起点，让您不得不去解决的智能体，而是一个编码了操作规范，让输出真正有效的智能体。

使用 Elastic Agent Skills 的影响示例

Eval	技能引发了哪些改变
es-audit-query-failed-logins	使用技能中的审计日志查询模式，而不是通用搜索
es-authz-role-mapping-ldap	输出正确的角色映射 API 调用结构
esql-basic-query	编写了 ES\|QL 管道语法以替代查询 DSL
esql-error-handling	先确定模式，而不是猜测字段名称
esql-schema-discovery	从未猜测过索引名称
es-ingest-csv-with-infer	单独使用 --infer-mappings，避免与 --source-format csv 组合使用，因为后者会导致索引为空
es-ingest-json-file	采用了稳健的摄取方法，能够处理大文件
es-reindex-local-async	首先创建目标索引，副本数为 0，刷新间隔为 “-1”，然后异步重建索引。基线跳过了任何准备工作
es-security-403-privileges	按照技能诊断工作流程，而不是通用建议，处理特权错误

面向安全团队

安全团队每天都重复相同的操作工作流：对警报进行分流、调整检测规则、管理案例。Agent Skills 可对程序知识进行编码，让您的 AI 智能体能够正确执行这些工作流，以正确的顺序调用正确的 API，并使用正确的字段名称。如需通过实践操作指南，在不离开 IDE 的情况下从零开始构建一个完整的 Elastic Security 环境，请参阅从您的 AI 智能体开始使用 Elastic Security。

面向可观测与运维团队

针对 Elastic Observability 的全新 Agent Skills 可以减轻对复杂系统进行检测、管理 SLO、筛选复杂数据以及评估服务健康状况的操作难度。将 Elastic 原生专业知识直接嵌入 AI 智能体中，可以让团队通过简单的自然语言执行复杂的可观测工作流。这使 SRE 和运营团队能够更快地解决事件，并更轻松地维护可靠的系统。阅读这篇博文了解详情。

开源、开放规范、社区驱动

我们根据 Apache 2.0 许可协议发布 Agent Skills，因为我们认为智能体知识应该是开放的。技能所遵循的 agentskills.io 规范是一项开放标准，不是 Elastic 的专有格式。我们希望这些技能成为社区共同努力的成果，而不是封闭的生态系统。

大局的一部分

Agent Skills 是旨在使 Elasticsearch 成为最适合智能体使用的数据平台的更广泛计划的一部分。对于在 Elasticsearch 平台上运行的智能体，Agent Builder 还能更进一步，继承数据的访问控制和权限，提供用于搜索和分析的内置和自定义工具，并让用户在仪表板、警报和调查的上下文中与智能体进行交互。最后，Agent Builder 即将推出对技能的支持，允许开发者灵活地利用 Elastic Agent Skills 以及来自任何其他来源的技能，在 Elasticsearch 平台上实现安全、上下文增强的聊天和自动化。

对于部署在其他地方的智能体，我们正投入努力，建设开放的生态系统：

模型上下文协议 (MCP) 服务器扩展：扩展 Agent Builder 中的 MCP 终端，在当前搜索、ES|QL 和索引操作之外提供更多工具。
身份验证改进：使代理能够更轻松地安全连接，目标是消除手动复制粘贴 API 密钥的操作。
LLM 可读文档：发布 llms.txt 和 AGENTS.md 文件，让智能体能够自行发现和理解 Elastic API。
用于智能体工作流的命令行接口 (CLI)：命令行工具，使连接管理和常见操作更适合智能体使用。

技能是您今天能使用的层面。其余的功能即将到来。

开始使用

开始之前：AI 编码智能体使用真实凭证、真实 shell 访问权限进行操作，通常还拥有运行它们的用户的全部权限。当这些智能体用于安全工作流时，风险会更高：您相当于是将检测逻辑、响应操作和敏感遥测数据的访问权限交给了一个自动化系统。每个组织的风险状况都是不同的。在启用 AI 驱动的安全工作流之前，请评估智能体可以访问哪些数据、可以采取哪些操作以及如果出现意外行为会如何。

将 Elastic Agent Skills 安装到您的智能体运行时：

npx skills add elastic/agent-skills

这会自动检测您已安装的智能体运行时，并将技能放置在正确的配置目录中。之后，您的智能体会自动获取这些技能。

您还可以直接浏览技能目录，然后将技能文件夹复制到智能体的配置目录中，从而手动安装各个技能。

还没有 Elasticsearch 集群吗？开始免费试用 Elastic Cloud。您只需一分钟就能获得一个完全配置的环境。

探索项目：

使用 Elasticsearch 解决实体问题，第 4 部分：终极挑战

Jessica Moszkowicz — Fri, 13 Mar 2026 00:00:00 GMT

我们现在已经看到智能实体解析通过两种方式实现。两种方法都以相同的方式开始：实体准备和提取，然后使用 Elasticsearch 检索候选对象。然后，我们通过基于提示的 JSON 生成或函数调用，使用大语言模型 (LLM) 对这些候选对象进行评估，并要求该模型对其判断做出透明的解释。

正如我们在之前的帖子中看到的，函数调用提供的一致性不仅仅是一种不错的优化手段，它还是至关重要的。一旦我们从评估循环中消除了结构性错误，标准场景（例如第 4 层数据集中的场景）的结果便有了显著提升。

然而，有一个显而易见的问题需要回答：

当情况变得真正复杂时，这种方法还管用吗？

现实中的实体解析很少因简单情况而失败。当名称跨越语言、文化、书写系统、时间段和组织边界时，它就会失效。当人们用头衔而非名字称呼，公司更改名称，音译不一致，且尝试仅凭上下文（而非拼写）提及现实实体时，这种方法就失败了。

因此，在本系列的最后一篇文章中，我们对该系统进行了所谓的终极挑战。

是什么让这成为终极挑战？

在之前的评估中，我们使用越来越复杂的数据集对该系统进行了测试。当我们达到上一篇帖子中所讨论的第 4 层时，我们已经要应对昵称、头衔、多语言名称以及语义引用的混合情况了。这些测试表明，架构本身是可靠的，但可靠性问题，特别是不规范的 JSON 格式抑制了召回率。

有了函数调用，我们终于有了稳定的基础。这让我们有机会提出一个更有趣的问题：

一个统一的管道能否同时处理多种不同类型的实体解析问题？

终极挑战数据集的设计正是为了推动这一层面的发展。

该数据集并未专注于单一难点（如昵称或音译），而是结合了 50 多种不同的挑战类型，包括：

文化命名惯例。
基于标题的引用。
业务关系和历史名称变更。
多语言和跨脚本提及。
复合挑战融合了上述多种元素。

关键是，这并不是针对某个狭窄的用例进行优化。这是要测试当规则从一个实体变更到另一个实体时，设计模式是否成立。

数据集概览

终极挑战数据集包含：

50个实体，涵盖个人、组织和机构。
约 60 篇文章，结构和语言复杂程度各不相同。
51 个不同的挑战类别，大致分为以下几类：
- 文化命名惯例。
- 标题和专业背景。
- 商业关系与组织关系。
- 多语言和音译挑战。
- 综合场景和边缘情况场景。

在本系列的前几篇文章中，我们看到使用生成式 AI (GenAI) 创建数据集可谓喜忧参半。如果没有它，要收集足够多、足够多样化的测试数据将极其困难。但如果不加以控制，这种模式往往会让事情变得过于简单。

例如，在早期的一次生成过程中，我们发现模型将“俄罗斯总统”等短语作为弗拉基米尔·普京 (Vladimir Putin) 的明确别名。这在今天看来可能是合理的，但却违背了测试上下文解析的目的。如果文章讨论的是 20 世纪 90 年代的俄罗斯，会发生什么情况？系统应根据上下文推断出正确的实体，而不是依赖于硬编码的别名。

因此，我们特意设计了这个数据集，以避免使用捷径。当系统能够推断出含义时，则不明确列出别名。描述性短语没有预先链接到实体。正确的匹配通常取决于文章层面的上下文，而不仅仅是局部文本。

重要说明：尽管我们展示了系统在各种场景下的能力，但这仍是一个具有教育意义的原型。处理真实世界受制裁实体监控的生产系统需要额外的验证、合规性检查、审计跟踪，以及针对敏感用例的专门处理。

为什么这些场景很难应对

在本系列的第一篇文章中，我们介绍了一个简单但含义模糊的示例：“新的 Swift 更新来了！”挑战在于，“Swift”可以根据上下文解析为现实世界中的多个实体。这个示例反映了一个更广泛的事实：自然语言本质上是模棱两可的。

因此，实体解析不仅仅是字符串匹配的问题。人们经常依赖共享知识、文化规范和情境背景来解析引用，我们甚至很少注意到我们正在这样做。

考虑以下几个常见案例：

没有地缘政治和时间背景，“总统”这样的头衔就毫无意义。
公司名称可能指母公司、子公司或之前的品牌，具体取决于文章的撰写时间。
一个人的名字可能会以不同的顺序、书写系统或音译方式出现，这取决于语言和文化。
同一个短语在不同的语境中可以合法地指代不同的实体，系统必须能够像接受匹配短语一样自信地拒绝匹配短语。

没有单一的规则集可以高效地处理所有这些情况。这就是为什么这款原型如此激进地将关注点分开：

Elasticsearch 高效而透明地缩小了候选空间。
LLM 仅在需要判断且必须自行解释的情况下使用。
检索和推理仍然是两个不同步骤。

随着挑战类型多样性的增加，这种区分变得更加重要。

系统如何在无特殊处理的情况下应对多样性

这次评估最有趣的结果之一是没有改变的内容：

我们没有针对日语名字添加特殊逻辑。
我们没有为阿拉伯语父名添加自定义规则。
我们没有添加历史公司名称的硬编码映射。

相反，该系统依赖于系列早期引入的相同核心要素：

为语义搜索编制索引的上下文丰富实体。
Elasticsearch 中的混合检索（精确检索、别名检索和语义检索）。
一组数量少且定义明确的候选匹配项。
受函数调用和最小模式约束的 LLM 判断。

这表明系统的灵活性来自表征和架构，而非不断增长的规则集合。

当系统成功时，是因为检索到了正确的候选对象，且 LLM 有足够的上下文来解释为什么某个引用会（或不会）映射到某个特定实体。

结果：它的表现如何？

在最终挑战数据集上，系统得出了以下总体结果：

精度：约 91%
召回： ~86%
F1 分数：约 89%
LLM 接受率：约 72%

在各类挑战中的表现

按挑战类型细分结果可以揭示优势和局限性：

在以下领域的表现最为突出（100% F1 分数）：

跨脚本匹配（西里尔字母、韩文、中文企业实体）。
希伯来语场景（父名、职业头衔、宗教头衔、音译）。
企业层级（航空航天、多元化制造、多部门公司）。
专业头衔（学术、军事、政治、宗教）。
涉及多种书写系统的综合日语场景。

表现优异（80–99% F1 分数）包括：

国际政治人物（98%）。
历史名称变更 (90%)。
复杂的业务层次结构（89%）。
日本公司名称（93%）。
跨脚本音译（86%）。
阿拉伯语父名（86%）。

更具挑战性的领域包括：

高级音译（中文、韩文）：0% F1。
某些日本场景（敬语、姓名顺序、书写系统变化）：~67% F1。
一些阿拉伯语场景（公司名称、机构引用）：约 40% F1。

这里重要的是为什么系统在这些情况下会遇到困难。这些失败并非由于整体方法的崩溃，而是由于特定组件的局限性，尤其是在某些多语言场景中用于语义搜索的密集向量模型。

由于检索和判断是完全分离的，因此提高性能无需重写系统。更换功能更强大的多语言嵌入模型、丰富实体上下文或改进检索策略，都能在不改变核心架构的情况下改善这些类别的结果。

从架构的角度来看，这才是真正的成功指标。

这告诉我们关于设计的启示

回顾整个系列，有几个模式尤为突出：

准备工作比巧妙搭配更重要。预先为实体添加上下文信息可以显著减少以后可能出现的歧义。
LLM 作为评判者最有价值，而非检索者。让他们解释为什么某个匹配是有意义的，比要求他们进行搜索要有效得多。
可靠性确保准确性。函数调用不仅清理了 JSON，还释放了检索步骤中已存在的召回能力。
通用性胜过专业化。少量经过精心挑选的抽象概念无需自定义逻辑即可处理数十种挑战类型。

这就是为什么原型有意采用 Elasticsearch 原生架构，并在 LLM 的使用上有意采取保守策略的原因。目标不是取代搜索；而是在意义至关重要的情况下，使搜索变得可解释。

总结

最终的挑战并非追求完美的指标，而是回答一个更根本的问题：

一个透明、搜索优先、LLM 辅助的架构能否处理现实世界中的实体歧义，而不陷入规则或黑箱的情况？

对于这个具有教育意义的原型，答案是肯定的，但需要明确注意生产环境的强化、合规性、监控以及数据质量等方面的问题。如果您正在构建的系统需要说明为什么要进行实体匹配，那么这种模式值得认真考虑。我希望这个系列能告诉人们，实体解析其实并不神秘。只要合理地进行关注点分离，就可以对问题进行推理、评估和优化。

这项工作还提出了一种更广泛的架构模式。由此出现了经典检索增强生成 (RAG) 的一次细微但重要的演变。我们没有让检索直接为生成提供信息，而是引入了一个明确的评估步骤。首先使用 LLM 对检索到的候选结果进行判断和合理性检查，只有通过审核的结果才允许用于增强生成。您可以将其视为“生成增强型检索增强生成与评估”，或者简称为“GARAGE”，毕竟谁不喜欢一个好听的缩写词呢。

还有哪些其他用例可以从这种模式中受益？需要信任、透明和可辩护推理的系统是当然的候选者。未来在这一领域的工作应该会像我们在这里看到的结果一样引人注目，我很期待看到社区接下来会有什么新的发展。

下一步：亲自试用

想看看终极挑战的实际操作吗？请查看终极挑战笔记本，它通过实际实现、详细解释和动手示例，提供了完整的实践指南。

完整的实体解析管道展示了生产使用所需的核心概念和架构。您可以将其用作构建系统的基础，这些系统可以监测新闻文章、跟踪实体提及情况，并回答有关哪些实体出现在哪些文章中的问题，同时还能保持透明度和可解释性。

Elasticsearch 中 HNSW 的自适应提前终止

Tommaso Teofili — Mon, 02 Mar 2026 00:00:00 GMT

Elasticsearch 使用分层可导航小世界 (HNSW) 算法对邻近图进行矢量搜索。众所周知，HNSW 算法在 k 近邻 (KNN) 搜索结果的质量与相关计算成本之间实现了良好的平衡。

在 HNSW 中，搜索过程是通过在图中迭代扩展候选节点来推进的，同时维护一个迄今为止已发现的、规模受限的最近邻节点集合。每次扩展都会带来一定的影响（包括向量运算、磁盘随机寻址等操作），并且随着搜索的推进，这种影响所带来的边际效益往往会逐渐降低。

优化 HNSW 图遍历的一种方法是，当发现新真实邻近节点的边际概率不再提升时，立即停止搜索。因此，在 Elasticsearch 9.2 中，我们引入了新提前终止机制。当连续访问图节点的次数达到固定数量，但仍无法提供足够的新最近邻节点时，搜索过程就会停止。

本文将指导您了解我们如何改进 HNSW 中提到的提前终止机制，使其更适合不同的数据集和数据分布。

HNSW 中的提前终止

在 HNSW 中，搜索过程是通过在近邻图中迭代扩展候选节点来推进的，同时持续维护一个迄今已发现、规模受限的最近邻节点集合，直至搜索遍历完整个图，或者满足某些提前终止条件为止。

因此，提前终止不一定总是性能优化，它本身就是搜索算法不可或缺的组成部分。决定终止搜索的时机，直接决定了效率与召回率之间的权衡关系。在 Elasticsearch 中，针对 HNSW 图的查询已内置多种提前终止机制：

访问节点的最大数量固定不变。
已达到固定的超时时间。

这些规则虽然简单且可预测，但在很大程度上与搜索的实际操作无关。此外，它们主要用于确保最终用户在合理的时间内完成查询。

在上一篇博文中，我们介绍了 HNSW 冗余的概念。简而言之，当 HNSW 持续评估那些无法带来更多最近邻节点的新候选节点时，就会产生冗余计算。

耐心：衡量进展而非过程

“耐心”这一概念将提前终止的判定标准重新定义为“衡量进展而非过程”。

而不是问：

“我们走了多少步？”

新的问题变成了：

"在我们彻底丧失希望之前，我们能够接受浪费多少计算量？"

在 HNSW 搜索过程中，早期探索阶段通常能显著提升前 k 个候选结果集的质量。在 HNSW 图探索的初始阶段，随着算法不断发现与查询向量距离更近的邻近节点，邻近节点集会持续更新。随着搜索逐步收敛，这类质量提升会逐渐减少。基于“耐心”机制的终止策略会监测这一变化模式，当持续一段时间内未再出现显著改进时，即终止搜索过程。

在实际操作中，我们在遍历 HNSW 图的过程中，每跳转到一个候选节点时，都会计算队列饱和度。该指标用于衡量在访问最近一个图节点期间，未发生变化的最近邻节点所占的百分比（或者说，是上一轮迭代中引入的新邻节点数量的倒数）。若连续多次迭代中，这一比率持续过高，我们便会停止对图的遍历。

从概念层面来看，“耐心”机制将HNSW搜索视为一个收益递减的过程。当搜索收益趋于平稳时，继续遍历图结构所带来的增益将微乎其微。

这种框架之所以强大，是因为它将终止与可观察到的结果直接联系起来，而不是与任意的固定限制联系起来。

采用这种智能提前终止技术的优势在于，HNSW 图探索过程在保持近乎完美的相对召回率的同时，往往会访问更少数量的图节点。

为了直观地说明这一点，我们可以在几个数据集（FinancialQA 和 Quora）和模型（JinaV3 和 E5-small）上绘制基于耐心的提前终止（标注为 et=static）与默认 HNSW 行为（标注为 et=no）的对比图。

静态阈值和 HNSW 动态

实际上，Elasticsearch 使用静态阈值来实现这一点。其中一个阈值指的是饱和阈值，即我们认为次优的饱和度比率。另一个阈值指的是，在队列达到次优饱和度的情况下，我们允许访问的连续图节点数，即耐心阈值。

当我们在 Elasticsearch 9.2 中引入这种提前终止策略时，我们决定选择保守的默认设置，以便在延迟和内存消耗方面仍能达到效果的同时，尽可能多地让系统召回。因此，我们将饱和阈值设为 100%，耐心阈值设为 KNN 查询中 num_candidates 的（有界）30%。

在很多情况中，这些设置能取得不错的效果；然而，对于请求相同数量邻节点的两个查询而言，它们的收敛行为可能存在极大差异。有些查询会遇到密集的局部邻域，能迅速达到饱和状态；而有些查询则必须遍历漫长且稀疏的路径，才能找到具有竞争力的候选节点。事实证明，后一种情况最难以有效处理。

因此，我们有时会发现：

简单查询的过度探索。
复杂查询的过早终止。

因此，我们认为固定阈值编码了关于收敛的全局假设，而我们可以使 HNSW 更好地适应不同的动态。

实现 HNSW 的提前终止自适应

自适应提前终止从另一个角度解决了这个问题。该算法不是强制执行预定义的停止阈值，而是从搜索动态本身推断何时停止。

因此，我们不再比较连续两个候选节点间的队列饱和度比率，而是决定引入即时平滑发现率 $d_{q,i}$（即最近一次访问 i 中，针对查询 q 新发现的邻近节点数量），同时结合图遍历过程中该发现率的滑动均值 $\mu_{q,i} $和标准差$\sigma_{q,i}$（采用韦尔福德算法计算）。这些关于发现率的统计量按每个查询独立计算，从而可根据不同查询的特性动态调整其“耐心”阈值。

先前静态设定的阈值将根据发现率统计数据实现自适应调整：饱和阈值调整为滚动均值加上标准差；同时，我们将耐心值设为与标准差呈反比变化的动态参数。

提前退出的规则保持不变；当瞬时发现率低于自适应饱和阈值时，即判定达到饱和状态。如果在连续访问的候选节点数量超过自适应耐心值所设定的次数后，饱和状态仍持续存在，则停止对图的遍历。

如此一来，我们实现了搜索行为不再依赖于 KNN 查询中的 num_candidates 参数（该参数可能始终被设定为固定值或保留默认值，而与提前终止机制无关），同时能够根据每个查询和向量分布进行动态适配。

在 FinancialQA 和 Quora 数据集上，采用自适应策略（标记为 et=adaptive）时，每个访问节点的召回率相较于静态策略（ et=static）和默认 HNSW 行为（et=no）均有显著提升。

在 Elasticsearch 9.3 中，HNSW 密集向量字段的自适应提前终止默认处于启用状态（最终可以通过相同的索引级别设置将其关闭）。

通用表达式语言（CEL）：CEL 输入如何改进 Elastic Agent 集成中的数据收集

Chris Berkhout — Fri, 27 Feb 2026 00:00:00 GMT

Elastic Agent 集成支持用户从多种来源将数据摄取至 Elasticsearch。这些集成会将采集逻辑、摄取管道、仪表板以及其他构件打包在一起，形成一个可通过 Kibana Web 界面安装和管理的包。

集成通过配置 Filebeat 输入来执行数据采集。为了从 HTTP API 采集数据，我们通常使用 HTTP JSON 输入。然而，即便是最基础的列表 API，在具体细节上也可能千差万别，而 HTTP JSON 输入采用 YAML 配置进行数据转换的模式，往往使所需的采集逻辑难以自然表达，有时甚至无法实现。

为此，我们引入了通用表达式语言 (CEL) 输入，让与 HTTP API 的交互更加灵活。CEL 是一种专为嵌入到应用中而设计的语言，适用于需要以快速、安全且可扩展的方式来表达条件和数据转换的场景。通过 CEL 输入，集成构建者只需编写一个表达式，即可读取设置、跟踪自身状态、发起请求、处理响应，并最终返回可直接摄取的事件。

本文将探讨 CEL 与其他编程语言的区别、我们针对 Filebeat 的 CEL 输入所进行的扩展，以及由此带来的数据采集逻辑表达灵活性与能力提升。

CEL 及其在输入中的工作方式

CEL 是一种表达式语言，它没有“语句”这一概念。在编写 CEL 时，您不是通过编写语句来指示它执行操作，而是通过编写表达式来定义要生成的值。每个 CEL 表达式都会计算出一个值，较小的表达式可以组合成更大的表达式，按照更复杂的规则生成结果。稍后，我们将了解如何通过表达式来实现其他语言中需要用语句来完成的逻辑。

CEL 有意设计为一种非图灵完备的语言，因此不支持无界循环。稍后，我们将介绍如何使用宏来处理列表和映射；正是通过禁止无界循环，CEL 能够保证每个表达式的执行时间可预测且有限。

CEL 输入需要配置一个 CEL 程序（即一个表达式）以及一些初始状态。这个初始状态会作为输入传递给程序。程序执行后会产生一个新的输出状态。如果输出状态中包含事件列表，这些事件会被提取出来并发布。输出状态的其余部分则作为下一次执行的输入。如果输出状态包含一个或多个事件，并且带有 want_more: true 标志，程序会立即再次执行；否则，它会在剩余的配置时间间隔内等待，然后才继续执行。下面是输入控制流的简化示意图：

只要输入还在运行，每次执行的输出都会作为下一次执行的输入。存储在 “cursor” 键下的数据会被保存到磁盘，并在输入重启后重新加载，但其余状态在重启后不会保留。

CEL 语言本身功能有限，且不会产生副作用，但它支持扩展。cel-go 实现为其添加了一些功能，例如可选语法和类型。Mito 库在 cel-go 的基础上进一步扩展，增加了发起 HTTP 请求等功能。CEL 输入使用的正是 Mito 提供的 CEL 版本。

与 Mito 合作

要使用 CEL 输入构建或调试集成，最关键的是理解：针对给定的输入状态，您的 CEL 程序会输出什么。在开发过程中，如果每次都要在完整的 Elastic Stack 环境中通过 CEL 输入来运行程序，会非常繁琐。为了更快地获得反馈，可以使用 Mito 的命令行工具，它允许您直接运行 CEL 程序，并查看它对给定输入产生的输出。

Mito 是用 Go 语言编写的，您可以通过以下命令安装：

go install github.com/elastic/mito/cmd/mito@latest

使用 Mito 运行 CEL 程序时，通常需要提供两个文件：一个是 JSON 文件，包含初始输入状态；另一个是 CEL 源文件，包含程序代码。

mito -data state.json src.cel

为了方便复制粘贴，本文示例采用单条命令的形式，利用 <(echo '...content...') 语法将每个文件的内容动态生成临时文件。在实际开发中，直接使用真实的文件会更方便。

从 GitHub 获取 issue 数据

以下示例是一个完整的 CEL 程序，用于从 GitHub API 获取 issue 数据。它的初始输入状态包含 API 端点的 URL 以及分页处理的相关信息。CEL 程序利用这些输入数据生成请求，然后解码响应，从中生成事件，并将这些事件作为输出状态的一部分返回。

mito -data <(echo '
  {
    "url": "https://api.github.com/repos/elastic/integrations/issues",
    "per_page": 3,
    "max_pages": 3
  }
') <(echo '
  int(state.?cursor.page.orValue(1)).as(page,
    (
      state.url + "?" + {
        "state": ["all"],
        "sort": ["created"],
        "direction": ["asc"],
        "per_page": [string(state.per_page)],
        "page": [string(page)],
      }.format_query()
    ).as(full_url,
      request("GET", full_url).with({
        "Header": {
          "Accept": ["application/vnd.github+json"],
          "X-GitHub-Api-Version": ["2022-11-28"],
        }
      }).do_request().as(resp,
        resp.Body.decode_json().as(data,
          state.with({
            "events": data.map(i, {
              "html_url": i.html_url,
              "title": i.title,
              "created_at": i.created_at,
            }),
            "cursor": { "page": page + 1 },
            "want_more": size(data) == state.per_page && page < state.max_pages,
          })
        )
      )
    )
  )
')

程序第一次执行会产生以下输出：

{
  "cursor": {
    "page": 2
  },
  "events": [
    {
      "created_at": "2018-09-14T09:47:35Z",
      "html_url": "https://github.com/elastic/integrations/issues/3250",
      "title": "Increase support of log formats in haproxy filebeat module"
    },
    {
      "created_at": "2019-02-06T12:37:37Z",
      "html_url": "https://github.com/elastic/integrations/issues/487",
      "title": "ETCD Metricbeat module needs polishing and grooming"
    },
    {
      "created_at": "2019-08-13T11:33:11Z",
      "html_url": "https://github.com/elastic/integrations/pull/1",
      "title": "Initial structure"
    }
  ],
  "max_pages": 3,
  "per_page": 3,
  "url": "https://api.github.com/repos/elastic/integrations/issues",
  "want_more": true
}

这些事件会被提取出来，并在 CEL 输入中发布，以便摄取。剩余的输出数据将作为输入状态传递给下一次 CEL 程序执行。

为了帮助理解这个 CEL 程序的工作原理，我们先看一些更简单的 CEL 示例，并深入讨论 CEL 输入的运行细节。

CEL 基础知识

CEL 语言中只有表达式，没有语句。每个 CEL 表达式成功执行后都会得到一个最终值。以下是一个最简单的 CEL 表达式示例及其输出：

mito <(echo '
  "hello" + " " + "world"
')

"hello world"

许多简单表达式都很直观。数学运算要求操作数类型相同（例如 int 与 int），因此请根据需要进行类型转换（此处是从 int 转换为 double）：

mito <(echo '
  double((1 + 2) * (3 + 4)) / 2.0
')

10.5

CEL 语言中没有变量，但您可以为表达式的结果命名，并借助 Mito 的 as 宏在更大的表达式中使用它。在此示例中，表达式 (1 + 1) 的值为 2，而 .as(n, ...) 会将该值命名为 n，以便在表达式 "one plus one is "+string(n) 中使用：

mito <(echo '
  (1 + 1).as(n, "one plus one is "+string(n))
')

"one plus one is 2"

还可以在映射中累积信息，并在表达式中稍后使用；下面的示例用 with 演示了这一点：

mito <(echo '
  { "key": "value" }.with({ "key2": "value2" }).as(data,
    {
      "data": data,
      "size": size(data),
    }
  )
')

{
  "data": {
    "key": "value",
    "key2": "value2"
  },
  "size": 2
}

我们再来看这个例子。注意嵌套部分 ({ "data": data, "size": size(data), })，它定义了最终值的结构。这是一个映射，包含 "data" 和 "size" 两个键。这些键的值依赖于 data，而它是由外层表达式定义的。从内向外阅读 CEL 表达式，有助于快速理解它们会返回什么。

CEL 没有 if 这样的控制流语句，但可以用三元运算符实现条件分支：

mito <(echo '
  1 + 1 < 12 ? "few" : "many"
')

"few"

由于 CEL 不是图灵完备语言，因此不支持无限循环和递归。这保证了执行时间可预测，并且与输入数据的大小和表达式的复杂度成正比。

虽然单个 CEL 表达式不能使用无限循环，但您可以用 map 这样的宏来处理列表和映射：

mito <(echo '
  [1, 2, 3].map(x, x * 2)
')

[2, 4, 6]

本节介绍了以下内容：

字符串、数字、列表和映射。
字符串连接。
数学运算。
类型转换。
条件语句。
命名子表达式。
处理集合。

接下来，我们将学习如何发出 HTTP 请求。

请求

Mito 为 CEL 扩展了发起 HTTP 请求的能力：

mito <(echo '
  get("https://example.com").as(resp, string(resp.Body))
')

"Example Domain..."

请求可以在执行前明确构造，这样就可以使用不同的 HTTP 方法，并添加请求头和请求体。

在这个示例中，我们借助 format_query 构建 URL，向请求添加一个请求头，并使用 decode_json 解析响应体。当传入 -log_requests 选项时，Mito 会以 JSON 格式记录每个请求和响应的详细信息。

mito -log_requests <(echo '
  request("GET",
    "https://postman-echo.com/get?" + {
        "q": ["query value"]
     }.format_query()
  ).with({
    "Header": { "Accept": ["application/json"] }
  }).do_request().as(resp, {
    "status": resp.StatusCode,
    "data": resp.Body.decode_json(),
  })
')

{"time":"...","level":"INFO","msg":"HTTP request",...}
{"time":"...","level":"INFO","msg":"HTTP response",...}
{
  "data": {
    "args": {
      "q": "query value"
    },
    "headers": {
      "accept": "application/json",
      "accept-encoding": "gzip, br",
      "host": "postman-echo.com",
      "user-agent": "Go-http-client/2.0",
      "x-forwarded-proto": "https"
    },
    "url": "https://postman-echo.com/get?q=query+value"
  },
  "status": 200
}

管理状态和评估

我们已经介绍了如何发出请求，以及生成期望输出状态所需的 CEL 基础知识，接下来就来仔细看看输出状态应该包含哪些内容，以及这些内容如何帮助我们引导后续的处理流程。

集成的 CEL 程序需要确保其输出状态能够作为下一次执行的输入。配置设定了初始状态，输出中应保留这些状态值，并根据需要更新。一个简单的做法是使用 state.with({ ... })，在原有状态映射的基础上合并覆盖。小型程序常见的一种模式是将整个程序包裹在 state.with() 中，这样在成功、错误等输出数据的分支中，就无需重复处理状态传递逻辑。

如果某些状态值不是在初始输入状态中硬编码，而是在执行过程中动态初始化，那么程序在设置初始值之前需要先检查是否已存在值。这正是可选语法和类型支持能够发挥作用的场景。在映射键的字段名前面加上问号，访问就变为可选：可能得到值，也可能得不到，但后续仍可以进行可选访问，并且在无值时可以方便地提供默认值：

mito -data <(echo '{}') <(echo '
  int(state.?counter.orValue(0)).as(counter,
    state.with({
      "counter": counter + 1,
      "want_more": counter + 1 < 3,
    })
  )
')

{ "counter": 1, "want_more": true }
{ "counter": 2, "want_more": true }
{ "counter": 3, "want_more": false }

在这个例子中，从 state 读取的计数器值需要转换为 int，因为状态中的所有数字都按照 JSON 和 JavaScript Number 类型的惯例序列化为浮点数。另外需要注意的是，Mito 会响应 "want_more": true，但在 CEL 输入中运行时，只有当输出中同时包含事件时，才会重复执行。

由 CEL 输入运行的 CEL 程序必须在输出映射中包含一个 "events" 键。它的值可以是事件映射的列表、空列表，或单个事件映射。单个事件映射通常用于表示错误。该事件会被输入发布，其值也会被记录到日志；如果设置了 error.message，该值还会用于更新集成在 Fleet 中的健康状态。如果程序生成的是单个非错误事件，最好将其包装在列表中。

回顾一下我们之前的 GitHub issues 程序的输出：

{
  "url": "https://api.github.com/repos/elastic/integrations/issues",
  "per_page": 3,
  "max_pages": 3,
  "cursor": {
    "page": 2
  },
  "events": [
    { ... },
    { ... },
    { ... }
  ],
  "want_more": true
}

该程序通过以下方式有效地管理了其状态：

在 url、per_page 和 max_pages 字段中沿用了初始状态的值。
在 cursor.page 中添加了需要在重启后持久化的状态。
返回准备发布在 events 列表中的事件。
请求立即与 want_more: true 进行重新评估。

现在您已经理解了可选访问和状态管理，以及 CEL 基础知识和 HTTP 请求，完整的 GitHub issues 示例程序应该已经比较容易阅读了。不妨用 Mito 运行一下，并尝试做些修改。

回顾与资源

本文介绍了 CEL 语言，以及它如何在 Mito 库中得到扩展以用于 CEL 输入。通过一个从 GitHub API 获取 issue 数据的示例程序，我们展示了 CEL 的灵活性，并逐一解析了理解该程序所需的全部细节：访问初始状态中的配置、与 HTTP API 交互、返回待导入的事件，以及为后续执行管理状态。

要深入学习并使用 CEL 输入构建集成，以下资源值得探索：

对于使用 CEL 输入构建集成，最有价值的资源或许是现有 Elastic 集成中的 CEL 代码，这些代码可以在 GitHub 上找到：

cel.yml.hbs Elastic 集成存储库中的 cel.yml.hbs 文件－ GitHub。

使用 Elasticsearch 与 LLM 进行实体解析，第 2 部分：通过 LLM 判断和语义搜索匹配实体

Jessica Moszkowicz — Thu, 26 Feb 2026 00:00:00 GMT

在第 1 部分中，我们准备了观察清单并提取了实体提及。现在我们准备回答那个难题：一个提及实际指的是哪个实体？让我们回到本系列第一篇博客中的例子，该例子说明了我们为何需要实体解析：“Swift 更新来了！”想象一下，这个标题伴随着一些上下文：

新的 Swift 更新来了！开发人员迫不及待地想要尝试新功能。
新的 Swift 更新来了！新专辑将于下个月发布。

有了这些增加的上下文，我们应该能够将名称“Swift”解析到正确的实体。

在上一篇文章中，我们设置了观察清单，并用额外的上下文丰富了实体信息。看上面的例子，我们需要在清单中至少包含以下两个实体：Taylor Swift 和 Swift 编程语言。我们还介绍了如何从文本中提取实体提及。这两个例子都能提取“Swift”。有了这些要素——丰富的观察清单和提取出的实体——我们终于可以介绍本次的主角了：实体匹配。

请记住：这是一个教育原型，旨在教授实体匹配概念。生产系统可能会使用不同的大型语言模型 (LLM)、自定义匹配规则、专门的判断管道或结合多种匹配策略的集成方法。

问题：为何匹配如此困难

人类语言是一种非凡的事物。它最有趣的特性之一是其无限的创造力。我们可以生成并理解无数的新句子。那么，在实体解析中完全精确的匹配极为罕见，这还奇怪吗？作者们在可能的情况下都力求创新。如果每次提到某个实体时，我们都必须书写和阅读完整名称，那将会变得非常乏味。因此，尽管精确匹配很简单，但现实情况是我们需要一种更复杂的方法来进行实体解析：这种方法必须足够强大，以处理人类作者无限创造力中的至少一部分挑战。这就是我们将问题分解为两个步骤的原因：使用 Elasticsearch 大规模检索可能的候选实体，然后使用 LLM 来判断这些候选实体是否真正指向同一个现实世界中的实体。

解决方案：三步匹配与透明的 LLM 判断

我们正处于使用计算机方式的范式转变之中。正如互联网的兴起将我们从本地计算带入全球互联网络一样，生成式 AI (GenAI) 正在从根本上改变内容、代码和信息的创建方式。事实上，伴随本系列的教育型原型几乎完全是作者通过精心设计提示词，使用 LLM “vibe coded” 出来的。这并不是说 LLM 已经或将要达到人类语言所固有的那种生产力，但这确实意味着我们现在拥有一个强大的资源来帮助进行实体解析。

我们在使用生成式 AI 时的一个常见模式是检索增强生成 (RAG)。在这里，检索检索意味着检索实体候选（而不是生成答案），LLM 严格用于匹配评估和解释。虽然我们可以要求 LLM 帮助我们进行端到端的实体解析，但这在时间和金钱上都是一种成本高昂的方法。RAG 通过使用更高效的方式为 LLM 提供上下文，从而帮助 LLM 完成工作，进而使 LLM 能够有效地协助实体解析。

对于 RAG 中的检索部分，我们再次求助于 Elasticsearch。我们首先使用精确匹配、别名匹配以及结合了关键词和语义搜索的混合搜索来寻找潜在的匹配项。一旦找到这些潜在匹配项，我们就将它们发送给 LLM 进行判断。LLM 充当最终的匹配评估器。我们还让 LLM 解释其推理过程，这是与其他实体解析系统的一个重要区别。没有这些解释，实体解析就是一个黑匣子；有了它们，我们可以亲眼看到为什么某个匹配是合理的。

关键概念：三步匹配、混合搜索和透明 LLM 判断

什么是三步匹配？在项目开始时，我们假设语义搜索将是系统的一个关键部分，但并非每个匹配都需要如此复杂的搜索。为了有效地找到匹配项，我们采用了渐进式的方法。首先，我们使用关键词搜索检查完全精确的匹配。如果找到这样的匹配，我们的工作就完成了，可以继续下一个。如果精确匹配失败，我们转向别名匹配。为简化起见，在原型中，别名匹配也是使用关键词进行精确匹配完成的。在生产环境中，您可能会通过标准化、音译规则、模糊匹配或精心管理的别名表来扩展这一步。如果在前两步之后仍未找到潜在的匹配项，那么是时候通过 Elasticsearch 的混合搜索（结合了倒数排序融合）来引入语义搜索了。

什么是混合搜索？在 Elasticsearch 中，我们可以使用语义搜索来找到将上下文考虑在内的有意义的匹配。Elasticsearch 广泛用于向量搜索和混合检索。语义相似性对于理解含义非常强大，但它不能替代结构化过滤（例如，按时间范围、位置或标识符过滤），并且在存在精确匹配时通常是不必要的。Elasticsearch 以其词汇搜索而闻名，这在不适合语义搜索的任务中表现出色。为了充分利用这两种方法，我们在单个混合查询中将词汇搜索与语义搜索结合使用。然后，我们使用 RRF 合并结果，以找到最可能的匹配项。在原型中，排名前两位的结果成为可以发送给 LLM 进行判断的潜在匹配项。

为什么需要 LLM 判断？LLM 的判断和解释使得我们的系统能够透明地处理歧义和上下文。这对于像“the president”这样可能根据上下文指代多个实体的情况至关重要，但它也使昵称和文化差异等情况在系统中能够很好地处理。最后，当我们考虑关键任务，例如识别制裁名单中的实体时，我们需要知道匹配被接受的原因，才能信任该系统。至关重要的是，LLM 并不搜索整个语料库；它只评估 Elasticsearch 返回的那一小部分候选集。

实际结果：通过 LLM 推理进行匹配

任何自然语言处理任务的一个主要挑战是创建一份黄金文档，一份告诉我们预期结果是什么的“答案”。没有它，几乎不可能判断一个系统在某个任务上表现如何，但创建这样一份文档可能是一个费力且费时的过程。对于实体解析原型，我们再次求助于生成式 AI 来帮助建立我们可以用来测试的数据。

我们首先定义了几种挑战类型，例如昵称和音译，然后要求 LLM 创建一个分层的数据集集合，这些数据集将逐渐变大，对系统来说也更具挑战性。数据集的创建并不像人们希望的那样简单。LLM 有一种强烈的“作弊”倾向，使得获取正确答案变得过于容易。例如，其中一种挑战类型侧重于语义上下文。这种类型包括将“Russian author”解读为“Leo Tolstoy”。LLM 错误地将“Russian author”作为“Leo Tolstoy”的一个别名，这就没有必要通过混合搜索来寻找匹配项了。

在进行了几次重构以修复此类问题后，我们有了五个可供使用的数据集层级。第 1-4 层规模逐渐增大，包含的挑战类型也更多。第 5 层是“终极挑战”数据集，由所有挑战类型中最棘手的例子组成。所有测试数据都可以在全面评估目录中找到。

为了评估我们基于提示的实体解析方法，我们将注意力集中在第 4 层数据集上。一个重要的说明是，评估是作为受控实验进行的，这样我们可以专注于实体匹配的质量。观察清单数据预先丰富了上下文，并且实体是提前从文章中提取出来的。这确保了评估的重点是匹配而非提取的准确性。这将匹配质量孤立出来；端到端的性能还将额外取决于提取的召回率和丰富数据的质量。

评估数据集

第 4 层评估数据集对系统的能力提供了一个全面的测试：[1]

观察清单实体：跨不同类型（人物、组织、地点）的 66 个实体。
测试文章：69 篇涵盖现实世界实体解析场景的文章。
预期匹配：所有文章中预期的 206 个实体匹配。
挑战类型：测试实体解析各个方面的 15 种不同挑战类型。

数据集中包含的挑战类型有：

昵称：“Bob Smith” → “Robert Smith”（七篇文章）。
头衔和尊称： “Dr. Sarah Williams” → “Sarah Williams”（五篇文章）。
语义上下文：“Russian author” → “Leo Tolstoy”（八篇文章）。
多语言名字：处理不同书写系统中的名称（六篇文章）。
商业实体： 公司名称变体（七篇文章）。
高管引用：“Microsoft CEO”→“Satya Nadella”（五篇文章）。
政治领导人：基于头衔的引用（五篇文章）。
名称首字母：“J.Smith” → “John Smith”（三篇文章）。
名称顺序变体：不同的名称顺序惯例（三篇文章）。
名称截断：部分名称匹配（三篇文章）。
名称拆分：名称在文本中拆分（三篇文章）。
缺少空格/连字符：格式变体（两篇文章）。
音译：跨书写系统的名称匹配（两篇文章）。
组合挑战：一篇文章中包含多个挑战（共六篇文章）。
复杂商业关系：分层商业关系（五篇文章）。

让我们看看基于提示的实体解析表现如何。

整体性能

结果显示，由 LLM 驱动的匹配评估前景广阔，但也揭示了一个显著的可靠性问题。因为每个候选对都必须由 LLM 进行评估，结构化输出的失败可能会抑制接受率和召回率，即使检索环节工作正常。

指标	值
精确率	83.8%
召回	62.6%
F1 分数	71.7%
找到的总匹配数	344
LLM 接受率	44.8%
错误率	30.2%

错误率问题

回顾一下，我们在原型中采取的第一步是使用 Elasticsearch 创建潜在的匹配对。每个这样的潜在匹配都需要由 LLM 进行评估。为了高效地处理所有这些匹配项，我们将 LLM 调用批量组合在一起。这降低了 API 成本和延迟，但也增加了在输出中得到格式错误 JSON 的风险。随着批量大小的增加，JSON 变得更长、更复杂，使得 LLM 更有可能生成无效的 JSON。这就是 30% 错误率的来源。在评估中，我们每个请求使用 5 个匹配项的批量大小。即使采用这个保守的批量大小，我们仍然遇到 JSON 解析失败的情况，这显著地影响了评估结果。

下一步：优化 LLM 集成

现在，我们已经使用语义搜索和 LLM 判断匹配了实体，我们拥有了一个完整的实体解析管道。然而，这种方法引入了一种新的故障模式：当模型的判断正确，但其输出却不可用时。我们可以优化 LLM 集成以获得更好的可靠性和成本效益。在下一篇文章中，我们将探讨如何使用函数调用来实现结构化输出，这可以在减少错误和成本的同时，提供有保障的结构和类型安全。

亲自试用

想亲眼看看实体匹配是如何运作的吗？请查看实体匹配笔记本，它通过实际实现、详细解释和动手示例，提供了完整的实践指南。该笔记本精确地向您展示了如何使用三步搜索、带有 RRF 的混合搜索以及由 LLM 驱动的带推理的判断来匹配实体。

请记住：这是一个教育原型，旨在教授这些概念。在构建生产系统时，需要考虑额外的因素，如模型选择、成本优化、延迟要求、质量验证、错误处理和监控等，而这些在本学习重点的原型中并未涵盖。

备注

这些数据集是合成的，专为教育目的设计；它们模拟了真实的挑战，但不代表任何单一的生产环境领域。

Elasticsearch 向量搜索速度比 OpenSearch 快 8 倍

Sachin Frayne — Wed, 25 Feb 2026 00:00:00 GMT

为什么搜索速度对 AI 智能体和上下文工程很重要

我们在 2000 万文档语料库上进行的基准测试显示，Elasticsearch 在过滤向量搜索方面的吞吐量比 OpenSearch 高达 8 倍，同时在我们测试的配置中也实现了更高的 Recall@100。上下文工程不仅仅依赖快速的向量检索。随着工作流的迭代，团队还需要强大的相关性控制（如混合搜索和过滤）、操作简便性和可预测的性能。但是，由于智能体通常会在每个请求中多次运行检索、推理、检索循环，因此检索延迟会成倍增加，所以这方面的改进会直接转化为更好的端到端响应能力和更低的成本。

对于上下文工程来说，检索不是一次性的步骤。智能体和应用程序会反复运行循环，例如检索→推理→检索，以完善查询、验证事实、组合基础上下文并完成任务。这种模式在智能体工作流和迭代检索增强生成 (RAG) 中很常见。由于每个用户请求可能会多次调用检索，这会增加响应延迟和/或增加基础设施成本。

为什么向量搜索性能至关重要？

想象一个购物助手回答以下问题：“我需要一个价格在 60 美元以下的随身背包，它可以容纳一台 15 英寸的笔记本电脑、防水，并且可以在周五之前送达。”

在生产环境中，助手很少只发出一个向量查询然后停止。它会运行一个检索循环以构建正确的上下文，并且每一步通常会受到过滤条件的限制，如可用性、地区、发货承诺、品牌规则和政策资格。

第 1 步：解读意图，并转化为约束条件。

智能体可将请求转化为结构化的过滤条件和语义查询，例如：

过滤条件：有现货，可配送至用户邮编，可在周五前送达，价格低于 60 美元，有效上架
向量查询：“随身背包15英寸笔记本电脑防水”

步骤 2：检索候选对象，然后进行细化。

它通常会重复检索，但会有所变化，以避免遗漏好的匹配结果：

“旅行背包随身便携笔记本电脑保护套”
“15 英寸防水通勤背包”
“轻型机舱背包”

每个查询都使用相同的资格过滤条件，因为检索无关或不可用的项目会造成上下文的浪费。

步骤 3：展开以确认详细信息并降低风险。

代理随后再次检索以验证影响最终答案的关键属性：

材料与防水性表述
尺寸和笔记本隔层都适合
退货政策或保修限制
库存不足时的替代方案

这就是多步上下文工程：检索、推理、检索、组合。

延迟与召回为何对上下文工程至关重要

这些交互可能涉及每个用户会话中数十次过滤的检索调用。这使得每次调用的延迟成为端到端响应时间的直接倍增因素，而低召回率则迫使进行额外的重试或导致智能体错过符合条件的项目，导致答案质量下降。

要点：在上下文工程系统中，过滤近似最近邻 (ANN) 并非一次单一查找。由于这是在约束条件下的重复操作，因此即使大型语言模型 (LLM) 是最明显的组件，向量搜索性能也会立即体现在延迟、吞吐量和成本上。

基准测试

成果度

在图表 2 中，每个点代表一个测试配置。最佳结果出现在左上方，这意味着更高的召回率和更低的延迟。Elasticsearch 的结果始终比 OpenSearch 更接近左上角，表明在相同的工作负载配置下，Elasticsearch 具有更好的速度和准确率。

一些关键见解

s_n_r_value: size_numCandidates_rescoreOversample 的简写（在这些测试中，k 和 numCandidates 设置为等于 numCandidates），例如，100_500_1 表示 size=100、numCandidates=500 和 k=500，重新评分过采样=1。
召回率：该配置的测量召回率@100
平均延迟（毫秒）：每次查询的平均端到端延迟
吞吐量：每秒查询次数
召回率 (%)：Elasticsearch 相较于 OpenSearch 的相对召回率提升 (Elasticsearch - OpenSearch) / OpenSearch
延迟 Xs：OpenSearch 平均延迟除以 Elasticsearch 平均延迟
吞吐量 Xs：Elasticsearch 吞吐量除以 OpenSearch 吞吐量

引擎	`s_n_r_value`	召回	平均延迟（ms）	吞吐量	召回率%	延迟 Xs	吞吐量 Xs
Elasticsearch	100_250_1	0.7704	25	534.75	9.70%	2.28	1.91
OpenSearch	100_250_1	0.7023	57.08	279.58
Elasticsearch	100_500_1	0.8577	25.42	524.14	7.20%	2.4	2
OpenSearch	100_500_1	0.8001	60.9	262.12
Elasticsearch	100_750_1	0.8947	29.67	528.09	5.72%	2.25	2.21
OpenSearch	100_750_1	0.8463	66.76	239.11
Elasticsearch	100_1000_1	0.9156	29.65	534.5	4.66%	2.46	2.44
OpenSearch	100_1000_1	0.8748	72.88	219.01
Elasticsearch	100_1500_1	0.9386	31.84	497.3	3.38%	2.71	2.68
OpenSearch	100_1500_1	0.9079	86.16	185.4
Elasticsearch	100_2000_1	0.9507	34.69	457.2	2.57%	2.98	2.96
OpenSearch	100_2000_1	0.9269	103.36	154.55
Elasticsearch	100_2500_1	0.9582	37.9	418.43	1.99%	3.28	3.26
OpenSearch	100_2500_1	0.9395	124.29	128.53
Elasticsearch	100_3000_1	0.9636	41.86	379.4	1.62%	3.46	3.44
OpenSearch	100_3000_1	0.9482	144.67	110.34
Elasticsearch	100_4000_1	0.9705	50.28	316.21	1.06%	3.87	3.85
OpenSearch	100_4000_1	0.9603	194.36	82.22
Elasticsearch	100_5000_1	0.9749	58.77	270.91	0.73%	4.43	4.41
OpenSearch	100_5000_1	0.9678	260.33	61.38
Elasticsearch	100_6000_1	0.9781	66.75	238.59	0.52%	4.91	4.89
OpenSearch	100_6000_1	0.973	327.44	48.81
Elasticsearch	100_7000_1	0.9804	74.64	213.49	0.38%	5.28	5.27
OpenSearch	100_7000_1	0.9767	394.24	40.53
Elasticsearch	100_8000_1	0.9823	82.28	193.59	0.27%	6.86	6.83
OpenSearch	100_8000_1	0.9797	564.14	28.33
Elasticsearch	100_9000_1	0.9837	90.08	176.96	0.16%	7.63	7.61
OpenSearch	100_9000_1	0.9821	687.25	23.25
Elasticsearch	100_10000_1	0.9848	97.64	163.31	0.08%	8.38	8.36
OpenSearch	100_10000_1	0.984	818.64	19.53

例如，在 100_9000_1 处，OpenSearch 每次检索平均为 687 毫秒， Elasticsearch 为 90 毫秒，而在 10 步检索循环中，等待时间约为 10 x (687 - 90) = 6 秒。

查看完整结果。

方法

我们使用 Python 发送查询并跟踪响应时间及其他统计数据，向引擎发送了以下查询。请记住，任何向量搜索引擎的性能取决于您如何调整其核心参数：考虑多少个候选项，重新评分的程度，以及返回多少上下文。这些设置直接影响召回率（找到正确答案的可能性）和延迟（获得结果的速度）。

在我们的基准测试中，我们使用了通常在智能体检索循环中调整的候选对象、重新评分和结果大小设置，并测量了 Elasticsearch 在该工作负载下的表现。然后我们以相同的设置运行了 OpenSearch 作为参考。

OpenSearch

GET /_search
{
  "query": {
    "knn": {
      "": {
        "vector": [...],
        "k": ,
        "method_parameters": {
          "ef_search": 
        },
        "rescore": {
          "oversample_factor": 
        },
        "filter": {
          
        }
      }
    }
  },
  "size": ,
  "_source": {
    "excludes": [
      ""
    ]
  }
}

"size": ：返回给客户端的命中次数。在这个基准测试中，计算 Recall@100 的结果大小为 100。
"k": ：最近邻候选对象的数量。
"ef_search": ：要检查的向量数量。
"oversample_factor": ：在重新评分之前检索了多少个候选向量。

Elasticsearch

GET /_search
{
  "query": {
    "knn": {
      "field": "",
      "query_vector": [...],
      "k": ,
      "num_candidates": ,
      "rescore_vector": {
        "oversample": 
      },
      "filter": {
        
      }
    }
  },
  "size": ,
  "_source": {
    "excludes": [
      ""
    ]
  }
}

"size": ：返回给客户端的命中次数。在这个基准测试中，计算 Recall@100 的结果大小为 100。
"k": ：从每个分片返回的最近邻数量。
"num_candidates": ：进行 knn 搜索时每个分片要考虑的最近邻候选数目。
"oversample": ：在重新评分之前检索了多少个候选向量。

示例

Knn 查询, (100_500_1)，将如下所示：

OpenSearch

GET search_catalog_128/_search
{
  "query": {
    "knn": {
      "search_catalog_embedding": {
        "vector": [...],
        "k": 500,
        "method_parameters": {
          "ef_search": 500
        },
        "rescore": {
          "oversample_factor": 1
        },
        "filter": {
          "term": {
            "valid": true
          }
        }
      }
    }
  },
  "size": 100,
  "_source": {
    "excludes": [
      "search_catalog_embedding"
    ]
  }
}

Elasticsearch

GET search_catalog_128/_search
{
  "query": {
    "knn": {
      "field": "search_catalog_embedding",
      "query_vector": [...],
      "k": 500,
      "num_candidates": 500,
      "rescore_vector": {
        "oversample": 1
      },
      "filter": {
        "term": {
          "valid": true
        }
      }
    }
  },
  "size": 100,
  "_source": {
    "excludes": [
      "search_catalog_embedding"
    ]
  }
}

完整配置、Terraform 脚本、Kubernetes 清单和基准测试代码均可在此存储库的 es-9.3-vs-os-3.5-vector-search 文件夹中找到。

集群设置

我们在六台 e2-standard-16 云服务器上运行了测试，每台服务器配备 16 个 vCPU 和 64 GB 内存。在每台服务器上，我们为每个运行搜索引擎节点的 Kubernetes pod 分配了 15 个 vCPU 和 56 GB RAM，其中 28 GB 保留给 JVM 堆。

这些集群运行 Elasticsearch 9.3.0 和 OpenSearch 3.5.0 (Lucene 10.3.2)。由于在此基准测试中两个系统使用相同的 Lucene 版本，我们观察到的吞吐量和延迟差异不能单独归因于 Lucene，而是反映了每个引擎如何集成和执行过滤后的 k 最近邻 (kNN) 检索和重新评分的差异。我们使用了一个单一索引，包含三个主分片和一个副本（因此总共 6 个分片，每个节点 1 个分片）。

我们还在同一区域使用了一台独立服务器运行基准客户端，并收集时序统计数据。

该数据集

对于这个基准测试，我们使用了一个大规模电子商务风格的目录嵌入数据集，包含 2000 万份文档，旨在反映实际的大规模筛选后向量检索的扩展能力。

每份文件代表一个目录项目，包括：

一种用于近似 kNN 检索的 128 维稠密向量嵌入。
结构化元数据字段用于筛选（例如，项目有效性和可用性，以及其他目录限制条件），从而支持常见的生产环境模式，即仅在符合条件的子集内检索最近邻。

我们之所以选择这个数据集，是因为它捕捉到了我们在生产中看到的智能体和 RAG 型系统所面临的核心性能挑战：仅有矢量相似性是不够的，检索经常受到筛选条件的限制，系统必须在这些限制条件下保持较高的召回率和较低的延迟。与较小的 QA 风格数据集相比，2000 万文档的语料库更能反映筛选后 ANN 系统在实践中面临的扩展和候选压力。

结论

在现代 AI 架构中，尤其是在那些围绕上下文工程构建的架构中，向量搜索速度并非一个微不足道的实现细节。它是一个倍增因素。当智能体和工作流迭代检索→推理→检索时，检索性能直接影响端到端延迟、吞吐量以及输入到模型中的上下文质量。

在我们的基准测试中，与 OpenSearch 相比，当 Elasticsearch 在正确性取决于检索正确文档而不仅仅是相似向量的情况下，始终能以更低的延迟提供更高的召回率。在受控数据集上，差异是显而易见的，而在生产中，这些收益会在大量检索调用中累积，从而提高响应速度、增加容量裕度并降低基础设施成本。

延展阅读

jina-embeddings-v5-text：用于搜索和智能应用的紧凑且最先进的文本嵌入

Scott Martens, Sofia Vasileva — Mon, 23 Feb 2026 00:00:00 GMT

Jina AI 和 Elastic 正在发布 jina-embeddings-v5-text，这是一系列新的、高性能、紧凑的文本嵌入模型，在所有主要任务类型中，其性能在同等规模的模型中处于最先进水平。

该系列包括两个型号：

jina-embeddings-v5-text-small
jina-embeddings-v5-text-nano

这些模型是创新的嵌入模型新训练方法的成功结果。它们的性能优于规模是其数倍的模型，节省了内存和计算资源，并更快地响应请求。

jina-embeddings-v5-text-small 模型拥有 6.77 亿个参数，支持 32,768 个令牌的输入上下文窗口，并默认生成 1,024 维的嵌入。

jina-embeddings-v5-text-nano 其大小约为同类产品的三分之一，拥有 2.39 亿个参数和 8,192 个令牌的输入上下文窗口，并生成 768 维的嵌入。

型号名称	总大小	输入上下文窗口大小	嵌入大小
jina-v5-text-small	677M 参数	32,768 个令牌	1024 维度
jina-v5-text-nano	239M 参数	8,192 个令牌	768 维度

这两个模型在整体 MMTEB（多语言 MTEB）基准性能方面是同类中最好的。在参数量少于 5 亿的模型中，jina-embeddings-v5-text-nano 表现最佳，尽管其参数量不足 2.5 亿，而 jina-embeddings-v5-text-small 模型是参数量少于 7.5 亿的多语言嵌入模型中的领先者。

这些模型可通过 Elastic 推断服务 (EIS)、在线 API 获得，并支持本地托管。有关如何访问 jina-embeddings-v5-text 模型的说明，请参阅以下“入门”部分。

嵌入模型和语义索引显著提高了搜索算法的准确性，但在涉及语义相似性和意义提取的任务中也有各种其他用途，例如：

查找重复文本。
识别释义和翻译。
发现主题。
推荐引擎。
情感和意图分析。
垃圾邮件过滤。
还有更多。

功能

这个新型号系列具有多项旨在提高相关性和降低成本的功能。

任务优化

我们针对四种广泛的任务类型优化了 jina-embeddings-v5-text 模型：

任务	示例用例
检索	使用自然语言查询进行搜索，并从文档集合中检索出最相关的匹配项。
文本匹配	语义相似性、去重、释义与翻译对齐等。
聚类	发现主题，自动组织文件集合。
分类	文档分类、情感和意图检测、类似任务。

针对一项任务进行优化通常意味着必须在另一项任务上做出妥协，因此大多数嵌入模型仅在某一种任务上具有竞争力。但 jina-embeddings-v5-text 模型能够通过训练特定任务的低秩适配 (LoRA) 适配器在所有四个领域实现专业化，而不会相互影响。

LoRA 适配器是一种用于 AI 模型的插件，它可以显著改变模型的行为，同时仅略微增加模型的总体大小。与为每个任务都配备一个拥有数亿参数的完整模型不同，jina-embeddings-v5-text 模型系列允许您仅使用一个带有紧凑型 LoRa 适配器的模型来完成每项任务。这节省了内存、存储空间和推理成本。

截断嵌入

我们使用套娃式表征学习对 jina-embeddings-v5-text 模型进行了训练，这种方法能让您在几乎不影响嵌入质量的情况下将其压缩到更小的尺寸。

默认情况下，jina-embeddings-v5-text-small 会生成 1024 维嵌入向量，每个向量由 16 位数字表示，使每个嵌入大小为 2KB。对于大量文档集合而言，这可能需要存储大量数据，而在充满嵌入向量的向量数据库中进行搜索，其复杂度与数据库的大小以及每个存储向量的维度数都成正比。

但您可以将嵌入的大小减半（丢弃 1,024 维度中的 512 维），这样占用的空间减半，而搜索速度将翻倍。这会对性能产生影响。丢弃信息会降低精确度。但如下图所示，即使去掉一半的嵌入，性能也只是略有下降：

只要您的嵌入至少有 256 维，精确度损失就会相当小。然而，如果低于这一水平，相关性和准确性就会迅速下降。

通过这种截断嵌入方法，用户可以在准确性和计算成本之间自行权衡。它为您提供了从搜索 AI 中大幅提高效率和节约成本的工具。

稳健量化

量化是另一种缩小嵌入尺寸的方法。量化不是丢弃嵌入中的部分数据，而是降低嵌入中数字的精度。jina-embeddings-v5-text 模型以 16 位数字生成嵌入，但我们可以对这些数字进行四舍五入，从而降低其精度和存储所需的位数。在最极端的情况下，我们可以将每个数字缩减为一位（0 或 1），将 jina-embeddings-v5-text 的默认 1024 维嵌入从 2 千字节压缩到 128 字节，仅通过二进制量化就实现了 94% 的压缩率。这与截断一样，能大幅节省内存和计算成本。然而，和截断一样，量化也会使嵌入的准确性降低。

我们已训练了 jina-embeddings-v5-text 模型，通过将精度损失降至最低，使这些模型与 Elasticsearch 的更优的二进制量化一起工作。对这些模型的二值化嵌入进行的基准测试表明，其性能几乎与未二值化的等效模型相当。请参阅技术报告，以获取有关二值化性能的详细消融研究。

多语言性能

许多嵌入模型是多语言的，因为它们已在包含大量语言的材料上进行了训练。但这并不意味着它们在所有支持的语言中都有同样出色的表现。

我们在 MMTEB 多语言基准测试中确定了 211 种语言，并将它们区分开来，以便能够逐个语言地将我们的模型与类似模型进行比较。下图以热力图的形式总结了我们的结果。每个补丁都是一种语言（通过 ISO-639 编码识别），颜色越绿，表明该模型的表现与同类模型的平均表现相比越好：

虽然不同语言的准确性各不相同，但 jina-embeddings-v5-text 模型在世界大多数语言中都处于领先或接近领先地位。

有关多语言性能的详细信息，请参阅 jina-embeddings-v5-text 技术报告。

Elastic 中的 Jina：用于搜索的最先进的原生 AI

借助 EIS 上的 jina-embeddings-v5-text 模型，您可以在 Elasticsearch 中原生运行高性能多语言嵌入模型，并享受完全托管、GPU 加速的推理服务，而无需配置或扩展基础设施。jina-embeddings-v5-text 模型通过采用最新的 AI 技术，以紧凑的多语言模型扩展了不断增长的 EIS 模型目录。这些模型在信息检索和标准数据分析基准方面拥有最先进的性能，并提供了无与伦比的全球多语言支持。

两种模型的大小相差很大，用户可以根据自己的应用需求和预算来选择最合适的模型。此外，jina-embeddings-v5-text 模型拥有强大的嵌入功能，即使截断为较小尺寸或量化为较低精度时仍能保持性能，从而为进一步节省存储和计算成本以及处理延迟提供了机会。

借助 jina-embeddings-v5-text 系列、Jina Reranker 以及 Elastic 的快速向量和 BM25 搜索，用户现在可以使用 Elastic 提供的端到端、最先进的混合搜索功能。当您需要最相关的结果时，无论是用于检索增强生成 (RAG) 管道、搜索应用程序还是数据分析，Elastic 与 Jina 搜索 AI 模型都能提供可靠且经济高效的优质服务。

开始使用

jina-embeddings-v5-text 模型已完全集成到 EIS 中，您可以在创建索引时将 type 字段设置为 semantic_text，并在 inference_id 字段中指定模型（jina-embeddings-v5-text-small 或jina-embeddings-v5-text-nano），如本示例所示：

PUT multilingual-semantic-index
{
  "mappings": {
    "properties": {
      "content": {
        "type": "semantic_text",
        "inference_id": ".jina-embeddings-v5-text-small"
      }
    }
  }
}

# Ingest data about France
POST multilingual-semantic-index/_doc
{
  "content": "The capital of France is Paris"}

GET multilingual-semantic-index/_search
{
  "query": {
    "semantic": {
      "field": "content",
      "query": "What is the French capital?"
    }
  }
}

Elasticsearch 在索引和检索过程中会自动选择合适的 LoRA 适配器。嵌入维度（请参阅上文“截断嵌入”部分）可以在创建自定义推理端点时设置。

有关使用 jina-embeddings-v5-text 模型的更多信息，请参阅 Elasticsearch 文档。

以最低得分阈值确保语义精确性

Mattias Brunnert — Fri, 20 Feb 2026 00:00:00 GMT

语义搜索为检索相关性开辟了全新可能。以 ELSER、E5、Jina Embedding v4 为代表的高质量稀疏-稠密混合模型，通过解析词义而非简单关键词匹配返回相关结果。然而，这类模型在处理长尾查询或索引缺乏相关内容时，可能返回无关结果，这种特性既可能导致用户困惑，也会造成大型语言模型 (LLM) 的算力资源浪费。

本文将介绍如何使用最低得分参数来提高语义搜索结果的精确度。如想测试本博客文章中提供的示例，请访问相关 Jupyter 笔记本。

背景：精确率和召回率

在搜索相关性中，精确率和召回率是关键概念。强烈建议尚不熟悉这些内容的读者查阅相关资料。以下是摘要。

精确率：返回的搜索结果中与用户相关的比例。
召回率：搜索结果集中包含的语料库中所有相关文档的百分比。

或者换句话说，精确率只返回相关结果，而召回率则返回所有相关结果。可以想象，这些需求经常相互冲突。语义搜索往往具有很高的召回率，但在精确率方面可能会不理想。继续阅读，了解如何避免这种情况。

推出最低得分参数

min_score参数通过设定最低得分阈值提升检索精度，系统将自动过滤得分低于该阈值的匹配结果，从而精简结果集。以下是一个简单的示例：

GET search-movies/_search
{
  "retriever": {
    "linear": {
      "min_score": 4,
      "retrievers": [
        ...
      ]
    }
  }
}

得分归一化

设置最低得分阈值固然可行，但并非所有语义模型都能返回适用于静态阈值的分值。以 ELSER 为例，它所返回的分值是无界得分。有些密集模型得分是密集聚类的，只有在特定查询的背景下才有意义。

对于大多数语义搜索情况，我们建议在应用“min_score”之前使用归一化方法。归一化确保文档得分在规定区间内。Elasticsearch 检索器提供了两种此类归一化器，即“l2_norm”和“minmax”。最常用的是“minmax”，因为它简单易懂，在很多情况下都很有效。“minmax”的主要属性包括：

文档分数分布在 0 到 1 之间。
得分最高的文件总是记为 1 分。
得分最低的文件总是记为 0 分。
- 这可能会使其不太适合关键字搜索。更多讨论请参见“混合搜索”部分。

以下是一个包含min_score规范化语义查询的示例。排名窗口参数已增加到 500，使系统能够返回从第 100 条开始的更长结果列表。

GET search-movies/_search
{
  "size": 100,
  "_source": [
    "title", "overview"
  ],
  "retriever": {
    "linear": {
      "rank_window_size": 500,
      "min_score": 0.25,
      "retrievers": [
        {
          "normalizer": "minmax",
          "retriever": {
            "standard": {
              "query": {
                "semantic": {
                  "field": "overview_vector",
                  "query": "superhero movie"
                }
              }
            }
          }
        }
      ]
    }
  }
}

当前参数已设置为高于生产环境的常规值，以便我们全面检验搜索结果质量并针对性优化输出。

使用线性检索器的混合搜索

对于混合搜索，最简单的方法是归一化所有分数，分配权重，并应用最低得分。请注意，通过选择总和为 1 的权重，可以将总分控制在 0-1 的范围内。这样使得最终得分易于解读，且便于调整 min_score。以下是一个示例：

GET search-movies/_search
{
  "size": 100,
  "_source": ["title", "overview","keywords"],
  "retriever": {
    "linear": {
      "rank_window_size": 500,
      "min_score": 0.25,
      "retrievers": [
        {
          "weight": 0.6,
          "normalizer": "minmax",
          "retriever": {
            "standard": {
              "query": {
                "semantic": {
                  "field": "overview_vector",
                  "query": "superhero movie"
                }
              }
            }
          }
        },
        {
          "weight": 0.4,
          "normalizer": "minmax",
          "retriever": {
            "standard": {
              "query": {
                "multi_match": {
                  "query": "superhero movie",
                  "fields": ["overview","keywords", "title"],
                  "type": "cross_fields",
                  "minimum_should_match": "2"
                }
              }
            }
          }
        }
      ]
    }
  }
}

使用 RRF 的混合搜索

使用 BM25 时，我们通常通过其他方式控制精度，例如使用AND 操作符或minimum_should_match 。此外，由单个、精确和罕见术语组成的查询自然会导致搜索结果较少，而且往往都是高度相关的结果。这就可能导致：

在 BM25 检索器中，排名靠后的结果即使绝对 BM25 分值接近头部结果，仍会被赋予较低的归一化分数。
将极低的 BM25 分值与语义分值相加，总分即可近似为语义分值。
缺少 BM25 分值参考可能导致 min_score threshold 丢弃该文档。

作为解决方案，我们可以改用倒数排序融合 (RRF) 来结合 BM25 和语义结果。该方法通过关注各结果集中的文档位置而非原始分值，巧妙规避了不同检索算法评分体系难以直接比较的技术难题。在这种情况下，min_score 仅应用于语义检索器。

GET search-movies/_search
{
  "_source": ["title", "overview","keywords"],
  "retriever": {
    "rrf": {
      "rank_window_size": 500,
      "retrievers": [
        {
          "linear": {
            "rank_window_size": 500,
            "min_score": 0.25,
            "retrievers": [
              {
                "normalizer": "minmax",
                "retriever": {
                  "standard": {
                    "query": {
                      "semantic": {
                        "field": "overview_vector",
                        "query": "superhero movie"
                      }
                    }
                  }
                }
              }
            ]
          }
        },
        {
          "standard": {
            "query": {
              "multi_match": {
                "query": "superhero movie",
                "fields": ["overview", "keywords","title"],
                "type": "cross_fields",
                "minimum_should_match": "2"
              }
            }
          }
        }
      ]
    }
  }
}

结论

通过采用 min_score，我们已验证可有效降低语义检索算法因高召回率导致的结果集中误报数量。要了解有关检索器的更多信息，请参阅本博文和Elasticsearch 文档。

Kubernetes 上的依赖管理

Nikos Fotiou — Thu, 19 Feb 2026 00:00:00 GMT

这就是我们如何使用 Kubernetes、Argo 工作流、Argo Events 和 Renovate CLI 构建自托管依赖管理平台，以实现自动化更新、快速解决常见漏洞和暴露 (CVE)，并高效地在数千个存储库中传播新包版本的方法。

Elastic 的依赖管理

在 Elastic，我们必须管理数百甚至数千个存储库，包括私有和公共存储库。当发现关键 CVE 时，我们需要立即找到答案并采取行动：哪些存储库存在漏洞？我们能多快把它们修补好？除了安全性，生产力问题也随之而来：我们如何才能在不花费太多时间进行手动操作的情况下，迅速将新软件包版本的发布信息传播到所有依赖它的存储库？

寻找依赖管理方法的最初原因是需要建立一个具有自动更新功能的安全基础，以减少 CVE。仔细考虑有关依赖管理的解决方案后，我们首先着手构建一个自托管的基础设施。我们使用自己的 Kubernetes 集群来运行 Mend Renovate 社区自托管服务。我们的想法是能够提供一个依赖管理平台，让我们的用户能够以自助服务的方式访问该平台。

最初的实验取得了成功，因此越来越多的团队开始使用我们的平台，并将其应用于日常存储库的生命周期管理中，用于更新和 CVE 补丁修复。这种情况发生得太快，以至于我们很快就达到了自托管安装的上限。

挑战：我们如何在拥有大量存储库的大型组织中扩展依赖管理平台？

我们的依赖管理平台一次只能处理一个存储库，由于我们拥有大量存储库，这种顺序处理模型已无法跟上需求。我们已经确定，问题在于我们的依赖管理工具的单个实例无法处理我们庞大且不断增长的存储库列表这一概念。存储库在队列中等待，有时长达数小时。我们超过 50% 的存储库甚至没有每天进行处理。这意味着超过 50% 的存储库扫描间隔时间超过 24 小时。

大型存储库由于代码库规模庞大且有多个开放 PR，因此会造成更大的瓶颈。GitHub webhook 事件打乱了顺序。由于扫描时间无法预测，自动合并变得不可靠。我们曾向用户承诺扫描频率，但未能兑现。

决定内部构建：满足 Elastic 独特的扩展和安全需求

虽然我们考虑了商业选项，包括 Mend 的 Renovate 自托管企业版，但在 Elastic 内部，我们有几个关键计划正在加速推进。

我们决定构建一个内部平台，这一决定源于我们认识到，只有深度定制的解决方案才能满足 Elastic 不可妥协的特殊要求：

投资我们的内部开发者平台：当时，我们已经开始大力投资内部开发者平台。我们正在讨论和设计每项服务都能融入其中的方法。这意味着我们希望为我们的依赖管理平台测试我们自己的规则和做法。除此之外，新的指南即将出台，我们希望在此之前设计好平台。
本地集成和工作流程定制：我们需要与内部工具和内部流程直接集成。例如，我们希望通过服务目录（后台）将配置集中为代码。我们对后台的使用有特殊需求，希望我们的平台能与之兼容。因此，尽管可以将 Renovate 自托管 API 与我们的后台自动化结合使用，但这并不能完全覆盖我们的内部流程。
针对 Elastic 的深度防御安全：我们严格的安全合规要求为我们的生态系统量身定制安全机制。我们正在努力强化对“非人类身份”的使用。这种访问权限的强化方式意味着，如果工具不支持 GitHub 内部的这种实现方式，那么非标准的身份验证方法将无法使用现成的工具。我们的工作流包括实施父子工作流密钥加密模式，并使用临时的一次性 GitHub 令牌。在我们复杂的多云环境中，内部构建是嵌入这些独特的安全层并最大限度减少攻击面的唯一实用方法。

解决方案：用于依赖管理的工作流编排

我们的解决方案源于这样一个事实，即我们希望在已使用的依赖管理工具的基础上进行构建，而不是将其替换掉并寻找其他方案。它已显示出其潜力，其灵活性对于满足我们整个组织的不同需求非常重要。我们考虑了不同的解决方案，而帮助我们做出决定的是我们必须承担的重大且有时特殊的需求。我们决定构建一个可靠且具有可扩展性的依赖管理平台，在这个Platform上，每个存储库都将单独处理，消除瓶颈，为未来发展奠定基础。

我们在设计该平台时遵循了三个核心原则：

1. 并行处理

每个存储库都有其专属的依赖管理处理环境。不再有排队的情况。我们的并发性仅受我们消耗的资源数量限制。我们还应用了智能分布式调度，以避免受到 GitHub 的速率限制。

2. 可自助服务

我们使用服务目录（后台）自动载入和管理任何新的存储库。我们使用自己的资源定义，让最终用户可以选择存储库的处理频率、计划分配多少资源，以及出于任何原因选择关闭或重新开启处理。随着用户需求的变化以及他们对新安装方式日益熟练，我们计划通过这种方式增加更多选项。

3. 缩小了机密范围和命名空间隔离

为了提高安全性，我们在每次工作流开始时为依赖管理 Pod 提供临时生成的 GitHub 令牌。此外，我们还将工作负载隔离在特定的命名空间中，以便仅向它们提供必要的机密。我们使用 Kubernetes RBAC 控制每个依赖管理工作流可以访问哪些机密。我们还使用加密技术将 GitHub 令牌从父工作流传播到子工作流。

我们使用 Kubernetes 重建了平台，并借助 Kubernetes 的强大功能，Argo 工作流为我们的流程逻辑提供支持，同时 Renovate CLI 已设置好，用于一次扫描和处理一个存储库。

亮点：我们正以一种创新的方式使用经过实战验证的开源项目，为所有这些项目提供新的工作示例，同时为我们的团队提高开发速度并减少 CVE。

依赖管理架构：四个微服务

该平台由四个定制组件构成：

工作流 Operator (Go/Kubebuilder)

Kubernetes Operator 通过三个自定义资源定义 (CRD) 管理工作流生命周期：

RepoConfig CRD：存储库配置的单一事实来源。

这就是在 Operator 中定义 RepoConfig 的方式：

// RepoConfig is the Schema for the repoconfigs API
type RepoConfig struct {
	metav1.TypeMeta `json:",inline"`

	// metadata is a standard object metadata
	// +optional
	metav1.ObjectMeta `json:"metadata,omitempty,omitzero"`

	// spec defines the desired state of RepoConfig
	// +required
	Spec RepoConfigSpec `json:"spec"`

	// status defines the observed state of RepoConfig
	// +optional
	Status RepoConfigStatus `json:"status,omitempty,omitzero"`
}

这就是 RepoConfig 实例的样子：

apiVersion: workflows.elastic.co/v1
kind: RepoConfig
metadata:
  generation: 3
  name: elastic-test-repo
  namespace: dependency-management-operator
spec:
  owner: group:my-team
  renovate:
    config:
      resourceGroup: SMALL
      runFrequency: 4h
    enabled: true
  repository: elastic/test-repo

父级 CRD：管理用于计划扫描的 CronWorkflow。

在父控制器的协调循环内部，我们确保创建并保持工作流设置的最新状态，甚至在必要时将其删除。

首先，它会获取一些全局配置的工作流设置：

func (r *ParentReconciler) reconcileSubResources(ctx context.Context, req ctrl.Request, parent *workflowsv1.Parent) error {
	logger := logf.FromContext(ctx)
	logger.Info("Reconcile SubResources for Parent", "name", req.NamespacedName)
	wfSet := workflowsettings.WorkflowSettings{
		RunFrequency:   parent.Spec.RunFrequency,
		ResourceGroups: "parent",
	}

它确保互斥 configmap 是最新的，以防止类似的工作流同时运行：

	cfMngr := resources.NewConfigMapManager(r.Client, r.Scheme, r.OperatorConfig.ParentNamespace)
	err := cfMngr.CreateOrUpdateSyncMutexConfigmap(ctx, fmt.Sprintf("%s%s", r.OperatorConfig.ResourcesPrefix, r.OperatorConfig.SyncMutexCfgMapName), strings.TrimPrefix(parent.Spec.Repository, "elastic/"), r.OperatorConfig.SemaphoreConcurrencyLimit)

然后创建工作流管理器，该结构将创建或更新 CronWorkflows 和工作流模板：

	wfMngr := resources.NewArgoWorkflowManager(r.Client,
		r.Scheme,
		curateResourceName(
			strings.ReplaceAll(parent.Spec.Repository, "/", "-"),
		),
		parent.Namespace,
		"parent-workflow",
		false).
		WithOrganization(r.OperatorConfig.GitHubOrg).
		WithRepoName(parent.Spec.Repository).
		Init(true, true).
		WithPrefix(r.OperatorConfig.ResourcesPrefix).
		WithWfTemplateName(r.OperatorConfig.ParentWorkflowTemplate).
		WithResources(wfSet.GetResourceCategory()).
		WithSchedule(wfSet.GetCronSchedule()).
		WithImagePullSecrets([]corev1.LocalObjectReference{{
			Name: r.OperatorConfig.WorkflowImagePullSecrets,
		}}).
		AddArgument(true, true, "extra_cli_args").
		SetArgument(true, false, "extra_cli_args", "none").
		AddTemplate(resources.NewParentDAGTemplateInstance()).
		AddTemplate(resources.NewWorkflowsTemplateInstance("check-child-workflows", r.OperatorConfig.WorkflowImagePullPolicy, r.OperatorConfig.WorkflowNodeSelector)).
		AddTemplate(resources.NewWorkflowsTemplateInstance("security", r.OperatorConfig.WorkflowImagePullPolicy, r.OperatorConfig.WorkflowNodeSelector)).
		AddTemplate(resources.NewWorkflowsTemplateInstance("submit-child-workflow", r.OperatorConfig.WorkflowImagePullPolicy, r.OperatorConfig.WorkflowNodeSelector))
	wfMngr.OverWriteCommand("submit-child-workflow", r.OperatorConfig.ChildNamespace)
	wfMngr.OverwriteWfTemplateName("parent-wftmpl")
	wfMngr.AddSynchronization(fmt.Sprintf("%s%s", r.OperatorConfig.ResourcesPrefix, r.OperatorConfig.SyncMutexCfgMapName), "{{workflow.parameters.repo_name}}")
	err = wfMngr.CreateOrUpdateCronWorkflow(ctx)
	if err != nil {
		return fmt.Errorf("failed to create or update cron workflow: %w", err)
	}
	err = wfMngr.CreateOrUpdateWorkflowTemplate(ctx)
	if err != nil {
		return fmt.Errorf("failed to create or update workflow template: %w", err)
	}
	return nil

子 CRD：使用每个存储库的资源管理 WorkflowTemplate。

子控制器与父控制器有类似的协调职责，但这次它负责子命名空间中将由父工作流触发的工作流模板。

func (r *ChildReconciler) reconcileSubResources(ctx context.Context, req ctrl.Request, child *workflowsv1.Child) error {
	logger := logf.FromContext(ctx)
	logger.Info("Reconcile SubResources for Child", "name", req.NamespacedName)
	wfSet := workflowsettings.WorkflowSettings{
		ResourceGroups: child.Spec.ResourceCategory,
	}
	wfMngr := resources.NewArgoWorkflowManager(r.Client,
		r.Scheme,
		curateResourceName(
			strings.ReplaceAll(child.Spec.Repository, "/", "-"),
		),
		child.Namespace,
		"runner",
		true).
		Init(false, true). // only manage workflow template
		WithPrefix(r.OperatorConfig.ResourcesPrefix).
		WithSuffix("-child-wftmpl").
		WithRepoName(child.Spec.Repository).
		WithOrganization(r.OperatorConfig.GitHubOrg).
		WithResources(wfSet.GetResourceCategory()). // will override resources of presets if set
		WithImagePullSecrets([]corev1.LocalObjectReference{{
			Name: r.OperatorConfig.WorkflowImagePullSecrets,
		}}).
		AddTemplate(resources.NewWorkflowsTemplateInstance("runner", r.OperatorConfig.WorkflowImagePullPolicy, r.OperatorConfig.WorkflowNodeSelector)).
		AddArgument(false, true, "repo_full_name").
		AddArgument(false, true, "repo_name").
		AddArgument(false, true, "encrypted_token").
		AddArgument(false, true, "extra_cli_args")
	wfMngr.OverWriteCommand("runner", r.OperatorConfig.ChildNamespace)
	err := wfMngr.CreateOrUpdateWorkflowTemplate(ctx)
	if err != nil {
		return fmt.Errorf("failed to create or update workflow template: %w", err)
	}
	return nil
}

多控制器模式提供了明确的分隔：RepoConfig 控制器处理加入/退出，父控制器管理调度，子控制器处理执行模板。

GitHub 事件网关 (Go)

一个安全的 Webhook 代理，用于接收 GitHub 的 Webhook，验证签名，按组织/存储库进行筛选，并将其路由到 Argo Events。我们构建了 10 个不同的传感器，分别对依赖仪表板交互、PR 事件和软件包更新做出响应。

此网关可通过以下方式与 GitHub 应用集成：

验证传入的 GitHub Webhook 签名以确保安全。
将有效事件转发给 Argo Events EventSource，并附上所有相关标头和身份验证。
我们还在 EventSource 上配置了一个 authSecret，并在转发的请求中将其作为 Bearer 标头提供。
提供日志记录、指标和重试逻辑。

它对每个 GitHub 事件请求执行各种验证。

它确保某些 HTTP 属性存在：

// ValidateRequestMethod checks if the request method is POST.
func ValidateRequestMethod(r *http.Request) error {
	if r.Method != http.MethodPost {
		return fmt.Errorf("method not allowed, only POST is accepted")
	}
	return nil
}

// ValidateRequiredHeaders checks for required GitHub headers.
func ValidateRequiredHeaders(r *http.Request) error {
	eventType := r.Header.Get("X-GitHub-Event")
	deliveryID := r.Header.Get("X-GitHub-Delivery")
	signature := r.Header.Get("X-Hub-Signature-256")
	if eventType == "" || deliveryID == "" || signature == "" {
		return fmt.Errorf("missing required GitHub headers")
	}
	return nil
}

// ValidateUserAgent checks that the User-Agent header starts with GitHub-Hookshot/
func ValidateUserAgent(r *http.Request) error {
	userAgent := r.Header.Get("User-Agent")
	if !strings.HasPrefix(userAgent, "GitHub-Hookshot/") {
		return fmt.Errorf("invalid User-Agent")
	}
	return nil
}

同时，它还会验证每个请求的签名及其组织。

// ValidateSignature verifies the GitHub webhook signature.
func ValidateSignature(r *http.Request, secret string) ([]byte, error) {
	payload, err := GitHub.ValidatePayload(r, []byte(secret))
	if err != nil {
		return nil, fmt.Errorf("invalid GitHub signature: %w", err)
	}
	return payload, nil
}

// ValidateAllowedOwner checks if the organization login is in the allowed organizations list.
func ValidateAllowedOwner(payload []byte, allowedGitHubOrganizations []string) (string, error) {
	var orgLogin string
	var payloadMap map[string]any
	if err := json.Unmarshal(payload, &payloadMap); err == nil {
		if orgObj, ok := payloadMap["organization"].(map[string]any); ok {
			if login, ok := orgObj["login"].(string); ok {
				orgLogin = login
			} else if name, ok := orgObj["name"].(string); ok {
				orgLogin = name
			}
		}
	}
	if !slices.Contains(allowedGitHubOrganizations, orgLogin) {
		return orgLogin, fmt.Errorf("organization login not allowed")
	}
	return orgLogin, nil
}

最后，它会根据事件类型路由到 Argo Events：

	// Map eventType to Argo `EventSource` path
	var endpoint string
	switch eventType {
	case "push":
		endpoint = "/push"
	case "issues":
		endpoint = "/issues"
	case "pull_request":
		endpoint = "/pull-requests"
	default:
		slog.Info("Ignoring unhandled event type", "event_type", eventType, "delivery_id", deliveryID)
		w.WriteHeader(http.StatusOK)
		_, _ = w.Write([]byte("ok"))
		return
	}
	forwardURL := h.config.ArgoEventSourceForwardURL + endpoint

在 Argo Events 方面，有 10 个传感器在监视 Argo Events EventBus 上的新事件。

apiVersion: argoproj.io/v1alpha1
kind: Sensor
metadata:
  name: {{ .Values.sensors.packageUpdateOnDefaultBranch.name }}
  namespace: {{ .Release.Namespace }}
spec:
  eventBusName: {{ .Values.eventBus.name }}

然后，脚本会应用每个传感器的逻辑：

script: |
          local e = event
          if not e or not e.body or not e.body.repository then
            return false
          end

          -- e.g., "refs/heads/main"
          local ref = e.body.ref
          local default_branch = e.body.repository.default_branch
          if not ref or not default_branch then
            return false
          end

          local expected = "refs/heads/" .. default_branch
          if ref ~= expected then
            return false
          end

        {{- if .Values.sensors.packageUpdateOnDefaultBranch.packageFiles }}
          patterns = { {{- range $i, $f := .Values.sensors.packageUpdateOnDefaultBranch.packageFiles }}{{ if $i }}, {{ end }}"{{ $f }}"{{- end }} }
        {{- end }}

          local function anyMatch(path)
            if type(path) ~= "string" then return false end
            for _, pat in ipairs(patterns) do
              -- match filename at repo root, or anywhere under subdirs
              if path:match(pat) or path:match(".+/" .. pat) then
                return true
              end
            end
            return false
          end

          local function filesContainPackage(paths)
            if type(paths) ~= "table" then return false end
            for _, p in ipairs(paths) do
              if anyMatch(p) then return true end
            end
            return false
          end

          -- Inspect all commits (GitHub includes added/modified/removed lists)
          local commits = e.body.commits
          if type(commits) ~= "table" then
            -- Fallback: some payloads include only head_commit
            commits = {}
            if type(e.body.head_commit) == "table" then
              table.insert(commits, e.body.head_commit)
            end
          end

          for _, c in ipairs(commits) do
            if filesContainPackage(c.added) or filesContainPackage(c.modified) or filesContainPackage(c.removed) then
              return true
            end
          end

          return false

后台同步器 (Go)

此过程将轮询我们的服务目录（后台）以获取存储库真实资源实体，将其转换为 RepoConfig CRD，并使平台与配置更改保持同步。更改将在三分钟内生效。

repoMap := make(map[string]map[string]interface{})
			for i := range entities {
				entity := &entities[i]
				if entity.Spec.Type != "GitHub-repository" {
					continue
				}

				implRaw, err := json.Marshal(entity.Spec.Implementation)
				if err != nil {
					logger.Error("Failed to marshal implementation", "error", err)
					continue
				}

				var implMap map[string]interface{}
				err = json.Unmarshal(implRaw, &implMap)
				if err != nil {
					logger.Error("Failed to unmarshal implementation map", "error", err)
					continue
				}
				var repoName string
				if specMap, ok := implMap["spec"].(map[string]interface{}); ok {
					if repo, ok := specMap["repository"].(string); ok {
						repoName = repo
					}
				}
				if repoName == "" {
					continue
				}

				var workflowsRaw []byte
				if v, ok := implMap["spec"].(map[string]interface{}); ok {
					if r, ok := v["renovate"]; ok {
						workflowsRaw, _ = json.Marshal(r)
					} else {
						workflowsRaw = []byte(`{}`)
					}
				} else {
					workflowsRaw = []byte(`{}`)
				}

				var workflowsWithDefaults schema.WorkflowsMetadata
				err = json.Unmarshal(workflowsRaw, &rworkflowsWithDefaults)
				if err != nil {
					logger.Error("Failed to unmarshal workflows config", "error", err)
					continue
				}

				workflowsMap := map[string]interface{}{
					"enabled":        workflowsWithDefaults.Enabled,
					"require_pr":     workflowsWithDefaults.RequirePr,
					"resource_group": string(workflowsWithDefaults.ResourceGroup),
					"run_frequency":  string(workflowsWithDefaults.RunFrequency),
				}
				repoMap[repoName] = map[string]interface{}{
					"renovate": workflowsMap,
					"owner":    entity.Spec.Owner,
				}
			}
			logger.Info("Fetched GitHub Repository data from Backstage", "repository_count", len(repoMap), "status_code", resp.StatusCode)

最后，它将数据写入 RepoConfig 实例。

工作流基础（混合：JavaScript、Go、Helm）

基础层包含 Helm 图表、JavaScript 配置、带有加密支持的适用于 Renovate CLI 的 Go 封装器，以及适用于 Alpine 软件包的自定义 APK 索引器。

自助服务配置

团队通过后台声明式配置其存储库：

spec:
  renovate:
    enabled: true
    config:
      resourceGroup: LARGE      # SMALL | MEDIUM | LARGE  
      runFrequency: "0 */4 * * *"  # Every 4 hours

资源组根据存储库大小分配 CPU 和内存：

小型：500m CPU，1Gi 内存。
中型：1000m CPU，2Gi 内存。
大型：2000m CPU，4Gi 内存。

配置受版本控制、可审计并自动应用。

父子模式

执行模型采用父子工作流模式：

父工作流：按计划运行的轻量级 CronWorkflow。加密机密，确定是否应运行扫描，将配置传递给子项。
子工作流：运行 Renovate CLI 的临时 Pod。动态分配资源，在隔离环境中解密机密，完成后终止。

这种分离提供了安全性（在父级加密机密）、资源优化（父级使用最少资源）以及可扩展性（子级并行运行）。

结果

性能转换

之前：每次处理一个存储库，有些存储库可能一天甚至更长时间都无法得到处理，每天扫描量不足 1000 次。
之后：超过 100 次并发扫描，通常每天 8,000 次扫描，最多可达 10000 次记录的扫描，仅受我们愿意投入的资源数量以及处理 GitHub 速率限制的方式的限制。

成本效率

尽管听起来有点奇怪，但每天运行 8000 个 Pod 可以比让一个长期运行的 Pod 试图达到同样的结果花费少得多，而且效果相同。

在之前的设置中，我们运行的是单个实例，在状态良好的情况下，每天能执行 500 到 600 次扫描。同时，由于不同类型的存储库将在同一个 Pod 上执行，我们需要根据最大的存储库来调整 Pod 的大小。这种尺寸比我们目前提供的超大型产品要大得多，我们的 Pod 使用 8 个 CPU 和 16G 内存。

为满足当前的每日输出，单个 Pod 需要运行 12 天。因此，将单个 Pod 运行 12 天的成本与每天运行 8,000 个“中等”大小 Pod 的成本进行比较，我们的新设计在相同的扫描输出下要高效得多：

指标	场景 A（工作流）	场景 B（长时间运行的单个 pod）
设置	8,000 个 pod（1 个 vCPU / 2GB）	1 个 pod（8 个 vCPU / 16 GB）*
持续时间	每次 10 分钟	连续 12 天
总工作时间	1,333 计算小时	288 个计算小时
总成本	$65.83	$113.75

不过，我们应考虑到，我们的工作负载默认设置为“小型”，绝大多数工作负载在 0.5 CPU 和 1G RAM 的情况下成功运行，只有少数需要更改为中型或大型。让我们看看，如果 60% 的工作负载运行在“小型”级别，30% 运行在“中型”级别，10% 运行在“大型”级别会发生什么情况，这更接近实际情况。

指标	场景 A（混合群）	场景 B（长时间运行）
战略	8,000 个 Pod（混合尺寸）	1 个 pod（8 个 vCPU / 16 GB）*
持续时间	每次 10 分钟	连续 12 天
总成本	$52.66	$113.75
保存	61.09 美元（便宜 54%）	—

我们可以看到，在相同的输出下，我们目前的配置成本效益要高得多。

增强安全

临时 GitHub 令牌（暴露时间为几分钟而不是几天）。
通过基于角色的访问控制 (RBAC) 边界实现命名空间隔离。
父工作流中的机密数据静态加密。
移除了直接访问金库的权限。

可预测的性能

有了有保障的扫描频率，我们终于可以设定服务水平目标 (SLO)。自动合并功能运行可靠。团队信任平台能够兑现承诺。

关键架构决策

以下是一些塑造平台外观的里程碑式设计决策。

为何采用父子工作流？

我们采用这种模式来实施深度防御策略。通过将高价值证书（例如 GitHub 应用密钥）限制在专用且锁定的命名空间，我们使用基于角色的访问控制 (RBAC) 来确保临时执行 Pod 无法随意访问敏感数据。最近的供应链漏洞（例如“Shai Hulud”持续集成/持续交付 [CI/CD] 攻击）表明，将执行动态脚本的运行时环境与凭据存储空间隔离开至关重要。

同时，这种解耦还实现了细粒度的资源优化。“父”工作流充当轻量级编排器，占用资源极少，而“子”工作流则处理计算密集型依赖扫描。这种分离简化了生命周期管理，使我们能够对每一层应用不同的协调逻辑，让用户能够控制执行参数（子级），同时保留对调度和安全基础设施的管理控制（父级）。

为什么采用可自助服务？

消除团队在存储库配置方面的瓶颈是一项关键要求。我们的使命是构建一个可扩展的自助服务平台，能够支持各种用例。我们认识到，鉴于存储库的庞大数量，为每项配置更改充当“守门员”的做法是不可持续的。相反，我们采取了一种赋能的理念：提供“轨道”（基础设施和保障措施），同时赋予用户驾驶“列车”（执行和自定义）的权力。我们相信，这种向团队自主权的转变，能让用户根据自己的具体运营需求来定制系统，从而显著提高了生产率。

为什么使用 Kubernetes Operator 模式？

如上所述，一个基本的设计原则是确保平台可以完全自助服务。我们需要一种自动机制来捕捉用户意图（例如切换扫描、调整调度频率或调整运行时资源限制），并立即将这些更改传播到底层工作流中。考虑到未来的需求，该系统还需要易于扩展。

为了实现这一目标，我们开发了自定义依赖管理 Kubernetes Operator。通过使用 CRD 作为配置接口，我们建立了一个原生 Kubernetes 协调循环。此 Operator 会持续监控用户定义的期望状态，并自动编排对工作流基础设施进行必要的更新。这确保了事件驱动的无缝操作，平台逻辑可以在后台处理所有复杂性。

为什么要设计 GitHub 事件网关？

采用事件驱动型架构 (EDA) 对平台的响应速度至关重要。尽管 CronWorkflows 提供了可靠的基线计划，但我们还需要具备灵活性来处理临时执行，例如用户通过仪表板手动触发扫描。为了实现这一目标，我们需要一个专用的摄取网关来验证有效负载的完整性并智能地路由请求。

我们评估了现有解决方案，包括 Argo 的原生 GitHub EventSource，但发现在运营开销和严格的 GitHub API 配额（例如，每个存储库的 Webhook 限制）方面存在重大风险。因此，我们构建了一个自定义网关，使我们的基础设施不受这些限制的影响。

至关重要的是，此网关在我们的迁移过程中充当了战略流量控制点。它充当了一个开关，使我们能够从传统系统向新的基础设施执行渐进式、细粒度的部署（流量切换）。这确保了数千个存储库的导入过程是受控且无风险的，而非“大爆炸”式切换。

经验教训

我们学到的一些经验教训与 Elastic 源代码密切相关：

客户至上：平台为用户而构建。因此，将用户需求放在首位非常重要。这将平台塑造成高效设计的基础设施和应用程序，从而减少与用户的摩擦，简化平台的扩展，并使其易于采用。
空间与时间：有时，最顺畅的道路也会通向变幻莫测的沙漠。我们最初尝试优化现有的顺序处理模型，但这并未解决我们的问题；事实上，它只是引入了更多复杂性和未解决的问题。重新构建并行处理平台的大胆决定需要大量的前期工作。然而，它最终为可持续的平台增长铺平了道路，并几乎消除了繁琐的日常管理工作。
视情况而定：平台无法孤立运作；其成功取决于它与更广泛的生态系统的整合程度。在我们的案例中，与后台的集成至关重要，因为它是无缝服务导入的真实来源。同样，连接到 Artifactory 使我们能够高效地管理私有包更新，而且这些重要的集成远不止于此。
进步，简单即完美：在整个实施过程中，我们不断对最初的假设进行压力测试，并在新障碍出现时进行调整。我们没有被完美主义所束缚，而是采取迭代的方法，逐一解决挑战，并根据实际情况调整迁移策略。

未来发展

该平台的交付使我们能够开展更有意义的工作，这将有助于我们改善平台的用户体验和效率。一些示例包括：

增加并规范自动合并的采用

自动合并功能通过消除繁琐的手动任务，显著加快了团队的工作进度。然而，我们需要确保设立严格的防护措施，确保这种速度提升不以牺牲安全性为代价。

改善围绕最终用户体验的可观测性

我们路线图的一个重要优先事项是增强可观测性，不仅是在平台层面，而且特别是从最终用户的角度。虽然捕获基础设施指标很简单，但要理解实际的用户体验需要更深入的见解。我们正在努力定义以用户为中心的核心关键性能指标 (KPI)，以便我们的遥测技术能够在问题升级为用户投诉之前检测到摩擦点和性能问题。

消除障碍以促进更广泛的应用

展望未来，我们的首要任务是找出并消除任何阻碍平台采用的障碍。无论这需要开发新的集成还是部署特定的功能集，我们都致力于数据驱动的规划。我们已成功构建了一个专为扩展而设计的平台；现在我们的重点转向最大限度地发挥其潜力。

了解全貌

依赖管理工作流项目展示了一个更广泛的原则：当您需要将开源工具扩展到其默认部署模型之外时，原生的 Kubernetes 模式提供了前进的道路。

通过拥抱：

用于配置的 CRD。
适用于生命周期管理的 Operator。
用于响应的事件驱动架构
用于部署的 GitOps。

我们构建了可独立于所管理的存储库数量进行扩展的编排。无论管理的是 100 个还是 1,000 个存储库，扫描单个存储库的性能都相同。

公布关键的 CVE 时，我们现在能在几分钟内给出答案，而不是几小时。这就是瓶颈和竞争优势的区别。

致谢

该平台建立在优秀的开源工具之上：

Kubebuilder：用于启动 Kubernetes Operator 的开源框架，这些 Operator 可引导和编排工作流。[1][2]
后台：构建服务目录所基于的开源框架，也是我们获取事实依据的来源。[1][2]
Argo 工作流和 Argo 事件：用于编排复杂流程并基于事件添加动态处理的开源套件。[1][2][3][4]
Renovate CLI：处理存储库的开源依赖管理工具。[1][2]

*尽管我们的工作负载不一定在 AWS 上运行，而是在完整的 Kubernetes 集群上运行，但我们还是以 AWS Fargate 的定价模型作为单个 Pod 成本的参考。

通过 best_compression 提升搜索性能

Sherry Ger, Ryan Eno — Fri, 23 Jan 2026 00:00:00 GMT

在为高并发工作负载调优 Elasticsearch 时，标准方法是最大限度地增加 RAM，将工作文档集保存在内存中，以实现低搜索延迟。因此，best_compression 很少被考虑用于搜索工作负载，因为它主要被视为 Elastic Observability 和 Elastic Security 用例中优先考虑存储效率的节省存储措施。

在本博客中，我们证明当数据集大小显著超出操作系统页面缓存时，best_compression通过减少 I/O 瓶颈来提升搜索性能和资源效率。

设置

我们的用例是一个运行在 Elastic Cloud CPU 优化实例上的高并发搜索应用程序。

数据量：约 5 亿份文档
基础架构：6 个 Elastic Cloud（Elasticsearch 服务）实例（每个实例：1.76 TB 存储 | 60 GB 内存 | 31.9 个 vCPU）
内存与存储比率：约 5% 的总数据集可存储在 RAM 中

症状：高延迟

我们观察到，当当前请求数在 19:00 左右激增时，搜索延迟显著恶化。如图 1 和图 2 所示，尽管每个 Elasticsearch 实例的流量峰值约为每分钟 400 个请求，但平均查询服务时间仍恶化至超过 60 毫秒。

在完成初始连接处理后，CPU 使用率保持相对较低，表明计算并非瓶颈。

查询量与页面错误之间出现了强相关性。随着请求增加，我们观察到页面错误比例上升，峰值约为每分钟 40 万次。这表明活跃数据集无法完全放入页面缓存。

同时，JVM 堆使用率也显示正常且平稳。这排除了垃圾回收问题，并确认瓶颈在于 I/O。

诊断：I/O 瓶颈

系统存在 I/O 瓶颈。Elasticsearch 依赖操作系统页面缓存从内存提供索引数据。当索引过大而无法放入缓存时，查询会触发开销很大的磁盘读取。虽然典型的解决方案是水平扩展（添加节点/RAM），但我们希望先充分利用现有资源的效率改进。

解决方案

默认情况下，Elasticsearch 对其索引段使用 LZ4 压缩，在速度和大小之间取得平衡。我们假设，改用 best_compression （使用 zstd）会减少索引的大小。更小的占用空间使得更大比例的索引能够放入页面缓存，以微不足道的 CPU 增加（用于解压缩）换取磁盘 I/O 的减少。

为了启用 best_compression，我们使用索引设置 index.codec: best_compression 重新索引了数据。或者，也可以通过关闭索引、将索引编解码器重置为 best_compression，然后进行段合并，也可实现相同的结果。

POST my-index/_close
PUT my-index/_settings
{
    "codec": "best_compression"
}
  
POST my-index/_open  
POST my-index/_forcemerge?max_num_segments=1

结果

结果证实了我们的假设：存储效率的提高直接转化为搜索性能的大幅提升，而 CPU 利用率并未相应增加。

应用 best_compression 后，索引大小减少了约 25%。虽然低于在重复日志数据中观察到的减少幅度，但这 25% 的减少实际上将我们的页面缓存容量提升了相同的比例。

在下一次负载测试期间（从 17:00 开始），流量甚至更高，每个 Elasticsearch 节点的请求峰值达到每分钟 500 次。

尽管负载更高，但 CPU 利用率仍低于上一次运行。先前测试中较高的使用率可能是由于过多的页面错误处理和磁盘 I/O 管理开销所致。

至关重要的是，页面错误显著下降。即使在更高的吞吐量下，错误次数也稳定维持在每分钟低于 20 万次，而基准测试中的错误次数则超过 30 万次。

尽管页面错误结果仍然不太理想，但查询服务时间却减少了约 50%，即使在负载更重的情况下也保持在 30 毫秒以下。

结论：为搜索启用 best_compression

对于搜索用例中数据量超过可用物理内存的情况，best_compression 是一个强大的性能调优工具。

应对缓存未命中的常规解决方案是通过扩展来增加 RAM。然而，通过减少索引占用空间，我们实现了相同的目标：最大化页面缓存中的文档数量。我们的下一步是探索索引排序，以进一步优化存储并从现有资源中获得更多性能。

Agent Builder 现已正式发布：几分钟内即可部署上下文驱动型代理

Anish Mathur, Evan Castle — Thu, 22 Jan 2026 00:00:00 GMT

我们非常高兴地宣布，Agent Builder 在 Elastic Cloud Serverless 和即将发布的 9.3 版本中正式推出。Agent Builder 带来了 Elasticsearch 作为上下文工程平台的强大功能，能够快速开发以数据为中心的上下文 AI 代理。

代理正凭借其提升效率和改善客户体验方面的潜力而日益受到重视。但在实践中，为代理提供正确的上下文是困难的，尤其是在处理杂乱无章的非结构化企业数据时。开发人员必须管理工具、提示、状态、推理逻辑、模型，最重要的是从业务来源检索相关上下文，以提供准确的结果和操作。Elastic Agent Builder 提供这些核心组件，用于开发安全、可靠、上下文驱动的代理。

Agent Builder 核心功能

Agent Builder 利用 Elastic 在搜索相关性和检索增强生成方面的长期投入，并致力于将 Elasticsearch 打造成最佳的向量数据库，从而简化以数据为中心的上下文 AI 代理的开发。

Agent Builder 允许您：

立即开始使用内置的会话代理，它可以回答问题、执行分析并驱动对 Elasticsearch 中任何数据的调查。
快速从复杂的非结构化数据转变为具有基于配置的开发体验的自定义代理。
利用内置的 ES|QL 或自定义工具，利用最佳的混合搜索相关性来提高上下文质量和代理可靠性。
将复杂的工作流（预览）作为可重复使用的工具来执行，以丰富数据、更新记录、发送消息等，实现基于规则的自动化。
使用工作流和 MCP 连接 Elasticsearch 外部的数据源，以关联和整合代理的上下文。
使用通过 MCP 提供的内置和自定义工具与任何代理或应用程序框架集成，并能够连接到外部 MCP（预览版）、支持 A2A 和提供完整的 API 支持。
通过与第三方解决方案（如用于复杂文档处理的 LlamaIndex 或用于安全、结构化工具访问的 Arcade.dev）集成，扩展 Agent Builder 的功能。

为了进一步扩展 Agent Builder 的功能，我们推出了 Elastic Workflows，这是我们新的基于规则的自动化功能，目前处于技术预览阶段。对于组织任务，代理有时需要基于规则的操作的确定性和可靠性，这通常是实现特定业务逻辑所必需的。Elastic Workflows 为代理提供了一种简单、声明式的方式，用于编排内部和外部系统，以执行操作、收集和转换数据和上下文。工作流是完全可组合、事件驱动且灵活的，并且可以通过 MCP 作为工具提供给代理。

从数据到代理仅需几分钟

开发代理可能需要花费数周的前期工作来整合独立的数据存储、构建手动管道、调整查询和管理复杂的编排。Agent Builder 不需要单独的数据存储、向量数据库、RAG 管道、搜索层、查询转换器和工具编排器，从而减少了开发代理的时间，使您能够专注于代理逻辑和应用程序交付。

Agent Builder 原生集成了 Elasticsearch 平台的基元，从而加快了代理开发的速度。

首先，内置的对话代理可以立即与您的索引数据进行聊天和推理。
通过 Kibana、API 或 MCP 和 A2A 进行交互式访问，将代理集成到应用程序、仪表板或 CI/CD 系统中。
使用默认工具进行构建，以了解您的数据结构，选择适当的索引，生成优化的混合、语义和结构化查询，并根据自然语言提示使用 ES|QL 创建可配置的可视化。

要深入了解，请尝试完整的实践演练。

基于 Elasticsearch 构建，这是一个用于上下文工程的完整数据平台

对于 AI 代理，上下文质量对于提供有效的推理和降低幻觉的风险至关重要。对于许多企业 AI 代理而言，执行任务所需的业务数据是最关键的上下文信息。作为大规模可扩展数据存储、向量数据库和相关性领域的领导者，Elasticsearch 已经提供了许多强大的上下文工程原语。上下文工程超越了简单的检索增强生成，允许您定制和扩展数据获取、排序、筛选和呈现给代理的方式，有助于减少噪音和歧义。

Elasticsearch 提供的上下文引擎结合了词汇搜索、向量搜索和结构化筛选，通过确保模型在相关且精确的上下文中运行，显著提高了 LLM 性能。这种功能由代理检索提供支持，同时还具备内置工具和搜索逻辑，能够自动选择正确的索引，并将自然语言转化为针对上下文优化的查询。

利用 Agent Builder，您可以确保代理首先获得最有用的上下文，并设有相关性和排名控制，从而允许您微调评分、排名和筛选逻辑。Elasticsearch 可让您控制重要内容、重要原因以及优先级，而非依赖不透明的检索行为。这一切都由 Elasticsearch 作为可扩展性平台提供支持，可以在单个平台上存储和扩展来自文本、向量、元数据、日志等的所有数据，从而更轻松地管理代理的上下文。

将复杂的工作流作为可重复使用的工具来执行

虽然 AI 代理可以对复杂的任务进行推理，但许多自动化工作都依赖于可靠地执行基于规则的操作，以强制实施特定的业务逻辑。Elastic Workflows 提供了一种简单、声明式的方式来编排内部和外部系统，以执行操作、收集上下文或数据，并将其整合为代理的一部分。在 YAML 中定义的工作流是完全可组合的，这使得它们能够根据任务需求变得简单或复杂。这为代理提供了在 Elasticsearch 平台和解决方案以及第三方应用程序中执行操作的有效方式。

使用 Agent Builder 集成工作流可通过三个步骤完成（先决条件：启用工作流，详情请参阅此处）

1. 使用内置自动完成和测试功能的基于 YAML 的简单编辑器创建并保存新的工作流。

2. 在 Agent Builder 中创建一个类型为“工作流”的新工具，并提供说明，帮助代理确定何时使用工作流工具。

3. 将工作流工具添加到您的自定义代理。

4. 就是这样！现在，代理可以在对话中调用工作流。

您的代理，您的规则

Agent Builder 不会将您限制在单一的开发范式中。相反，它旨在为代理提供开放、灵活的开发方法，使代理能够完全掌控数据、相关性、模型、互操作性、安全性和代理设计。

自定义代理定义可让您准确选择代理可访问的工具、嵌入自定义系统提示、定制代理的指令并定义安全边界。代理仍然与模式无关，让您能够灵活配置首选的本地和跨更广泛生态系统的 LLM，而无需受限于单一提供商。

构建可扩展的工具，将特定领域的逻辑（例如特定的索引筛选器、ES|QL 连接、分析管道）封装起来，并对其加以约束，以确保其在生产环境中安全使用。完整的 API 支持实现了与其他代理框架的互操作性，并原生支持模型上下文协议 (MCP)。A2A 集成意味着您可以将 Elastic 代理提供给其他框架、服务和客户端应用，从而在各种集成中重复使用相同的数据和上下文工程逻辑。

Agent Builder 支持灵活、开放的开发，可与流行的代理框架和平台轻松集成。这些集成对于提供高效的代理至关重要。正如 Arcade.dev 的联合创始人 Sam Partee 所描述的那样，

"如今，代理系统之所以失败，是因为将 AI 与工具和数据连接起来非常复杂。Elastic Agent Builder 与 Arcade.dev 结合，为开发者提供了一种结构化且安全的方式来处理代理如何检索上下文、进行推理和采取行动，从而将代理从演示级别提升至生产级别。”

Agent Builder 还利用了 Elasticsearch 的可扩展性来处理复杂数据。正如 LlamaIndex 首席执行官 Jerry Liu 所描述的那样，

“从非结构化数据源中解锁企业上下文是建立有效代理的关键。Elastic Agent Builder 与 LlamaIndex 复杂文档处理相结合，强化了关键的上下文层，帮助团队检索、处理和准备数据，从而使代理能够更准确地推理并提供更好的结果。”

您可以构建什么？

Agent Builder 已用于各种用例。以下是一些示例和参考架构，可帮助您开始使用代理：

基础设施自动化：在支持场景中，代理已被用于读取、思考和聊天，但迄今为止，它们还无法触及可能需要管理的基础设施。Elastic 的工程团队在黑客马拉松中构建了一个用于自动化基础设施管理的代理。代理会主动调查应用程序基础设施的问题，并采取自动化操作。它使用工作流来优化配置、响应问题并扩展资源，所有这些都基于对基础设施日志的智能理解。
安全威胁分析：已使用 Elastic Agent Builder、MCP 和 Elasticsearch 开发了一个安全漏洞代理。它通过将内部安全数据与外部威胁情报关联起来，自动进行威胁分析。该代理对历史事件和配置进行语义搜索，使用实时互联网数据增加结果，并应用 LLM 推理来评估环境相关性、确定风险优先级并生成可操作的补救措施。请参阅参考架构。
技术客户支持：代理可以执行多项支持任务，包括案例汇总、问题重复检测和创建，以及深入的技术调查。Agent Builder 可通过多步骤混合搜索实现这一功能，仅查找最相关的相关问题、解决方案和程序，并制定根本原因假设和补救计划。Agent Builder 可以简化复杂支持系统的架构，并加快交付时间。
产品和内容发现：Agent Builder 简化了将复杂的产品目录用于对话式体验的过程，同时允许组织保持灵活性，以纳入其自身的业务逻辑和要求。
构建您自己的系统：参加 Agent Builder 黑客松活动，该活动将于 2026 年 1 月 22 日至 2 月 27 日举行。与社区合作，构建基于上下文的多步骤 AI 代理，将搜索、工作流、工具和推理相结合，以自动执行现实世界中的任务*

现在开始构建自定义代理

开始 Elastic Cloud 试用，并在此处查看文档。对于现有客户，Agent Builder 可在 Cloud Serverless 中使用，也可在 Elastic Cloud Hosted 和自主管理的企业层中使用。

*点击此处查看黑客松的完整条款、条件和资格要求

使用 Elastic Agent Builder 构建语音代理

Kenneth Kreindler — Thu, 22 Jan 2026 00:00:00 GMT

一直以来，AI 仿佛被关在玻璃盒子里：您输入命令，它用文字回应，交互就此结束。虽然能解决问题，但总显得疏离，好比隔着屏幕看别人行动。到 2026 年，企业会打破这层“玻璃”，将 AI 代理真正嵌入业务产品之中，让它们真正创造价值。

打破这层“玻璃”的一种方式，是引入语音代理 — 这种 AI 代理能够识别人类语音，并合成计算机生成的音频。随着低延迟转写、快速大型语言模型（LLM）以及听起来与人声相近的文本转语音模型的兴起，这一切已经成为可能。

语音代理还需要能够访问业务数据，才能真正发挥价值。在这篇博客中，我们将先介绍语音代理的工作原理，再通过 LiveKit 和 Elastic Agent Builder 为虚构的户外运动装备商店 ElasticSport 构建一个语音代理。我们的语音代理能够感知上下文，并与我们的数据协同工作。

运作方式

语音代理领域主要有两种范式：第一种使用语音到语音模型，第二种使用由语音转文本、LLM 和文本转语音组成的语音处理流水线。语音到语音模型有其自身优势，但语音处理流水线在所用技术、上下文管理方式以及代理行为的控制方面提供了更多自定义空间。下文将重点介绍语音处理流水线模型。

关键组件

转写（语音转文本）

转写模块是语音处理流水线的入口。转写组件以原始音频帧为输入，将语音转写为文本并输出。转写得到的文本会被缓存在系统中，直到系统检测到用户已停止说话，此时才会启动 LLM 生成。目前有多家第三方提供商提供低延迟转写服务。在选择提供商时，需要考虑延迟和转写准确性，并确保其支持流式转写。

第三方 API 示例：AssemblyAI、Deepgram、OpenAI 和 ElevenLabs

轮次检测

轮次检测是流水线中的一个组件，用于检测说话者何时讲完，从而确定何时开始生成回复。一种常见的方法是使用语音活动检测（VAD）模型，例如 Silero VAD。VAD 利用音频能量水平来检测音频中何时包含语音以及语音何时结束。但是，单独使用 VAD 无法区分暂时停顿与真正结束发言。因此，通常会将它与句末检测模型结合使用，该模型基于临时转写结果或原始音频来判断说话者是否已经说完。

示例（Hugging Face）：livekit/turn-detector、pipecat-ai/smart-turn-v3

代理

代理是语音处理流水线的核心。它负责理解用户意图、收集合适的上下文，并以文本形式生成回复。Elastic Agent Builder 凭借其内置的推理能力、工具库和工作流集成，使代理可以在您的数据之上工作，并与外部服务进行交互。

LLM（文本到文本）

在为 Elastic Agent Builder 选择 LLM 时，主要需要考虑两个指标：推理能力基准和首个 Token 时间（TTFT）。

推理基准反映 LLM 生成正确响应的能力水平。可以重点关注衡量多轮对话一致性和整体智能水平的基准，比如 MT-Bench 和 Humanity's Last Exam 等数据集。

TTFT 基准用于评估模型产出第一个输出 Token 的速度。还有其他类型的延迟基准，但 TTFT 对语音代理尤为重要，因为在收到第一个 Token 后就可以开始音频合成，从而降低轮次之间的延迟，让对话更自然。

通常需要在这两个指标之间做权衡，因为速度更快的模型在推理基准测试中的表现往往较差。

示例（Hugging Face）：openai/gpt-oss-20b、openai/gpt-oss-120b

合成（文本转语音）

流水线的最后一环是文本转语音模型。该组件负责将 LLM 输出的文本转换为可听的语音。与 LLM 类似，在选择文本转语音提供商时也需要重点关注延迟这一指标。文本转语音的延迟通过首字节时间（TTFB）来衡量。即接收到第一个音频字节所需的时间。TTFB 越低，对话轮次之间的延迟也越低。

示例： ElevenLabs、 Cartesia、 Rime

构建语音处理流水线

Elastic Agent Builder 可以在多个不同层级集成到语音处理流水线中：

仅限 Agent Builder 工具：语音转文本 → LLM（使用 Agent Builder 工具） → 文本转语音
Agent Builder 作为 MCP：语音转文本 → LLM（通过 MCP 访问 Agent Builder）→ 文本转语音
Agent Builder 作为核心：语音转文本 → Agent Builder → 文本转语音

在本项目中，我选择采用“Agent Builder 作为核心”的方案。采用这种方案，可以充分利用 Agent Builder 及其工作流的全部功能。该项目使用 LiveKit 来编排语音转文本、轮次检测和文本转语音环节，并实现了一个自定义的大型语言模型节点，直接与 Agent Builder 集成。

Elastic 客服语音代理

我们将为一家名为 ElasticSport 的虚构体育用品商店构建一个自定义客服语音代理。顾客可以拨打服务热线，咨询产品推荐、查看产品详情、查询订单状态，并通过短信接收订单信息。为此，我们首先需要配置一个自定义代理，并创建用于执行 Elasticsearch 查询语言（ES|QL）查询和工作流的工具。

Watch video on Vidyard

配置代理

提示词

提示词用于告知代理应采用怎样的人设以及如何作答。更重要的是，其中还包含一些专门针对语音场景的提示词，用于确保响应能正确合成为音频，并在出现误解时实现自然的纠正。

You are a Sales Assistant at ElasticSport, an outdoor sport shop specialized in hiking and winter equipment. 

[Profile]
- name: Iva
- company: ElasticSport
- role: Sales Assistant
- language: en-GB
- description: ElasticSport virtual sales assistant

[Context]
- Ask clarifying questions to understand the context.
- Use available tools to answer the user's question.
- Use the knowledge base to retrieve general information

[Style]
- Be informative and comprehensive.
- Maintain a professional, friendly and polite tone.
- Mimic human behavior and speech patterns.
- Be concise. Do not over explain initially

[Response Guideline]
- Present dates in spelled-out month date format (e.g., January fifteenth, two thousand and twenty-four).
- Avoid the use of unpronounceable punctuation such as bullet points, tables, emojis.
- Respond in plain text, avoid any formatting.
- Spell out numbers as words for more natural-sounding speech.
- Respond in short and concise sentences. Responses should be 1 or 2 sentences long.

[ERROR RECOVERY]
### Misunderstanding Protocol
1. Acknowledge potential misunderstanding
2. Request specific clarification

工作流

我们将添加一个小型工作流，通过 Twilio 的消息传递 API 发送短信。该工作流会作为工具提供给自定义代理，使其在通话过程中即可向来电者发送短信，从而带来顺畅的使用体验。例如，这样一来，来电者就可以询问：“你能通过短信发送更多关于 X 的详细信息吗？”

name: send sms
enabled: true
triggers:
  - type: manual
inputs:
  - name: message
    type: string
    description: The message to send to the phone number.

  - name: phone_number
    type: string
    description: The phone number to send the message to.

consts:
  TWILIO_ACCOUNT: "****"
  BASIC_AUTH: "****"
  FROM_PHONE_NNUMBER: "****"
steps:
  - name: http_step
    type: http
    with:
      url: https://api.twilio.com/2010-04-01/Accounts/{{consts.TWILIO_ACCOUNT}}/Messages.json
      method: POST
      headers:
        Content-Type: application/x-www-form-urlencoded
        Authorization: Basic {{consts.BASIC_AUTH | base64_encode}}
      body: From={{consts.FROM_PHONE_NNUMBER}}&To={{inputs.phone_number}}&Body={{inputs.message}}
      timeout: 30s

ES|QL 工具

借助以下工具，代理可以基于真实数据提供相关的回复。示例代码库包含一个设置脚本，用于将产品、订单和知识库数据集导入并初始化 Kibana。

Product.search

产品数据集中包含 65 个虚构产品。以下是一个示例文档：

{
      "sku": "ort3M7k",
      "name": "Ortovox Free Rider 26 Backpack",
      "price": 189,
      "currency": "USD",
      "image": "https://via.placeholder.com/150",
      "description": "The Ortovox Free Rider 26 is a technical freeride backpack with a dedicated safety compartment and diagonal ski carry system. Perfect for backcountry missions.\n\nKey Features:\n- 26L capacity\n- Diagonal ski carry system\n- Safety equipment compartment\n- Helmet holder\n- Hydration system compatible",
      "category": "Accessories",
      "subCategory": "Backpacks",
      "brand": "Ortovox",
      "sizes": ["One Size"],
      "colors": ["Black", "Blue", "Orange"],
      "materials": ["Nylon", "Polyester"]
    }

通过将名称和描述字段映射为 semantic_text，LLM 就能借助 ES|QL 执行语义搜索并检索到匹配的产品。混合搜索查询会在这两个字段上执行语义匹配，并通过 boost 略微提高名称字段匹配结果的权重。

该查询首先检索按初始相关度得分排序的前 20 个结果。随后，这些结果会借助 .rerank-v1-elasticsearch 推理模型，基于描述字段重新排序，并最终缩减为最相关的前五个产品。

type: ES|QL
toolId: products.search
description: Use this tool to search through the product catalogue by keywords.
query: |
    FROM products
        METADATA _score
      | WHERE
          MATCH(name, ?query, {"boost": 0.6}) OR
            MATCH(description, ?query, {"boost": 0.4})
      | SORT _score DESC
      | LIMIT 20
      | RERANK ?query
            ON description
            WITH {"inference_id": ".rerank-v1-elasticsearch"}
      | LIMIT 5

parameters:
    query: space separated keywords to search for in catalogue

Knowledgebase.search

知识库数据集包含以下格式的文档，其中标题和内容字段以语义文本形式存储：

{
        id: "8273645",
        createdAt: "2025-11-14",
        title: "International Orders",
        content: `International orders are processed through our international shipping partner. Below are the countries we ship to and average delivery times.
        Germany: 3-5 working days
        France: 3-5 working days
        Italy: 3-5 working days
        Spain: 3-5 working days
        United Kingdom: 3-5 working days
        United States: 3-5 working days
        Canada: 3-5 working days
        Australia: 3-5 working days
        New Zealand: 3-5 working days
        `
}

该工具使用的查询与 product.search 工具类似：

type: "ES|QL"
toolId: knowledgebase.search
description: Use this tool to search the knowledgebase.
query: |
  FROM knowledge_base
    METADATA _score
  | WHERE
      MATCH(title, ?query, {"boost": 0.6}) OR
      MATCH(content, ?query, {"boost": 0.4})
  | SORT _score DESC
  | LIMIT 20
  | RERANK ?query
      ON content
      WITH {"inference_id": ".rerank-v1-elasticsearch"}
  | LIMIT 5

parameters:
  query: space separated keywords or natural language phrase to semantically search for in the knowledge base

Orders.search

我们要添加的最后一个工具用于通过 order_id 检索订单：

type: "ES|QL"
toolId: order.search
description: Use this tool to retrieve an order by its ID.
query: |
  FROM orders
    METADATA _score
  | WHERE order_id == ?order_id
  | SORT _score DESC
  | LIMIT 1

parameters:
  order_id: "the ID of the order"

在完成代理配置并将这些工作流和 ES|QL 工具关联到代理之后，即可在 Kibana 中对其进行测试。

除了为 ElasticSport 构建客服代理外，还可以将该代理、工作流和工具拓展到其他场景，例如甄别潜在客户的销售代理、家庭维修服务代理、餐厅预订代理或预约安排代理。

最后一部分是将刚创建的代理与 LiveKit、文本转语音模型和语音转文本模型连接起来。本博客末尾链接的代码仓库中包含一个可与 LiveKit 搭配使用的自定义 Elastic Agent Builder LLM 节点。只需将 AGENT_ID 替换为您自己的值，并将其与 Kibana 实例关联即可。

开始使用

点击此处查看代码并动手体验。

Agent Builder，超越聊天框：介绍增强型基础架构

Alexander Wert, Bill Easton, Gil Raphaelli, Graham Hudgins, Norrie Taylor — Thu, 22 Jan 2026 00:00:00 GMT

这不是空谈。我们正在付诸实践。

我们都见证了 AI 智能体的兴起。它们在总结文本、编写代码片段以及基于文档回答问题方面表现出色。但对于我们从事 DevOps 和网站可靠性工程 (SRE) 的人来说，一直存在一个令人沮丧的限制。大多数智能体都困于呼叫中心模式，这意味着它们可以阅读、思考和聊天，但无法触及它们本该管理的基础架构。

在最新的黑客马拉松项目中，我们决定打破这一限制。

我们构建了增强型基础架构：这是一个基础架构协同助手，它不仅能为您提供建议，还能创建、部署、监测和修复您的实时环境。

问题：复制、重新格式化、粘贴

标准智能体在孤立状态下运行。如果您的应用宕机，给公司造成 500万美元的损失，标准智能体可以为您朗读如何修复的应急预案手册。但您仍然需要亲自动手。您只能复制代码，根据环境重新格式化，然后粘贴到终端中。

我们需要一个能理解谈论 Kubernetes 和配置 Kubernetes 之间区别的智能体。

引擎：什么是 Elastic Agent Builder？

我们并不是从零开始构建的。我们是基于 Elastic Agent Builder 构建的。对于不熟悉的人来说，Elastic Agent Builder 是一个旨在快速开发智能体的框架，它充当大型语言模型 (LLM)（在我们的演示中，我们使用了 Google Gemini）与存储在 Elasticsearch 中的私有数据之间的桥梁。

Agent Builder 可以通过将 AI 与内部数据（如文档或日志）相结合，用于对话式 AI。但它最强大的功能是能够分配工具。这些工具允许 LLM 跳出聊天接口，执行特定任务。我们意识到，如果将此功能发挥到极致，我们可以将 Agent Builder 转变为一个自动化引擎。

使其运行：构建第一个版本

在项目启动之初，我们就知道要让智能体能够改变外部世界。我们当时有个想法：如果我们开发一些“运行器”软件（在主机上运行智能体能想到的任何命令）会怎样？然后：如果运行器、Elastic Agent Builder 和用户进行三方通话会怎样？

我们首先构建了一个 Python 项目“增强型基础架构运行器”，其本质是一个 while(true) 循环，每秒查询 Elastic Agent Builder 对话 API，并检查我们创建的特殊语法：

{
	"tool_name": "my_tool",
       "tool_arguments": "\{stringified json arguments\}"
}

然后我们更新了提示，以教会它我们新的工具调用语法。Bill 是 FastMCP 的维护者，FastMCP 是在 Python 中构建模型上下文协议 (MCP) 服务器的最常用框架。他开始尝试使用 FastMCP 客户端配合这个新的运行器软件，来挂载 MCP 服务器并使其工具对运行器可用。当智能体看到这个时，它会执行工具调用，并将 POST 结果返回到对话中，就像用户发送了结果一样。这会触发 LLM 对结果作出回应，然后我们开始了！

这很好，但存在两个主要问题：

代理会将所有这些 JSON 直接注入到与用户的对话中。
通过对话 API 能看到消息的最早时间点是一个对话轮次完成时（即 LLM 回复时）。

因此，我们着手研究如何将其移至后台。

然后我们切换到为智能体提供一个名为 call_external_tool 的工具，该工具有两个参数：tool_name 和字符串化的 JSON 工具参数。这个外部工具调用不会返回任何内容，但重要的是，它会在对对话 API 的 GET 请求中可见。然后，我们授予运行器直接将文档写入 Elasticsearch 的权限，Elastic Agent Builder 智能体可以根据需要检索这些文档。智能体总是在响应用户消息的情况下运行，所以我们需要用一个用户消息来启动智能体，这样它才会去查找结果并继续处理。因此，我们让智能体在聊天记录中插入一条简短的消息，以继续对话：

所以现在我们有了外部工具调用。然而，由于上面提到的第二个问题，我们不得不去掉最后的启动部分。否则，每个外部工具调用都需要一个完整的对话轮次来检索结果！

让它变得更好：介绍工作流

除了 Elasticsearch 查询语言 (ES|QL) 和索引搜索工具调用之外，Agent Builder 智能体还可以调用 Elastic 基于工作流的工具。Elastic 工作流提供了一种灵活且易于管理的方式来执行任意顺序和逻辑的操作。就我们的目的而言，我们只需要工作流做两件事：将外部工具请求存储到 Elasticsearch，并返回一个用于轮询结果的 ID。这产生了以下简单的工作流定义：

name: ai-tool-call
enabled: true
triggers:
  - type: manual
inputs:
  - name: runner_id
    type: string
  - name: tool_calls
    type: string

steps:
  - name: store_request
    type: elasticsearch.create
    with:
      index: distributed-tool-requests
      id: "{{inputs.runner_id}}_{{ execution.id }}"
      document:
        request_id: "{{ execution.id }}"
        runner_id: "{{inputs.runner_id}}"
        tool_call: "{{inputs.tool_calls}}"
        status: "unhandled"

  - name: output_result
    type: console
    with:
      message: "Called tool, with execution id: {{ execution.id }}. Use this ID to poll the results."

这样，运行器不再依赖将工具调用请求写入对话，而只需轮询 Elasticsearch distributed-tool-requests 索引中的新外部工具请求，并使用提供的 execution.id 将结果报告回另一个 Elasticsearch 索引。

这消除了上述两个主要问题：

对话历史记录不再被外部工具调用的负载所充斥。
由于运行器轮询的是 Elasticsearch 索引而非对话历史记录，它们不会因需要等待对话轮次完成以使外部工具请求可见而被阻塞。

第二点有一个巨大优势：外部工具调用的处理在智能体的思考阶段就开始了（而不是在对话轮次完成之后）。这允许我们在系统提示中指示 LLM 轮询外部工具结果，直到结果可用，从而消除了启动消息的需要。总的来说，这样做的好处是对话感觉更加自然：LLM 可以在单个对话轮次中处理多个外部工具请求（而不是每个工具请求需要一个对话轮次），因此可以一次性完成更复杂的用户请求。

将所有内容整合到一起

为了弥合 LLM 与服务器机架之间的鸿沟，我们利用 Agent Builder 的工具功能开发了一种特定的架构：

增强型基础架构运行器：我们在目标环境（服务器、Kubernetes 集群、云账户）中部署了轻量级运行器。这些运行器直接连接到 Elastic，使用受保护的终端和仅每个运行器可用的密钥。
ES|QL 检索：该协同助手使用 Elastic 的 ES|QL 执行混合搜索。它不仅搜索知识，还会搜索功能。它查询已连接的运行器，查看哪些工具可用（例如list_ec2_instances、install_helm_chart)。
工作流执行：一旦智能体决定行动方案，就会创建一个结构化的工作流。
反馈循环：运行器在本地执行命令并将结果报告到 Elasticsearch。协同助手从索引中读取结果，并决定下一步。

演示：从故障到可观测性

Watch video on Vidyard

在视频中，我们展示了两个不同的场景，彰显了该架构的支持。

场景 1：DevOps 开发运维救援

我们从一位用户因 Kubernetes 集群中的盲点导致 500 万美元宕机而惊慌失措的场景开始。

请求：“如何确保这种情况不再发生？”
行动：该智能体不只是提供了教程。它识别了集群，创建了必要的命名空间，生成了 Kubernetes 密钥，安装了 OpenTelemetry Operator，并立即提供了一个指向实时 APM 仪表板的链接。
结果：用户无需编写一行 YAML，即可获得完整的 Kubernetes 可观测和应用见解。

场景 2：安全交接

基础架构安全的一条基本规则是，您无法保护看不到的东西。在执行我们的 DevOps 开发运维救援时，智能体看到了改善环境安全的机会。

借助之前一次与 Elastic Observability 相关调查触发的警报，我们展示了安全从业者如何直接与其基础架构聊天：首先，列举云环境中的资产和资源；其次，部署确保环境安全的必要工具。

发现：协同助手为安全从业者列举了 AWS 资源，并识别出一个关键缺口：一个 Amazon Elastic Compute Cloud (EC2) 实例和一个 Amazon Elastic Kubernetes Service (EKS) 集群的公共终端缺少终端保护。
修复：只需简单批准，协同助手就将 Elastic Security 扩展检测与响应 (XDR) 和云检测与响应 (CDR) 部署到了易受攻击的资产上，实时保护了环境。
结果：已部署的 AWS 资产和资源得到了保护，实现了完整的运行时安全。

未来：增强一切

这个项目证明 Elastic Agent Builder 可以成为分布式运维的中心大脑。我们不仅限于基础架构。我们的运行器技术可以驱动：

增强型合成：诊断全球运行器中的 TLS 错误。
增强型开发：创建拉取请求并在前端服务上实现验证码。
增强型运维：在宕机期间自动重新配置 DNS 解析器。

亲自试用

我们认为，AI 的未来不仅仅是聊天支持，而是增强型基础架构。它关乎拥有一个可以与您并肩部署、修复、观测和保护的合作伙伴。

立即查看代码，并通过分布式运行器 (GitHub) 加上 Elastic Cloud Serverless 上的 Elastic Agent Builder 亲自尝试吧！

在 Elastic Cloud 上创建一个无服务器项目。
请将代码部署到运行器。
设置运行器。
配置您的 mcp.json。
启动运行器，它会自动创建您的智能体及其工具。
与一位能够推理、规划并在您的分布式运行器上执行操作的代理聊天！

团队：Alex、Bill、Gil、Graham 和 Norrie

基于 Swiss 式哈希表实现更快的 ES|QL 统计数据

Chris Hegarty, Matthew Alp, Nik Everet — Mon, 19 Jan 2026 00:00:00 GMT

我们近期将 Elasticsearch 哈希表实现的核心组件替换为 Swiss 式设计，在均匀高基数工作负载下观察到构建与迭代速度提升 2-3 倍。最终使 Elasticsearch 查询语言 (ES|QL) 的统计数据与分析操作实现更低延迟、更高吞吐量，且性能表现更可预测。

为什么这很重要

绝大多数典型分析流程最终都归结为数据分组操作。无论是计算每台主机的平均字节数、统计每个用户的事件数量，还是跨维度聚合指标，其核心操作始终如一，那就是将键映射到分组并更新累计聚合值。

在小规模场景下，几乎任何合理的哈希表都能良好运行。但在大规模场景（数亿文档、数百万独立分组）中，细节决定成败。负载因素、探测策略、内存布局和缓存行为，这些因素可能让性能呈现线性增长，也可能导致严重的缓存未命中问题。

Elasticsearch 多年来一直支持这些工作负载，但我们一直在寻找机会来更新核心算法。因此，我们评估了一种受 Swiss 表启发的新方法，并将其应用于 ES|QL 如何计算统计数据。

到底什么是 Swiss 表？

Swiss 表是一类由 Google SwissTable 推广的现代哈希表系列，后被 Abseil 等资料库采纳。

传统哈希表在探测过程中需频繁追踪指针或加载键值，却发现大量不匹配情况。Swiss 哈希表的核心创新在于通过独立于键值存储的微型缓存驻留数组结构（称为控制字节），可拒绝大多数探测，从而显著降低内存流量。

每个控制字节对应一个哈希槽，在我们的应用中编码两类信息：槽是否为空，以及从哈希值派生的短指纹。这些控制字节在内存中连续存储（通常以 16 字节为一组），使其非常适合单指令多数据 (SIMD) 并行处理。

Swiss 表摒弃逐槽探测的传统方式，转而通过向量指令一次性扫描整个控制字节块。CPU 在单次操作中，将待插入键的指纹与 16 个槽位的指纹进行批量比对，并过滤掉空条目。仅当少数候选键通过这一快速通道后，才需要加载并比对实际键值。

该设计通过引入少量额外元数据，换取了更高的缓存命中率和大幅减少的随机内存访问。随着哈希表规模扩大及探测链长度增加，这些特性将愈发凸显其价值。

以SIMD为中心

真正的主角是 SIMD。

控制字节不仅结构紧凑，更专门针对向量指令处理进行优化设计。单条 SIMD 比对指令可同时校验 16 个指纹，将传统循环操作转化为数条高效宽指令处理。例如：

实际上，这意味着：

更少的分支。
更短的探针链。
减少键值存储的内存加载次数。
更好地利用了CPU的执行单元。

绝大多数查询在控制字节扫描阶段即可完成过滤。当需要进一步处理时，剩余操作高度集中且可预测，而这正是现代 CPU 所擅长的负载类型。

深入了解 SIMD

对于喜欢探究底层实现细节的读者，以下是向表中插入新键时的具体流程：我们使用 Panama Vector API 配合 128 位向量，因此可并行处理 16 个控制字节。

以下代码片段展示了在配备 AVX-512 的 Intel Rocket Lake 处理器上生成的代码。虽然这些指令反映了当前硬件环境，但该设计并不依赖 AVX-512。在其他平台上会生成等效指令（如 AVX2、SSE 或 NEON）来实现相同的高层向量操作。

; Load 16 control bytes from the control block
vmovdqu xmm0, XMMWORD PTR [r9+r10*1+0x10]

; Broadcast the 7-bit fingerprint of the new key across the vector
vpbroadcastb xmm1, r11d

; Compare all 16 control bytes to the new fingerprint
vpcmpeqb k7, xmm0, xmm1
kmovq rbx, k7

; Check if any matches were found
test rbx, rbx
jne

每条指令在插入过程中都起着明确的作用：

vmovdqu：将 16 个连续的控制字节加载到 128 位 xmm0 寄存器中。
vpbroadcastb：将新键的 7 位指纹复制到xmm1寄存器的所有向量通道中。
vpcmpeqb：将每个控制字节与广播后的指纹进行并行比较，生成潜在匹配的掩码。
kmovq + test：将掩码移动到通用寄存器，并快速检查是否存在匹配。

最终，我们决定一次探测 16 个控制字节组，因为基准测试表明，扩展到 32 或 64 个字节并使用更宽的寄存器并没有带来明显的性能提升。

ES|QL 中的集成

在 Elasticsearch 中采用 Swiss 式哈希算法并非简单的替换操作。ES|QL 对内存核算、安全性以及与计算引擎其他部分的集成有着严苛要求。

我们将新型哈希表与 Elasticsearch 的内存管理机制深度集成，包括分页回收器和熔断器核算模块，确保内存分配始终透明且受控。Elasticsearch 的聚合数据采用密集存储方式并通过组 ID 索引，在保持内存布局紧凑、迭代高效的同时，通过支持随机访问实现了特定性能优化。

对于可变长度字节键，我们在存储组 ID 的同时缓存完整哈希值。此设计避免了探测过程中重复计算高开销的哈希码，并通过将关联元数据集中存储提升了缓存命中率。在重新哈希时，系统可直接利用缓存的哈希值和控制字节，无需检查键值本身，从而将容量调整成本降至最低。

我们实施中的一个重要简化策略是永不删除条目。这一设计消除了对“墓碑”标记（用于标识已释放槽位的占位符）的需求，使空槽保持真正空闲状态。这种优化进一步改善了探测行为，并确保控制字节扫描始终保持高效。

这样的设计在完美契合 Elasticsearch 执行模型的同时，保留了使 Swiss 表具吸引力的高性能特性。

它的表现如何？

在小规模数据量下，Swiss 表的性能与现有实现基本持平。这符合预期，当哈希表较小时，缓存效应的影响减弱，且待优化的探测操作本就较少。

随着数据规模扩大，性能特征迅速发生质变。

上方热图展示了不同键大小（8、32、64 和 128 字节）在数据规模从 1,000 至 10,000,000 组变化时的时间优化倍数。随着数据规模扩大，优化倍数呈稳定上升趋势，在均匀分布场景下最高可达 2-3 倍。

这一趋势完全符合设计预期。传统哈希表在数据规模扩大时会导致探测链长度增加，而 Swiss 式探测仍能在支持 SIMD 指令的控制字节块内完成绝大多数查询操作。

缓存行为说明了一切

为深入分析加速效果，我们在 Linux perf环境下运行相同的 JMH benchmarks基准测试，并采集缓存与 TLB 统计数据。

与原始实施相比，Swiss 版实现的总缓存引用量减少约 60%，末级缓存（LLC）加载次数下降超 4 倍，LLC 加载未命中次数更是降低超 6 倍。由于 LLC 未命中通常直接导致主存访问，仅此一项优化就解释了端到端性能提升的绝大部分原因。

在更靠近 CPU 的层级，我们观察到 L1 数据缓存未命中次数显著减少，数据 TLB 未命中次数更降低近 6 倍，这表明数据空间局部性增强且内存访问模式更具可预测性。

这正是 SIMD 友好型控制字节带来的实际效益。无需反复从分散的内存位置加载键和值，大多数探测操作仅需扫描紧凑、驻留缓存的结构体即可完成。内存访问量减少意味着缓存未命中率降低，而未命中率降低则直接提升查询速度。

总结

通过采用 Swiss 式哈希表设计并深度融合 SIMD 友好型探测机制，我们在高基数 ES|QL 统计工作负载中实现了 2-3 倍的速度提升，同时获得了更稳定且可预测的系统表现。

本研究揭示了现代 CPU 感知型数据结构如何为哈希表等老问题带来显著性能提升。该领域仍有广阔探索空间，例如扩展至更多基础数据类型的特化实现，以及在连接等高基数操作路径中的应用。这些工作均属于 Elasticsearch 内核持续现代化这一长期工程的重要组成部分。

如需了解详细信息或跟进项目进展，可查看 GitHub 上的该拉取请求及追踪进度的元议题。

祝您哈希愉快！

使用 Elasticsearch 管理智能体记忆

Someshwaran Mohankumar — Fri, 16 Jan 2026 00:00:00 GMT

在新兴的上下文工程学科中，在正确的时间为 AI 智能体提供正确的信息至关重要。上下文工程最重要的一个方面就是管理 AI 的记忆。AI 系统就像人类一样，依赖于短期记忆和长期记忆来回忆信息。如果我们希望大型语言模型 (LLM) 智能体能够进行逻辑对话、记住用户偏好，或基于先前的结果或响应进行构建，我们需要为它们配备有效的记忆机制。

毕竟上下文中的所有内容都会影响 AI 的响应。“垃圾进，垃圾出”说的就是这个道理。

本文将介绍短期记忆和长期记忆对 AI 智能体的意义，具体包括：

短期记忆和长期记忆的区别。
它们与使用向量数据库（如 Elasticsearch）的检索增强生成 (RAG) 技术有何关联，以及为什么需要细致的记忆管理。
忽略记忆（包括上下文溢出和上下文污染）有何风险。
最佳实践，如上下文修剪、总结和仅检索相关内容，以保持代理的记忆既有用又安全。
最后，我们将探讨如何使用 Elasticsearch 在多智能体系统中共享和传播记忆，使智能体能够协作而不会产生混乱。

AI 智能体中的短期记忆与长期记忆

AI 智能体的短期记忆通常指的是即时的对话上下文或状态——其本质上是活跃会话中的当前聊天历史记录或最近消息。这包括用户的最新查询和最近的来回交流。这与一个人在进行对话时脑海中记住的信息非常相似。

AI 框架通常会将这种瞬时记忆作为智能体状态的一部分来维护（例如使用检查点进程来存储对话状态，LangGraph 的此示例就介绍了这一点）。短期记忆存在于会话范围内；也就是说，它存在于单个会话或任务中，会话结束后即重置或清除，除非明确保存在其他地方。ChatGPT 中提供的临时聊天 就是会话范围内短期记忆的一个例子。

而长期记忆指的是跨越对话或会话持续存在的信息。这是智能体日积月累保留的知识，包括早前学习的事实，或我们告知其永久记住的用户偏好或任何数据。

长期记忆通常通过从外部源（如文件或向量数据库）存储和获取来配置，这些外部源位于即时上下文窗口之外。与短期聊天历史记录不同，长期记忆并非自动包含在每个提示中。相反，基于特定场景，智能体必须在调用相关工具时回忆或检索该信息。在实践中，长期记忆可能包括用户的个人资料信息、智能体先前生成的答案或分析，或者智能体可以查询的知识库。

例如，如果您有一个旅行规划智能体，短期记忆将包含当前行程查询的详细信息（日期、目的地、预算）以及该聊天中的任何后续问题；而长期记忆可以存储用户的一般旅行偏好、过去的行程和在之前会话中分享的其他事实。当用户在后面再次访问时，智能体可以从这个长期存储中提取资源（例如，用户喜欢海滩和山脉，平均预算为 10 万卢比，有愿望清单，更喜欢体验历史和文化而非适合儿童的景点），这样就不会每次都把用户当作一张白纸。

短期记忆（聊天历史记录）提供即时的上下文和连续性，而长期记忆则提供更广泛的背景，供智能体在需要时调用。大多数先进的 AI 智能体框架都能做到这两点：它们会跟踪最近的对话以保持上下文，并提供在长期信息库中查找或存储信息的机制。管理短期记忆可确保其保持在上下文窗口内，而管理长期记忆则能帮助智能体基于以往的互动和角色来构建答案。

上下文工程中的内存和 RAG

在实践中，我们如何让 AI 智能体拥有有用的长期记忆？

语义记忆是长期记忆的一个重要方法，通常通过检索增强生成 (RAG) 来配置。这需要将 LLM 与外部知识存储或支持向量的数据存储（如 Elasticsearch）耦合。当 LLM 需要提示或其内置训练之外的信息时，它会对 Elasticsearch 执行语义检索，并将最相关的结果作为上下文注入到提示中。通过这种方式，模型的有效上下文不仅包括最近的对话（短期记忆），还包括即时获取的相关长期事实。LLM 随后根据自身推理和检索到的信息来给出答案，它有效地将短期记忆和长期记忆结合起来，从而做出更准确和更感知上下文的响应。

Elasticsearch 可用于为 AI 智能体配置长期记忆。下面是一个高级示例，演示如何从 Elasticsearch 中检索上下文以配置长期记忆。

按照这种方式，智能体通过搜索相关数据来“记忆”，而不是将所有内容存储在有限的提示中，从而导致不同的风险。

将 RAG 与 Elasticsearch 或任何向量存储结合使用可带来诸多好处：

首先，它将模型的知识扩展到了训练截止点之外。智能体可以检索 LLM 可能不知晓的最新信息或特定领域的数据。这对于询问近期事件或专业话题至关重要。

其次，按需获取上下文有助于减少幻觉，尤其是当 LLM 未针对您的细分用例进行专有或高度专业化的数据训练时，这很有可能会导致出现幻觉。正如 OpenAI 最近的一篇论文（《Why Language Models Hallucinate》）强调的那样， LLM 不是像以往所激励的那样通过评估来猜测或编造新信息，而是以 Elasticsearch 中的事实参考为基础。当然， LLM 依赖于向量存储中数据的可靠性来真正防止错误信息，并根据核心相关性措施检索相关数据。

第三，RAG 支持智能体处理的知识库远远大于提示所能容纳的任何内容。RAG 不是将整个文档（例如长篇研究论文或政策文件）推送到上下文窗口，从而导致信息过载或无关信息上下文污染，而是依赖于分块。大型文档会被分解成语义上有意义的小块，系统只检索与查询最相关的几个数据块。这样一来，模型要显得知识渊博不需要长达数百万个词元的上下文来支撑；它只需要访问更大语料库中的正确数据块。

值得注意的是，随着 LLM 上下文窗口的扩大（一些模型现在支持数十万甚至数百万个词元），关于 RAG 是否“已死”的争论也随之出现。为什么不将所有数据推送到提示中？如果您有同样的疑惑，请参阅我的同事 Jeffrey Rengifo 和 Eduard Martin 撰写的精彩文章《Longer context ≠ better: Why RAG still matters》。这避免了“垃圾进，垃圾出”的问题：LLM 始终专注于少数重要内容，而不是应付噪音。

也就是说，将 Elasticsearch 或任何向量存储集成到 AI 智能体架构中可以提供长期记忆。智能体将知识存储在外部，并在需要时将其作为记忆上下文提取出来。这可以作为一种架构来实现，在每次用户查询后，智能体都会在 Elasticsearch 上搜索相关信息，然后在调用 LLM 之前将排序靠前的结果附加到提示中。如果响应包含有用的新信息，它也会保存回长期存储中（从而形成学习的反馈循环）。通过使用这种基于检索的记忆，智能体可以随时了解最新信息，无需将所有知识塞入每个提示，尽管上下文窗口支持一百万个词元。这种技术是上下文工程的基石，结合了信息检索和生成式 AI 的优势。

下面是一个在会话期间使用 LangGraph 的检查点系统管理记忆中对话状态的示例。（请参阅我们的支持上下文工程应用程序。）

# Initialize chat memory (Note: This is in-memory only, not persistent)
memory = MemorySaver()

# Create a LangGraph agent
langgraph_agent = create_react_agent(model=llm, tools=tools, checkpointer=memory)

...
...
# Only process and display checkpoints if verbose mode is enabled
if args.verbose:
    # List all checkpoints that match a given configuration
    checkpoints = memory.list({"configurable": {"thread_id": "1"}})
    # Process the checkpoints
    process_checkpoints(checkpoints)

以下是它存储检查点的方式：

Checkpoint:
Timestamp: 2025-12-30T09:19:41.691087+00:00
Checkpoint ID: 1f0e560a-c2fa-69ec-8001-14ee5373f9cf
User: Hi I'm Som, how are you? (Message ID: ad0a8415-5392-4a58-85ad-84154875bbf2)
Agent: Hi Som! I'm doing well, thank you! How about you? (Message ID: 
56d31efb-14e3-4148-806e-24a839799ece)
Agent:  (Message ID: lc_run--019b6e8e-553f-7b52-8796-a8b1fbb206a4-0)

Checkpoint:
Timestamp: 2025-12-30T09:19:40.350507+00:00
Checkpoint ID: 1f0e560a-b631-6a08-8000-7796d108109a
User: Hi I'm Som, how are you? (Message ID: ad0a8415-5392-4a58-85ad-84154875bbf2)
Agent: Hi Som! I'm doing well, thank you! How about you? (Message ID: 
56d31efb-14e3-4148-806e-24a839799ece)

Checkpoint:
Timestamp: 2025-12-30T09:19:40.349027+00:00
Checkpoint ID: 1f0e560a-b62e-6010-bfff-cbebe1d865f6

对于长期记忆，以下是在 Elasticsearch 上执行语义搜索的方法，以便在将检查点汇总并索引到 Elasticsearch 后使用向量嵌入检索以前的相关对话。

Functions: 
retrieve_from_elasticsearch() 

# Enhanced Elasticsearch retrieval with rank_window and verbose display
def retrieve_from_elasticsearch(query: str, k: int = 5, rank_window: int = None) -> tuple[List[Dict[str, Any]], str]:
    """
    Retrieve context from Elasticsearch with score-based ranking
    
    Args:
        query: Search query
        k: Number of results to return
        rank_window: Number of candidates to retrieve before ranking (default: args.rank_window)
        
    Returns:
        Tuple of (retrieved_documents, formatted_context_string)
    """
    if not es_client or not es_index_name:
        return [], "Elasticsearch is not available. Cannot search long-term memory."
    
    if rank_window is None:
        rank_window = args.rank_window
    
    try:
        # Check if index exists and has documents
        if not es_client.indices.exists(index=es_index_name):
            return [], "No previous conversations stored in long-term memory yet."
        
        # Get document count
        try:
            doc_count = es_client.count(index=es_index_name)["count"]
            if doc_count == 0:
                return [], "Long-term memory is empty. No previous conversations to search."
        except Exception as e:
            return [], f"Error checking memory: {str(e)}"
        
        # Generate embedding for the query
        try:
            query_embedding = embeddings.embed_query(query)
        except Exception as e:
            return [], f"Error generating embedding: {str(e)}"
        
        # Perform semantic search using kNN with rank_window
        try:
            search_body = {
                "knn": {
                    "field": "vector",
                    "query_vector": query_embedding,
                    "k": k,
                    "num_candidates": rank_window  # Retrieve more candidates, then rank top k
                },
                "_source": ["text", "content", "message_type", "timestamp", "thread_id"],
                "size": k
            }
            
            response = es_client.search(index=es_index_name, body=search_body)
            
            if not response.get("hits") or len(response["hits"]["hits"]) == 0:
                return [], "No relevant previous conversations found in long-term memory."
            
            # Extract documents with scores
            retrieved_docs = []
            for hit in response["hits"]["hits"]:
                source = hit["_source"]
                score = hit["_score"]
                retrieved_docs.append({
                    "content": source.get("content", source.get("text", "")),
                    "message_type": source.get("message_type", "unknown"),
                    "timestamp": source.get("timestamp", "unknown"),
                    "thread_id": source.get("thread_id", "unknown"),
                    "score": score
                })
            
            # Format context string
            context_parts = []
            for i, doc in enumerate(retrieved_docs, 1):
                context_parts.append(doc["content"])
            
            context_string = "\n\n".join(context_parts)
            
            # Verbose display
            if args.verbose:
                rich.print(f"\n[bold yellow]🔍 RETRIEVAL ANALYSIS[/bold yellow]")
                rich.print("="*80)
                rich.print(f"[blue]Query:[/blue] {query}")
                rich.print(f"[blue]Retrieved:[/blue] {len(retrieved_docs)} documents (from {rank_window} candidates)")
                rich.print(f"[blue]Total context length:[/blue] {len(context_string)} characters\n")
                
                for i, doc in enumerate(retrieved_docs, 1):
                    rich.print(f"[cyan]📄 Document {i} | Score: {doc['score']:.4f} | Type: {doc['message_type']}[/cyan]")
                    rich.print(f"[cyan]   Timestamp: {doc['timestamp']} | Thread: {doc['thread_id']}[/cyan]")
                    content_preview = doc['content'][:200] + "..." if len(doc['content']) > 200 else doc['content']
                    rich.print(f"[cyan]   Content: {content_preview}[/cyan]")
                    rich.print("-" * 80)
            
            return retrieved_docs, context_string
            
        except Exception as e:
            return [], f"Error searching memory: {str(e)}"
            
    except Exception as e:
        return [], f"Error accessing long-term memory: {str(e)}"

既然我们已经探讨了如何利用 LangGraph 的检查点在 Elasticsearch 中索引和提取短期记忆和长期记忆，接下来让我们花点时间了解为什么索引和转储完整对话可能存在风险。

不管理上下文内存的风险

我们花了大量篇幅讨论了上下文工程以及短期和长期记忆，接下来让我们了解如果不好好管理智能体的记忆和上下文会发生什么。

遗憾的是，当 AI 的上下文变得极其庞大或包含不良信息时，很多事情都可能会出错。随着上下文窗口变大，新的失效模式也会随之出现，例如：

上下文污染
上下文干扰
上下文混淆
上下文冲突
上下文泄露和知识冲突
幻觉和错误信息

让我们来分析一下这些问题以及因上下文管理不善而产生的其他风险：

上下文污染

上下文污染指的是错误或有害信息混入上下文中，并“污染”模型的后续输出。一个常见的例子是模型产生的幻觉被当作事实并插入到对话历史记录中。然后，该模型可能会在以后的响应中以该错误为基础，从而使错误更加严重。在迭代智能体循环中，一旦虚假信息进入共享上下文（例如智能体工作笔记的摘要），它可能会被反复强化。

DeepMind 的研究人员在 Gemini 2.5 报告（TL;DR，请点击此处查看）中观察到，一个长期运行的 Pokémon 游戏智能体出现了这种情况：如果智能体产生一个错误的游戏状态幻觉，并且该状态被记录到它的上下文（它对目标的记忆）中，那么智能体就会围绕一个不可能完成的目标形成毫无意义的策略，从而陷入困境。换句话说，受污染的记忆会让智能体无限期地走上错误的道路。

上下文污染可能是无意的（误操作），也可能是恶意的，例如通过提示注入攻击，用户或第三方偷偷输入隐藏指令或错误事实，智能体随后记住并遵循这些指令或事实。

建议的应对措施：

根据来自 Wiz、Zerlo 和 Anthropic 的见解，针对上下文污染的对策主要是防止不良或误导性信息进入 LLM 的提示、上下文窗口或检索管道。关键步骤包括：

不断检查上下文：监测对话或检索到的文本中是否有任何可疑或有害内容，而不仅仅是监测起始提示。
使用可信来源：根据可信度对文档进行评分或标记，以便系统优先选择可靠的信息，并忽略低分数据。
发现异常数据：使用工具检测异常、不合适或被篡改的内容，并在模型使用前将其删除。
过滤输入和输出：添加护栏，防止有害或误导性文本进入系统或被模型重复。
用干净的数据不断更新模型：定期用经过验证的信息刷新系统，以纠正任何漏网的不良数据。
人机协同：安排人员审查重要的输出或将其与已知的可信来源进行比较。

简单的用户习惯也很有帮助，比如重置冗长的聊天记录、只分享相关信息、将复杂的任务分解成更小的步骤，以及在模型外保留干净的备注。

这些措施可共同构建多层防御，保护 LLM 免受上下文污染，并保持输出的准确性和可信度。

如果不采取这里提到的对策，智能体可能会记住一些指令，比如忽略以前的指南或攻击者插入的琐碎事实，从而导致得到有害的输出。

上下文干扰

上下文干扰是指当上下文变得过长时，模型过度关注上下文而忽视在训练过程中学到的内容。在极端情况下，这类似于灾难性遗忘；也就是说，模型会有效地“遗忘”它的底层知识，变得过分依赖摆在它面前的信息。先前的研究表明，当提示过长时，LLM 往往会失去注意力。

以 Gemini 2.5 智能体为例，它支持百万词元级别的窗口，但当其上下文增长超过一定程度时（在实验中约为 100000 个词元），它会开始专注于重复其过去的操作，而不是提出新的解决方案。从某种意义上说，该智能体成了其广泛历史的囚徒。它不停地查看以前的动作记录（上下文）并模仿它们，而不是利用其底层的训练知识来制定新颖的策略。

这只会适得其反。我们希望模型能够利用相关的上下文来帮助推理，而不是让上下文凌驾于其思考能力之上。值得注意的是，即使是那些拥有巨大窗口的模型也会表现出这种上下文腐烂：随着词元的增加，它们的性能会不均匀地下降。它们仿佛有注意力预算。就像人类工作记忆有限一样， LLM 对词元的关注能力也是有限的，随着预算捉襟见肘，其精准度和专注度会下降。

作为缓解措施，您可以通过分块、工程化正确信息、定期总结上下文以及利用评分来评估和监控响应的准确性来防止上下文干扰。

这些方法可使模型始终基于相关的上下文和其底层训练，从而降低干扰的风险，并提高整体推理质量。

上下文混淆

上下文混淆是指模型使用上下文中的多余内容生成低质量响应的情况。一个典型的例子是为智能体提供它可能会用到的大量工具或 API 定义。如果这些工具有很多与当前任务无关，模型可能仍然会试图不恰当地使用它们，仅仅因为它们出现在上下文中。实验发现，提供过多非必需的工具或文档可能会降低性能。智能体会开始出错，例如调用错误的函数或引用不相关的文本。

在一个案例中，一个小型的 Llama 3.1 8B 模型在有 46 个工具可供考虑时未能完成任务，在只有 19 个工具可供考虑时却成功完成了任务。额外的工具造成了混乱，尽管上下文的长度没有超出限制。根本问题在于，提示中的任何信息都会被模型关注。如果它不知道忽略某些内容，那么这些内容可能会以不希望的方式影响其输出。不相关的内容可能会“窃取”模型的一些注意力并将其引入歧途（例如，不相关的文档可能会导致智能体答非所问）。上下文混淆通常表现为模型做出低质量的反应，将不相关的上下文整合在一起。参考研究论文：《Less is More: Optimizing Function Calling for LLM Execution on Edge Devices》。

这提醒我们，上下文不一定越多越好，尤其是在没有进行相关性管护的情况下。

上下文冲突

上下文冲突是指上下文的某些部分相互矛盾，导致内部不一致，从而破坏模型的推理。如果智能体积累了多条相互冲突的信息，上下文冲突就会发生。

例如，想象一个智能体从两个来源获取数据：一个说 A 航班下午 5 点起飞，另一个说 A 航班下午 6 点起飞。如果两个事实都出现在上下文中，可怜的模型无法知道哪个是正确的；它可能会混淆或生成不正确或不相似的答案。

上下文冲突也经常发生在多轮对话中，因为模型前期的回答尝试会与后来完善的信息一起留在上下文中。

Microsoft 和 Salesforce 的一项研究显示，如果将复杂查询分解为多个聊天机器人回合（逐步添加细节），与在单个提示中提供所有细节相比，前者的最终准确性会显著下降。为什么？因为前期的回合包含来自模型的部分或不正确的中间答案，而这些答案会保留在上下文中。当模型后来尝试用所有信息来回答问题时，它的记忆中仍然包含那些错误的尝试，这些尝试与更正后的信息相冲突，并导致模型偏离正轨。从根本上说，对话的上下文与对话本身发生了冲突。模型可能会无意中使用已经过时的上下文（来自前期的对话轮），这些上下文在添加新信息后不再适用。

在智能体系统中，上下文冲突尤其危险，因为智能体可能会结合来自不同工具或子智能体的输出。如果这些输出不一致，则汇总的上下文就不一致。这样一来，智能体在试图调和矛盾时就会陷入困境或产生无意义的结果。防止上下文冲突需要确保上下文的新鲜度和一致性，例如清除或更新任何过时的信息，不混用未经一致性审查的来源。

上下文泄露和知识冲突

在多个智能体或用户共享记忆存储的系统中，存在信息在上下文间流失的风险。

例如，如果两个独立用户的数据嵌入存在于同一向量数据库中且没有适当的访问控制，响应用户 A 查询的智能体可能会意外检索用户 B 的部分记忆。这种跨上下文泄露可能会暴露私人信息，或在响应中造成混乱。

根据“OWASP 定义的LLM 应用十大风险”，多租户向量数据库必须防范此类泄露：

根据《LLM 08:2025 向量和嵌入弱点，常见的风险之一是上下文泄露：

在多租户环境中，多类用户或应用共享同一个向量数据库，用户或查询之间存在上下文泄露的风险。当来自多个来源的数据相互矛盾时，可能会出现数据联合知识冲突错误。当 LLM 无法使用来自检索增强的新数据取代其在训练中学到的旧知识时，这种情况也可能会发生。

另一方面，LLM 可能难以用记忆中的新信息覆盖其内置的知识。如果模型是根据某个事实进行训练的，而检索到的上下文却表明了相反的情况，那么模型可能会对应该相信哪个事实感到困惑。如果没有适当的设计，智能体可能会混淆上下文或未能用新证据更新旧知识，从而导致得出过时或不正确的答案。

幻觉和错误信息

即使没有长上下文的干扰，幻觉（LLM 编造听起来合理但实际上是虚假的信息）也已是一个老生常谈的问题，而糟糕的记忆管理会加剧这个问题。

如果智能体的记忆缺少一个关键事实，模型可能会用猜测来填补空白，如果这个猜测随后进入上下文（使其受污染），错误就会持续存在。

OWASP LLM 安全报告（LLM09:2025 错误信息）强调错误信息是一个核心漏洞：LLM 可以产生自信但虚构的答案，而用户可能会过度信任它们。一个拥有不良或过时长期记忆的智能体可能会自信地引用去年真实但现在错误的内容，除非其记忆保持更新。

过度依赖 AI 输出（无论是用户还是智能体本身在循环中过度依赖）会使情况变得更糟。如果没有人定期检查记忆中的信息，智能体可能会积累虚假信息。这就是 RAG 经常被用来减少幻觉的原因：检索权威来源，模型就不必编造事实。但如果您的检索拉取了错误的文档（比如包含错误信息的文档），或者早期幻觉没有被去除，系统可能会在所有操作中传播这些错误信息。

总之，记忆管理不善可能会导致错误和误导性的输出，这可能会造成损害，尤其是在高风险情况下（例如在金融或医疗领域提供错误建议）。智能体需要机制来验证或纠正其记忆内容，而不是无条件地信任上下文中的任何内容。

总的来说，给 AI 智能体无限长的记忆或将所有可能的东西都转储到其上下文中并非成功的秘诀。

LLM 应用程序中内存管理的最佳实践

为了避免上述陷阱，开发人员和研究人员为 AI 系统的上下文和记忆管理设计了许多最佳实践。这些做法旨在使 AI 的工作上下文保持精简、相关且更新的状态。以下是一些关键策略，以及它们如何发挥作用的示例。

RAG：使用针对性上下文

RAG 的大部分内容在前面的章节中已有介绍，所以这里仅作简要的实用提醒：

使用有针对性的检索，而不是批量加载：只检索最相关的片段，而不是将整个文档或完整的对话历史记录推送到提示中。
将 RAG 视为即时记忆调用：仅在需要时才获取上下文，而不是将所有内容跨轮次传递。
优先使用感知相关性的检索策略：top-k 语义搜索、倒数排序融合或工具装载过滤等方法有助于减少噪音并提高基础。
扩大上下文窗口并不会消除对 RAG 的需求：两个高度相关的段落几乎总是比 20 页松散相关的内容更有效。

也就是说，RAG 并不是要增加更多的上下文，而是要增加合适的上下文。

工具装载

工具装载是指只给模型提供它在执行任务时实际需要的工具。这个词源于游戏：您要选择一种适合当下情况的装备。工具太多会减慢您的速度；错误的工具会导致失败。根据研究论文《Less is more》，LLM 也是如此。当工具数量超过 30 个左右时，描述会开始重叠，模型会变得混乱。当工具数量超过约 100 个时，失败几乎是必然的。这不是一个上下文窗口问题，而是上下文混淆的问题。

RAG-MCP 是一个简单有效的解决办法。它不是将每个工具都放入提示中，而是将工具描述存储在向量数据库中，每个请求只检索最相关的工具。在实际操作中，这样可以使装载保持小型化和专注化，大幅缩短提示，并且可以将工具选择的准确性至多提高 3 倍。

小模型甚至会更快出现这样的问题。研究表明，8B 模型在装载数十种工具时会失败，但在精简装载后会变得成功。动态选择工具（有时先由 LLM 推理它认为需要的工具）可将性能提高 44% ，同时还能降低功耗和缩短延迟。关键点是，大多数智能体只需要少量工具，但随着系统的发展，设计决策需要首先考虑工具装载和 RAG-MCP。

上下文修剪：限制聊天历史记录的长度

如果对话持续了很多轮，累积的聊天历史记录可能会变得太大而无法容纳，导致上下文溢出或对模型造成过多干扰。

修剪是指随着对话的增加，以编程方式删除或缩短对话中不太重要的部分。一种简单的形式是，当您达到一定限制时，删除对话中最早的轮次，只保留最新的 N 条消息。更复杂的修剪可能涉及删除无关的题外话或以前不再需要的指令。修剪的目标是保持上下文窗口不受旧新闻干扰。

例如，如果智能体在 10 轮对话前解决了一个子问题，并且我们已经翻篇，我们可以从上下文中删除该部分历史记录（假设我们已不需要该部分）。许多基于聊天功能的实现方式都是如此：它们会维护一个滚动显示最新消息的窗口。

修剪可以很简单，比如在对话的最早部分被总结或被认为无关紧要后“忘记”这些部分。这样一来，我们就能降低上下文溢出错误的风险，也能减少上下文干扰，使模型不会被旧的或偏离主题的内容干扰。这种方法非常类似于人类可能记不住一个小时谈话中的每一个字，但会记住重点。

如果您对上下文修剪感到困惑，正如作者 Drew Breunig 在此强调的那样，使用 Provence 模型 (`naver/provence-reranker-debertav3-v1`) 可能会有所帮助。Provence 模型是一个轻量级 (1.75 GB)、高效且准确的问答上下文修剪器。它可以将大型文档裁剪为仅与给定查询最相关的文本。您可以按特定时间间隔调用它。

以下是我们在代码中调用 `provence-reranker` 模型来修剪上下文的做法：

# Context pruning with Provence
def prune_with_provence(query: str, context: str, threshold: Optional[float] = None) -> str:
    """
    Prune context using Provence reranker model
    
    Args:
        query: User's query/question
        context: Original context to prune
        threshold: Relevance threshold (0-1) for Provence reranker.
                   If None, uses args.pruning_threshold.
                   0.1 = conservative (recommended, no performance drop)
                   0.3-0.5 = moderate to aggressive pruning
    
    Returns:
        Pruned context with only relevant sentences
    """
    if provence_model is None:
        return context
    
    if threshold is None:
        threshold = args.pruning_threshold
    
    try:
        # Use Provence's process method
        provence_output = provence_model.process(
            question=query,
            context=context,
            threshold=threshold,
            always_select_title=False,
            enable_warnings=False
        )
        
        # Extract pruned context from output
        pruned_context = provence_output.get('pruned_context', context)
        reranking_score = provence_output.get('reranking_score', 0.0)
        
        # Log statistics
        original_length = len(context)
        pruned_length = len(pruned_context)
        reduction_pct = ((original_length - pruned_length) / original_length * 100) if original_length > 0 else 0
        
        if args.verbose:
            rich.print(f"[cyan]📊 Pruning stats: {pruned_length}/{original_length} chars ({reduction_pct:.1f}% reduction, threshold={threshold:.2f}, rerank_score={reranking_score:.3f})[/cyan]")
        
        return pruned_context if pruned_context else context
        
    except Exception as e:
        rich.print(f"[yellow]⚠️ Error in Provence pruning: {str(e)}[/yellow]")
        rich.print(f"[yellow]⚠️ Falling back to original context[/yellow]")
        return context

我们使用 Provence 重排序模型 (`naver/provence-reranker-debertav3-v1`) 来对句子的相关性进行评分。基于阈值的过滤功能可将句子保留在相关性阈值之上。此外，我们引入了一种回退机制，如果修剪失败，我们将返回原始上下文。最后，统计日志在详细模式下跟踪减少百分比。

上下文总结：将旧信息浓缩而非完全放弃

总结是对修剪的补充。当历史记录或知识库变得过于庞大时，您可以使用 LLM 生成重要内容的简短总结，并在未来使用该总结代替完整内容，就像我们在上面的代码中所做的那样。

例如，如果 AI 助手进行了 50 轮对话，系统不是在第 51 轮将全部 50 轮对话发送给模型（很可能容纳不下），而是选择第 1 至 40 轮，让模型用一段话对其总结，然后在下一个提示中只提供该总结和最后的 10 轮对话。这样一来，模型无需每个细节也能知道讨论的内容。早期的聊天机器人用户是手动总结的，他们问聊天机器人：“你能总结一下我们到目前为止谈过的内容吗？”然后带着总结继续进行新的会话。现在总结可以自动进行。总结不仅可以节省上下文窗口的空间，还可以通过去除多余的细节并只保留重要的事实来减少上下文混淆/干扰。

以下展示了我们如何使用 OpenAI 模型（您可以使用任何大型语言模型）来压缩上下文，同时保留所有相关信息，并消除冗余和重复。

# Context summarization
def summarize_context(query: str, context: str) -> str:
    """
    Summarize context using LLM to reduce duplication and focus on relevant information
    
    Args:
        query: User's query/question
        context: Context to summarize
        
    Returns:
        Summarized context
    """
    try:
        summary_prompt = f"""You are an expert at summarizing conversation context.

Your task: Analyze the provided conversation context and produce a condensed summary that fully answers or supports the user's specific question.

The summary must:
1. Preserve every fact, detail, and information that directly relates to the question
2. Eliminate redundancy and duplicate information
3. Maintain chronological flow when relevant
4. Focus on information that helps answer: "{query}"

Context to summarize:
{context}

Provide a concise summary that preserves all relevant information:"""

        summary = llm.invoke(summary_prompt).content
        
        if args.verbose:
            original_length = len(context)
            summary_length = len(summary)
            reduction_pct = ((original_length - summary_length) / original_length * 100) if original_length > 0 else 0
            rich.print(f"[cyan]📝 Summarization stats: {summary_length}/{original_length} chars ({reduction_pct:.1f}% reduction)[/cyan]")
        
        return summary
        
    except Exception as e:
        rich.print(f"[yellow]⚠️ Error in context summarization: {str(e)}[/yellow]")
        rich.print(f"[yellow]⚠️ Falling back to original context[/yellow]")
        return context

重要的是，当上下文得到总结后，模型被琐碎细节或过往错误牵制的可能性会降低（假设总结是准确的）。

不过，总结必须谨慎进行。糟糕的总结可能会遗漏关键细节，甚至引入错误。它本质上是对模型的另一个提示（“总结这个”），因此它可能会产生幻觉或失去细微差别。最佳做法是逐步总结，或许可以保留一些典型事实，不对它们进行总结。

尽管如此，它已经被证明非常有用。在 Gemini 智能体场景中，每隔约 10 万个词元对上下文进行总结是抵消模型重复倾向的一种方法。总结就像对话或数据的压缩记忆。作为开发人员，我们可以通过让智能体针对对话历史记录或长文档定期调用总结函数（可能是一个较小的 LLM 或一个专用例程）来实现这一点。得到的总结会在提示中替代原始内容。这种策略已被广泛使用，以便将上下文限制在一定范围内，并提炼信息。

上下文隔离：尽可能隔离上下文

这在复杂的智能体系统或多步骤工作流程中更为重要。上下文隔离的理念是将一个大任务拆分成较小的孤立任务，每个任务都有自己的上下文，这样就不会积累一个包含所有内容的庞大上下文。每个子智能体或子任务使用特定的上下文处理问题的某一部分，然后由更高级的智能体、主管或协调员整合结果。

Anthropic 的研究策略使用多个子智能体，每个子智能体研究问题的不同方面，各自拥有自己的上下文窗口，而主智能体负责阅读这些子智能体提炼的结果。这种并行的模块化方法意味着没有一个上下文窗口会变得过于臃肿。这也减少了无关信息混淆的可能性，每个线程都紧扣主题（避免上下文混淆），而且在回答具体子问题时不会携带不必要的包袱。从某种意义上说，这就像是在运行独立的思维线程，它们只分享各自的结果，而不是整个思维过程。

在多智能体系统中，这种方法至关重要。如果智能体 A 正在处理任务 A 而智能体 B 正在处理任务 B，那么除非确实需要，否则任何一个智能体都没有理由使用另一个智能体的完整上下文。智能体可以只交换必要的信息。例如，智能体 A 可以通过一个主管智能体将其发现的综合总结传递给智能体 B，同时每个子智能体都维护自己的专用上下文线程。这种设置不需要人机协同干预；它依赖于一个具有启用工具的主管智能体，并进行最小化和受控的上下文共享。

在设计系统时，尽量减少智能体或工具在运行时的必要上下文重叠，可以大大提高系统的清晰度和性能。您可以把它想象成 AI 微服务，每个组件处理自己的上下文，您以受控的方式在它们之间传递消息，而不是在一个单一的上下文中传递消息。这些最佳实践通常会结合使用。此外，这还能让您灵活地修剪琐碎的历史记录，总结重要的旧消息或对话，将详细日志卸载到 Elasticsearch 以获得长期上下文，并在需要时使用检索功能调回任何相关内容。

正如此处提到的那样，我们的指导原则是上下文是一种有限且宝贵的资源。我们希望提示中的每个词元都能发挥作用，换句话说，它应该对输出的质量有所帮助。如果记忆中的某些东西没有发挥其应有的作用（或者更糟糕的是，它们会主动造成混乱），那么我们就应该对其进行修剪、总结或将其去除。

作为开发者，我们现在可以像编写代码一样编程上下文，决定包含哪些信息，如何格式化它，以及何时删除或更新它。通过遵循这些实践，我们可以为 LLM 智能体提供所需的上下文，使其能够执行任务，而不会陷入前面描述的失败模式。其结果是，智能体能够记住应该记住的内容，忘记不需要的内容，并及时检索所需的内容。

结论

记忆不是您添加到智能体中的东西；它是您设计的一部分。短期记忆是智能体的工作记忆板，而长期记忆是其持久的知识存储。RAG 是两者之间的桥梁，将被动的数据存储（如 Elasticsearch）转变为一个主动的回忆机制，能够为输出提供依据并保持智能体的最新状态。

但记忆是把双刃剑。当您让上下文不受控制地增长时，您会导致上下文污染、干扰、混乱和冲突，在共享系统中甚至会导致数据泄露。这就是为什么最重要的记忆工作不是“多存储”，而是“更好地管护”：有选择地检索，积极修剪，仔细总结，避免混合无关的上下文（除非任务真的需要）。

在实践中，好的上下文工程看起来就像良好的系统设计：上下文更小和更充分、组件之间的交互受控、原始状态和您实际希望模型看到的提炼状态清晰分离。如果方法得当，您最终得到的不是一个什么都记得的智能体，而是一个在正确的时间，出于正确的原因，记住正确事情的智能体。

更高的吞吐量和更低的延迟：AWS 上的 Elastic Cloud Serverless 性能显著提升

Pete Galeotti, Yuvraj Gupta, Rachel Forshee — Wed, 14 Jan 2026 00:00:00 GMT

Elastic Cloud Serverless 已成为那些希望构建高效搜索和 AI 应用程序而无需管理基础设施的开发人员的首选解决方案。现在，我们将无服务器项目的性能提升到了一个全新的水平。

我们已为在 AWS 上运行的所有 Elastic Cloud Serverless 项目完成了一次重大基础设施升级，迁移到了更新、更快的硬件上。此更改已自动推广至所有无服务器项目。它为 AWS 上的 Elasticsearch、Elastic Observability 和 Elastic Security 无服务器项目提供了更高的吞吐量和更低的延迟。

为开发人员带来的关键性能优势

新的 AWS 硬件基础设施支撑着您使用 Elastic Cloud Serverless 所做的一切，为您的应用程序的速度和响应能力带来切实的好处。

降低查询延迟……提高吞吐量

改进后的硬件显著提升了计算资源的速度，这意味着您的搜索查询处理速度比以往任何时候都要快。

搜索和向量搜索：无论您是运行传统的全文本查询，还是在生成式 AI 和 Retrieval-Augmented Generation (RAG) 应用中使用尖端的向量搜索，您都会发现延迟明显减少。内部基准测试显示，搜索延迟平均减少了 35%。
索引速度更快：数据摄取速率得到优化，使您能够以更高的吞吐量为海量数据和复杂文档建立索引。这对于需要近实时数据可见性的应用程序至关重要。内部基准测试显示，索引吞吐量平均提高了 26%。

在负载下保持稳定性能

无论您的工作负载如何，Elastic Cloud Serverless 都能实时动态地自动扩展，以满足需求，最大限度地减少延迟。通过这次硬件升级，这种扩展性现在变得性能更强且响应更迅速。

轻松应对流量高峰：无论您面临的是用户流量的突然激增，还是大规模批量数据的摄取，新的基础设施都能确保您的搜索和索引资源更高效地扩展，从而保持一致的低延迟。
优化的计算存储解耦：无服务器架构将计算与存储分离，使工作负载能够独立扩展，从而实现最佳性能和成本效益。速度更快的硬件增强了计算层，最大限度地提高了这种解耦设计的效率。

幕后揭秘：内部基准测试结果

为了量化 AWS 基础设施升级的影响，Elastic 工程团队针对一系列无服务器工作负载进行了全面的内部基准测试。这些工作负载为性能改进提供了经验证据，无论您的用例如何，您都可以期望在应用程序中获得性能提升。

基准测试方法

我们将测试重点放在直接影响开发者体验和应用程序响应速度的关键指标上：响应时间（即延迟）和搜索与索引操作的吞吐量。

测试的工作负载：测试包括面向用户的应用程序中典型的高并发搜索操作、复杂的向量搜索查询以及用于可观测性和安全用例的大量数据摄取/索引。特别是，我们的测试方法使用了 Elastic 基准测试工具 Rally 的公开可用的数据集。
- wikipedia：一个从维基百科文本内容的快照中提取的数据集，用于衡量通用文本搜索性能。
- MSMARCO-Passage-Ranking：一个源自 Microsoft 机器阅读理解 (MS MARCO) 的数据集，用于衡量稀疏向量字段上的搜索性能。
- OpenAI_Vector：一个源自 BEIR 的 NQ 并通过 OpenAI 的 text-embedding-ada-002 模型生成的嵌入进行丰富的数据集，用于衡量密集向量字段上的搜索性能。
测量：我们比较了新旧基础设施的性能，测量了第 99 百分位数 (P99) 的延迟，以捕捉最坏情况下的尾部延迟性能和每秒操作数。为确保结果的一致性，每个硬件配置文件的每条测试路径都运行了五次。
目标：我们的目标是验证基础设施即使在快速自动扩展期间也能持续提供更快、更可预测的全面性能的能力。

性能数据摘要

结果证实，效率和速度都有了明显提高。由于能够使用更少的计算资源完成相同的工作量，这些收益直接转化为更短的用户响应时间和更低的运营成本。

下表详细列出了数量上的改进。数值越大，吞吐量越高；数值越小，延迟越低。

搜索基准测试结果：

基准	对比	旧版基础设施	新的基础设施	差别
`wikipedia` (纯文本)	搜索操作吞吐量 (ops/s)	729	1107	+52%
`wikipedia` (纯文本)	搜索操作延迟（p99，毫秒）	56	35	-37%
`MSMARCO-Passage-Ranking`（稀疏向量）	搜索操作吞吐量 (ops/s)	220	31	+40%
`MSMARCO-Passage-Ranking`（稀疏向量）	搜索操作延迟（p99，毫秒）	108	67	-38%
`OpenAI_Vector`（密集向量）	搜索操作吞吐量 (ops/s)	475	624	+31%
`OpenAI_Vector`（密集向量）	搜索操作延迟（p99，毫秒）	35	220	-37%

索引基准测试结果：

基准	对比	旧版基础设施	新的基础设施	差别
`wikipedia` (纯文本)	搜索操作吞吐量 (ops/s)	2,845	3220	+13%
`wikipedia` (纯文本)	搜索操作延迟（p99，毫秒）	1,769	1,120	-37%
`MSMARCO-Passage-Ranking`（稀疏向量）	搜索操作吞吐量 (ops/s)	7,087	8900	+26%
`MSMARCO-Passage-Ranking`（稀疏向量）	搜索操作延迟（p99，毫秒）	824	677	-18%
`OpenAI_Vector`（密集向量）	搜索操作吞吐量 (ops/s)	2,972	3,187	+7%
`OpenAI_Vector`（密集向量）	搜索操作延迟（p99，毫秒）	2,946	2,944	0%

额外收获：成本降低

虽然我们的重点是提供低延迟性能，但新硬件的效率也对 Elasticsearch 项目的成本产生直接的积极影响。

Elasticsearch Serverless 的定价是基于使用量的，这意味着您只需为您所使用的摄取和搜索资源付费。由于更新、更快的硬件效率更高，您的工作负载通常能用更少的资源完成任务，从而降低大多数项目的固有成本。您无需支付高昂的价格，就能获得卓越的性能提升——这就是优化效率的定义。

这对您，开发者来说意味着什么？

此次基础设施升级完全由 Elastic 管理，因此您无需亲自操作——无需迁移，也无需更改配置。改进效果立竿见影，并自动应用于您所有基于 AWS 的无服务器项目。

此升级赋予您以下能力：

构建更快的应用程序：专注于功能开发速度，确保您的底层搜索平台能够提供用户所需的速度。
自信创新：部署新的搜索、可观测性和安全功能（包括向量搜索和相关性排序等复杂的 AI 功能），并确保平台能够以最高性能处理负载。
简化堆栈：使用完全托管的服务来处理基础设施管理、容量规划和扩展，这样您就可以专注于代码和数据。

借助 LangGraph 与 Elasticsearch 打造具人机协作功能的智能体

Jeffrey Rengifo — Mon, 05 Jan 2026 00:00:00 GMT

在本文中，我们将探讨如何结合 LangGraph 与 Elasticsearch 来构建一个人机协同 (HITL) 应用。这种方法能够让 AI 系统直接将用户纳入决策流程，使交互更加可靠且具备情境感知能力。我们将通过一个基于情境的实例来展示，LangGraph 工作流如何与 Elasticsearch 集成，以实现数据检索、处理用户输入并生成精准结果。

要求

NodeJS 18 或更高版本
OpenAI API密钥
Elasticsearch 8.x+ 部署

为何在生产级人机协同 (HITL) 系统里采用 LangGraph？

在先前的一篇文章中，我们介绍了 LangGraph 以及它借助 LLM 和条件边来构建 RAG 系统的优势，该系统能够自动做出决策并展示结果。然而，有时我们并不希望系统实现端到端的自主运行，而是期望用户在执行循环中能够选择选项并做出决策。这一概念被命名为“人机协同”。

人机协同或人工介入

这是一种 AI 理念，让真人与 AI 系统进行交互，从而提供更多背景信息、评估回应内容、编辑回应结果、请求更多信息等。在合规、决策制定或内容生成等容错率低的场景中，这种理念非常实用，有助于提升 LLM 输出结果的可靠性。

一个常见的例子是，当你的编程助手请求你授权在终端执行某个特定命令时，或者在开始编程前，向你展示分步思考过程以供你审批。

Elasticsearch + LangGraph：它们如何交互

LangChain 允许我们将 Elasticsearch 用作向量存储库，并在 LangGraph 应用中执行查询操作。这对于执行全文检索或语义搜索十分有用，而 LangGraph 则用于定义特定的工作流、工具以及交互方式。此外，它还引入 HITL 作为与用户的额外交互层。

实际应用：人机协同

让我们设想这样一种情形：一位律师就其近期承接的案件存在疑问。如果没有合适的工具，他需要手动查阅法律文章和判例，完整阅读后，再解读它们如何适用于自己所接的案件情况。然而，借助 LangGraph 和 Elasticsearch，我们能够构建一个系统，该系统可搜索法律判例数据库，并生成一份融入律师所提供具体细节和背景信息的案件分析报告。

工作流始于律师提交法律问题。系统在 Elasticsearch 中执行向量搜索，检索出最相关的判例，并以自然语言的形式呈现给律师供其选择。律师选择后，LLM 生成分析草案，并检查信息是否完整。此时，工作流有两条路径：如果一切清晰明确，则直接生成最终分析报告；如果存在疑问，则暂停并请求律师作出澄清。待缺失的背景信息提供完毕后，系统会综合考虑这些澄清内容，完成分析并返回结果。

以下是 LangGraph 绘制的图表，显示了应用程序在开发结束时的效果。每个节点代表一种工具或功能：

数据集

以下是为本次示例所使用的数据集。该数据集包含一系列法律判例，每个判例均描述了一起涉及服务延误的案件，涵盖法院的判决依据以及最终判决结果。

[
  {
    "pageContent": "Legal precedent: Case B - Service delay not considered breach. A consulting contract used term 'timely delivery' without specific dates. A three-week delay occurred but contract lacked explicit schedule. Court ruled no breach as parties had not defined concrete timeline and delay did not cause demonstrable harm.",
    "metadata": {
      "caseId": "CASE-B-2022",
      "contractType": "consulting agreement",
      "delayPeriod": "three weeks",
      "outcome": "no breach found",
      "reasoning": "no explicit deadline defined, no demonstrable harm",
      "keyTerms": "timely delivery, open terms, schedule definition",
      "title": "Case B: Delay Without Explicit Schedule"
    }
  },
  ...
]

摄取和索引设置

索引设置和数据摄取逻辑在 dataIngestion.ts 文件中定义，在该文件中我们列出了用于处理索引创建的函数。此设置与 LangChain 针对 Elasticsearch 的向量存储接口兼容。

注意：映射设置也包含在 dataIngestion.ts 文件中。

安装软件包并设置环境变量

让我们使用默认设置初始化一个 Node.js 项目，并引入

@elastic/elasticsearch：这是适用于 Node.js 的 Elasticsearch 客户端，用于建立连接、创建索引以及执行查询操作。
@langchain/community：提供对社区支持工具的集成功能，其中包含 ElasticVectorSearch 存储库。
@langchain/core：LangChain 的核心构建模块，涵盖链、提示词以及工具函数等。
@langchain/langgraph：增添基于图形的编排功能，支持具备节点、边以及状态管理的工作流。
@langchain/openai：通过 LangChain 提供对 OpenAI 模型（LLM 及嵌入向量模型）的访问接口。
dotenv：将环境变量从 .env 文件加载至 process.env 中。
tsx：是一个用于执行 TypeScript 代码的实用工具。

在控制台中运行以下命令以安装所有相关组件：

npm install @elastic/elasticsearch @langchain/community @langchain/core @langchain/langgraph @langchain/openai dotenv --legacy-peer-deps && npm install --save-dev tsx

创建 .env 文件来设置环境变量：

ELASTICSEARCH_ENDPOINT=
ELASTICSEARCH_API_KEY=
OPENAI_API_KEY=

我们将采用 TypeScript 进行代码编写，原因在于它能提供一层类型安全保障，同时带来更优的开发体验。创建一个名为 main.ts 的 TypeScript 文件，并将下一节的代码插入其中。

软件包导入

在 main.ts 文件中，我们首先导入所需的模块，并初始化环境变量配置。这涵盖核心的 LangGraph 组件、OpenAI 模型集成以及 Elasticsearch 客户端。

我们还从 dataIngestion.ts 文件导入以下各项：

ingestData：创建索引并摄取数据的函数。
Document 与 DocumentMetadata：用于定义数据集文档结构的接口。

Elasticsearch 向量存储客户端、嵌入客户端以及 OpenAI 客户端

此代码将初始化向量存储、嵌入客户端和一个 OpenAI 客户端。

const VECTOR_INDEX = "legal-precedents";

const llm = new ChatOpenAI({ model: "gpt-4o-mini" });
const embeddings = new OpenAIEmbeddings({
  model: "text-embedding-3-small",
});

const esClient = new Client({
  node: process.env.ELASTICSEARCH_ENDPOINT,
  auth: {
    apiKey: process.env.ELASTICSEARCH_API_KEY ?? "",
  },
});

const vectorStore = new ElasticVectorSearch(embeddings, {
  client: esClient,
  indexName: VECTOR_INDEX,
});

应用程序工作流状态架构将有助于节点之间的通信：

const LegalResearchState = Annotation.Root({
  query: Annotation(),
  analyzedConcepts: Annotation(),
  precedents: Annotation(),
  selectedPrecedent: Annotation(),
  draftAnalysis: Annotation(),
  ambiguityDetected: Annotation(),
  userClarification: Annotation(),
  finalAnalysis: Annotation(),
});

在状态对象中，我们将传递用户查询内容、从查询中提取的概念、检索到的法律判例以及检测到的任何歧义信息至各节点。该状态对象还会跟踪用户选定的判例、过程中生成的草案分析，以及在所有澄清工作完成后生成的最终分析。

节点

searchPrecedents：此节点基于用户输入，在 Elasticsearch 向量存储库中执行相似性搜索。它最多可检索 5 份匹配文件，并打印出来供用户查看。

async function searchPrecedents(state: typeof LegalResearchState.State) {
  console.log(
    "📚 Searching for relevant legal precedents with query:\n",
    state.query
  );

  const results = await vectorStore.similaritySearch(state.query, 5);
  const precedents = results.map((d) => d as Document);

  console.log(`Found ${precedents.length} relevant precedents:\n`);

  for (let i = 0; i < precedents.length; i++) {
    const p = precedents[i];
    const m = p.metadata;
    console.log(
      `${i + 1}. ${m.title} (${m.caseId})\n` +
        `   Type: ${m.contractType}\n` +
        `   Outcome: ${m.outcome}\n` +
        `   Key reasoning: ${m.reasoning}\n` +
        `   Delay period: ${m.delayPeriod}\n`
    );
  }

  return { precedents };
}

precedentSelection：此node允许用户使用自然语言选择由最接近搜索检索到的、最匹配问题的用例。此时，应用程序中断工作流并等待用户输入。

function precedentSelection(state: typeof LegalResearchState.State) {
  console.log("\n⚖️  HITL #1: Human input needed\n");
  const question = "👨‍⚖️  Which precedent is most similar to your case? ";
  const userChoice = interrupt({ question });

  return { userChoice };
}

selectPrecedent：此节点会将用户输入内容以及检索到的文档一并发送，以供解析，进而从中选出一个文档。LLM 通过返回一个数字来完成该任务，此数字代表模型依据用户自然语言输入所推断出的文档。

async function selectPrecedent(state: typeof LegalResearchState.State) {
  const precedents = state.precedents || [];
  const userInput = (state as any).userChoice || "";

  const precedentsList = precedents
    .map((p, i) => {
      const m = p.metadata;
      return `${i + 1}. ${m.caseId}: ${m.title} - ${m.outcome}`;
    })
    .join("\n");

  const structuredLlm = llm.withStructuredOutput({
    name: "precedent_selection",
    schema: {
      type: "object",
      properties: {
        selected_number: {
          type: "number",
          description:
            "The precedent number selected by the lawyer (1-based index)",
          minimum: 1,
          maximum: precedents.length,
        },
      },
      required: ["selected_number"],
    },
  });

  const prompt = `
    The lawyer said: "${userInput}"

    Available precedents:
    ${precedentsList}

    Which precedent number (1-${precedents.length}) matches their selection?
  `;

  const response = await structuredLlm.invoke([
    {
      role: "system",
      content:
        "You are an assistant that interprets lawyer's selection and returns the corresponding precedent number.",
    },
    { role: "user", content: prompt },
  ]);

  const selectedIndex = response.selected_number - 1;
  const selectedPrecedent = precedents[selectedIndex] || precedents[0];

  console.log(`✅ Selected: ${selectedPrecedent.metadata.title}\n`);
  return { selectedPrecedent };
}

createDraft：此节点根据用户选择的判例生成初步法律分析。它借助 LLM 评估所选判例如何适用于律师提出的问题，并判断系统是否具备足够信息以继续推进后续流程。

如果判例可直接适用，该节点将生成一份草案分析，并沿着正确路径直接跳转至最终节点。若 LLM 检测到模棱两可之处，例如未明确的合同条款、缺失的时间线细节或模糊的条件，它会返回一个提示需要澄清的标识，同时附上必须提供的具体信息列表。在此情况下，歧义将触发图中的左侧路径。

async function createDraft(state: typeof LegalResearchState.State) {
  console.log("📝 Drafting initial legal analysis...\n");

  const precedent = state.selectedPrecedent;
  if (!precedent) return { draftAnalysis: "" };

  const m = precedent.metadata;

  const structuredLlm = llm.withStructuredOutput({
    name: "draft_analysis",
    schema: {
      type: "object",
      properties: {
        needs_clarification: {
          type: "boolean",
          description:
            "Whether the analysis requires clarification about contract terms or context",
        },
        analysis_text: {
          type: "string",
          description: "The draft legal analysis or the ambiguity explanation",
        },
        missing_information: {
          type: "array",
          items: { type: "string" },
          description:
            "List of specific information needed if clarification is required (empty if no clarification needed)",
        },
      },
      required: ["needs_clarification", "analysis_text", "missing_information"],
    },
  });

  const prompt = `
    Based on this precedent:
    Case: ${m.title}
    Outcome: ${m.outcome}
    Reasoning: ${m.reasoning}
    Key terms: ${m.keyTerms}

    And the lawyer's question: "${state.query}"

    Draft a legal analysis applying this precedent to the question.
    
    If you need more context about the specific contract terms, timeline details, 
    or other critical information to provide accurate analysis, set needs_clarification 
    to true and list what information is missing.
    
    Otherwise, provide the legal analysis directly.
  `;

  const response = await structuredLlm.invoke([
    {
      role: "system",
      content:
        "You are a legal research assistant that analyzes cases and identifies when additional context is needed.",
    },
    { role: "user", content: prompt },
  ]);

  let displayText: string;
  if (response.needs_clarification) {
    const missingInfoList = response.missing_information
      .map((info: string, i: number) => `${i + 1}. ${info}`)
      .join("\n");
    displayText = `AMBIGUITY DETECTED:\n${response.analysis_text}\n\nMissing information:\n${missingInfoList}`;
  } else {
    displayText = `ANALYSIS:\n${response.analysis_text}`;
  }

  console.log(displayText + "\n");

  return {
    draftAnalysis: displayText,
    ambiguityDetected: response.needs_clarification,
  };
}

图中的两条路径如下所示：

左侧路径包含一个额外的节点，用于处理澄清。

requestClarification:当系统判定草稿分析缺少关键背景信息时，此节点会触发第二轮人机协同步骤。工作流会被中断，系统会要求用户对前一节点检测到的缺失合同细节进行说明。

function requestClarification(state: typeof LegalResearchState.State) {
  console.log("\n⚖️  HITL #2: Additional context needed\n");
  const userClarification = interrupt({
    question: "👨‍⚖️  Please provide clarification about your contract terms:",
  });
  return { userClarification };
}

generateFinalAnalysis：此节点在必要时会将用户所选判例与用户提供的额外背景信息相结合，从而生成最终法律分析。借助上一轮 HITL 步骤中收集到的澄清信息，LLM 会综合判例的判决依据、用户提供的合同细节以及判定违约是否可能发生的条件，形成最终分析结果。

该节点可提供完整的分析，将法律解释和实际建议融为一体。

async function generateFinalAnalysis(state: typeof LegalResearchState.State) {
  console.log("📋 Generating final legal analysis...\n");

  const precedent = state.selectedPrecedent;
  if (!precedent) return { finalAnalysis: "" };

  const m = precedent.metadata;

  const prompt = `
    Original question: "${state.query}"
    
    Selected precedent: ${m.title}
    Outcome: ${m.outcome}
    Reasoning: ${m.reasoning}
    
    Lawyer's clarification: "${state.userClarification}"
    
    Provide a comprehensive legal analysis integrating:
    1. The selected precedent's reasoning
    2. The lawyer's specific contract context
    3. Conditions for breach vs. no breach
    4. Practical recommendations
  `;

  const response = await llm.invoke([
    {
      role: "system",
      content:
        "You are a legal research assistant providing comprehensive analysis.",
    },
    { role: "user", content: prompt },
  ]);

  const finalAnalysis = response.content as string;

  console.log(
    "\n" +
      "=".repeat(80) +
      "\n" +
      "⚖️  FINAL LEGAL ANALYSIS\n" +
      "=".repeat(80) +
      "\n\n" +
      finalAnalysis +
      "\n\n" +
      "=".repeat(80) +
      "\n"
  );

  return { finalAnalysis };
}

构建图表：

const workflow = new StateGraph(LegalResearchState)
  .addNode("analyzeQuery", analyzeQuery)
  .addNode("searchPrecedents", searchPrecedents)
  .addNode("precedentSelection", precedentSelection)
  .addNode("selectPrecedent", selectPrecedent)
  .addNode("createDraft", createDraft)
  .addNode("requestClarification", requestClarification)
  .addNode("generateFinalAnalysis", generateFinalAnalysis)
  .addEdge("__start__", "analyzeQuery")
  .addEdge("analyzeQuery", "searchPrecedents")
  .addEdge("searchPrecedents", "precedentSelection") // HITL #1
  .addEdge("precedentSelection", "selectPrecedent")
  .addEdge("selectPrecedent", "createDraft")
  .addConditionalEdges(
    "createDraft",
    (state: typeof LegalResearchState.State) => {
      // If ambiguity detected, request clarification (HITL #2)
      if (state.ambiguityDetected) return "needsClarification";
      // Otherwise, generate final analysis
      return "final";
    },
    {
      needsClarification: "requestClarification",
      final: "generateFinalAnalysis",
    }
  )
  .addEdge("requestClarification", "generateFinalAnalysis") // HITL #2
  .addEdge("generateFinalAnalysis", "__end__");

从图中，我们可以看出条件边定义了选择“最终”路径的条件。如图所示，现在的决策取决于草案分析是否检测到存在需要额外澄清的歧义。

将所有内容汇总起来执行：

await ingestData();

// Compile workflow
const app = workflow.compile({ checkpointer: new MemorySaver() });
const config = { configurable: { thread_id: "hitl-circular-thread" } };

await saveGraphImage(app);

// Execute workflow
const legalQuestion =
    "Does a pattern of repeated delays constitute breach even if each individual delay is minor?"; 

console.log(`⚖️  LEGAL QUESTION: "${legalQuestion}"\n`);

let currentState = await app.invoke({ query: legalQuestion }, config);

// Handle all interruptions in a loop
while ((currentState as any).__interrupt__?.length > 0) {
  console.log("\n💭 APPLICATION PAUSED WAITING FOR USER INPUT...");

  const interruptQuestion = (currentState as any).__interrupt__[0]?.value
    ?.question;
  const userChoice = await getUserInput(
    interruptQuestion || "👤 YOUR CHOICE: "
  );

  currentState = await app.invoke(
    new Command({ resume: userChoice }),
    config
  );
}

执行脚本：

分配好所有代码后，让我们在终端上执行 main.ts 文件，编写以下命令：

tsx main.ts

脚本执行后，问题“即便每次单独的延误都较为轻微，一连串重复出现的延误是否构成违约？”将被发送至 Elasticsearch 以执行邻近搜索，从索引中检索到的结果将予以展示。应用程序检测到多个相关判例与查询匹配，因此暂停执行，并请求用户协助明确哪个法律判例最为适用：

📚 Searching for relevant legal precedents with query:
 Does a pattern of repeated delays constitute breach even if each individual delay is minor?
Found 5 relevant precedents:

1. Case H: Pattern of Repeated Delays (CASE-H-2021)
   Type: ongoing service agreement
   Outcome: breach found
   Key reasoning: pattern demonstrated failure to perform, cumulative effect
   Delay period: multiple instances

2. Case E: Minor Delay Quality Maintained (CASE-E-2022)
   Type: service agreement
   Outcome: minor breach only
   Key reasoning: delay minimal, quality maintained, termination unjustified
   Delay period: five days

3. Case A: Delay Breach with Operational Impact (CASE-A-2023)
   Type: service agreement
   Outcome: breach found
   Key reasoning: delay affected operations and caused financial harm
   Delay period: two weeks

4. Case B: Delay Without Explicit Schedule (CASE-B-2022)
   Type: consulting agreement
   Outcome: no breach found
   Key reasoning: no explicit deadline defined, no demonstrable harm
   Delay period: three weeks

5. Case C: Justified Delay External Factors (CASE-C-2023)
   Type: construction service
   Outcome: no breach found
   Key reasoning: external factors beyond control, force majeure applied
   Delay period: one month

⚖️  HITL #1: Human input needed

💭 APPLICATION PAUSED WAITING FOR USER INPUT...
👨‍⚖️  Which precedent is most similar to your case?

这款应用程序的有趣之处在于，我们能够使用自然语言来选择一个选项，让 LLM 解析用户输入内容，从而确定正确选择。让我们看看，若输入文本“Case H”会发生什么。

💭 APPLICATION PAUSED WAITING FOR USER INPUT...
👨‍⚖️  Which precedent is most similar to your case? Case H

✅ Selected: Case H: Pattern of Repeated Delays

📝 Drafting initial legal analysis...

AMBIGUITY DETECTED:
Based on Case H, a pattern of repeated delays can indeed constitute a breach of contract, even if each individual delay is minor. The outcome in Case H indicates that the cumulative effect of these minor delays led to a significant failure to perform the contractual obligations adequately. The reasoning emphasizes that consistent performance is critical in fulfilling the terms of a contract. Therefore, if the repeated delays create a situation where the overall performance is hindered, this pattern could be interpreted as a breach. However, the interpretation may depend on the specific terms of the contract at issue, as well as the expectations of performance set forth in that contract.

Missing information:
1. Specific contract terms regarding performance timelines
2. Details on the individual delays (duration, frequency)
3. Context on consequences of delays stated in the contract
4. Other parties' expectations or agreements related to performance


⚖️  HITL #2: Additional context needed


💭 APPLICATION PAUSED WAITING FOR USER INPUT...
👨‍⚖️  Please provide clarification about your contract terms:

模型会采纳用户的澄清信息，并将其整合进工作流，在提供足够背景信息后开展最终分析。在此步骤中，系统还会利用先前检测到的歧义：草案分析指出合同中缺失的细节，这些细节可能对法律解释产生实质性影响。这些“缺失信息”项为模型提供指引，助其确定在给出可靠最终意见前，为消除不确定性而必须获取的关键澄清内容。

用户必须在下一次输入中包含此前被要求澄清的内容。我们以如下内容为例进行尝试：“合同要求‘及时交付’，但未规定时间期限。在 6 个月内出现 8 次 2-4 天的延误。因错过 3 次客户截止日期，造成 5 万美元损失。已通知供应商，但此类情况仍持续发生。”

💭 APPLICATION PAUSED WAITING FOR USER INPUT...
👨‍⚖️  Please provide clarification about your contract terms: Contract requires "prompt delivery" without timelines. 8 delays of 2-4 days over 6 months. $50K in losses from 3 missed client deadlines. Vendor notified but pattern continued.

📋 Generating final legal analysis...

================================================================================
⚖️  FINAL LEGAL ANALYSIS
================================================================================

To analyze the question of whether a pattern of repeated minor delays constitutes a breach of contract, we need to combine insights from the selected precedent, the specifics of the lawyer's contract situation, conditions that typically govern breach versus non-breach, and practical recommendations for the lawyer moving forward.

### 1. Selected Precedent's Reasoning

The precedent case, referred to as Case H, found that a pattern of repeated delays amounted to a breach of contract. The court reasoned that even minor individual delays, when considered cumulatively, demonstrated a failure to perform as stipulated in the contract. The underlying rationale was that the cumulative effect of these minor delays could significantly undermine the purpose of the contract, which typically aims for timely performance and reliable delivery.

### 2. Lawyer's Specific Contract Context

In the lawyer's situation, the contract specified "prompt delivery" but did not provide a strict timeline. The vendor experienced 8 delays ranging from 2 to 4 days over a period of 6 months. These delays culminated in $50,000 in losses due to three missed client deadlines. The vendor was notified regarding these delays; however, the pattern of delays persisted.

Key considerations include:
- **Nature of the Obligations**: While “prompt delivery” does not define a strict timeline, it does imply an expectation for timely performance.
- **Material Impact**: The missed client deadlines indicate that these delays had a material adverse effect on the lawyer's ability to fulfill contractual obligations to third parties, likely triggering damages.

### 3. Conditions for Breach vs. No Breach

**Conditions for Breach**:
- **Pattern and Cumulative Effect**: Similar to the reasoning in Case H, evidence of a habitual pattern of delays can amount to a breach. Even if individual delays are minor, when combined, they may show a lack of diligence or reliability by the vendor.
- **Materiality**: The impact of these delays is crucial. If the cumulative delays adversely affect the contract's purpose or cause significant losses, this reinforces the case for a breach.
- **Notification and Opportunity to Cure**: The fact that the vendor was notified of the delays and failed to rectify the behavior can often be interpreted as a further indication of breach.

**Conditions for No Breach**:
- **Non-Material Delays**: If the delays did not affect the overall contractual performance or client obligations, this may lessen the likelihood of establishing a breach. However, given the risks and losses involved, this seems less relevant in this scenario.
- **Force Majeure or Justifiable Delays**: If the vendor could show that these delays were due to justify circumstances not within their control, it may potentially provide a defense against breach claims.

### 4. Practical Recommendations

1. **Assess Damages**: Document the exact nature of the financial losses incurred due to the missed deadlines to substantiate claims of damages.
  
2. **Gather Evidence**: Collect all communication regarding the delays, including any notifications sent to the vendor about the issues.

3. **Consider Breach of Contract Action**: Based on the precedent and accumulated delays, consider formalized communication to the vendor regarding a breach of contract claim, highlighting both the pattern and the impact of these repeated delays.

4. **Evaluate Remedies**: Depending upon the contract specifics, the lawyer may wish to pursue several remedies, including:
   - **Compensatory Damages**: For the financial losses due to missed deadlines.
   - **Specific Performance**: If timely delivery is critical and can still be enforced.
   - **Contract Termination**: Depending on the severity, terminating the contract and seeking replacements may be warranted.

5. **Negotiate Terms**: If continuing to work with the current vendor is strategic, the lawyer should consider renegotiating terms for performance guarantees or penalties for further delays.

6. **Future Contracts**: In future contracts, consider including explicit timelines and conditions for prompt delivery, as well as specified damages for delays to better safeguard against this issue.

By integrating the legal principles from the precedent with the specific context and conditions outlined, the lawyer can formulate a solid plan to address the repeated delays by the vendor effectively.

此输出展示了工作流的最终阶段，在该阶段，模型将所选判例 (Case H) 与律师的澄清信息相结合，以生成一份完整的法律分析报告。系统解释了延误交付很可能构成违约的原因，列举了支持这一解释的各项因素，并给出了切实可行的建议。总体而言，该输出展示了 HITL 澄清如何消除歧义，并使模型能够生成有充分依据、贴合具体情境的法律意见。

其他真实场景

这种借助 Elasticsearch、LangGraph 以及人机协同技术的应用，在其他各类应用程序中也可能颇具价值，例如：

在工具调用执行前对其进行审查，例如在金融交易领域，人类会在下买入/卖出订单前予以批准。
在需要时提供额外参数，例如在客户支持分流场景中，当 AI 对客户问题存在多种可能的解读时，人类客服人员会选择正确的问题类别。

还有大量有待发掘的用例，在这些用例中，人机协同将成为具有变革性的关键因素。

结论

借助 LangGraph 和 Elasticsearch，我们能够构建具备自主决策能力且可作为线性工作流运行的智能体，或者构建具有条件判断功能、可依据不同条件选择不同路径的智能体。引入人机协同机制后，这些智能体能在决策过程中让实际用户参与进来，以填补背景信息空白，并在容错性至关重要的系统中请求用户确认。

此方法的优势之一在于，能够借助 Elasticsearch 的功能对大规模数据集进行筛选，随后利用 LLM 获取用户所选的单一文档。若仅使用 Elasticsearch 完成最后这一步骤，难度会大得多，因为人类在运用自然语言指代某个结果时，方式多种多样。

这种方法能够确保系统保持高速运行且令牌使用高效，因为我们仅向 LLM 发送做出最终决策所需的信息，而非整个数据集。与此同时，该方法还能使系统在检测用户意图方面保持高度精准，并不断迭代，直至选定用户期望的选项。

在 Streams 中利用机器学习自动化日志解析

Nastia Havriushenko — Fri, 02 Jan 2026 00:00:00 GMT

在现代可观测性技术栈中，将来自不同数据源的非结构化日志摄入 Elasticsearch 等平台仍是一项挑战。依赖人工编写的解析规则会让数据管道变得脆弱 — 即使上游代码只有少量更新，也可能导致解析失败、数据无法建立索引。这种脆弱性还会因可扩展性问题而进一步恶化，在动态的微服务环境中，新服务不断加入，手动维护规则很快就会变成运维噩梦。

我们的目标是转向一种自动化、自适应的方法，能够同时处理日志解析（字段提取）和日志分区（来源识别）。我们假设，大语言模型（LLM）凭借对代码语法与语义模式的理解，能够在最少人工干预的情况下自动处理这些任务。

我们很高兴地宣布，此功能已在 Streams 中正式推出！

数据集描述

我们选择了Loghub 日志集合用于概念验证。我们的调查从以下关键领域选取了代表性样本：

分布式系统：我们使用了 Hadoop 分布式文件系统 (HDFS) 和 Spark 数据集。这些日志混合了大数据平台典型的信息、调试和错误消息。
服务器与 Web 应用：Apache Web 服务器和 OpenSSH 的日志提供了访问、错误以及与安全相关事件的重要信息来源，这对于监控 Web 流量和检测潜在威胁至关重要。
操作系统：我们纳入了 Linux 和 Windows 日志。这些数据集代表了运维团队日常处理的常见、半结构化系统级事件。
移动系统：为确保模型能处理移动环境日志，我们加入了 Android 数据集。这些日志通常较为冗长，涵盖了移动设备上广泛的应用程序和系统级活动。
超级计算机：为测试在高性能计算环境下的表现，我们引入了 BGL 数据集，其特点是包含使用特定领域术语的高度结构化日志。

Loghub 集合的一个关键优势在于，其日志基本未经清洗处理和标注，真实模拟了具有微服务架构的、嘈杂的线上生产环境。

日志示例：

[Sun Dec 04 20:34:21 2005] [notice] jk2_init() Found child 2008 in scoreboard slot 6
[Sun Dec 04 20:34:25 2005] [notice] workerEnv.init() ok /etc/httpd/conf/workers2.properties
[Mon Dec 05 11:06:51 2005] [notice] workerEnv.init() ok /etc/httpd/conf/workers2.properties
17/06/09 20:10:58 INFO output.FileOutputCommitter: Saved output of task 'attempt_201706092018_0024_m_000083_1138' to hdfs://10.10.34.11:9000/pjhe/test/1/_temporary/0/task_201706092018_0024_m_000083
17/06/09 20:10:58 INFO mapred.SparkHadoopMapRedUtil: attempt_201706092018_0024_m_000083_1138: Committed

此外，我们还搭建了一个包含典型 Web 应用与数据库的 Kubernetes 集群，用于在最常见的场景中采集更多日志。

常见日志字段示例：时间戳、日志级别（INFO、WARN、ERROR）、来源、消息内容。

使用 LLM 进行少样本日志解析

我们的首轮实验聚焦于一个根本问题：LLM 能否可靠地识别关键字段，并生成一致的解析规则来提取它们？

我们要求模型分析原始日志样本，并以正则表达式和 Grok 格式生成解析规则。结果显示，此方法潜力巨大，但也面临显著的实现挑战。

高置信度与上下文感知

初步结果令人鼓舞。LLM 展现出强大的能力，能高置信度地生成与提供的少数样本相匹配的解析规则。除了简单的模式匹配，模型还展现出对日志的理解能力 — 它能正确识别并命名产生日志的来源服务（例如健康追踪应用、Nginx Web 应用、Mongo 数据库）。

输入样本的“恰到好处”困境

我们的实验很快暴露出一个明显的鲁棒性问题，即对输入样本极其敏感。模型的性能会根据提示中包含的具体日志样本而剧烈波动。我们观察到一个日志相似性难题：样本里的日志需要达到适中的多样性水平，从而避免：

过于同质（过拟合）：如果输入日志过于相似，LLM 倾向于过度具体化。它会把可变数据（例如堆栈跟踪里的具体 Java 类名）当成模板的固定部分。这导致生成的规则非常脆弱，只能覆盖极少部分日志，并提取出无用的字段。
过于异质（困惑）：反之，如果样本包含显著的格式差异（或更糟，包含了“垃圾日志”），模型就难以找到共同模式。它往往会生成复杂但有缺陷的正则表达式，或直接将整行内容过度泛化为一个单一的消息块字段。

上下文窗口限制

我们还遇到了上下文窗口瓶颈。当输入日志较长、异构或包含大量可提取字段时，模型的输出质量常常会下降，变得“混乱”或过长而超出输出上下文窗口。在这种情况下，分块会有所帮助。通过使用基于字符和基于实体的分隔符来分割日志，我们可以帮助模型专注于提取主要字段，而不被噪声淹没。

一致性与标准化差距

即使模型成功生成规则，我们也注意到一些细微的不一致：

服务命名差异：模型在不同运行中会对同一实体使用不同名称（例如将来源标记为“Spark”“Apache Spark”“Spark Log Analytics”）。
字段命名差异：字段名称缺乏标准化（例如，id vs. service.id vs. device.id）。我们使用标准化的 Elastic 字段命名规范对名称进行了统一。
解析粒度差异：字段提取的粒度因输入日志之间的相似程度而异。

日志格式指纹

为了解决日志相似性问题，我们引入了一种高性能的启发式方法：日志格式指纹（LFF）。

我们不再将原始、嘈杂的日志直接输入 LLM，而是首先应用一种确定性转换来揭示每条消息的底层结构。这个预处理步骤抽象掉变量数据，生成一个简化的“指纹”，使我们能够对相关日志进行分组。

映射逻辑很简单，以确保速度和一致性：

数字抽象：任何数字序列（0–9）都会替换为单个“0”。
文本抽象：任何由字母字符及其间空白组成的序列都会替换为单个“a”。
空白字符规范化：所有空白字符序列被压缩为单个空格。
符号保留：标点符号和特殊字符被保留，因为它们通常是日志结构最有力的指示符。

我们引入了日志映射方法。基本映射模式包括以下几种：

任意长度的数字（0–9）→ 替换为单个“0”。
任意长度的文本（字母字符及空白）→ 替换为单个“a”。
空格、制表符和换行符 → 合并为一个空格。

让我们看一个这种映射如何转换日志的例子。

因此我们得到如下日志“掩码”（指纹）：

请注意前两个日志的指纹。尽管时间戳、来源类名和消息内容不同，但它们的前缀（0/0/0 0:0:0 a a.a:）完全一致。这种结构上的一致性使我们能够自动将这些日志归入同一个聚类。这种结构上的一致性使我们能自动把这些日志分桶到同一个聚类中。

第三个日志会生成完全不同的指纹（0-0-0...），这使我们能够在调用 LLM 之前就用算法将其与第一组区分开来。这使我们在调用LLM 之前，通过算法将其与第一组分离。

奖励部分：使用 ES|QL 进行即时实施

在 Discover 中运行这条查询就能做到这一点，非常简单。

FROM loghub |
EVAL pattern = REPLACE(REPLACE(REPLACE(REPLACE(raw_message, "[ \t\n]+", " "), "[A-Za-z]+", "a"), "[0-9]+", "0"), "a( a)+", "a") |
STATS total_count = COUNT(), ratio = COUNT() / 2000.0, datasources=VALUES(filename), example=TOP(raw_message, 3, "desc") BY SUBSTRING(pattern, 0, 15) |
SORT total_count DESC |
LIMIT 100

查询解析：

FROM loghub：指向包含原始日志数据的索引。

EVAL pattern =…：核心映射逻辑。我们通过链式 REPLACE 函数执行抽象化处理（例如将数字替换为“0”、文本替换为“a”等），并将结果保存至“pattern”字段。

STATS [column1 =] expression1, … BY SUBSTRING(pattern, 0, 15):

这是一个集群步骤。我们将具有前 15 个字符相同的日志进行分组，并创建聚合字段，例如每组的日志总数、日志数据源列表、模式前缀以及 3 条日志示例。

SORT total_count DESC | LIMIT 100：显示出现频率最高的前 100 个日志模式

查询结果的可视化如下所示：

如可视化所示，这种“无需 LLM”的方法能够以很高的准确率对日志进行分区/归因分组。它（基于 LogHub 标签）在 16 个数据源中有 10 个实现了几乎完全的聚类（>90%），并在 16 个数据源中的 13 个实现了多数聚类（>60%），且无需额外清洗、预处理或微调。

日志格式指纹为日志模式分析等复杂的 ML 解决方案提供了一种务实、高效的替代与补充方案。它能立即洞察日志间的关系，并有效管理大型日志集群。

作为基础组件的多功能性

借助 ES|QL 实现，LFF 既可作为独立工具用于快速数据诊断/可视化，也可作为日志分析流水线中的基础构件，支撑高吞吐量场景。

灵活性

LFF 易于定制和扩展以捕获特定模式，例如十六进制数和 IP 地址。

确定性稳定性

与基于 ML 的聚类算法不同，LFF 逻辑简单且确定。新传入的日志不会追溯性地影响现有的日志聚类。

性能与内存

它需要最少的内存，无需训练或 GPU，非常适合实时高吞吐量环境。

结合日志格式指纹与 LLM

为了验证所提出的混合架构，每个实验都包含来自每个数据源的日志的随机 20% 子集。此约束模拟了现实世界的生产环境，在该环境中，日志是批量处理的，而不是作为一个整体的历史转储进行处理。

目标是证明 LFF 能作为有效的压缩层。我们希望证明，即使只用少量经过筛选的样本，也能生成高覆盖率的解析规则，并成功泛化到整个数据集。

执行管道

我们实现了一个多阶段流程，在数据到达 LLM 之前对其进行过滤、聚类和应用分层抽样。

1. 两阶段分层聚类

子类（精确匹配）：通过完全相同的指纹对日志进行聚合。同一子类的每个日志共享完全相同的格式结构。
异常值清理：丢弃占总日志量少于 5% 的任何子类，这确保 LLM 聚焦于主要信号，不会被噪声或格式异常的日志带偏。
元类（前缀匹配）：剩余的子类通过格式指纹的前 N 个字符匹配分组到元类中。这种分组策略可有效将词汇相似的格式归并到同一个大类下。当数据源未知时，我们选择 N=5 用于日志解析，N=15 用于数据源未知时的日志分区。

2. 分层抽样。一旦分层树构建完成，我们为 LLM 构建日志样本。战略目标是最大化方差覆盖，同时最小化 Token 使用。

我们从更广泛的元类中，为每个有效子类选取具有代表性的日志。
为处理子类过多的边缘情况，应用随机下采样以适应目标窗口大小。

3. 规则生成：最后，我们提示 LLM 为每个元类生成一个适用于所提供样本中所有日志的正则表达式解析规则。在概念验证中，我们使用了 GPT-4o mini 模型。

实验结果与观察

我们在 Loghub 数据集上实现了 94% 的解析准确率和 91% 的分区准确率。

混淆矩阵展示了日志分区结果。垂直轴代表实际数据源，水平轴代表预测的数据源。热图颜色深浅对应日志量，颜色越浅表示数量越多。对角线排列显示了模型在来源归因上的高保真度，且分散极少。

我们的性能基准测试洞察：

最佳基线：每个类别 30–40 条日志样本的上下文窗口被证明是“最佳区间”，能稳定生成稳健的 Regex 与 Grok 解析模式。
输入最小化：我们将每个类别的输入大小推至 10 个日志（用于正则表达式模式），仅观察到解析性能下降 2%，这证实了基于多样性的抽样比原始数量更为关键。

在 Google MCP Toolbox for Databases 中引入 Elasticsearch 支持

Enrico Zimuel, Laurent Saint-Félix — Fri, 12 Dec 2025 00:00:00 GMT

在本文中，我们将介绍如何使用带有 Elasticsearch 的 Google MCP Toolbox 来构建一个用于从 Elasticsearch 索引中提取信息的简单工具。

我们最近为 Google MCP Toolbox for Databases 开源项目做出了贡献，为其添加了对 Elasticsearch 数据库的支持。

有了这项新功能，您现在可以使用 Google MCP Toolbox 连接到 Elasticsearch，并直接与数据“对话”。

Elasticsearch

我们需要运行一个 Elasticsearch 实例。您可以在 Elastic Cloud 上激活免费试用版，或使用 start-local 脚本在本地安装：

curl -fsSL https://elastic.co/start-local | sh

这将在计算机上安装 Elasticsearch 和 Kibana，并生成用于配置 Google MCP Toolbox 的 API 密钥。

API 密钥将显示为上一条命令的输出，并存储在 elastic-start-local 文件夹的 .env 文件中。

安装示例数据集

安装完成后，您可以使用启动本地脚本（存储在 .env 文件中）生成的用户名 elastic 和密码登录 Kibana。

您可以安装 Kibana 提供的电子商务订单数据集。它包含一个名为 kibana_sample_data_ecommerce 的单个索引，其中包含来自一家电子商务网站的 4,675 个订单的信息。对于每笔订单，我们都有以下信息：

客户信息（姓名、ID 号码、出生日期、电子邮件等）
订单日期
订单编号
产品（包含价格、数量、ID、类别、折扣等信息的所有产品列表）
SKU
总价（不含税，含税）
总数量
地理信息（城市、国家、洲、位置、地区）

要安装示例数据，请在 Kibana 中打开“集成”页面（在顶部搜索栏中搜索“集成”），然后安装“示例数据”。有关详细信息，请参阅此处的文档：https://www.elastic.co/docs/explore-analyze/#gs-get-data-into-kibana。

本文旨在展示如何轻松配置 Google MCP Toolbox 以连接到 Elasticsearch，并使用自然语言与 kibana_sample_data_ecommerce 索引进行交互。

Google MCP 工具箱

Google MCP Toolbox 是一款开源 MCP 服务器，旨在使应用程序和 AI 代理能够轻松、安全、高效地与数据库进行交互。该项目以前称为“GenAI Toolbox for Databases”，在与模型上下文协议 (MCP) 完全兼容后重新命名。其目的是通过在幕后处理连接池、身份验证、可观察性和其他操作问题，消除传统上需要将代理连接到数据库的繁重工作。

Toolbox 的核心功能是允许开发人员定义可重用的高级工具，封装数据库交互操作。然后，任何兼容 MCP 的客户端（如 AI 代理）都可以调用这些工具，而无需客户端执行低级 SQL 查询或管理数据库连接。这种方法大大减少了构建数据库感知代理所需的模板代码量，只需几行应用程序逻辑就能集成高级数据操作。一旦定义工具，就可以在多个代理、框架或语言之间共享（图 1）。

使用 Toolbox 的一大优势是内置的安全模型。原生支持 OAuth2 和 OIDC 等身份验证流程，使开发者避免在代理中处理或存储敏感的数据库凭据。该平台还通过 OpenTelemetry 提供可观测性功能（包括指标和跟踪），这对于调试、监控和生产部署至关重要。总而言之，MCP Toolbox 是一个统一、安全和可扩展的接口，可从任何支持 MCP 的系统与您的数据进行交互。

如何安装 MCP Toolbox

您可以使用以下命令在 Linux 上安装 MCP Toolbox 服务器：

export VERSION=0.21.0
curl -L -o toolbox https://storage.googleapis.com/genai-toolbox/v$VERSION/linux/amd64/toolbox
chmod +x toolbox

如果您想将其安装在 macOS 或 Windows 上，您可以按照此处的详细说明进行操作。

配置适用于 Elasticsearch 的 Toolbox

要为 Elasticsearch 配置 MCP Toolbox，我们需要创建一个 tools.yaml 文件，如下所示：

sources:
  my-cluster:
    kind: elasticsearch
    addresses:
      - http://localhost:9200
    apikey: 

tools:
  customer-orders:
    kind: elasticsearch-esql
    source: my-cluster
    description: Get the orders made by a customer identified by name.
    query: |
    	FROM kibana_sample_data_ecommerce | WHERE MATCH(customer_full_name, ?name, {"operator": "AND"})
    parameters:
      - name: name
        type: string
        description: The customer name.

toolsets:
  elasticsearch-tools:
    - customer-orders

您需要使用有效的 Elasticsearch API 密钥替换值。如果您使用 start-local 在本地运行 Elasticsearch，则可以在.env 文件中找到由 start-local 生成的 API 密钥，位于 ES_LOCAL_API_KEY 变量下。如果您正在使用 Elastic Cloud，则可以按照此处所描述的步骤生成 API 密钥。

之前的工具包含以下适用于 Elasticsearch 的 ES|QL 查询：

FROM kibana_sample_data_ecommerce | WHERE MATCH(customer_full_name, ?name)

如果您不熟悉 ES|QL，它是由 Elastic 开发的一种类似于 SQL 的查询语言，可用于在一个或多个索引中进行搜索。您可以在此处的正式文档中阅读有关 ES|QL 的更多信息。

上述查询使用 ?name 参数（问号表示参数）搜索存储在 kibana_sample_data_ecommerce 索引中所有包含指定客户姓名的订单。

在之前的 YAML 配置中，客户名称使用字符串类型并附带描述“客户名称”来定义。

此工具可用于回答有关客户订单的问题——例如：客户 Foo 在 2025 年 10 月下了多少订单？

对工具及其参数的描述对于从用户的自然语言请求中提取相关信息至关重要。这种提取是通过大型语言模型 (LLM) 的函数调用功能实现的。在实践中，LLM 可以确定需要执行哪个函数（工具）以获取必要的信息，并为该函数指定适当的参数。

有关函数调用的更多信息，我们建议阅读 Ashish Tiwari 撰写的《使用 Elasticsearch 进行 OpenAI 函数调用》。

运行 Toolbox 服务器

您可以使用之前的 tools.yaml 文件，通过以下命令运行 MCP 工具箱：

./toolbox --tools-file tools.yaml --ui

—ui 参数在 http://127.0.0.1:5000/ui 上运行 Web 应用程序（图 2）。

您可以选择工具 > 客户订单，并在参数名称（例如，Gwen Sanders）中插入客户名称。然后点击“运行工具”按钮。您应该会看到如图 3 所示的 JSON 响应。

设置已完成，MCP Toolbox 可以执行客户订单工具与 Elasticsearch 进行通信，运行 ES|QL 查询。

将 MCP Toolbox 与 Gemini CLI 结合使用

我们可以使用任何 MCP 客户端与 MCP Toolbox for Databases 进行通信。例如，我们可以使用命令行工具 Gemini CLI 来使用 Gemini。您可以按照此处提供的说明安装 Gemini CLI。

Gemini CLI 为 MCP Toolbox 提供了一个预配置扩展程序，可在 gemini-cli-extensions/mcp-toolbox 上获取。您可以通过运行以下命令来安装此扩展程序：

gemini extensions install https://github.com/gemini-cli-extensions/mcp-toolbox

安装完成后，您需要进入为 MCP Toolbox 存储 tools.yaml 配置文件的目录，并按如下步骤执行 Gemini CLI（此步骤是 Gemini CLI 与 MCP Toolbox 自动配置所必需的）：

gemini

您应该会看到图 4 中所示的输出广告。

您可以使用以下命令检查 MCP Toolbox 是否已连接：

/mcp list

您应该能看到已列出客户订单工具的 mcp_toolbox（图 5）。

如果 MCP Toolbox 已连接到 Gemini CLI，我们现在可以尝试问一些问题，例如：“给我客户 Gwen Sanders 的订单。”然后，Gemini CLI 将向 mcp_toolbox 服务器请求执行客户订单工具的权限（参见图 6）。

确认后，Gemini CLI 将向 MCP Toolbox 执行请求，得到 JSON 响应结果，并使用它来格式化响应（图 7）。

Gemini CLI 的响应将报告 Gwen Sanders 只下了一个订单，包含 2 件产品，总价为 132 欧元。

MCP 工具箱 SDK

Google MCP Toolbox 还提供一个 SDK，可用于访问用 Go、Python 和 Javascript 编写的程序中的所有功能。

例如，Python SDK 可在 Github 上获取，页面如下：https://github.com/googleapis/mcp-toolbox-sdk-python。

我们需要创建一个简单的代理来连接 MCP 工具箱。我们需要安装以下软件包：

pip install toolbox-core
pip install google-adk

然后使用以下命令创建一个新的代理项目：

adk create my_agent

这会创建一个名为 my_agent 的新目录，其中包含文件 agent.py。

使用以下内容更新 my_agent/agent.py，以连接到 Toolbox：

from google.adk import Agent
from google.adk.apps import App
from toolbox_core import ToolboxSyncClient

client = ToolboxSyncClient("http://127.0.0.1:5000")

root_agent = Agent(
    name='root_agent',
    model='gemini-2.5-flash',
    instruction="You are a helpful AI assistant designed to search information about a dataset of ecommerce orders.",
    tools=client.load_toolset(),
)

app = App(root_agent=root_agent, name="my_agent")

创建一个 .env文件，其中包含您的 Google API 密钥：

echo 'GOOGLE_API_KEY="YOUR_API_KEY"' > my_agent/.env

最后，我们可以运行代理并观察结果。要执行代理，您可以运行以下命令：

adk run my_agent

或者，您也可以通过 Web 接口提供服务：

adk web --port 8000

在这两种情况下，您都可以使用问答接口与 MCP Toolbox 进行交互。例如，您可以提出前一个问题：给我客户 Gwen Sanders 的订单。

有关不同 SDK 的更多信息，可以参考此文档页面。

结论

在本文中，我们演示了 Elasticsearch 与 Google MCP Toolbox for Databases 的集成。使用简单的 YAML 配置文件，我们可以定义一组工具，这些工具使用 ES|QL 语言将自然语言问题转换为 Elasticsearch 查询。

我们展示了如何与 kibana_sample_data_ecommerce 数据集进行交互，该数据集包含来自电子商务网站的订单。通过这个配置文件，我们可以简单地运行 MCP Toolbox 服务器并从任何 MCP 客户端连接到它。

最后，我们演示了如何使用 Gemini CLI 作为客户端连接到 MCP Toolbox for Databases 并查询存储在 Elasticsearch 中的电子商务数据。我们执行了自然语言查询，以检索有关特定客户（以姓名标识）的订单信息。

随着 MCP 生态系统的不断发展，这种模式——轻量级工具定义，由安全、生产就绪的基础架构支持——为构建越来越强大、数据感知的代理提供了新的机会，且所需努力最小。无论您是在本地尝试 Elastic 的示例数据集，还是将搜索功能集成到更大的应用程序中，MCP 工具箱都为使用自然语言与 Elasticsearch 数据进行交互提供了可靠、可扩展的基础。

有关代理 AI 应用程序开发的更多信息，您可以阅读 Anish Mathur 和 Dana Juratoni 撰写的《使用 Elasticsearch 构建 AI 代理工作流》。

有关 Google MCP Toolbox 的更多信息，请访问 https://googleapis.github.io/genai-toolbox/getting-started/introduction/。

使用判断列表评估搜索查询的相关性

Jhon Guzmán — Thu, 11 Dec 2025 00:00:00 GMT

从事搜索引擎开发的工程师们常常会遇到同一个问题：业务团队对某次特定搜索结果并不满意，因为他们期望排在搜索结果首位的文档，实际却出现在结果列表的第三或第四位。

然而，当你解决这一问题时，却可能因无法手动测试所有情况而不经意间破坏其他查询的功能。但你或你的 QA 团队该如何测试，以确认某一项查询的改动是否会对其他查询产生连锁反应呢？或者更关键的是，你们要如何确保所作的改动确实优化了某项查询呢？

转向系统性评估

这个时候，判断列表就可以派上用场。与其在每次更改时依赖手动和主观测试，不如定义一组与业务案例相关的固定查询及其相关结果。

这一组（测试用例或数据）将成为基准参照。每次实施改动时，你都用它来评估搜索效果是否确实得到了提升。

这种方法的价值在于：

消除不确定性：无需再费心猜测所做的更改是否会影响其他查询；数据会直接告诉你答案。
停止人工测试：一旦判定集被记录下来，测试便会自动执行。
佐证更改：你可以展示出明确的指标，以佐证某项更改所带来的益处。

如何开始建立判断列表

最简单的开始方式之一是获取具有代表性的查询，并手动选择相关文件。有两种方法可以列出此列表：

二元判断：与查询关联的每一份文档都会被赋予一个简单标签：相关（通常标注分数为“1”）和不相关（标注分数为“0”）。
分级判断：在此情境下，每份文档会依据不同等级获得相应分数。例如：采用 0 至 4 分的评分量表，类似于李克特量表，其中 0 分表示“完全不相关”，4 分表示“完全相关”，中间还设有“相关”“有点相关”等不同程度表述。

当搜索意图具有明确界限时，二元判断（是/否）十分奏效，即判断该文档是否应出现在搜索结果中？

当存在模糊地带时，分级判断更为实用：某些结果相较于其他结果更优，因此你可以将结果划分为“优秀”“良好”和“毫无价值”等不同等级，并运用能体现结果排序权重及用户反馈的评估指标。然而，分级量表也存在弊端：不同评审者对评分等级的使用方式可能存在差异，这会导致判断结果的一致性降低。并且，由于分级指标对高分赋予了更大的权重，即便是一个微小的改动（比如将某项评分从 4 分改为 3 分），也可能在指标上引发远超评审者预期的巨大波动。这种额外引入的主观性使得分级判断结果更具干扰性，且随时间推移愈发难以把控。

我需要自己对文件分类吗？

不一定，因为有多种不同方法创建判定列表，且每种方法各有其优缺点：

明确判断：在这种情况下，领域专家会逐一审阅每个查询/文档，并手动判定其相关性（或相关程度）。尽管此方法能确保质量并实现把控，但其可扩展性较差。
隐式判断：采用这种方法时，你会依据真实用户行为（如点击量、跳出率、购买行为等）来推断相关文档。此方法可实现数据的自动收集，但可能存在偏差。例如，用户往往更倾向于点击排名靠前的结果，即便这些结果并不相关。
AI 生成的判断：最后这种方法是借助模型（如 LLM）自动评估查询和文档，人们通常称之为LLM 陪审团。其优势在于速度快且易于扩展，不过数据质量取决于所用模型的性能，以及大语言模型训练数据与您业务需求的契合程度。与人工评分一样，LLM 评审团也可能引入自身偏见或出现前后不一致的情况，因此，必须对照一小部分可信判断结果来验证其输出结果。LLM 模型本质上具有概率性，所以即便将温度参数设置为 0，也常见同一结果被 LLM 模型给出不同评分的情况。

以下是一些选择最佳方法来构建判断集的建议：

明确界定哪些仅用户能恰当判断的要素对你而言至关重要（例如价格、品牌、语言、风格以及产品细节等）。如果这些要素至关重要，则至少需针对判断列表中的部分内容获取明确的判断结果。
当你的搜索引擎已有足够流量时，可运用隐式判断，即借助点击量、转化率以及停留时长等指标来洞察使用趋势。不过，你仍需谨慎解读这些数据，将其与显式判断结果进行对比，以规避潜在偏差（例如用户往往更倾向于点击排名靠前的结果，即便排名靠后的结果更具相关性）。

为解决这一问题，位置偏差消除技术会对点击数据进行调整或重新加权，以更准确地反映用户的真实兴趣。以下是一些方法：

结果随机排序：针对部分用户调整搜索结果的排序，以此估算结果位置对点击量的影响。
点击模型包括动态贝叶斯网络 DBN 和用户浏览模型 UBM。这些统计模型会借助滚动行为、停留时长、点击顺序以及返回结果页等模式，来估算用户点击行为反映真实兴趣（而非仅受结果位置影响）的概率。

示例：电影评分应用

准备工作

要运行此示例，需要一个正在运行的本地或部署在 Elastic Cloud 上（托管或无服务器）的 Elasticsearch 8.x 集群，以及访问 REST API 或 Kibana 的权限。

想象有一款应用程序，用户可以在其中上传自己对电影的看法，还可以搜索要观看的电影。由于文本由用户自己撰写，因此可能存在拼写错误和表达方式上的多种差异。因此，搜索引擎必须能够解读这种多样性，并为用户提供有用的结果。

为能在不影响整体搜索行为的前提下对查询进行迭代优化，贵公司业务团队基于最常执行的搜索查询，创建了以下二元判断集：

查询	DocID	文本
迪卡普里奥的表演	doc1	迪卡普里奥在《荒野猎人》中的表演令人惊叹。
迪卡普里奥的表演	doc2	《盗梦空间》中，莱昂纳多·迪卡普里奥饰演了他最具标志性的角色之一。
迪卡普里奥的表演	doc3	布拉德·皮特在这部犯罪惊悚片中表现出色。
迪卡普里奥的表演	doc4	一部充满惊险动作、视觉效果惊艳的冒险大片。
让人热泪盈眶的悲伤电影	doc5	这是一个令人心碎的关于爱与失去的故事，让我哭了好几个小时。
让人热泪盈眶的悲伤电影	doc6	有史以来最催泪的电影之一，记得带上纸巾！
让人热泪盈眶的悲伤电影	doc7	让你捧腹大笑的轻松喜剧
让人热泪盈眶的悲伤电影	doc8	一部充满动作与激情的科幻史诗巨作。

正在创建索引：

PUT movies
{
  "mappings": {
    "properties": {
      "text": {
        "type": "text"
      }
    }
  }
}

批量请求：

POST /movies/_bulk
{ "index": { "_id": "doc1" } }
{ "text": "DiCaprio performance in The Revenant was breathtaking." }
{ "index": { "_id": "doc2" } }
{ "text": "Inception shows Leonardo DiCaprio in one of his most iconic roles." }
{ "index": { "_id": "doc3" } }
{ "text": "Brad Pitt delivers a solid performance in this crime thriller." }
{ "index": { "_id": "doc4" } }
{ "text": "An action-packed adventure with stunning visual effects." }
{ "index": { "_id": "doc5" } }
{ "text": "A heartbreaking story of love and loss that made me cry for hours." }
{ "index": { "_id": "doc6" } }
{ "text": "One of the saddest movies ever made -- bring tissues!" }
{ "index": { "_id": "doc7" } }
{ "text": "A lighthearted comedy that will make you laugh." }
{ "index": { "_id": "doc8" } }
{ "text": "A science-fiction epic full of action and excitement." }

以下是该应用程序正在使用的 Elasticsearch 查询：

GET movies/_search
{
 "query": {
   "match": {
     "text": {
       "query": "DiCaprio performance",
       "minimum_should_match": "100%"
     }
   }
 }
}

从判断到指标

就其本身而言，判断列表并不提供太多信息；它们只是我们查询结果的期望。它们真正的优势在于，当我们使用它们来计算客观指标以衡量我们的搜索性能时。

如今，大多数常用指标包含

精度：衡量所有搜索结果中真正相关的结果比例。
召回率：衡量搜索引擎在检索出的 x 个结果中，找到的相关结果所占的比例。
折损累积增益（DCG）：用于衡量结果排序的质量，该指标基于最相关的结果应排在前列这一原则进行评估。
平均倒数排名（MRR）：用于衡量首个相关结果所处的排名位置情况。在列表中越靠前，其分数就越高。

以同样的电影评分应用程序为例，我们将计算召回率指标，看看我们的查询是否遗漏了任何信息。

在 Elasticsearch 中，我们可以通过排名评估 API，使用判断列表来计算指标。该 API 将判断列表、查询以及想要评估的指标作为输入，并返回一个数值，该数值是对查询结果与判断列表进行对比后得出的结果。

让我们针对已提出的这两个查询运行判定列表：

POST /movies/_rank_eval
{
 "requests": [
   {
     "id": "dicaprio-performance",
     "request": {
       "query": {
         "match": {
           "text": {
             "query": "DiCaprio performance",
             "minimum_should_match": "100%"
           }
         }
       }
     },
     "ratings": [
       {
         "_index": "movies",
         "_id": "doc1",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc2",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc3",
         "rating": 0
       },
       {
         "_index": "movies",
         "_id": "doc4",
         "rating": 0
       }
     ]
   },
   {
     "id": "sad-movies",
     "request": {
       "query": {
         "match": {
           "text": {
             "query": "sad movies that make you cry",
             "minimum_should_match": "100%"
           }
         }
       }
     },
     "ratings": [
       {
         "_index": "movies",
         "_id": "doc5",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc6",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc7",
         "rating": 0
       },
       {
         "_index": "movies",
         "_id": "doc8",
         "rating": 0
       }
     ]
   }
 ],
 "metric": {
   "recall": {
     "k": 10,
     "relevant_rating_threshold": 1
     }
 }
}

我们将向 rank_eval 发送两个请求：一个针对莱昂纳多·迪卡普里奥查询，另一个针对悲伤电影查询每个请求均包含一个查询及其对应的判定列表（评分）。我们无需对所有文档进行评分，因为未纳入评分范围的文档将被视为未作判定。在进行计算时，召回率仅考虑“相关文档集”，即那些在评分中被认定为相关的文档。

在此情形下，针对莱昂纳多·迪卡普里奥的查询召回率为 1，而悲伤电影查询的召回率为 0。这意味着对于第一个查询，我们能够获取到所有相关结果，而第二个查询则未获取到任何相关结果。因此，平均召回率为 0.5。

{
 "metric_score": 0.5,
 "details": {
   "dicaprio-performance": {
     "metric_score": 1,
     "unrated_docs": [],
     "hits": [
       {
         "hit": {
           "_index": "movies",
           "_id": "doc1",
           "_score": 2.4826927
         },
         "rating": 1
       },
       {
         "hit": {
           "_index": "movies",
           "_id": "doc2",
           "_score": 2.0780432
         },
         "rating": 1
       }
     ],
     "metric_details": {
       "recall": {
         "relevant_docs_retrieved": 2,
         "relevant_docs": 2
       }
     }
   },
   "sad-movies": {
     "metric_score": 0,
     "unrated_docs": [],
     "hits": [],
     "metric_details": {
       "recall": {
         "relevant_docs_retrieved": 0,
         "relevant_docs": 2
       }
     }
   }
 },
 "failures": {}
}

或许我们对 minimum_should_match 参数设置得过于严苛了，因为要求查询中的所有词汇都必须在文档中出现，这很可能会导致我们遗漏掉一些相关结果。不妨去掉 minimum_should_match 参数，这样只要文档中包含查询语句里的任意一个词汇，该文档就会被视为相关结果。

POST /movies/_rank_eval
{
 "requests": [
   {
     "id": "dicaprio-performance",
     "request": {
       "query": {
         "match": {
           "text": {
             "query": "DiCaprio performance"
           }
         }
       }
     },
     "ratings": [
       {
         "_index": "movies",
         "_id": "doc1",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc2",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc3",
         "rating": 0
       },
       {
         "_index": "movies",
         "_id": "doc4",
         "rating": 0
       }
     ]
   },
   {
     "id": "sad-movies",
     "request": {
       "query": {
         "match": {
           "text": {
             "query": "sad movies that make you cry"
           }
         }
       }
     },
     "ratings": [
       {
         "_index": "movies",
         "_id": "doc5",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc6",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc7",
         "rating": 0
       },
       {
         "_index": "movies",
         "_id": "doc8",
         "rating": 0
       }
     ]
   }
 ],
 "metric": {
   "recall": {
     "k": 10,
     "relevant_rating_threshold": 1
     }
 }
}

如你所见，通过在两个查询中的其中一个里移除 minimum_should_match 参数，现在两个查询的平均召回率都达到了 1。

{
  "metric_score": 1,
  "details": {
    "dicaprio-performance": {
      "metric_score": 1,
      "unrated_docs": [],
      "hits": [
        {
          "hit": {
            "_index": "movies",
            "_id": "doc1",
            "_score": 2.0661702
          },
          "rating": 1
        },
        {
          "hit": {
            "_index": "movies",
            "_id": "doc3",
            "_score": 0.732218
          },
          "rating": 0
        },
        {
          "hit": {
            "_index": "movies",
            "_id": "doc2",
            "_score": 0.6271719
          },
          "rating": 1
        }
      ],
      "metric_details": {
        "recall": {
          "relevant_docs_retrieved": 2,
          "relevant_docs": 2
        }
      }
    },
    "sad-movies": {
      "metric_score": 1,
      "unrated_docs": [],
      "hits": [
        {
          "hit": {
            "_index": "movies",
            "_id": "doc7",
            "_score": 2.1307156
          },
          "rating": 0
        },
        {
          "hit": {
            "_index": "movies",
            "_id": "doc5",
            "_score": 1.3160692
          },
          "rating": 1
        },
        {
          "hit": {
            "_index": "movies",
            "_id": "doc6",
            "_score": 1.190063
          },
          "rating": 1
        }
      ],
      "metric_details": {
        "recall": {
          "relevant_docs_retrieved": 2,
          "relevant_docs": 2
        }
      }
    }
  },
  "failures": {}
}

总而言之，移除 minimum_should_match: 100% 这一条件后，我们得以使两个查询均实现完美召回率。

我们做到了！对不对？

没那么快！

通过提升召回率，我们能够获取到更广泛的结果范围。然而，每一次调整都意味着需要权衡取舍。这正是为何要定义完整的测试用例，并运用不同指标来评估各项更改的原因。

使用判断列表和指标可以防止您在进行更改时盲目行事，因为现在您有数据可以支持这些更改。验证不再是手动和重复的，您可以在多个用例中测试您的更改。此外，A/B 测试允许您实时测试哪种配置最适合您的用户和业务案例，从而实现从技术指标到实际指标的完整循环。

使用判断列表的最终建议

运用判定列表开展工作，不仅关乎评估测量，更在于构建一个能让你自信迭代优化的框架。为实现这一目标，可遵循以下建议：

从小处着手，但一定要开始行动。你无需准备 10000 个查询，且每个查询都配有 50 个判断列表。你只需找出 5 到 10 个对业务场景最为关键的查询，并明确你期望在结果顶部看到的文档即可。这已经能为你提供一个基础。通常，你应优先从热门查询以及无结果的查询入手开展工作。你也可以先使用像精确率这样易于配置的指标进行测试，然后再逐步尝试更复杂的指标。
与用户核实。在生产环境中通过 A/B 测试对数据指标进行补充验证。如此一来，你便能知晓那些在指标上表现良好的更改是否也切实产生了实际影响。
保持列表有效性。你的商业案例会不断变化，关键问题也会随之变化。定期更新判断以反映新的需求。
使其成为流程的一部分。将判断列表整合到开发管道之中。确保每次配置更改、同义词添加或文本分析操作，都能自动对照基础列表进行验证。
将技术知识与战略相结合。不要仅仅满足于衡量精确率或召回率等技术指标。要利用评估结果为业务成果提供决策依据。

使用 LangGraph.js 和 Elasticsearch 构建金融 AI 搜索工作流。

Jeffrey Rengifo — Fri, 05 Dec 2025 00:00:00 GMT

构建 AI 搜索应用并不轻松：多重任务、数据拉取与抽取都需要紧密配合，才能形成流畅连贯的工作流。LangGraph 通过节点式结构让开发者轻松编排 AI 代理，从而大幅简化了整个流程。在本文中，我们将运用 LangGraph.js 构建一个面向金融场景的 AI 搜索解决方案。

什么是 LangGraph

LangGraph 是一个用于构建 AI 代理，并将其编排进工作流，从而打造 AI 辅助应用的框架。LangGraph 采用节点式架构，我们可以声明代表不同任务的函数，并将这些函数指定为工作流中的节点。多个节点相互作用后形成的便是一个图结构。LangGraph 是更广泛的 LangChain 生态系统的一部分，该生态为构建模块化、可组合的 AI 系统提供了丰富的工具。

为了更直观地理解 LangGraph 有何用处，我们不妨用它来解决一个真实的业务难题。

解决方案概述

在一家风险投资公司中，投资人可以访问一个带有大量筛选条件的大型数据库，但一旦需要组合多重条件，查询就会变得既繁琐又缓慢。这可能会导致一些本应纳入投资视野的优质初创公司被漏掉。结果就是，团队要耗费大量时间去筛选最佳标的，甚至因此错失投资机会。

借助 LangGraph 和 Elasticsearch，我们能够使用自然语言进行过滤搜索，从而无需用户手动构建包含数十个筛选器的复杂请求。为了提高灵活性，工作流会根据用户输入在两种查询类型之间自动选择：

聚焦投资维度的查询：这类查询专注于初创公司的财务与融资维度，例如融资轮次、估值或营收等指标。示例：“查找已完成 A 轮或 B 轮融资、融资额在 800 万至 2,500 万美元之间且月收入超过 50 万美元的初创公司。”
聚焦市场维度的查询：这类查询侧重于行业垂直领域、目标市场或商业模式，帮助识别特定领域或地区中的投资机会。示例：“查找位于旧金山、纽约或波士顿的金融科技和医疗健康领域初创公司。”

为了让查询更稳健，我们会让 LLM 生成搜索模板，而不是直接构造完整的 DSL 查询。通过这种方式，你获得的始终是预期的查询结果，LLM 只需填入参数，而不必每次从头构建整条查询。

开始前的准备工作

Elasticsearch API密钥
OpenAPI API密钥
Node 18 或更高版本

分步操作指南

在本节中，我们先来看一下这个应用的外观。为此，我们将使用 TypeScript，这是 JavaScript 的一个超集，添加了静态类型，使代码更可靠且更易维护，并能更早发现错误，同时又与现有 JavaScript 完全兼容。

节点的流程将如下所示：

上图由 LangGraph 生成，直观地呈现了工作流结构，包括各节点的执行顺序和它们之间的条件分支关系：

decideStrategy：使用 LLM 分析用户查询，在“聚焦投资维度”与“聚焦市场维度”这两种专门搜索策略之间做出选择。
PrepareInvestmentSearch：从查询中提取筛选值并构建一个强调财务和资金相关参数的预定义模板。
prepareMarketSearch：同样会提取筛选条件，但重点是围绕市场、行业和地域背景，动态生成相应的搜索参数。
ExecuteSearch：通过搜索模板将构建好的查询发送到 Elasticsearch，检索并返回所有匹配的初创公司文档。
visualizeResults：将最终结果整理成清晰易读的摘要，呈现融资、行业、营收等关键创业公司属性。

该流程包括一个条件分支，相当于一条“if”语句，可根据用户输入决定使用投资还是市场搜索路径。这种由 LLM 驱动的决策机制让工作流具备自适应和上下文感知能力，后续章节将对这一机制进行更详细的说明。

LangGraph 状态

在查看各个节点之前，我们需要先理解节点之间的通信和数据共享方式。为此，LangGraph 可支持定义工作流状态。这个状态就是在各个节点之间传递的共享状态。

该状态相当于一个共享容器，在整个工作流中保存中间数据：从最开始的用户自然语言查询，到选定的搜索策略、为 Elasticsearch 准备好的参数、检索到的搜索结果，一直到最后的格式化输出，都会依次写入其中。

这种结构让每个节点都能读取和更新状态，确保从用户输入到可视化实现顺畅一致的信息流动。

const VCState = Annotation.Root({
  input: Annotation(), // User's natural language query
  searchStrategy: Annotation(), // Search strategy chosen by LLM
  searchParams: Annotation(), // Prepared search parameters
  results: Annotation(), // Search results
  final: Annotation(), // Final formatted response
});

设置应用程序

本节所有代码均可在 elasticsearch-labs 仓库中找到。

在应用所在的文件夹中打开终端，并通过以下命令初始化一个 Node.js 应用：

npm init -y

现在我们可以为这个项目安装必要的依赖项：

npm install @elastic/elasticsearch @langchain/langgraph @langchain/openai @langchain/core dotenv zod && npm install --save-dev @types/node tsx typescript

@elastic/elasticsearch：帮助我们处理 Elasticsearch 请求，例如数据摄取和检索。
@langchain/langgraph：用于提供所有 LangGraph 工具的 JS 依赖项。
@langchain/openai：适用于 LangChain 的 OpenAI LLM 客户端。
@langchain/core：为 LangChain 应用提供基础构建模块，包括提示模板。
dotenv：在 JavaScript 中使用环境变量所需的依赖项。
zod: 对类型数据的依赖。

@types/node tsx typescript 允许我们编写和运行 TypeScript 代码。

现在创建以下文件：

elasticsearchSetup.ts：将创建索引映射，从 JSON 文件加载数据集，并将数据摄取到 Elasticsearch。
main.ts：将包含 LangGraph 应用。
.env：用于存储环境变量的文件

在 .env 文件中，我们添加以下环境变量：

ELASTICSEARCH_ENDPOINT="your-endpoint-here"
ELASTICSEARCH_API_KEY="your-key-here"
OPENAI_API_KEY="your-key-here"

OpenAPI APIKey 不会直接在代码中使用，而是由 @langchain/openai 库在内部调用。

所有关于映射创建、搜索模板创建和数据集摄取的逻辑都可以在 elasticsearchSetup.ts 文件中找到。在接下来的步骤中，我们将重点关注 main.ts 文件。此外，您可以查看该数据集，以便更好地理解 dataset.json 中数据结构。

LangGraph 应用程序

在 main.ts 文件中，我们导入一些必要的依赖项来构建整个 LangGraph 应用。在此文件中，您还必须定义各个节点函数以及工作流状态的声明。在后续步骤中，我们会在 main 方法中完成这个图结构的声明。elasticsearchSetup.ts 文件中包含一组 Elasticsearch 辅助函数，我们会在后续步骤的各个节点中使用这些函数。

import { writeFileSync } from "node:fs";
import { StateGraph, Annotation, START, END } from "@langchain/langgraph";
import { ChatOpenAI } from "@langchain/openai";
import { z } from "zod";
import {
  esClient,
  ingestDocuments,
  createSearchTemplates,
  INDEX_NAME,
  INVESTMENT_FOCUSED_TEMPLATE,
  MARKET_FOCUSED_TEMPLATE,
  createIndex,
} from "./elasticsearchSetup.js";

const llm = new ChatOpenAI({ model: "gpt-4o-mini" });

如前所述，LLM 客户端将根据用户的问题生成 Elasticsearch 搜索模板参数。

async function saveGraphImage(app: any): Promise {
  try {
    const drawableGraph = app.getGraph();
    const image = await drawableGraph.drawMermaidPng();
    const arrayBuffer = await image.arrayBuffer();

    const filePath = "./workflow_graph.png";
    writeFileSync(filePath, new Uint8Array(arrayBuffer));
    console.log(`📊 Workflow graph saved as: ${filePath}`);
  } catch (error: any) {
    console.log("⚠️  Could not save graph image:", error.message);
  }
}

上面的方法会生成一张 png 格式的图结构图像，并在后台调用 Mermaid.ink API。当你希望通过一张带有样式的可视化图来直观了解应用中各个节点之间的交互时，这个功能就会非常有用。

LangGraph 节点

现在让我们看看每个节点的详细信息：

decideSearchStrategy 节点

decideSearchStrategy 节点分析用户输入，并确定是执行投资聚焦搜索还是市场聚焦搜索。它使用具有结构化输出模式（用 Zod 定义）的 LLM 对查询类型进行分类。在做出决策之前，它会通过聚合从索引中检索可用的筛选条件，确保模型掌握最新的行业、地域和融资等上下文信息。

为了提取过滤器可能的值并将其发送到 LLM，让我们使用聚合查询直接从 Elasticsearch 索引中检索它们。这个逻辑被分配到一个名为 getAvailableFilters 的方法中：

async function getAvailableFilters() {
  try {
    const response = await esClient.search({
      index: INDEX_NAME,
      size: 0,
      aggs: {
        industries: {
          terms: { field: "industry", size: 100 },
        },
        locations: {
          terms: { field: "location", size: 100 },
        },
        funding_stages: {
          terms: { field: "funding_stage", size: 20 },
        },
        business_models: {
          terms: { field: "business_model", size: 10 },
        },
        lead_investors: {
          terms: { field: "lead_investor", size: 100 },
        },
        funding_amount_stats: {
          stats: { field: "funding_amount" },
        },
      },
    });

    return response.aggregations;
  } catch (error) {
    console.error("❌ Error getting available filters:", error);
    return {};
  }
}

通过上述聚合查询，我们得到以下结果：

{
  "industries": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
      {
        "key": "logistics",
        "doc_count": 5
      },
      ...
    ]
  },
  "locations": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
      {
        "key": "San Francisco, CA",
        "doc_count": 4
      },
      {
        "key": "New York, NY",
        "doc_count": 3
      },
      ...
    ]
  },
  "funding_stages": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
      {
        "key": "Series A",
        "doc_count": 8
      },
      ...
    ]
  },
  "business_models": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
      {
        "key": "B2B",
        "doc_count": 13
      },
      ...
    ]
  },
  "lead_investors": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
      {
        "key": "Battery Ventures",
        "doc_count": 1
      },
      {
        "key": "Benchmark Capital",
        "doc_count": 1
      },
      ...
    ]
  },
  "funding_amount_stats": {
    "count": 20,
    "min": 4500000,
    "max": 35000000,
    "avg": 14075000,
    "sum": 281500000
  }
}

点击此处查看所有结果。

对于这两种策略，我们将使用混合搜索来检测问题的结构化部分（过滤器）和主观部分（语义）。以下是使用搜索模板的两个查询示例：

await esClient.putScript({
      id: INVESTMENT_FOCUSED_TEMPLATE,
      script: {
        lang: "mustache",
        source: `{
          "size": 5,
          "retriever": {
            "rrf": {
              "retrievers": [
                {
                  "standard": {
                    "query": {
                      "semantic": {
                        "field": "semantic_field",
                        "query": "{{query_text}}"
                      }
                    }
                  }
                },
                {
                  "standard": {
                    "query": {
                      "bool": {
                        "filter": [
                          {"terms": {"funding_stage": {{#join}}{{#toJson}}funding_stage{{/toJson}}{{/join}}}},
                          {"range": {"funding_amount": {"gte": {{funding_amount_gte}}{{#funding_amount_lte}},"lte": {{funding_amount_lte}}{{/funding_amount_lte}}}}},
                          {"terms": {"lead_investor": {{#join}}{{#toJson}}lead_investor{{/toJson}}{{/join}}}},
                          {"range": {"monthly_revenue": {"gte": {{monthly_revenue_gte}}{{#monthly_revenue_lte}},"lte": {{monthly_revenue_lte}}{{/monthly_revenue_lte}}}}}
                        ]
                      }
                    }
                  }
                }
              ],
              "rank_window_size": 100,
              "rank_constant": 20
            }
          }
        }`,
      },
    });

查看 elasticsearchSetup.ts 文件中详细的查询。在接下来的节点中，将决定使用这两个查询中的哪一个：

// Node 1: Decide search strategy using LLM
async function decideSearchStrategy(state: typeof VCState.State) {
  // Zod schema for specialized search strategy decision
  const SearchDecisionSchema = z.object({
    search_type: z
      .enum(["investment_focused", "market_focused"])
      .describe("Type of specialized search strategy to use"),
    reasoning: z
      .string()
      .describe("Brief explanation of why this search strategy was chosen"),
  });

  const decisionLLM = llm.withStructuredOutput(SearchDecisionSchema);

  // Get dynamic filters from Elasticsearch
  const availableFilters = await getAvailableFilters();

  const prompt = `Query: "${state.input}"
    Available filters: ${JSON.stringify(availableFilters, null, 2)}

    Choose between two specialized search strategies:
    
    - investment_focused: For queries about funding stages, funding amounts, monthly revenue, lead investors, financial performance
    
    - market_focused: For queries about industries, locations, business models, market segments, geographic markets
    
    Analyze the query intent and choose the most appropriate strategy.
  `;

  try {
    const result = await decisionLLM.invoke(prompt);
    console.log(
      `🤔 Search strategy: ${result.search_type} - ${result.reasoning}`
    );

    return {
      searchStrategy: result.search_type,
    };
  } catch (error: any) {
    console.error("❌ Error in decideSearchStrategy:", error.message);
    return {
      searchStrategy: "investment_focused",
    };
  }
}

prepareInvestmentSearch 和 prepareMarketSearch 节点

两个节点都使用共享的辅助函数 extractFilterValues，该函数利用 LLM 来识别用户输入中提到的相关过滤器，例如行业、地点、资金阶段、商业模式等。我们正在使用这个架构来构建我们的搜索模板。

// Extract all possible filter values from user input
async function extractFilterValues(input: string) {
  const FilterValuesSchema = z.object({
    // Investment-focused filters
    funding_stage: z
      .array(z.string())
      .default([])
      .describe("Funding stage values mentioned in query"),
    funding_amount_gte: z
      .number()
      .default(0)
      .describe("Minimum funding amount in USD"),
    funding_amount_lte: z
      .number()
      .default(100000000)
      .describe("Maximum funding amount in USD"),
    lead_investor: z
      .array(z.string())
      .default([])
      .describe("Lead investor values mentioned in query"),
    monthly_revenue_gte: z
      .number()
      .default(0)
      .describe("Minimum monthly revenue in USD"),
    monthly_revenue_lte: z
      .number()
      .default(10000000)
      .describe("Maximum monthly revenue in USD"),
    industry: z
      .array(z.string())
      .default([])
      .describe("Industry values mentioned in query"),
    location: z
      .array(z.string())
      .default([])
      .describe("Location values mentioned in query"),
    business_model: z
      .array(z.string())
      .default([])
      .describe("Business model values mentioned in query"),
  });

  const extractorLLM = llm.withStructuredOutput(FilterValuesSchema);
  const availableFilters = await getAvailableFilters();

  const extractPrompt = `Extract ALL relevant filter values from: "${input}"
    Available options: ${JSON.stringify(availableFilters, null, 2)}
    Extract only values explicitly mentioned in the query. Leave fields empty if not mentioned.`;

  return await extractorLLM.invoke(extractPrompt);
}

根据检测到的意图，工作流会选择以下两种路径之一：

PrepareInvestmentSearch：构建以财务为导向的搜索参数，包括融资阶段、融资金额、投资者以及营收相关信息。您可以在 elasticsearchSetup.ts 文件中找到整个查询模板：

// Node 2A: Prepare Investment-Focused Search Parameters 
async function prepareInvestmentSearch(state: typeof VCState.State) {
  console.log(
    "💰 Preparing INVESTMENT-FOCUSED search parameters with financial emphasis..."
  );

  try {
    // Extract all filter values from input
    const values = await extractFilterValues(state.input);

    let searchParams: any = {
      template_id: INVESTMENT_FOCUSED_TEMPLATE,
      query_text: state.input,
      ...values,
    };

    return { searchParams };
  } catch (error) {
    console.error("❌ Error preparing investment-focused params:", error);
    return {
      searchParams: {},
    };
  }
}

prepareMarketSearch：创建以行业、地域和商业模式为重点的市场驱动参数。在 elasticsearchSetup.ts 文件中查看完整查询：

// Node 2B: Prepare Market-Focused Search Parameters
async function prepareMarketSearch(state: typeof VCState.State) {
  console.log(
    "🔍 Preparing MARKET-FOCUSED search parameters with market emphasis..."
  );

  try {
    // Extract all filter values from input
    const values = await extractFilterValues(state.input);

    let searchParams: any = {
      template_id: MARKET_FOCUSED_TEMPLATE,
      query_text: state.input,
      ...values,
    };

    return { searchParams };
  } catch (error) {
    console.error("❌ Error preparing market-focused params:", error);
    return {};
  }
}

executeSearch 节点

该节点从状态中获取生成的搜索参数，首先将其发送到 Elasticsearch，使用_render API来可视化查询以便调试，然后发送请求以检索结果。

// Node 3: Execute Search
async function executeSearch(state: typeof VCState.State) {
  const { searchParams } = state;

  try {
    // getting formed query from template for debugging
    const renderedTemplate = await esClient.renderSearchTemplate({
      id: searchParams.template_id,
      params: searchParams,
    });

    console.log(
      "📋 Complete query:",
      JSON.stringify(renderedTemplate.template_output, null, 2)
    );

    const results = await esClient.searchTemplate({
      index: INDEX_NAME,
      id: searchParams.template_id,
      params: searchParams,
    });

    return {
      results: results.hits.hits.map((hit: any) => hit._source),
    };
  } catch (error: any) {
    console.error(`❌ ${state.searchParams.search_type} search error:`, error);
    return { results: [] };
  }
}

visualizeResults 节点

最后，此节点显示 Elasticsearch 结果。

// Node 4: Visualize results
async function visualizeResults(state: typeof VCState.State) {
  const results = state.results || [];

  let formattedResults = `🎯 Found ${results.length} startups matching your criteria:\n\n`;

  results.forEach((startup: any, index: number) => {
    formattedResults += `${index + 1}. **${startup.company_name}**\n`;
    formattedResults += `   📍 ${startup.location} | 🏢 ${startup.industry} | 💼 ${startup.business_model}\n`;
    formattedResults += `   💰 ${startup.funding_stage} - $${(
      startup.funding_amount / 1000000
    ).toFixed(1)}M\n`;
    formattedResults += `   👥 ${startup.employee_count} employees | 📈 $${(
      startup.monthly_revenue / 1000
    ).toFixed(0)}K MRR\n`;
    formattedResults += `   🏦 Lead: ${startup.lead_investor}\n`;
    formattedResults += `   📝 ${startup.description}\n\n`;
  });

  return {
    final: formattedResults,
  };
}

从程序角度来看，整个图结构如下所示：

  const workflow = new StateGraph(VCState)
    // Register nodes - these are the processing functions
    .addNode("decideStrategy", decideSearchStrategy)
    .addNode("prepareInvestment", prepareInvestmentSearch)
    .addNode("prepareMarket", prepareMarketSearch)
    .addNode("executeSearch", executeSearch)
    .addNode("visualizeResults", visualizeResults)
    // Define execution flow with conditional branching
    .addEdge(START, "decideStrategy") // Start with strategy decision
    .addConditionalEdges(
      "decideStrategy",
      (state: typeof VCState.State) => state.searchStrategy, // Conditional function
      {
        investment_focused: "prepareInvestment", // If investment focused -> RRF template preparation
        market_focused: "prepareMarket", // If market focused -> dynamic query preparation
      }
    )
    .addEdge("prepareInvestment", "executeSearch") // Investment prep -> execute
    .addEdge("prepareMarket", "executeSearch") // Market prep -> execute
    .addEdge("executeSearch", "visualizeResults") // Execute -> visualize
    .addEdge("visualizeResults", END); // End workflow

正如你所见，我们有一个条件边，应用在此决定接下来运行哪个“路径”或节点。当工作流需要分支逻辑时，例如在多个工具之间进行选择或包含人机交互步骤，此功能非常有用。

了解了 LangGraph 的核心功能后，我们可以设置代码运行的应用程序：

将所有内容在 main 方法中整合起来，在名为 workflow 的变量中声明这个包含所有元素的图结构：

async function main() {
  await createIndex();
  await createSearchTemplates();
  await ingestDocuments();

  // Create the workflow graph with shared state
  const workflow = new StateGraph(VCState)
    // Register nodes - these are the processing functions
    .addNode("decideStrategy", decideSearchStrategy)
    .addNode("prepareInvestment", prepareInvestmentSearch)
    .addNode("prepareMarket", prepareMarketSearch)
    .addNode("executeSearch", executeSearch)
    .addNode("visualizeResults", visualizeResults)
    // Define execution flow with conditional branching
    .addEdge(START, "decideStrategy") // Start with strategy decision
    .addConditionalEdges(
      "decideStrategy",
      (state: typeof VCState.State) => state.searchStrategy, // Conditional function
      {
        investment_focused: "prepareInvestment", // If investment focused -> RRF template preparation
        market_focused: "prepareMarket", // If market focused -> dynamic query preparation
      }
    )
    .addEdge("prepareInvestment", "executeSearch") // Investment prep -> execute
    .addEdge("prepareMarket", "executeSearch") // Market prep -> execute
    .addEdge("executeSearch", "visualizeResults") // Execute -> visualize
    .addEdge("visualizeResults", END); // End workflow


  const app = workflow.compile();

  await saveGraphImage(app);

  const query =
    "Find startups with Series A or Series B funding between $8M-$25M and monthly revenue above $500K";

  const marketResult = await app.invoke({ input: query });
  console.log(marketResult.final);
}

查询变量用来模拟用户在一个虚拟搜索框中输入的内容：

系统会从这句自然语言“查找已完成 A 轮或 B 轮、融资额在 800 万至 2,500 万美元之间且月收入高于 50 万美元的初创公司”中，自动抽取出所有筛选条件。

最后，调用主方法：

main().catch(console.error);

实施结果

🔍 Checking if index exists...
🏗️ Creating index...
✅ Index created successfully!
Ingesting documents...
✅ Documents ingested successfully!
✅ Investment-focused template created successfully!
✅ Market-focused template created successfully!

📊 Workflow graph saved as: ./workflow_graph.png

🔍 Query: "Find startups with Series A or Series B funding between $8M-$25M and monthly revenue above $500K"

🤔 Search strategy: investment_focused - The query specifically seeks profitable fintech startups with defined funding amounts and high monthly revenue, which aligns closely with financial performance metrics and investment-related criteria.

💰 Preparing INVESTMENT-FOCUSED search parameters with financial emphasis...

📋 Complete query: {
  "size": 5,
  "retriever": {
    "rrf": {
      "retrievers": [
        {
          "standard": {
            "query": {
              "semantic": {
                "field": "semantic_field",
                "query": "Find startups with Series A or Series B funding between $8M-$25M and monthly revenue above $500K"
              }
            }
          }
        },
        {
          "standard": {
            "query": {
              "bool": {
                "filter": [
                  {
                    "terms": {
                      "funding_stage": [
                        "Series A",
                        "Series B"
                      ]
                    }
                  },
                  {
                    "range": {
                      "funding_amount": {
                        "gte": 8000000,
                        "lte": 25000000
                      }
                    }
                  },
                  {
                    "terms": {
                      "lead_investor": []
                    }
                  },
                  {
                    "range": {
                      "monthly_revenue": {
                        "gte": 500000,
                        "lte": 0
                      }
                    }
                  }
                ]
              }
            }
          }
        }
      ],
      "rank_window_size": 100,
      "rank_constant": 20
    }
  }
}
🎯 Found 5 startups matching your criteria:

1. **TechFlow**
   📍 San Francisco, CA | 🏢 logistics | 💼 B2B
   💰 Series A - $8.0M
   👥 45 employees | 📈 $500K MRR
   🏦 Lead: Sequoia Capital
   📝 TechFlow optimizes supply chain operations using AI-powered route optimization and real-time tracking. Founded in 2023, shows remarkable growth with $500K monthly revenue.

2. **DataViz**
   📍 New York, NY | 🏢 enterprise software | 💼 B2B
   💰 Series A - $10.0M
   👥 42 employees | 📈 $450K MRR
   🏦 Lead: Battery Ventures
   📝 DataViz creates intuitive data visualization tools for enterprise customers. No-code platform allows business users to create dashboards without technical expertise.

3. **FinanceAI**
   📍 San Francisco, CA | 🏢 fintech | 💼 B2C
   💰 Series C - $25.0M
   👥 120 employees | 📈 $1200K MRR
   🏦 Lead: Tiger Global Management
   📝 FinanceAI provides AI-powered investment advisory services to retail investors. Uses machine learning to analyze market trends with over 100,000 active users.

4. **UrbanMobility**
   📍 New York, NY | 🏢 logistics | 💼 B2B2C
   💰 Series B - $15.0M
   👥 78 employees | 📈 $750K MRR
   🏦 Lead: Kleiner Perkins
   📝 UrbanMobility revolutionizes urban transportation through autonomous delivery drones and smart logistics hubs. Partners with major retailers for same-day delivery across Manhattan and Brooklyn.

5. **HealthTech Solutions**
   📍 Boston, MA | 🏢 healthcare | 💼 B2B
   💰 Series B - $18.0M
   👥 95 employees | 📈 $900K MRR
   🏦 Lead: General Catalyst
   📝 HealthTech Solutions develops medical devices and software for remote patient monitoring. Comprehensive telehealth platform reducing hospital readmissions by 30%.

✨  Done in 18.80s.

对于这条输入，应用会选择聚焦投资维度的路径，由此我们可以看到 LangGraph 工作流生成的 Elasticsearch 查询，它会从用户输入中抽取出各类数值与区间。此外，我们还能看到应用了这些提取参数后实际发送到 Elasticsearch 的查询，以及最后由 visualizeResults 节点格式化输出的结果。

现在，我们再用这条查询来测试聚焦市场维度的节点：“查找位于旧金山、纽约或波士顿的金融科技和医疗健康初创公司”：

...

🔍 Query: Find fintech and healthcare startups in San Francisco, New York, or Boston

🤔 Search strategy: market_focused - The query is focused on finding fintech startups in San Francisco that are disrupting traditional banking and payment systems, which pertains to specific industries (fintech) and locations (San Francisco). Thus, a market-focused strategy is more appropriate.

🔍 Preparing MARKET-FOCUSED search parameters with market emphasis...

📋 Complete query: {
  "size": 5,
  "retriever": {
    "rrf": {
      "retrievers": [
        {
          "standard": {
            "query": {
              "semantic": {
                "field": "semantic_field",
                "query": "Find fintech and healthcare startups in San Francisco, New York, or Boston"
              }
            }
          }
        },
        {
          "standard": {
            "query": {
              "bool": {
                "filter": [
                  {
                    "terms": {
                      "industry": [
                        "fintech",
                        "healthcare"
                      ]
                    }
                  },
                  {
                    "terms": {
                      "location": [
                        "San Francisco, CA",
                        "New York, NY",
                        "Boston, MA"
                      ]
                    }
                  },
                  {
                    "terms": {
                      "business_model": []
                    }
                  }
                ]
              }
            }
          }
        }
      ],
      "rank_window_size": 50,
      "rank_constant": 10
    }
  }
}
🎯 Found 5 startups matching your criteria:

1. **FinanceAI**
   📍 San Francisco, CA | 🏢 fintech | 💼 B2C
   💰 Series C - $25.0M
   👥 120 employees | 📈 $1200K MRR
   🏦 Lead: Tiger Global Management
   📝 FinanceAI provides AI-powered investment advisory services to retail investors. Uses machine learning to analyze market trends with over 100,000 active users.

2. **CryptoWallet**
   📍 Miami, FL | 🏢 fintech | 💼 B2C
   💰 Series B - $16.0M
   👥 73 employees | 📈 $820K MRR
   🏦 Lead: Coinbase Ventures
   📝 CryptoWallet provides secure digital wallet solutions for cryptocurrency trading and storage. Multi-chain support with enterprise-grade security features.

...

✨  Done in 7.41s.

学习经验

在写作过程中我学到了：

我们必须向 LLM 提供筛选器的精确取值，否则就要完全依赖用户输入这些值。对于低基数，这种方法很好，但当基数很高时，我们需要通过一些机制来过滤结果
使用搜索模板比让大语言模型编写 Elasticsearch 查询能使结果更加一致，而且速度也更快
条件边是一种强大的机制，用于构建具有多个变体和分支路径的应用程序。
结构化输出在使用大型语言模型生成信息时非常有用，因为它能强制执行可预测且类型安全的响应。这不仅提高了整体可靠性，还减少了对提示词的误解。

通过混合检索结合语义和结构化搜索，可以产生更好、更相关的结果，在精确性和上下文理解之间取得平衡。

结论

在这个例子中，我们将 LangGraph.js 与 Elasticsearch 结合，创建一个动态工作流，能够解释自然语言查询并决定使用金融或市场聚焦的搜索策略。这种方法减少了手工查询的复杂性，同时提升了风险投资分析师的灵活性和准确性。

使用变量控件来提高 Kibana 仪表板的交互性

Teresa Alvarez Soler — Thu, 04 Dec 2025 00:00:00 GMT

我们很高兴地宣布，从 8.18 版本和所有 9.x 系列开始，Kibana 仪表板现在可以使用变量控件。这一功能是仪表盘用户一直以来最为频繁要求新增的内容之一。如今，它终于上线啦 🎉 在过去的几个月里，我们持续拓展并优化变量控件，此刻正是为它们单独撰写一篇专题博客文章的绝佳时机。

变量控件是什么？

如果您以前用过 Kibana 仪表板，您可能知道我们经典的仪表板控件。那些方便的下拉菜单可以显示数据中的数值，让您只需点击几下就能筛选。

可变控件表面上看起来很相似，但却有巧妙的变化：它们并非自动筛选仪表板上的每个面板，而是可以直接插入单个可视化内部的 ES|QL 查询中。

这意味着您可以决定每个控件的适用范围。更妙的是，您可以将它们用于各种创意技巧，例如实时调整时间间隔、切换细分字段，或更改可视化参数。简而言之，它们为您的仪表板提供了真正的交互式体验，使您能够更快、更轻松地获得见解。

变量控件用例

好吧，变量控件听起来很有用，但您实际上能用它们做些什么？下面举例说明它们如何提升仪表盘的功能性：

筛选已选择的可视化内容

想要筛选部分可视化内容，但保留其他内容不变？变量控件功能可以让您做到这一点。选择要响应的面板，并在可视化的 ES|QL 查询中将它们连接起来。

选择不同的时间间隔

让用户可以在“5 分钟”、“1 小时”、“1 天”或任何合理的时间间隔之间切换。构建有预定义时间间隔的变量控件，并将其连接到时间序列查询。

更改函数

与其为每个操作创建多个图表，不如让仪表板用户选择自己想要查看最大值、平均值、不同百分位数或任何其他聚合器。

按不同字段分组

有时，您需要在调查过程中按不同维度对数据进行细分。通过变量控件，您可以定义多个“分组依据”字段，让仪表板用户选择有助于他们发现见解的字段。

如何创建？

创建变量控件的最简单（可能也是最有趣）方法是直接从可视化中的 ES|QL 查询编辑器中创建。只需开始输入查询，使用自动完成菜单，Kibana 就会帮助您创建。

但是如果您更喜欢以变量本身为基础开始创建，也可以前往：添加面板 → 控件 → 变量控件，然后在创建控件后将变量添加到可视化中。

示例 1：具有多值选择的筛选控件

1. 选择由 ES|QL 查询驱动的可视化，并在 WHERE 条件中单击“创建控件”。

2. 您将自动被重定向至变量创建弹出面板，此时“来自查询的值”这一类型已自动选定，并且变量的名称已经预填。请记住，控件的名称必须以“?...”开头，以便在可视化查询中使用。

您通常需要这样的查询来获取字段中的值，并根据仪表板中选择的时间范围进行更新：

FROM 
| WHERE @timestamp <=?_tend and @timestamp >?_tstart
| STATS BY

3. 保存控件时，您会看到它出现在仪表盘的顶部，可视化查询也会用变量控件名称进行更新。

4. 如果要在控件中添加多值选择，则需要在查询中使用MV_CONTAINS函数，并在步骤 2 创建控件时选择“允许多选”（9.3 及更高版本可用）。

示例 2：时间间隔控制

如果您正在构建时间序列，可轻松地为日期直方图间隔添加一个变量控制：

1. 为时间序列编写 ES|QL 查询时，单击“创建控件”。为时间间隔创建变量时，最好使用 TBUCKET 而非 BUCKET，这样它就可以接受更具可读性的间隔，例如“1 小时”、“1 天”等。我们也会很快推出 TBUCKET 自动选项，以便自动适应时间范围。

2. 确定用于填充下拉菜单选项的时间间隔。

3. 在下拉菜单中选择不同的时间间隔，查看可视化如何变化。

示例 3：函数变量

用“静态值”类型控件构建一个变量，并在下拉菜单的值中添加函数名。为了替换函数，请使用以“??...”开头的变量名。

2. 在 ES|QL 查询中包含变量名称。

示例 4：字段变量

您可以使用“静态值”类型的控件，并填入所需字段的名称。为了让变量名在字段中生效，使用以“??...”开头的变量名非常重要。

2. 在可视化查询中引用想要的变量。

Discover 中的变量控件

变量控件不仅仅是仪表盘的功能，还可以直接在 Discover 的 ES|QL 编辑器中使用。您可以在 Discover 中构建控件，以获得更快的数据探索体验，并将其引入仪表盘，反之亦然。

技术细节

到现在为止，您可能已经注意到变量控件有一些规则，比如它们可以引用查询的哪些部分，以及您需要使用的命名前缀（“?...”用于值，“??...”用于字段或函数）。这是因为变量不仅仅是在客户端进行简单的字符串替换。它们实际上是查询语言本身最重要的因素（在 ES|QL 中称为参数）。

这种设计具有一些很大的优势。首先，Kibana 可以理解每个变量的上下文，这使我们能够自动为您生成并预先填充其配置。它也更加安全：由于该语言严格验证变量输入，因此可以防止恶意注入，并在出现异常时轻松处理错误。此外，它将复杂的验证和错误处理转移到服务器而不是客户端，从而提高了性能和稳定性。关于性能，最佳做法是创建包含快速查询的变量，因为它们在仪表盘之前加载，所以慢速查询会影响整个仪表盘的性能。

当然，这种架构暂时也有一些限制。变量尚不支持用于筛选的“Any”选项，目前也不能与LIKE 或 FROM（用于切换数据源）等操作符结合使用。好消息是什么？我们正在着手添加这些功能。

控件的未来发展趋势

我们不会就此止步！我们所关注的一些改进包括：

✨ 在仪表板上随处放置控件的能力

✨ 控件链式连接：意味着一个控件的输出成为下一个控件的输入。

✨ 选择选项更理想，比如变量的“任意”选择

✨ 新控件类型（搜索类型控件和数据源变量）

✨ 以及更多您一直要求的生活质量改进，比如预筛选常规控件

如果您有任何想法或反馈，欢迎向我们提出。

使用 NVIDIA cuVS 将 Elasticsearch 中的向量索引速度提升高达 12 倍：GPU 加速（第二章）

Wed, 03 Dec 2025 00:00:00 GMT

今年早些时候，Elastic 宣布与 NVIDIA 合作，为 Elasticsearch 引入 GPU 加速功能，并与 NVIDIA cuVS 集成 — 相关详情可参阅 NVIDIA GTC 大会的相关会议以及多篇博文。本文主要介绍我们与 NVIDIA 向量搜索团队在联合工程方面的最新进展。

回顾

先简单回顾一下最新动态。Elasticsearch 现已确立其作为强大向量数据库的地位，在大规模相似性搜索方面提供了丰富的功能和强劲的性能。凭借标量量化、Better Binary Quantization (BBQ)、SIMD 向量运算以及 DiskBBQ 等在磁盘利用方面更高效的算法，Elasticsearch 已经为管理向量工作负载提供了高效而灵活的多种选项。

通过将 NVIDIA cuVS 集成为可调用的向量搜索模块，我们希望大幅提升向量索引的性能和效率，从而更好地支撑大规模向量工作负载。

挑战

构建高性能向量数据库的最大挑战之一，就是构建向量索引，即 HNSW 图。随着每个向量都要与大量其他向量进行比对，索引构建很快就会被数以百万乃至数十亿次的算术运算所主导。此外，压缩、合并等索引生命周期操作还会进一步增加索引的整体计算开销。随着数据量和相关向量嵌入呈指数级增长，专为大规模并行和高吞吐量数值运算而设计的加速计算 GPU 非常适合处理这些工作负载。

进入 Elasticsearch-GPU 插件

NVIDIA cuVS是一个开源的 CUDA-X 库，用于 GPU 加速的向量搜索和数据集群，能够为 AI 和推荐工作负载快速构建索引和嵌入检索。

Elasticsearch 通过 cuvs-java 使用 cuVS，这是一个由社区开发并由 NVIDIA 维护的开源库。cuvs-java 库十分轻量，基于 cuVS C API 构建，并借助 Panama 外部函数接口，以符合 Java 习惯用法的方式暴露 cuVS 功能，同时兼具现代性和高性能。

cuvs-java 库被集成到一个新的 Elasticsearch 插件中；因此，GPU 上的向量索引可在同一 Elasticsearch 节点和同一进程内完成，无需部署任何外部组件或额外硬件。在索引构建过程中，如果已安装 cuVS 库且存在已正确配置的 GPU，Elasticsearch 会利用 GPU 加速向量索引过程。向量会被传递给 GPU，由 GPU 构建 CAGRA 图。随后将该图转换为 HNSW 格式，使其能够立即在 CPU 上用于向量搜索。构建完成的图，其最终格式与在 CPU 上构建的图完全一致；这使得在底层硬件支持的情况下，Elasticsearch 可以利用 GPU 实现高吞吐量的向量索引，同时释放 CPU 算力，用于并发搜索、数据处理等其他任务。

索引构建加速

作为将 GPU 加速集成到 Elasticsearch 的一部分，对 cuvs-java 进行了多项增强，重点是高效的数据输入/输出和函数调用。一项关键增强是使用 cuVSMatrix 对向量进行透明建模，无论它们位于 Java 堆中、堆外还是 GPU 内存中。这使数据可以在内存与 GPU 之间高效传输，避免对可能多达数十亿个向量进行不必要的复制。

由于这种底层的零拷贝抽象，数据传输到 GPU 内存以及从中检索图时都可以直接完成。在索引过程中，向量首先缓存在 Java 堆内存中，然后发送到 GPU，以构建 CAGRA 图。随后，从 GPU 中取回该图，将其转换为 HNSW 格式，并持久化到磁盘。

在合并时，向量已经存储在磁盘上，完全绕过了 Java 堆。索引文件采用内存映射，数据直接传输到 GPU 内存中。该设计还能轻松适应不同的位宽，如 float32 或 int8，并自然扩展到其他量化方案。

话不多说，那它的实际表现如何呢？

在我们探讨数字之前，了解一些背景信息会有所帮助。在索引期间，Elasticsearch 中的分段合并通常在后台自动运行，这会导致在隔离环境中进行基准测试变得十分困难。为了获得可重复的结果，我们使用了强制合并来在受控实验中明确触发分段合并。由于强制合并与后台合并执行相同的底层合并操作，因此其性能可作为预期改进的有用指标，尽管在实际索引工作负载中，具体收获可能会有所不同。

现在让我们来探讨数字。

我们的初步基准测试结果非常令人鼓舞。我们在 AWS g6.4xlarge 实例上运行了基准测试，该实例具有本地连接的 NVMe 存储。我们将单个 Elasticsearch 节点配置为使用默认的最佳索引线程数（8 个，每个物理核心一个），并关闭合并限速功能（在使用快速 NVMe 磁盘时，这一功能的适用性较低）。

对于数据集，我们使用了 OpenAI Rally 向量赛道中的 260 万个、每个具有 1,536 维的向量，将其编码为 base64 字符串，并以 float32 hnsw 结构进行索引。在所有场景中，构建的图都能达到最高约 95% 的召回率。以下是我们的发现：

索引吞吐量：通过在内存缓冲区刷新期间将图构建移交给 GPU 处理，我们将吞吐量提高了约 12 倍。
强制合并：索引完成后，GPU 继续加速分段合并，将强制合并阶段加快约 7 倍。

CPU 使用率：将图构建任务分流到 GPU，可显著降低 CPU 的平均和峰值利用率。以下图表展示了索引和合并期间的 CPU 使用情况，凸显了在 GPU 上运行这些操作时 CPU 使用率的显著降低。GPU 索引期间降低 CPU 使用率，可释放 CPU 周期并重新分配，从而提升搜索性能。

召回率：在 CPU 与 GPU 的运行结果中，准确性几乎一致，而 GPU 所构建的图在召回率方面略胜一筹。

再从价格这个维度来进行比较

前面的对比特意选用了相同的硬件配置，唯一的区别只是索引时是否启用 GPU。这种设置有助于单独考察计算性能的影响，不过也可以从成本角度来进行对比。

在与 GPU 加速配置大致相同的按小时费用下，可以搭建一套仅使用 CPU 的环境，其 CPU 和内存资源大约是前者的两倍：32 个 vCPU（AMD EPYC）和 64 GB RAM，因而可将索引线程数量增加到 16

为了保持比较的公平和一致性，我们在 AWS g6.8xlarge 实例上运行了这个仅 CPU 的实验，并且明确禁用了 GPU。这使我们能够在评估 GPU 加速与仅 CPU 索引的成本-性能权衡时，保持所有其他硬件特性不变。

正如您所预期的那样，更强大的 CPU 实例与上述部分的基准测试相比，性能确实有所提高。然而，将这一性能更强的 CPU 实例与最初的 GPU 加速结果进行对比后可以看到，GPU 依然带来显著性能提升：索引吞吐量提高约 5 倍，强制合并阶段加速约 6 倍，同时构建的图其召回率最高可达 95%。

结论

在端到端场景中，使用 NVIDIA cuVS 进行的 GPU 加速使索引吞吐量提高了近 12 倍，将强制合并延迟降低到原来的 1/7，同时显著降低了 CPU 利用率。这表明向量索引和合并工作负载从 GPU 加速中受益显著。在成本调整后的对比中，GPU 加速依然带来显著的性能提升：索引吞吐量约提升 5 倍，强制合并操作的速度提升约 6 倍。

GPU 加速的向量索引目前计划在 Elasticsearch 9.3 的技术预览版中推出，该版本计划于 2026 年初发布。

敬请关注更多内容。

9.2 中的 ES|QL：Smart Lookup Joins 和时间序列支持

Tyler Perkins, Kostas Krikellas, Julian Kiryakov — Tue, 02 Dec 2025 00:00:00 GMT

10 月发布的 Elasticsearch 9.2 版本包含诸多重大改进，使数据分析比以往任何时候都更快、更灵活、更易访问。该版本的核心是对我们的管道式查询语言 ES|QL 的重要增强，旨在直接为终端用户带来更多价值。

下面将介绍 Elasticsearch 9.2 中的功能，这些功能将利用 ES|QL 改变您的数据分析工作流。

数据关联的革命：更智能、更快速、更灵活的 Lookup Join

在 Elasticsearch 9.2 中，ES|QL 中的 LOOKUP JOIN 命令发生了重大变化，变得更加高效和多功能。LOOKUP JOIN 将 ES|QL 查询结果表中的数据与指定查找模式索引中的匹配记录结合起来。它会根据连接字段中的匹配值，将查找索引中的字段作为新列添加到结果表中。以前，连接数据仅限于单一字段和简单相等。不再是这样了！这些增强功能使您能够轻松应对复杂的数据关联方案。

Lookup Join 的主要增强功能包括：

多字段连接：轻松连接多个字段。例如，要将 application_logs 与 service_registry 连接到 service_name，environment 和 version:

FROM application_logs
| LOOKUP JOIN service_registry ON service_name, environment, version

使用表达式释放复杂的连接谓词（技术预览）：

您不再局限于简单相等。LOOKUP JOIN 现在允许您指定多个相关性标准，并纳入一系列二进制运算符，包括 ==、 !=、<、>、<= 和 >=。这意味着您可以创建高度细致的连接条件，从而能够对数据提出更复杂的问题。

示例 1：使用按服务 SLA 阈值查找应用程序指标

FROM application_metrics
| LOOKUP JOIN sla_thresholds
      ON service_name == sla_service AND response_time > sla_response_time

示例 2：此查询根据随时间变化的地区定价政策计算应付金额。它根据复杂的日期范围和相等条件连接三个数据集，计算出最终的 due_amount。第二个查找连接使用 meter_readings 索引中的measurement_date 字段和customers 索引中的region_id 字段连接到pricing_policies 索引，并为特定 region 和 measurement_date 查找正确的定价策略。

FROM meter_readings
| LOOKUP JOIN customers
      ON meter_id
| LOOKUP JOIN pricing_policies
      ON
        region_id == region AND
          measurement_date >= policy_begin_date AND
          measurement_date < policy_end_date
| EVAL due_amount = (kwh_consumed * rate_per_kwh + base_charge) * (1 + tax_rate)
| EVAL period = policy_name
| KEEP customer_name, period, due_amount, measurement_date, kwh_consumed,
    rate_per_kwh, base_charge, tax_rate
| SORT measurement_date

过滤连接带来的巨大性能提升：

我们提高了使用查找表条件筛选的“扩展连接”的性能。扩展连接会使每条输入行产生多个匹配项，从而产生较大的中间结果集。当后续筛选器丢弃其中许多行时，情况会变得更糟。在 9.2 中，我们通过在对查找数据应用筛选器时筛选掉不必要的行来优化这些连接，而避免处理将被丢弃的行。在某些情况下，这些连接的速度最多可以快 1000 倍！

这种优化在处理“扩展连接”时至关重要，因为在这种情况下，查找最初可能会产生许多潜在的匹配项。通过智能推送筛选器，仅处理相关数据，从而大幅缩短查询执行时间，实现对海量数据集的实时分析。这意味着，即使是大型或复杂的连接操作，您也能更快地获得见解。

Lookup Join 跨集群搜索 (CCS) 兼容性：

当 Lookup Join 在 8.19 和 9.1 版本中正式发布时，它缺少跨集群搜索 (CCS) 支持。对于在多个集群中运行的组织，LOOKUP JOIN 现在可与 9.2 中的 CCS 无缝集成。只需在要执行连接的所有远程集群上放置查找索引，ES|QL 就会自动利用这些远程查找索引来连接远程数据。这简化了分布式数据分析，并确保在整个 Elasticsearch 部署中实现一致的丰富性。

这些改进意味着您可以以前所未有的精度、速度和便捷性关联各种数据集，从而发现更深入、更具可操作性的见解，而无需复杂的替代方案或预处理步骤。

轻松丰富您的数据：适用于 Lookup 索引的 Kibana Discover 用户体验

数据丰富应该简单，而不是障碍。我们在 Kibana 的 Discover 中为创建和管理查找索引引入了绝佳的全新用户体验。

直观的工作流：Discover 全面的自动完成功能将引导您完成整个流程，并在 ES|QL 编辑器中建议查找索引和连接字段，使您可以非常轻松地将上传的数据与现有索引连接起来。键入一个不存在的查找索引名称，然后直接访问 Lookup 编辑器，只需单击一下即可创建索引。键入现有查找索引的名称，我们将为您提供编辑该索引的选项：

在线管理 (CRUD)：直接在 Discover 中使用行内编辑功能（创建、读取、更新、删除），使参考数据集保持最新状态。

轻松上传文件：现在，您可以在 Discover 中直接上传 CSV 等文件，并立即在 LOOKUP JOIN 中使用这些文件。再也不需要在 Kibana 的不同区域之间来回切换上下文了！

无论您是将用户 ID 映射到名称、添加业务元数据，还是连接静态参考文件，此功能都能让数据丰富化变得触手可及，将连接的强大功能直接交到每个用户的手中——快速、简单且集中于一处。

保留上下文：INLINE STATS 简介（技术预览）

数据聚合至关重要，但有时您需要在查看原始数据的同时查看聚合数据。我们很高兴将 INLINE STATS 作为技术预览功能推出。

STATS 命令会将输入字段替换为聚合输出，而INLINE STATS 命令则不同，它保留了所有原始输入字段，只是添加了新的聚合字段。这样，您就可以在聚合后对原始输入字段执行进一步操作，从而提供更连续、更灵活的分析工作流。

例如，要在计算平均飞行距离的同时保留单个飞行记录行：

FROM kibana_sample_data_flights
 | KEEP Carrier, Dest, DistanceMiles
 | INLINE STATS avgDist = ROUND(AVG(DistanceMiles))
       BY Dest
 | WHERE DistanceMiles > avgDist

在此查询中，将 avgDist 与我们分组的相应 Dest (ination) 添加到每一行中，然后，由于我们仍有航班信息列，我们可以将结果筛选为飞行距离大于平均值的航班。

ES|QL 中的时间序列支持（技术预览版）

Elasticsearch 使用时序数据流来存储指标。我们将通过 TS 源代码命令在 ES|QL 中添加对时间序列聚合的支持。此功能在 Elastic Cloud serverless 和 9.2 基础版中以技术预览版的形式提供。

时间序列分析主要基于聚合查询，这些查询按照一个或多个筛选维度对时间分桶的指标值进行汇总。大多数聚合查询依靠两步处理，包括：(a) 内部聚合函数对每个时间序列的值进行汇总，以及 (b) 外部聚合函数将 (a) 的结果在时间序列之间进行组合。

TS 源命令与 STATS 结合使用，为表达对时间序列的查询提供了一种简洁而有效的方法。具体来说，请考虑以下计算每个主机和每小时的总请求率的示例：

TS my_metrics
| WHERE @timestamp > NOW() - 1 day
| STATS SUM(RATE(requests))
      BY host, TBUCKET(1h)

在这种情况下，首先对每个时间序列和每个小时的时间序列聚合函数 RATE 进行评估。生成的部分聚合值随后使用 SUM 进行组合，以计算每个主机和每小时的最终聚合值。

您可以在此处查看可用的时间序列聚合函数列表。现在支持计数率，这可以说是处理计数器最重要的聚合功能。

TS 源命令旨在与STATS 结合使用，其执行经过调整，可有效支持时间序列聚合。例如，数据在进入STATS 之前要进行排序。目前不允许在 TS 和 STATS 之间执行可能丰富或改变时序数据或其顺序的处理命令，例如 FORK 或 INLINE STATS。将来可能会取消这一限制。

STATS 表格输出可使用任何适用命令进行进一步处理。例如，以下查询计算每台主机和每小时的平均 cpu_usage 与最大值的比率：

TS my_metrics
| STATS avg_usage = AVG(AVG_OVER_TIME(cpu_usage))
      BY host, time_bucket = TBUCKET(1h)
| INLINE STATS max_avg_usage = MAX(avg_usage)
      BY host
| EVAL ratio = avg_usage / max_avg_usage
| KEEP host, time_bucket, ratio
| SORT host, time_bucket DESC

时序数据存储在我们基于 Lucene 文档值的底层列式存储引擎中。TS 命令通过 ES|QL 计算引擎增加了向量化查询执行功能。与等效的DSL查询相比，查询性能往往提高一个数量级以上，并可与已建立的特定度量系统相媲美。我们将在未来提供详细的架构和性能分析，敬请期待。

扩展您的工具包：ES|QL 新功能

字符串操作：CONTAINS、MV_CONTAINS、URL_ENCODE、URL_ENCODE_COMPONENT、URL_DECODE，用于更强大的文本和 URL 处理。

时间序列和地理空间： TBUCKET用于灵活的时间分桶，TO_DENSE_VECTOR 用于矢量运算，以及一套全面的地理空间函数，如ST_GEOHASH 、 ST_GEOTILE 、 ST_GEOHEX 、 TO_GEOHASH 、 TO_GEOTILE 、 TO_GEOHEX用于高级基于位置的分析。

日期格式：使用 DAY_NAME、MONTH_NAME，以获得更易读的日期表示形式。

这些功能为您提供了一套更丰富的工具，可直接在 ES|QL 中操作和分析您的数据。

内在优势：更高的性能和效率

除了上述突出的功能外，Elasticsearch 9.2 还对 ES|QL 进行了大量性能优化。在函数能够替代多个类似 RLIKE 查询的情况下，我们使用 pushdown 加快了 RLIKE(LIST) 的执行速度。通过 RLIKE (LIST)，我们可以将这些查询合并为一个自动机，并应用一个自动机而不是多个自动机。我们还通过索引排序加快了关键字字段的加载速度，并对一般查询进行了优化——这些改进可确保您的 ES|QL 查询比以往更高效地运行。

立即开始！

Elasticsearch 9.2 标志着 ES|QL 的重大飞跃，为您的数据分析工作流带来了前所未有的强大功能和灵活性。我们鼓励您探索这些新功能，并体验它们带来的不同。

有关 Elasticsearch 9.2 中所有更改和增强功能的完整列表，请参阅正式发布说明。祝您查询愉快！

使用 Elasticsearch 构建 ChatGPT 连接器以查询 GitHub 问题

Tomás Murúa — Mon, 01 Dec 2025 00:00:00 GMT

最近，OpenAI 宣布为专业版/商务版/企业版和教育版 ChatGPT 提供自定义连接器功能。除了提供开箱即用的连接器来获取 Gmail、GitHub、Dropbox 等平台上的数据。还可以使用 MCP 服务器创建自定义连接器。

定制连接器使您能够将现有的 ChatGPT 连接器与其他数据源（如 Elasticsearch）结合，以获得全面的答案。

在本文中，我们将构建一个 MCP 服务器，将 ChatGPT 连接到包含内部 GitHub 问题和拉取请求信息的 Elasticsearch 索引。这样就可以使用 Elasticsearch 数据回答自然语言查询。

我们将在 Google Colab 上使用 FastMCP 和 ngrok 部署 MCP 服务器，以获取 ChatGPT 可以连接的公共 URL，从而省去复杂的基础架构设置。

有关 MCP 及其生态系统的全面概述，请参阅《MCP 的现状》。

准备工作

在开始之前，您需要：

Elasticsearch 集群（8.X 或更高版本）
Elasticsearch API密钥，具有对您的索引的读取访问权限
Google 账户（用于 Google Colab）
Ngrok账户（免费套餐可用）
拥有专业版/企业版/商务版或教育版套餐的 ChatGPT 账户

了解 ChatGPT MCP 连接器的要求

ChatGPT MCP 连接器需要实现两个工具：search 和 fetch。有关更多详情，请参阅 OpenAI 文档。

搜索工具

根据用户查询，从 Elasticsearch 索引中返回相关结果列表。

接收的内容：

一个单一的字符串，包含用户的自然语言查询。
示例：“查找与 Elasticsearch 迁移相关的问题。”

返回的内容：

一个对象，其result 关键字包含一个结果对象数组。每个结果包括：
- id - 唯一文档标识符
- title - 问题或拉取请求标题
- url - 链接到问题或 PR

在我们的实现中：

return {
    "results": [
        {
            "id": "PR-612",
            "title": "Fix memory leak in WebSocket notification service",
            "url": "https://internal-git.techcorp.com/pulls/612"
        },
        # ... more results
    ]
}

获取工具

获取指定文档的完整内容。

接收的内容：

搜索结果中包含 Elasticsearch 文档 ID 的单个字符串
示例：“获取 PR-578 的详细信息。”

它返回的内容：

一个完整的文档对象，包含：
- id - 唯一文档标识符
- title - 问题或拉取请求标题
- text - 完整的问题/PR描述和详细信息
- url - 链接到问题或 PR
- type - 文档类型（问题、pull_request）
- status - 当前状态（打开、进行中、已解决）
- priority - 优先级别（低、中、高、关键）
- assignee - 负责此问题/PR 的人员
- created_date - 何时创建
- resolved_date - 何时解决（如适用）
- labels - 与文件相关的标签
- related_pr －相关拉取请求 ID

return {
    "id": "PR-578",
    "title": "Security hotfix: Patch SQL injection vulnerabilities",
    "text": "Description: CRITICAL SECURITY FIX for ISSUE-1889. Patches SQL...",
    "url": "https://internal-git.techcorp.com/pulls/578",
    "type": "pull_request",
    "status": "closed",
    "priority": "critical",
    "assignee": "sarah_dev",
    "created_date": "2025-09-19",
    "resolved_date": "2025-09-19",
    "labels": "security, hotfix, sql",
    "related_pr": null
}

注意：本示例使用扁平结构，其中所有字段都位于根级别。OpenAI 的要求非常灵活，还支持嵌套的元数据对象。

GitHub 问题和 PR 数据集

在本教程中，我们将使用包含问题和拉取请求的内部 GitHub 数据集。这代表了一个您希望通过 ChatGPT 查询私有、内部数据的场景。

数据集可以在此处找到。我们将使用批量 API 更新数据索引。

这个数据集包含：

有关描述、状态、优先级和分配人员的问题
包含代码更改、审查和部署信息的拉取请求
问题与 PR 之间的关系（例如，PR-578 修复了 ISSUE-1889）
标签、日期和其他元数据

索引映射

该索引使用以下映射来支持使用 ELSER 的混合搜索。text_semantic 用于语义搜索，而其他字段用于关键字搜索。

{
  "mappings": {
    "properties": {
      "id": {
        "type": "keyword"
      },
      "title": {
        "type": "text"
      },
      "text": {
        "type": "text"
      },
      "text_semantic": {
        "type": "semantic_text",
        "inference_id": ".elser-2-elasticsearch"
      },
      "url": {
        "type": "keyword"
      },
      "type": {
        "type": "keyword"
      },
      "status": {
        "type": "keyword"
      },
      "priority": {
        "type": "keyword"
      },
      "assignee": {
        "type": "keyword"
      },
      "created_date": {
        "type": "date",
        "format": "iso8601"
      },
      "resolved_date": {
        "type": "date",
        "format": "iso8601"
      },
      "labels": {
        "type": "keyword"
      },
      "related_pr": {
        "type": "keyword"
      }
    }
  }
}

构建MCP服务器

我们的 MCP 服务器按照 OpenAI 规范实现了两个工具，使用混合搜索将语义和文本匹配相结合，以获得更好的结果。

搜索工具

利用 RRF（倒数排序融合）进行混合搜索，将语义搜索与文本匹配相结合：

@mcp.tool()
    async def search(query: str) -> Dict[str, List[Dict[str, Any]]]:
        """
        Search for internal issues and PRs using hybrid search (semantic + text with RRF).
        Returns list with id, title, and url per OpenAI spec.
        """
        if not query or not query.strip():
            return {"results": []}

        logger.info(f"Searching for: '{query}'")

        try:
            # Hybrid search with RRF (Reciprocal Rank Fusion)
            response = es_client.search(
                index=ELASTICSEARCH_INDEX,
                size=10,
                source=["id", "title", "url", "type", "priority"],
                retriever={
                    "rrf": {
                        "retrievers": [
                            {
                                # Semantic search with ELSER
                                "standard": {
                                    "query": {
                                        "semantic": {
                                            "field": "text_semantic",
                                            "query": query
                                        }
                                    }
                                }
                            },
                            {
                                # Text search (BM25) for keyword matching
                                "standard": {
                                    "query": {
                                        "multi_match": {
                                            "query": query,
                                            "fields": [
                                                "title^3",
                                                "text^2",
                                                "assignee^2",
                                                "type",
                                                "labels",
                                                "priority"
                                            ],
                                            "type": "best_fields",
                                            "fuzziness": "AUTO"
                                        }
                                    }
                                }
                            }
                        ],
                        "rank_window_size": 50,
                        "rank_constant": 60
                    }
                }
            )

            results = []
            if response and 'hits' in response:
                for hit in response['hits']['hits']:
                    source = hit['_source']
                    results.append({
                        "id": source.get('id', hit['_id']),
                        "title": source.get('title', 'Unknown'),
                        "url": source.get('url', '')
                    })

            logger.info(f"Found {len(results)} results")
            return {"results": results}

        except Exception as e:
            logger.error(f"Search error: {e}")
            raise ValueError(f"Search failed: {str(e)}")

要点：

使用 RRF 的混合搜索：结合语义搜索 (ELSER) 和文本搜索 (BM25)，以获得更好的结果。
多匹配查询：在多个字段中进行搜索，并使用增强功能（标题^3、文本^2、分配人员^2）。插入符号 (^) 会乘以相关性分数，优先考虑标题中的匹配项而非内容中的匹配项。
模糊匹配：fuzziness: AUTO 通过允许近似匹配来处理错别字和拼写错误。
RRF 参数调整：
- rank_window_size: 50 - 指定在合并之前从每个检索器（语义和文本）中考虑最靠前结果的数量。
- rank_constant: 60 - 该值决定了单个结果集中的文档对最终排序结果的影响程度。
仅返回必填字段：根据 OpenAI 规范返回 id、title、url，避免不必要地暴露其他字段。

获取工具

按文档 ID（如果存在）检索文档详细信息：

@mcp.tool()
    async def fetch(id: str) -> Dict[str, Any]:
        """
        Retrieve complete issue/PR details by ID.
        Returns id, title, text, url.
        """
        if not id:
            raise ValueError("ID is required")

        logger.info(f"Fetching: {id}")

        try:
            # Search by the 'id' field (not _id) since IDs are stored as a field
            response = es_client.search(
                index=ELASTICSEARCH_INDEX,
                body={
                    "query": {
                        "term": {
                            "id": id  # Search by your custom 'id' field
                        }
                    },
                    "size": 1
                }
            )

            if not response or not response['hits']['hits']:
                raise ValueError(f"Document with id '{id}' not found")

            hit = response['hits']['hits'][0]
            source = hit['_source']

            result = {
                "id": source.get('id', id),
                "title": source.get('title', 'Unknown'),
                "text": source.get('text', ''),
                "url": source.get('url', ''),
                "type": source.get('type', ''),
                "status": source.get('status', ''),
                "priority": source.get('priority', ''),
                "assignee": source.get('assignee', ''),
                "created_date": source.get('created_date', ''),
                "resolved_date": source.get('resolved_date', ''),
                "labels": source.get('labels', ''),
                "related_pr": source.get('related_pr', '')
            }

            logger.info(f"Fetched: {result['title']}")
            return result

        except Exception as e:
            logger.error(f"Fetch error: {e}")
            raise ValueError(f"Failed to fetch '{id}': {str(e)}")

要点：

按文档 ID 字段进行搜索：使用自定义 id 字段上的术语查询
返回完整文档：包含完整的 text 字段及其所有内容
扁平结构：所有字段均位于根级别，与 Elasticsearch 的文档结构相匹配。

在 Google Colab 上部署

我们将使用 Google Colab 来运行 MCP 服务器，并使用 ngrok 将其公开，以便 ChatGPT 可以连接到它。

步骤 1：打开 Google Colab 笔记本

访问我们预配置的笔记本适用于 ChatGPT 的 Elasticsearch MCP。

步骤 2：配置您的凭据

您需要三项信息：

Elasticsearch URL：您的 Elasticsearch 集群 URL。
Elasticsearch API 密钥：具有索引读取权限的 API 密钥。
Ngrok 身份验证令牌：来自 ngrok 的免费令牌。我们将使用 ngrok 将 MCP URL 公开到互联网，以便 ChatGPT 可以连接到它。

获取 ngrok 令牌

在 ngrok 注册免费账户
前往您的 ngrok 仪表板
复制您的身份验证令牌

为 Google Colab 添加机密

在 Google Colab 笔记本中：

点击左侧边栏中的“密钥图标”以打开“机密”。
添加这三个秘密：

ELASTICSEARCH_URL=https://your-cluster.elastic.com:443
ELASTICSEARCH_API_KEY=your-api-key
NGROK_TOKEN=your-ngrok-token

3. 为每个机密启用笔记本访问权限

步骤 3：运行 Notebook

点击“运行时”，然后点击“全部运行”，以执行所有单元格
等待服务器启动（约30秒）
查找显示您的公开 ngrok URL 的输出

4. 该输出将显示如下内容：

连接 ChatGPT

现在我们将 MCP 服务器连接到您的 ChatGPT 账户。

打开 ChatGPT，前往“设置”。
导航到“连接器”。如果您使用的是专业版账户，则需要在连接器中打开“开发者模式”。

如果您使用的是 ChatGPT 企业版或商业版，您需要将连接器发布到您的工作场所。

3. 点击“创建”。

注意：在商业版、企业版和教育版工作区中，只有工作区所有者、管理员和已启用相应设置（针对企业版/教育版）的用户才能添加自定义连接器。具有普通成员角色的用户无法自行添加自定义连接器。

一旦连接器被所有者或管理员用户添加并启用，工作区中的所有成员即可使用该连接器。

4. 输入所需信息和以 /sse/ 结尾的 ngrok URL。请注意“sse”后面的“/”。没有它就无法正常工作：

名字： Elasticsearch MCP
描述：用于搜索和获取 GitHub 内部信息的自定义 MCP。

5. 按下“创建”保存自定义 MCP。

如果您的服务器正在运行，则连接是即时的。无需额外的身份验证，因为 Elasticsearch API 密钥已在服务器中配置。

测试 MCP 服务器

在提问之前，您需要先选择 ChatGPT 应该使用的连接器。

提示 1: 搜索问题

提问：“查找与 Elasticsearch 迁移相关的问题”并确认操作工具调用。

ChatGPT 将调用search 工具处理您的查询。你可以看到它正在查找可用工具，并准备调用 Elasticsearch 工具，在对该工具执行任何操作之前与用户确认。

工具调用请求：

{
  "query": "Elasticsearch migration issues"
}

工具响应：

{
  "results": [
    {
      "id": "PR-598",
      "title": "Elasticsearch 8.x migration - Application code changes",
      "url": "https://internal-git.techcorp.com/pulls/598"
    },
    {
      "id": "ISSUE-1712",
      "title": "Migrate from Elasticsearch 7.x to 8.x",
      "url": "https://internal-git.techcorp.com/issues/1712"
    },
    {
      "id": "RFC-045",
      "title": "Design Proposal: Microservices Migration Architecture",
      "url": "https://internal-git.techcorp.com/rfcs/045"
    }
    // ... 7 more results
  ]
}

ChatGPT 会处理这些结果，并以自然对话的形式呈现。

幕后

提示：“查找与 Elasticsearch 迁移相关的问题”

1. ChatGPT 调用 search(“Elasticsearch migration”)

2. Elasticsearch 执行混合搜索。

语义搜索能理解“升级”和“版本兼容性”等概念。
文本搜索可查找与“Elasticsearch”和“迁移”完全匹配的内容。
RRF 将两种方法的结果进行合并和排序

3. 返回与 id、title 匹配度最高的 10 个事件。 url

4. ChatGPT 将“ISSUE-1712：从 Elasticsearch 7.x 迁移到 8.x”作为最相关的结果

提示 2：获取完整的详细信息

问：“请提供有关 ISSUE-1889 的详细信息”

ChatGPT 识别到您需要有关特定问题的详细信息，并调用 fetch 工具，在对该工具采取任何行动前与用户确认。

工具调用请求：

{
  "id": "ISSUE-1889"
}

工具响应：

{
  "id": "ISSUE-1889",
  "title": "SQL injection vulnerability in search endpoint",
  "text": "Description: Security audit identified SQL injection vulnerability in /api/v1/search endpoint. User input from query parameter is not properly sanitized before being used in raw SQL query. Severity: HIGH - Immediate action required Affected Code: - File: services/search/query_builder.py - Line: 145-152 - Issue: String concatenation used instead of parameterized queries Investigation: - @security_team_alice: Confirmed exploitable with UNION-based injection - @sarah_dev: Checking all other endpoints for similar patterns - @john_backend: Found 3 more instances in legacy codebase Remediation: - Rewrite using SQLAlchemy ORM or parameterized queries - Add input validation and sanitization - Implement WAF rules as additional layer - Security regression tests Comments: - @tech_lead_mike: Stop all other work, this is P0 - @sarah_dev: PR-578 ready with fixes for all 4 vulnerable endpoints - @alex_devops: Deployed hotfix to production 2025-09-19 at 14:30 UTC - @security_team_alice: Verified fix, conducting full pentest next week Resolution: All vulnerable endpoints patched. Added pre-commit hooks to catch raw SQL queries. Security training scheduled for team.",
  "url": "https://internal-git.techcorp.com/issues/1889",
  "type": "issue",
  "status": "closed",
  "priority": "critical",
  "assignee": "sarah_dev",
  "created_date": "2025-09-18",
  "resolved_date": "2025-09-19",
  "labels": "security, vulnerability, bug, sql",
  "related_pr": "PR-578"
}

ChatGPT 会整合信息并清晰呈现。

幕后

提示：“获取有关 ISSUE-1889 的详细信息”

ChatGPT 调用 fetch(“ISSUE-1889”)
Elasticsearch 会检索完整文档
返回一个包含所有字段在根级别的完整文档
ChatGPT会综合信息并提供正确的引用。

结论

在本文中，我们构建了一个自定义 MCP 服务器，使用专用的搜索和获取 MCP 工具将 ChatGPT 连接到 Elasticsearch，从而实现对私有数据的自然语言查询。

这种 MCP 模式适用于任何您想通过自然语言查询的 Elasticsearch 索引、文档、产品、日志或其他数据。

使用 LangChain 和 Elasticsearch 开发代理 RAG 助手

Kirti Sodhi — Fri, 28 Nov 2025 00:00:00 GMT

本博文将深入探讨代理 RAG 工作流，解释其主要特点和常见设计模式。它通过一个使用 Elasticsearch 作为向量存储和 LangChain 构建代理 RAG 框架的实践示例，进一步演示了如何实施这些工作流程。最后，文章简要讨论了与设计和实施此类架构相关的最佳实践和挑战。您可以使用此Jupyter 笔记本创建一个简单的代理 RAG 管道。

代理 RAG 简介

检索增强生成（RAG）已成为基于 LLM 的应用的基石，它使模型能够根据用户查询检索相关上下文，从而提供最佳答案。RAG 系统通过从应用程序接口或数据存储中获取外部信息，而不是局限于预先训练的 LLM 知识，从而提高了 LLM 响应的准确性和上下文。另一方面，人工智能代理可自主运行，为实现指定目标做出决策并采取行动。

代理 RAG 是一个将检索增强生成和代理推理的优势结合在一起的框架。它将 RAG 集成到代理的决策过程中，使系统能够动态地选择数据源，改进查询以获得更好的上下文检索，生成更准确的响应，并应用反馈循环来不断提高输出质量。

代理 RAG 的主要特点

代理 RAG 框架标志着传统 RAG 系统的重大进步。它不再遵循固定的检索流程，而是利用能够实时规划、执行和优化结果的动态代理。

让我们来看看代理 RAG 管道的一些主要特点：

动态决策：Agentic RAG 使用推理机制来理解用户的意图，并将每个查询路由到最相关的数据源，从而生成准确且能感知上下文的响应。
全面的查询分析：Agentic RAG 深入分析用户查询，包括子问题及其总体意图。它能评估查询的复杂性，并动态选择最相关的数据源来检索信息，确保准确和完整的响应。
多阶段协作：该框架通过专业代理网络实现多阶段协作。每个代理处理更大目标中的特定部分，依次或同时工作，以实现协调一致的结果。
自我评估机制：代理式 RAG 管道利用自我反思来评估检索到的文档和生成的回复。它可以检查检索到的信息是否完全符合查询要求，然后审查输出信息的准确性、完整性和事实一致性。
与外部工具集成：该工作流程可与外部应用程序接口、数据库和实时信息源交互，纳入最新信息并动态适应不断变化的数据。

代理 RAG 的工作流程模式

工作流模式定义了代理人工智能如何以可靠、高效的方式构建、管理和协调基于 LLM 的应用程序。一些框架和平台，如 LangChain 、 LangGraph 、 CrewAI 和 LlamaIndex ，可用于实现这些代理工作流。

顺序检索链：顺序工作流将复杂的任务划分为简单、有序的步骤。每一步都会改进下一步的输入，从而取得更好的结果。例如，在创建客户档案时，一名代理可能会从客户关系管理中获取基本信息，另一名代理可能会从交易数据库中检索购买历史记录，最后一名代理可能会将这些信息结合起来，生成一份完整的客户档案，用于推荐或报告。
路由检索链：在这种工作流程模式中，路由器代理分析输入，并将其导向最合适的流程或数据源。当存在多个不同的数据源且重叠程度极低时，这种方法尤为有效。例如，在客户服务系统中，路由器代理会对收到的请求（如技术问题、退款或投诉）进行分类，并将其路由到相应的部门进行有效处理。
并行检索链：在这种工作流程模式中，多个独立的子任务同时执行，然后将其输出汇总，生成最终响应。这种方法大大缩短了处理时间，提高了工作流程效率。例如，在客户服务并行工作流程中，一名代理检索过去的类似请求，另一名则查阅相关的知识库文章。然后，聚合器将这些输出合并起来，生成一份综合决议。
Orchestrator 工作链：这种工作流程与并行化有相似之处，因为它利用了独立的子任务。然而，一个关键的区别在于集成了一个协调代理。该代理负责分析用户查询，在运行期间将查询动态地划分为子任务，并确定制定准确回复所需的适当流程或工具。

从零开始建立代理 RAG 管道

为了说明代理 RAG 的原理，让我们使用 LangChain 和 Elasticsearch 设计一个工作流程。该工作流程采用基于路由的架构，多个代理协作分析查询、检索相关信息、评估结果并生成一致的回复。您可以参考这个Jupyter 笔记本来学习这个示例。

工作流程从路由器代理开始，路由器代理分析用户的查询，选择最佳检索方法，即vectorstore 、websearch 或composite 方法。矢量存储处理传统的基于 RAG 的文档检索，网络搜索获取未存储在矢量存储中的最新信息，而复合方法则在需要来自多个来源的信息时将两者结合起来。

如果文件被认为合适，摘要代理就会生成清晰且与上下文相符的回复。但是，如果文档不足或不相关，查询重写代理就会重新制定查询，以改进搜索。修改后的查询会重新启动路由过程，使系统能够改进搜索并提高最终输出结果。

准备工作

该工作流程依靠以下核心组件来有效执行示例：

Python 3.10
Jupyter 笔记本
Azure OpenAI
Elasticsearch
LangChain

在继续之前，系统会提示您配置本例所需的以下环境变量。

AZURE_OPENAI_ENDPOINT="Add your azure openai endpoint"
AZURE_OPENAI_KEY="Add your azure openai key"
AZURE_OPENAI_DEPLOYMENT="gpt-4.1"
AZURE_OPENAI_API_VERSION="Add your azure openai api version"

ES_ENDPOINT = "Add your Elasticsearch ENDPOINT"
ES_API_KEY = "Add your Elasticsearch API KEY"

数据来源

本工作流程使用 AG 新闻数据集的一个子集进行说明。数据集包含不同类别的新闻文章，如国际、体育、商业和科学/技术。

dataset = load_dataset("ag_news", split="train[:1000]")
docs = [
    Document(
        page_content=sample["text"],
        metadata={"category": sample["label"]}
    )
    for sample in dataset
]

从langchain_elasticsearch 开始使用ElasticsearchStore 模块作为我们的向量存储。在检索方面，我们采用 Elastic 专有的嵌入模型ELSER，实施 SparseVectorStrategy。在启动向量存储之前，必须确认 ELSER 模型已正确安装并部署到 Elasticsearch 环境中。

elastic_vectorstore = ElasticsearchStore.from_documents(
    docs,
    es_url=ES_ENDPOINT,
    es_api_key=ES_API_KEY,
    index_name=index_name,
    strategy=SparseVectorStrategy(model_id=".elser_model_2"),
)

elastic_vectorstore.client.indices.refresh(index=index_name)

网络搜索功能是利用 LangChain 社区工具中的DuckDuckGoSearchRun实现的，它能让系统高效地从网上检索实时信息。您还可以考虑使用其他搜索 API，它们可能会提供更相关的结果。之所以选择该工具，是因为它无需 API 密钥即可进行搜索。

duckduckgo = DuckDuckGoSearchRun(description= "A custom DuckDuckGo search tool for finding latest news stories.", verbose=True)
def websearch_retriever(query):
    results = duckduckgo.run(f"{query}")
    return results

复合检索器专为需要结合多种来源的查询而设计。它通过同时检索网络上的实时数据和查询矢量存储中的历史新闻，提供全面、准确的响应。

def composite_retriever(query):
    related_docs = vectorstore_retriever(query)
    related_docs += websearch_retriever(query)
    return related_docs

设置代理

下一步，将定义 LLM 代理，以便在该工作流程中提供推理和决策能力。我们将创建的 LLM 链包括router_chain,grade_docs_chain,rewrite_query_chain, 和summary_chain 。

路由器代理使用 LLM 助手，在运行时为给定查询确定最合适的数据源。分级代理对检索到的文档进行相关性评估。如果文件被认为是相关的，它们就会被传递给摘要代理，以生成摘要。否则，重写查询代理会重新制定查询，并将其发送回路由过程，进行另一次检索尝试。您可以在笔记本的 LLM chains 部分找到所有代理的说明。

class RouteQuery(BaseModel):
    datasource: Literal["vectorstore", "websearch", "composite"] = Field(
        ...,
        description="Choose to route the query to web search, vectorstore or composite."
    )

router_prompt = ChatPromptTemplate.from_template("""You are an assistant that decides the best data source for questions based on news articles.
Choose one of the following options:
- 'vectorstore': for general, background, or historical news articles.
- 'websearch': for recent discoveries, 'latest', 'current', or '2025' type queries.
- 'composite': when the question needs both historical and current knowledge on news articles.

Question: {query}

Return one word: 'vectorstore', 'websearch', or 'composite'.
""")
router_structured = llm.with_structured_output(RouteQuery)
router_chain: RunnableSequence = router_prompt | router_structured

llm.with_structured_output 约束模型的输出，使其遵循RouteQuery 类下 BaseModel 定义的预定义模式，确保结果的一致性。第二行通过连接router_prompt 和router_structured 来组成RunnableSequence ，形成一个流水线，在这个流水线中，语言模型对输入提示进行处理，产生结构化的、符合模式的结果。

定义图形节点

这部分包括定义图形的状态，这些状态代表系统不同组件之间流动的数据。对这些状态的明确说明可确保工作流程中的每个节点都知道自己可以访问和更新哪些信息。

class RAGState(TypedDict):
    query: str
    docs: List[Document]
    router: str
    summary: str
    self_reflection: bool
    retry_count: int = 0

一旦定义了状态，下一步就是定义图的节点。节点就像图中的功能单元，可对数据执行特定操作。我们的管道中有 7 个不同的节点。

def router(state: RAGState):
   router = router_chain.invoke({'query': state["query"]})
   logger.info(f"Router selected the datasource: {router.datasource}")
   logger.info(f"User query: {state['query']}")
   return {"router": router.datasource}

def vectorstore(state: RAGState):
   return {"docs": vectorstore_retriever(state["query"])}

def websearch(state: RAGState):
   return {"docs": websearch_retriever(state["query"])}

def composite(state: RAGState):
   return {"docs": composite_retriever(state["query"])}

def self_reflection(state: RAGState):
   evaluation = grade_docs_chain.invoke(
       {"query": state["query"], "docs": state["docs"]}
   )
   if evaluation.binary_score:
       logger.info(f"Self-reflection passed -- binary_score={evaluation.binary_score}")
   else:
       logger.info(f"Self-reflection failed -- binary_score={evaluation.binary_score}")

   return {
       "self_reflection": evaluation.binary_score,
   }

def query_rewriter(state: RAGState):
   retry_count = state.get("retry_count", 0) + 1
   new_query = rewrite_query_chain.invoke({"query": state["query"]})
   logger.info(f"Query rewritten: {new_query}, retry_count: {retry_count}")
   return {
       "query": new_query,
       "retry_count": retry_count,
   }

def summarize(state: RAGState):
   summary = summarize_chain.run(
       query=state["query"],
       docs=state["docs"],
   )
   return {"summary": summary}

query_rewriter 节点在工作流程中有两个作用。首先，当自我反思代理评估的文档被认为不充分或不相关时，它会使用rewrite_query_chain 重写用户查询，以改进检索。其次，它还可以作为一个计数器，跟踪查询被重写的次数。

每次调用节点时，都会递增存储在工作流状态中的retry_count 。这种机制可防止工作流程进入无限循环。如果retry_count 超过预定义的阈值，系统就会退回到错误状态、默认响应或您选择的任何其他预定义条件。

编制图表

最后一步是定义图的边，并在编译前添加必要的条件。每个图都必须从指定的起始节点开始，作为工作流程的入口点。图中的边代表节点之间的数据流，有两种类型：

直边：它们定义了从一个节点到另一个节点的直接、无条件的流动。每当第一个节点完成任务后，工作流程就会自动沿直线进入下一个节点。
条件边：这些边允许工作流根据节点的当前状态或计算结果进行分支。下一个节点根据评估结果、路由决定或重试次数等条件动态选择。

graph.add_edge(START, "router")

def after_router(state: RAGState):
   route = state.get("router", None)
   if route == "vectorstore":
       return "vectorstore"
   elif route == "websearch":
       return "websearch"
   else:
       return "composite"

def after_self_reflection(state: RAGState):
   if state["self_reflection"]:
           return "summarize"
   return "query_rewriter"

def after_query_rewriter(state: RAGState):
   while state['retry_count'] <= 3:
           return "router"
   raise RuntimeError("Maximum retries (3) reached -- evaluation failed.")

graph.add_conditional_edges(
   "router",
   after_router,
   {
       "vectorstore": "vectorstore",
       "websearch": "websearch",
       "composite": "composite"
   }
)

graph.add_edge("vectorstore", "self_reflection")
graph.add_edge("websearch", "self_reflection")
graph.add_edge("composite", "self_reflection")
graph.add_conditional_edges(
   "self_reflection",
   after_self_reflection,
   {
       "summarize": "summarize",
       "query_rewriter": "query_rewriter"
   }
)
graph.add_conditional_edges("query_rewriter", after_query_rewriter, {"router": "router"})
graph.add_edge("summarize", END)
agent=graph.compile()

这样，第一个代理 RAG 管道就准备就绪，可以使用编译后的代理进行测试了。

result = agent.invoke({"query": query1})
logger.info(f"\nFinal Summary:\n: {result['summary']}")

测试代理 RAG 管道

现在，我们将使用以下三种不同类型的查询对该管道进行测试。请注意，结果可能各不相同，下面的例子只是说明了一种可能的结果。

query1="What are the latest AI models released this month?"
query2="What technological innovations are discussed in Sci/Tech news?"
query3="Compare a Sci/Tech article from the dataset with a current web article about AI trends."

对于第一次查询，路由器选择websearch 作为数据源。如输出所示，该查询未通过自我反省评估，随后被重定向到查询重写阶段。

INFO     | __main__:router:11 - Router selected the datasource: websearch
INFO     | __main__:router:12 - User query: What are the latest AI models released this month?
Latest Singapore news, including the city state's relationships with Malaysia and Mahathir, China and Xi Jinping, and the rest of Southeast Asia. 3 days ago · The latest military news, insights and analysis from China. All the latest news, opinions and analysis on Hong Kong, China, Asia and around the world Latest news, in-depth features and opinion on Malaysia, covering politics, economy, society and the Asean member-nation's relationships with China, Singapore, and other Southeast Asian ... Oct 12, 2025 · Brics (an acronym for Brazil, Russia, India, China and South Africa) refers to an association of 10 leading emerging markets. The other member states are Egypt, Ethiopia, ...
INFO     | __main__:self_reflection:31 - Self-reflection failed -- binary_score=False
INFO     | __main__:query_rewriter:40 - Query rewritten: query='Which AI models have been officially released in June 2024?', retry_count: 1
INFO     | __main__:router:11 - Router selected the datasource: websearch
INFO     | __main__:router:12 - User query: query='Which AI models have been officially released in June 2024?'
Dream Machine is a text-to-video model created by Luma Labs and launched in June 2024 . It generates video output based on user prompts or still images. Dream Machine has been noted for its ability to realistically capture motion... Released in June 2023. In June 2024 , Baidu announced Ernie 4.0 Turbo. In April 2025, Ernie 4.5 Turbo and X1 Turbo were released . These models are optimized for faster response times and lower operational costs.[28][29]. The meaning of QUERY is question, inquiry. How to use query in a sentence. Synonym Discussion of Query. QUERY definition: 1. a question, often expressing doubt about something or looking for an answer from an authority.... Learn more. Query definition: a question; an inquiry.. See examples of QUERY used in a sentence.
INFO     | __main__:self_reflection:29 - Self-reflection passed -- binary_score=True
INFO     | __main__::2 - 
Final Summary:
: In June 2024, two AI models were officially released: Dream Machine, a text-to-video model launched by Luma Labs, and Ernie 4.0 Turbo, announced by Baidu, which is optimized for faster response times and lower operational costs.

接下来，我们以第二个查询为例，对使用vectorstore 检索的示例进行研究。

INFO     | __main__:router:11 - Router selected the datasource: vectorstore
INFO     | __main__:router:12 - User query: What technological innovations are discussed in Sci/Tech news?
INFO     | __main__:self_reflection:29 - Self-reflection passed -- binary_score=True
INFO     | __main__::2 - 
Final Summary:
: Recent Sci/Tech news highlights several technological innovations: NASA is collaborating with Silicon Valley firms to build a powerful Linux-based supercomputer to support theoretical research and shuttle engineering; new chromatin transfer techniques have enabled the cloning of cats; cybersecurity advancements are being discussed in relation to protecting personal technology; Princeton University scientists assert that existing technologies can be used immediately to stabilize global warming; and a set of GameBoy micro-games has been recognized for innovation in game design.

最后的查询被导向复合检索，它同时利用了矢量存储和网络搜索。

INFO     | __main__:router:11 - Router selected the datasource: composite
INFO     | __main__:router:12 - User query: Compare a Sci/Tech article from the dataset with a current web article about AI trends.
Atlas currently only available on macOS, built on Chromium with planned features like ad-blocking still in development. OpenAI's Atlas browser launched with bold promises of AI -powered web browsing, but early real-world testing reveals a different story. Career-long data are updated to end-of-2024 and single recent year data pertain to citations received during calendar year 2024. The selection is based on the top 100,000 scientists by c-score (with and without self-citations) or a percentile rank of 2% or above in the sub-field. In this article I list 45 AI tools across 21 different categories. After exploring all the available options in each category, I've carefully selected the best tools based on my personal experience. Reading a complex technical article ? Simply highlight confusing terminology and ask "what's this?" to receive instant explanations. compare browsers. Comparison showing traditional browser navigation versus OpenAI Atlas AI -powered workflows. After putting Gemini, ChatGPT, Grok, and DeepSeek through rigorous testing in October 2025, it's clear that there isn't one AI that reigns supreme across all categories.
INFO     | __main__:self_reflection:29 - Self-reflection passed -- binary_score=True
INFO     | __main__::2 - 
Final Summary:
: A Sci/Tech article from the dataset highlights NASA's development of robust artificial intelligence software for planetary rovers, aiming to make them more self-reliant and capable of decision-making during missions. In contrast, a current web article about AI trends focuses on the proliferation of AI-powered tools across various categories, including browsers like OpenAI Atlas, and compares leading models such as Gemini, ChatGPT, Grok, and DeepSeek, noting that no single AI currently excels in all areas. While the NASA article emphasizes specialized AI applications for autonomous robotics in space exploration, the current trends article showcases the broadening impact of AI across consumer and professional technologies, with ongoing competition and rapid innovation among major AI platforms.

在上述工作流程中，代理 RAG 可以在检索用户查询的信息时智能地确定使用哪个数据源，从而提高响应的准确性和相关性。您可以创建更多示例来测试代理，并查看输出结果是否产生了任何有趣的结果。

构建代理 RAG 工作流程的最佳实践

既然我们已经了解了代理 RAG 的工作原理，那么让我们来看看构建这些工作流程的一些最佳实践。遵循这些准则将有助于保持系统的效率和易于维护。

做好后备准备：提前规划后备策略，以应对工作流程中任何步骤出现故障的情况。这可能包括返回默认答案、触发错误状态或使用替代工具。这可确保系统从容应对故障，而不会破坏整体工作流程。
实施全面的日志记录：尝试在工作流程的每个阶段实施日志记录，如重试、生成输出、路由选择和查询重写。这些日志有助于提高透明度，方便调试，并有助于随着时间的推移完善提示、代理行为和检索策略。
选择合适的工作流程模式：检查您的使用案例，选择最适合您需求的工作流程模式。使用顺序工作流进行逐步推理，使用并行工作流处理独立数据源，使用协调器-工作器模式处理多工具或复杂查询。
纳入评估战略：在工作流程的不同阶段纳入评估机制。这可以包括自我反思代理、对检索到的文件进行分级或自动质量检查。评估有助于验证检索到的文件是否相关、响应是否准确，以及复杂查询的所有部分是否都得到了处理。

挑战

虽然代理 RAG 系统在适应性、精确性和动态推理方面具有显著优势，但它们在设计和实施阶段也面临着一些必须解决的挑战。一些主要挑战包括

复杂的工作流程：随着代理和决策点的增加，整个工作流程会变得越来越复杂。这可能导致运行时出现错误或故障的几率增加。在可能的情况下，消除多余的代理和不必要的决策点，优先简化工作流程。
可扩展性：要扩展代理 RAG 系统以处理大型数据集和高查询量，可能具有挑战性。采用高效的索引、缓存和分布式处理策略，以保持大规模性能。
协调和计算开销：使用多个代理执行工作流需要高级协调。这包括谨慎的调度、依赖管理和代理协调，以防止出现瓶颈和冲突，所有这些都会增加整个系统的复杂性。
评估的复杂性：对这些工作流程进行评估本身就存在挑战，因为每个阶段都需要不同的评估策略。例如，RAG 阶段必须对检索文件的相关性和完整性进行评估，而生成的摘要则需要检查其质量和准确性。同样，查询重写的有效性也需要一个单独的评估逻辑，以确定重写后的查询是否改善了检索结果。

结论

在这篇博文中，我们介绍了代理 RAG 的概念，并强调了它如何通过结合代理人工智能的自主能力来增强传统的 RAG 框架。我们探索了代理 RAG 的核心功能，并通过一个实践案例演示了这些功能，即使用 Elasticsearch 作为向量存储和 LangChain 创建代理框架来构建一个新闻助手。

此外，我们还讨论了在设计和实施代理 RAG 管道时需要考虑的最佳实践和主要挑战。这些见解旨在指导开发人员创建稳健、可扩展和高效的代理系统，将检索、推理和决策有效地结合起来。

未来发展

我们建立的工作流程非常简单，为改进和实验留下了足够的空间。我们可以通过尝试各种嵌入模型和改进检索策略来加强这一点。此外，集成一个重新排序代理来确定检索文件的优先次序也是有益的。另一个探索领域涉及为代理框架制定评估战略，特别是确定适用于不同类型框架的通用和可重复使用的方法。最后，在大型和更复杂的数据集上试验这些框架。

与此同时，如果您也有类似的实验，欢迎与我们分享！欢迎提供反馈意见，或通过我们的社区 Slack 频道或论坛与我们联系。

资源

混合搜索不头疼：用检索器简化混合搜索

Mike Pellegrini — Thu, 27 Nov 2025 00:00:00 GMT

混合搜索被公认为是一种强大的搜索方法，它将词法搜索的精确性和速度与语义搜索的自然语言能力结合在一起。不过，在实际应用中可能会很棘手，往往需要对索引有深入的了解，并通过非繁琐的配置来构建冗长的查询。在本博客中，我们将探讨线性和 RRF 检索器的多字段查询格式如何使混合搜索变得更简单、更易用，从而消除常见的头痛问题，让您更轻松地充分利用其强大功能。我们还将回顾多字段查询格式如何使您在不了解索引的情况下执行混合搜索查询。

分数范围问题

首先，让我们回顾一下混合搜索困难的主要原因之一：不同的分数范围。我们的老朋友BM25会产生无限制的分数。换句话说，BM25 可以生成从接近 0 到（理论上）无穷大的分数。与此相反，针对dense_vector 字段的查询会产生介于 0 和 1 之间的分数。由于semantic_text 混淆了用于索引嵌入的字段类型，因此除非您对索引和推理端点配置有详细了解，否则很难说清查询的分数范围。这在试图交错使用词汇和语义搜索结果时会带来问题，因为即使语义结果更相关，词汇结果也可能优先于语义结果。对于这个问题，普遍接受的解决方案是在交织结果之前对分数进行归一化处理。Elasticsearch 为此提供了两种工具：线性检索器和RRF检索器。

RRF检索器采用RRF 算法，将文档排名作为衡量相关性的标准，并舍弃分数。由于不考虑分数，因此分数范围不匹配不是问题。

线性检索器使用线性组合来确定文档的最终得分。这包括获取文档中每个组件查询的得分，对其进行归一化处理，然后求和生成总分。在数学上，这一操作可以表示为

Total Score = 𝚺(N(Sx))

其中N 是归一化函数，SX 是查询 X 的得分。归一化功能在这里非常关键，因为它将每个查询的得分转换为使用相同的范围。您可以在这里了解有关线性寻回猎犬的更多信息。

分解

用户可以利用这些工具实现有效的混合搜索，但需要对索引有一定的了解。让我们看一个使用线性检索器的示例，在这个示例中，我们将查询一个包含两个字段的索引：

PUT linear_retriever_example
{
  "mappings": {
    "properties": {
      "semantic_text_field": { <1>
        "type": "semantic_text",
        "inference_id": ".multilingual-e5-small-elasticsearch"
      },
      "text_field": { <2>
        "type": "text"
      }
    }
  }
}

1.semantic_text_field 是一个semantic_text 字段，使用文本嵌入模型E5

text_field 是一个标准的text 字段

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "retrievers": [
        {
          "retriever": {
            "standard": {
              "query": {
                "match": { <1>
                  "semantic_text_field": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        },
        {
          "retriever": {
            "standard": {
              "query": {
                "match": {
                  "text_field": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        }
      ]
    }
  }
}

1.我们在字段上使用查询，我们在 Elasticsearch 8.18/9.0 中添加了对match 该查询的支持semantic_text

在构建查询时，我们需要牢记semantic_text_field 使用的是文本嵌入模型，因此对它的任何查询都会产生 0 到 1 之间的分数。我们还需要知道text_field 是一个标准的text 字段，因此对它的查询将产生一个无限制的分数。为了创建具有适当相关性的结果集，我们需要使用一种检索器，在合并查询得分之前将其归一化。在本例中，我们使用了minmax 归一化的线性检索器，它将每个查询的得分归一化为介于 0 和 1 之间的值。

本例中的查询结构相当简单，因为只涉及两个字段。然而，随着字段的增加和类型的变化，它很快就会变得复杂。这表明，要编写有效的混合搜索查询，往往需要对所查询的索引有更深入的了解，这样才能在组合之前对组件查询得分进行适当的归一化处理。这对混合搜索的广泛应用构成了障碍。

查询分组

让我们扩展一下示例：如果我们想查询一个text 字段和两个semantic_text 字段，该怎么办？我们可以构建这样一个查询：

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "retrievers": [
        {
          "retriever": {
            "standard": {
              "query": {
                "semantic": {
                  "field": "semantic_text_field_1",
                  "query": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        },
        {
          "retriever": {
            "standard": {
              "query": {
                "semantic": {
                  "field": "semantic_text_field_2",
                  "query": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        },
        {
          "retriever": {
            "standard": {
              "query": {
                "match": {
                  "text_field": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        }
      ]
    }
  }
}

这表面上看起来不错，但也有潜在的问题。现在，semantic_text 场比赛占总分的⅔：

Total Score = N(semantic_text_field_1 score) + N(semantic_text_field_2 score) + N(text_field score)

这可能不是你想要的结果，因为这会造成分数不平衡。在只有 3 个字段的示例中，这种影响可能并不明显，但如果查询的字段较多，就会出现问题。例如，大多数索引包含的词法字段远远多于语义字段（即dense_vector,sparse_vector, 或semantic_text) 。如果我们使用上述模式查询一个包含 9 个词法字段和 1 个语义字段的索引呢？词性匹配将占得分的 90% ，从而削弱语义搜索的有效性。

解决这一问题的常用方法是将查询分为词汇和语义两个类别，并对两者进行平均加权。这就避免了任一类别在总分中占主导地位。

让我们付诸实践。在使用线性检索器时，本例中的分组查询方法会是怎样的？

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "retrievers": [
        {
          "retriever": {
            "linear": {
              "retrievers": [
                {
                  "retriever": {
                    "standard": {
                      "query": {
                        "semantic": {
                          "field": "semantic_text_field_1",
                          "query": "foo"
                        }
                      }
                    }
                  },
                  "normalizer": "minmax"
                },
                {
                  "retriever": {
                    "standard": {
                      "query": {
                        "semantic": {
                          "field": "semantic_text_field_2",
                          "query": "foo"
                        }
                      }
                    }
                  },
                  "normalizer": "minmax"
                }
              ]
            }
          },
          "normalizer": "minmax"
        },
        {
          "retriever": {
            "standard": {
              "query": {
                "match": {
                  "text_field": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        }
      ]
    }
  }
}

哇，真是啰嗦！您甚至可能需要上下滚动多次才能查看整个查询！在这里，我们使用两级标准化来创建查询组。数学上可以表示为

Total Score = N(N(semantic_text_field_1 score) + N(semantic_text_field_2 score)) + N(text_field score)

这第二级规范化可确保semantic_text 字段和text 字段的查询权重均匀。请注意，在本例中，我们省略了text_field 的二级规范化，因为只有一个词法字段，这样可以避免更多的繁琐。

这种查询结构已经很笨重了，而且我们只查询三个字段。随着查询字段的增多，即使是经验丰富的搜索从业人员也越来越难以驾驭。

多字段查询格式

我们在 Elasticsearch 8.19、9.1 和无服务器中为线性和 RRF 检索器添加了多字段查询格式，以简化所有这些操作。现在，您只需使用"...... "即可执行与上述相同的查询：

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "fields": [ "semantic_text_field_1", "semantic_text_field_2", "text_field" ],
      "query": "foo",
      "normalizer": "minmax"
    }
  }
}

这将查询从 55 行缩减到 9 行！Elasticsearch 自动将索引映射用于

确定每个查询字段的类型
将每个字段归入一个词汇或语义类别
在最终得分中平均分配每个类别的权重

这样，任何人都可以执行有效的混合搜索查询，而无需了解有关索引或所用推理端点的详细信息。

使用 RRF 时，可以省略normalizer ，因为排名是相关性的代表：

GET rrf_retriever_example/_search
{
  "retriever": {
    "rrf": {
      "fields": [ "semantic_text_field_1", "semantic_text_field_2", "text_field" ],
      "query": "foo"
    }
  }
}

每场增强

在使用线性检索器时，您可以应用每个字段增强功能来调整某些字段中匹配的重要性。例如，假设您要查询四个字段：两个semantic_text 字段和两个text 字段：

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "fields": [ "semantic_text_field_1", "semantic_text_field_2", "text_field_1", "text_field_2" ],
      "query": "foo",
      "normalizer": "minmax"
    }
  }
}

默认情况下，每个字段在其组（词法或语义）中的权重相同。比分细目如下

换句话说，每个字段占总分的 25% 。

我们可以使用field^boost 语法为任何字段添加每个字段的提升。让我们将semantic_text_field_1 和text_field_1 提升 2：

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "fields": [ "semantic_text_field_1^2", "semantic_text_field_2", "text_field_1^2", "text_field_2" ]
      "query": "foo",
      "normalizer": "minmax"
    }
  }
}

现在的比分是这样的

每个查询组的权重仍然相同，但组内字段的权重发生了变化：

semantic_text_field_1 是语义查询组得分的 66% ，是总分的 33%
text_field_1 是词法查询组得分的 66% ，是总分的 33%

ℹ️ 请注意，在按字段提升时，总分范围不会改变。这是分数标准化的预期副作用，可确保词法和语义查询分数保持直接可比性。

ℹ️ 在 Elasticsearch 9.2+ 中，每个字段的提升也可与 RRF 检索器一起使用

通配符分辨率

您可以在fields 参数中使用* 通配符来匹配多个字段。继续上面的例子，这个查询在功能上等同于明确查询emantic_text_field_1,semantic_text_field_2, 和text_field_1 ：

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "fields": [ "semantic_text_field_*", "*_field_1" ],
      "query": "foo",
      "normalizer": "minmax"
    }
  }
}

值得注意的是，*_field_1 模式同时匹配text_field_1 和semantic_text_field_1 。查询将自动执行，就像明确查询每个字段一样。semantic_text_field_1 同时匹配两种模式也没有问题；在执行查询之前，所有匹配的字段名称都会被去除重复。

您可以通过多种方式使用通配符：

前缀匹配（例如：*_text_field)
内联匹配 (ex:semantic_*_field)
后缀匹配（例如：semantic_text_field_*)

您还可以使用多个通配符来应用上述组合，例如*_text_field_* 。

默认查询字段

多字段查询格式还允许您查询您一无所知的索引。如果省略fields 参数，它将查询由index.query.default_field 索引设置指定的所有字段：

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "query": "foo",
      "normalizer": "minmax"
    }
  }
}

默认情况下，index.query.default_field 设置为* 。该通配符将解析索引中支持术语查询的所有字段类型，其中大多数字段类型都支持术语查询。例外情况是

dense_vector 领域
rank_vector 领域
几何领域：geo_point, shape

当你想在第三方提供的索引上执行混合搜索查询时，该功能尤其有用。多字段查询格式可让您以简单的方式执行适当的查询。只需排除fields 参数，就能查询所有适用字段。

结论

分数范围问题会让有效的混合搜索实施起来很头疼，尤其是在对所查询的索引或所使用的推理端点了解有限的情况下。线性和 RRF 检索器的多字段查询格式将基于查询分组的自动混合搜索方法打包到简单易用的应用程序接口中，从而减轻了这种痛苦。附加功能（如按字段增强、通配符解析和默认查询字段）扩展了功能，涵盖了多种使用情况。

立即试用多字段查询格式

您可以通过免费试用，在完全托管的 Elasticsearch Serverless 项目中使用多字段查询格式检查线性检索器和 RRF 检索器。它还提供从 8.19& 9.1 开始的堆栈版本。

只需一条命令，几分钟即可在本地环境中开始使用：

curl -fsSL https://elastic.co/start-local | sh

利用弹性代理生成器和 GPT-OSS 构建人力资源人工智能代理

Tomás Murúa — Wed, 26 Nov 2025 00:00:00 GMT

引言

本文将向您展示如何使用GPT-OSS和 Elastic Agent Builder 为人力资源部门构建人工智能代理。代理可以回答你的问题，而无需向 OpenAI、Anthropic 或任何外部服务发送数据。

我们将使用 LM Studio 在本地为 GPT-OSS 提供服务，并将其连接到 Elastic Agent Builder。

本文结束时，您将拥有一个定制的人工智能代理，可以回答有关员工数据的自然语言问题，同时保持对信息和模型的完全控制。

准备工作

这篇文章需要

弹性云托管 9.2，无服务器或本地部署
建议使用 32GB 内存的机器（GPT-OSS 20B 最低 16GB 内存）
已安装LM 工作室
已安装Docker 桌面

为什么使用 GPT-OSS？

有了本地 LLM，您就可以将其部署到自己的基础设施中，并根据自己的需求进行微调。当然，您也不必向外部供应商支付许可费。

作为对开放模型生态系统承诺的一部分，OpenAI 于 2025 年 8 月 5 日发布了 GPT-OSS。

20B 参数模型提供

工具使用能力
高效推理
兼容 OpenAI SDK
与代理工作流程兼容

基准比较：

解决方案架构

该架构完全在本地计算机上运行。Elastic（在 Docker 中运行）通过 LM Studio 与本地 LLM 直接通信，Elastic Agent Builder 利用这种连接创建可查询员工数据的自定义人工智能代理。

有关详细信息，请参阅本文档。

为人力资源部门建立人工智能代理：步骤

我们将把实施分为 5 个步骤：

使用本地模型配置 LM 工作室
使用 Docker 部署本地弹性
在 Elastic 中创建 OpenAI 连接器
将员工数据上传到 Elasticsearch
构建并测试人工智能代理

步骤 1：使用 GPT-OSS 20B 配置 LM Studio

LM Studio 是一款用户友好型应用程序，可让您在本地计算机上运行大型语言模型。它提供了与 OpenAI 兼容的 API 服务器，无需复杂的设置过程即可轻松与 Elastic 等工具集成。有关详细信息，请参阅LM Studio 文档。

首先，从官方网站下载并安装LM Studio。安装完成后，打开应用程序。

在 LM Studio 界面：

转到搜索选项卡，搜索 "GPT-OSS
从 OpenAI 选择openai/gpt-oss-20b
点击下载

该模型的大小约为12.10GB。下载可能需要几分钟时间，具体取决于您的网络连接。

下载模型后

转到本地服务器选项卡
选择 openai/gpt-oss-20b
使用默认端口 1234
在右侧面板上，转到 "加载 "，将上下文长度设置为40K或更高

5.单击启动服务器

如果服务器正在运行，您应该会看到这个提示。

[LM STUDIO SERVER] Success! HTTP server listening on port 1234
[LM STUDIO SERVER] Supported endpoints:
[LM STUDIO SERVER] ->	GET  http://localhost:1234/v1/models
[LM STUDIO SERVER] ->	POST http://localhost:1234/v1/responses
[LM STUDIO SERVER] ->	POST http://localhost:1234/v1/chat/completions
[LM STUDIO SERVER] ->	POST http://localhost:1234/v1/completions
[LM STUDIO SERVER] ->	POST http://localhost:1234/v1/embeddings
Server started.

第 2 步：使用 Docker 部署本地弹性

现在，我们将使用 Docker 在本地设置 Elasticsearch 和 Kibana。Elastic 提供了一个方便的脚本来处理整个设置过程。更多详情，请参阅官方文档。

运行启动本地脚本

在终端中执行以下命令

curl -fsSL https://elastic.co/start-local | sh

该脚本将

下载并配置 Elasticsearch 和 Kibana
使用 Docker Compose 启动两个服务
自动激活 30 天白金试用版许可证

预期产出

只需等待以下信息并保存显示的密码和 API 密钥；访问 Kibana 时需要它们：

🎉 Congrats, Elasticsearch and Kibana are installed and running in Docker!
🌐 Open your browser at http://localhost:5601
   Username: elastic
   Password: KSUlOMNr
🔌 Elasticsearch API endpoint: http://localhost:9200
🔑 API key: cnJGX0pwb0JhOG00cmNJVklUNXg6cnNJdXZWMnM4bncwMllpQlFlUTlWdw==
Learn more at https://github.com/elastic/start-local

访问 Kibana

打开浏览器并导航至

http://localhost:5601

使用终端输出中获得的证书登录。

启用代理生成器

第 3 步：在 Elastic 中创建 OpenAI 连接器

现在，我们将配置 Elastic 以使用本地 LLM。

接入连接器

在 Kibana 中
转到项目设置 > 管理
在"警报和洞察 "下，选择 "连接器
单击创建连接器

配置连接器

从连接器列表中选择OpenAI。LM Studio 使用 OpenAI SDK，因此与 OpenAI 兼容。

用这些值填写字段：

连接器名称： LM Studio - GPT-OSS 20B
选择 OpenAI 提供商： 其他（OpenAI 兼容服务）
URL： http://host.docker.internal:1234/v1/chat/completions
默认型号： openai/gpt-oss-20b
API 密钥：testkey-123（任何文本都可以，因为 LM Studio 服务器不要求验证。）

要完成配置，请单击保存& 测试。

重要：打开 "启用本地函数调用"；这是使代理生成器正常工作的必要条件。如果不启用，就会出现No tool calls found in the response 错误。

测试连接

Elastic 会自动测试连接。如果一切配置正确，您将看到如下成功信息：

响应：

{
  "status": "ok",
  "data": {
    "id": "chatcmpl-flj9h0hy4wcx4bfson00an",
    "object": "chat.completion",
    "created": 1761189456,
    "model": "openai/gpt-oss-20b",
    "choices": [
      {
        "index": 0,
        "message": {
          "role": "assistant",
          "content": "Hello! 👋 How can I assist you today?",
          "reasoning": "Just greet.",
          "tool_calls": []
        },
        "logprobs": null,
        "finish_reason": "stop"
      }
    ],
    "usage": {
      "prompt_tokens": 69,
      "completion_tokens": 23,
      "total_tokens": 92
    },
    "stats": {},
    "system_fingerprint": "openai/gpt-oss-20b"
  },
  "actionId": "ee1c3aaf-bad0-4ada-8149-118f52dad757"
}

第 4 步：将员工数据上传到 Elasticsearch

现在，我们将上传人力资源员工数据集，以演示代理如何处理敏感数据。我用这种结构生成了一个虚构的数据集。

数据集结构

{
  "employee_id": "0f4dce68-2a09-4cb1-b2af-6bcb4821539b",
  "full_name": "Daffi Stiebler",
  "email": "lscutchings0@huffingtonpost.com",
  "date_of_birth": "1975-06-20T15:39:36Z",
  "hire_date": "2025-07-28T00:10:45Z",
  "job_title": "Physical Therapy Assistant",
  "department": "HR",
  "salary": "108455",
  "performance_rating": "Needs Improvement",
  "years_of_experience": 2,
  "skills": "Java",
  "education_level": "Master's Degree",
  "manager": "Carl MacGibbon",
  "emergency_contact": "Leigha Scutchings",
  "home_address": "5571 6th Park"
}

使用映射创建索引

首先，创建具有适当映射的索引。请注意，我们对一些关键字段使用了semantic_text 字段；这样就能为我们的索引提供语义搜索功能。

PUT hr-employees
{
  "mappings": {
    "properties": {
      "@timestamp": {
        "type": "date"
      },
      "employee_id": {
        "type": "keyword"
      },
      "full_name": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "email": {
        "type": "keyword"
      },
      "date_of_birth": {
        "type": "date",
        "format": "iso8601"
      },
      "hire_date": {
        "type": "date",
        "format": "iso8601"
      },
      "job_title": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "department": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "salary": {
        "type": "double"
      },
      "performance_rating": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "years_of_experience": {
        "type": "long"
      },
      "skills": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "education_level": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "manager": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "emergency_contact": {
        "type": "keyword"
      },
      "home_address": {
        "type": "keyword"
      },
      "employee_semantic": {
        "type": "semantic_text"
      }
    }
  }
}

使用批量 API 索引

将数据集复制并粘贴到 Kibana 的 Dev Tools 中并执行：

POST hr-employees/_bulk
{"index": {}}
{"employee_id": "57728b91-e5d7-4fa8-954a-2384040d3886", "full_name": "Filide Gane", "email": "vhallahan1@booking.com", "job_title": "Business Systems Development Analyst", "department": "Marketing", "salary": "$52330.27", "performance_rating": "Meets Expectations", "years_of_experience": 12, "skills": "Java", "education_level": "Bachelor's Degree", "date_of_birth": "2000-02-07T16:49:32Z", "hire_date": "2023-11-07T13:03:16Z", "manager": "Freedman Kings", "emergency_contact": "Vilhelmina Hallahan", "home_address": "75 Dennis Junction"}
{"index": {}}
{"employee_id": "...", ...}

验证数据

运行查询进行验证：

GET hr-employees/_search

第 5 步：构建并测试人工智能代理

一切配置完成后，就可以使用 Elastic Agent Builder 创建自定义人工智能代理了。有关详细信息，请参阅Elastic 文档。

添加连接器

在创建新代理之前，我们必须将代理生成器设置为使用名为LM Studio - GPT-OSS 20B 的自定义连接器，因为默认连接器是Elastic Managed LLM。为此，我们需要进入 "项目设置"> "管理"> "GenAI 设置"；现在选择我们创建的设置，然后单击 "保存"。

访问代理生成器

前往代理商
点击创建新代理

配置代理

要创建新代理，必须填写代理 ID、显示名称和显示说明。

但还有更多的自定义选项，比如 "自定义指令"，它可以指导代理如何与工具进行交互，类似于系统提示，但适用于我们的自定义代理。标签可帮助您组织代理人、头像颜色和头像符号。

我根据数据集为我们的代理选择的代理编号是：

Agent ID： hr_assistant

自定义说明：

You are an HR Analytics Assistant that helps answer questions about employee data.
When responding to queries:
- Provide clear, concise answers
- Include relevant employee details (name, department, salary, skills)
- Format monetary values with currency symbols
- Be professional and maintain data confidentiality

标签：Human Resources 和 GPT-OSS

显示名称： HR Analytics Assistant

显示说明：

A specialized AI assistant for Human Resources that helps analyze employee data, compensation, performance metrics, and talent management. Ask questions about employees, departments, salaries, or performance analytics.

有了所有数据，我们就可以点击 "保存新代理"。

测试代理

现在，您可以就员工数据提出自然语言问题，GPT-OSS 20B 将理解您的意图并生成适当的回复。

提示：

Which employee is the one with the highest salary in the hr-employees index?

请回答：

代理过程是

1.使用 GPT-OSS 连接器了解您的问题

2.生成适当的 Elasticsearch 查询（使用内置工具或自定义ES|QL）

3.检索匹配的员工记录

4.以自然语言和适当的格式呈现结果

与传统的词法搜索不同，由 GPT-OSS 支持的代理可以理解意图和上下文，从而在不知道确切字段名称或查询语法的情况下更容易找到信息。有关代理人思维过程的更多详情，请参阅本文。

结论

在本文中，我们使用 Elastic 的代理生成器（Agent Builder）构建了一个自定义人工智能代理，以连接到本地运行的 OpenAI GPT-OSS 模型。通过在本地机器上部署 Elastic 和 LLM，这种架构可以让您利用生成式人工智能功能，同时保持对数据的完全控制，而无需向外部服务发送信息。

我们使用 GPT-OSS 20B 作为实验，但此处参考了官方推荐的 Elastic Agent Builder 模型。如果您需要更高级的推理能力，还可以选择120B 参数变体，它在复杂情况下的表现更好，不过需要更高级的机器才能在本地运行。更多详情，请参阅OpenAI 官方文档。

来自 Cal Hacks 12.0 的顶级弹性代理生成器项目和学习成果

JD Armada — Tue, 25 Nov 2025 00:00:00 GMT

Watch video on YouTube

几周前，我们有幸赞助了Cal Hacks 12.0，这是规模最大的个人黑客马拉松之一，有来自世界各地的 2000 多名参赛者。我们为在 Serverless 上最佳使用 Elastic Agent Builder 设立了专门的奖项，反响非常好。在短短 36 小时内，我们就收到了 29 份以创造性方式使用 Agent Builder 的提交，其中包括构建野火情报工具和 StackOverflow 验证器。

除了令人印象深刻的项目之外，Cal Hacks 12.0 还为我们带来了同样宝贵的经验：首次接触我们 Stack 的开发人员提供了快速、未经过滤的反馈。黑客马拉松是一种独特的压力测试，时间紧迫，事先完全不熟悉，还有不可预知的障碍（比如臭名昭著的 WiFi 中断）。它们准确地揭示了开发人员体验的闪光点和仍需改进的地方。随着开发人员越来越多地通过 LLM 驱动的工作流，以新的方式与 Elastic Stack 进行交互，这一点现在变得更加重要。在这篇博文中，我们将深入探讨参与者使用 Agent Builder 构建的内容，以及我们在此过程中学到的东西。

获奖项目

第一名AgentOverflow

为 LLM 和代理时代重建的 Stack Overflow。

点击此处了解有关 AgentOverflow 的更多信息。

AgentOverflow 解决了大多数人工智能开发人员遇到的问题：LLM 会产生幻觉，聊天记录会消失，开发人员会浪费时间重新解决同样的问题。

AgentOverflow 可以捕捉、验证和重新浮现真实的问题-解决方案对，因此开发人员可以打破幻觉漩涡，更快地完成开发。

如何使用

1.共享 JSON--"解决方案模式"。

从克劳德共享中点击一下，就能刮取、提取并组装一个共享解决方案 JSON，这是一种结构化格式，其中包含：

问题
上下文
代码
标记
验证解决方案步骤。

验证器（LAVA）检查并强制执行结构，用户添加一行额外的上下文，然后在 Elasticsearch 中进行存储和索引。

2.查找解决方案

当您遇到困难时，点击Find Solution ，AgentOverflow 就会抓取您当前的对话，利用它建立一个查询，然后运行混合 Elasticsearch 搜索，使其浮出水面：

排名靠前、经过社区验证的修复方案
最初解决问题的确切提示

这样，开发人员就可以快速复制、粘贴和解除对当前会话的封锁。

3.MCP - LLM 的上下文注入

通过 MCP（模型上下文协议）连接到 Elasticsearch 中存储的结构化解决方案，LLM 可在运行时获得高信号上下文（代码、日志、配置、先前的修复），而不会产生额外的噪音。

AgentOverflow 使用 Agent Builder 和 Elasticsearch 作为结构化内存层，将相关上下文注入 LLM。这就使它们从被动的聊天机器人转变为能感知上下文的问题解决者。

亚军MarketMind

由六个弹性代理提供支持的可实时解释的市场能量视图。

点击此处了解有关 MarketMind 的更多信息。

MarketMind 通过为新手交易者提供一个平台，将零散的市场数据转换成清晰的实时信号，赢得了自己的一席之地。MarketMind 将所有这些信息整合到一个平台中，帮助交易者获得可操作的洞察力，而不是在不同的工具中纠缠价格走势、基本面、情绪和波动性。该项目在构建代理时还使用了一些复杂的 ES|QL 查询。

如何使用

1.收集实时市场数据

MarketMind 从雅虎财经中提取价格-行动、基本面、情绪、波动性和风险指标。这些数据被摄取并组织到多个 Elasticsearch 索引中。

2.六家专业代理商分析市场

使用 Agent Builder 创建的每个代理都专注于不同的市场层。它们从 Elasticsearch 索引中读取数据，计算自己特定领域的指标，并生成包含分数和推理的标准化 JSON 输出。

3.将信号汇总为统一的 "市场能量 "模型

综合输出显示为每只股票周围的发光脉冲，说明势头是否正在形成、风险是否正在上升、情绪是否正在转变。

4.可视化洞察力

前端采用 React 和 Next.js ，使用 TypeScript、SVG 物理视觉效果和 Chart. js 制作实时蜡烛图。这将原始分析转化为实时可操作的反馈。

其他有趣的项目

以下是在其堆栈的不同部分使用 Elastic 的其他一些有力竞争者：

点击此处查看提交给我们赛道的全部项目清单。

我们从开发人员那里学到了什么

代理生成器方便用户使用：

大多数团队以前从未使用过 Elastic，但仍能在几乎没有支持的情况下快速建立代理。我们为那些需要更多指导的人举办了一次研讨会，但大多数人都能获取他们的数据，并建立一个代理对这些数据执行操作。

法律硕士擅长 kNN 查询，但在生成 ES|QL 方面仍需要指导：

要求 ChatGPT-5 生成 ES|QL 查询会返回不正确的信息，通常会混淆 ES|QL 和 SQL。在标记文件中向 LLM 提供文档似乎是一个可行的解决方案。

仅快照 ES|QL 函数泄露到文档中：

即将推出的FIRST 和LAST 聚合函数无意中滑入了我们的 ES|QL 文档。因为我们将这些文档提供给了 ChatGPT，所以该模型会尽职尽责地使用这些函数，尽管它们在无服务器中还不可用。多亏了该小组的反馈意见，工程设计人员迅速打开并合并了一个修复程序，从发布的文档中删除了这些功能（PR #137341）。

缺少针对服务器的指导：

一个小组尝试在一个不是以查找模式创建的索引上启用LOOKUP JOIN 。错误信息让他们追逐 Serverless 上不存在的命令。我们将这一情况反映给了产品团队，他们立即启动了一个针对无服务器的可执行消息的修复程序。从长远来看，我们的目标是完全隐藏重新索引的复杂性（问题编号 4838）。

现场活动的价值：

在线黑客马拉松固然很棒，但没有什么能比得上与建设者并肩调试时获得的快速反馈回路。我们看到各团队在不同的使用案例中集成了代理生成器，发现了开发人员使用 ES|QL 的体验可以改进的地方，并比尝试通过异步渠道更快地修复了问题。

结论

Cal Hacks 12.0 为我们带来的不仅仅是一个周末的酷炫演示，它还让我们深入了解了新开发人员如何与 Elastic Stack 交互。在短短 36 个小时内，我们看到各个团队开始使用 Agent Builder，将数据导入 Elasticsearch，设计多代理系统，并以各种方式测试我们的功能。这次活动还提醒我们，为什么面对面的活动很重要。快速的反馈循环、真实的对话和亲自动手的调试帮助我们了解了当前开发人员的需求。我们很高兴能把学到的东西带回工程团队。我们下次黑客马拉松再见。

在 Elasticsearch 中使用 A2A 协议和 MCP 创建 LLM 代理新闻室：第二部分

Justin Castilla — Mon, 24 Nov 2025 00:00:00 GMT

A2A 和 MCP：行动守则

本文是 "在 Elasticsearch 中使用 A2A 协议和 MCP 创建 LLM 代理新闻室！"一文的配套文章，该文章介绍了在同一个代理中同时实施 A2A 和 MCP 架构的好处，以真正获得这两种框架的独特优势。如果您希望自行运行演示，我们还提供了一个资源库。

让我们来看看我们的新闻室代理是如何使用 A2A 和 MCP 协作来制作一篇新闻文章的。可在此处查看随附的存储库，了解代理的运行情况。

步骤 1：故事任务

新闻主管（作为客户）指定一篇报道：

{
  "message_type": "task_request",
  "sender": "news_chief",
  "receiver": "reporter_agent",
  "payload": {
    "task_id": "story_renewable_energy_2024",
    "assignment": {
      "topic": "Renewable Energy Adoption in Europe",
      "angle": "Policy changes driving solar and wind expansion",
      "target_length": 1200,
      "deadline": "2025-09-30T18:00:00Z"
    }
  }
}

第 2 步：记者要求进行研究

报告代理认识到它需要背景信息，并通过 A2A 委托给研究代理：

{
  "message_type": "task_request",
  "sender": "reporter_agent",
  "receiver": "researcher_agent",
  "payload": {
    "task_id": "research_eu_renewable_2024",
    "parent_task_id": "story_renewable_energy_2024",
    "capability": "fact_gathering",
    "parameters": {
      "queries": [
        "EU renewable energy capacity 2024",
        "Solar installations growth Europe",
        "Wind energy policy changes 2024"
      ],
      "depth": "comprehensive"
    }
  }
}

第 3 步：报告人请求存档代理提供历史背景信息

记者代理认识到，历史背景会加强故事性。它通过 A2A 委托档案代理（由Elastic 的 A2A 代理提供支持）搜索新闻编辑室由 Elasticsearch 支持的文章档案：

{
  "message_type": "task_request",
  "sender": "reporter_agent",
  "receiver": "archive_agent",
  "payload": {
    "task_id": "archive_search_renewable_2024",
    "parent_task_id": "story_renewable_energy_2024",
    "capability": "search_archive",
    "parameters": {
      "query": "European renewable energy policy changes and adoption trends over past 5 years",
      "focus_areas": ["solar", "wind", "policy", "Germany", "France"],
      "time_range": "2019-2024",
      "result_count": 10
    }
  }
}

步骤 4：归档代理使用带有 MCP 的弹性 A2A 代理

存档代理使用 Elastic 的 A2A 代理，而 A2A 代理又使用 MCP 访问 Elasticsearch 工具。这展示了混合架构，其中 A2A 实现了代理协作，而 MCP 提供了工具访问：

# Archive Agent using Elastic A2A Agent
async def search_historical_articles(self, query_params):
    # The Archive Agent sends a request to Elastic's A2A Agent
    elastic_response = await self.a2a_client.send_request(
        agent="elastic_agent",
        capability="search_and_analyze",
        parameters={
            "natural_language_query": query_params["query"],
            "index_pattern": "newsroom-articles-*",
            "filters": {
                "topics": query_params["focus_areas"],
                "date_range": query_params["time_range"]
            },
            "analysis_type": "trend_analysis"
        }
    )
    
    # Elastic's A2A Agent internally uses MCP tools:
    # - platform.core.search (to find relevant articles)
    # - platform.core.generate_esql (to analyze trends)
    # - platform.core.index_explorer (to identify relevant indices)
    
    return elastic_response

存档代理从 Elastic 的 A2A 代理接收全面的历史数据，并将其返回给报告器：

{
  "message_type": "task_response",
  "sender": "archive_agent",
  "receiver": "reporter_agent",
  "payload": {
    "task_id": "archive_search_renewable_2024",
    "status": "completed",
    "archive_data": {
      "historical_articles": [
        {
          "title": "Germany's Energiewende: Five Years of Solar Growth",
          "published": "2022-06-15",
          "key_points": [
            "Germany added 7 GW annually 2020-2022",
            "Policy subsidies drove 60% of growth"
          ],
          "relevance_score": 0.94
        },
        {
          "title": "France Balances Nuclear and Renewables",
          "published": "2023-03-20",
          "key_points": [
            "France increased renewable target to 40% by 2030",
            "Solar capacity doubled 2021-2023"
          ],
          "relevance_score": 0.89
        }
      ],
      "trend_analysis": {
        "coverage_frequency": "EU renewable stories increased 150% since 2019",
        "emerging_themes": ["policy incentives", "grid modernization", "battery storage"],
        "coverage_gaps": ["Small member states", "offshore wind permitting"]
      },
      "total_articles_found": 47,
      "search_confidence": 0.91
    }
  }
}

这一步骤演示了 Elastic 的 A2A Agent 如何集成到新闻编辑室的工作流程中。Archive Agent（新闻编辑室专用代理）与 Elastic 的 A2A Agent（第三方专家）协调，以利用 Elasticsearch 强大的搜索和分析功能。Elastic 的代理在内部使用 MCP 访问 Elasticsearch 工具，显示了代理协调 (A2A) 和工具访问 (MCP) 之间的明确分离。

步骤 5：研究人员使用 MCP 服务器

研究员代理访问多个 MCP 服务器以收集信息：

# Researcher Agent using MCP to access tools
async def gather_facts(self, queries):
    results = []
    
    # Use News API MCP Server
    news_data = await self.mcp_client.invoke_tool(
        server="news_api_mcp",
        tool="search_articles",
        parameters={
            "query": queries[0],
            "date_range": "2024-01-01 to 2024-09-30",
            "sources": ["reuters", "bloomberg", "euractiv"]
        }
    )
    
    # Use Statistics MCP Server
    stats_data = await self.mcp_client.invoke_tool(
        server="eurostat_mcp",
        tool="get_energy_statistics",
        parameters={
            "metrics": ["solar_capacity_mw", "wind_capacity_mw"],
            "countries": ["EU27"],
            "year": 2024
        }
    )
    
    # Use Fact-Checking MCP Server
    verified_facts = await self.mcp_client.invoke_tool(
        server="factcheck_mcp",
        tool="verify_claims",
        parameters={
            "claims": [
                "EU solar capacity increased 40% in 2024",
                "Germany leads in wind installations"
            ]
        }
    )
    
    return self._synthesize_research(news_data, stats_data, verified_facts)

步骤 6：研究人员将数据返回给报告人

研究员代理通过 A2A 发送综合研究结果：

{
  "message_type": "task_response",
  "sender": "researcher_agent",
  "receiver": "reporter_agent",
  "payload": {
    "task_id": "research_eu_renewable_2024",
    "status": "completed",
    "research_data": {
      "key_facts": [
        {
          "claim": "EU solar capacity reached 260 GW in 2024",
          "source": "Eurostat Q3 2024 Report",
          "confidence": 0.95,
          "verified": true
        },
        {
          "claim": "Germany installed 12 GW of wind capacity in 2024",
          "source": "German Federal Network Agency",
          "confidence": 0.92,
          "verified": true
        }
      ],
      "statistics": {
        "solar_growth_rate": "35%",
        "wind_growth_rate": "28%"
      },
      "sources_count": 15
    }
  }
}

第 7 步：记者撰写文章

报告代理利用研究数据和自身的 LLM 能力撰写文章。在撰写过程中，记者使用 MCP 服务器获取样式和模板：

# Reporter Agent writing with MCP assistance
async def write_article(self, research_data, assignment):
    # Get style guidelines via MCP
    style_guide = await self.mcp_client.get_resource(
        server="newsroom_mcp",
        resource="style://editorial/ap_style_guide"
    )
    
    # Get article template via MCP
    template = await self.mcp_client.get_resource(
        server="newsroom_mcp",
        resource="template://articles/news_story"
    )
    
    # Generate article using LLM + research + style
    draft = await self.llm.generate(
        prompt=f"""
        Write a news article following these guidelines:
        {style_guide}
        
        Using this template:
        {template}
        
        Based on this research:
        {research_data}
        
        Assignment: {assignment}
        """
    )
    
    # Self-evaluate confidence in claims
    confidence_check = await self._evaluate_confidence(draft)
    
    return draft, confidence_check

第 8 步：信心不足引发重新研究

报告代理评估了其草稿，发现有一项索赔的可信度较低。它会向研究员代理发送另一个请求：

{
  "message_type": "collaboration_request",
  "sender": "reporter_agent",
  "receiver": "researcher_agent",
  "payload": {
    "request_type": "fact_verification",
    "claims": [
      {
        "text": "France's nuclear phase-down contributed to 15% increase in renewable capacity",
        "context": "Discussing policy drivers for renewable growth",
        "current_confidence": 0.45,
        "required_confidence": 0.80
      }
    ],
    "urgency": "high"
  }
}

研究员使用事实核查 MCP 服务器核实索赔，并返回更新的信息：

{
  "message_type": "collaboration_response",
  "sender": "researcher_agent",
  "receiver": "reporter_agent",
  "payload": {
    "verified_claims": [
      {
        "original_claim": "France's nuclear phase-down contributed to 15% increase...",
        "verified_claim": "France's renewable capacity increased 18% in 2024, partially offsetting reduced nuclear output",
        "confidence": 0.88,
        "corrections": "Percentage was 18%, not 15%; nuclear phase-down is gradual, not primary driver",
        "sources": ["RTE France", "French Energy Ministry Report 2024"]
      }
    ]
  }
}

第 9 步：记者修改并提交给编辑

记者将核实的事实纳入其中，并通过 A2A 将完成的草稿发送给编辑代理：

{
  "message_type": "task_request",
  "sender": "reporter_agent",
  "receiver": "editor_agent",
  "payload": {
    "task_id": "edit_renewable_story",
    "parent_task_id": "story_renewable_energy_2024",
    "content": {
      "headline": "Europe's Renewable Revolution: Solar and Wind Surge 30% in 2024",
      "body": "[Full article text...]",
      "word_count": 1185,
      "sources": [/* array of sources */]
    },
    "editing_requirements": {
      "check_style": true,
      "check_facts": true,
      "check_seo": true
    }
  }
}

步骤 10：编辑使用 MCP 工具进行审查

编辑代理使用多个 MCP 服务器来审核文章：

# Editor Agent using MCP for quality checks
async def review_article(self, content):
    # Grammar and style check
    grammar_issues = await self.mcp_client.invoke_tool(
        server="grammarly_mcp",
        tool="check_document",
        parameters={"text": content["body"]}
    )
    
    # SEO optimization check
    seo_analysis = await self.mcp_client.invoke_tool(
        server="seo_mcp",
        tool="analyze_content",
        parameters={
            "headline": content["headline"],
            "body": content["body"],
            "target_keywords": ["renewable energy", "Europe", "solar", "wind"]
        }
    )
    
    # Plagiarism check
    originality = await self.mcp_client.invoke_tool(
        server="plagiarism_mcp",
        tool="check_originality",
        parameters={"text": content["body"]}
    )
    
    # Generate editorial feedback
    feedback = await self._generate_feedback(
        grammar_issues, 
        seo_analysis, 
        originality
    )
    
    return feedback

编辑批准文章并将其转发：

{
  "message_type": "task_response",
  "sender": "editor_agent",
  "receiver": "reporter_agent",
  "payload": {
    "status": "approved",
    "quality_score": 9.2,
    "minor_edits": [
      "Changed 'surge' to 'increased' in paragraph 3 for AP style consistency",
      "Added Oxford comma in list of countries"
    ],
    "approved_content": "[Final edited article]"
  }
}

第 11 步：发布者通过 CI/CD 发布

最后，打印机代理使用 CMS 和 CI/CD 管道的 MCP 服务器发布已批准的文章：

# Publisher Agent publishing via MCP
async def publish_article(self, content, metadata):
    # Upload to CMS via MCP
    cms_result = await self.mcp_client.invoke_tool(
        server="wordpress_mcp",
        tool="create_post",
        parameters={
            "title": content["headline"],
            "body": content["body"],
            "status": "draft",
            "categories": metadata["categories"],
            "tags": metadata["tags"],
            "featured_image_url": metadata["image_url"]
        }
    )
    
    post_id = cms_result["post_id"]
    
    # Trigger CI/CD deployment via MCP
    deploy_result = await self.mcp_client.invoke_tool(
        server="cicd_mcp",
        tool="trigger_deployment",
        parameters={
            "pipeline": "publish_article",
            "environment": "production",
            "post_id": post_id,
            "schedule": "immediate"
        }
    )
    
    # Track analytics
    await self.mcp_client.invoke_tool(
        server="analytics_mcp",
        tool="register_publication",
        parameters={
            "post_id": post_id,
            "publish_time": datetime.now().isoformat(),
            "story_id": metadata["story_id"]
        }
    )
    
    return {
        "status": "published",
        "post_id": post_id,
        "url": f"https://newsroom.example.com/articles/{post_id}",
        "deployment_id": deploy_result["deployment_id"]
    }

出版商确认通过 A2A 出版：

{
  "message_type": "task_complete",
  "sender": "printer_agent",
  "receiver": "news_chief",
  "payload": {
    "task_id": "story_renewable_energy_2024",
    "status": "published",
    "publication": {
      "url": "https://newsroom.example.com/articles/renewable-europe-2024",
      "published_at": "2025-09-30T17:45:00Z",
      "post_id": "12345"
    },
    "workflow_metrics": {
      "total_time_minutes": 45,
      "agents_involved": ["reporter", "researcher", "archive", "editor", "printer"],
      "iterations": 2,
      "mcp_calls": 12
    }
  }
}

下面是随附的资料库中使用上述相同代理的 A2A 工作流程的完整序列。

#	来自	至	行动	规程	描述
1	用户	新闻主管	指定故事	HTTP POST	用户提交故事主题和角度
2	新闻主管	内部	创建故事	-	创建具有唯一 ID 的故事记录
3	新闻主管	记者	代表任务	A2A	通过 A2A 协议发送故事任务
4	记者	内部	接受任务	-	内部存储任务
5	记者	MCP 服务器	生成大纲	MCP/HTTP	创建文章大纲和研究问题
6a	记者	研究员	申请研究	A2A	发送问题（与 6b 并行）
6b	记者	档案员	搜索档案	A2A JSONRPC	搜索历史文章（与 6a 并行）
7	研究员	MCP 服务器	研究问题	MCP/HTTP	通过 MCP 使用人类学来回答问题
8	研究员	记者	返回研究	A2A	返回研究答案
9	档案员	Elasticsearch	搜索索引	ES REST API	查询 news_archive 索引
10	档案员	记者	返回存档	A2A JSONRPC	返回历史搜索结果
11	记者	MCP 服务器	生成文章	MCP/HTTP	创建具有研究/档案背景的文章
12	记者	内部	商店草案	-	内部保存草稿
13	记者	新闻主管	提交草案	A2A	提交完成的草稿
14	新闻主管	内部	更新故事	-	存储草稿，将状态更新为"draft_submitted"
15	新闻主管	编辑	审查草案	A2A	自动路由至编辑器以供审核
16	编辑	MCP 服务器	评论文章	MCP/HTTP	通过 MCP 使用 Anthropic 分析内容
17	编辑	新闻主管	返回评论	A2A	发送编辑反馈和建议
18	新闻主管	内部	商店评论	-	存储编辑反馈
19	新闻主管	记者	应用编辑	A2A	将审查反馈意见转达给报告人
20	记者	MCP 服务器	应用编辑	MCP/HTTP	根据反馈意见修改文章
21	记者	内部	更新草案	-	对草案进行修订更新
220	记者	新闻主管	返回修订版	A2A	返回修订后的文章
23	新闻主管	内部	更新故事	-	存储修订草案，状态为"修订版"
24	新闻主管	出版商	发表文章	A2A	出版商自动路由
25	出版商	MCP 服务器	生成标签	MCP/HTTP	创建标记和类别
26	出版商	Elasticsearch	索引文章	ES REST API	将文章索引到 news_archive 索引
27	出版商	文件系统	保存标记	文件输入/输出	将文章保存为 .md文件在 /articles
28	出版商	新闻主管	确认出版	A2A	返回成功状态
29	新闻主管	内部	更新故事	-	将故事状态更新为"已发布"

结论

A2A 和 MCP 在现代增强型 LLM 基础设施范例中都可以发挥重要作用。A2A 为复杂的多代理系统提供了灵活性，但潜在的可移植性较差，操作复杂性较高。MCP 提供了一种标准化的工具集成方法，更易于实施和维护，但它并不是为处理多代理协调而设计的。

选择不是二元对立的。正如我们的新闻编辑室示例所示，最复杂、最有效的 LLM 支持系统往往将这两种方法结合在一起：代理通过 A2A 协议进行协调和专业化，同时通过 MCP 服务器访问其工具和资源。这种混合架构在提供多代理系统的组织优势的同时，还提供了 MCP 的标准化和生态系统优势。这表明可能根本不需要做出选择：只需将两者都作为标准方法使用即可

作为开发人员或架构师，您需要测试并确定这两种解决方案的最佳组合，从而为您的特定用例创造正确的结果。了解每种方法的优势、局限性和适当应用，将使您能够构建更有效、可维护和可扩展的人工智能系统。

无论您是要建立数字新闻编辑室、客户服务平台、研究助手，还是其他任何由 LLM 驱动的应用程序，仔细考虑您的协调需求 (A2A) 和工具访问要求 (MCP) 都将使您走上成功之路。

其他资源

Elasticsearch 代理生成器 ：https://www.elastic.co/docs/solutions/search/elastic-agent-builder
A2A 规格 ： https://a2a-protocol.org/latest/specification/
A2A 和 MCP 集成 ：https://a2a-protocol.org/latest/topics/a2a-and-mcp/
模型上下文协议 ： https://modelcontextprotocol.io

你懂的，语境--第三部分：混合搜索在语境工程中的威力

Woody Walton — Thu, 20 Nov 2025 00:00:00 GMT

我们已经讨论了混合搜索（第一部分）和上下文工程（第二部分）；现在，让我们深入探讨它们如何协同工作，为 RAG 和代理人工智能操作提供有针对性的上下文，以达到最佳效果。

搜索并未消亡，只是转移了位置

因此，我们已经从主要通过文本框搜索上下文，然后使用返回的信息（上下文）自己构建答案，转变为现在使用自然语言告诉代理我们想要什么，然后让它自动研究并为我们编译答案。科技界的许多人都指出了这一转变，并宣称 "搜索已死"（搜索引擎优化和广告词的世界肯定在变化： GEO 谁知道？

以前，人类是主观相关性的主要仲裁者：每个用户都有自己进行搜索的理由，他们的个人经验会影响搜索结果的相对准确性。如果我们要相信代理能得出与我们相同（或更好）的结论，我们就必须确保代理能获得的上下文信息尽可能接近我们的主观意图。为了实现这一目标，我们必须设计为法律硕士提供的环境！

利用混合搜索检索生成上下文

在此提醒大家，Elastic 的混合搜索结合了传统基于关键字搜索的优势（语法灵活性、关键字精确度和相关性评分）和向量相似性搜索的语义理解，并提供了多种重排技术。这种协同作用（这个词从未有过如此真实的用法）这样就能获得高度相关的结果，查询内容的针对性也会更加细致。这不仅仅是说你可以将主观相关性作为检索阶段之一，而是说第一阶段检索可以同时包括相关性评分和所有其他模式。

卓越的精度& 效率

使用可提供分布式搜索、检索和重新排序的数据平台作为主要的上下文检索引擎非常有意义。您可以使用高级查询语法来添加主观意图的缺失部分，并过滤掉可能干扰或混淆所返回的上下文信息价值的内容。您可以从任何可用的单独语法选项中进行选择，也可以将各种模式组合成一个单一的搜索，以其最能理解的方式针对每种类型的数据进行搜索，然后通过重新排序对其进行组合/重新排序。您可以对响应进行过滤，使其只包含您想要的字段/值，从而避免无关数据。在为代理提供服务时，这种目标定位的灵活性可让您构建的工具在检索上下文时极为准确。

语境细化（聚合和非内容信号）

聚合在塑造工具向上下文窗口提供的内容方面特别有用。聚合自然会提供有关返回的上下文数据形状的基于数字的事实，这使得 LLM 的推理更容易、更准确。由于聚合可以分层嵌套，因此很容易为 LLM 增加多层次的细节，从而产生更细致入微的理解。聚合还有助于管理上下文窗口的大小--您可以轻松地将 10 万个文档的查询结果减少到几百个聚合洞察的标记。

非内容信号是数据中的固有指标，它们能告诉你所查看内容的全貌；它们是结果的附加特征，如受欢迎程度、新鲜度、地理位置、类别、主机多样性或价格带。这些信息可以为代理如何权衡所接收到的上下文的重要性提供有用信息。一些简单的例子也许最能说明这一点：

提升近期发布的热门内容--想象一下，您有一个文章知识库。您希望找到与用户查询相关的文章，但同时也希望推广那些最近发表的、对其他用户有帮助的文章（例如，具有较高"likes" 数量的文章）。在这种情况下，我们可以使用混合搜索来查找相关文章，然后根据文章的发表日期和受欢迎程度对其进行排序。
带有销售和库存调整功能的电子商务搜索- 在电子商务环境中，您希望向客户展示与其搜索词相匹配的产品，但同时也希望推广销售良好且有库存的产品。您可能还想把库存少的产品降级，以避免客户失望。
在错误跟踪器中确定高严重性问题的优先级--对于软件开发团队来说，在搜索问题时，首先浮现高严重性、高优先级和最近更新的问题至关重要。您可以使用 "关键性 "和 "讨论最多 "等非信号来独立权衡不同的因素，确保最关键和讨论最活跃的问题排在最前面

这些示例查询和更多内容可在随附的 Elasticsearch Labs内容页面中找到。

安全执法

利用 Elastic 等搜索驱动的速度层进行上下文工程的一个重要优势是其内置的安全框架。Elastic 的平台通过细粒度的基于角色的访问控制（RBAC）和基于属性的访问控制（ABAC），确保向代理和生成式人工智能操作提供的上下文尊重并保护敏感的私人信息。这意味着不仅能高效处理查询，还能根据代理或发起请求的用户的特定权限对结果进行过滤。

代理以认证用户的身份运行，因此通过平台内置的安全功能隐式地应用了安全功能：

细粒度权限：在文档、字段甚至术语级别定义访问权限，确保人工智能代理只接收他们有权查看的数据。
基于角色的访问控制（RBAC）：为代理或用户分配角色，根据其定义的职责授予对特定数据集或功能的访问权限。
基于属性的访问控制（ABAC）：根据数据、用户或环境的属性实施动态访问策略，从而实现高度适应性和上下文感知的安全性。
文档级安全（DLS）和字段级安全（FLS）：这些功能可确保即使在检索的文档中，也只能看到授权部分，从而防止敏感信息外泄。
与企业安全集成：与现有身份管理系统（如 LDAP、SAML、OIDC）无缝集成，在整个组织内执行一致的安全策略。

通过将这些安全措施直接集成到上下文检索机制中，Elastic 成为了一个安全的看门人，确保人工智能代理在定义的数据边界内运行，防止未经授权的数据暴露，并维护数据隐私法规的合规性。这对于在处理机密或专有信息的人工智能代理系统中建立信任至关重要。

此外，通过在企业数据源上使用统一的数据速度层，还可以减轻代理工具在这些资源库上产生的意外临时查询负载。您只需在一个地方就能近乎实时地搜索所有内容，并在一个地方应用安全和治理控制。

基于搜索的混合工具

Elastic 平台的一些核心功能（更多功能将陆续推出）能极大地促进情境工程的发展。这里最主要的是，该平台提供了多种实现方法，随着人工智能生态系统的发展，可以灵活地调整、改变和扩展方法。

代理生成器介绍

ElasticAgent Builder是我们在代理式人工智能工具领域的首次尝试，该工具可与您已存储在 Elastic 中的数据聊天。Agent Builder 提供了一个聊天界面，使用户能够在 Kibana 中创建和管理自己的代理和工具。它内置 MCP 和 A2A 服务器、编程 API 和一套预置系统工具，用于查询和探索 Elasticsearch 索引，以及从自然语言生成 ES|QL 查询。代理生成器允许您创建自定义工具，通过富有表现力的ES|QL查询语法，瞄准并雕琢返回给代理的上下文数据。

你会问，ES|QL 如何执行混合搜索？核心功能是通过结合 semantic_text 字段类型和 FORK/FUSE 命令来实现的（FUSE 默认使用 RRF 来合并每个分叉的结果）。下面是一个虚构产品搜索的简单示例：

FROM products
| FORK
  (MATCH description "high performance gaming laptop" | EVAL search_type = "bm25"),
  (MATCH description_semantic "high performance gaming laptop" | EVAL search_type = "semantic")
| FUSE 
| LIMIT 20
| KEEP product_name, description, _score, search_type

在上面的示例中，每个 FORK 分支都包含了 EVAL 子句，但 EVAL 子句并不是绝对必要的；包含 EVAL 子句只是为了演示如何跟踪给定结果是从哪种搜索模式返回的。

搜索模板

假设您想将自己的外部代理工具指向 Elastic 部署。您希望使用多级检索器或重新使用已开发的现有 DSL 语法，而不是 ES|QL，还希望能够控制查询接受的输入、执行搜索时使用的语法以及输出中返回的字段。搜索模板允许用户为常用搜索模式定义预定义结构，从而提高检索数据的效率和一致性。这对与搜索应用程序接口交互的代理工具尤其有利，因为它们有助于规范模板代码，加快搜索逻辑的迭代速度。如果您需要调整其中任何一个因素，只需更新搜索模板，就可以实现更改。如果您正在寻找搜索模板与代理工具配合使用的示例，可以看看 Elasticsearch 实验室的博客 "MCP for intelligentsearch"，它在来自外部 MCP 服务器的工具调用背后使用了搜索模板。

集成工作流程（FTW!）

在我们新的代理人工智能世界中，最难驾驭的事情之一就是半自主、自导自演的 "推理 "代理的非确定性。情境工程是代理人工智能的一门关键学科：这些技术有助于将我们的代理可能得出的结论缩小到我们所知道的基本事实。即使有了高度准确和相关的上下文窗口（当我们跳出数字事实的范畴时），我们仍然缺少一点保证，即代理的反应是完全可重复和可靠的。

当您多次向代理运行同一个请求时，得到的答案可能基本相同，只是在响应上有那么一点点差别。对于简单的查询来说，这通常没什么问题，也许几乎不会引起注意，我们可以尝试使用上下文工程技术来塑造输出。但是，随着我们要求代理完成的任务变得越来越复杂，一个或多个子任务就更有可能带来差异，从而稍微改变最终结果。随着我们开始更多地依赖代理与代理之间的通信，这种情况可能会变得更糟，而这些差异也会累积起来。这再次说明，与我们的代理互动的工具需要非常灵活，并可进行调整，以精确瞄准上下文数据，而且它们应该以预期的输出格式做出响应。这也表明，在许多使用案例中，我们需要指导代理和工具之间的交互--这就是工作流的作用所在！

Elastic 将很快在平台核心中内置完全可定制的工作流程。这些工作流程将能以双向方式与代理和工具一起运行，因此工作流程将能呼叫代理和工具，代理和工具也能呼叫工作流程。将这些功能完全集成到同一搜索人工智能平台中，您的所有数据都将在该平台中存活，这将是一场变革，工作流程的潜力令人无比振奋！很快，很快就会到来！

作为统一记忆库的弹性

Elastic 是一个分布式数据平台，专为近乎实时的搜索而设计，因此能自然而然地为代理型人工智能系统提供长期记忆功能。通过内置的 Agent Builder 聊天体验，我们还可以跟踪和管理短期记忆和聊天记录。由于整个平台以 API 为先，因此利用 Elastic 作为平台来持久化工具的上下文输出（并能在稍后参考）非常容易，而这些输出可能会淹没代理的上下文窗口；这种技术在上下文工程领域有时被称为 "记笔记"。

在同一个搜索平台上同时拥有短期和长期记忆会带来很多内在的好处：试想一下，我们可以将聊天记录和持久化的上下文回复作为语义影响因素的一部分，用于未来的聊天互动，或用于执行威胁分析，或用于创建从频繁重复的工具调用中自动生成的持久化数据产品......这种可能性是无穷无尽的！

结论

大型语言模型的出现改变了我们匹配内容的方式，也改变了我们查询数据的方法。在我们的世界里，人类正在迅速地从研究、背景考虑和逻辑推理来回答自己的问题，转变为这些步骤在很大程度上通过代理人工智能实现自动化。为了让我们相信所收到的生成答案，我们需要确保代理在生成答案时考虑了所有 最相关的信息（包括主观相关性因素）。我们使代理人工智能值得信赖的主要方法是，通过 RAG 和上下文工程技术将检索额外上下文的工具落地，但这些工具如何进行初始检索对响应的准确性至关重要。

Elastic Search 人工智能平台提供了混合搜索的灵活性和优势，同时还提供了多项内置功能，有助于代理式人工智能的准确性、性能和可扩展性；换句话说，Elastic 是语境工程多个方面的绝佳平台！通过搜索平台将上下文检索标准化，我们在多个方面简化了代理工具的操作--与 "放慢速度才能更快 "的矛盾论类似，上下文生成层的简化意味着代理人工智能更快、更可信。

你知道的，为了情境--第二部分：代理人工智能和情境工程的必要性

Woody Walton — Tue, 18 Nov 2025 00:00:00 GMT

有了关于 LLM 如何改变信息检索底层过程的（相当广泛的）背景知识，让我们来看看它们是如何改变我们查询数据的方式的。

与数据交互的新方式

生成式人工智能（genAI）和代理式人工智能的工作方式与传统搜索不同。过去，我们开始研究信息的方式是搜索（"让我谷歌一下......"），而基因人工智能和代理的发起行动通常是通过在聊天界面输入自然语言。聊天界面是与 LLM 的讨论，LLM 利用其语义理解能力将我们的问题转化为经过提炼的答案，这种经过总结的回答似乎来自一个对各种信息都有广泛了解的神谕。真正的卖点在于，法学硕士能够产生连贯、深思熟虑的句子，将浮现的知识点串联起来--即使不准确或完全是幻觉，也有其真实性。

我们习惯于使用的老式搜索栏，可以看作是我们自己作为推理代理时使用的 RAG 引擎。现在，即使是互联网搜索引擎也正在将我们习以为常的 "猎取和啄食 "词条搜索体验转变为人工智能驱动的概述，通过对结果的总结来回答查询，帮助用户避免自己点击和评估单个结果。

生成式人工智能& RAG

生成式人工智能试图利用其对世界的语义理解来解析聊天请求中表达的主观意图，然后利用其推理能力即时创建专家答案。生成式人工智能交互由几个部分组成：首先是用户的输入/询问，聊天会话中之前的对话可用作额外的上下文，然后是指导性提示，告诉 LLM 如何推理以及在构建回复时应遵循哪些程序。提示已从简单的""像五岁小孩一样解释给我听 "类型的指导发展到如何处理请求的完整细分。这些细目通常包括不同的部分，详细描述人工智能的角色/作用、生成前的推理/内部思维过程、客观标准、限制条件、输出格式、受众，以及有助于展示预期结果的示例。

除了用户查询和系统提示外，检索增强生成（RAG）还在所谓的 "上下文窗口 "中提供额外的上下文信息。RAG 是该架构的重要补充；我们用它来告知 LLM 在其对世界的语义理解中缺失的部分。

背景窗口在提供内容、地点和数量方面可能有点挑剔。当然，选择哪种上下文非常重要，但所提供上下文的信噪比以及窗口的长度也很重要。

信息太少

在查询、提示或上下文窗口中提供过少的信息可能会导致幻觉，因为 LLM 无法准确判断正确的语义上下文，从而生成响应。文件块大小的矢量相似性也存在问题--一个简短、简单的问题可能与我们矢量化知识库中丰富、详细的文件在语义上不一致。目前已开发出假设文档嵌入（HyDE）等查询扩展技术，利用 LLM 生成比简短查询更丰富、更具表现力的假设答案。当然，这里的危险在于，假定的文件本身就是一种幻觉，它使法律硕士更加偏离正确的语境。

信息太多

就像我们人类一样，上下文窗口中过多的信息会让法律硕士不知所措，不知道哪些是重要部分。上下文溢出（或 "上下文腐烂"）会影响生成式人工智能操作的质量和性能；它会极大地影响 LLM 的 "注意力预算"（其工作记忆），并稀释许多竞争标记的相关性。语境轮换 "的概念还包括这样一个观察结果，即语言学习者往往有一种位置偏差--他们更喜欢语境窗口开头或结尾的内容，而不是中间部分的内容。

分散注意力或相互冲突的信息

上下文窗口越大，就越有可能包含多余或相互冲突的信息，从而分散 LLM 的注意力，使其无法选择和处理正确的上下文。在某种程度上，这就成了一个 "垃圾进/垃圾出 "的问题：只需将一组文档结果倒入上下文窗口，就能为 LLM 提供大量信息供其咀嚼（可能太多），但根据上下文的选择方式，更有可能渗入相互冲突或无关的信息。

智能体 AI

我告诉过你有很多内容要讲，但我们做到了--我们终于开始讨论代理人工智能话题了！代理式人工智能（Agentic AI）是 LLM 聊天界面的一种非常令人兴奋的新用法，它扩展了生成式人工智能（我们可以称之为 "传统 "人工智能吗？）的能力，即根据自身知识和您提供的上下文信息合成回复。随着生成式人工智能变得越来越成熟，我们意识到可以让 LLM 执行一定程度的任务和自动化操作，这些操作最初被归类为乏味的低风险活动，可以很容易地由人工进行检查/验证。在很短的时间内，最初的范围就扩大了：一个 LLM 聊天窗口现在可以成为一个火花，让一个人工智能代理去自主规划、执行、迭代评估和调整其计划，以实现指定的目标。代理可以访问其 LLM 自身的推理、聊天历史和思维记忆（比如说），他们还可以利用特定的工具来实现这一目标。我们现在看到的架构还允许一个顶级代理作为多个子代理的协调者，每个子代理都有自己的逻辑链、指令集、上下文和工具。

代理是大部分自动化工作流程的切入点：它们是自主的，能够与用户聊天，然后使用 "逻辑 "来决定有哪些工具可以帮助回答用户的问题。与代理相比，工具通常被认为是被动的，是为完成一种任务而构建的。工具可以执行的任务类型是无限的（这确实令人兴奋！），但工具执行的一项主要任务是收集上下文信息，供代理在执行工作流程时考虑。

作为一项技术，代理人工智能仍处于起步阶段，很容易患上法学硕士的注意力缺陷症--很容易忘记要求它做的事情，经常跑去做其他根本不在任务范围内的事情。在表面神奇的背后，LLM 的 "推理 "能力仍然是基于预测序列中下一个最有可能的标记。要使推理（或有朝一日的人工通用智能（AGI））变得可靠和值得信赖，我们需要能够验证，在获得正确、最新的信息时，它们会按照我们所期望的方式进行推理（也许还会给我们提供我们自己可能没有想到的更多信息）。要做到这一点，代理架构需要具备清晰的通信能力（协议），遵守我们赋予它们的工作流程和约束条件（护栏），记住它们在任务中的位置（状态），管理可用的内存空间，以及验证它们的响应是否准确并符合任务标准。

用我能听懂的语言跟我说话

在新的开发领域（尤其是在 LLM 领域），代理与工具之间的通信最初有很多方法，但很快就趋同于模型上下文协议（MCP），将其作为事实上的标准。模型上下文协议的定义其实就在名字里--它是模型用来请求和接收 上下文 信息的 协议。MCP 是 LLM 代理连接外部工具和数据源的通用适配器；它简化了应用程序接口并使之标准化，这样不同的 LLM 框架和工具就能轻松互操作。这就使得 MCP 成为一种支点，它介于协调逻辑和系统提示与发送给工具的操作之间，前者要求代理为实现其目标而自主执行，而后者则要求代理以更孤立的方式执行（至少与启动代理隔离）。

这个生态系统是如此之新，以至于每个扩展方向都像是一个新领域。我们有类似的协议用于代理与代理之间的交互（Agent2Agent (A2A) natch!），也有其他项目用于改进代理的推理记忆（ReasoningBank ），为手头的工作选择最佳的 MCP 服务器（RAG-MCP ），以及使用语义分析（如输入和输出的零点分类和模式检测）作为控制代理操作内容的 Guardrails 。

您可能已经注意到，这些项目的根本目的都是为了提高返回到代理/人工智能上下文窗口的信息的质量和控制？虽然人工智能代理生态系统将继续发展更好地处理上下文信息（对其进行控制、管理和操作）的能力，但始终需要检索最相关的上下文信息，作为代理的研磨材料。

欢迎使用情境工程！

如果你熟悉生成式人工智能术语，你可能听说过 "提示工程"--在这一点上，它几乎是一门伪科学。提示工程用于找到最佳和最有效的方法，主动描述您希望 LLM 在生成响应时使用的行为。上下文工程"将 "提示工程 "技术从代理侧扩展到 MCP 协议工具侧的可用上下文源和系统，并包括上下文管理、处理和生成等广泛主题：

上下文管理 - 与在长期运行和/或更复杂的代理工作流程中保持状态和上下文效率有关。对任务和工具的调用进行迭代规划、跟踪和协调，以实现代理的目标。由于代理工作的 "注意力预算 "有限，上下文管理主要涉及帮助完善上下文窗口的技术，以捕捉最全面和最重要的上下文信息（精确度与召回率！）。这些技术包括压缩、归纳，以及持续保留先前步骤或工具调用的上下文，以便在工作记忆中为后续步骤中的额外上下文留出空间。
上下文处理 --对从不同来源获取的上下文进行整合、规范化或细化的逻辑步骤，希望这些步骤主要是程序性的，以便代理能够以某种统一的方式对所有上下文进行推理。底层工作是让所有来源（提示、RAG、记忆等）的上下文都能被代理尽可能高效地消耗掉。
上下文生成 --如果上下文处理的目的是让代理可以使用检索到的上下文，那么上下文生成就赋予了代理随意请求和接收附加上下文信息的能力，但同时也有限制条件。

LLM 聊天应用程序的各种历时直接（有时以重叠的方式）映射到上下文工程的这些高级功能：

指令/系统提示--提示是生成式（或代理式）人工智能活动如何引导其思维实现用户目标的支架。提示本身就是一种语境；它们不仅仅是音调指令，还经常包含任务执行逻辑和规则，如 "逐步思考 "或 "深呼吸"，然后再做出回应，以验证答案是否完全满足用户的要求。最近的测试表明，标记语言在框定提示的不同部分时非常有效，但也要注意在过于模糊和过于具体之间调整指示；我们希望提供足够的指示，让 LLM 找到正确的上下文，但又不能过于规范，以至于错过意想不到的见解。
短期记忆（状态/历史）--短期记忆主要是用户与 LLM 之间的聊天会话互动。这些信息有助于在现场会议中完善上下文，并可保存起来供今后检索和继续使用。
长时记忆--长时记忆应包含在多个时段都有用的信息。通过 RAG 访问的不仅仅是特定领域的知识库，最近的研究还利用以前的代理/生成式人工智能请求的结果，在当前的代理互动中进行学习和参考。在长期记忆领域，一些最有趣的创新与调整状态的存储和链接方式有关，这样，代理就能从他们离开的地方继续前进。
结构化输出--认知需要花费精力，因此，即使拥有推理能力，LLM（就像人类一样）也希望在思考时花费更少的精力，这一点不足为奇。在没有定义好的应用程序接口或协议的情况下，有一个如何读取工具调用返回数据的地图（模式）是非常有用的。将 "结构化输出 "作为代理框架的一部分，有助于使这些机器与机器之间的交互更快、更可靠，同时减少思维驱动的解析。
可用工具- 工具可以做各种各样的事情，从收集额外信息（如向企业数据存储库或通过在线 API 发出 RAG 查询）到代表代理执行自动操作（如根据代理请求的标准预订酒店房间）。工具也可以是子代理，有自己的代理处理链。
检索增强生成（RAG）--我非常喜欢将 RAG 描述为 "动态知识集成"。如前所述，RAG 是一种提供 LLM 在接受训练时无法获得的额外信息的技术，或者说是重申我们认为对获得正确答案最重要的想法--与我们的主观疑问最相关的想法。

惊人的宇宙力量，微不足道的生活空间！

代理人工智能有许多迷人而令人兴奋的新领域有待探索！我们仍有许多传统的数据检索和处理问题需要解决，但同时也面临着全新的挑战，这些挑战现在才在新的 LLM 时代暴露出来。我们今天要解决的许多紧迫问题都与情境工程有关，即如何在不占用有限工作记忆空间的前提下，为 LLM 提供所需的额外情境信息。

半自主代理可以使用一系列工具（和其他代理），其灵活性为人工智能的实施带来了许多新思路，我们很难想象会有什么不同的方法可以将这些碎片组合在一起。目前的大部分研究都属于上下文工程学领域，主要集中在构建能够处理和跟踪大量上下文的内存管理结构上，这是因为我们真正希望 LLM 能够解决的深度思考问题具有更高的复杂性和更长的多阶段思考步骤，在这些问题中，记忆极为重要。

该领域正在进行的许多实验都是为了找到最佳的任务管理和工具配置，以满足代理的需求。代理推理链中的每次工具调用都会产生累积成本，既包括执行工具功能所需的计算量，也包括对有限上下文窗口的影响。为 LLM 代理管理上下文的一些最新技术造成了意想不到的连锁效应，如 "上下文崩溃"，在这种情况下，压缩/汇总长期运行任务的累积上下文会造成过多损失。理想的结果是工具能够返回简洁准确的上下文，而不会让无关信息渗入宝贵的上下文窗口内存空间。

太多/太多种可能性

我们希望职责分离，并能灵活地重复使用工具/组件，因此创建专用的代理工具来连接特定的数据源是完全合理的--每种工具都可以专门查询一种类型的存储库、一种类型的数据流，甚至一种使用案例。但要注意：为了节省时间/金钱/证明某些事情是可行的，我们会受到强烈的诱惑，把 LLM 用作联盟工具......尽量不要这样做，我们以前走过这条路！联合查询就像一个 "通用翻译器"，它将输入的查询转换成远程存储库能理解的语法，然后以某种方式将多个来源的结果合理化为一个连贯的响应。联盟作为一种技术，在小范围内效果 还可以，但在大范围内，特别是当数据是多模态的时候，联盟试图弥合的差距就太大了。

在代理世界中，代理将是联合器，而工具（通过 MCP）将是人工定义的与不同资源的连接。使用专用工具跨未连接的数据源进行访问，看似是在每次查询的基础上动态联合不同数据流的强大新方法，但使用工具向多个数据源提出相同的问题，最终可能会造成更多问题，而不是解决问题。每个数据源下面都可能有不同类型的存储库，每个存储库都有自己的数据检索、排序和安全功能。当然，资源库之间的差异或 "阻抗不匹配 "会增加处理负荷。它们还可能引入相互冲突的信息或信号，看似无关紧要的评分失准可能会严重影响对返回上下文的重视程度，并最终影响生成回复的相关性。

计算机也很难进行上下文切换

当你派出一名特工执行任务时，他们的首要任务往往是找到其可以访问的所有相关数据。就像人类一样，如果代理连接的每个数据源都给出了不同的分类回复，那么从检索到的内容中提取显著的上下文信息就会产生认知负荷（尽管不是完全相同的类型）。这需要时间/计算，而在代理逻辑链中，每一点都是累加的。由此得出的结论是，就像正在讨论的MCP 一样，大多数代理工具的行为应该更像应用程序接口（API）--具有已知输入和输出的孤立函数，经过调整以支持不同类型代理的需求。哎呀，我们甚至意识到，语言学硕士需要上下文语境--他们在连接语义点方面做得更好，尤其是在将自然语言翻译成结构化语法这样的任务中，当他们有模式可参考时（确实是 RTFM！）。

第 7 局

现在，我们已经介绍了LLM 对数据检索和查询的影响，以及聊天窗口如何逐渐成为人工智能代理体验。让我们把这两个主题放在一起，看看如何利用新式搜索和检索功能来改进上下文工程的结果。进入第三部分：混合搜索在情境工程中的威力！

如何在 Azure AKS 上自动部署 Elasticsearch

Eduard Martin — Fri, 14 Nov 2025 00:00:00 GMT

本文是系列文章的一部分，我们将学习如何使用不同的基础架构安装 Elasticsearch。

与基于 Marketplace 的弹性云解决方案相比，ECK 需要付出更多努力，但它比自己部署虚拟机更加自动化，因为 Kubernetes 操作员将负责系统协调和节点扩展。

这一次，我们将使用自动功能与 Azure Kubernetes 服务 (AKS) 配合工作。在其他文章中，您将学习如何使用Azure VM和Azure Marketplace。

什么是 AKS 自动系统？

Azure Kubernetes 服务（AKS）可自动管理集群设置、动态分配资源并集成安全最佳实践，同时保持 Kubernetes 的灵活性，使开发人员能够在几分钟内从容器镜像转为部署应用程序。

AKS Automatic 消除了大部分集群管理开销，在简单性和灵活性之间取得了良好的平衡。正确的选择取决于您的使用情况，但如果您计划这样做，决定就会容易得多：

部署测试环境： 部署快速而简单，是快速实验或短期集群的理想选择。
无需严格的虚拟机、存储或网络要求即可工作： AKS Automatic 提供预定义的默认设置，因此，如果这些设置符合您的需求，就可以省去额外的配置。
首次使用 Kubernetes： 通过处理集群的大部分设置工作，AKS Automatic 可降低学习曲线，让团队专注于自己的应用。

对于 Elasticsearch，我们将使用Elastic Cloud on Kubernetes (ECK)，它是官方的 Elastic Kubernetes 操作员，可以简化 Elastic Stack 的 Kubernetes 部署协调。

如何设置 AKS 自动系统

1.登录Microsoft Azure 门户。

2.在右上角， 单击上的 Cloud Shell按钮访问控制台，并从那里部署 AKS 群集。或者，您也可以使用Azure 云外壳。

请记住，在教程中将项目 ID 更新为您的项目 ID。

打开 AKS 时的样子应该如上截图所示。

3.安装 aks-preview Azure CLI 扩展。该预览版允许我们在创建群集时选择--sku automatic ，从而启用 AKS 自动功能。

az extension add --name aks-preview

如果看到此信息，说明 AKS 扩展已正确安装。

4.使用az feature register 命令注册功能标志

az feature register --namespace Microsoft.ContainerService --name AutomaticSKUPreview

您将看到我们刚刚创建的功能订阅的详细信息：

确认注册状态，直到从 "正在注册"变为 "已注册"。完成注册可能需要几分钟时间。

az feature show --namespace Microsoft.ContainerService --name AutomaticSKUPreview

运行az provider register 以传播更改。

az provider register --namespace Microsoft.ContainerService

5.创建资源组

资源组是要管理和部署的 Azure 资源的逻辑组。

az group create --name elastic-resource --location eastus

6.创建自动驾驶仪群集。我们将把它命名为myAKSAutomaticCluster ，并使用刚刚创建的资源组。确保以下任何一种虚拟机大小都有16 个可用vCPU：Standard_D4pds_v5、Standard_D4lds_v5、Standard_D4ads_v5、Standard_D4ds_v5、Standard_D4d_v5、Standard_D4d_v4、Standard_DS3_v2、Standard_DS12_v2，以便 AKS 分配资源。

az aks create \
    --resource-group elastic-resource \
    --name myAKSAutomaticCluster \
    --sku automatic \
    --generate-ssh-keys

* 如果出现 MissingSubscriptionRegistration 错误，请带着缺失的订阅返回第 4 步。例如， The subscription is not registered to use namespace ' microsoft.insights ' 需要运行 az provider register --namespace Microsoft.Insights.

按照交互式登录：

此时会出现一条要求运行 "az login "的信息。您必须运行该命令，然后等待。

7.等待准备就绪。制作大约需要 10 分钟。

8.配置 kubectl 命令行访问权限。

az aks get-credentials --resource-group elastic-resource --name myAKSAutomaticCluster

请注意，我们安装的扩展正在启用 AKS Automatic。

9.确认节点已部署。

kubectl get nodes

您将看到一条禁止的错误信息；请复制错误信息中的用户 ID。

10.将用户添加到 AKS 访问控制中。

获取 AKS ID。复制命令输出。

az aks show --resource-group elastic-resource  --name myAKSAutomaticCluster --query id --output tsv

使用 AKS ID 和用户的主要 ID 创建角色分配。

az role assignment create --role "Azure Kubernetes Service RBAC Cluster Admin" --assignee  --scope

11.尝试再次确认节点已部署。

kubectl get nodes

12.安装 Kubernetes 上的弹性云（ECK）操作员。

# Install ECK Custom Resource Definitions
kubectl create -f https://download.elastic.co/downloads/eck/2.16.1/crds.yaml

# Install the ECK operator
kubectl apply -f https://download.elastic.co/downloads/eck/2.16.1/operator.yaml

13.让我们使用默认值创建一个单节点 Elasticsearch 实例。

cat <

我们禁用nmap 是因为默认 AKS 机器的vm.max_map_count 值过低。不建议在生产中禁用它，但可以增加vm.max_map_count 的值。您可以在这里阅读更多关于如何做到这一点的信息。

14.我们也来部署一个 Kibana 单节点集群。对于 Kibana，我们将添加一个负载平衡器，它将为我们提供一个外部 IP，我们可以用它从我们的设备访问 Kibana。

cat <

默认情况下，AKS Automatic 会将负载平衡器配置为公共负载平衡器；您可以通过设置元数据注释来更改行为：

service.beta.kubernetes.io/azure-load-balancer-internal: "true"

15.检查 pod 是否正在运行。

kubectl get pods

16.您还可以运行kubectl get elasticsearch 和kubectl get kibana 获取更具体的统计信息，如 Elasticsearch 版本、节点和健康状况。

17.获取您的服务。

kubectl get svc

这将在 EXTERNAL-IP 下显示 Kibana 的外部 URL。负载平衡器的调配可能需要几分钟时间。复制 EXTERNAL-IP 的值。

18.获取 "elastic "用户的 Elasticsearch 密码：

kubectl get secret quickstart-es-elastic-user -o=jsonpath='{.data.elastic}' | base64 --decode

19.通过浏览器访问 Kibana：

a.url: https://:5601

b.用户名：elastic

c.密码：c44A295CaEt44D6xIzN6Zs5m（来自上一步）

20.从浏览器访问 Elastic Cloud 时，您将看到欢迎屏幕。

如果要更改 Elasticsearch 集群规格，如更改或调整节点大小，可以使用新设置再次应用 YML 清单：

cat <

在本例中，我们将增加一个节点，并修改 RAM 和 CPU。如您所见，现在kubectl get elasticsearch 显示了 2 个节点：

Kibana 也是如此：

cat <

我们可以调整容器的 CPU/RAM，也可以调整Node.js 的内存使用量（max-old-space-size）。

请记住，现有的批量索赔不能缩减。应用更新后，操作员将在最短的时间内完成更改。

测试完成后，请记住删除群集，以避免不必要的成本。

az aks delete --name myAKSAutomaticCluster --resource-group elastic-resource

`结论`

使用 Azure AKS Automatic 和 ECK 可为部署 Elasticsearch 和 Kibana 提供一个平衡的解决方案：它降低了操作复杂性，确保了自动扩展和更新，并充分利用了 Kubernetes 的灵活性。这种方法非常适合需要可靠、可重复和可维护的部署流程，而无需手动管理每个基础架构细节的团队，使其成为测试和生产环境的实用选择。

`后续步骤`

如果您想了解有关 Kubernetes 的更多信息，可点击此处查看官方文档：



在 Elasticsearch 中使用 A2A 协议和 MCP 创建 LLM Agent 新闻室：第一部分
Justin Castilla — Thu, 13 Nov 2025 00:00:00 GMT
引言
当前由 LLM 支持的系统正在迅速发展，超越了单一模型应用，成为复杂的网络，其中专门的代理共同完成现代计算前所未有的任务。随着这些系统的复杂性不断增加，使代理通信和工具访问成为可能的基础设施成为开发的重点。为满足这些需求，出现了两种互补的方法：用于多代理协调的代理2代理（A2A）协议，以及用于标准化工具和资源访问的模型上下文协议（MCP）。
了解在什么情况下可以同时使用和不使用这两种方法，会对应用程序的可扩展性、可维护性和有效性产生重大影响。本文以数字新闻编辑室为例，探讨了A2A的概念和实现方法，在数字新闻编辑室中，专门的 LLM 代理合作研究、撰写、编辑和发布新闻文章。
我们将在文章最后的第 5 部分探讨 A2A 的具体应用实例。
准备工作
资源库由 A2A 代理的 Python 实现组成。Flask 提供了一个 API 服务器，以及一个名为 Event Hub 的自定义 Python 消息传递服务，用于路由日志和 UI 更新消息。最后，还提供了一个 React UI，用于独立使用新闻编辑室的功能。所有内容都包含在一个 Docker 镜像中，以便于实施。如果您想直接在机器上运行服务，则需要确保安装了这些技术：
语言和运行时
Python 13.12 - 核心后端语言
Node.js 18+ - 可选 React UI
核心框架和 SDKS：
A2A SDK 0.3.8 - Agent 协调与通信
Anthropic SDK--克劳德集成人工智能生成器
Uvicorn - 用于运行代理的 ASGI 服务器
FastMCP 2.12.5+ - MCP 服务器实施
React 18.2 - 前端用户界面框架
数据& 搜索
Elasticsearch 9.1.1+- 文章索引和搜索
Docker 部署（可选，但建议使用）
Docker 28.5.1+
第 1 部分：什么是 Agent2Agent（A2A）？
定义和核心概念
Unknown block type "block", specify a component for it in the `components.types` option
官方规格 ：https://a2a-protocol.org/latest/specification/
起源与进化
Agent2Agent 通信或多代理系统的概念源于几十年前的分布式系统、微服务和多代理研究。分布式人工智能的早期工作为能够进行协商、协调和协作的代理奠定了基础。这些早期系统专门用于大规模社会模拟、学术研究和电网管理。
在谷歌和更广泛的人工智能研究界的支持下，随着 LLM 的出现和运行成本的降低，多代理系统开始进入 "专业消费者 "市场。现在，A2A 协议被称为 Agent2Agent 系统，它已发展成为一个现代标准，专为多个大型语言模型协调工作和任务的时代而设计。
A2A 协议将一致的标准和原则应用于 LLM 连接和通信的交互点，从而确保代理之间的无缝通信和协调。这种标准化使来自不同开发商、使用不同底层模型的代理能够有效地协同工作。
通信协议并非新生事物，在互联网上进行的几乎所有数字交易中都有广泛的应用。如果您键入https://www.elastic.co/search-labs在浏览器中访问这篇文章时，很有可能 TCP/IP、HTTP 传输和 DNS 查询协议都已执行，从而确保我们获得一致的浏览体验。
主要特点
A2A 系统建立在几个基本原则之上，以确保通信顺畅。以这些原则为基础，可以确保基于不同 LLM、框架和编程语言的不同代理都能无缝互动。
以下是四项主要原则：
信息传递：代理通过具有明确属性和格式的结构化信息进行通信
协调：代理通过相互委派任务和管理依赖关系来协调复杂的工作流程，而不会阻塞其他代理
专业化：每个代理都专注于某一特定领域或能力，成为该领域的专家，并根据技能组合完成任务
分布式状态：状态和知识分布在各个代理之间，而不是集中在一起，代理之间能够相互更新任务状态和部分回报（工件）的进展情况
新闻编辑室运行范例
试想一个由人工智能代理驱动的数字新闻编辑室，每个代理都擅长新闻业的不同方面：
新闻主管（协调员/客户）：分配报道任务并监督工作流程
记者代理：根据研究和采访撰写文章
研究员代理：收集事实、统计数据和背景信息
档案代理：使用 Elasticsearch 搜索历史文章并确定趋势
编辑代理：对文章的质量、风格和搜索引擎优化进行审核
发布者代理：通过 CI/CD 将批准的文章发布到博客平台上
当新闻主管指派一篇关于可再生能源应用的报道时，记者需要研究员收集统计数据，编辑需要审阅草稿，出版商需要出版最终稿件。这种协调是通过 A2A 协议进行的。
第 2 节：了解 A2A 架构
客户代理和远程代理角色
在 A2A 架构中，代理主要扮演两种角色。客户代理负责制定任务并将任务传达给系统中的其他代理。它能识别远程代理及其能力，并利用这些信息就任务授权做出明智的决策。客户代理负责协调整个工作流程，确保任务分配得当，系统朝着目标前进。
而远程代理则负责执行客户委托的任务。它根据请求提供信息或采取具体行动，但不会独立发起行动。远程代理还可以根据需要与其他远程代理进行通信，以履行其指定职责，从而创建一个具有专业能力的协作网络。
在我们的新闻编辑室，新闻主管充当客户代理，而记者、研究员、编辑和出版商则是远程代理，负责响应请求并相互协调。
A2A 核心能力
A2A 协议定义了几种实现多代理协作的功能：
1.发现
A2A 服务器必须公布其功能，以便客户知道何时以及如何利用它们完成特定任务。这可以通过描述代理能力、输入和输出的代理卡--JSON 文档来实现。代理卡在一致的知名端点（如推荐的/.well-known/agent-card.json 端点）上提供，允许客户在启动协作之前发现并查询代理的能力。
以下是 Elastic 定制存档代理"Archie Archivist" 的代理卡示例。请注意，Elastic 等软件提供商会托管其 A2A 代理，并提供一个 url 供访问：
{
  "name": "Archie Archivist",
  "description": "Helps find historical news documents in the Elasticsearch Index of archived news articles and content.",
  "url": "https://xxxxxxxxxxxxx-abc123.kb.us-central1.gcp.elastic.cloud/api/agent_builder/a2a/archive-agent",
  "provider": {
    "organization": "Elastic",
    "url": "https://elastic.co"
  },
  "version": "0.1.0",
  "protocolVersion": "0.3.0",
  "preferred_transport": "JSONRPC",
  "documentationURL": "https://www.elastic.co/docs/solutions/search/agent-builder/a2a-server"
  "capabilities": {
    "streaming": false,
    "pushNotifications": false,
    "stateTransitionHistory": false
  },
  "skills": [
    {
      "id": "platform.core.search",
      "name": "platform.core.search",
      "description": "A powerful tool for searching and analyzing data within your Elasticsearch cluster.",
      "inputModes": ["text/plain", "application/json"],
      "outputModes": ["text/plain", "application/json"]
    },
    {
      "id": "platform.core.index_explorer",
      "name": "platform.core.index_explorer",
      "description": "List relevant indices, aliases and datastreams based on a natural language query.",
      "inputModes": ["text/plain", "application/json"],
      "outputModes": ["text/plain", "application/json"]
    }
  ],
  "defaultInputModes": ["text/plain"],
  "defaultOutputModes": ["text/plain"]
}
该代理卡揭示了 Elastic 档案代理的几个重要方面。该代理将自己定位为"Archie Archivist" ，并明确说明了自己的目的：帮助在 Elasticsearch 索引中查找历史新闻文档。该卡指定了提供商（Elastic）和协议版本（0.3.0），以确保与其他 A2A 兼容代理的兼容性。最重要的是，skills 数组列举了该代理提供的具体功能，包括强大的搜索功能和智能索引探索。每种技能都定义了它所支持的输入和输出模式，使客户能够准确了解如何与该代理进行通信。该代理源于 Elastic 的代理生成器服务，它提供了一套本地 LLM 支持的工具和 API 端点，用于与数据存储对话，而不仅仅是从存储中检索。可在此处访问 Elasticsearch 中的 A2A 代理。
2.谈判
客户和代理需要就交流方式达成一致--无论互动是通过文本、表单、iframe 还是音频/视频进行，以确保适当的用户互动和数据交换。这种协商发生在代理合作的开始阶段，并确立了整个工作流程中的交互协议。例如，语音客户服务代理可能会协商通过音频流进行通信，而数据分析代理可能更喜欢结构化的 JSON。谈判过程可确保双方以适合自身能力和当前任务要求的形式有效交换信息。
上述 JSON 代码段中列出的功能都有输入和输出模式；这些模式设定了如何与其他代理交互。
3.任务和状态管理
在整个任务执行过程中，客户端和代理需要有机制来交流任务状态、变化和依赖关系。这包括管理任务从创建、分配到进度更新和状态更改的整个生命周期。典型的状态包括待处理、进行中、已完成或失败状态。系统还必须跟踪任务之间的依赖关系，以确保在依赖任务开始之前完成前提工作。错误处理和重试逻辑也是必不可少的组成部分，可让系统从容地从故障中恢复，并继续朝着主要目标前进。
任务信息示例：
{
  "message_id": "msg_789xyz",
  "message_type": "task_request",
  "sender": "news_chief",
  "receiver": "researcher_agent",
  "timestamp": "2025-09-30T10:15:00Z",
  "payload": {
    "task_id": "task_456abc",
    "capability": "fact_gathering",
    "parameters": {
      "query": "renewable energy adoption rates in Europe 2024",
      "sources": ["eurostat", "iea", "ember"],
      "depth": "comprehensive"
    },
    "context": {
      "story_id": "story_123",
      "deadline": "2025-09-30T18:00:00Z",
      "priority": "high"
    }
  }
}
这个任务信息示例展示了 A2A 通信的几个关键方面。
信息结构包括元数据，如唯一的信息标识符、发送的信息类型、发送方和接收方标识，以及用于跟踪和调试的时间戳。
有效载荷包含实际的任务信息，指明远程代理正在调用的功能，并提供执行该功能所需的参数。
上下文部分提供了更多信息，帮助接收代理了解更广泛的工作流程，包括截止日期和优先级，告知代理应如何分配资源和安排工作。
4.合作
客户端和代理必须支持动态但有条理的交互，使代理能够要求客户端、其他代理或用户提供说明、信息或子操作。这就创造了一个协作环境，代理可以在初始指令不明确时提出后续问题，要求提供更多的背景信息以做出更好的决策，将子任务委托给其他具有更合适专业知识的代理，并在继续执行完整任务之前提供中间结果以获得反馈。这种多向沟通可确保代理商不是孤立地工作，而是参与到持续的对话中，从而取得更好的成果。
分布式点对点通信
A2A 实现了分布式通信，其中代理可能由不同的组织托管，一些代理由内部维护，另一些则由第三方服务提供。这些代理可以在不同的基础设施上运行，可能跨越多个云提供商或内部数据中心。它们可能使用不同的底层 LLM，一些代理采用 GPT 模型，另一些采用 Claude 模型，还有一些采用开源替代模型。代理甚至可以跨越不同的地理区域运行，以符合数据主权要求或减少延迟。尽管存在这种多样性，但所有代理都同意使用共同的通信协议来交换信息，从而确保了互操作性，而不管实施细节如何。这种分布式架构为系统的构建和部署提供了灵活性，使企业能够根据自身的具体需求，混合和匹配最佳的代理和基础设施。
这就是新闻编辑室应用程序的最终架构：
第 3 节：模型上下文协议（MCP）
定义和目的
模型上下文协议（MCP）是 Anthropic 开发的一种标准化协议，旨在通过用户定义的工具、资源和提示，以及其他补充代码库增添的内容，来增强单个 LLM 的功能和能力。MCP 在语言模型和它们有效完成任务所需的外部资源之间提供了一个通用接口。本文通过用例、新兴趋势和 Elastic 自身的实施，概述了 MCP 的现状。
MCP 核心概念
MCP 采用客户服务器架构，由三个主要部分组成：
客户端：连接到 MCP 服务器以访问其功能的应用程序（如 Claude Desktop 或自定义 AI 应用程序）。
服务器：向语言模型提供资源、工具和提示的应用程序。每个服务器都专门提供对特定功能或数据源的访问。工具：用户定义的函数，模型可调用这些函数进行操作，如搜索数据库、调用外部应用程序接口或对数据执行转换等。
资源：模型可以读取的数据源，提供动态或静态数据，并通过 URI 模式访问（类似于 REST 路由）。
提示： 可重复使用的提示模板，带有变量，可指导模型完成特定任务。
请求-响应模式
MCP 采用熟悉的请求-响应交互模式，类似于 REST API。客户端（LLM）请求资源或调用工具，然后 MCP 服务器处理请求并返回结果，LLM 利用该结果继续执行任务。与点对点代理通信相比，这种带有外围服务器的集中模式提供了一种更简单的集成模式。
新闻编辑室中的 MCP
在我们的新闻编辑室示例中，各个代理使用 MCP 服务器访问他们需要的工具和数据：
研究员代理使用：新闻 API MCP 服务器（访问新闻数据库）
事实核查 MCP 服务器（根据可信来源核查声明）
学术数据库 MCP 服务器（学术文章和研究）
记者代理用途：风格指南 MCP 服务器（新闻编辑室写作标准）
模板 MCP 服务器（文章模板和格式）
图片库 MCP 服务器（图片库照片和图形）
编辑器代理使用：语法检查程序 MCP 服务器（语言质量工具）
剽窃检测 MCP 服务器（原创性验证）
搜索引擎优化分析 MCP 服务器（标题和关键词优化）
出版商代理使用：内容管理系统 MCP 服务器（内容管理系统 API）
CI/CD MCP 服务器（部署管道）
分析 MCP 服务器（跟踪和监控）

第 4 部分：架构比较
何时使用 A2A
A2A 架构在需要真正多代理协作的场景中表现出色。需要协调的多步骤工作流从 A2A 中受益匪浅，尤其是当任务涉及多个连续或并行步骤、需要迭代和改进的工作流以及需要检查点和验证的流程时。在我们的新闻编辑室示例中，报道工作流程要求记者撰写，但如果对某些事实的信心不足，可能需要返回研究员，然后再返回编辑，最后返回出版商。
跨越多个领域的特定领域专业化是 A2A 的另一个强大用例。当需要不同领域的多位专家来完成一项更大的任务时，每个代理都会带来深厚的领域知识和针对不同方面的专门推理能力，A2A 提供了建立这些联系所需的协调框架。新闻编辑室完美地体现了这一点：研究员擅长信息收集，记者擅长写作，编辑擅长质量控制--每个人都有自己独特的专长。
对自主代理行为的需求使得 A2A 尤其有价值。在 A2A 架构中，能够 根据不断变化的条件做出独立决策、表现出积极主动行为并能动态适应工作流程要求的代理可茁壮成长。专业化功能的横向扩展是另一个关键优势--多个专业化代理协同工作，而不是只有一个万能代理，同一代理的多个实例可以异步处理子任务。例如，在我们的新闻编辑室报道突发新闻时，多名记者代理可能会同时从不同角度报道同一新闻。
最后，需要真正多代理协作的任务是 A2A 的理想选择。这包括法律硕士即评审团的评估机制、建立共识和投票系统，以及需要多角度达成最佳结果的协作式问题解决方法。
何时使用 MCP
模型上下文协议是扩展单一人工智能模型功能的理想选择。当单个人工智能模型需要访问多个工具和数据源时，MCP 提供了完美的解决方案，集中式推理与分布式工具和直接的工具集成相结合。在我们的新闻编辑室示例中，研究员代理（一种模式）需要访问多个数据源，包括新闻 API、事实核查服务和学术数据库--所有这些都通过标准化的 MCP 服务器访问。
当工具集成的广泛共享和可重用性变得非常重要时，标准化工具集成就成了优先事项。MCP 凭借其预构建的 MCP 服务器生态系统大放异彩，大大缩短了常见集成的开发时间。当需要简单性和可维护性时，MCP 的请求-响应模式是开发人员所熟悉的，比分布式系统更容易理解和调试，操作复杂性也更低。
最后，软件供应商通常会提供 MCP，以方便与其系统进行远程通信。这些由供应商提供的 MCP 服务器大大缩短了入网和开发时间，同时为专有系统提供了标准化接口，使集成比定制 API 开发更加简单。
何时同时使用两种方法（A2A ❤️ 的 MCP）
正如 A2A 有关 MCP 集成的文档 所指出的，许多复杂的系统都能从 A2A 和 MCP 的 结合中受益。既需要协调又需要标准化的系统是混合方法的理想选择。A2A 处理代理协调和工作流程协调，而 MCP 则为单个代理提供工具访问。在我们的新闻编辑室示例中，代理通过 A2A 进行协调；工作流程从记者到研究员，再到编辑，最后到出版商。不过，每个代理都使用 MCP 服务器来管理其专用工具，从而实现了干净利落的架构分离。
多个专门的代理，每个都使用 MCP 进行工具访问，这代表了一种常见的模式，即代理协调层由 A2A 处理，工具访问层由 MCP 管理。这种明确的分工使系统更容易理解和维护。
将这两种方法结合起来的好处是巨大的。您可以获得多代理系统的组织优势，包括专业化、自主性和并行处理，同时还可以享受 MCP 的标准化和生态系统优势，如工具集成和资源访问。代理协调（A2A）和资源访问（MCP）之间有明确的分离，而且重要的是，A2A 不需要单独用于 API 访问等较小的任务，MCP 可以高效地处理这些任务，而不需要多代理协调的开销。
常见问题：A2A 与 MCP--使用案例
            
              
                
                    
                      功能 Agent2Agent (A2A) 模型上下文协议（MCP） 混合型（A2A + MCP）
                    
                    
                      首要目标 多代理协调：使专业代理团队能够在复杂的多步骤工作流程中协同工作。 单一代理增强：利用外部工具、资源和数据扩展单一 LLM/Agent 的能力。 综合实力：A2A 负责团队的工作流程，而 MCP 则为每个团队成员提供工具。
                    
                    
                      新闻编辑室团队范例 工作流程链：新闻主管 → 记者 → 研究员 → 编辑 → 出版商。这是协调层。 单个代理的工具：记者代理访问样式指南服务器和模板服务器（通过 MCP）。这是工具访问层。 完整的系统：记者与编辑（A2A）协调，记者使用图像库 MCP 服务器为报道寻找图片。
                    
                    
                      何时使用 当您需要真正的协作、迭代和改进，或需要多个代理分担专业知识时。 当单个代理需要访问多个工具和数据源或需要与专有系统进行标准化集成时。 当您需要多代理系统的组织优势以及 MCP 的标准化和生态系统优势时。
                    
                    
                      核心效益 自主性和扩展性：代理可以独立做出决定，系统允许专门功能的横向扩展。 简单化和标准化：由于集中推理，调试和维护更容易，并为资源提供了通用接口。 明确区分关注点：使系统更易于理解：A2A = 团队合作，MCP = 工具使用。
                    
              
            
          结论
这是两篇文章的第一部分，内容涉及基于 A2A 的代理的实施，并通过 MCP 服务器提供支持和外部数据及工具访问。下一篇文章将探讨实际代码，以演示它们如何共同模拟在线新闻编辑室的活动。虽然这两种框架本身都具有极强的能力和灵活性，但当它们协同工作时，你就会发现它们之间的互补性有多大。


你懂的，语境--第一部分：混合搜索和语境工程的演变
Woody Walton — Wed, 12 Nov 2025 00:00:00 GMT
我们全新的人工智能代理世界
和我们许多人一样，我发现自己对人工智能能力的发展速度既目瞪口呆又惊叹不已。我们首先看到大型语言模型（LLMs）和矢量搜索将我们带入语义革命，在这场革命中，我们不再需要用关键字来寻找事物。随后，法学硕士们向我们展示了与数据交互的新方法，他们使用聊天界面将自然语言请求转化为回复，将庞大的知识库提炼为易于使用的摘要。我们现在（已经）以 "代理人工智能"（agentic AI）工作流的形式出现的自动 LLM 驱动逻辑已经初具雏形，它可以从语义上理解接收到的请求，推理出需要采取的步骤，然后从可用的工具中选择迭代执行的行动来实现这些目标。
人工智能代理的前景正迫使我们从主要使用 "提示工程 "来塑造我们的人工智能生成交互，发展到关注我们如何帮助代理工具获得最相关、最有效的额外信息，以便 LLM 在生成其响应时加以考虑--"情境工程 "是下一个前沿领域。混合搜索是迄今为止最强大、最灵活的浮现相关上下文的手段，Elastic 的搜索人工智能平台开辟了一种全新的方式来利用数据为上下文工程服务。在本文中，我们将从两个角度讨论法律硕士如何改变了信息检索的世界，然后再讨论如何将它们结合起来以取得更大的成果。有相当多的地方需要覆盖...
第 I 部分：法律硕士如何改变搜索方式
让我们从法律硕士如何改变了我们获取和检索信息的方式这个角度出发。
我们的词汇遗产
长期以来，我们一直生活在有限的词库搜索世界中（尽我们所能，相当不错）。搜索是我们在研究或开始一个新项目时最先使用的工具，直到最近，我们还需要以词法搜索引擎能够理解的方式来描述我们的查询。词法搜索依赖于将某种形式的查询术语与文档语料库中的关键字进行匹配，无论内容是非结构化的还是结构化的。词法搜索要返回命中的文档，必须与该关键词相匹配（或者有同义词列表或词典等受控词汇来为我们建立概念联系）。
POST my-index/_search
{
  "size": 10,
  "query": {
    "semantic": {
      "query": "machine learning applications",
      "field": "semantic-content-field"
    }
  }
}
词法 多匹配 查询示例 
至少搜索引擎有能力返回相关性得分的点击率。搜索引擎提供丰富的查询语法选项，可有效定位索引数据，并提供内置相关性算法，根据用户查询语法的意图对结果进行评分。几十年来，搜索引擎在相关性排序算法方面取得了长足的进步，这使搜索引擎成为一个高效的数据检索平台，可以根据查询结果的相关性对结果进行评分和排序。使用 SQL 作为主要数据检索方法的数据库和其他系统在这方面处于劣势：数据库查询中没有相关性的概念；它们能做的最好的事情就是按字母或数字对结果进行排序。好消息是，您将获得这些关键词的所有点击率（召回率），但相对于您询问这些关键词的原因（精确度）而言，它们的顺序不一定有帮助。这一点很重要，我们很快就会看到...
进入（语义）龙
信息矢量表示法作为关键字搜索的替代方法，其潜力已被研究了很长时间。矢量让我们摆脱了只用关键词匹配内容的模式，因此前景十分广阔--由于矢量是术语和权重的数字表示，因此可以根据语言模型对术语在训练领域中相互关系的理解，在数学上接近概念。通用矢量搜索之所以拖延了很长时间，是因为模型大多局限于特定领域，它们根本不足以充分理解一个术语在不同语境中可能代表的许多不同概念。
直到几年前出现了大型语言模型（LLM），它们能够在更大的数据量上进行训练（使用转换器和注意力），矢量搜索才变得实用起来--LLM 的大小和深度最终使矢量能够存储足够的细微差别，从而真正捕捉语义。理解深度的骤然增加使得 LLM 现在可以实现大量以前无法实现的自然语言处理（NLP）功能，其中影响最大的可能是根据序列中迄今为止的上下文推断序列中最有可能出现的下一个术语。推理过程赋予了生成式人工智能近乎人类的文本生成能力。人工智能生成的文本参考了 LLM 对训练数据中术语相关性的理解，并利用请求的措辞来区分术语可能出现的不同语境。
尽管生成式人工智能非常神奇，但 LLM 也有其局限性，会导致质量和准确性方面的误差，也就是通常所说的幻觉。当 LLM 无法获得信息（或没有正确的上下文引导）来根据事实回答问题时，就会产生幻觉，因此，为了帮助 LLM，它会产生一个自信满满、听起来似是而非的回答。部分原因在于，虽然 LLM 可以在包含各种信息的大型领域中学习语言的用法，但它们必须在某个时间点停止训练，因此它们的理解存在时效性因素--也就是说，模型只能知道在停止训练之前的准确性。造成幻觉的另一个因素是，模型通常不知道私人持有的数据（不能在公共互联网上获取的数据），当这些数据包含特定术语和名词时，这一点尤为重要。
矢量数据库
LLM 使用一种称为文本嵌入的技术将内容矢量化到其模型空间中，这种技术是指根据所接受的训练，将内容的语义嵌入或映射到模型的世界观中。准备和处理嵌入内容需要几个步骤，包括分块和标记化（以及子词标记化）。其结果通常是一组密集的向量，代表了模型在其向量空间内对该内容块含义的理解。分块是一个不精确的过程，目的是使内容符合模型生成嵌入的处理限制，同时还尝试使用语义结构（如句子和段落指示符）将相关文本归入一个分块。
由于单个分块与同一文档中的其他分块并不完全关联，因此分块的需要可能会在嵌入文档中造成一些语义损失。神经网络固有的不透明性会使这种损失变得更加严重--LLM 是一个真正的 "黑盒子"，训练过程中术语和概念之间的联系是非确定的，人类无法解释。这就导致了可解释性、可重复性、无意识偏见等问题，并可能失去信任和准确性。不过，从语义上将想法联系起来的能力，以及在查询时不受特定关键词束缚的能力还是非常强大的：
POST my-index/_search 
{
  "size": 10, 
  "query": {
    "semantic": {
      "query": "machine learning applications",
      "field": "semantic-content-field"
    }
  }
} 
语义 查询 示例
矢量数据库还有一个问题需要考虑：它们不是搜索引擎，而是数据库！在进行矢量相似性搜索时，会对查询词进行编码，以便在模型的矢量空间中找到一组（嵌入）坐标。然后将这些坐标作为靶心，找出与靶心 "近邻 "的文档--这意味着文档的排名（或在结果中的位置）是由计算出的文档坐标与查询坐标的相似度距离决定的。在可能的上下文中，哪个最接近用户的意图？我将其比喻为电影《星际之门》中的一个场景，我们有六个相交的坐标点来告诉我们目的地（靶心），但如果不知道 "第七个符号"--代表用户主观意图的起点坐标，我们就无法到达目的地。因此，通过表达式语法和相关性评分来考虑查询的主观意图，我们就能得到类似于主观相关性分级的圆柱体，而不是根据不断扩大和无差别的相似性来对向量进行相对排序。
LLM 的推理能力可能有助于确定它对查询所掌握的最有可能的上下文，但问题是，在没有帮助的情况下，输入查询的坐标只能根据模型最初的训练方式来确定。
在某些方面，你可以说矢量相似性走向了与严格的关键词匹配相反的极端--它的优势在于能够克服术语不匹配的问题，但几乎可以说是无懈可击：LLM 倾向于统一相关概念，而不是区分它们。矢量相似性提高了我们从语义上匹配内容的能力，但并不能保证精确度，因为它可能会忽略精确的关键字和特定的细节，而这些细节在模型中并没有得到足够的消歧。矢量相似性搜索本身就很强大，但我们需要将从矢量数据库中获取的结果与其他检索方法的结果关联起来。
重新排名技术
现在是提及一种名为 "重排 "的通用技术的好时机。"重排 "是对结果集进行重新评分或归一化，使其达到统一的排名顺序。需要重新排序的原因可能是来自多个来源或检索方法的结果具有不同的排序/评分机制（或者根本没有，SQL！），或者重新排序可能是为了使来自非语义来源的结果与用户的查询在语义上保持一致。重新排序是第二阶段的操作，是指通过某种初始检索方法收集到的一组结果（即SQL、词法搜索、向量搜索），然后用不同的评分方法重新排序。
有几种可用的方法，包括学习排名（Learning-To-Rank，LTR）和互惠排名融合（Reciprocal Rank Fusion，RRF）--LTR 适用于捕捉搜索结果特征（喜欢、评分、点击等），并利用这些特征对搜索结果进行评分、提升或倾斜。RRF 非常适合合并不同查询模式返回的结果（如词法搜索和矢量数据库搜索）合并为一个结果列表。Elastic 还提供了使用线性重排方法调整分数的灵活性。
不过，最有效的重排技术之一是语义重排，它利用 LLM 的语义理解能力来分析查询和结果的向量嵌入，然后应用相关性评分/重评分来确定最终顺序。当然，语义重排需要与重排模型建立连接，Elasticsearch提供了推理API，让您可以创建重排端点，利用内置模型（Elastic Rerank）、导入的第三方模型或外部托管服务（如Cohere或Google Vertex AI）。然后就可以通过检索器查询抽象语法执行重新排序：
POST my-index/_search 
{
  "size": 10,
  "retriever": {
    "text_similarity_reranker": {
      "retriever": {
        "rrf": {
          "retrievers": [
            {
              "standard": {
                "query": {
                  "multi_match": {
                    "query": "machine learning applications",
                    "fields": ["title", "content"]
                  }
                }
              }
            },
            {
              "knn": {
                "field": "semantic-content-field",
                "k": 10,
                "num_candidates": 100,
                "query_vector_builder": {
                  "text_embedding": {
                    "model_id": "my-text-embedding-model",
                    "model_text": "machine learning applications"
                  }
                }
              }
            }
          ],
          "rank_window_size": 50,
          "rank_constant": 20
        }
      }
    },
    "field": "content",
    "inference_id": "my-reranker",
    "inference_text": "machine learning applications",
    "rank_window_size": 20
  }
}
多级检索器重排操作示例
听起来不错吧？我们可以对来自不同来源的结果进行重新排序，从而接近对所有类型内容的语义理解......语义重新排序的计算成本和处理时间都很高，正因为如此，语义重新排序只能在数量有限的结果上进行，这意味着如何检索这些初始结果非常重要。
语境检索方法很重要
主观意图是确定结果准确性和评分相关性的一个重要因素。由于无法考虑用户执行查询的意图（如通过灵活的语法或第二阶段重排所表达的意图），我们只能从模型空间中已编码的现有上下文中进行选择。我们通常通过检索增强生成（RAG）等技术来解决这种缺乏上下文的问题。RAG 的工作原理是，它可以有效地转移查询的坐标，包括通过预查询返回的其他相关术语，以获取与上下文相关的数据。这就使得提供额外上下文的引擎及其执行检索的初始方法对上下文的准确性更加重要！
让我们回顾一下不同的上下文检索方法，以及它们对 RAG 操作的帮助或伤害：
没有搜索引擎的混合搜索检索仍然缺乏主观相关性。如果提供 RAG 的平台主要基于下面的 SQL（包括大多数 "数据湖 "平台），那么在初始检索阶段就缺乏相关性评分。许多数据湖平台提供自己版本的混合检索（而非搜索），通常在基于 SQL 的检索和矢量数据库结果上结合语义重排和 RRF 等重排技术。简单的排序显然不足以进行主观排序，但即使作为第二阶段语义重排操作的基础，SQL 作为第一阶段检索，在只对 "前 k 个 "点击进行语义重排时也会出现问题--如果不在检索时对结果进行某种评分，我们又如何保证最好的结果确实在最前面的结果中呢？
对于 RAG 来说，仅有矢量相似性是不够的。这实际上是由一系列复杂问题造成的--这是嵌入的损失性，还有天真的分块方法、相似性的计算方法，以及主观意图这一至关重要的缺失部分。RAG 的主要目标之一是将生成式人工智能交互建立在客观事实的基础上，既能防止产生幻觉，又能让 LLM 了解它在训练过程中不知道的私人信息。我们可以利用 RAG 提供的额外语境来约束和引导 LLM，使其考虑我们所知道的对回答当前问题最重要的关联和细节。为此，我们需要同时使用语义和词汇方法。
基于文件的 grep/regex RAG。在人工智能代理领域，有一些人指出，应使用大幅放大的上下文窗口，通过 grep 和 regex 访问本地文件，以实现 RAG，而不是使用外部检索平台。我们的想法是，有了更大的上下文窗口，法律硕士就能在自己的思维空间内建立概念联系，而不是依赖分块的碎片和多种检索方法/平台来收集相关信息。虽然从理论上讲，拥有整个文档比拥有文档片段能提供更全面的信息，但这只适用于小数据域（或者，例如，在提供用于振动编码的文件时），即使在这种情况下，初始检索方法也是扫描所有仅有关键字匹配的文档。
搜索不仅仅是检索
搜索引擎的设计目的是使查询尽可能快速和灵活。在内部，它们利用专门的数据结构来存储和检索不同类型的数据，以满足这些数据类型的需要。Elasticsearch 可优化所有类型数据的存储和查询，包括非结构化/全文词法搜索（匹配、短语、近似、多重匹配）、快速关键字（精确匹配）匹配和过滤、数字范围、日期、IP 地址，而且存储文档结构的方式也非常灵活（例如，可通过"...嵌套或扁平化文档）。Elasticsearch 还是一个原生矢量数据库，可以存储和查询稀疏和密集矢量类型。我们将继续探索创新方法（例如，更好的二进制量化 (BBQ) & DiskBBQ），以保持搜索保真度，同时提高速度、可扩展性以及与矢量化内容相关的成本。Elasticsearch 平台还提供内置的数据弹性和高可用性，并包含数据生命周期管理功能，如可搜索快照，让您可以在经济高效的对象存储上保留不常访问或长期保留的数据，但仍可完全搜索。
混合搜索是最好的选择
混合搜索（不仅仅是混合检索）将传统词汇搜索的优势与 LLM 的语义理解和向量相似性搜索相结合。这种协同作用允许在检索阶段通过搜索引擎提供的任何灵活的查询语法选项：意图驱动语法选项和相关性评分、多模态数据检索、过滤、聚合和偏置来定位高度相关的结果。利用ES|QL等搜索语法和多级检索器，我们可以在一个请求中灵活地将传统搜索与语义搜索、过滤器和多种重排技术结合起来。
混合搜索的最大优势之一是，您的查询可以同时针对多种不同的数据类型使用专门的语法。这些不同的查询语法不仅可用于查找结果，还可用作结果的筛选器或聚合器。例如，最常见的查询类型之一是地理空间分析，它经常与其他语法相结合。您可以查询地理坐标在某一点指定距离内的结果，或要求按地区对结果进行汇总，或进行汇总以跟踪进入/离开某个区域的移动情况并发出警报。使用混合搜索，您可以灵活地组合语法，以最准确的方式定位搜索结果，检索最贴近您的上下文的内容。
中场休息
第一部分讲述了矢量搜索如何改变了我们检索数据的方式，并为 LLM 给我们用来与数据交互的查询机制带来的变化做了铺垫。我们将假装不得不把这部分内容分成多个部分，以便 LLM 能够在不丢失上下文的情况下理解......;-)让我们在 第二部分 "代理人工智能和上下文工程的必要性"中进一步了解 这一点的重要性 ，在第三部分中，我们将继续讨论混合搜索。


在 Elasticsearch 中为结构化文档配置递归分块
Daniel Rubinstein — Tue, 11 Nov 2025 00:00:00 GMT
自 8.16 版起，用户可以配置将长文档导入语义文本字段时使用的分块策略。从 9.1 / 8.19 版开始，我们引入了一种新的可配置递归分块策略，使用正则表达式列表对文档进行分块。分块的目的是将长文档分割成囊括相关内容的部分。我们现有的策略会按单词/句子的粒度分割文本，但以结构化格式编写的文档（例如："......"）则不会这样做。Markdown）通常会在由一些分隔字符串定义的部分内包含相关内容（例如："......"）。标题）。对于这些类型的文档，我们正在引入递归分块策略，以利用结构化文档的格式来创建更好的分块！
什么是递归分块？
递归分块法会遍历所提供的分块模式列表，逐步将文档分成更小的分块，直到达到所需的最大分块大小。
如何配置递归分块？
以下是用户为递归分块提供的可配置值：
(必填）max_chunk_size ：字块中的最大字数。
任选其一：separators:用于将文档分割成块的 regex 字符串模式列表。
separator_group:一个字符串，它将映射到 Elastic 定义的默认分隔符列表，用于特定类型的文档。目前，markdown 和plaintext 。
递归分块是如何工作的？
递归分块的过程如下：给定输入文档、max_chunk_size （以字数为单位）和分隔符字符串列表：
如果输入文档已经在最大分块大小范围内，则返回一个涵盖整个输入文档的分块。
根据分隔符的出现次数，将文本分割成潜在的文本块。对于每个潜在的数据块如果潜在数据块在最大数据块大小范围内，则将其添加到要返回给用户的数据块列表中。
否则，从第 2 步开始重复，只使用潜在文本块中的文本，并使用列表中的下一个分隔符进行分割。如果没有其他分隔符可以尝试，就退回到基于句子的分块。
配置递归分块的示例
除了分块大小，递归分块的主要配置是选择应使用哪些分隔符来分割文档。如果您不确定从哪里开始，Elasticsearch 提供了一些默认的分离器组，可用于常见的使用情况。
利用分离器组
要使用分隔组，只需在配置分块设置时提供要使用的组名即可。例如
"chunking_settings": {
    "strategy": "recursive",
    "max_chunk_size": 25,
    "separator_group": "plaintext"
}
这样就可以利用分隔符列表["(? 来实现递归分块策略。对于一般的纯文本应用程序，这种方法效果很好，可以在 2 个换行符后再分隔出 1 个换行符。
我们还提供一个分隔符组markdown ，它将利用分隔符列表：
[
"\n# ",
       "\n## ",
       "\n### ",
       "\n#### ",
       "\n##### ",
       "\n###### ",
       "\n^(?!\\s*$).*\\n-{1,}\\n",
       "\n^(?!\\s*$).*\\n={1,}\\n"
]
这个分隔符列表可以很好地适用于一般的标记符使用情况，在 6 个标题层次和分节符上分别进行分隔。
创建资源（推理端点/语义文本字段）时，与当时分隔符组相对应的分隔符列表将存储在您的配置中。如果以后更新了分隔符组，也不会改变已创建资源的行为。
使用自定义分隔符列表
如果预定义的分隔符组不适合您的使用情况，您可以定义一个符合您需求的自定义分隔符列表。请注意，可以在分隔符列表中提供正则表达式。以下是使用自定义分隔符配置分块设置的示例：
"chunking_settings": {
    "strategy": "recursive",
    "max_chunk_size": 25,
    "separators": ["\n\n", "\n", ""]
}
上述分块策略将在 2 个换行符、1 个换行符和一个字符串“” 上进行分割。
递归分块的实际应用示例
让我们来看一个递归分块的实例。在本示例中，我们将使用以下分块设置和自定义分隔符列表，使用顶部两层标题分割标记符文档：
"chunking_settings": {
    "strategy": "recursive",
    "max_chunk_size": 25,
    "separators": ["\n# ", "\n## "]
}
让我们来看看一个简单的未分块 Markdown 文档：
现在，让我们使用上面定义的分块设置对文档进行分块：
注意：每个分块（分块 3 除外）末尾的换行符不会突出显示，而是包含在实际分块边界内。
今天就开始使用递归分块技术！
有关使用该功能的更多信息，请查看有关配置分块设置的文档。



介绍 Kibana 中的 Elasticsearch 查询规则用户界面
Jhon Guzmán — Fri, 07 Nov 2025 00:00:00 GMT
搜索引擎的工作就是返回相关结果。然而，有些业务需求并不限于此，比如突出销售、优先考虑季节性产品或展示赞助项目，而开发人员不可能总是在搜索查询中做到这一点。
此外，这些用例通常具有时间敏感性，而经历典型的开发阶段（创建代码分支，然后等待新版本发布）是一个耗时的过程。
那么，如果我们只需调用 API，或者在 Kibana 中点击几下就能完成整个过程，那会怎样呢？
查询规则用户界面
Elasticsearch 8.10 引入了查询规则和规则检索器。这些工具旨在根据规则在不影响有机结果排名的情况下将钉入结果注入查询。它们只是以声明式的简单方式在结果之上添加业务逻辑。
查询规则的一些常见用例包括
突出显示促销列表或销售：在顶部显示促销或赞助商品。
根据上下文或地理位置排除：当当地法规不允许显示某些项目时，隐藏这些项目。
优先处理关键结果：确保热门搜索或固定搜索始终排在前面，无论有机搜索排名如何。
要访问界面并与这些工具互动，需要点击 Kibana 侧边菜单，然后转到相关性下的查询规则 ：
查询规则菜单弹出后，点击创建第一个规则集：
接下来，您需要为规则集命名。
定义每条规则的表格有三个关键部分：
标准：适用规则必须满足的条件。例如，"当 query_string 字段包含Christmas值时 "或 "当 country 字段为CO 时"。
行动：这是您希望在条件满足时发生的事情。它可以被固定（将文档固定到顶部结果）或排除（隐藏文档）。
元数据：这些字段在查询运行时会随查询一起出现。它们可以包括用户信息（如位置或语言）以及搜索数据（query_string）。这些值是标准用于决定是否应用规则的值。
例如：热门项目
假设我们有一个电子商务网站，上面有不同的商品。在查看这些指标时，我们注意到在游戏机类别中，"DualShock 4 无线控制器 "是销售量最大的商品之一，尤其是当用户搜索关键词 "PS4 "或 "PlayStation 4 "时。因此，我们决定在用户搜索这些关键词时，将该产品放在搜索结果的顶部。
首先，让我们使用批量 API 请求为每个项目的文档建立索引：
POST _bulk
{ "index": { "_index": "products", "_id": "1" } }
{ "id": "1", "name": "PlayStation 4 Slim 1TB", "category": "console", "brand": "Sony", "price": 1200 }
{ "index": { "_index": "products", "_id": "2" } }
{ "id": "2", "name": "DualShock 4 Wireless Controller", "category": "accessory", "brand": "Sony", "price": 250 }
{ "index": { "_index": "products", "_id": "3" } }
{ "id": "3", "name": "PlayStation 4 Camera", "category": "accessory", "brand": "Sony", "price": 200 }
{ "index": { "_index": "products", "_id": "4" } }
{ "id": "4", "name": "PlayStation 4 VR Headset", "category": "accessory", "brand": "Sony", "price": 900 }
{ "index": { "_index": "products", "_id": "5" } }
{ "id": "5", "name": "Charging Station for DualShock 4", "category": "accessory", "brand": "Sony", "price": 80 }
如果我们不干预查询，该项目通常会出现在第四位。问题是这样的
GET products/_search
{
 "query": {
   "match": {
     "name": "PlayStation 4"
   }
 }
}
结果如下
{
 "took": 1,
 "timed_out": false,
 "_shards": {
   "total": 1,
   "successful": 1,
   "skipped": 0,
   "failed": 0
 },
 "hits": {
   "total": {
     "value": 5,
     "relation": "eq"
   },
   "max_score": 0.6973252,
   "hits": [
     {
       "_index": "products",
       "_id": "3",
       "_score": 0.6973252,
       "_source": {
         "id": "3",
         "name": "PlayStation 4 Camera",
         "category": "accessory",
         "brand": "Sony",
         "price": 200
       }
     },
     {
       "_index": "products",
       "_id": "1",
       "_score": 0.6260078,
       "_source": {
         "id": "1",
         "name": "PlayStation 4 Slim 1TB",
         "category": "console",
         "brand": "Sony",
         "price": 1200
       }
     },
     {
       "_index": "products",
       "_id": "4",
       "_score": 0.6260078,
       "_source": {
         "id": "4",
         "name": "PlayStation 4 VR Headset",
         "category": "accessory",
         "brand": "Sony",
         "price": 900
       }
     },
     {
       "_index": "products",
       "_id": "2",
       "_score": 0.08701137,
       "_source": {
         "id": "2",
         "name": "DualShock 4 Wireless Controller",
         "category": "accessory",
         "brand": "Sony",
         "price": 250
       }
     },
     {
       "_index": "products",
       "_id": "5",
       "_score": 0.07893815,
       "_source": {
         "id": "5",
         "name": "Charging Station for DualShock 4",
         "category": "accessory",
         "brand": "Sony",
         "price": 80
       }
     }
   ]
 }
}
让我们创建一个查询规则来改变这种情况。首先，让我们像这样把它添加到规则集中：
或相应的API 请求：
PUT _query_rules/my-rules
{
  "rules": [
    {
      "rule_id": "rule-1232",
      "type": "pinned",
      "criteria": [
        {
          "type": "exact",
          "metadata": "query_string",
          "values": [
            "PS4",
            "PlayStation 4"
          ]
        }
      ],
      "actions": {
        "docs": [
          {
            "_index": "products",
            "_id": "2"
          }
        ]
      }
    }
  ]
}
要在查询中使用规则集 ，我们必须使用查询规则类型。这种查询主要由两部分组成：
GET /products/_search
{
 "retriever": {
   "rule": {
     "retriever": {
       "standard": {
         "query": {
           "match": { "name": "PlayStation 4" }
         }
       }
     },
     "match_criteria": {
       "query_string": "PlayStation 4"
     },
     "ruleset_ids": ["my-rules"]
   }
 }
}
匹配标准：这些是用于与用户查询进行比较的元数据。在本例中，当 query_string 字段的值为 "PlayStation 4 "时，规则集被激活。
query：实际查询，用于搜索和获取有机结果。
这样，首先运行有机查询，然后 Elasticsearch 应用规则集中的规则：
{
 "took": 17,
 "timed_out": false,
 "_shards": {
   "total": 1,
   "successful": 1,
   "skipped": 0,
   "failed": 0
 },
 "hits": {
   "total": {
     "value": 5,
     "relation": "eq"
   },
   "max_score": 1.7014122e+38,
   "hits": [
     {
       "_index": "products",
       "_id": "2",
       "_score": 1.7014122e+38,
       "_source": {
         "id": "2",
         "name": "DualShock 4 Wireless Controller",
         "category": "accessory",
         "brand": "Sony",
         "price": 250
       }
     },
     {
       "_index": "products",
       "_id": "3",
       "_score": 0.6973252,
       "_source": {
         "id": "3",
         "name": "PlayStation 4 Camera",
         "category": "accessory",
         "brand": "Sony",
         "price": 200
       }
     },
     {
       "_index": "products",
       "_id": "1",
       "_score": 0.6260078,
       "_source": {
         "id": "1",
         "name": "PlayStation 4 Slim 1TB",
         "category": "console",
         "brand": "Sony",
         "price": 1200
       }
     },
     {
       "_index": "products",
       "_id": "4",
       "_score": 0.6260078,
       "_source": {
         "id": "4",
         "name": "PlayStation 4 VR Headset",
         "category": "accessory",
         "brand": "Sony",
         "price": 900
       }
     },
     {
       "_index": "products",
       "_id": "5",
       "_score": 0.07893815,
       "_source": {
         "id": "5",
         "name": "Charging Station for DualShock 4",
         "category": "accessory",
         "brand": "Sony",
         "price": 80
       }
     }
   ]
 }
}
示例：基于用户的元数据
查询规则的另一个有趣应用是使用元数据，根据用户或网页的上下文信息显示特定文档。
例如，假设我们想根据用户的忠诚度（用数值表示）来突出显示商品或定制销售。
我们可以直接将这些元数据导入查询，这样当所述值满足特定条件时，规则就会激活。
首先，我们将为一份只有忠诚度高的用户才能看到的文档建立索引：
POST _bulk
{ "index": { "_index": "products", "_id": "6" } }
{ "id": "6", "name": "PlayStation Plus Deluxe Card - 12 months", "category": "membership", "brand": "Sony", "price": 300 }
现在，让我们在同一规则集内创建一条新规则，这样当忠诚度_级别等于或高于 80 时，项目就会出现在结果的顶部。
保存规则和规则集。
以下是相应的 REST 请求：
PUT _query_rules/my-rules
{
  "rules": [
    {
      "rule_id": "pin-premiun-user",
      "type": "pinned",
      "criteria": [
        {
          "type": "gte",
          "metadata": "loyalty_level",
          "values": [
            80
          ]
        }
      ],
      "actions": {
        "docs": [
          {
            "_index": "products",
            "_id": "6"
          }
        ]
      }
    }
  ]
}
现在，在运行查询时，我们需要在元数据中包含新参数loyalty_level 。如果满足规则中的条件，新文档将出现在结果的顶部。
例如，在发送忠诚度级别为 80 的查询时：
POST /products/_search
{
  "retriever": {
    "rule": {
      "retriever": {
        "standard": {
          "query": {
            "match": {
              "name": "PlayStation"
            }
          }
        }
      },
      "match_criteria": {
        "query_string": "PlayStation",
        "loyalty_level": 80
      },
      "ruleset_ids": ["my-rules"]
    }
  }
}
我们将在结果上方看到忠诚度文件：
{
  "took": 31,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 4,
      "relation": "eq"
    },
    "max_score": 1.7014122e+38,
    "hits": [
      {
        "_index": "products",
        "_id": "6",
        "_score": 1.7014122e+38,
        "_source": {
          "id": "6",
          "name": "PlayStation Plus Deluxe Card - 12 months",
          "category": "membership",
          "brand": "Sony",
          "price": 300
        }
      },
      {
        "_index": "products",
        "_id": "3",
        "_score": 0.5054567,
        "_source": {
          "id": "3",
          "name": "PlayStation 4 Camera",
          "category": "accessory",
          "brand": "Sony",
          "price": 200
        }
      },
      {
        "_index": "products",
        "_id": "1",
        "_score": 0.45618832,
        "_source": {
          "id": "1",
          "name": "PlayStation 4 Slim 1TB",
          "category": "console",
          "brand": "Sony",
          "price": 1200
        }
      },
      {
        "_index": "products",
        "_id": "4",
        "_score": 0.45618832,
        "_source": {
          "id": "4",
          "name": "PlayStation 4 VR Headset",
          "category": "accessory",
          "brand": "Sony",
          "price": 900
        }
      }
    ]
  }
}
在下面的例子中，由于忠诚度等级为 70，因此不符合规则，物品不应出现在顶部：
POST /products/_search
{
  "retriever": {
    "rule": {
      "retriever": {
        "standard": {
          "query": {
            "match": {
              "name": "PlayStation"
            }
          }
        }
      },
      "match_criteria": {
        "query_string": "PlayStation",
        "loyalty_level": 70
      },
      "ruleset_ids": ["my-rules"]
    }
  }
}
结果如下：
{
  "took": 7,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 4,
      "relation": "eq"
    },
    "max_score": 0.5054567,
    "hits": [
      {
        "_index": "products",
        "_id": "3",
        "_score": 0.5054567,
        "_source": {
          "id": "3",
          "name": "PlayStation 4 Camera",
          "category": "accessory",
          "brand": "Sony",
          "price": 200
        }
      },
      {
        "_index": "products",
        "_id": "1",
        "_score": 0.45618832,
        "_source": {
          "id": "1",
          "name": "PlayStation 4 Slim 1TB",
          "category": "console",
          "brand": "Sony",
          "price": 1200
        }
      },
      {
        "_index": "products",
        "_id": "4",
        "_score": 0.45618832,
        "_source": {
          "id": "4",
          "name": "PlayStation 4 VR Headset",
          "category": "accessory",
          "brand": "Sony",
          "price": 900
        }
      },
      {
        "_index": "products",
        "_id": "6",
        "_score": 0.3817649,
        "_source": {
          "id": "6",
          "name": "PlayStation Plus Deluxe Card - 12 months",
          "category": "membership",
          "brand": "Sony",
          "price": 300
        }
      }
    ]
  }
}
例如：立即排除
假设我们的DualShock 4 无线控制器（ID 2）暂时缺货，无法出售。因此，业务团队决定在此期间将其从搜索结果中删除，而不是手动删除文档或等待某些数据流程启动。
我们将使用与刚才应用于热门项目类似的过程，但这次我们不选择 "已固定"，而是选择 "排除"。这条规则就像一个黑名单。将条件改为 "始终"，这样每次运行查询时，排除都会起作用。
规则应该是这样的
保存规则和规则集以应用更改。以下是相应的 REST 请求：
PUT _query_rules/my-rules
{
  "rules": [
    {
      "rule_id": "rule-6358",
      "type": "pinned",
      "criteria": [
        {
          "type": "always"
        }
      ],
      "actions": {
        "docs": [
          {
            "_index": "products",
            "_id": "2"
          }
        ]
      }
    }
  ]
}
现在，当我们再次运行查询时，你会发现结果中不再有该项目，尽管之前的规则是将其固定。这是因为排除结果的优先级高于钉牢结果。
{
 "took": 6,
 "timed_out": false,
 "_shards": {
   "total": 1,
   "successful": 1,
   "skipped": 0,
   "failed": 0
 },
 "hits": {
   "total": {
     "value": 4,
     "relation": "eq"
   },
   "max_score": 2.205655,
   "hits": [
     {
       "_index": "products",
       "_id": "3",
       "_score": 2.205655,
       "_source": {
         "id": "3",
         "name": "PlayStation 4 Camera",
         "category": "accessory",
         "brand": "Sony",
         "price": 200
       }
     },
     {
       "_index": "products",
       "_id": "1",
       "_score": 1.9738505,
       "_source": {
         "id": "1",
         "name": "PlayStation 4 Slim 1TB",
         "category": "console",
         "brand": "Sony",
         "price": 1200
       }
     },
     {
       "_index": "products",
       "_id": "4",
       "_score": 1.9738505,
       "_source": {
         "id": "4",
         "name": "PlayStation 4 VR Headset",
         "category": "accessory",
         "brand": "Sony",
         "price": 900
       }
     },
     {
       "_index": "products",
       "_id": "5",
       "_score": 0.69247496,
       "_source": {
         "id": "5",
         "name": "Charging Station for DualShock 4",
         "category": "accessory",
         "brand": "Sony",
         "price": 80
       }
     }
   ]
 }
}
结论
查询规则使调整相关性变得非常容易，无需修改任何代码。新的Kibana UI 允许 在几秒钟内做出这些更改，让您和您的业务团队对搜索结果拥有更多控制权。
除电子商务外，查询规则还能支持许多其他应用场景：在支持门户中突出显示故障排除指南，在知识库中显示关键的内部文档，在新闻网站中宣传突发事件，或过滤掉过期的职位或内容列表。它们甚至可以执行合规规则，如根据用户角色或地区隐藏受限资料。


使用 Mastra 和 Elasticsearch 构建具有语义召回功能的知识代理
JD Armada — Thu, 06 Nov 2025 00:00:00 GMT
在构建可靠的人工智能代理和架构方面，情境工程正变得越来越重要。随着模型越来越完善，其有效性和可靠性已不再依赖于训练有素的数据，而更多地取决于模型在正确环境中的立足程度。能够在正确的时间检索和应用最相关信息的代理更有可能产生准确和可信的输出结果。
在本博客中，我们将使用Mastra构建一个知识代理，它能记住用户所说的话，并能在稍后调用相关信息，使用 Elasticsearch 作为记忆和检索后端。您可以轻松地将这一概念扩展到现实世界的使用案例中，例如，支持代理可以记住过去的对话和解决方案，使他们能够根据先前的上下文为特定用户定制响应或更快地提供解决方案。
在这里，您将看到如何一步一步地建造它。如果你迷失了方向，或者只是想运行一个已完成的示例，请点击此处查看软件仓库。
什么是 Mastra？
Mastra 是一个开源的 TypeScript 框架，用于构建具有可交换推理、内存和工具部分的人工智能代理。它的语义调用功能通过将信息作为嵌入信息存储在向量数据库中，使代理能够记住和检索过去的互动。这样，代理就能保留长期对话的上下文和连续性。Elasticsearch 支持高效的密集矢量搜索，是实现这一功能的绝佳矢量存储工具。当触发语义调用时，代理会将过去的相关信息拉入模型的上下文窗口，使模型能够将检索到的上下文作为其推理和响应的基础。
入门必备
节点 v18+
Elasticsearch（8.15 或更新版本）
Elasticsearch API 密钥
OpenAI API 密钥
注意：您需要这个是因为演示使用了 OpenAI 提供商，但 Mastra 支持其他人工智能 SDK 和社区模型提供商，因此您可以根据自己的设置轻松更换。
构建 Mastra 项目
我们将使用 Mastra 内置的 CLI 为我们的项目提供脚手架。运行该命令：
npm create mastra@latest
您将收到一组提示，首先是
1.为项目命名。
2.我们可以保留默认值，也可以不填。
3.在本项目中，我们将使用 OpenAI 提供的模型。
4.选择 "暂时跳过 "选项，因为我们将把所有环境变量存储在一个".env "文件中，稍后再进行配置。
5.我们也可以跳过该选项。
初始化完成后，我们就可以进入下一步。
安装依赖项
接下来，我们需要安装一些依赖项：
npm install ai @ai-sdk/openai @elastic/elasticsearch dotenv
ai - 核心人工智能 SDK 软件包，提供用于在 JavaScript/TypeScript 中管理人工智能模型、提示和工作流程的工具。Mastra 是在 Vercel 的人工智能 SDK基础上构建的，因此我们需要依赖它来实现模型与代理的交互。
@ai-sdk/openai - 将 AI SDK 连接到 OpenAI 模型（如 GPT-4、GPT-4o 等）的插件，可使用 OpenAI API 密钥进行 API 调用。
@elastic/elasticsearch -Node.js 的官方 Elasticsearch 客户端、用于连接到弹性云或本地集群，以进行索引、搜索和矢量操作。
dotenv - 从 .env 文件中加载环境变量文件到 process.env 文件中、允许您安全地注入 API 密钥和 Elasticsearch 端点等凭证。
配置环境变量
如果还没有.env 文件，请在项目根目录下创建该文件。或者，你也可以复制并重命名我在软件仓库中提供的.env 示例。在该文件中，我们可以添加以下变量：
ELASTICSEARCH_ENDPOINT="your-endpoint-here"
ELASTICSEARCH_API_KEY="your-key-here"
OPENAI_API_KEY="your-key-here"
基本设置到此结束。从这里，您就可以开始构建和协调代理。我们将更进一步，添加 Elasticsearch 作为存储和矢量搜索层。
添加 Elasticsearch 作为向量存储
新建一个名为stores 的文件夹，并在其中添加此文件。在 Mastra 和 Elastic 正式推出 Elasticsearch 向量存储集成之前，Abhi Aiyer（Mastra 首席技术官）分享了名为ElasticVector 的早期原型类。简单地说，它将 Mastra 的内存抽象与 Elasticsearch 的密集向量功能连接起来，因此开发人员可以将 Elasticsearch 作为其代理的向量数据库。
让我们深入了解整合的重要部分：
输入 Elasticsearch 客户端
本节定义了ElasticVector 类，并设置了 Elasticsearch 客户端连接，同时支持标准部署和无服务器部署。
export interface ElasticVectorConfig extends ClientOptions {
    /**
     * Explicitly specify if connecting to Elasticsearch Serverless.
     * If not provided, will be auto-detected on first use.
     */
    isServerless?: boolean;
    
    /**
     * Maximum documents to count accurately when describing indices.
     * Higher values provide accurate counts but may impact performance on large indices.
     * 
     * @default 10000
     */
    maxCountAccuracy?: number;
}

export class ElasticVector extends MastraVector {
    private client: Client;
    private isServerless: boolean | undefined;
    private deploymentChecked: boolean = false;
    private readonly maxCountAccuracy: number;

    constructor(config: ElasticVectorConfig) {
        super();
        this.client = new Client(config);
        this.isServerless = config.isServerless;
        this.maxCountAccuracy = config.maxCountAccuracy ?? 10000;
    }
}
ElasticVectorConfig extends ClientOptions:这将创建一个新的配置接口，继承所有 Elasticsearch 客户端选项（如node,auth,requestTimeout ）并添加我们的自定义属性。这意味着用户可以通过任何有效的 Elasticsearch 配置和我们的无服务器特定选项。
extends MastraVector:这样，ElasticVector 就可以继承 Mastra 的基础MastraVector 类，这是所有矢量存储集成都要遵守的通用接口。这可以确保从代理的角度来看，Elasticsearch 的行为与其他任何 Mastra 向量后端一样。
private client: Client:这是一个私有属性，用于保存 Elasticsearch JavaScript 客户端的实例。这样，班级就可以直接与群集对话。
isServerless 和deploymentChecked ：这些属性共同作用，以检测和缓存我们连接的是无服务器还是标准 Elasticsearch 部署。首次使用时会自动检测，也可以明确配置。
constructor(config: ClientOptions):该构造函数接收一个配置对象（包含 Elasticsearch 凭据和可选的无服务器设置），并使用它在this.client = new Client(config) 行中初始化客户端。
super():它调用 Mastra 的基本构造函数，因此继承了日志记录、验证助手和其他内部钩子。
此时，Mastra 知道有一个名为 ElasticVector
检测部署类型
在创建索引之前，适配器会自动检测您使用的是标准 Elasticsearch 还是 Elasticsearch Serverless。这一点很重要，因为无服务器部署不允许手动配置分片。
private async detectServerless(): Promise {
    // Return cached result if already detected
    if (this.deploymentChecked) {
        return this.isServerless ?? false;
    }

    // Use explicit configuration if provided
    if (this.isServerless !== undefined) {
        this.deploymentChecked = true;
        this.logger?.info(
            `Using explicit deployment type: ${this.isServerless ? 'Serverless' : 'Standard'}`
        );
        return this.isServerless;
    }

    try {
        const info = await this.client.info();
        
        // Primary detection: build flavor (most reliable)
        const isBuildFlavorServerless = info.version?.build_flavor === 'serverless';
        
        // Secondary detection: tagline (fallback)
        const isTaglineServerless = info.tagline?.toLowerCase().includes('serverless') ?? false;
        
        this.isServerless = isBuildFlavorServerless || isTaglineServerless;
        this.deploymentChecked = true;
        
        this.logger?.info(
            `Auto-detected ${this.isServerless ? 'Serverless' : 'Standard'} Elasticsearch deployment`,
            { 
                buildFlavor: info.version?.build_flavor, 
                version: info.version?.number,
                detectionMethod: isBuildFlavorServerless ? 'build_flavor' : 'tagline'
            }
        );
        
        return this.isServerless;
    } catch (error) {
        this.logger?.warn(
            'Could not auto-detect deployment type, assuming Standard Elasticsearch. ' +
            'Set isServerless: true explicitly in config if using Serverless.',
            { error: error instanceof Error ? error.message : String(error) }
        );
        this.isServerless = false;
        this.deploymentChecked = true;
        return false;
    }
}
发生了什么？
首先检查您是否在配置中明确设置了isServerless （跳过自动检测）。
调用 Elasticsearch 的info() API 获取群集信息
检查build_flavor field （无服务器部署返回serverless)
如果没有 "构建味道"，则退回到检查标语阶段
缓存结果，避免重复调用应用程序接口
如果检测失败，则默认为标准部署
 使用示例
// Option 1: Auto-detect (recommended)
const vector = new ElasticVector({
    node: 'https://your-cluster.es.cloud',
    auth: { apiKey: 'your-api-key' }
});
// Detection happens automatically on first index operation

// Option 2: Explicit configuration (faster startup)
const vector = new ElasticVector({
    node: 'https://your-serverless.es.cloud',
    auth: { apiKey: 'your-api-key' },
    isServerless: true  // Skips auto-detection
});
在 Elasticsearch 中创建 "内存 "存储
下面的函数设置了一个 Elasticsearch 索引，用于存储嵌入式内容。它会检查索引是否已经存在。如果没有，它就会用下面的映射创建一个，其中包含一个dense_vector 字段，用于存储嵌入和自定义相似度度量。
有些事情需要注意：
dimension 参数是每个嵌入向量的长度，这取决于你使用的嵌入模型。在我们的例子中，我们将使用 OpenAI 的text-embedding-3-small 模型生成嵌入，该模型输出大小为1536 的向量。我们将以此作为默认值。
下面的映射中使用的similarity 变量是由辅助函数 const similarity = this.mapMetricToSimilarity(metric) 定义的，该函数接收metric 参数的值，并将其转换为与 Elasticsearch 兼容的关键字，用于所选的距离度量。例如Mastra 使用cosine,euclidean, 和dotproduct 等一般术语来表示向量相似性。如果我们直接将度量euclidean 传递到 Elasticsearch 映射中，就会出现错误，因为 Elasticsearch 希望关键字l2_norm 代表欧氏距离。
无服务器兼容性：代码会自动省略无服务器部署的分片和副本设置，因为 Elasticsearch Serverless 会自动管理这些设置。
async createIndex(params: CreateIndexParams): Promise {
    const { indexName, dimension = 1536, metric = 'cosine' } = params;

    try {
        const exists = await this.client.indices.exists({ index: indexName });

        if (exists) {
            try {
                await this.validateExistingIndex(indexName, dimension, metric);
                this.logger?.info(`Index "${indexName}" already exists and is valid`);
                return;
            } catch (validationError) {
                throw new Error(
                    `Index "${indexName}" exists but does not match the required configuration: ${
                        validationError instanceof Error ? validationError.message : String(validationError)
                    }`
                );
            }
        }

        const isServerless = await this.detectServerless();
        const similarity = this.mapMetricToSimilarity(metric);

        const indexConfig: any = {
            index: indexName,
            mappings: {
                properties: {
                    vector: {
                        type: 'dense_vector',
                        dims: dimension,
                        index: true,
                        similarity: similarity,
                    },
                    metadata: {
                        type: 'object',
                        enabled: true,
                        dynamic: true, // Allows flexible metadata structures
                    },
                },
            },
        };

        // Only configure shards/replicas for non-serverless deployments
        // Serverless manages infrastructure automatically
        if (!isServerless) {
            indexConfig.settings = {
                number_of_shards: 1,
                number_of_replicas: 0, // Increase for production HA deployments
            };
        }

        await this.client.indices.create(indexConfig);

        this.logger?.info(
            `Created ${isServerless ? 'Serverless' : 'Standard'} Elasticsearch index "${indexName}"`,
            { dimension, metric, similarity }
        );
    } catch (error) {
        const errorMessage = error instanceof Error ? error.message : String(error);
        this.logger?.error(`Failed to create index "${indexName}": ${errorMessage}`);
        throw new Error(`Failed to create index "${indexName}": ${errorMessage}`);
    }
}
互动后存储新的记忆或笔记
该函数接收每次交互后生成的新嵌入以及元数据，然后使用 Elastic 的bulk API 将其插入或更新到索引中。bulk API 将多个写入操作合并为一个请求；索引性能的提升确保了在代理内存不断增长的情况下，更新仍能保持高效。
async upsert(params: UpsertVectorParams): Promise {
    const { indexName, vectors, metadata = [], ids } = params;

    try {
        // Generate unique IDs if not provided
        const vectorIds = ids || vectors.map((_, i) => 
            `vec_${Date.now()}_${i}_${Math.random().toString(36).substr(2, 9)}`
        );

        const operations = vectors.flatMap((vec, index) => [
            { index: { _index: indexName, _id: vectorIds[index] } },
            {
                vector: vec,
                metadata: metadata[index] || {},
            },
        ]);

        const response = await this.client.bulk({
            refresh: true,
            operations,
        });

        if (response.errors) {
            const erroredItems = response.items.filter((item: any) => item.index?.error);
            const erroredIds = erroredItems.map((item: any) => item.index?._id);
            const errorDetails = erroredItems.slice(0, 3).map((item: any) => ({
                id: item.index?._id,
                error: item.index?.error?.reason || item.index?.error,
                type: item.index?.error?.type
            }));
            
            const errorMessage = `Failed to upsert ${erroredIds.length}/${vectors.length} vectors`;
            console.error(`${errorMessage}. Sample errors:`, JSON.stringify(errorDetails, null, 2));
            this.logger?.error(errorMessage, { 
                failedCount: erroredIds.length, 
                totalCount: vectors.length,
                sampleErrors: errorDetails 
            });
            
            // Still return successfully inserted IDs
            const successfulIds = vectorIds.filter((id, idx) => 
                !erroredIds.includes(id)
            );
            
            if (successfulIds.length === 0) {
                throw new Error(`${errorMessage}. All operations failed. See logs for details.`);
            }
            
            return successfulIds;
        }

        this.logger?.info(`Successfully upserted ${vectors.length} vectors to "${indexName}"`);
        return vectorIds;
    } catch (error) {
        const errorMessage = error instanceof Error ? error.message : String(error);
        this.logger?.error(`Failed to upsert vectors to "${indexName}": ${errorMessage}`);
        throw new Error(`Failed to upsert vectors to "${indexName}": ${errorMessage}`);
    }
}
查询相似向量以实现语义召回
该功能是语义召回功能的核心。代理使用向量搜索，在我们的索引中找到类似的存储嵌入。
async query(params: QueryVectorParams): Promise {
    const { indexName, queryVector, topK = 10, filter, includeVector = false } = params;

    try {
        const knnQuery: any = {
            field: 'vector',
            query_vector: queryVector,
            k: topK,
            num_candidates: Math.max(topK * 10, 100), // Search more candidates for better recall
        };

        // Apply metadata filters if provided
        if (filter) {
            knnQuery.filter = this.buildElasticFilter(filter);
        }

        const sourceFields = ['metadata'];
        if (includeVector) {
            sourceFields.push('vector');
        }

        const response = await this.client.search({
            index: indexName,
            knn: knnQuery,
            size: topK,
            _source: sourceFields,
        });

        const results = response.hits.hits.map((hit: any) => ({
            id: hit._id,
            score: hit._score || 0,
            metadata: hit._source?.metadata || {},
            vector: includeVector ? hit._source?.vector : undefined,
        }));

        this.logger?.debug(`Query returned ${results.length} results from "${indexName}"`);
        return results;
    } catch (error) {
        const errorMessage = error instanceof Error ? error.message : String(error);
        this.logger?.error(`Failed to query vectors from "${indexName}": ${errorMessage}`);
        throw new Error(`Failed to query vectors from "${indexName}": ${errorMessage}`);
    }
}
引擎盖下
使用 Elasticsearch 中的knn API 运行kNN（k-近邻）查询。
检索与输入查询向量最相似的 K 个向量。
可选择应用元数据过滤器来缩小搜索结果范围（例如，仅在特定类别或时间范围内进行搜索）
返回结构化结果，包括文档 ID、相似性得分和存储的元数据。
创建知识代理
现在，我们已经通过ElasticVector 集成看到了 Mastra 和 Elasticsearch 之间的连接，让我们来创建知识代理本身。
在agents 文件夹中，创建一个名为knowledge-agent.ts 的文件。我们可以从连接环境变量和初始化 Elasticsearch 客户端开始。
import { Agent } from '@mastra/core/agent';
import { Memory } from '@mastra/memory';
import { openai } from '@ai-sdk/openai';
import { Client } from '@elastic/elasticsearch';
import { ElasticVector } from '../stores/elastic-store';
import dotenv from "dotenv";

dotenv.config();

const ELASTICSEARCH_ENDPOINT = process.env.ELASTICSEARCH_ENDPOINT;
const ELASTICSEARCH_API_KEY = process.env.ELASTICSEARCH_API_KEY;

//Error check for undefined credentials
if (!ELASTICSEARCH_ENDPOINT || !ELASTICSEARCH_API_KEY) {
  throw new Error('Missing Elasticsearch credentials');
}

//Check to see if a connection can be established
const testClient = new Client({
  node: ELASTICSEARCH_ENDPOINT,
  auth: { 
    apiKey: ELASTICSEARCH_API_KEY 
  },
});

try {
  await testClient.ping();
  console.log('Connected to Elasticsearch successfully');
} catch (error: unknown) {
  if (error instanceof Error) {
    console.error('Failed to connect to Elasticsearch:', error.message);
  } else {
    console.error('Failed to connect to Elasticsearch:', error);
  }
  process.exit(1);
}
//Initialize the Elasticsearch vector store
const vectorStore = new ElasticVector({
  node: ELASTICSEARCH_ENDPOINT,
  auth: {
    apiKey: ELASTICSEARCH_API_KEY,
  },
//Optional: Explicitly set to true if using Elasticsearch Serverless to skip auto-detection and improve startup time
//isServerless: true,
});
在这里，我们
使用dotenv 从.env 文件中加载变量。
检查 Elasticsearch 凭据是否被正确注入，我们是否能成功建立与客户端的连接。
在ElasticVector 构造函数中输入 Elasticsearch 端点和 API 密钥，以创建我们之前定义的向量存储实例。
如果使用 Elasticsearch Serverless，可选择指定isServerless: true 。这样可以跳过自动检测步骤，缩短启动时间。如果省略，适配器将在首次使用时自动检测您的部署类型。
接下来，我们可以使用 Mastra 的Agent 类来定义代理。
export const knowledgeAgent = new Agent({
    name: 'KnowledgeAgent',
    instructions: 'You are a helpful knowledge assistant.',
    model: openai('gpt-4o'),
    memory: new Memory({

        vector: vectorStore,

        //embedder used to create embeddings for each message
        embedder: 'openai/text-embedding-3-small',

        //set semantic recall options
        options: {
            semanticRecall: {
                topK: 3, // retrieve 3 similar messages
                messageRange: 2, // include 2 messages before/after each match
                scope: 'resource',
            },
        },
    }),
});
我们可以定义的字段有
name 和instructions ：赋予其特性和主要功能。
model:我们通过@ai-sdk/openai 软件包使用 OpenAI 的gpt-4o 。
memory:vector:指向我们的 Elasticsearch 存储库，因此嵌入式会从那里存储和检索。
embedder:使用哪种模型生成嵌入模型
semanticRecall 选项决定召回如何进行：topK:检索多少条语义相似的信息。
messageRange:每场比赛应包括多少对话内容。
scope:定义内存边界。
快好了我们只需将新创建的代理添加到 Mastra 配置中。在名为index.ts 的文件中，导入知识代理并将其插入agents 字段。
export const mastra = new Mastra({
  agents: { knowledgeAgent },
  storage: new LibSQLStore({
    // stores observability, scores, ... into memory storage, if it needs to persist, change to file:../mastra.db
    url: ":memory:",
  }),
  logger: new PinoLogger({
    name: 'Mastra',
    level: 'info',
  }),
  telemetry: {
    // Telemetry is deprecated and will be removed in the Nov 4th release
    enabled: false, 
  },
  observability: {
    // Enables DefaultExporter and CloudExporter for AI tracing
    default: { enabled: true }, 
  },
});
其他领域包括
storage:这是 Mastra 的内部数据存储，用于存储运行历史、可观察性指标、分数和缓存。有关 Mastra 存储的更多信息，请访问此处。
logger:Mastra 使用Pino，这是一个轻量级结构化 JSON 日志记录器。它可捕捉代理启动和停止、工具调用和结果、错误以及 LLM 响应时间等事件。
observability:控制人工智能跟踪和代理执行的可见性。它可以跟踪每个推理步骤的开始/结束。
使用了哪种模式或工具。
输入和输出。
分数和评估
使用 Mastra Studio 测试代理
祝贺你如果您已经到达这里，那么您就可以运行这个代理，测试它的语义回忆能力了。幸运的是，Mastra 提供了一个内置的聊天用户界面，这样我们就不必自己创建了。
要启动 Mastra 开发服务器，请打开终端并运行以下命令：
npm run dev
在初始捆绑和启动服务器后，它应该会为你提供一个 Playground 的地址。
将此地址粘贴到浏览器中，您将看到 Mastra Studio。
选择knowledgeAgent ，然后开始聊天。
为了快速测试一切接线是否正确，请给它提供一些信息，如 "团队宣布 10 月份的销售业绩增长了 12% ，主要是由企业续订驱动的。下一步是扩大对中端市场客户的拓展"。下一步，开始新的聊天，并提问："我们说过下一步需要关注哪个客户群？知识代理应该能够回忆起您在第一次聊天中提供给它的信息。您应该会看到类似的回复：
看到这样的响应，意味着代理成功地将我们之前的信息以嵌入的形式存储在 Elasticsearch 中，并在稍后使用向量搜索进行检索。
检查代理的长期记忆存储
在 Mastra Studio 的代理配置中，前往memory 选项卡。这可以让您了解您的代理随着时间的推移学到了什么。嵌入并存储在 Elasticsearch 中的每一条消息、响应和交互都会成为长期记忆的一部分。您可以对过去的交互进行语义搜索，以快速找到代理之前了解到的信息或上下文。这与代理在语义回想时使用的机制基本相同，但在这里你可以直接检查它。在下面的示例中，我们搜索 "销售 "一词，并返回所有包含销售内容的互动。
结论
通过连接 Mastra 和 Elasticsearch，我们可以为代理提供内存，这是上下文工程的关键层。有了语义记忆功能，代理可以随着时间的推移建立上下文，将他们的反应建立在所学知识的基础上。这意味着更准确、更可靠、更自然的互动。
早期的整合只是一个起点。同样的模式可以让支持代理记住过去的票单，让内部机器人检索相关文档，或者让人工智能助理在对话中回忆起客户的详细信息。我们还在努力实现与 Mastra 的正式集成，以便在不久的将来使这种搭配更加完美。
我们很期待看到您的下一个作品。试试吧，探索Mastra及其内存功能，并随时与社区分享您的发现。


利用 Elasticsearch 和 SigLIP-2 对山峰进行多模式搜索 
Navneet Kumar — Tue, 04 Nov 2025 00:00:00 GMT
您是否曾想过按含义搜索相册？试着询问 "给我看我穿着蓝色夹克坐在长椅上的照片"、"给我看珠穆朗玛峰的照片 "或 "清酒和寿司"。喝杯咖啡（或您最喜欢的饮料），继续阅读。在本博客中，我们将向您展示如何构建多模态混合搜索应用程序。多模态是指应用程序可以理解和搜索不同类型的输入（文本、图像和音频），而不仅仅是文字。混合式意味着它结合了关键词匹配、kNN 向量搜索和地理围栏等技术，以提供更清晰的结果。
为此，我们使用谷歌的 SigLIP-2 为图像和文本生成矢量嵌入，并将其存储在 Elasticsearch 矢量数据库中。在查询时，我们将搜索输入（文本或图像）转换为嵌入，并运行快速的 kNN 向量搜索来检索结果。这种设置可实现高效的文本到图像和图像到图像搜索。Streamlit 用户界面为我们提供了一个前端，不仅可以进行基于文本的搜索，从相册中查找并查看匹配的照片，还可以从上传的图片中识别山峰，并查看相册中该山峰的其他照片，从而使该项目栩栩如生。我们还介绍了为提高搜索准确性而采取的措施，以及实用技巧和窍门。为便于进一步探索，我们提供了GitHub 存储库和Colab 笔记本。
如何开始
这篇博文的灵感来自于一个 10 岁的孩子，他让我给他们看我在珠峰大本营徒步旅行时拍摄的阿玛达布拉姆山的所有照片。在翻阅相册时，我还被要求辨认其他几座山峰，其中一些我还叫不出名字。
这让我想到，这可以成为一个有趣的计算机视觉项目。我们的目标
按名称查找山峰图片
从图片中猜测山峰名称，并在相册中找到类似的山峰
让概念查询发挥作用（人、河流、祈祷旗 等）
组建梦之队：SigLIP-2、Elasticsearch& Streamlit
很快我们就发现，要想实现这一目标，我们需要将文字（"阿玛达布拉姆"）和图像（我相册中的照片）都转化为可以进行有意义比较的矢量，即在同一个矢量空间中。一旦我们做到了这一点，搜索就只是 "寻找最近的邻居"。
Unknown block type "block", specify a component for it in the `components.types` option
谷歌最近发布的SigLIP-2 在这方面非常适合。它可以在没有特定任务训练的情况下生成嵌入式（零镜头设置），并能很好地适用于我们的使用案例：未标记的照片和具有不同名称和语言的山峰。由于它是针对文本与图像匹配进行训练的，因此即使查询语言或拼写不同，徒步旅行中的山峰图片和简短的文字提示最终也能接近嵌入。
SigLIP-2 在质量与速度之间实现了很好的平衡，支持多种输入分辨率，并可在 CPU 和 GPU 上运行。SigLIP-2 在设计上比以前的型号（如最初的 CLIP）更适合户外拍摄。在我们的测试中，SigLIP-2 始终能生成可靠的结果。此外，它还得到了很好的支持，因此是本项目的不二之选。
接下来，我们需要一个向量数据库来存储嵌入和强力搜索。它不仅应支持对图像嵌入进行余弦 kNN 搜索，还应在单个查询中应用地理围栏和文本过滤器。Elasticsearch 在这方面非常适合：它能很好地处理向量（在 dense_vector 字段上使用 HNSW kNN），支持结合文本、向量和地理查询的混合搜索，并提供开箱即用的过滤和排序功能。它还可以横向扩展，因此很容易从少量照片扩展到数千张照片。最后，我们需要一个轻量级前端，以便输入搜索查询并查看结果。对于基于 Python 的快速演示，Streamlit 非常适合。它提供了我们所需的基本功能--文件上传、响应式图像网格以及用于排序和地理围栏的下拉菜单。它很容易克隆并在本地运行，也可以在 Colab 笔记本中使用。
实施
Elasticsearch 索引设计和索引策略
我们将在这个项目中使用两个索引：peaks_catalog 和photos 。
峰值_目录索引
该索引是珠峰大本营徒步旅行期间可看到的著名山峰的简明目录。该索引中的每份文件都对应一座山峰，如珠穆朗玛峰。对于每个山峰文档，我们都会存储名称/别名、可选的经纬度坐标以及由 SigLIP-2 文本提示（+ 可选的参考图片）混合而成的单一原型向量。
索引映射：
            
              
                
                    
                      现场 类型 示例 目的/说明 矢量/索引
                    
                    
                      本我 关键词 阿玛-达布拉姆 稳定的弹头/ID -
                    
                    
                      姓名 文本 + 关键字子字段 ["Ama Dablam","Amadablam"] 别名/多语言名称；names.raw 用于精确筛选 -
                    
                    
                      纬纶 地理点 {"lat":27.8617,"lon":86.8614} 以经纬度组合形式显示的山顶 GPS 坐标（可选） -
                    
                    
                      海拔_m 整数 6812 海拔（可选） -
                    
                    
                      嵌入文本 dense_vector 768 该山峰的混合原型（提示和可选的 1-3 幅参考图片 index:true, similarity:"cosine", index_options：{type:"hnsw", m:16, ef_construction:128}
                    
              
            
          该索引主要用于图像到图像的搜索，例如从图像中识别山峰。我们还使用该索引来增强文本到图片的搜索结果。
总之，peaks_catalog 将问题""这是什么山？" "转化为一个重点突出的 "最近邻问题"，有效地将概念理解与图像数据的复杂性分离开来。
peaks_catalog 索引的索引策略： 首先，我们创建了一份在 EBC 徒步旅行中可见的最突出山峰的列表。对于每个山峰，我们都会在yaml 文件中存储其地理位置、名称、同义词和海拔高度。下一步是 生成 每个峰值的 嵌入 值，并将其存储在text_embed 字段中。为了生成稳健的嵌入，我们使用了以下技术：
创建文本原型：山峰名称
提示组合（使用多个不同的提示来尝试回答同一个问题），例如"尼泊尔喜马拉雅山脉山峰的自然照片{name} "
"{name} 昆布地区的地标性山峰，高山景观"
"{name} 山顶，积雪，岩石山脊线"
可选的反概念（告诉 SigLIP-2 什么不能匹配）：为 "绘画、插图、海报、地图、徽标 "减去一个小矢量，这样我们就偏向于真实照片。
如果提供了峰值的参考图像，可选择创建图像原型。
然后，我们混合文本和图像原型，生成最终的嵌入。最后，文件将被索引到所有必填字段：
def l2norm(v: np.ndarray) -> np.ndarray:
    return v / (np.linalg.norm(v) + 1e-12)
def compute_blended_peak_vec(
        emb: Siglip2,
        names: List[str],
        peak_id: str,
        peaks_images_root: str,
        alpha_text: float = 0.5,
        max_images: int = 3,
) -> Tuple[np.ndarray, int, int, List[str]]:
    """
    Build blended vector for a single peak.

    Returns:
      vec           : np.ndarray (L2-normalized)
      found_count   : number of reference images discovered
      used_count    : number of references used (<= max_images)
      used_filenames: list of filenames used (for logging)
    """
    # 1) TEXT vector
    tv = embed_text_blend(emb, names)

    # 2) IMAGE refs: prefer folder by id; fallback to slug of the primary name
    root = Path(peaks_images_root)
    candidates = [root / peak_id]
    if names:
        candidates.append(root / slugify(names[0]))

    all_refs: List[Path] = []
    for c in candidates:
        if c.exists() and c.is_dir():
            all_refs = list_ref_images(c)
            if all_refs:
                break

    found = len(all_refs)
    used_list = all_refs[:max_images] if (max_images and found > max_images) else all_refs
    used = len(used_list)

    img_v = embed_image_mean(emb, used_list) if used_list else None

    # 3) Blend TEXT and IMAGE vectors, clamp alpha to [0,1]
    a = max(0.0, min(1.0, float(alpha_text)))
    vec = l2norm(tv if img_v is None else (a * tv + (1.0 - a) * img_v)).astype("float32")
    return vec, found, used, [p.name for p in used_list]
peaks_catalog 索引中的文件样本：
照片索引
该主索引存储相册中所有照片的详细信息。每份文档代表一张照片，包含以下信息：
相册中照片的相对路径。可用于查看匹配图像或在搜索用户界面中加载图像。
图片的 GPS 和时间信息。
SigLIP-2 生成的图像编码密集矢量。
predicted_peaks 可让我们根据峰名进行筛选。索引映射
            
              
                
                    
                      现场 类型 示例 目的/说明 矢量/索引
                    
                    
                      路径 关键词 data/images/IMG_1234.HEIC 用户界面如何打开缩略图/全图 -
                    
                    
                      剪贴图片 dense_vector 768 SigLIP-2 图像嵌入 index:true, similarity:"cosine", index_options：{type:"hnsw", m:16, ef_construction:128}
                    
                    
                      预测峰值 关键词 ["ama-dablam","pumori"] 索引时的 Top-K 猜想（廉价用户体验过滤器/面） -
                    
                    
                      全球定位系统 地理点 {"lat":27.96,"lon":86.83} 启用地理筛选器 -
                    
                    
                      拍摄时间 date 2023-10-18T09:41:00Z 捕捉时间：排序/过滤 -
                    
              
            
          照片索引的索引策略： 对于相册中的每张照片，我们会采取以下措施：
从图像元数据中提取图像shot_time 和gps 信息。
SigLIP-2 图像嵌入：通过模型传递图像并对向量进行 L2 归一化。将嵌入内容存储在clip_image 字段中。
预测峰值并将其存储在predicted_peaks 字段中。为此，我们首先获取上一步生成的照片图像向量，然后针对peaks_catalog 索引中的 text_embed 字段快速运行 kNN 搜索。我们保留顶部的 3-4 个山峰，忽略其余的。
我们通过对图片名称和路径进行散列计算_id 字段。这可以确保我们在多次运行后不会出现重复。
一旦我们确定了照片的所有字段，就会使用 批量 索引对照片文件进行 批量 索引：
def bulk_index_photos(
        es: Elasticsearch,
        images_root: str,
        photos_index: str = "photos",
        peaks_index: str = "peaks_catalog",
        topk_predicted: int = 5,
        batch_size: int = 200,
        refresh: str = "false",
) -> None:
    """Walk a folder of images, embed + enrich, and bulk index to Elasticsearch."""
    root = Path(images_root)
    if not root.exists():
        raise SystemExit(f"Images root not found: {images_root}")

    emb = Siglip2()
    batch: List[Dict[str, Any]] = []
    n_indexed = 0

    for p in iter_images(root):
        rel = relpath_within(root, p)
        _id = id_for_path(rel)

        # 1) Image embedding (and reuse it for predicted_peaks)
        try:
            with Image.open(p) as im:
                ivec = emb.image_vec(im.convert("RGB")).astype("float32")
        except (UnidentifiedImageError, OSError) as e:
            print(f"[skip] {rel} — cannot embed: {e}")
            continue

        # 2) Predict top-k peak names
        try:
            top_names = predict_peaks(es, ivec.tolist(), peaks_index=peaks_index, k=topk_predicted)
        except Exception as e:
            print(f"[warn] predict_peaks failed for {rel}: {e}")
            top_names = []

        # 3) EXIF enrichment (safe)
        gps = get_gps_decimal(str(p))
        shot = get_shot_time(str(p))

        # 4) Build doc and stage for bulk
        doc = {"path": rel, "clip_image": ivec.tolist(), "predicted_peaks": top_names}
        if gps:
            doc["gps"] = gps
        if shot:
            doc["shot_time"] = shot

        batch.append(
            {"_op_type": "index", "_index": photos_index, "_id": _id, "_source": doc}
        )

        # 5) Periodic flush
        if len(batch) >= batch_size:
            helpers.bulk(es, batch, refresh=refresh)
            n_indexed += len(batch)
            print(f"[photos] indexed {n_indexed} (last: {rel})")
            batch.clear()

    # Final flush
    if batch:
        helpers.bulk(es, batch, refresh=refresh)
        n_indexed += len(batch)
        print(f"[photos] indexed {n_indexed} total.")

    print("[done] photos indexing")
照片索引中的样本文件：
总之，照片索引是相册中所有照片的快速、可过滤、kNN 就绪存储。它的映射结构非常简单，只需足够的结构就能快速检索、清晰显示，并按空间和时间对结果进行切分。该索引可同时满足这两种搜索用途。创建这两个索引的 Python 脚本可在此处找到。
下面的 Kibana 地图可视化将相册中的文档显示为绿色圆点，将peaks_catalog 索引中的山峰显示为红色三角形，其中绿色圆点与珠峰大本营徒步路线非常吻合。
搜索用例
按名称搜索（文本到图像）：该功能可让用户使用文本查询查找山峰照片（甚至是 "祈祷旗 "等抽象概念）。为此，使用 SigLIP-2 将文本输入转换为文本向量。为了生成稳健的文本向量，我们采用了与在peaks_catalog 索引中创建文本嵌入相同的策略： 将 文本输入与小型 提示集合 相结合 ，减去次要的 反概念向量 ，并应用 L2 归一化 生成最终的查询向量。然后在photos.clip_image 字段上执行 kNN查询，根据余弦相似度检索匹配度最高的峰值，从而找到最接近的图像。作为查询的一部分，还可选择应用地理和日期筛选器和/或photos.predicted_peaks 术语筛选器来提高搜索结果的相关性（见下文查询示例）。这有助于排除在徒步过程中看不到的相似山峰。
带有地理过滤器的 Elasticsearch 查询：
POST photos/_search
{
  "knn": {
    "field": "clip_image",
    "query_vector": [ ... ],
    "k": 60,
    "num_candidates": 2000
  },
  "query": {
    "bool": {
      "filter": [
        { "geo_bounding_box": { "gps": { "top_left": "...", "bottom_right": "..." } } }
      ]
    }
  },
  "_source": ["path","predicted_peaks","gps","shot_time"]
}

Response (first two documents):
{
 "hits": {
   "total": {
     "value": 56,
     "relation": "eq"
   },
   "max_score": 0.5779596,
   "hits": [
     {
       "_index": "photos",
       "_id": "d01da3a1141981486c3493f6053c79e92a788463",
       "_score": 0.5779596,
       "_source": {
         "path": "IMG_2738.HEIC",
         "predicted_peaks": [
           "Pumori",
           "Kyajo Ri",
           "Khumbila",
           "Nangkartshang",
           "Kongde Ri"
         ],
         "gps": {
           "lat": 27.97116388888889,
           "lon": 86.82331111111111
         },
         "shot_time": "2023-11-03T08:07:13"
       }
     },
     {
       "_index": "photos",
       "_id": "c79d251f07adc5efaedc53561110a7fd78e23914",
       "_score": 0.5766071,
       "_source": {
         "path": "IMG_2761.HEIC",
         "predicted_peaks": [
           "Kyajo Ri",
           "Makalu",
           "Baruntse",
           "Cho Oyu",
           "Khumbila"
         ],
         "gps": {
           "lat": 27.975558333333332,
           "lon": 86.82515
         },
         "shot_time": "2023-11-03T08:51:08"
       }
     }
}
按图像搜索（图像到图像）：通过该功能，我们可以识别照片中的某座山，并在相册中查找该座山的其他图像。图像上传后，将由 SigLIP-2 图像编码器处理，生成图像矢量。然后在peaks_catalog.text_embed 字段上进行kNN 搜索，以确定最匹配的峰值名称。随后，根据这些匹配的山峰名称 生成 一个 文本向量 ，并在照片索引中进行另一次 kNN 搜索 ，以找到相应的照片。
Elasticsearch 查询：
第 1 步：找到匹配的山峰名称
GET peaks_catalog/_search
{
 "knn": {
   "field": "text_embed",
   "query_vector": [...image-vector... ],
   "k": 3,
   "num_candidates": 500
 },
 "_source": [
   "id",
   "names",
   "latlon",
   "text_embed"
 ]
}


Response (first two documents):
{
 "took": 2,
 "timed_out": false,
 "_shards": {
   "total": 1,
   "successful": 1,
   "skipped": 0,
   "failed": 0
 },
 "hits": {
   "total": {
     "value": 3,
     "relation": "eq"
   },
   "max_score": 0.58039916,
   "hits": [
     {
       "_index": "peaks_catalog",
       "_id": "pumori",
       "_score": 0.58039916,
       "_source": {
         "id": "pumori",
         "names": [
           "Pumori",
           "Pumo Ri"
         ],
         "latlon": {
           "lat": 28.01472,
           "lon": 86.82806
         },
         "text_embed": [
                  ... embeddings...
         ]
       }
     },
     {
       "_index": "peaks_catalog",
       "_id": "kyajo-ri",
       "_score": 0.57942784,
       "_source": {
         "id": "kyajo-ri",
         "names": [
           "Kyajo Ri",
           "Kyazo Ri"
         ],
         "latlon": {
           "lat": 27.909167,
           "lon": 86.673611
         },
         "text_embed": [
           ... embeddings...
         ]
       }
     }
   ]
 }
}
第 2 步：在photos 索引上进行搜索，找到匹配的图片（与文本到图片搜索用例中的查询相同）：
POST photos/_search
{
 "knn": {
   "field": "clip_image",
   "query_vector": [ ...image-vector... ],
   "k": 30,
   "num_candidates": 2000
 },
 "_source": [
   "path",
   "gps",
   "shot_time",
   "predicted_peaks",
   "clip_image"
 ],
 "query": {
   "bool": {
     "filter": [
       {
         "term": {
           "predicted_peaks": "Pumori"
         }
       }
     ]
   }
 }
}


Response (first two documents):
{
 "hits": {
   "total": {
     "value": 56,
     "relation": "eq"
   },
   "max_score": 0.5779596,
   "hits": [
     {
       "_index": "photos",
       "_id": "d01da3a1141981486c3493f6053c79e92a788463",
       "_score": 0.5779596,
       "_source": {
         "path": "IMG_2738.HEIC",
         "predicted_peaks": [
           "Pumori",
           "Kyajo Ri",
           "Khumbila",
           "Nangkartshang",
           "Kongde Ri"
         ],
         "gps": {
           "lat": 27.97116388888889,
           "lon": 86.82331111111111
         },
         "shot_time": "2023-11-03T08:07:13"
       }
     },
     {
       "_index": "photos",
       "_id": "c79d251f07adc5efaedc53561110a7fd78e23914",
       "_score": 0.5766071,
       "_source": {
         "path": "IMG_2761.HEIC",
         "predicted_peaks": [
           "Kyajo Ri",
           "Makalu",
           "Baruntse",
           "Cho Oyu",
           "Khumbila"
         ],
         "gps": {
           "lat": 27.975558333333332,
           "lon": 86.82515
         },
         "shot_time": "2023-11-03T08:51:08"
       }
     }
}
流光 UI
为了将所有功能整合在一起，我们创建了一个简单的 Streamlit 用户界面，让我们可以同时执行两种搜索用例。左侧栏显示可滚动的峰值列表（从photos.predicted_peaks 中汇总），并带有复选框和小地图/地理过滤器。顶部有一个按姓名搜索框和一个从照片上传识别按钮。中心窗格采用响应式缩略图网格，显示 kNN 分数、预测峰值徽章和捕获时间。每张图片都有一个查看图片按钮，用于全分辨率预览。
通过上传图片进行搜索：我们会预测峰值，并从相册中找到匹配的峰值。
文本搜索从文本中查找相册中匹配的峰值
结论
我们能看看 阿玛-达布拉姆 的照片吗？变成了一个可运行的小型多模态搜索系统。我们采集了原始的徒步旅行照片，将其转化为SigLIP-2 嵌入，并使用Elasticsearch对向量进行快速的kNN处理，再加上简单的地理/时间过滤器，根据意义浮现出正确的图像。在此过程中，我们将两个索引的关注点分开：一个是混合原型的小peaks_catalog （用于识别），另一个是图像向量和 EXIF 的可扩展photos 索引（用于检索）。它实用、可复制、易扩展。
如果您想对其进行调整，有几项设置可供使用：
查询时间设置： k （您希望返回多少个邻居）和num_candidates （最终评分前的搜索范围）。这些设置将在此处的博客中讨论。
索引时间设置： m （图形连接性）和ef_construction （构建时间精度与内存）。对于查询，也可以尝试使用ef_search --更高通常意味着更高的召回率，但需要权衡一定的延迟。有关这些设置的更多详情，请参阅本博客。
展望未来，用于多模态和多语言搜索的本地模型/路由器即将登陆 Elastic生态系统，这将使图像/文本检索和混合排名功能更加强大。
如果你想亲自尝试一下：
GitHub 代码库 ： https://github.com/navneet83/multimodal-mountain-peak-search
Colab 快速入门 ：https://github.com/navneet83/multimodal-mountain-peak-search/blob/main/notebooks/multimodal_mountain_peak_search.ipynb
我们的旅程就此结束，是时候飞回去了。希望这对你有帮助，如果你改动（或改进）了它，我很乐意听听你的改动。


利用混合搜索重排提高多语言嵌入模型的相关性
Quynh Nguyen — Mon, 03 Nov 2025 00:00:00 GMT
引言
在本系列的最后一部分，我们介绍了如何部署 Elastic 预训练的 E5 模型（以及 Hugging Face 提供的其他多语言文本嵌入模型），并深入探讨了如何使用 Elasticsearch 和 Kibana 从文本数据中生成密集向量嵌入。在本博客中，我们将研究这些嵌入的结果，并强调利用多语言模型的显著优势。
现在我们已经有了索引coco_multilingual ，执行搜索时将会得到多种语言的文档，其中的 "en "字段可供我们参考：
# GET coco_multilingual/_search
    {
       "_index": "coco_multilingual",
       "_id": "WAiXQJYBgf6odR9bLohZ",
       "_score": 1,
       "_source": {
         "description": "Ein Parkmeßgerät auf einer Straße mit Autos",
         "en": "A row of parked cars sitting next to parking meters.",
         "language": "de",
         "vector_description": {...}
       }
     },
     . . .
用英语进行搜索
让我们尝试用英语进行搜索，看看效果如何：
GET coco_multi/_search
{
"size": 10,
"_source": [
  "description", "language", "en"
],
"knn": {
  "field": "vector_description.predicted_value",
  "k": 10,
  "num_candidates": 100,
  "query_vector_builder": {
    "text_embedding": {
      "model_id": ".multilingual-e5-small_linux-x86_64_search",
      "model_text": "query: kitty"
    }
  }
}
}
{
       "_index": "coco_multi",
       "_id": "JQiXQJYBgf6odR9b6Yz0",
       "_score": 0.9334303,
       "_source": {
         "description": "Eine Katze, die in einem kleinen, gepackten Koffer sitzt.",
         "en": "A brown and white cat is in a suitcase.",
         "language": "de"
       }
     },
      {
       "_index": "coco_multi",
       "_id": "3AiXQJYBgf6odR9bFod6",
       "_score": 0.9281012,
       "_source": {
         "description": "Una bambina che tiene un gattino vicino a una recinzione blu.",
         "en": "A little girl holding a kitten next to a blue fence.",
         "language": "it"
       }
     },
     . . .
在这里，尽管查询看起来非常简单，但我们要搜索的是 "kitty "一词在所有语言的所有文档中的数字嵌入。由于我们执行的是矢量搜索，因此可以从语义上搜索所有可能与 "kitty "相关的词：猫"、"小猫"、"猫科动物"、"gatto"（意大利语）、"mèo"（越南语）、고양이（韩语）、猫（汉语）等。因此，即使我的查询是以英语进行的，我们也可以搜索到所有其他语言的内容。例如，搜索 kitty lying on something ，也会出现意大利语、荷兰语或越南语的文档。谈效率
搜索其他语言的内容
GET coco_multi/_search
{  
 "size": 100,
 "_source": [
   "description", "language", "en"
 ],
 "knn": {
   "field": "vector_description.predicted_value",
   "k": 50,
   "num_candidates": 1000,
   "query_vector_builder": {
     "text_embedding": {
       "model_id": ".multilingual-e5-small_linux-x86_64_search",
       "model_text": "query: kitty lying on something"
     }
   }
 }
}
{
 "description": "A black kitten lays on her side beside remote controls.",
 "en": "A black kitten lays on her side beside remote controls.",
 "language": "en"
},
{
 "description": "un gattino sdraiato su un letto accanto ad alcuni telefoni ",
 "en": "A black kitten lays on her side beside remote controls.",
 "language": "it"
},
{
 "description": "eine Katze legt sich auf ein ausgestopftes Tier",
 "en": "a cat lays down on a stuffed animal",
 "language": "de"
},
{
 "description": "Một chú mèo con màu đen nằm nghiêng bên cạnh điều khiển từ xa.",
 "en": "A black kitten lays on her side beside remote controls.",
 "language": "vi"
}
. . .
同样，用韩语（"고양이"）搜索关键词 "猫 "也会得到有意义的结果。令人惊叹的是，在这份索引中，我们甚至没有任何韩文文件！
GET coco_multi/_search
{
 "size": 100,
 "_source": [
   "description", "language", "en"
 ],
 "knn": {
   "field": "vector_description.predicted_value",
   "k": 50,
   "num_candidates": 1000,
   "query_vector_builder": {
     "text_embedding": {
       "model_id": ".multilingual-e5-small_linux-x86_64_search",
       "model_text": "query: 고양이"
     }
   }
 }
}
 {
       {
         "description": "eine Katze legt sich auf ein ausgestopftes Tier",
         "en": "a cat lays down on a stuffed animal",
         "language": "de"
       }
     },
     {
       {
         "description": "Một con chó và con mèo đang ngủ với nhau trên một chiếc ghế dài màu cam.",
         "en": "A dog and cat lying  together on an orange couch. ",
         "language": "vi"
       }
     },
这是因为嵌入模型在共享语义空间中表示意义，即使查询语言与索引标题不同，也能检索到相关图像。
利用混合搜索和重新排序增加相关搜索结果
我们很高兴相关结果如期出现。但是，在现实世界中，比如在电子商务或 RAG 应用程序中，需要缩小到前 5-10 个最适用的结果，我们可以使用 rerank 模型来优先处理最相关的结果。
在这里，用越南语查询 "猫是什么颜色的？"会得到很多结果，但前 1 或前 2 个结果可能不是最相关的。
GET coco_multi/_search
{
 "size": 20,
 "_source": [
   "description",
   "language",
   "en"
 ],
 "knn": {
   "field": "vector_description.predicted_value",
   "k": 20,
   "num_candidates": 1000,
   "query_vector_builder": {
     "text_embedding": {
       "model_id": ".multilingual-e5-small_linux-x86_64_search",
       "model_text": "query: con mèo màu gì?"
     }
   }
 }
}
结果都提到了猫或某种颜色：
因此，让我们来改进这一点！让我们结合Cohere的多语言 rerank 模型来改进与我们的问题相对应的推理。
PUT _inference/rerank/cohere_rerank
{
 "service": "cohere",
 "service_settings": {
   "api_key": "your_api_key",
   "model_id": "rerank-v3.5"
 },
 "task_settings": {
   "top_n": 10,
   "return_documents": true
 }
}


GET coco_multi/_search
{
"size": 10,
"_source": [
  "description",
  "language",
  "en"
],
"retriever": {
  "text_similarity_reranker": {
    "retriever": {
      "rrf": {
        "retrievers": [
          {
            "knn": {
              "field": "vector_description.predicted_value",
              "k": 50,
              "num_candidates": 100,
              "query_vector_builder": {
                "text_embedding": {
                  "model_id": ".multilingual-e5-small_linux-x86_64_search",
                  "model_text": "query: con mèo màu gì?" // English: What color is the cat?
                }
              }
            }
          }
        ],
        "rank_window_size": 100,
        "rank_constant": 0
      }
    },
    "field": "description",
    "inference_id": "cohere_rerank",
    "inference_text": "con mèo màu gì?"
  }
}
}
 {
       "_index": "coco_multi",
       "_id": "rQiYQJYBgf6odR9bBYyH",
       "_score": 1.5501487,
       "_source": {
         "description": "Hai cái điện thoại được đặt trên một cái chăn cạnh một con mèo con màu đen.",
         "en": "A black kitten lays on her side beside remote controls.",
         "language": "vi"
       }
     },
     {
       "_index": "coco_multi",
       "_id": "swiXQJYBgf6odR9b04uf",
       "_score": 1.5427427,
       "_source": {
         "description": "Một con mèo sọc nâu nhìn vào máy quay.", // Real translation: A brown striped cat looks at the camera 
         "en": "This cat is sitting on a porch near a tire.",
         "language": "vi"
       }
     },
现在，有了最重要的结果，我们的应用程序就可以肯定地回答，这只小猫的颜色是黑色或带条纹的棕色。更有趣的是，我们的矢量搜索实际上发现了原始数据集中英文标题的遗漏。尽管参考英译本忽略了这一细节，但它还是能找到那只棕色条纹的猫。这就是矢量搜索的威力。
结论
在这篇博客中，我们介绍了多语言嵌入模型的实用性，以及如何利用 Elasticsearch 来集成模型以生成嵌入，并通过混合搜索和重新分词器来有效提高相关性和准确性。您可以 创建一个 自己的 云集群 ， 使用我们开箱即用的 E5 模型 在您选择的语言和数据集上尝试 多语言语义搜索 。


在 Elasticsearch 中部署多语言嵌入模型
Quynh Nguyen — Wed, 22 Oct 2025 00:00:00 GMT
引言
在用户遍布全球的世界里，跨语言信息检索（CLIR）至关重要。CLIR 可让您以任何语言查找信息，而不是将搜索局限于单一语言，从而增强用户体验并简化操作。想象一下，在全球市场上，电子商务客户可以用自己的语言搜索商品，正确的结果就会出现，而无需提前对数据进行本地化。或者，学术研究人员可以用自己的母语搜索论文，即使资料来源是另一种语言，也会有细微差别和复杂性。
多语言文本嵌入模型让我们能够做到这一点。嵌入是一种用数字向量表示文本含义的方法。设计这些向量的目的是让含义相似的文本在高维空间中彼此靠近。多语言文本嵌入模型专门用于将不同语言中具有相同含义的单词和短语映射到相似的向量空间中。
开源的多语言 E5 等模型是在海量文本数据的基础上进行训练的，通常使用对比学习等技术。在这种方法中，模型学会区分意义相似的文本对（正对）和意义不同的文本对（负对）。对模型进行训练，以调整其产生的向量，从而使正向配对之间的相似性最大化，反向配对之间的相似性最小化。对于多语言模型，这些训练数据包括不同语言的文本对，这些文本对互为翻译，从而使模型能够学习多种语言的共享表示空间。由此产生的嵌入结果可用于各种 NLP 任务，包括跨语言搜索，在跨语言搜索中，文本嵌入之间的相似性可用于查找相关文档，而不受查询语言的限制。
多语言矢量搜索的优势
细致入微：矢量搜索擅长捕捉语义，超越关键词匹配。这对于需要理解语境和语言微妙之处的任务至关重要。
跨语言理解：即使查询和文档使用不同的词汇，也能跨语言进行有效的信息检索。
相关性：通过关注查询和文档之间的概念相似性，提供更相关的结果。
例如，一位学术研究人员正在研究"社交媒体对不同国家政治话语的影响" 。通过矢量搜索，他们可以输入"l'impatto dei social media sul discorso politico" (意大利文) 或"ảnh hưởng của mạng xã hội đối với diễn ngôn chính trị" (越南文) 等查询，并找到相关的英文论文、西班牙语或任何其他索引语言的相关论文。这是因为矢量搜索可以识别讨论社交媒体对政治影响这一概念的论文，而不仅仅是包含确切关键词的论文。这大大提高了他们研究的广度和深度。
开始使用
下面介绍如何使用 Elasticsearch（开箱即用的 E5 模型）设置 CLIR。我们将使用开源的多语言 COCO 数据集（其中包含多种语言的图片说明）来帮助我们可视化两种类型的搜索：
一个英语数据集上的其他语言查询和搜索词，以及
在包含多语言文档的数据集上进行多语言查询。
然后，我们将利用混合搜索和重新排序的功能，进一步改进搜索结果。
准备工作
Python 3.6+
Elasticsearch 8+
Elasticsearch Python 客户端： pip install elasticsearch
数据集
COCO 数据集是一个大型字幕数据集。数据集中的每张图片都有多种不同语言的标题，每种语言都有几种翻译。为便于演示，我们将把每份译文作为单独的文件进行索引，并附上第一份可用的英文译文以供参考。
步骤 1：下载多语种 COCO 数据集
为了简化博客并方便阅读，我们在这里通过简单的 API 调用，将 restval 的前 100 行加载到本地 JSON 文件中。或者，您也可以使用 HuggingFace 的库数据集来加载整个数据集或数据集的子集。
import requests
import json
import os
### Download multilingual coco dataset into a json file (for easy viewing)
### Here we are retrieving first 100 rows for this example
### Alternatively, you can use `datasets` library from Hugging Face
url = "https://datasets-server.huggingface.co/rows?dataset=romrawinjp%2Fmultilingual-coco&config=default&split=restval&offset=0&length=100"
response = requests.get(url)


if response.status_code == 200:
   data = response.json()
   output_file = "multilingual_coco_sample.json" 
   ### Loading the downloaded content into a json file locally
   with open(output_file, "w", encoding="utf-8") as f:
       json.dump(data, f, indent=4, ensure_ascii=False)
   print(f"Data successfully downloaded and saved to {output_file}")
else:
   print(f"Failed to download data: {response.status_code}")
   print(response.text)
如果数据成功加载到 JSON 文件中，你应该会看到类似下面的内容：
Data successfully downloaded and saved to multilingual_coco_sample.json
第 2 步：（启动 Elasticsearch）并在 Elasticsearch 中编制数据索引
a) 启动本地 Elasticsearch 服务器。
b) 启动 Elasticsearch 客户端。
from elasticsearch import Elasticsearch
from getpass import getpass


# Initialize Elasticsearch client
es = Elasticsearch(getpass("Host: "), api_key=getpass("API Key: "))


index_name = "coco"


# Create the index if it doesn't exist
if not es.indices.exists(index=index_name):
   es.indices.create(index=index_name, body=mapping)
c) 指数数据
# Load the JSON data
with open('./multilingual_coco_sample.json', 'r') as f:
   data = json.load(f)


rows = data["rows"]
# List of languages to process
languages = ["en", "es", "de", "it", "vi", "th"]


# For each image, we will process each individual caption as its own document
bulk_data = []
for data in rows:
   row = data["row"]
   image = row.get("image")
   image_url = image["src"]


   # Process each language
   for lang in languages:
       # Skip if language not present in this row
       if lang not in row:
           continue


       # Get all descriptions for this language
 # along with first available English caption for reference
       descriptions = row[lang]
       first_eng_caption = row["en"][0]


       # Prepare bulk indexing data
       for description in descriptions:
           if description == "":
               continue
           # Add index operation
           bulk_data.append(
               {"index": {"_index": index_name}}
           )
           # Add document
           bulk_data.append({
               "language": lang,
               "description": description,
               "en": first_eng_caption,
               "image_url": image_url,
           })


# Perform bulk indexing
if bulk_data:
   try:
       response = es.bulk(operations=bulk_data)
       if response["errors"]:
           print("Some documents failed to index")
       else:
           print(f"Successfully bulk indexed {len(bulk_data)} documents")
   except Exception as e:
       print(f"Error during bulk indexing: {str(e)}")


print("Indexing complete!")
数据编入索引后，您应该会看到类似下面的内容：
Successfully bulk indexed 4840 documents
Indexing complete!
步骤 3：部署 E5 训练模型
在 Kibana 中，导航到 "堆栈管理> 训练模型"页面，然后单击 "部署.multilingual-e5-small_linux-x86_64选择。这款 E5 机型是为 linux-x86_64 优化的小型多语言机型，开箱即可使用。单击 "部署 "将显示一个屏幕，您可以在此调整部署设置或 vCPU 配置。为简单起见，我们将使用默认选项，并选择自适应资源，它将根据使用情况自动调整部署规模。
如果您想使用其他文本嵌入模型，也可以选择使用。例如，要使用 BGE-M3，可以使用Elastic 的 Eland Python 客户端从 HuggingFace 导入模型。
export MODEL_ID="bge-m3"
export HUB_MODEL_ID="BAAI/bge-m3"
export CLOUD_ID={{CLOUD_ID}}
export ES_API_KEY={{API_KEY}}
docker run -it --rm docker.elastic.co/eland/eland \
eland_import_hub_model --cloud-id $CLOUD_ID --es-api-key $ES_API_KEY --hub-model-id $HUB_MODEL_ID --es-model-id $MODEL_ID --task-type text_embedding --start
然后，导航到 "训练有素的模型 "页面，使用所需的配置部署导入的模型。
第 4 步：利用已部署的模型对原始数据进行矢量化或创建嵌入模型
要创建嵌入模型，我们首先需要创建一个摄取管道，使我们能够获取文本并通过推理文本嵌入模型运行。您可以在 Kibana 的用户界面或通过 Elasticsearch 的应用程序接口进行此操作。
要通过 Kibana 界面完成此操作，在部署训练模型后，单击测试 按钮。这将使您能够测试和预览生成的嵌入式内容。为coco  索引创建一个新的数据视图，将数据视图设置为新创建的 coco 数据视图，并将字段设置为description ，因为这是我们要生成嵌入的字段。
效果很好！现在，我们可以继续创建摄取管道，并重新为原始文档建立索引，将它们通过管道，然后用嵌入创建一个新索引。单击 "创建管道"即可实现这一功能，它将引导您完成管道创建过程，并自动填充所需的处理器，帮助您创建嵌入。
向导还可以自动填充所需的处理器，以便在摄取和处理数据时处理故障。
现在让我们创建摄取管道。我将管道命名为coco_e5 。管道创建成功后，可以立即使用管道生成嵌入，方法是将原始索引数据重新索引到向导中的新索引。单击 "重新索引 "启动该过程。
对于更复杂的配置，我们可以使用 Elasticsearch API。
对于某些模型，由于训练模型的方式不同，我们可能需要在生成嵌入之前在实际输入中预置或附加某些文本；否则，我们将看到性能下降。
例如，在使用 e5 时，模型希望输入文本跟随 "passage：{content of passage}".让我们利用摄取管道来实现这一目标：我们将创建一个新的摄取管道vectorize_descriptions。在此流程中，我们将创建一个新的临时temp_desc 字段，在 "passage：" 添加到description 文本中，通过模型运行temp_desc 以生成文本嵌入，然后删除temp_desc 。
PUT _ingest/pipeline/vectorize_descriptions
{
"description": "Pipeline to run the descriptions text_field through our inference text embedding model",
"processors": [
 {
   "set": {
     "field": "temp_desc",
     "value": "passage: {{description}}"
   }
 },
 {
   "inference": {     
"field_map": {
       "temp_desc": "text_field"
     },
     "model_id": ".multilingual-e5-small_linux-x86_64_search",
     "target_field": "vector_description"
   }
 },
 {
   "remove": {
     "field": "temp_desc"
   }
 }
]
}
此外，我们可能还想为生成的向量指定量化类型。默认情况下，Elasticsearch 使用int8_hnsw ，但在这里，我需要更好的二进制量化（或bqq_hnsw ），它将每个维度降低到一位精度。这样，内存占用减少了 96% （或 32 倍），但精度却提高了。我之所以选择这种量化类型，是因为我知道稍后会使用重新anker 来改善精度损失。
为此，我们将创建一个名为coco_multi 的新索引，并指定映射。这里的奥妙在于 vector_description 字段，我们在其中指定index_options的类型为bbq_hnsw。
PUT coco_multi
{
 "mappings": {
   "properties": {
     "description": {
       "type": "text"
     },
     "en": {
       "type": "text"
     },
     "image_url": {
       "type": "keyword"
     },
     "language": {
       "type": "keyword"
     },
     "vector_description.predicted_value": {
       "type": "dense_vector",
       "dims": 384,
       "index": "true",
       "similarity": "cosine",
       "index_options": {
         "type": "bbq_hnsw" 
       }
     }
   }
 }
}
现在，我们可以将原始文档重新索引到新的索引中，我们的摄取管道将对描述字段进行 "矢量化 "或创建嵌入。
POST _reindex?wait_for_completion=false
{
 "source": {
   "index": "coco"
 },
 "dest": {
   "index": "coco_multilingual",
   "pipeline": "vectorize_descriptions"
 }
}
就是这样！我们已经成功地利用 Elasticsearch 和 Kibana 部署了一个多语言模型，并逐步了解了如何通过 Kibana 用户界面或 Elasticsearch API 利用 Elastic 数据创建向量嵌入。在本系列的第二部分，我们将探讨使用多语言模型的结果和细微差别。同时，您可以 创建一个 自己的 云集群 ，在您选择的语言和数据集上 使用我们开箱即用的 E5 模型 尝试 多语言语义搜索 。


弹性 MCP 服务器：将代理生成器工具暴露给任何人工智能代理
Jedr Blaszyk, Joe McElroy — Mon, 20 Oct 2025 00:00:00 GMT
Elastic Agent Builder 是一个平台，用于创建与 Elasticsearch 中自己的数据深度集成的工具和代理。例如，您可以创建对内部文档进行语义搜索、分析可观察性日志或查询安全警报的工具。
但是，当你能将这些定制的、数据感知工具带入你花费时间最多的环境中时，真正的奇迹就发生了。如果您的代码编辑器代理可以安全地访问组织的私人知识库，那会怎样？
这就是模型上下文协议（MCP）的作用所在。Elastic Agent Builder 内置 MCP 服务器，可访问平台中的工具。
为什么要使用 Elastic Agent Builder MCP 服务器？
人工智能代理的功能非常强大，但它们的知识通常仅限于它们接受过训练的数据以及它们可以在公共互联网上主动搜索的信息。他们不了解贵公司的内部设计文档、团队的特定部署运行手册或应用程序日志的独特结构。
我们面临的挑战是如何为人工智能助手提供其所需的专业背景。这正是 MCP 所要解决的问题。MCP 是一种开放标准，允许人工智能模型或代理发现和使用外部工具。
为了实现这一点，Elastic Agent Builder 通过内置的 MCP 服务器本机公开了您的自定义工具。这意味着您可以轻松地将任何与 MCP 兼容的客户端（如Cursor、VS Code 或Claude Desktop）与您使用 Elastic Agent Builder 创建的专门的数据感知工具连接起来。
何时使用 MCP（何时不使用）
Elastic Agent Builder 包含多种协议，可支持不同的集成模式。选择正确的人工智能工作流是建立有效人工智能工作流的关键。
使用 MCP通过专业工具来增强人工智能代理（如在Cursor或VS Code 中）。这是"自带工具" 方法，通过安全访问您的私人数据来增强您已经使用的助手。只有工具是通过 MCP 服务器公开的，Elastic 的代理是独立于 MCP 服务器的。
使用 A2A 协议，让您的完整自定义弹性代理与其他自主代理协作（如谷歌的双子座企业版）。这是针对代理对代理的委托，即每个代理都作为同行来解决问题。
在从头开始构建自定义应用程序时，使用 代理生成器应用程序接口（API）实现完全的编程控制。
对于希望在不离开集成开发环境的情况下从内部文档中获得答案的开发人员来说，MCP 是最合适的选择。
示例：在 Cursor 中使用代理生成器 MCP 服务器的自定义工具
让我们来看一个我每天都在使用的实际例子。首先，我将我们的内部工程文档抓取并编入一个名为elastic-dev-docs 的 Elasticsearch 索引。虽然我们可以使用 Agent Builder 中的通用内置工具，但我们将创建自己的自定义工具来查询这个特定的知识库。
定制工具的原因很简单：控制和精度。这种方法使我们能够直接针对elastic-dev-docs 索引运行快速语义查询。我们可以完全控制具体针对哪个索引以及如何检索数据。
现在，我们来看看如何在 Cursor 等人工智能驱动的代码编辑器中使用自定义知识库。
第 1 步：在 Agent Builder 中创建自定义知识库工具
首先，在 Agent Builder 中创建一个新工具。清晰而具体的工具描述非常重要，因为这是任何人工智能代理（无论是内部的弹性代理还是通过 MCP 连接的外部工具，如 Cursor）发现并为正确的任务选择工具的方式。
有力的描述应该是明确的。例如"在 elastic-dev-docs 索引上执行语义搜索，以查找内部工程文档、运行手册和发布程序"。
有了这些，就可以对工具进行配置，以便针对我们的特定索引执行语义搜索。一旦保存，就可以立即食用。
在连接到外部世界之前，您可以直接在用户界面中进行测试。只需单击 "测试"按钮，手动填写参数，模拟 LLM 的工作，然后检查结果，确认一切工作正常。
第 2 步：将光标连接到弹性 MCP 服务器
Elastic Agent Builder 可通过安全的 MCP 端点自动公开所有可用工具。您可以在 Kibana 的工具用户界面中找到唯一的服务器 URL。
要连接到 Cursor，我们只需将此 URL 添加到其配置文件中，同时添加一个用于身份验证的 Elastic API 密钥（了解如何创建 ES API 密钥）。我们使用 API 密钥进行授权，因为它能确保工具只在您授予的权限内执行，并尊重您的所有访问控制规则。
Cursor's~/.cursor/mcp.json 中的 MCP 配置如下所示：
{
  "mcpServers": {
    "elastic-agent-builder": {
      "command": "npx",
      "args": [
        "mcp-remote",
        "https://your-kibana.kb.company.io/api/agent_builder/mcp",
        "--header",
        "Authorization:${AUTH_HEADER}"
      ],
      "env": {
        "AUTH_HEADER": "ApiKey "
      }
    }
  }
}
保存配置后，你应该能在光标中看到 Elastic Agent Builder MCP 服务器工具。
第三步：提问！
建立连接后，Cursor 代理现在可以调用您的自定义工具来回答您的问题或指导代码生成过程。
让我们提出一个具体问题：
"从弹性搜索组织的工程内部文档中查找释放爬虫服务的步骤"
在幕后，神奇的事情发生了：
光标代理决定如何以最佳方式回答您的问题，并决定调用 engineering_documentation_internal_search
它通过自然语言查询调用该工具
该工具根据elastic-dev-docs 索引执行语义搜索，并返回最相关的最新程序。
我们无需离开代码编辑器，就能根据内部文档得到准确、可信的答案。这种体验天衣无缝、功能强大。
轮到您建造
您现在已经了解了如何使用 Elastic Agent Builder 中的内置 MCP 服务器来扩展人工智能助手，使其能够安全地访问您的私人数据。将模型建立在自己的信息基础上是使其真正有用的关键。
概括地说，我们介绍了核心步骤：
根据需要选择合适的协议（MCP）。
构建自定义知识库工具
将该工具与 Cursor 等集成开发环境助手连接起来。
您的代理和工具不再需要与最有价值的环境脱节。希望本指南能帮助您创建更有效的数据感知工作流程。快乐建筑


使用基于用户行为数据的判断列表在 Elasticsearch 中训练 LTR 模型
Alexander Dávila — Wed, 15 Oct 2025 00:00:00 GMT
使用"学习-排名 "模型的一大挑战是创建一个高质量的判断列表来训练模型。传统上，这一过程需要对查询与文档的相关性进行人工评估，为每个文档分配一个等级。这是一个缓慢的过程，不能很好地扩展，也很难维护（想象一下要手工更新一个有数百个条目的列表）。
现在，如果我们可以使用真实用户与搜索应用程序的交互来创建这些训练数据，会怎样呢？使用UBI数据可以让我们做到这一点。创建一个自动系统，捕捉并利用我们的搜索、点击和其他互动来生成判断列表。与人工交互相比，这一过程更容易扩展和重复，而且往往会产生更好的结果。在本博客中，我们将探讨如何查询存储在 Elasticsearch 中的 UBI 数据，以计算有意义的信号，从而为LTR模型生成训练数据集。
您可以 在这里找到完整的实验 。
为什么 UBI 数据有助于训练 LTR 模型？
与人工标注相比，UBI 数据具有多项优势：
数量：鉴于 UBI 数据来自真实的互动，我们可以收集到比人工生成的数据多得多的数据。当然，前提是我们有足够的流量来生成这些数据。
真实用户意图：传统上，人工判断列表来自专家对可用数据的评估。另一方面，UBI 数据反映了真实的用户行为。这意味着我们可以生成更好的训练数据，从而提高搜索系统的准确性，因为这些数据是基于用户如何与您的内容进行实际互动并从中发现价值的，而不是对相关内容的理论假设。
不断更新：判断列表需要不断刷新。如果我们根据 UBI 数据创建它们，我们就可以获得最新的数据，从而更新判断列表。
成本效益高：无需手动创建判断列表，可多次高效重复这一过程。
自然查询分布：UBI 数据代表真实的用户查询，可推动更深层次的变化。例如，用户是否使用自然语言在我们的系统中进行搜索？如果是这样，我们可能需要采用语义搜索或混合搜索方法。
不过也有一些警告：
偏见放大： 热门内容更容易获得点击，因为它的曝光率更高。因此，这最终可能会放大热门项目，可能会淹没更好的选择。
覆盖面不全： 新内容缺乏互动，因此可能难以在结果中占据重要位置。罕见查询也可能缺乏足够的数据点来创建有意义的训练数据。
季节性变化：如果您预期用户行为会随时间发生巨大变化，那么历史数据可能无法告诉您什么是好结果。
任务模糊：点击并不总能保证用户找到想要的东西。
成绩计算
LTR 培训的成绩
为了训练 LTR 模型，我们需要提供一些数字来表示文档与查询的相关程度。在我们的实施过程中，这个数字是一个连续的分数，从 0.0 到 5.0+，分数越高表示相关性越高。
为了说明这个分级系统是如何运行的，请看这个手动创建的示例：
            
              
                
                    
                      查询 文件内容 等级 说明
                    
                    
                      "最佳比萨饼配方" "正宗意大利比萨面团配方及步骤图片" 4.0 高度相关，正是用户正在寻找的内容
                    
                    
                      "最佳比萨饼配方" "意大利比萨的历史" 1.0 与主题有点吻合，是关于披萨的，但不是食谱
                    
                    
                      "最佳比萨饼配方" "适合初学者的 15 分钟快速比萨食谱" 3.0 这是个不错的结果，但也许还达不到 "最佳 "配方的标准。
                    
                    
                      "最佳比萨饼配方" "汽车保养指南" 0.0 完全不相关，与查询完全无关
                    
              
            
          正如我们在这里看到的，等级是一个数字，表示文档与我们的样本查询 "最佳披萨配方 "的相关程度。有了这些分数，我们的 LTR 模型就能知道哪些文档应该在结果中显示得更高。
如何计算等级是我们训练数据集的核心。有 多种方法 可以做到这一点，每种 方法 都有自己的优缺点。例如，我们可以分配一个二进制分数，1 表示相关 0 表示不相关，或者我们可以只计算每个查询结果文档中的点击次数。
在这篇博文中，我们将采用一种不同的方法，将用户行为作为我们的输入，并计算出一个等级数字作为输出。我们还将纠正可能出现的偏差，因为无论文件的相关性如何，结果越靠前，点击率越高。
计算成绩 - COEC 算法
COEC（点击量大于预期点击量）算法是一种根据用户点击量计算判断等级的方法。如前所述，用户倾向于点击位置较高的结果，即使该文档并非与查询最相关；这就是所谓的位置偏差。使用 COEC 算法的核心理念是，并非所有点击都具有同等意义；点击位置 10 的文档表明，该文档与查询的相关性远高于点击位置 1 的文档。引用有关 COEC 算法的研究论文（如上链接）：
"众所周知，搜索结果或广告的点击率（CTR）会随着搜索结果的位置而显著降低"。
您可以在这里进一步了解位置偏差。
为了利用 COEC 算法解决这个问题，我们采取了以下步骤：
1.建立位置基线：我们计算每个搜索位置（从 1 到 10）的点击率（CTR）。这意味着我们要确定点击位置 1、位置 2 等的用户比例。这一步骤可捕捉用户的自然位置偏差。我们使用以下方法计算点击率：
 $CTRp=CpIp$ 在哪里？
p = 位置。从 1 到 10
Cp = 在所有查询中，任何文档在位置 p 上的总点击次数
Ip = 总印象次数：在所有查询中，任何文档在位置 p 上出现的次数
在这里，我们希望位置越高，点击越多。
2. 计算预期点击量 (EC)：
该指标根据文档出现的位置和这些位置的点击率，确定文档 "本应 "获得的点击量：
 $EC (for a document) = qQdCTRpos(d,q)$ 在哪里？
Qd = 文档 d 出现的所有查询
pos(d,q)= 文档 d 在查询结果 q 中的位置
3.统计实际点击量： 我们统计文档在所有查询中实际获得的总点击量，以下称为A(d)。
4.计算 COEC 分数：这是实际点击量（A(d)）与预期点击量（EC(d)）之比：
 $COEC = A(d)EC(d)$ 该指标对位置偏差进行了这样的归一化处理：
得分 1.0 表示文档在出现的位置上表现完全符合预期。
得分高于 1.0 表示该文件的位置表现优于预期。因此，这份文件与查询更相关。
如果得分低于 1.0，则表示该文件的表现不如预期。因此，该文件与查询的相关性较低。
最终结果是一个等级数字，它能反映用户正在寻找什么，并考虑到从与我们搜索系统的实际互动中提取的基于位置的期望值。
技术实施
我们将创建一个脚本来创建判断列表，以训练 LTR 模型。
该脚本的输入是 Elastic 中索引的 UBI 数据（查询和事件）。
输出结果是使用 COEC 算法从这些 UBI 文档生成的 CSV 文件中的判断列表。该判断列表可与Eland结合使用，以提取相关特征并训练 LTR 模型。
快速启动
要根据本博客中的样本数据生成判断列表，可以按照以下步骤操作：
1.克隆版本库：
git clone https://github.com/Alex1795/elastic-ltr-judgement_list-blog.git  
cd elastic-ltr-judgement_list-blog
2.安装所需程序库
对于这个脚本，我们需要以下库：
熊猫：保存判断列表
elasticsearch：从我们的弹性部署中获取 UBI 数据
我们还需要 Python 3.11
pip install -r requirements.txt
3.在.env 文件中更新弹性部署的环境变量
ES_HOST
API_KEY
要添加环境变量，请使用
source .env
4.创建 ubi_queries、ubi_events 索引，并上传样本数据。运行 setup.py 文件：
python setup.py
5.运行 Python 脚本：
python judgement_list-generator.py
如果按照这些步骤操作，你应该会看到一个名为 judgment_list.csv 的新文件，它看起来像这样：
该脚本将使用下图所示的calculate_relevance_grade()函数，应用之前讨论过的 COEC 算法计算等级。
数据架构
乌比查询
我们的 UBI 查询索引包含在搜索系统中执行的查询信息。这是一份样本文件：
{
          "client_id": "client_002",
          "query": "italian pasta recipes",
          "query_attributes": {
            "search_type": "recipe",
            "category": "food",
            "cuisine": "italian"
          },
          "query_id": "q002",
          "query_response_id": "qr002",
          "query_response_object_ids": [
            "doc_011",
            "doc_012",
            "doc_013",
            "doc_014",
            "doc_015",
            "doc_016",
            "doc_017",
            "doc_018",
            "doc_019",
            "doc_020"
          ],
          "timestamp": "2024-08-14T11:15:00Z",
          "user_query": "italian pasta recipes"
        }
在这里，我们可以看到来自用户（client_id）、查询结果（query_response_object_ids）和查询本身（时间戳、user_query）的数据。
Ubi 点击事件
我们的 ubi_events 索引拥有用户每次点击结果中的文档时产生的数据。这是一份样本文件：
{
          "action_name": "click",
          "application": "recipe_search",
          "client_id": "client_001",
          "event_attributes": {
            "object": {
              "description": "Authentic Italian Pizza Dough Recipe with Step-by-Step Photos",
              "device": "desktop",
              "object_id": "doc_001",
              "position": {
                "ordinal": 1,
                "page_depth": 1
              },
              "user": {
                "city": "New York",
                "country": "USA",
                "ip": "192.168.1.100",
                "location": {
                  "lat": 40.7128,
                  "lon": -74.006
                },
                "region": "NY"
              }
            }
          },
          "message": "User clicked on document doc_001",
          "message_type": "click",
          "query_id": "q001",
          "timestamp": "2024-08-14T10:31:00Z",
          "user_query": "best pizza recipe"
        }
判断列表生成脚本
脚本概述
该脚本使用存储在 Elasticsearch 中的来自查询和点击事件的 UBI 数据自动生成判断列表。它执行这些任务：
获取并处理 Elasticsearch 中的 UBI 数据。
将 UBI 事件与其查询相关联。
计算每个位置的点击率。
计算每份文档的预期点击量 (EC)。
计算每份文档的实际点击次数。
计算每个查询-文档配对的 COEC 分数。
生成判断列表并将其写入 CSV 文件。
让我们逐一了解这些功能：
connect_too_elasticsearch()
def connect_to_elasticsearch(host, api_key):
    """Create and return Elasticsearch client"""
    try:
        es = Elasticsearch(
            hosts=[host],
            api_key=api_key,
            request_timeout=60
        )
        # Test the connection
        if es.ping():
            print(f"✓ Successfully connected to Elasticsearch at {host}")
            return es
        else:
            print("✗ Failed to connect to Elasticsearch")
            return None
    except Exception as e:
        print(f"✗ Error connecting to Elasticsearch: {e}")
        return None
该函数使用主机和 api 密钥返回 Elasticsearch 客户端对象。
fetch_ubi_data()
def fetch_ubi_data(es_client: Elasticsearch, queries_index: str, events_index: str,
                   size: int = 10000) -> Tuple[List[Dict], List[Dict]]:
    """
    Fetch UBI queries and events data from Elasticsearch indices.

    Args:
        es_client: Elasticsearch client
        queries_index: Name of the UBI queries index
        events_index: Name of the UBI events index
        size: Maximum number of documents to fetch

    Returns:
        Tuple of (queries_data, events_data)
    """
    logger.info(f"Fetching data from {queries_index} and {events_index}")

    # Fetch queries with error handling
    try:
        queries_response = es_client.search(
            index=queries_index,
            body={
                "query": {"match_all": {}},
                "size": size
            }
        )
        queries_data = [hit['_source'] for hit in queries_response['hits']['hits']]
        logger.info(f"Fetched {len(queries_data)} queries")

    except Exception as e:
        logger.error(f"Error fetching queries from {queries_index}: {e}")
        raise

    # Fetch events (only click events for now) with error handling
    try:
        events_response = es_client.search(
            index=events_index,
            body={
                "query": {
                    "term": {"message_type.keyword": "CLICK_THROUGH"}
                },
                "size": size
            }
        )
        events_data = [hit['_source'] for hit in events_response['hits']['hits']]
        logger.info(f"Fetched {len(events_data)} click events")

    except Exception as e:
        logger.error(f"Error fetching events from {events_index}: {e}")
        raise

    logger.info(f"Data fetch completed successfully - Queries: {len(queries_data)}, Events: {len(events_data)}")

    return queries_data, events_data
该函数是数据提取层；它连接 Elasticsearch，使用 match_all 查询获取 UBI 查询，并过滤 UBI 事件，只获取 "CLICK_THROUGH "事件。
process_ubi_data()
def process_ubi_data(queries_data: List[Dict], events_data: List[Dict]) -> pd.DataFrame:
    """
    Process UBI data and generate judgment list.

    Args:
        queries_data: List of query documents from UBI queries index
        events_data: List of event documents from UBI events index

    Returns:
        DataFrame with judgment list (qid, docid, grade, keywords)
    """
    logger.info("Processing UBI data to generate judgment list")

    # Group events by query_id
    clicks_by_query = {}
    for event in events_data:
        query_id = event['query_id']
        if query_id not in clicks_by_query:
            clicks_by_query[query_id] = {}

        # Extract clicked document info
        object_id = event['event_attributes']['object']['object_id']
        position = event['event_attributes']['object']['position']['ordinal']

        clicks_by_query[query_id][object_id] = {
            'position': position,
            'timestamp': event['timestamp']
        }

    judgment_list = []

    # Process each query
    for query in queries_data:
        query_id = query['query_id']
        user_query = query['user_query']
        document_ids = query['query_response_object_ids']

        # Get clicks for this query
        query_clicks = clicks_by_query.get(query_id, {})

        # Generate judgment for each document shown
        for doc_id in document_ids:
            grade = calculate_relevance_grade(doc_id, query_clicks, document_ids, queries_data, events_data)

            judgment_list.append({
                'qid': query_id,
                'docid': doc_id,
                'grade': grade,
                'query': user_query
            })

    df = pd.DataFrame(judgment_list)
    logger.info(f"Generated {len(df)} judgment entries for {df['qid'].nunique()} unique queries")

    return df
该函数处理判断列表的生成。它通过关联 UBI 事件和查询，开始处理 UBI 数据。然后，它会调用每个文档-查询对的 calculate_relevance_grade() 函数来获取判断列表的条目。最后，它会以 pandas 数据帧的形式返回结果列表。
计算相关性等级()
def calculate_relevance_grade(document_id: str, clicks_data: Dict,
                              query_response_ids: List[str], all_queries_data: List[Dict] = None,
                              all_events_data: List[Dict] = None) -> float:
    """
    Calculate COEC (Click Over Expected Clicks) relevance score for a document.

    Args:
        document_id: ID of the document
        clicks_data: Dictionary of clicked documents with their positions for current query
        query_response_ids: List of document IDs shown in search results (ordered by position)
        all_queries_data: All queries data for calculating position CTR averages
        all_events_data: All events data for calculating position CTR averages

    Returns:
        COEC relevance score (continuous value, typically 0.0 to 5.0+)
    """

    # If no global data provided, fall back to simple position-based grading
    if all_queries_data is None or all_events_data is None:
        logger.warning("No global data provided, falling back to position-based grading")
        # Simple fallback logic
        if document_id in clicks_data:
            position = clicks_data[document_id]['position']
            if position > 3:
                return 4.0
            elif position >= 1 and position <= 3:
                return 3.0
        if document_id in query_response_ids:
            position = query_response_ids.index(document_id) + 1
            if position <= 5:
                return 2.0
            elif position >= 6 and position <= 10:
                return 1.0
        return 0.0

    # Calculate rank-aggregated click-through rates
    position_ctr_averages = {}
    position_impression_counts = {}
    position_click_counts = {}

    # Initialize counters
    for pos in range(1, 11):  # Positions 1-10
        position_impression_counts[pos] = 0
        position_click_counts[pos] = 0

    # Count impressions (every document shown contributes)
    for query in all_queries_data:
        for i, doc_id in enumerate(query['query_response_object_ids'][:10]):  # Top 10 positions
            position = i + 1
            position_impression_counts[position] += 1

    # Count clicks by position
    for event in all_events_data:
        if event.get('action_name') == 'click':
            position = event['event_attributes']['object']['position']['ordinal']
            if position <= 10:
                position_click_counts[position] += 1

    # Calculate average CTR per position
    for pos in range(1, 11):
        if position_impression_counts[pos] > 0:
            position_ctr_averages[pos] = position_click_counts[pos] / position_impression_counts[pos]
        else:
            position_ctr_averages[pos] = 0.0

    # Calculate expected clicks for this specific document
    expected_clicks = 0.0

    # Count how many times this document appeared at each position for any query
    for query in all_queries_data:
        if document_id in query['query_response_object_ids']:
            position = query['query_response_object_ids'].index(document_id) + 1
            if position <= 10:
                expected_clicks += position_ctr_averages[position]

    # Count total actual clicks for this document across all queries
    actual_clicks = 0
    for event in all_events_data:
        if (event.get('action_name') == 'click' and
                event['event_attributes']['object']['object_id'] == document_id):
            actual_clicks += 1

    # Calculate COEC score
    if expected_clicks > 0:
        coec_score = actual_clicks / expected_clicks
    else:
        coec_score = 0.0

    logger.debug(
        f"Document {document_id}: {actual_clicks} clicks / {expected_clicks:.3f} expected = {coec_score:.3f} COEC")

    return coec_score
这是实现 COEC 算法的函数。它先计算每个位置的点击率，然后比较文档-查询配对的实际点击率，最后计算每个位置的实际 COEC 分数。
generate_judgment_statistics()
def generate_judgment_statistics(df: pd.DataFrame) -> Dict:
    """Generate statistics about the judgment list."""
    stats = {
        'total_judgments': len(df),
        'unique_queries': df['qid'].nunique(),
        'unique_documents': df['docid'].nunique(),
        'grade_distribution': df['grade'].value_counts().to_dict(),
        'avg_judgments_per_query': len(df) / df['qid'].nunique() if df['qid'].nunique() > 0 else 0,
        'queries_with_clicks': len(df[df['grade'] > 1]['qid'].unique()),
        'click_through_rate': len(df[df['grade'] > 1]) / len(df) if len(df) > 0 else 0
    }
    return stats
它能从判断列表中生成有用的统计数据，如查询总数、唯一文档总数或等级分布。这纯粹是为了提供信息，不会改变最终的判断列表。
成果和影响
如果您按照快速入门部分的说明进行操作，您应该会看到一个 CSV 文件，其中包含一个有 320 个条目的判断列表（您可以在软件仓库中看到输出示例）。有了这些字段：
qid：查询的唯一 ID
docid：生成文件的唯一标识符
等级：查询文件对的计算等级
查询：用户查询
 让我们看看 "意大利菜谱 "的查询结果：
            
              
                
                    
                      qid docid 职级 查询
                    
                    
                      Q1 意大利食谱 基本食谱 0.0 意大利食谱
                    
                    
                      Q1 意大利食谱 菜谱_比萨_玛格丽塔 3.333333 意大利食谱
                    
                    
                      Q1 意大利食谱 菜谱指南 10.0 意大利食谱
                    
                    
                      Q1 意大利食谱 法式羊角面包食谱 0.0 意大利食谱
                    
                    
                      Q1 意大利食谱 西班牙海鲜饭食谱 0.0 意大利食谱
                    
                    
                      Q1 意大利食谱 希腊穆萨卡菜谱 1.875 意大利食谱
                    
              
            
          我们可以从结果中看到，查询 "意大利菜谱"：
烩饭食谱无疑是该查询的最佳结果，其点击率比预期高出 10 倍
玛格丽塔比萨也是不错的选择。
希腊 Mousaka（令人吃惊）也取得了不错的成绩，其表现要好于它在比赛中的位置。这意味着一些寻找意大利食谱的用户转而对这一食谱感兴趣。也许这些用户普遍对地中海菜肴感兴趣。最后，这告诉我们，在我们上面讨论的另外两场 "更好 "的比赛中，这可能是一个很好的结果。
结论
利用 UBI 数据，我们可以自动训练 LTR 模型，从自己的用户中创建高质量的判断列表。UBI 数据提供了一个大数据集，反映了我们的搜索系统是如何被使用的。通过使用 COEC 算法来生成等级，我们可以考虑到固有的偏差，同时，它也反映了用户认为更好的结果。本文概述的方法可应用于实际使用案例，以提供更好的搜索体验，并随着实际使用趋势的变化而变化。


人工智能代理评估：Elastic 如何测试代理框架
Susan Chang, Abhimanyu Anand — Mon, 13 Oct 2025 00:00:00 GMT
引言
在 Elastic Stack 中，有许多由 LLM 驱动的代理应用程序，例如 Agent Builder 中即将推出的 Elastic AI Agent（目前处于技术预览阶段）和 Attack Discovery （ 8.18 和 9.0+ 中的 GA ），还有更多正在开发中。在开发过程中，甚至在部署之后，回答这些问题都非常重要：
我们如何估算这些人工智能应用的响应质量？
如果我们做出改变，如何保证这种改变是真正的改进，而不会导致用户体验下降？
如何以可重复的方式轻松测试这些结果？
与传统的软件测试不同，评估生成式人工智能应用涉及统计方法、细致的定性审查以及对用户目标的深刻理解。
本文详细介绍了 Elastic 开发人员团队进行评估、确保部署前变更的质量以及监控系统性能的流程。我们的目标是确保每一项变革都有据可依，从而取得可信和可验证的成果。这一过程的一部分直接集成到了 Kibana 中，体现了我们对透明度的承诺，这也是我们开源精神的一部分。通过公开分享我们的部分评估数据和指标，我们力求促进社区信任，并为开发人工智能代理或使用我们产品的任何人提供一个清晰的框架。
产品示例
本文档中使用的方法是我们迭代和改进 "攻击发现 "和 "弹性人工智能代理 "等解决方案的基础。分别对两者进行简要介绍：
弹性安全的攻击发现
攻击发现使用 LLM 来识别和总结 Elastic 中的攻击序列。在给定的时间范围（默认 24 小时）内收到 Elastic Security 警报后，Attack Discovery 的代理工作流程会自动查找是否发生了攻击，以及重要信息，如哪台主机或用户受到了攻击，哪些警报促成了这一结论。
我们的目标是，基于 LLM 的解决方案所产生的输出结果至少与人类的输出结果一样好。
弹性人工智能代理
Elastic Agent Builder是我们的新平台，用于构建可利用我们所有搜索功能的上下文感知人工智能代理。它配备了Elastic AI Agent，这是一个预构建的通用代理，旨在通过对话式交互帮助用户理解数据并从中获得答案。
该代理通过自动识别 Elasticsearch 或连接的知识库中的相关信息，并利用一套预建工具与之交互，来实现这一目标。这使得 Elastic AI Agent 能够响应各种用户查询，从单个文档的简单 Q&A 到需要在多个索引中进行聚合和单步或多步搜索的复杂请求。
通过实验衡量改进
就人工智能代理而言，实验是对系统进行的结构化、可测试的更改，旨在提高系统在明确定义的维度（如有用性、正确性、延迟）上的性能。我们的目标是明确回答"如果我们合并这一改动，能否保证它是真正的改进，不会降低用户体验？
我们进行的大多数实验通常包括
假设：一个具体的、可证伪的主张。例如"增加对攻击发现工具的访问权限，可提高安全相关查询的正确性"。
成功标准：明确界定 "成功 "含义的阈值。例如"在安全数据集上，正确性得分提高了 +5% ，其他方面没有降低"。
评估计划：我们如何衡量成功（衡量标准、数据集、比较方法）
成功的实验是一个系统的探究过程。从细微的提示调整到重大的架构转变，每一项改变都要遵循这七个步骤，以确保结果是有意义和可操作的：
第 1 步：确定问题
第 2 步：确定衡量标准
步骤 3：提出明确的假设
步骤 4：准备评估数据集
步骤 5：运行实验
第 6 步：分析结果 + 反复试验
第 7 步：做出决定并记录在案
图 1 举例说明了这些步骤。下面的小节将对每个步骤进行说明，我们将在接下来的文件中详细介绍每个步骤的技术细节。
使用真实的 Elastic 示例逐步讲解
第 1 步：确定问题
这一变化究竟要解决什么问题？
攻击发现示例：摘要有时不完整，或者良性活动被错误地标记为攻击（误报）。
弹性人工智能代理示例：代理的工具选择，尤其是分析查询工具的选择，不够理想且不一致，经常导致选择错误的工具。这反过来又增加了令牌成本和延迟。
第 2 步：确定衡量标准
使问题可测量，以便我们能将变化与当前状态进行比较。
常用指标包括精确度和召回率、语义相似性、事实性等。根据不同的使用情况，我们使用代码检查来计算指标，例如匹配警报 ID 或正确检索的 URL，或者使用 LLM-as-judge 等技术来计算更自由的答案。
以下是实验中使用的一些指标示例（并非详尽无遗）：
Attack Discovery
            
              
                
                    
                      公制 描述
                    
                    
                      精确度& 召回率 在实际输出和预期输出之间匹配警报 ID，以衡量检测准确性。
                    
                    
                      相似性 使用 BERTScore 比较回复文本的语义相似性。
                    
                    
                      事实性 是否存在关键的 IOC（妥协指标）？是否正确反映了 MITRE 战术（行业攻击分类）？
                    
                    
                      攻击链一致性 比较发现的次数，检查是否存在多报或少报攻击事件的情况。
                    
              
            
          弹性人工智能代理
            
              
                
                    
                      公制 描述
                    
                    
                      精确度& 召回率 将代理为回答用户查询而检索的文档/信息与回答查询所需的实际信息或文档进行匹配，以衡量信息检索的准确性。
                    
                    
                      事实性 是否存在回答用户查询所需的关键事实？程序性查询的事实顺序是否正确？
                    
                    
                      回应相关性 回复是否包含与用户查询无关的信息？
                    
                    
                      答复完整性 回复是否回答了用户查询的所有部分？回复是否包含地面实况中的所有信息？
                    
                    
                      ES|QL 验证 生成的 ES|QL 语法正确吗？它在功能上是否与地面实况 ES|QL 相同？
                    
              
            
          步骤 3：提出明确的假设
利用问题和上文定义的衡量标准，制定明确的成功标准。
弹性人工智能代理示例：
对 relevance_search 和 nl_search 工具的说明进行修改，以明确定义其具体功能和用例。
我们预测，我们的 工具调用准确率 将 提高 25% 。
我们将通过确保不对其他指标产生负面影响来验证这是否是一个净积极因素，例如事实性和完整性。
我们相信这将行之有效，因为精确的工具描述将帮助代理针对不同查询类型更准确地选择和应用最合适的搜索工具，从而减少错误应用，提高整体搜索效率。
步骤 4：准备评估数据集
为了衡量系统的性能，我们使用了能捕捉真实世界场景的数据集。
根据我们所进行的评估类型，我们可能需要不同类型的数据格式，例如反馈给 LLM 的原始数据（例如："......"）。攻击发现的攻击场景）和预期产出。如果应用程序是聊天机器人，那么输入可能是用户查询，输出可能是聊天机器人的正确回复、本应检索到的正确链接等。
攻击发现示例
            
              
                
                    
                      10 种新颖的攻击情景
                    
                    
                      8 集 Oh My Malware (ohmymalware.com)
                    
                    
                      4 种多重攻击情景（通过组合前两类攻击而创建）
                    
                    
                      3 种良性情景
                    
              
            
          弹性人工智能代理评估数据集示例（Kibana 数据集链接）：
            
              
                
                    
                      14 使用开放源码数据集模拟 KB 中多个来源的指数。
                    
                    
                      5 种查询类型（分析型、文本检索型、混合型...）
                    
                    
                      7 查询意图类型（程序、事实--分类、调查......）
                    
              
            
          步骤 5：运行实验
执行实验，根据评估数据集生成现有代理和修改版代理的响应。计算事实性等指标（见第 2 步）。
我们根据步骤 2 中要求的指标，将各种评估混合在一起：
基于规则的评估（如使用 Python/TypeScript 检查 .json 是否有效）。
法学硕士即法官（询问另一位法学硕士某项答复是否与源文件的事实相符）
人在回路中审查，进行细微差别质量检查
第 6 步：分析结果 + 反复试验
现在我们有了衡量标准，可以对结果进行分析。即使结果符合步骤 3 中定义的成功标准，在将变更合并到生产之前，我们仍要进行人工审核；如果结果不符合标准，则要进行迭代并修复问题，然后在新变更上运行评估。
我们预计，在合并之前，需要反复几次才能找到最佳修改。与在推送提交之前运行本地软件测试类似，离线评估也可与本地变更或多个建议变更一起运行。自动保存实验结果、综合分数和可视化效果，简化分析过程，非常有用。
第 7 步：做出决定并记录在案
根据决策框架和验收标准，决定是否合并变更，并将实验记录在案。决策是多方面的，可以考虑评估数据集以外的因素，如检查其他数据集的回归情况，或权衡拟议变更的成本效益。
举例说明：在测试和比较几次迭代后，选择得分最高的变更，发送给产品经理和其他相关利益者审批。附上前几个步骤的结果，以帮助指导决策。有关攻击发现方面的更多示例，请参阅《Elastic Security 的生成式人工智能功能幕后》。
结论
在这篇博客中，我们介绍了实验工作流程的端到端过程，说明了我们如何在向 Elastic 用户发布代理系统变更之前对其进行评估和测试。我们还提供了一些在 Elastic 中改进基于代理的工作流的示例。在随后的博文中，我们将详细介绍不同步骤的细节，例如如何创建一个好的数据集、如何设计可靠的度量标准，以及在涉及多个度量标准时如何做出决策。


通过 A2A 协议将弹性代理连接到 Gemini Enterprise
Jedr Blaszyk, Valerio Arvizzigno, Joe McElroy — Thu, 09 Oct 2025 00:00:00 GMT
Elastic Agent Builder是一套直接在 Elasticsearch 中创建数据驱动的人工智能代理的功能。在本系列的前几篇文章中，我们演示了如何为自定义代理配备执行复杂任务的工具，并为其提供一系列自定义指令来指导其行为。
但是，如果您想将自定义代理与您已经依赖的应用程序和生产力工具一起使用，该怎么办？
这就是代理对代理（A2A）协议的作用所在。A2A 是互操作性的开放标准，允许来自不同平台的代理进行通信和协作。我们已将其直接内置到弹性代理生成器中。
今天，我们将向您展示如何将您创建的自定义代理与其他服务（特别是Gemini Enterprise ，前身为 Agentspace）进行交互。
开放标准的力量：A2A 为何重要
在博文 "你的第一个弹性代理"中，我们展示了如何构建自定义代理，例如可安全访问市场数据的财务助理代理。但是，如果你不能在其他环境（如双子座企业版）中使用其洞察力，而又不重建你的工作，那么它的价值就会受到限制。
这种互操作性的挑战正是阻碍人工智能发展的原因。代理需要一种跨平台交流的通用语言，这正是 A2A 协议的作用所在。它提供了一个标准通信层，不仅可以让您与代理直接互动，还能开启未来，让整个组织的专业代理都能协作并分享见解。
为了实现这一点，Elastic Agent Builder 通过两个标准端点为所有代理提供 A2A 协议本机支持：
Agent Card 端点 (GET {your-kibana-url}/api/agent_builder/a2a/{agentId}.json )- 这是您的自定义代理名片。它向任何 A2A 兼容服务提供有关代理的元数据（名称、描述、功能等）。
A2A 协议端点 (POST {your-kibana-url}/api/agent_builder/a2a/{agentId} ) - 这是通信通道。其他代理在此发送请求，您的代理处理请求并返回响应，所有这些都遵循A2A 协议规范。
使用 A2A 检查员测试您的代理
在将我们的代理连接到生产系统之前，最好检查一下它的通信是否正确。最简单的方法是使用A2A 检查器，这是一款专门用于测试和调试 A2A 集成的工具。
检查器的运行非常简单。您可以克隆a2a-inspector软件源，然后按照 README 说明运行应用程序。启动后，用户界面默认在http://localhost:5001/ 上可用。
要将 A2A 检查员与您的代理联系起来，您需要提供两条关键信息：
代理卡 URL：这是描述代理的端点。对于上一个职位中的财务助理代理而言，这个 URL 将是{your-kibana-url}/api/agent_builder/a2a/financial_assistant.json 。
验证头：我们将使用标准 API 密钥进行身份验证。
在检查员用户界面输入这些详细信息后，您就可以立即连接并开始与您的代理聊天。
这一简单的验证让我们确信，我们的代理已正确配置并准备好进行下一步操作。
开始直播您在双子座企业中的定制代理
现在是激动人心的部分：在 Gemini Enterprise（前身为 Agentspace）中启用我们的定制财务顾问代理。该集成由 Elastic AI Agent 提供支持 ，它可在谷歌云市场上购买 。
连接后，Gemini Enterprise 使用 A2A 协议与您的代理直接通信。这就是互操作性的真正威力所在：用户现在可以访问来自自定义 Elasticsearch 代理的深度数据驱动洞察，而无需离开他们熟悉的环境。你可以在代理列表中看到你的自定义弹性代理：
想象一下，双子座企业的用户会问
"我担心市场情绪。您能告诉我哪些客户最容易受到坏消息的影响吗？"
在幕后，Gemini Enterprise 通过 A2A 协议将此查询路由到您的自定义弹性代理。然后，您的代理会使用其专业工具查询您的数据、制定答案并将其发送回来。对于最终用户来说，这种体验是无缝的。
而且还不止于此！使用弹性代理获取的答案现在可以用作下一个问题的上下文，这些问题可能会触发不同的专门代理（例如您的投资平台代理，以调整对上市公司的投资）。无需离开搜索栏。
通过在具有 A2A 功能的 Gemini Enterprise 上部署弹性代理，您可以统一访问、协调和工作流，通过提供用户与其数据和工具对话的单一用户界面，消除人工智能、搜索和企业系统之间的摩擦--所有这些都在上下文中进行。对用户来说，这意味着更少的工具切换和更直观、更有能力的人工智能助手。对组织而言，这意味着协调一致的管理、可扩展性和内置的互操作性。
轮到您建造
您现在拥有了让您的弹性代理随时随地可用的工具。通过利用开放式 A2A 协议，您可以扩展自定义数据感知代理的覆盖范围。
在本篇文章中，我们将向您介绍关键步骤：
通过 A2A 代理卡和协议端点公开代理。
测试与 A2A 检查员的连接。
将代理实时集成到外部服务中，如 Google 的 Gemini Enterprise。
您的代理商不再需要与世隔绝。我们迫不及待地想看到你们创建的强大的互联系统。快乐建筑
最简单的入门方法是在谷歌云市场上进行 Elastic Cloud 免费试用


为 Elasticsearch 改进代理人工智能工具的实验
Sean Story — Mon, 06 Oct 2025 00:00:00 GMT
如今，在 Elastic，我们也像其他人一样，全力投入到聊天、代理和 RAG 中。在搜索部门，我们最近一直在开发代理生成器和工具注册表，目的都是为了简化在 Elasticsearch 中与数据 "聊天 "的过程。
请阅读 " 利用 Elasticsearch 构建人工智能代理工作流 "博客 ，了解更多有关这项工作的 "全貌"，或阅读 " 你的第一个弹性代理" 博客 ，了解更多有关这项工作的实用入门知识 ：从单个查询到人工智能驱动的聊天 》，了解更多实用入门知识。
不过，在本博客中，我们将放大一些，看看当您开始聊天时最先发生的事情之一，并向您介绍我们最近做出的一些改进。
这里发生了什么？
当您与 Elasticsearch 数据聊天时，我们默认的人工智能代理会执行此标准流程：
检查提示。
确定哪个索引可能包含该提示的答案。
根据提示为该索引生成查询。
使用该查询搜索该索引。
综合结果。
结果能否解决提示问题？如果是，请回答。如果不行，就重复，但要尝试不同的方法。
这看起来并不新奇--它只是检索增强一代（RAG）。正如您所期望的那样，回复的质量在很大程度上取决于初始搜索结果的相关性。因此，在我们努力提高响应质量的过程中，我们一直在密切关注在第 3 步中生成和在第 4 步中运行的查询。我们注意到一个有趣的模式。
通常情况下，当我们的首次响应 "糟糕 "时，并不是因为我们运行了一个糟糕的查询。这是因为我们选错了要查询的索引。第 3 步和第 4 步通常不是我们的问题，问题在于第 2 步。
我们在做什么？
我们最初的实施很简单。我们建立了一个工具（名为 index_explorer），它可以有效地进行_cat/indices ，列出我们可用的所有索引，然后要求 LLM 识别这些索引中哪个最符合用户的信息/问题/提示。您可以 在这里 看到 最初的实施方案 。
You are an AI assistant for the Elasticsearch company.
based on a natural language query from the user, your task is to select up to ${limit} most relevant indices from a list of indices.

*The natural language query is:* ${nlQuery}

*List of indices:*
${indices.map((index) => `- ${index.index}`).join('\n')}

Based on those information, please return most relevant indices with your reasoning.
Remember, you should select at maximum ${limit} indices.
效果如何？我们不确定！我们有一些效果不佳的明显例子，但我们真正面临的第一个挑战是如何量化我们的现状。
确定基线
从数据开始
我们需要的是一个 "黄金数据集"，用于衡量工具在用户提示和已有索引集的情况下选择正确索引的效率。而我们手头并没有这样的数据集，所以我们生成了一个。
致谢：我们知道，这不是 "最佳做法"。但有时，前进总比骑自行车好。进步，简单完美。
我们利用这一提示为多个不同领域生成了种子指数。然后，对于每个生成的域，我们使用 该提示又生成了几个索引（目的是用硬否定和难以分类的示例给 LLM 制造混乱）。接下来，我们手动编辑了每个生成的索引及其说明。最后，我们使用该提示生成了测试查询：
和测试用例，如
创建测试线束
从这里开始的过程非常简单。脚本工具可以
使用目标 Elasticsearch 集群建立一片净土。
创建目标数据集中定义的所有索引。
针对每个测试场景，执行 index_explorer 工具（很方便，我们有一个执行工具 API）。
将结果索引与预期索引进行比较，并捕捉结果。
完成所有测试方案后，将结果制成表格。
调查说...
不出所料，最初的成果平平。
总体而言，77.14% 能准确识别正确的索引。这是在 "最好的情况 "下，即所有指数都有好的、语义上有意义的名称。使用过 `PUT test2/_doc/foo{...}` 的人都知道，索引的名称并不总是有意义的。
因此，我们有了一个基准线，而且它显示出很大的改进空间。现在是时候来点科学知识了！🧪
实验
假设 1：映射将有助于
这样做的目的是确定一个索引，其中包含与原始提示相关的数据。而索引中最能描述其所含数据的部分就是索引的映射。即使不抓取索引内容的任何样本，只要知道该索引有一个 double 类型的价格字段，就意味着该数据代表了要出售的东西。文本类型的作者字段意味着一些非结构化语言数据。两者合在一起可能意味着数据是书籍/故事/诗歌。通过了解索引的属性，我们可以获得很多语义线索。因此，我在本地分支中调整了 `.index_explorer工具，将索引的完整映射（连同索引名称）发送给 LLM，由 LLM 做出决定。 
结果（来自 Kibana 日志）：
[2025-09-05T11:01:21.552-05:00][ERROR][plugins.onechat] Error: Error calling connector: event: error
data: {"error":{"code":"request_entity_too_large","message":"Received a content too large status code for request from inference entity id [.rainbow-sprinkles-elastic] status [413]","type":"error"}}


    at createInferenceProviderError (errors.ts:90:10)
    at convertUpstreamError (convert_upstream_error.ts:39:38)
    at handle_connector_response.ts:26:33
    at Observable.init [as _subscribe] (/Users/seanstory/Desktop/Dev/kibana/node_modules/rxjs/src/internal/observable/throwError.ts:123:68)...
该工具的最初作者已经预见到了这一点。虽然索引映射是一座信息金矿，但它也是一个相当冗长的 JSON 数据块。而在实际情况中，您需要比较众多指数（我们的评估数据集定义了 20 个指数），这些 JSON blob 会不断增加。因此，我们希望为 LLM 的决策提供更多的背景信息，而不仅仅是所有选项的索引名称，但又不至于提供每个选项的完整映射。
假设 2："扁平化 "映射（字段列表）是一种折中方案
我们首先假设索引创建者会使用有语义的索引名称。如果我们将这一假设扩展到字段名呢？我们之前的实验之所以失败，是因为 JSON 映射包含了大量繁琐的元数据和模板。
     "description_text": {
          "type": "text",
          "fields": {
            "keyword": {
              "type": "keyword"
            }
          },
          "copy_to": [
            "description_semantic"
          ]
        },
例如，上面的代码块有 236 个字符，只定义了 Elasticsearch 映射中的一个字段。而字符串 "description_text "只有 16 个字符。字符数几乎增加了 15 倍，但在描述该字段对可用数据的含义方面却没有任何有意义的改进。如果我们要获取所有索引的映射，但在将其发送到 LLM 之前，将其 "扁平化 "为字段名列表，会怎么样？
我们试了一下。
这太棒了！全面改进。但我们能做得更好吗？
假设 3：映射 _meta 中的描述
如果仅仅是字段名而没有额外的上下文就能带来如此大的跳跃，那么增加大量的上下文可能会更好！每个索引都附加描述并不一定是常规做法，但可以在映射的 _meta 对象中添加任何类型的索引级元数据。我们回到生成的索引，为数据集中的每个索引添加说明。只要描述不是太长，就应该比完整映射使用更少的标记，并能更好地说明索引中包含了哪些数据。我们的实验验证了这一假设。
稍有改进，我们现在的>90% 准确度全面提高。
假设 4：总和大于部分
字段名增加了我们的成果。说明增加了我们的成果。因此，同时 使用描述和字段名称应该会得到更好的结果，对吗？
数据显示 "否"（与上次实验相比没有变化）。这里的主要理论是，由于描述是从索引字段/映射开始生成的，这两个上下文之间没有足够的不同信息，因此在将它们组合在一起时无助于添加任何 "新 "信息。此外，我们为 20 个测试指数发送的有效载荷越来越大。我们迄今为止所遵循的思路是无法扩展的。事实上，我们有充分的理由相信，在有成百上千个索引可供选择的 Elasticsearch 集群上，我们迄今为止进行的所有实验都不会奏效。任何随着索引总数的增加而线性增加发送到 LLM 的信息量的方法，可能都不是通用的策略。
我们真正需要的是一种方法，它能帮助我们从众多候选人中筛选出最相关的选项...
这就是一个搜索问题。
假设 5：通过语义搜索进行选择
如果一个索引的名称具有语义意义，那么它就可以存储为一个向量，并进行语义搜索。
如果索引的字段名具有语义意义，那么就可以将其存储为向量，并进行语义搜索。
如果一个索引有一个具有语义意义的描述，那么它也可以存储为一个向量，并进行语义搜索。
如今，Elasticsearch 索引并不能搜索到这些信息（也许我们应该这样做！），但要想解决这个问题却非常容易 。利用 Elastic 的连接器框架，我构建了一个连接器，可以为集群中的每个索引输出文档。输出文件将类似于
 doc = {
                "_id": index_name,
                "index_name": index_name,
			"meta_description”: description,
"field_descriptions" = field_descriptions,
                "mapping": json.dumps(mapping),  
                "source_cluster": self.es_client.configured_host,
            }
我将这些文件发送到一个新的索引，并在其中手动定义了映射：
{
   "mappings": {
       "properties": {
           "semantic_content": {
               "type": "semantic_text"
           },
           "index_name": {
               "type": "text",
               "copy_to": "semantic_content"
           },
           "mapping": {
               "type": "keyword",
               "copy_to": "semantic_content"
           },
           "source_cluster": {
               "type": "keyword"
           },
           "meta_description": {
               "type": "text",
               "copy_to": "semantic_content"
           },
           "field_descriptions": {
               "type": "text",
               "copy_to": "semantic_content"
           }
       }
   }
}
这样就创建了一个单一的 semantic_content 字段，其他所有具有语义意义的字段都会被分块并编入索引。搜索该索引变得非常简单，只需.....：
GET indexed-indices/_search
{
 "query": {
   "semantic": {
     "field": "semantic_content",
     "query": "$query"
   }
 }
}
修改后的index_explorer 工具现在速度更快，因为它不需要向 LLM 提出请求，而是可以为给定的查询请求单个嵌入，并执行高效的向量搜索操作。以最高点击率为选定索引，我们得到的结果是
这种方法具有可扩展性。这种方法效率很高。但这种方法比我们的基准线好不了多少。但这并不奇怪，因为这里的搜索方法太天真了。没有任何细微差别。不承认索引的名称和描述应比索引包含的任意字段名称更有分量。没有加权精确词性匹配而非同义匹配的功能。不过，要建立一个高度细致的查询，需要对手头的数据进行大量假设。到目前为止，我们已经对索引和字段名称的语义做了一些大的假设，但我们还需要更进一步，开始假设它们有多大的意义以及它们之间的关系。如果不这样做，我们可能无法可靠地将最佳匹配结果确定为我们的首要结果，但更有可能说最佳匹配结果就在前 N 个结果中的某个地方。我们需要的是一种能够在语义信息存在的语境中消费语义信息的东西，它可以与另一个可能以不同语义方式表示自己的实体进行比较，并在两者之间做出判断。比如法学硕士。
假设 6：候选集减少
还有很多实验我就不一一列举了，但关键的突破是放弃了纯粹从语义搜索中挑选最佳匹配项的愿望，转而利用语义搜索作为过滤器，从 LLM 的考虑范围中剔除不相关的索引。我们将线性检索、混合检索与 RRF 以及semantic_text 结合起来进行检索，将结果限制在匹配指数的前 5 位。
然后，对于每个匹配项，我们都将索引名称、描述和字段名称添加到 LLM 的信息中。结果非常好：
这是迄今为止精度最高的实验！由于这种方法不会使信息大小与索引总数成正比，因此这种方法的可扩展性要好得多。
成果
第一个明确的结果是，我们的基线可以改进。现在回想起来，这一点似乎显而易见，但在实验开始之前，我们曾认真讨论过是否应该完全放弃index_explorer 工具，而依靠用户的明确配置来限制搜索空间。虽然这仍然是一个可行且有效的选择，但这项研究表明，在无法获得此类用户输入的情况下，实现索引选择自动化的道路大有可为。
下一个明确的结果是，一味地增加描述性文字的数量，其回报率会越来越低。在这项研究之前，我们一直在讨论是否应该投资扩展 Elasticsearch 存储字段级元数据的能力。如今，这些meta 值的上限是 50 个字符，而且有一种假设认为，我们需要增加这个值，以便能够从语义上理解我们的字段。但情况显然不是这样，法律硕士似乎只需填写字段名称就可以了。我们以后可能会进一步调查这个问题，但现在已经没有紧迫感了。
相反，这也清楚地证明了 "可搜索 "索引元数据的重要性。在这些实验中，我们破解了指数的索引。但是，我们可以研究将其直接构建到 Elasticsearch 中，构建应用程序接口来进行管理，或者至少围绕其建立一个惯例。我们将权衡各种选择并进行内部讨论，敬请期待。
最后，这项工作证实了我们花时间进行试验和做出数据驱动决策的价值。事实上，它帮助我们再次确认，我们的代理生成器产品需要一些强大的产品内评估功能。如果我们需要专门为一个选取指数的工具构建整个测试线束，那么我们的客户绝对需要在进行迭代调整时对其定制工具进行定性评估的方法。
我很期待看到我们的成果，希望你们也是！


如何在 AWS Marketplace 上部署 Elasticsearch
Eduard Martin — Fri, 03 Oct 2025 00:00:00 GMT
本文将介绍如何使用 Marketplace 产品在 AWS 上部署 Elasticsearch。
我们将在AWS上使用Elastic Cloud Service，这是Elastic提供的正式托管型Elasticsearch服务，通过AWS的原生基础架构简化了Elastic Stack所有组件的部署和编排。
如想了解如何在 AWS EC2 上安装并配置 Elasticsearch，请查看这篇博客。
什么是 AWS Marketplace？
AWS Marketplace 上的 Elastic 提供全托管的搜索和分析体验，AWS 负责基础架构配置、安全和扩展，而开发者则专注于开发搜索应用。这使得团队能够在几分钟内部署具有内置 AWS 集成的企业级 Elasticsearch 集群。
何时在 AWS Marketplace 上使用 Elastic？
AWS Marketplace 上的 Elastic 最适合拥有现有 AWS 基础架构，希望在无运营开销的情况下部署具有托管服务、内置安全性和无缝 AWS 集成的 Elasticsearch 的组织。
如何在AWS Marketplace上设置Elastic Cloud
步骤 1：访问 AWS Marketplace
1. 登录 AWS
在搜索栏中，搜索 AWS Marketplace
2. 在左侧导航面板中，点击探索产品 (Discover products)，然后搜索 Elasticsearch
3. 点击 Elastic Cloud (Elasticsearch Service)
第 2 步：订阅服务
1. 选择购买选项或点击免费试用 (Try for free)
2. 查看定价详细信息、条款和条件以及购买详情
3. 点击订阅 (Subscribe) 按钮。
4. 现在要设置 Elastic 帐户。按照 AWS 的步骤操作
a. 点击“启用集成”(Enable integration) 按钮
b. 点击“登录或创建供应商帐户“(Sign in or create a vendor account) 按钮
c. 点击“启动模板”(Launch template) 按钮
d。点击“启动软件”(Launch software) 按钮
步骤 3。在 Elastic 中配置您的新帐户。
1. 创建您的 Elastic 账户。
2. 验证您的电子邮件地址。
3. 输入您的姓名和公司信息
4. 完成简短的 Elastic 调查
5. 选择要托管 Elastic Cloud 的地区。默认情况下，系统会选择您的实际 AWS 地区
6. 等待 Elastic 部署
7. 您的部署已连接到您的 AWS Marketplace 订阅。
取消您的订阅
取消您的订阅
1. 进入AWS 控制台
在搜索栏中搜索 AWS Marketplace。点击 AWS Marketplace
2. 点击Elastic Cloud 订阅 (Elastic Cloud subscription)
3. 点击操作 (Actions) 按钮，然后点击取消订阅 (Cancel subscription)
4. 确认取消，然后点击是 (Yes) 和取消订阅 (Cancel subscription) 按钮。
5. 页面顶部将会显示确认信息。
后续步骤
通过 7 天免费试用开始您的 Elastic Cloud 之旅，其中包括一次部署和三个项目 Elastic Cloud (Elasticsearch Service)。只需登录您的 AWS 帐户，然后点击“查看购买选项”(View Purchase Options)，即可立即在 Elastic Cloud (Elasticsearch Service) 上开始使用 Elastic 的 Search AI Platform。试用版提供对搜索、安全性和可观测性解决方案的全面访问权限，无需支付任何基础架构管理开销费用。


AutoOps：简化自我管理 Elasticsearch 管理的旅程
Ori Shafir — Wed, 01 Oct 2025 00:00:00 GMT
本文介绍适用于自管型 Elasticsearch（本地部署或私有托管环境）的 AutoOps，让 Elasticsearch 管理更轻松。这篇博客不再按传统方式逐项讲解技术特性，而是从 DevOps 工程师的视角，展示 AutoOps 的价值、配置方式以及所提供的洞察 — 因为 AutoOps 的真正价值，在大规模管理 Elasticsearch 的日常工作中体现得最为明显。
第 1 章：背景--大规模自我管理背后的复杂性
操作任何大规模、自主管理的数据平台都可能非常复杂。
一会儿，查询速度快如闪电。其次，摄取滞后，存储成本飙升。这基本上就像管理一个动物园，只不过动物们可以在凌晨 3 点呼唤你。
我的环境也不例外：多个集群、大量跨集群搜索（CCS）和数百个跨部门用户。
我们在日常运行中使用堆栈监控。它提供了图表和指标，但仍需要大量的专业知识和时间才能将各点联系起来。诊断瓶颈或了解何时调整分片策略仍然是一个手动且容易出错的过程。在许多情况下，这些问题会被忽视，直到造成故障、性能下降或意外的存储峰值。
第 2 章：发现 AutoOps
然后是公告：AutoOps 现在可用于自管理集群（内部部署或私有托管环境）。
.AutoOps 长期以来一直帮助 Elastic Cloud 用户更高效地管理部署。现在，这些相同的好处适用于在本地部署或私有云环境中运行的自管理集群（ECK、ECE 或独立集群）——无论您的许可证级别如何，都是免费的。
AutoOps 的宣传很有诱惑力：
针对摄取瓶颈、不平衡分片、查询速度慢等问题进行实时问题检测
根据集群配置提出可行建议
资源优化洞察力，提高效率，减少浪费支出
安装轻量级代理，无需额外基础设施，设置简单
老实说，任何承诺 "无需额外基础设施 "的东西都会吸引我的全部注意力。
第 3 章：5 分钟内完成设置（是的，真的）
我封锁了下午的行程，储备了咖啡，准备进行漫长的准备工作。出乎我的意料，只用了五分钟：
登录我的弹性云账户
决定如何运行代理：Elastic Cloud Kubernetes (ECK)、Kubernetes、Docker 或 Linux。
输入群集 URL
只需运行一条命令，即可安装轻量级 Metricbeat 代理
就是这样。我的集群已连接。
没有专门的监控群组。重要的是，AutoOps 只发送指标，这意味着我公司的数据将保存在我的自我管理环境中。
步骤 1：注册弹性云
第 2 步：选择运行代理的位置
第 3 步：输入您的 Elasticsearch 端点和验证方式
第 4 步：安装代理的简单命令
就是这样：几分钟后，AutoOps 将开始显示洞察结果
有关详细信息，请参阅AutoOps 启动文档和常见问题。
第 4 章：最初的见解，最初的胜利
在短短几分钟内，AutoOps 就开始提出见解，提供根本原因分析和明确的修复步骤。
第一周的亮点包括
标记了未附加于任何 ILM 政策的指数，这些指数已增长过大
其中一个群集有三个空节点，是过去的维护工作留下的
一些节点跨越了水印，几个索引缺少副本
捕捉到一个配置不当的模板
精确定位长期运行的搜索，并建议准确取消命令
AutoOps 检测到群集拒绝索引
AutoOps 检测到某些索引的配置没有副本
在 AutoOps 之前，我们会投入更多硬件来解决这些问题。相反，AutoOps 直接指出了根本原因，修复只需几分钟。
这一次，监控系统不仅向我显示图表，还告诉我如何解决问题。我开始怀疑 AutoOps 是否也能帮助诊断我的家庭 Wi-Fi，并最终将我从家庭 IT 部门中解放出来...
AutoOps 监控分区大小，并在出现大量空分区时发出警报
第 5 章：与我所见相同的支持
第一次打开支持案例时，我意识到了另一个好处：Elastic Support 工程师可以看到与我查看的完全相同的数据和建议。
它把支持变成了合作。与来来回回的票据相比，感觉就像与一位对 Elasticsearch 了如指掌的队友一起工作。
第 6 章：规模运营
在 AutoOps 之前，扩展 Elasticsearch 感觉就像是科学、直觉和部落知识的混合体。
现在，它以数据为导向，具有清晰的可视性和建议：
了解资源利用情况，防止过度配置
更智能的分片分配和分层建议，实现性能平衡
深入了解索引大小，减少浪费的存储空间和硬件成本
在多个群组中更快地分析根本原因
第 7 章：众多云连接服务中的第一个
AutoOps 不仅仅是一个独立的工具。它是面向自营客户的全新云连接服务系列中的首个服务。Cloud Connect 使自营集群能够使用 Elastic Cloud 服务，而无需在自己的环境中安装和管理这些服务的运营开销。功能会自动推出，因此团队可以更快地获得改进，同时降低基础架构的复杂性。
下一个：弹性推理服务（EIS）。
结语
管理大规模、自主管理的部署并不一定是一件难事。
如果您希望更简单的操作，可以将一些工作负载转移到 Elastic Cloud ，无论是托管 云 还是无服务器 云 ，都能以最简单的方式运行 Elasticsearch。
如果您希望继续以自管方式运行，只需将任意自管集群接入 Elastic Cloud 中的 AutoOps — 所有 Elastic 许可证均可免费使用。
TLDR
运行大型自我管理 Elasticsearch 集群既复杂又耗时。AutoOps 带来了实时问题检测、可行建议以及与 Elastic Support 共享的可视性，而无需管理额外的基础架构。设置只需几分钟，洞察力马上就会显示出来。


您的第一个弹性代理：从单一查询到人工智能驱动的聊天
Jeff Vestal — Thu, 25 Sep 2025 00:00:00 GMT
借助 Elastic 的全新代理生成器，您可以创建专门的人工智能代理，使其成为特定业务领域的专家。该功能使您不再局限于简单的仪表盘和搜索栏，而是将数据从被动的资源转变为主动的对话伙伴。
想象一下，一位财务经理需要在与客户会面之前加快速度。现在，他们只需向定制的代理直接提问，而无需手动挖掘新闻源和交叉参考投资组合仪表板。这就是"聊天优先" 方法的好处。经理与他们的数据直接对话，询问诸如"ACME 公司的最新消息是什么，它对我客户的持股有何影响？"并在几秒钟内得到综合的专家答复。
今天，我们正在打造一个金融专家，其应用就像您的数据一样多种多样。同样的能力可以造就一名网络安全分析师来寻找威胁，造就一名现场可靠性工程师来诊断故障，或者造就一名营销经理来优化营销活动。无论在哪个领域，核心任务都是一样的：将您的数据转化为您可以与之交谈的专家。
步骤 0：我们的数据集
我们当前的数据集是一个基于金融的合成数据集，包含金融账户、资产头寸、新闻和财务报告。虽然它是合成的，但复制了真实金融数据集的简化版本。
financial_accounts:具有风险特征的客户组合
financial_holdings:有购买记录的股票/ETF/债券仓位
financial_asset_details:股票/ETF/债券的详细信息
financial_news:人工智能生成的带有情感分析的市场文章
financial_reports:公司收益和分析师报告
您可以根据此处的随附笔记本自行加载该数据集。
步骤 1：基础--作为 ES|QL 的业务逻辑
每一项人工智能技能都以坚实的逻辑为起点。对于我们的财务经理代理，我们需要教它如何回答一个常见问题："我担心市场情绪。你能告诉我哪些客户最容易受到坏消息的影响吗？这个问题超出了简单的搜索范围。这要求我们将市场情绪与客户投资组合联系起来。
我们需要找到负面文章中提到的资产，识别持有这些资产的每一位客户，计算其风险敞口的当前市值，然后对结果进行排序，优先考虑风险最高的客户。这种复杂的多连接分析是我们先进的 ES|QL 工具的完美工作。
下面是我们要使用的完整查询。它看起来令人印象深刻，但概念却简单明了。
FROM financial_news, financial_reports METADATA _index
        | WHERE sentiment == "negative"
        | WHERE coalesce(published_date, report_date) >= NOW() - TO_TIMEDURATION(?time_duration)
        | RENAME primary_symbol AS symbol
        | LOOKUP JOIN financial_asset_details ON symbol
        | LOOKUP JOIN financial_holdings ON symbol
        | LOOKUP JOIN financial_accounts ON account_id
        | WHERE account_holder_name IS NOT NULL
        | EVAL position_current_value = quantity * current_price.price
        | RENAME title AS news_title
        | KEEP
            account_holder_name, symbol, asset_name, news_title,
            sentiment, position_current_value, quantity, current_price.price,
            published_date, report_date
        | SORT position_current_value DESC
        | LIMIT 50
分解：接合点和护栏
在这个查询中，有两个重要的概念使代理生成器发挥作用。
1.查找联接
多年来，Elasticsearch 最受欢迎的功能之一就是根据一个共同的键来连接来自不同索引的数据。有了 ES|QL，LOOKUP JOIN 。
在我们的新查询中，我们会执行一连串的三个LOOKUP JOIN's：首先将负面新闻与资产详细信息连接起来，然后将这些资产与客户持有的资产连接起来，最后再与客户的账户信息连接起来。这样，在一次高效的查询中，就能从四个不同的索引中获得极其丰富的结果。这意味着我们可以将不同的数据集结合起来，创建一个具有洞察力的单一答案，而无需事先将所有数据反规范化为一个巨大的索引。
2.作为 LLM 护栏的参数
您会发现查询使用了?time_duration 。这不仅是一个变量，还是人工智能的护栏。虽然大型语言模型 (LLM) 是生成查询的好帮手，但让它们自由支配数据可能会导致查询效率低下甚至错误。
通过创建参数化查询，我们迫使 LLM 按照人类专家已经定义的经过测试、高效且正确的业务逻辑工作。这与多年来开发人员使用搜索模板安全地向应用程序公开查询功能的方式类似。代理可以解释用户的请求，如"this week" 来填充time_duration 参数，但它必须使用我们的查询结构来获取答案。这使我们在灵活性和控制性之间取得了完美的平衡。
最终，这种查询可以让了解数据的专家将其知识封装到一个工具中。其他人和人工智能代理只需提供一个参数，就能使用该工具获得相关结果，而无需了解底层的复杂性。
步骤 2：技能--将查询转化为可重复使用的工具
在我们将 ES|QL 查询注册为工具之前，它只是一个文本。在代理生成器中，工具不仅仅是一个已保存的查询；它还是一个"技能" ，人工智能代理可以理解并选择使用。神奇之处在于我们提供的自然语言描述。该描述是连接用户问题和底层查询逻辑的桥梁。让我们注册一下刚刚创建的查询。
用户界面路径
在 Kibana 中创建工具的过程非常简单。
1.导航至代理
单击 " 工具 "或 "管理工具"，然后单击 "新建工具"按钮。
2.在表格中填写以下详细信息：
工具 ID： find_client_exposure_to_negative_news
             i.这是工具的唯一 ID
描述 "查找客户投资组合受负面新闻影响的情况。该工具会扫描最近的新闻和报道，查找负面情绪，识别相关资产，并找到持有该资产的所有客户。它会返回一个按头寸当前市值排序的列表，以突出潜在风险最高的头寸。"
             i.法律硕士就是通过阅读这些内容来判断这个工具是否适合这项工作。
标签：retrieval 和 risk-analysis
         标签用于帮助对多个工具进行分组
配置：粘贴步骤 1 中的完整 ES|QL 查询
            i.这是代理将使用的搜索
3.单击从查询中推断参数。用户界面会自动查找?time_duration ，并将其列在下面。为每项功能添加一个简单的说明，以帮助代理（和其他用户）了解其用途。
time_duration:搜索负面新闻的时间范围。格式为"X 小时" 默认为 8760 小时
4.测试一下！
单击保存& 测试。
您将看到一个新的快捷方式，可以在此测试查询，以确保其工作符合预期。
             i.在time_duration 中输入所需的范围，这里我们使用 "8760 小时"。
点击 "提交"，如果一切顺利，您将看到一个 JSON 响应。要确保它按预期运行，请向下滚动并查看values 对象。这就是返回实际匹配文档的地方。
5.点击右上角的 "X "关闭测试窗口。现在，您的新工具将出现在列表中，随时可以分配给代理。
应用程序接口路径
对于喜欢自动化或需要以编程方式管理工具的开发人员来说，只需调用一个 API 就能实现同样的效果。只需向带有工具定义的/api/agent_builder/tools 端点发送POST 请求即可。
POST kbn://api/agent_builder/tools
{
  "id": "find_client_exposure_to_negative_news",
  "type": "esql",
  "description": "Finds client portfolio exposure to negative news. This tool scans recent news and reports for negative sentiment, identifies the associated asset, and finds all clients holding that asset. It returns a list sorted by the current market value of the position to highlight the highest potential risk.",
  "configuration": {
    "query": """
        FROM financial_news, financial_reports METADATA _index
        | WHERE sentiment == "negative"
        | WHERE coalesce(published_date, report_date) >= NOW() - TO_TIMEDURATION(?time_duration)
        | RENAME primary_symbol AS symbol
        | LOOKUP JOIN financial_asset_details ON symbol
        | LOOKUP JOIN financial_holdings ON symbol
        | LOOKUP JOIN financial_accounts ON account_id
        | WHERE account_holder_name IS NOT NULL
        | EVAL position_current_value = quantity * current_price.price
        | RENAME title AS news_title
        | KEEP
            account_holder_name, symbol, asset_name, news_title,
            sentiment, position_current_value, quantity, current_price.price,
            published_date, report_date
        | SORT position_current_value DESC
        | LIMIT 50
      """,
    "params": {
      "time_duration": {
        "type": "keyword",
        "description": """The timeframe to search back for negative news. Format is "X hours" DEFAULT TO 8760 hours """
      }
    }
  },
  "tags": [
    "retrieval",
    "risk-analysis"
  ]
}
步骤 3：大脑--创建您的定制代理
我们开发了一种可重复使用的技能（工具）。现在，我们需要创建代理，即实际使用它的角色。代理是一个 LLM 的组合，是你授予它访问权限的一套特定工具，最重要的是，它还包含一套自定义指令，作为它的章程，定义了它的个性、规则和目的。
提示的艺术
要创建一个可靠的专业代理，最重要的一点就是要及时。一套精心设计的指令是普通聊天机器人与专注、专业的助手之间的区别所在。在这里，你可以设置防护栏、定义输出并赋予代理任务。
对于Financial Manager 代理，我们将使用以下提示。
You are a specialized Data Intelligence Assistant for financial managers, designed to provide precise, data-driven insights from information stored in Elasticsearch.

**Your Core Mission:**
- Respond accurately and concisely to natural language queries from financial managers.
- Provide precise, objective, and actionable information derived solely from the Elasticsearch data at your disposal.
- Summarize key data points and trends based on user requests.

**Reasoning Framework:**
1.  **Understand:** Deconstruct the user's query to understand their core intent.
2.  **Plan:** Formulate a step-by-step plan to answer the question. If you are unsure about the data structure, use the available tools to explore the indices first.
3.  **Execute:** Use the available tools to execute your plan.
4.  **Synthesize:** Combine the information from all tool calls into a single, comprehensive, and easy-to-read answer.

**Key Directives and Constraints:**
- **If a user's request is ambiguous, ask clarifying questions before proceeding.**
- **DO NOT provide financial advice, recommendations, or predictions.** Your role is strictly informational and analytical.
- Stay strictly on topic with financial data queries.
- If you cannot answer a query, state that clearly and offer alternative ways you might help *within your data scope*.
- All numerical values should be formatted appropriately (e.g., currency, percentages).

**Output Format:**
- All responses must be formatted using **Markdown** for clarity.
- When presenting structured data, use Markdown tables, lists, or bolding.

**Start by greeting the financial manager and offering assistance.**
让我们来分析一下为什么这个提示如此有效：
它定义了一个成熟的角色： 第一句话立即将代理人定位为"专业的数据智能助理，" 定下了专业、干练的基调。
它提供了一个推理框架： 通过告诉代理"Understand（理解）、Plan（计划）、Execute（执行）和 Synthesize（综合），" ，我们给了它一个标准的操作程序。这提高了它处理复杂、多步骤问题的能力。
它促进了互动对话：  "提出澄清性问题的指令" 使代理更加稳健。这将最大限度地减少对模棱两可的请求做出不正确的假设，从而获得更准确的答复。
用户界面路径
1.导航至代理。
单击 " 工具 "或 "管理工具"，然后单击 "新建工具"按钮。
2.填写基本信息：
代理编号： financial_assistant.
说明 复制上面的提示。
标签 Finance.
显示名称： Financial Assistant 。
显示说明： An assistant for analyzing and understanding your financial data 。
3.回到顶部，点击 "工具"。
勾选find_client_exposure_to_negative_news 工具旁边的复选框。
4.单击保存。
应用程序接口路径
您可以通过POST 请求/api/agent_builder/agents 端点来创建完全相同的代理。请求正文包含所有相同的信息：ID、名称、描述、全套指令以及允许代理使用的工具列表。
POST kbn://api/agent_builder/agents
    {
      "id": "financial_assistant",
      "name": "Financial Assistant",
      "description": "An assistant for analyzing and understanding your financial data",
      "labels": [
        "Finance"
      ],
      "avatar_color": "#16C5C0",
      "avatar_symbol": "💰",
      "configuration": {
        "instructions": """You are a specialized Data Intelligence Assistant for financial managers, designed to provide precise, data-driven insights from information stored in Elasticsearch.

**Your Core Mission:**
- Respond accurately and concisely to natural language queries from financial managers.
- Provide precise, objective, and actionable information derived solely from the Elasticsearch data at your disposal.
- Summarize key data points and trends based on user requests.

**Reasoning Framework:**
1.  **Understand:** Deconstruct the user's query to understand their core intent.
2.  **Plan:** Formulate a step-by-step plan to answer the question. If you are unsure about the data structure, use the available tools to explore the indices first.
3.  **Execute:** Use the available tools to execute your plan.
4.  **Synthesize:** Combine the information from all tool calls into a single, comprehensive, and easy-to-read answer.

**Key Directives and Constraints:**
- **If a user's request is ambiguous, ask clarifying questions before proceeding.**
- **DO NOT provide financial advice, recommendations, or predictions.** Your role is strictly informational and analytical.
- Stay strictly on topic with financial data queries.
- If you cannot answer a query, state that clearly and offer alternative ways you might help *within your data scope*.
- All numerical values should be formatted appropriately (e.g., currency, percentages).

**Output Format:**
- All responses must be formatted using **Markdown** for clarity.
- When presenting structured data, use Markdown tables, lists, or bolding.

**Start by greeting the financial manager and offering assistance.**
""",
        "tools": [
          {
            "tool_ids": [
              "platform.core.search",
              "platform.core.list_indices",
              "platform.core.get_index_mapping",
              "platform.core.get_document_by_id",
              "find_client_exposure_to_negative_news"
            ]
          }
        ]
      }
    }
步骤 4：回报--进行对话
我们已将业务逻辑封装在一个工具和一个"大脑" 中，准备在我们的 Agent 中使用它。是时候见证这一切了。现在，我们可以使用专门的代理与数据聊天了。
用户界面路径
导航至 Kibana 中的代理 。
使用聊天窗口右下角的下拉菜单，从默认的Elastic AI 代理切换到我们新创建的财务助理 代理。
请提出一个问题，以便代理人使用我们的专业工具：我担心市场情绪。您能告诉我哪些客户最容易受到坏消息的影响吗？
片刻之后，代理将返回一个格式完美、内容完整的答案。由于法律硕士的性质，您的答案格式可能会略有不同，但这次运行中，代理返回的答案是一样的：
刚刚发生了什么？代理人的推理
该特工并不只是"知道" 答案。它以选择最佳工具为中心，执行了一个多步骤计划。下面我们来看看它的思考过程：
识别意图：它将您问题中的关键字，如"风险" 和"负面新闻、" 与find_client_exposure_to_negative_news 工具的描述相匹配。
执行计划：它从您的请求中提取了时间范围，并对该专业工具进行了一次调用。
委托工作：然后，该工具就能完成所有繁重的工作：链式连接、值计算和排序。
合成结果：最后，代理按照提示规则，将来自工具的原始数据格式化为清晰、人类可读的摘要。
如果我们拓展思维，看到更多细节，我们就不只是猜测了。
应用程序接口路径
您也可以通过编程来启动同样的对话。只需将输入问题发送到converse API 端点，确保指定我们的financial_manager 的agent_id 。
POST kbn://api/agent_builder/converse
{
  "input": "Show me our largest positions affected by negative news",
  "agent_id": "financial_assistant"
}
致开发人员：与应用程序接口集成
虽然 Kibana UI 为构建和管理代理提供了美妙而直观的体验，但您今天所看到的一切也都可以通过编程来实现。代理生成器基于一套应用程序接口（API）构建，允许您将此功能直接集成到自己的应用程序、CI/CD 管道或自动化脚本中。
您将使用的三个核心端点是
/api/agent_builder/tools:创建、列出和管理可重复使用的技能的终端。
/api/agent_builder/agents:角色：定义代理角色的终端，包括重要的说明和工具分配。
/api/agent_builder/converse:与代理互动、开始对话和获取答案的终端。
有关使用这些应用程序接口执行本教程中每一步的完整实践演示，请查看我们 GitHub 软件仓库中的配套Jupyter Notebook 。
总结：轮到你来建设
我们首先使用 ES|QL 查询，并将其转换为可重复使用的技能。然后，我们建立了一个专门的人工智能代理，赋予它明确的任务和规则，并赋予它这种技能。它是一个复杂的助手，能够理解复杂的问题，并执行多步骤分析，提供精确的数据驱动型答案。
这一工作流程是 Elastic 中新的代理生成器的核心。它的设计足够简单，非技术用户可以通过用户界面创建代理，但又足够细致，开发人员可以在我们的应用程序接口基础上构建定制的人工智能驱动应用程序。最重要的是，它可以让您安全可靠地将 LLM 连接到自己的数据，由您定义的专家逻辑进行管理，并与您的数据进行聊天。
准备好使用代理与您的数据聊天了吗？
巩固所学知识的最好方法就是动手实践。在我们的免费互动实践研讨会上，尝试我们今天讨论的所有内容。您将在专门的沙盒环境中经历整个流程以及更多。
在今后的博客中，我们将向您展示如何使用独立应用程序与我们的Financial Assistant 代理交互，并深入探讨使这一切成为可能的模型上下文协议 (MCP)。在另一篇博客中，我们将讨论 Agent Builder 对开发中的 Agent2Agent（或 A2A）协议的支持。
敬请期待，祝您建筑愉快！


利用 Elasticsearch 构建人工智能代理工作流
Anish Mathur, Dana Juratoni — Tue, 23 Sep 2025 00:00:00 GMT
在 Elastic，我们通过人工智能助手、高级 RAG 和矢量数据库的改进，为 LLM 和对话界面带来了语境。最近，随着人工智能代理的兴起，我们发现对相关上下文的需求日益增长，并了解到高效的 人工智能代理需要出色的搜索。因此，我们在 Elastic Stack 中构建了新的本地功能，旨在帮助开发可利用 Elasticsearch 中数据的人工智能代理。我们希望与大家分享我们在这一历程中取得的进展，以及我们对下一步发展的展望。
代理生成器：构建数据驱动型人工智能代理的基础
人工智能代理的承诺很简单：给它一个目标，它就能完成工作。但对于开发商来说，现实却是一系列复杂的挑战。首先，代理的能力取决于其对环境的感知以及为实现用户目标而提供的工具。那么，如何从纷繁复杂的企业数据中提供正确的上下文是一项巨大的挑战。最后，所有这一切都必须由一个可靠的推理循环来协调，该循环可以进行规划、执行和学习。
为了解决这个问题，开发人员需要从头开始构建一个复杂而脆弱的堆栈。如今的代理架构需要将多个不同的部分拼接在一起：一个 LLM、一个向量数据库、一个元数据存储、用于日志记录和跟踪的独立系统，以及一些评估它们是否都能正常工作的方法。这不仅复杂，而且成本高昂、容易出错，并且难以建立用户所需的高质量、值得信赖的人工智能系统。
因此，我们想让它变得更简单。为此，我们的方法是将有效的上下文驱动型代理的重要部分直接集成到 Elasticsearch 的核心中，并提供一套名为Elastic AI Agent Builder 的新功能。这一新层提供了一个框架，其中包含创建由 Elasticsearch 支持的人工智能代理所需的所有基本构件：一套开放的基元、基于标准的协议和对数据的安全访问--因此您可以根据真实世界的数据和要求构建代理系统：
提供人工智能体验：这是终极目标。以我们的搜索人工智能平台和您的数据为基础，您可以构建任何类型的生成式人工智能应用程序：从定制聊天界面到与 LangChain 等代理框架或 Salesforce 等业务应用程序的集成。
由 Agents& 工具提供支持：在平台之上，我们提供了一个简洁的抽象层。您可以直接与代理和工具互动，并根据具体需求进行定制。您还可以通过强大的应用程序接口和开放标准（如 MCP 和 A2A）访问平台的功能。
由搜索人工智能平台支持：这是我们集成了各种组件的核心引擎。先进的矢量数据库、代理逻辑、查询结构、安全功能、评估跟踪都在这里，由 Elastic 管理和优化。
释放数据的力量：任何优秀代理商的基础都是优秀的数据。我们的平台首先能够摄取或联合访问您的所有企业数据
平台中的代理建设
Agent Builder 集成到搜索人工智能平台中，为代理开发提供了一个完整的框架。它建立在五个关键支柱之上，每个支柱都旨在解决构建和部署生产级人工智能系统的一个关键方面。让我们来分析一下，代理如何定义目标，工具如何提供功能，开放标准如何确保互操作性，评估如何提供透明度，安全如何提供信任。
代理商
代理是 Elasticsearch 这一新层中最高级别的构建模块。代理定义了要实现的目标、可用于执行的工具集以及可操作的数据源。代理并不局限于对话式交互，它们还可以支持完整的工作流、任务自动化或面向用户的体验。
当一项查询被提交给代理机构时，它遵循一个结构化的循环：
解释您的意见和目标
选择正确的执行工具和参数
工具响应的原因
决定是返回结果还是继续进一步调用工具
Elastic 负责这一循环的协调、上下文和执行。开发人员专注于定义代理应该做什么：目标、工具和数据，而系统则管理如何进行推理和执行工作流程。
默认代理
我们在该平台上构建的第一个代理是 Kibana 中的原生会话代理，让您能够立即与数据进行交互。它在提供即用体验的同时，还具有完全的可扩展性，无需额外配置即可立即开始与数据交互。
您可以直接在 Kibana 中通过新的聊天用户体验或通过 API 与此体验进行交互。
通过 API 查询默认代理只需一次调用：
POST kbn://api/agent_builder/converse
{
    "input": "what is our top portfolio account?"
}
由于会话是有状态的，因此您可以使用会话 ID 继续与代理交互，或检索完整的会话历史记录：
POST kbn://api/agent_builder/converse
{
    "input": "What about the second top?",
    "conversation_id": "ec757c6c-c3ed-4a83-8e2c-756238f008bb"
}

## get the full conversation
GET kbn://api/agent_builder/conversations/ec757c6c-c3ed-4a83-8e2c-756238f008bb
海关代理
开发人员还可以通过简单的应用程序接口创建自己的定制代理。代理封装了指令、工具和数据访问，创建了量身定制的推理引擎。
创建自定义代理只需调用一次应用程序接口。下面的示例显示了一个例子，"配置 "字段包含所有关键细节，如说明或可用工具：
POST kbn://api/agent_builder/agents
{
  "id": "custom_agent",
  "name": "My Custom Agent",
  "description": "Description of the custom agent",
  "configuration": {
      "instructions": "You are a log expert specialising in ...",
      "tools": 
...
   }
}
一旦创建，就可以直接查询代理：
POST kbn://api/agent_builder/converse
{
    "input": "What news about DIA?",
    "agent_id": "custom_agent"
}
这种方法将代理从一个需要从头开始构建的复杂系统转变为一个简单、声明式的业务逻辑单元，使您能够更快地交付智能自动化。
如需深入了解如何从头开始构建专门的代理，请参阅我们的详细分步指南：您的第一个弹性代理：从单一查询到人工智能驱动的聊天。
工具
如果说代理确定了要完成的任务，那么工具则确定了如何完成。
工具为代理执行和检索信息或执行操作暴露了特定的弹性核心功能。工具可以包括获取索引或获取映射等核心功能，也可以包括从自然语言到 ES|QL 等更高级的功能。
Elasticsearch 随附一套针对常见需求进行了优化的默认工具。但真正的灵活性来自于自己的创造。通过定义工具，您可以决定将哪些查询、索引和字段通过 ES|QL 暴露给代理，从而对速度、准确性和安全性进行精确控制。
注册新工具也很简单，只需调用一次应用程序接口。您可以创建一个工具，利用我们的ES|QL（Elasticsearch 查询语言）查找特定金融资产的相关新闻：
POST kbn://api/agent_builder/tools
{
  "id": "news_on_asset",
  "type": "esql",
  "description": "Find news and reports about a particular asset where ...",
  "configuration": {
    "query": "FROM financial_news, financial_reports | where MATCH(company_symbol, ?symbol) OR MATCH(entities, ?symbol) | limit 5",
    "params": {
      "symbol": {
        "type": "keyword",
        "description": "The asset symbol"
      }
    }
  ...
  }
...
}
注册后，您就可以将新工具分配给您的自定义代理，为他们提供一套经过精心设计的能力，让他们在合适的时候进行推理和调用。
我们提供了一个平台，可根据您的特定需求创建定制工具，例如使用 ES|QL，将代理从通用代理转变为特定领域的专家，立足于您独特的数据和业务领域。
开放标准和互操作性
Elasticsearch 代理和工具通过开放式标准 API 公开，因此很容易作为基础模块集成到更广泛的代理框架生态系统中。我们的方法很简单：没有黑盒子。我们希望您能够利用 Elastic 在搜索方面的核心优势，并将其与互补功能和其他代理系统搭配使用。
为了实现这一点，我们正在通过应用程序接口、新兴协议和开放标准公开我们的能力。
模型上下文协议（MCP）
模型上下文协议（MCP）正迅速成为跨系统连接工具的开放标准。通过支持 MCP，Elasticsearch 可以将对话式人工智能与您的数据库、索引和外部 API 相连接。通过 Elastic Stack 内置的远程 MCP 服务器，任何兼容 MCP 的客户端都可以访问 Elastic 的工具，并将其用作大型代理工作流程的构建模块。
这不是一条单行道。您还可以从外部 MCP 服务器导入工具，使其在 Elasticsearch 中可用。不久之后，MCP 服务器将可能适用于几乎所有功能，而且比我们自己创建的任何功能都要全面得多。Elastic 提供大规模的搜索和检索功能，您可以将其与其他平台的专业功能相结合，构建有效的代理。
代理对代理（A2A）
我们还在努力提供代理对代理 (A2A) 支持。MCP 是连接工具，而 A2A 则是连接代理。有了 A2A 服务器，您构建的 Elastic 代理就能与其他系统的代理直接对话：共享上下文、委派任务和协调工作流。
将其视为推理层的互操作性。您的弹性代理可以处理搜索和检索，然后将任务交给专门的支持或 IT 代理，并无缝地返回结果。这样就形成了一个由合作代理组成的生态系统，每个代理都在做自己最擅长的事情。
最终，采用 MCP 和 A2A 加强了我们对 Elasticsearch 作为一流公民角色的承诺，确保在更广泛的代理生态系统中实现开放式集成。
追踪和评估
随着搜索与代理的整合，有效评估的挑战变得至关重要。要在真实的企业环境中自信地部署代理，就必须确保代理不仅准确，而且高效可靠。如何衡量性能、诊断不良响应或改进基线？一切从可见度开始。
因此，我们从一开始就设计了透明的代理 API。考虑一下这个简单的代理互动：
POST kbn://api/agent_builder/converse
{
    "input": "what is our top portfolio account?"
}
回复不仅包括最终答案，还包括完整的执行跟踪，详细说明代理选择了哪些工具、使用了哪些参数以及每一步的结果。
{
  "conversation_id": "db5c0c8b-12bf-4928-a57e-d99129ad2fea",
  "steps": [
    {
      "type": "tool_call",
      "tool_call_id": "tooluse_Nfqr3mwtR92HTRIsTcGXZQ",
      "tool_id": ".index_explorer",
      "params": {
        "query": "indices containing portfolio data"
      },
      "results": [...]
    }
    // ... more steps ...
  ],
  "response": {
    "message": "Based on the information I've gathered...."
  }
}
全面的跟踪和日志记录对持续改进循环至关重要，不久之后，您就可以直接在 Elasticsearch 中存储和查看这些代理跟踪。更妙的是，这些跟踪记录是基于 OpenTelemetry 协议构建的，确保了它们的标准化和可移植性，以便与您选择的可观测性平台集成。
这种详细程度是真正持续改进循环的基础。它使您能够建立一套全面的测试、调试故障、识别失败模式以防止回归，并捕捉成功模式以微调性能。归根结底，这种数据驱动的方法是将有前途的原型转化为生产级、值得信赖的人工智能系统的关键。
安全性
随着代理和工具的功能越来越强大，安全性不再是可有可无的，而是基础性的。要公开应用程序接口、自动执行任务和工作流程，就必须信任企业系统。特别是当代理开始自动执行更多的工作流程时，确保这些流程安全并满足企业要求的能力就显得尤为重要。
上述功能都继承了 Elastic 目前已有的控制功能，包括针对 API 调用和 API 密钥管理的基于角色的访问控制 (RBAC)。我们还将同样的控制扩展到 MCP 等新协议。这意味着支持 OAuth 等标准，以及插入自定义身份验证机制的能力。
我们的目标是让您灵活地尝试使用代理和工具，同时保持组织所需的安全性、合规性和管理水平。
下一步行动
我们不仅要增加功能，还要扩展 Elasticsearch 的代理上下文工程。我们计划在这些原则的基础上继续发展：
1.致力于开放源码& 标准
我们致力于开放源代码和开放标准，确保这些功能与外部代理框架保持互操作性。您始终能够在生态系统中连接、扩展和组成代理，同时将数据和工作流程置于您的控制之下。
2.背景的价值
人工智能代理的背景是其最大的资产。在代理执行搜索和工作流操作时管理上下文是一项极具挑战性的任务。我们正在利用 Elastic 的核心优势来解决上下文工程问题，确保您的代理始终可以获得最相关的信息。
3.关注代理数据流
展望未来，代理将成为越来越大的数据源，包括代理的输出（生成的文档、报告、可视化）和代理的执行轨迹（其思维、工具调用、内存/上下文）。Elastic 非常适合处理此类数据，我们正在研究如何利用这些数据进行分析、评估和自动改进。
4.设计的安保和安全
人工智能代理带来了全新的安全保障挑战。Elastic 一直是安全解决方案的领导者，我们将继续构建企业级防护、访问控制和"零信任" 原则。
5.嵌入平台
构建人工智能代理的功能已嵌入 Elasticsearch 平台。这意味着平台级功能，如跟踪、评估、可视化和分析，都适用于代理。希望根据代理执行情况开发仪表板--这是内置功能。希望通过情感分析来评估人工智能代理的性能--该平台可以实现这一点。这样就能围绕人工智能体验构建一个完整的生命周期。
Elastic 的目标是为您提供建立对话式人工智能和自动化工作流程的接口，这些接口完全集成、可扩展并以您的数据为基础。更多技术细节和进展情况将很快与大家分享。
代理生成器 "现已推出私人预览版。与我们联系，申请访问。有问题或反馈？在我们的Slack 工作区或讨论区与我们的开发人员社区联系。


作为代码的弹性开放式网络爬虫
Gustavo Llermaly — Mon, 22 Sep 2025 00:00:00 GMT
有了Elastic Open Web Crawler及其 CLI 驱动的架构，现在就可以非常直接地实现版本化爬虫配置和具有本地测试功能的 CI/CD 管道。
传统上，管理爬虫是一个手动且容易出错的过程。这涉及到直接在用户界面上编辑配置，以及克隆抓取配置、回滚、版本控制等问题。将爬虫配置视为代码可以解决这个问题，因为它提供了我们在软件开发中期待的相同优势：可重复性、可追溯性和自动化。
这种工作流程可以更轻松地将开放式网络爬虫带入您的 CI/CD 流水线，以进行回滚、备份和迁移--这些任务在使用早期的弹性爬虫（如弹性网络爬虫或应用程序搜索爬虫）时要棘手得多。
在本文中，我们将学习如何：
使用 GitHub 管理我们的抓取配置
在部署前进行本地设置以测试管道
创建一个生产设置，以便在每次向主分支推送更改时使用新设置运行网络爬虫
你可以在这里找到项目仓库。 在撰写本文时，我使用的是 Elasticsearch 9.1.3 和 Open Web Crawler 0.4.2。
准备工作
Docker 桌面
Elasticsearch 实例
可通过 SSH 访问的虚拟机（如 AWS EC2）并安装 Docker
步长
文件夹结构
履带配置
Docker-compose 文件（本地环境）
Github 操作
本地测试
部署到 prod
进行更改和重新部署
文件夹结构
本项目的文件结构如下：
├── docker-compose.yml # Local elasticsearch + crawler
├── config/crawler-config.yml # Crawler config
├── .github/workflows/deploy.yml # GH Action to deploy changes
├── local.sh # Script to run our local crawler
履带配置
在crawler-config.yml, 下，我们将填写以下内容：
output_sink: elasticsearch
output_index: web-crawl-index
max_crawl_depth: 1

elasticsearch:
  host: ${ES_HOST}
  api_key: ${ES_API_KEY}
     
domains:
  - url: https://web-scraping.dev
    seed_urls:
      - https://web-scraping.dev/product/1
      - https://web-scraping.dev/product/2
      - https://web-scraping.dev/product/3
这将从https://web-scraping.dev/products 抓取，这是一个产品模拟网站。我们只会抓取前三个产品页面。max_crawl_depth 设置将通过不打开其中的链接，防止爬虫发现比定义为seed_urls 的页面更多的页面。
Elasticsearchhost 和api_key 将根据我们运行脚本的环境动态填充。
Docker-compose 文件（本地环境）
对于本地docker-compose.yml, ，我们将部署爬虫和单个 Elasticsearch 集群 + Kibana，这样在部署到生产环境之前，我们就可以轻松查看爬虫结果。
services:
  es01:
    image: docker.elastic.co/elasticsearch/elasticsearch:9.1.3
    environment:
      - discovery.type=single-node
      - xpack.security.enabled=false
      - ES_JAVA_OPTS=-Xms1g -Xmx1g
    ports:
      - "9200:9200"
    networks: [esnet]
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:9200"]
      interval: 5s
      timeout: 5s
      retries: 10

  kibana:
    image: docker.elastic.co/kibana/kibana:9.1.3
    environment:
      - ELASTICSEARCH_HOSTS=http://es01:9200
    ports:
      - "5601:5601"
    networks: [esnet]
    depends_on: [es01]

  crawler:
    image: docker.elastic.co/integrations/crawler:0.4.2
    environment:
      - ES_HOST=http://es01:9200
      - CRAWLER_JRUBY_OPTS=--server
    container_name: crawler
    volumes:
      - ./config:/home/app/config
    networks: [esnet]
    entrypoint: ["/home/app/bin/crawler", "crawl", "/home/app/config/crawl-config-final.yml"]
    stdin_open: true
    tty: true

networks:
  esnet:
    driver: bridge
请注意爬虫是如何等待 Elasticsearch 准备好运行的。
Github 操作
现在，我们需要创建一个 GitHub Action，它将复制新设置，并在每次推送到 main 时在虚拟机中运行爬虫。这样就能确保我们始终部署有最新的配置，而无需手动进入虚拟机更新文件和运行爬虫。我们将使用 AWS EC2 作为虚拟机提供商。
第一步是将主机 (VM_HOST) 、机器用户 (VM_USER) 、SSH RSA 密钥 (VM_KEY) 、Elasticsearch 主机 (ES_HOST) 和 Elasticsearch API 密钥 (ES_API_KEY) 添加到 GitHub Action secrets 中：
这样，操作就能访问我们的服务器，将新文件复制过来并运行抓取。
现在，让我们创建.github/workflows/deploy.yml 文件：
name: Deploy

on:
  push:
    branches: [main]

jobs:
  Deploy:
    name: Deploy to EC2
    runs-on: ubuntu-latest

    steps:
      - uses: actions/checkout@v5

      - name: Deploy crawler
        env:
          HOSTNAME: ${{ secrets.VM_HOST }}
          USER_NAME: ${{ secrets.VM_USER }}
          PRIVATE_KEY: ${{ secrets.VM_KEY }}
          ES_HOST: ${{ secrets.ES_HOST }}
          ES_API_KEY: ${{ secrets.ES_API_KEY }}
        run: |
          # Save private key
          echo "$PRIVATE_KEY" > private_key
          chmod 600 private_key

          # Generate final config locally
          envsubst < config/crawler-config.yml > config/crawl-config-final.yml

          # Copy the config folder to VM
          scp -o StrictHostKeyChecking=no -i private_key -r config ${USER_NAME}@${HOSTNAME}:~/config

          # SSH into VM and run crawler
          ssh -o StrictHostKeyChecking=no -i private_key ${USER_NAME}@${HOSTNAME} << EOF
            docker run --rm \
              -v ~/config:/config \
              docker.elastic.co/integrations/crawler:latest jruby \
              bin/crawler crawl /config/crawl-config-final.yml
          EOF
每次我们向爬虫配置文件推送更改时，该操作都会执行以下步骤：
在 yml 配置中填入 Elasticsearch 主机和 API 密钥
将配置文件夹复制到我们的虚拟机
通过 SSH 连接到我们的虚拟机
使用我们刚从 repo 复制的配置运行抓取程序
本地测试
为了在本地测试爬虫，我们创建了一个 bash 脚本，将 Elasticsearch 主机与 Docker 中的本地主机进行填充，然后开始爬行。您可以运行./local.sh 来执行它。
#!/bin/bash

# Exit on any error
set -e

# Load environment variables
export ES_HOST="http://es01:9200"

# Generate final crawler config
envsubst < ./config/crawler-config.yml > ./config/crawl-config-final.yml

# Bring everything up
docker compose up --build
让我们看看 Kibana DevTools，以确认 web-crawler-index 的填充是否正确：
部署到 prod
现在，我们准备推送到主分支，这将在虚拟机中部署爬虫，并开始向无服务器 Elasticsearch 实例发送日志。
git add .
git commit -m "First commit"
git push
这将触发 GitHub 操作，在虚拟机中执行部署脚本并开始抓取。
您可以访问 GitHub 仓库并访问 "操作 "选项卡，确认操作已执行：
进行更改和重新部署
您可能已经注意到，每个产品的price 都是文档正文字段的一部分。如果能将价格存储在一个单独的字段中，我们就可以根据它运行筛选器，这将是最理想的。
让我们在crawler.yml 文件中添加这一更改，使用提取规则从product-price CSS 类中提取价格：
output_sink: elasticsearch
output_index: web-crawl-index
max_crawl_depth: 1

elasticsearch:
  host: ${ES_HOST}
  api_key: ${ES_API_KEY}
     
  # Index ingest pipeline to process documents before indexing          
  pipeline_enabled: true
  pipeline: pricing-pipeline

domains:
  - url: https://web-scraping.dev
    seed_urls:
      - https://web-scraping.dev/product/1
      - https://web-scraping.dev/product/2
      - https://web-scraping.dev/product/3
    extraction_rulesets:
      - url_filters:
          - type: ends
            pattern: /product/*
        rules:
          - action: extract
            field_name: price
            selector: .product-price
            join_as: string
            source: html
我们还可以看到，价格包含一个美元符号 ($)，如果要运行范围查询，我们必须去掉这个符号。为此，我们可以使用摄取管道。请注意，我们在上面的新爬虫配置文件中引用了它：
PUT _ingest/pipeline/pricing-pipeline
{
  "processors": [
    {
      "script": {
        "source": """
                ctx['price'] = ctx['price'].replace("$","")
            """
      }
    }
  ]
}
我们可以在生产 Elasticsearch 集群中运行该命令。对于开发进程，由于它是短暂的，我们可以通过添加以下服务，使管道创建成为docker-compose.yml 文件的一部分。请注意，我们还为爬虫服务添加了一个depends_on ，这样它就能在管道创建成功后启动。
 crawler:
    image: docker.elastic.co/integrations/crawler:0.4.2
    environment:
      - ES_HOST=http://es01:9200
      - CRAWLER_JRUBY_OPTS=--server
    container_name: crawler
    volumes:
      - ./config:/home/app/config
    networks: [esnet]
    entrypoint: ["/home/app/bin/crawler", "crawl", "/home/app/config/crawl-config-final.yml"]
    depends_on:
      pipeline-init:
        condition: service_completed_successfully
    stdin_open: true
    tty: true  


  pipeline-init:
    image: curlimages/curl:latest
    depends_on:
      es01:
        condition: service_healthy
    networks: [esnet]
    entrypoint: >
        sh -c "
        echo 'Creating ingest pipeline...';
        curl -s -X PUT http://es01:9200/_ingest/pipeline/pricing-pipeline \\
          -H 'Content-Type: application/json' \\
          -d '{\"processors\":[{\"script\":{\"source\":\"ctx.price = ctx.price.replace(\\\"$\\\", \\\"\\\")\"}}]}';
        echo 'Pipeline created!';
        "
现在让我们运行`./local.sh` 查看本地的变化：
太好了！现在让我们推动变革：
git add crawler-config.yml
git commit -m "added price CSS selector"
git push
要确认一切正常，可以检查生产的 Kibana，它应该会反映这些更改，并将价格显示为一个不带美元符号的新字段。
结论
Elastic Open Web Crawler 允许您将爬虫作为代码进行管理，这意味着您可以自动执行从开发到部署的整个流程，并以编程方式添加短暂的本地环境和针对爬虫数据的测试。
我们邀请您克隆官方资源库，并开始使用此工作流程为自己的数据编制索引。您还可以阅读本文，了解如何在爬虫生成的索引上运行语义搜索。


Elasticsearch 的 ES|QL 编辑器体验与 OpenSearch 的 PPL 事件分析器对比
Libby Lin, George Kobar — Thu, 18 Sep 2025 00:00:00 GMT
Elasticsearch 查询语言（ES|QL）自 8.14 版起全面可用，它引入了一种专为搜索、可观察性和安全调查而设计的查询语言和引擎。与大量借鉴现有管道式语言的 OpenSearch 管道式处理语言 (PPL) 不同，ES|QL 是从头开始构建的，专注于 Kibana 平台的完善性、可用性和无缝集成。
在本博客中，我们将通过比较 Elasticsearch 9.1 中的 ES|QL 编辑器和 OpenSearch 3.2 中事件分析器（简称 PPL）中的 PPL，来探讨开发人员对 ES|QL 编辑器的体验。
两者之间的差异很快就显现出来：ES|QL 编辑器提供智能自动完成、上下文帮助、推荐查询和跨集群查询支持，不仅能帮助初学者，还能帮助专家级用户。针对 ES|QL 编写的周到设计还体现在通过 Kibana 工作流（例如最近查询）进行的集成查询检查和整体集成。
相比之下，PPL 缺乏对自动完成、上下文引导和分布式查询的类似支持，因此学习曲线更陡峭，试错更多。
使 ES|QL 更易于学习和使用
开始使用一种新的查询语言往往会让人感到不知所措。ES|QL 编辑器直接内置于 Kibana Discover 中，不仅支持查询创建和调试，还能加快熟悉和掌握该语言的速度，从而简化这一过程。由于编辑器有助于减少日常工作中的摩擦，您可以将注意力从语法和试错转移到解决问题上。您可以在这里了解更多有关这些原则以及我们如何将其融入编辑器的信息。
这种编辑器体验并不局限于 Discover；它是一种可重复使用的代码模块，我们正在努力将其集成到 Kibana 的其他部分，如仪表盘、Kibana 警报和 Kibana 地图。
智能自动完成：加速创建查询
ES|QL 编辑器中的自动完成功能非常全面，可为兼容函数、参数、字面量甚至嵌套函数提供建议，而这正是 PPL 所缺乏的功能。事实上，它已经从头开始重建，正如这里所概述的那样。
如这里所述，验证会在用户键入时运行，并对字段提出建议，还会在出现错误时通知用户。这减轻了用户的心理负担，有助于在查询创建过程的早期防止错误。
举例说明：在此嵌套中建议使用字段和兼容函数：
这是 PPL 不支持的：
即使有智能自动完成功能指导你使用兼容函数、参数和嵌套函数，你可能还是希望对可用选项有更深入的了解。这正是 ES|QL 编辑器的上下文帮助变得非常有价值的地方，它提供即时的编辑帮助，以澄清和加强您的查询开发。
触手可及的上下文帮助
点击 Ctrl 键-空格键，即可获得有关自动完成功能生成的命令的其他信息。立即出现一个面板，显示有关函数、参数或字段的详细信息。这种轻量级交互让开发人员始终处于工作流程中，为他们提供及时指导，而不会迫使他们离开编辑器或搜索外部文档。这样可以减少在语法查找上浪费的时间，并有助于在常见错误发生之前加以预防。
下面是它的实际效果：
PPL 缺乏这种级别的嵌入式指导，用户只能依赖外部文档或反复试验。这种缺失不仅仅是功能上的缺失，它还凸显了设计理念上更广泛的差异。ES|QL 优先考虑贴心的上下文感知体验，以适应用户的数据和工作流程。随着查询复杂度的增加，这种差异会变得更加明显，从而使 ES|QL Editor 成为一个更高效、更可靠的学习和生产环境。
建议使用可感知数据上下文的查询
ES|QL 编辑器会根据您正在处理的数据（如日志）自动提供推荐查询。它不是提供一个空白的编辑器，而是为常见用例提供最相关的出发点。选择 "推荐查询 "可生成一个标准查询，该查询可立即使用，并可根据需要进一步完善。这种方法加快了查询的开发速度，尤其是对于尚未掌握全部语法的新用户而言。
下面是一个用户选择 "检测变化点 "查询的示例：
将其与 PPL 的经验进行比较：
相比之下，PPL 在这里只提供基本的自动完成功能，让您在没有上下文或结构的情况下拼凑查询。缺乏指导可能会导致挫败感和反复试验。有了 ES|QL Editor 的数据感知推荐查询，您就可以避免从头开始或死记硬背常规任务的语法。编辑器可减少认知负荷，有助于防止出错，让你专注于解决问题和更广泛的目标，如运行跨集群搜索，而不是费力地构建查询。
直观的跨集群查询
ES|QL 编辑器的自动完成功能依然卓越，即使在使用CCS 处理多个远程群集时也是如此。原因就在这里：
ES|QL 编辑器甚至可跨集群提供无缝自动完成功能
ES|QL 编辑器中的自动完成功能不仅支持群组名称，还支持 本地和远程索引。正如本文所介绍的那样，这要归功于协调器节点架构，它可以帮助验证和生成查询计划，然后发送给本地节点，执行查询并汇总结果，最后再发送给用户。在不输入远程群集全名的情况下，键入": "可启动远程索引的自动完成程序。而且，您也不局限于前缀。
这样就可以轻松地在分布式数据集上发现和查询数据，而无需记住命名约定或切换上下文。
下面是一个示例，用户只需键入 "clu:g "即可定位远程索引：
与此形成鲜明对比的是，PPL 只为本地索引提供基本的补全功能，建议仅限于前缀匹配。远程群组必须手动键入，这会增加出错的可能性，并减慢查询创建速度。
PPL 仅为本地索引提供补全，建议仅限于前缀：
ES|QL 更进一步， 允许 直接使用负号 排除 ，让您可以精细控制哪些集群参与探索。这种功能在处理混合环境时尤为重要，因为在混合环境中，您可能希望在跨集群调查时包含或省略特定的数据集。
这些增强功能反映了 Elasticsearch 对减少跨集群搜索摩擦的广泛关注。通过使分布式查询更易于构建和管理，ES|QL Editor 使分析师和开发人员能够专注于洞察力而不是语法，而 PPL 则将更多的负担留给了用户。ES|QL 编辑器不仅简化了跨集群查询的创建，还提供了检查这些查询执行情况的工具，确保跨多个集群的透明度和性能监控。
使用 Inspect 工具分析跨群集搜索详情
检查工具可从 ES|QL 编辑器访问，旨在提供元数据，明确说明所有集群的查询执行情况。该功能已在 Kibana Discover 中启用，并可在查询检查器中直接访问，使您能够分析搜索进度和详细信息，这对于跨集群搜索(CCS) 尤为重要。该功能可帮助您监控搜索进度，了解查询在分布式数据集上的执行情况。
这种对查询执行的详细可视性，尤其是对复杂的分布式搜索的可视性，使您能够确保最佳性能和故障排除。
除了了解单个查询的机制外，ES|QL 编辑器还通过在整个 Kibana 平台上深度嵌入基本功能，促进无缝、不间断的工作流程，从而进一步增强用户体验。
使用 ES|QL 和 Kibana 的统一查询体验
查询驱动分析中最常见的摩擦源之一是上下文切换。您经常需要回忆已经写过的查询。每一次中断都会打断注意力，延缓调查进度。ES|QL Editor 通过在 Kibana 中集成查询历史记录来解决这一问题。
最近的查询
ES|QL 编辑器中的 "最近查询 "功能可让您即时访问过去的工作，从而帮助您保持工作流畅。在 Discover 的 ES|QL 编辑器中，您可以查看、重新运行最近的 20 个查询，并将其设为星级，确保只需点击一下就能完成常用或复杂的查询。这些保存的查询还可在 Kibana 中使用，并与仪表盘、可视化、警报和地图集成，因此您无需离开当前屏幕或从头开始重新输入命令。这减少了重复性工作，加快了调查速度，并最大限度地降低了出错风险。
例如，用户可以在发现中使用 ES|QL 编辑器中的最近查询（并将其设为星级）：
最近的查询已集成到仪表板中：
PPL 不提供类似功能，用户只能依靠手动复制粘贴或外部注释来重复使用查询。这种区别不仅仅是为了方便；它反映了 Elastic 将 ES|QL 打造为 Kibana 生态系统中真正集成语言的战略。通过最近查询等功能，ES|QL 编辑器不仅简化了日常工作流程，还为技术预览版中更高级的功能奠定了基础，确保用户体验不断发展。
结论
ES|QL 不仅仅是一种语法，它还反映了 Elastic 改进用户搜索、探索和分析数据方式的战略。通过智能自动完成、上下文感知的推荐查询、编辑器内指导以及检查等工具，ES|QL Editor 可加快学习速度、减少错误并简化跨集群分析等复杂的工作流程。它与 Kibana 集成，可将查询与仪表盘、警报和可视化无缝连接，从而实现不间断的工作流程。
总之，ES|QL 不仅仅是另一种管道语言；它是一个经过深思熟虑设计的查询引擎，搭配直观的用户界面，从根本上重新定义了您与数据交互的方式，提供了一种集成、智能和不断发展的体验，与 OpenSearch PPL 通常按部就班、缺乏指导的性质形成鲜明对比。
下一步行动
本博客仅涉及 ES|QL 的表面。今后的文章将深入探讨与 OpenSearch PPL 的比较，并探索地理空间、可视化和即将推出的编辑器功能，如控制（已在仪表板中提供）、多数据探索选项卡、后台搜索、更丰富的查询历史和 FUSE。
立即试用 ES|QL
您可以通过 免费试用 在完全托管的 Elasticsearch Serverless 项目中查看 ES|QL。从 8.11 开始的版本中也有该功能，但在8.19 和 9.1 中体验最佳。
只需一条命令，几分钟即可在本地环境中开始使用：
curl -fsSL https://elastic.co/start-local | sh


介绍用于 Elasticsearch Ruby 客户端的 ES|QL 查询生成器
Fernando Briano — Wed, 17 Sep 2025 00:00:00 GMT
我们最近发布了elastic-esql ，这是一个根据 Apache 2 许可证发布的 Ruby gem。有了这个 gem，你就可以用惯用的 Ruby 语言创建 Elastic 的ES|QL查询，然后将其用于 ES|QL 查询 API。ES|QL 允许开发人员通过查询过滤、转换和分析存储在 Elasticsearch 中的数据。它使用"管道" (| ) 来逐步处理数据。该 gem 使用 Ruby 函数，你可以将这些函数链入原始对象，以建立更复杂的查询：
ESQL：
FROM sample_data | LIMIT 2 | SORT @timestamp DESC
鲁比
Elastic::ESQL.from('sample_data').limit(2).sort('@timestamp').descending
安装
该 gem 可通过以下方式从 RubyGems 安装：
gem install elastic-esql
或者将其添加到项目的 Gemfile 中：
gem 'elastic-esql'
使用方法
您可以一次性建立一个完整的查询，也可以使用from 或row 等源命令创建一个查询对象，然后使用 ES|QL 方法链在其上建立查询。
query = Elastic::ESQL.from('sample_data')
query.limit(2).sort('@timestamp')
在to_s 方法中，gem 将代码转换为 ES|QL，因此在打印输出或转换为字符串时会返回 ES|QL 查询：
query = Elastic::ESQL.from('sample_data').limit(2).sort('@timestamp').descending
query.to_s
# => "FROM sample_data | LIMIT 2 | SORT @timestamp DESC"
您可以使用! 中每个函数的对应函数来实例化查询对象并更改其初始状态：
query = Elastic::ESQL.from('sample_data')
query.to_s
# => "FROM sample_data"
query.limit!(2).sort!('@timestamp')
query.to_s
# => "FROM sample_data | LIMIT 2 | SORT @timestamp"
该工具提供了将额外步骤链入 ES|QL 函数的便捷方法，如enrich 和sort 。一旦在Elastic::ESQL 对象上调用enrich ，就可以将on 和with 与之连锁：
esql.enrich!('policy').on('a').with({ name: 'language_name' })
在使用sort 之后，您还可以将desc 、asc 、nulls_first 和nulls_last 链入您的查询：
Elastic::ESQL.from('sample_data').sort('@timestamp').asc.to_s
# => 'FROM sample_data | SORT @timestamp ASC'

Elastic::ESQL.from('sample_data').sort('@timestamp').desc.nulls_first.to_s
# => 'FROM sample_data | SORT @timestamp DESC NULLS FIRST'
它还支持自定义字符串，以备您自己编写 ES|QL 查询或使用尚未添加到库中的功能。custom 会在查询结束时连接字符串。它将在发送到函数时添加这些字符，而不会添加任何管道字符。它们将通过一个空格字符与查询的其余部分合并。
esql = Elastic::ESQL.from('sample_data')
esql.custom('| MY_VALUE = "test value"').to_s
# => 'FROM sample_data | MY_VALUE = "test value"'
您还可以将custom 功能串联起来：
esql.custom('| MY_VALUE = "test value"').custom('| ANOTHER, VALUE')
'FROM sample_data | MY_VALUE = "test value" | ANOTHER, VALUE'
在 Ruby 客户端使用 ES|QL 查询生成器
您可以通过发送查询对象，直接在elasticsearch-ruby和esql.query API 中使用查询生成器：
require 'elasticsearch'
require 'elastic/esql'

client = Elasticsearch::Client.new
index = 'sample_data'

query = Elastic::ESQL.from(index)
                     .sort('@timestamp')
                     .desc
                     .where('event_duration > 5000000')
                     .limit(3)
                     .eval({ duration_ms: 'ROUND(event_duration/1000000.0, 1)' })
client.esql.query(body: { query: query })
您还可以将其与 Elasticsearch Ruby 客户端中的 ES|QL Helper 结合使用，了解更多详情：
require 'elasticsearch/helpers/esql_helper'

Elasticsearch::Helpers::ESQLHelper.query(client, query)
作为独立工具
该 gem 被设计为一个独立工具，用于以惯用方式构建 ES|QL 查询。它没有运行时依赖性，可以与官方 Elasticsearch Ruby 客户端一起使用，也可以单独使用。
生成的查询可在esql.query API 中使用，无论应用程序以何种方式与 Elasticsearch API 交互（无论是否使用 Ruby）。使用elastic-esql 创建查询后，生成的字符串就可以作为query 请求正文中的参数发送给应用程序接口。 
我曾写过一篇关于将 Elasticsearch 与流行的 Ruby 工具结合使用的文章。该 gem 可与任何流行的 Ruby 工具一起使用，以通过 ES|QL 查询 Elasticsearch。
结论
该库正在积极开发中，最终的应用程序接口尚未完成。目前发布的是技术预览版。如果您对当前的应用程序接口或一般使用方法有任何反馈，请随时打开新问题。有关 Ruby ES|QL 查询生成器的更多信息，请参阅README。


矢量搜索过滤：保持相关性
Carlos Delgado — Wed, 03 Sep 2025 00:00:00 GMT
矢量搜索不足以找到相关结果。使用过滤标准非常常见，这有助于缩小搜索结果的范围并过滤掉不相关的结果。
了解筛选在矢量搜索中是如何工作的，将有助于你平衡性能和召回率之间的权衡，并发现一些优化方法，使矢量搜索在使用筛选时性能更佳。
为什么要过滤？
矢量搜索彻底改变了我们在大型数据集中查找相关信息的方式，使我们能够发现与查询语义相似的项目。
然而，仅仅找到相似的物品是不够的。我们经常需要根据特定的标准或属性来缩小搜索结果的范围。
想象一下，您正在一家电子商务商店中搜索产品。纯矢量搜索可能会显示视觉上相似的商品，但您可能还想根据价格范围、品牌、可用性或客户评价进行筛选。如果不进行筛选，您就会看到大量类似的产品，很难准确找到您要找的产品。
过滤功能可对搜索结果进行精确控制，确保检索到的项目不仅在语义上一致，而且符合所有必要的要求。这将带来更加准确、高效和用户友好的搜索体验。
这正是 Elasticsearch 和 Apache Lucene 的优势所在--对各种数据类型进行有效过滤是它们与其他矢量数据库的主要区别之一。
精确矢量搜索的筛选
进行精确矢量搜索主要有两种方法：
为 dense_vector 字段使用flat 索引类型。这使得knn 搜索使用精确搜索而不是近似搜索。
使用 script_score 查询 ，该 查询 使用向量函数计算分数。这可用于任何索引类型。
在执行精确向量搜索时，所有向量都会与查询进行比较。在这种情况下，过滤将有助于提高性能，因为只需要比较通过过滤的向量。
这不会影响结果质量，因为所有向量都会被考虑在内。我们只是提前过滤掉不感兴趣的结果，从而减少操作次数。
这一点非常重要，因为当应用筛选器得到的文档数量很少时，执行精确搜索比近似搜索更有效。
经验法则是，当通过过滤器的文件少于 10k 时，应使用精确搜索。BBQ索引的比较速度更快，因此当基于索引的数据少于 100k 时，使用精确搜索是合理的。详情请查看本博文。
如果您的筛选器总是限制性很强，您可以考虑使用flat 索引类型而不是基于 HNSW 的索引类型，将索引重点放在精确搜索而不是近似搜索上。更多详情，请参阅index_options 的属性。
近似矢量搜索的筛选
在执行近似向量搜索时，我们需要用结果的准确性来换取性能。像 HNSW 这样的矢量搜索数据结构可在数百万个矢量上高效搜索近似近邻。它们的重点是通过进行最少的向量比较来检索最相似的向量，而向量比较的计算成本很高。
这意味着其他过滤属性不属于矢量数据的一部分。不同的数据类型有自己的索引结构，如术语字典、发布列表和 doc 值等，可以有效地查找和过滤这些数据。
既然这些数据结构与矢量搜索机制是分开的，那么我们如何将过滤功能应用于矢量搜索呢？有两种选择：在矢量搜索后应用过滤器（后过滤）或在矢量搜索前应用过滤器（预过滤）。
每种方案都各有利弊。让我们深入了解它们！
后过滤
后过滤在矢量搜索完成后应用过滤器。这意味着，在找到前 k 个最相似的向量结果后，才会应用筛选器。
显然，在对结果进行筛选后，我们可能会得到少于 k 个结果。当然，我们可以从矢量搜索中获取更多的结果（k 值更高），但我们无法确定在应用过滤器后是否会得到 k 或更多的结果。
后过滤的优势在于它不会改变矢量搜索的运行时行为--矢量搜索不知道过滤的存在。但是，它确实会改变检索结果的最终数量。
下面是使用knn 查询进行后过滤的示例。检查过滤子句是否与 knn 查询分开：
{
  "query": {
    "bool": {
      "must": {
        "knn": {
          "field": "image-vector",
          "query_vector": [54, 10, -2],
          "k": 5,
          "num_candidates": 50
        }
      },
      "filter": {
        "term": {
          "file-type": "png"
        }
      }
    }
  }
}
使用后置过滤器还可对 knn 搜索进行后置过滤：
{
  "knn": {
    "field": "image-vector",
    "query_vector": [54, 10, 2],
    "k": 5,
    "num_candidates": 50
  },
  "post_filter": {
    "term": {
      "file-type": "png"
    }
  }
}
请记住，您需要在 knn 搜索中使用明确的后置过滤器部分。如果不使用后置过滤器，knn 搜索 会将最近邻 搜索 结果 与其他查询或过滤器 结合起来 ，而不是进行后置过滤器。
预过滤
在矢量搜索前应用筛选器将首先检索出满足筛选条件的文档，然后将这些信息传递给矢量搜索。
Lucene 使用BitSets高效地存储满足筛选条件的文档。然后，矢量搜索会遍历 HNSW 图，并将满足条件的文档考虑在内。在将候选文件添加到结果中之前，它会检查该候选文件是否包含在有效文件的 BitSet 中。
不过，即使候选文件不是有效文件，也必须对其进行探索并与查询进行比较。HNSW 的有效性取决于图中向量之间的联系--如果我们停止探索某个候选向量，就意味着我们可能也会跳过它的邻近向量。
就像开车去加油站一样。如果放弃任何一条没有加油站的道路，您就不可能到达目的地。其他道路可能不是你所需要的，但它们将你连接到目的地。HNSW 图形上的向量也是如此！
因此，应用预过滤比不应用过滤的性能要低。我们需要对搜索中访问的所有向量进行处理，并丢弃不符合筛选条件的向量。我们正在做更多的工作，花更多的时间来获得最高 K 值的结果。
下面是在 Elasticsearch 查询 DSL 中进行预过滤的示例。检查过滤子句是否已成为 knn 部分的一部分：
{
  "knn": {
    "field": "image-vector",
    "query_vector": [54, 10, -2],
    "k": 5,
    "num_candidates": 50,
    "filter": {
      "term": {
        "file-type": "png"
      }
    }
  }
}
knn 搜索和knn 查询均可使用预过滤功能：
{
  "query": {
    "knn": {
      "field": "image-vector",
      "query_vector": [-5, 9, -12],
      "k": 5,
      "filter": {
        "term": {
          "file-type": "png"
        }
      }
    }
  }
}
预过滤优化
我们可以进行一些优化，以确保预过滤的性能。
如果筛选条件非常严格，我们可以切换到精确搜索。当需要比较的向量很少时，对满足筛选条件的少数文档进行精确搜索会更快。
这是Lucene和 Elasticsearch 自动应用的优化。
另一种优化方法是忽略不符合筛选条件的向量。相反，该方法会检查滤波向量的邻近向量是否通过滤波。这种方法不考虑过滤后的向量，而是继续探索与当前路径相连的向量，从而有效减少了比较次数。
这种算法就是 ACORN-1，本篇博文将详细介绍其过程。
使用文档级安全过滤
文档级别安全（DLS）是 Elasticsearch 的一项功能，可指定用户角色可检索的文档。
DLS 通过查询来执行。一个角色可以有一个与索引相关联的查询，这实际上限制了属于该角色的用户可以从索引中检索的文档。
角色查询用作过滤器，用于检索与之匹配的文档，并作为 BitSet 缓存。然后，这个 BitSet 会被用来封装底层的 Lucene 阅读器，因此只有从查询返回的文档才会被认为是实时的，也就是说，它们存在于索引中，并且没有被删除。
由于要从阅读器获取实时文档来执行 knn 查询，因此只考虑用户可用的文档。如果有预检器，DLS 文件将被 添加到 预检器 中 。
这意味着，DLS 过滤可以作为近似矢量搜索的预过滤，具有相同的性能影响和优化效果。
使用精确搜索的 DLS 与应用任何过滤器的好处相同--从 DLS 检索的文档越少，精确搜索的性能就越高。还要考虑 DLS 返回的文档数量--如果 DLS 的作用非常有限，可以考虑使用精确搜索而不是近似搜索。
基准
在 Elasticsearch，我们希望确保矢量搜索过滤的效率。我们有一个专门的向量过滤基准，通过不同的过滤执行近似向量搜索，以确保向量搜索尽可能快地检索到相关结果。
查看 ACORN-1 推出时的改进情况。在只有 2% 个向量通过过滤器的测试中，查询延迟时间缩短到原来的 55% ：
结论
过滤是搜索不可或缺的一部分。确保过滤在矢量搜索中的性能，并了解权衡和优化，是高效和准确搜索的关键所在。
过滤会影响向量搜索的性能：
使用过滤功能时，精确搜索速度更快。如果过滤条件足够严格，应考虑使用精确搜索而不是近似搜索。这是 Elasticsearch 的自动优化功能。
使用预过滤时，近似搜索速度较慢。通过预过滤，我们可以得到与过滤器匹配的前 k 个结果，但搜索速度会减慢。
后过滤并不一定能检索到前 k 个结果，因为在应用过滤器时，这些结果可能已被过滤器过滤。
快乐过滤


Elasticsearch 分片和副本：实用指南
Piotr Przybyl — Thu, 14 Aug 2025 00:00:00 GMT
Elasticsearch 在 Lucene 的基础上建立了一个分布式系统，解决了可扩展性和容错问题，从而增强了 Lucene 的功能。它还提供基于 JSON 的 REST 应用程序接口，使与其他系统的互操作性变得非常简单。
Elasticsearch 等分布式系统可能非常复杂，影响其性能和稳定性的因素很多。分片是 Elasticsearch 中最基本的概念之一，了解分片的工作原理将使您能够有效地管理 Elasticsearch 集群。
本文将解释什么是主分片和副本分片，它们对 Elasticsearch 集群的影响，以及有哪些工具可以调整它们以适应不同的需求。
了解碎片
Elasticsearch 索引中的数据可能会大量增长。为了便于管理，每条数据都保存在一个索引中，而索引是将一个索引分割成若干碎片。每个 Elasticsearch 分区都是一个 Apache Lucene 索引，每个单独的 Lucene 索引都包含 Elasticsearch 索引中文档的一个子集。以这种方式拆分索引可以控制资源使用量。Apache Lucene 索引的上限为 2,147,483,519 (2³¹ - 129) 个文档。
有时，出于重新平衡的目的，需要在节点间移动指数。由于这一过程需要大量时间和资源，因此索引不应过大，这有助于保持可控的恢复时间。此外，由于索引是由需要不断合并在一起的 Lucene 段组成的，因此段不能太大，这一点很重要。由于这些原因，Elasticsearch 将索引数据分割成更易于管理的小块（称为主分片），这些分片可以更方便地分布在多台计算机上。复制分区只是相应主分区的一个精确副本，我们将在本文稍后部分介绍它们的功能。
拥有适当数量的分片对性能非常重要。因此，提前制定计划是明智之举。当查询在不同分片上并行运行时，其执行速度要快于由单个分片组成的索引，但前提是每个分片位于不同的节点上，且集群中有足够多的节点。但与此同时，分片也会消耗内存和磁盘空间，包括索引数据和集群元数据。分片过多（也称为过度分片）会降低查询、索引请求和管理操作的速度，因此保持适当的平衡至关重要。
主分区的数量是在为特定索引实例创建索引时定义的。如果以后需要不同数量的主分片，可以使用 调整大小API --拆分（更多的主分片）、收缩（更少的主分片）或克隆（相同数量的主分片，并对副本进行新的设置）。创建索引时，可以将主分片和副本分片的数量设置为索引的设置：
PUT /sensor
{
   "settings" : {
       "index" : {
           "number_of_shards" : 6,
           "number_of_replicas" : 2
       }
   }
}
(如果没有指定分片或副本的数量，从 Elasticsearch 7.0 开始，两者的默认值都是 1）。理想的分片数量应根据索引中的数据量来确定。一般来说，一个最佳分区应容纳 10-50GB 的数据，每个分区的文件数少于 2 亿。例如，如果您预计一天内会积累约 300GB 的应用程序日志，那么在该索引中设置约 10 个分片是合理的，前提是您有足够多的节点来托管这些分片。
碎片在其生命周期中会经历多种状态，包括
初始化：使用分片前的初始状态。
已启动：分片处于激活状态，可以接收请求。
搬迁：当分片正在被移动到不同节点时出现的一种状态。这在某些情况下可能是必要的，例如，当它们所在的节点快用完磁盘空间时。
未分配：未能分配的分区的状态。发生这种情况时会给出原因，例如，托管分片的节点已不在集群中（NODE_LEFT）或由于恢复到一个已关闭的索引中（EXISTING_INDEX_RESTORED）。
要查看所有分片、它们的状态和其他元数据，可以使用以下请求：
GET _cat/shards
要查看特定索引的分片，可以在 URL 中添加索引名称，例如传感器：
GET _cat/shards/sensor
该命令会产生输出结果，如下面的示例。默认情况下，显示的列包括索引名称、名称（即编号）、是主分片还是副本、状态、文件数量、磁盘大小以及分片所在节点的 IP 地址和节点 ID。
sensor 5 p STARTED    0  283b 127.0.0.1 ziap
sensor 5 r UNASSIGNED                  
sensor 2 p STARTED    1 3.7kb 127.0.0.1 ziap
sensor 2 r UNASSIGNED                  
sensor 3 p STARTED    3 7.2kb 127.0.0.1 ziap
sensor 3 r UNASSIGNED                  
sensor 1 p STARTED    1 3.7kb 127.0.0.1 ziap
sensor 1 r UNASSIGNED                  
sensor 4 p STARTED    2 3.8kb 127.0.0.1 ziap
sensor 4 r UNASSIGNED                  
sensor 0 p STARTED    0  283b 127.0.0.1 ziap
sensor 0 r UNASSIGNED
了解副本
每个分区只包含一份数据副本，而索引则可以包含多个分区副本。因此有两种分片，即主分片和副本或复制 分片。主分片的每个副本总是位于不同的节点上，这就确保了在节点发生故障时数据的高可用性。除了冗余及其在防止数据丢失和宕机方面的作用外，副本还可以帮助提高搜索性能，因为它允许查询与主分片并行处理，因此速度更快。
主分片和副本分片的行为方式存在一些重要差异。虽然两者都能处理查询、索引请求（即向索引添加数据）必须先经过主分片，然后才能复制到副本分片。如上所述，如果主分片不可用--例如，由于节点断开或硬件故障--副本就会被提升以接替其角色。
虽然复制可以在节点发生故障时提供帮助，但重要的是不要有太多的复制，因为它们会在编制索引时消耗内存、磁盘空间和计算能力。主分片和副本之间的另一个区别是，虽然主分片的数量在索引创建后无法更改，但副本的数量可以通过更新索引设置随时动态更改。
复制的另一个考虑因素是可用节点的数量。副本总是放在与主分片不同的节点上，因为如果节点发生故障，同一节点上的两个相同数据副本将无法提供保护。因此，一个系统要支持n 个副本，集群中至少需要有n + 1 个节点。例如，如果集群中有两个节点，而索引配置了六个副本，则只会分配一个副本。另一方面，拥有七个节点的系统完全可以处理一个主分片和六个副本。
优化分片和副本
即使在创建了主分片和副本分片平衡得当的索引后，也需要对这些分片进行监控，因为索引的动态会随着时间的推移而发生变化。例如，在处理时间序列数据时，最新数据的指数通常比旧数据的指数更活跃。如果不对这些指数进行调整，它们将消耗相同数量的资源，尽管它们的需求非常不同。
翻转索引 API 可用于区分新旧索引。可以对其进行设置，一旦达到某个阈值（磁盘上索引的大小、文档数量或年限），它就会自动创建新索引。该 API 对于控制分片大小也很有用。由于索引创建后无法轻易更改分片数量，因此如果不满足翻转条件，分片将继续积累数据。对于只需不经常访问的旧索引，缩小和强制合并索引是减少其内存和磁盘占用的两种不同方法。前者减少了索引中分片的数量，后者则减少了 Lucene 片段的数量，并释放了已删除文档的空间。
作为 Elasticsearch 基础的主分片和副本分片
Elasticsearch 作为适用于海量数据的分布式存储、搜索和分析平台，已经建立了良好的声誉。然而，在如此大规模的运作中，挑战将不可避免地出现。这就是为什么了解主分片和副本分片如何工作对 Elasticsearch 如此重要和基础的原因，因为这有助于优化平台的可靠性和性能。
了解它们如何工作以及如何优化它们，对于实现更强大、更高性能的 Elasticsearch 集群至关重要。如果您经常遇到查询响应迟缓或中断的情况，这些知识可能是克服这些障碍的关键。
请关注 Elasticsearch 的官方文档，了解有关群集、节点和分片、如何确定分片大小、分片分配和恢复的更多信息。
本主题还可作为入门课程在Elastic Community YouTube 频道上观看。
最后但并非最不重要的一点：如果你不想担心节点、分片或副本，可以试试Elastic Cloud Serverless。该 Elastic 云产品由 Elastic 全面管理，并可根据您的工作负载自动扩展。免费试用可以帮助您熟悉无服务器方法的其他优势。


如何显示 Elasticsearch 索引的字段
JD Armada — Wed, 06 Aug 2025 00:00:00 GMT
本文将讨论如何显示 Elasticsearch 索引的字段。这对了解数据结构、识别特定字段和排除故障非常有用。我们将讨论以下主题
使用_mapping API 获取字段信息
使用_search API 显示字段值
显示子字段
合成 _source
运行时字段
1.使用 _mapping API 获取字段信息
_mapping API 允许您检索一个或多个索引的映射定义。这包括有关字段、其数据类型和其他属性的信息。要检索特定索引的映射，请使用以下请求：
GET //_mapping
例如，如果有一个名为my_index 的索引，可以通过以下请求检索其映射：
GET /my_index/_mapping
响应将包括索引的映射定义，其中包含有关字段及其属性的信息。
还可以检索某一特定字段的映射。如果您的映射范围很大，而您只想专注于某一特定领域，这将非常有用。要检索特定字段的映射，请使用以下请求：
GET /my_index/_mapping/field/my_field
您还可以检索多个字段的映射，方法是用逗号分隔字段名，如下面的请求：
GET /my_index/_mapping/field/my_field_1,my_field_2,my_field_3
2.使用 _search API 显示字段值
要显示 Elasticsearch 索引中字段的值，可以使用_search API。_search API 为您提供了多种控制返回字段的方法，主要有两种：
_source:_source 字段包含的原始 JSON 文档正文与索引中的一模一样，包括摄取管道或预处理步骤所做的任何更改。要显示源文件中的特定字段，请执行源过滤，如下所示。
fields:fields 参数可让您在执行搜索时，根据索引映射从文档中检索特定字段。与_source 不同，fields 也可以从存储字段、文档值或运行时字段中返回值，而无需引用_source ，不过对于没有文档值或存储设置的标准字段，它会返回_source 。这将带来许多好处，如性能等，我们将在下文中看到。
使用 _source 字段
默认情况下， _search API 返回_source 字段，该字段包含被索引的原始 JSON 文档。要显示特定字段，可以在搜索请求的_source 参数中添加筛选器；这称为源筛选。
下面是一个搜索请求示例，它返回my_index 索引中文档的title 和author 字段的值：
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "_source": ["title", "author"]
}
在本例中，_source 参数指定了要返回的字段。
如果需要更多控制，可以使用_source 对象的includes 和excludes 属性。例如，下面的查询返回顶层title 字段和author 的所有子字段，但author.description 除外。
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "_source": {
     “includes”: [“title”, “author.*],
     “excludes”: [“author.description”]
  }
}
在本例中，我们使用author.* 模式检索author 对象的每个直接子字段。然后，我们明确排除author.description ，这样就只返回其他作者字段。请注意，这并不能提高性能，因为它仍然需要加载和解析源 JSON，但可以减少通过网络发送的响应大小。
使用字段参数
您可以使用fields 参数过滤搜索响应中返回的字段。使用fields 而不是_source 有几个好处，包括
提高性能： fields 可以直接从存储字段或doc 值返回值，而无需加载完整的_source ，从而减小了响应有效载荷的大小。
格式化输出：对于标准字段， fields 可能会回到_source 抓取值，但它会查看索引映射，以正确格式化输出，如格式化日期，使其与用于聚合和排序的内容保持一致。
访问运行时字段： fields 可以返回运行时字段，这些字段在原始_source 上并不存在。
更多好处请点击此处。
例如，要只返回my_index 索引中的title 和author 字段，可以使用以下搜索请求：
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "fields": ["title", "author"],
  "_source": false
}
在上述查询中，我们将_source 字段设置为 false，这样就不会返回源文件。这可以大大减小响应的有效载荷大小，但请记住，这只是因为title 和author 字段属于keyword 字段类型，默认情况下已启用doc_values 。如果字段未启用doc_values 且_source 设置为 false，Elasticsearch 将无法检索它们，并在响应中跳过它们。
值得注意的是，fields 响应总是为每个字段返回一个值数组，即使只有一个值。这是因为 Elasticsearch 没有专用的数组类型，任何字段都可能有多个值。有关 Elasticsearch 中数组的更多信息，请单击此处。
检索字段的其他方法
虽然使用_source 或fields 检索字段是推荐的方法，但也有针对特定用例的不同方法，例如
文档值字段：如果想完全避免使用_source ，可以使用docvalue_fields  参数进行搜索。Doc 值存储的字段值与_source 相同，但采用磁盘数据结构，优化了排序和聚合。
由于它与_source 中存储的值是分开的，因此可以请求特定字段，而无需加载整个_source 。如果您要查询大型文档，但只需要几个支持文档值的小字段，这将非常有用。使用docvalue_fields 的另一个用例是在date 和numeric 字段上使用自定义格式，我们将在下面的示例中看到这一点。
请注意，这只适用于启用doc_values 的字段或默认已启用 的字段类型，如keyword 、date 、数字类型和boolean ，不适用于text 或annotated_text 。
在本例中，我们使用docvalue_fields 参数检索title 、author 和published 字段，而无需加载完整的_source 文档：
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "docvalue_fields": [
    "title",
    "author",
    {
      "field": "published",
      "format": "epoch_millis"
    }
  ],
  "_source": false
}
运行该查询时，Elasticsearch 会直接从磁盘上的列存储中抓取值，而不是为每个文档引用_source 。由于查询中提供了format 参数，published 字段将以epoch_millis 格式返回，而不是默认格式。
存储字段：如果在映射中明确标记了存储的特定字段，则可以使用stored_fields 参数过滤这些字段。如果您只想使用这些特定字段或您特意存储以备日后检索的字段进行轻量级回复，这将非常有用。它与_source 分开存储，因此这种方法还可以避免加载_source 。
需要注意的是，该选项默认为关闭，一般不推荐使用。而使用源过滤则可返回原始源文件的某些子集。
在下面的示例查询中，我们使用stored_fields 参数来检索summary 字段，该字段的索引映射配置为 "store”: true 。
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "stored_fields": ["summary"]
}
运行该查询时，Elasticsearch 会查看该字段是否被标记为”store”: true ，如果没有找到，则会完全跳过该字段。
3.显示子字段
如果索引包含子字段，可以使用点符号在fields 参数中指定字段路径。请注意，子字段不同于嵌套字段类型。例如，如果您有一个名为address.city 的子字段，您可以像这样将其包含在搜索响应中：
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "fields": ["title", "author", "address.city"],
  "_source": false
}
在此示例中，搜索响应将包括title 、author 和address.city 字段的值。
4.合成_来源
如果既想保留 _source 的功能，又想节省磁盘空间，可以选择在索引映射中使用合成_source 。合成 _source 是一项允许 Elasticsearch 从存储字段和 doc 值等现有数据重建_source 的功能，即使_source 已禁用。这样可以节省大量存储空间，但查询时的速度会稍低，因为重建是即时进行的。在索引设置中使用以下值来启用此功能：
PUT idx
{
  "settings": {
    "index": {
      "mapping": {
        "source": {
          "mode": "synthetic"
        }
      }
    }
  }
}
使用合成_source 的一些好处包括：在使用_search API 时显示完整文档、源过滤以及与其他功能和工具（如希望_source 可用的 Kibana）的兼容性，所有这些都避免了存储完整_source 文档的需要。
5.运行时字段
运行时字段可让你在查询时或在运行时块下的索引映射中定义脚本字段。这些字段从未编入索引，因此添加运行时字段不会增加索引大小，但也不会显示在_source 中。在映射中定义的运行时字段是持久的，可用于所有查询，而在查询时定义的运行时字段是临时的，仅在该搜索请求中可用。
使用运行时字段的主要好处是，可以在摄取文档后将字段添加到文档中，从而简化映射决策。运行时字段也非常适合用原始文档中不存在但使用脚本生成的值来丰富文档，例如格式化字符串或计算分数。
还值得注意的是，运行时字段会损害性能，因为需要为结果集中的每个文档运行脚本。要检索运行时字段，还可以使用_search API 上的fields 参数。
结论
显示 Elasticsearch 索引的字段可以是使用索引映射或_source 简单检索值，也可以是使用fields 、docvalue_fields 或运行时字段的更高级方法，以获得更强的控制力和更高的效率。了解不同方法之间的权衡是优化搜索体验的关键。无论您是要优化有效载荷、丰富文档内容，还是使用合成_source 来节省存储空间，Elasticsearch 都能为您提供多种工具和功能，让您以所需的方式找到所需的数据。这些技术可以帮助您了解数据结构、识别特定字段并排除故障。


人工智能驱动的仪表盘：从设想到 Kibana
Jeffrey Rengifo, Tomás Murúa — Wed, 16 Jul 2025 00:00:00 GMT
Kibana Lens让仪表盘的拖放变得非常简单，但当你需要几十个面板时，点击次数就会增加。如果你能勾画出一个仪表盘，截图后让法律硕士为你完成整个过程，那会怎么样？
在本文中，我们将实现这一目标。我们将创建一个应用程序，它可以获取仪表盘的图像，分析映射，然后生成仪表盘，而无需接触 Kibana！
步骤：
后台& 应用程序工作流程
准备数据
LLM 配置
应用功能
后台& 应用程序工作流程
我首先想到的是让 LLM 生成整个 NDJSON 格式的 Kibana保存对象，然后将它们导入 Kibana。
我们尝试了几种型号：
双子座 2.5 pro
GPT o3 / o4-mini-high / 4.1
克劳德 4 号十四行诗
Grok 3
Deepseek (Deepthink R1)
至于提示语，我们从最简单的开始：
You are an Elasticsearch Saved-Object generator (Kibana 9.0).
INPUTS
=====
1. PNG screenshot of a 4-panel dashboard (attached).
2. Index mapping (below) – trimmed down to only the fields present in the screenshot.
3. Example NDJSON of *one* metric visualization (below) for reference.

TASK
====
Return **only** a valid NDJSON array that recreates the dashboard exactly:
* 2 metric panels (Visits, Unique Visitors)
* 1 pie chart (Most used OS)
* 1 vertical bar chart (State Geo Dest)
* Use index pattern `kibana_sample_data_logs`.
* Preserve roughly the same layout (2×2 grid).
* Use `panelIndex` values 1-4 and random `id` strings.
* Kibana version: 9.0
尽管我们看了一些简单的示例，并详细解释了如何建立每种可视化，但我们还是一无所获。如果您对这项实验感兴趣，请点击此处了解详情。
采用这种方法的结果是，在尝试将 LLM 生成的文件上传到 Kibana 时看到了这些信息：
这意味着生成的 JSON 无效或格式不当。最常见的问题是 LLM 生成不完整的 NDJSON、产生参数幻觉，或者返回普通 JSON 而非 NDJSON，无论我们如何努力去执行其他操作。
受这篇文章的启发--搜索模板比 LLM 自由式更有效--我们决定给 LLM 提供模板，而不是要求它生成完整的 NDJSON 文件，然后我们在代码中使用 LLM 给出的参数来创建适当的可视化。
申请工作流程如下：
为简单起见，我们将省略一些代码，但您可以在 本 笔记本上找到完整应用程序的工作代码  。
准备工作
在开始开发之前，您需要具备以下条件：
Python 3.8 或更高版本
VenvPython 环境
运行的 Elasticsearch 实例及其端点和 API 密钥
存储在环境变量 OPENAI_API_KEY 下的 OpenAI API 密钥：
export OPENAI_API_KEY="your-openai-api-key"
准备数据
在数据方面，我们将保持简单，使用 Elastic 样本网络日志。您可以在此了解如何将这些数据导入群集。
每份文档都包含向应用程序发出请求的主机的详细信息，以及请求本身及其响应状态的信息。下面是一个文件示例：
{
    "agent": "Mozilla/5.0 (X11; Linux i686) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24",
    "bytes": 8509,
    "clientip": "70.133.115.149",
    "extension": "css",
    "geo": {
        "srcdest": "US:IT",
        "src": "US",
        "dest": "IT",
        "coordinates": {
            "lat": 38.05134111,
            "lon": -103.5106908
        }
    },
    "host": "cdn.elastic-elastic-elastic.org",
    "index": "kibana_sample_data_logs",
    "ip": "70.133.115.149",
    "machine": {
        "ram": 5368709120,
        "os": "osx"
    },
    "memory": null,
    "message": "70.133.115.149 - - [2018-08-30T23:35:31.492Z] \"GET /styles/semantic-ui.css HTTP/1.1\" 200 8509 \"-\" \"Mozilla/5.0 (X11; Linux i686) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24\"",
    "phpmemory": null,
    "referer": "http://twitter.com/error/john-phillips",
    "request": "/styles/semantic-ui.css",
    "response": 200,
    "tags": [
        "success",
        "info"
    ],
    "@timestamp": "2025-07-03T23:35:31.492Z",
    "url": "https://cdn.elastic-elastic-elastic.org/styles/semantic-ui.css",
    "utc_time": "2025-07-03T23:35:31.492Z",
    "event": {
        "dataset": "sample_web_logs"
    },
    "bytes_gauge": 8509,
    "bytes_counter": 51201128
}
现在，让我们抓取刚刚加载的索引的映射，kibana_sample_data_logs ：
INDEX_NAME = "kibana_sample_data_logs"

es_client = Elasticsearch(
    [os.getenv("ELASTICSEARCH_URL")],
    api_key=os.getenv("ELASTICSEARCH_API_KEY"),
)

result = es_client.indices.get_mapping(index=INDEX_NAME)
index_mappings = result[list(result.keys())[0]]["mappings"]["properties"]
我们将把映射与稍后加载的图像一起传递。
LLM 配置
让我们对 LLM 进行配置，使其使用结构化输出来输入图像，并接收包含我们需要传递给函数的信息的 JSON，以生成 JSON 对象。
我们安装依赖项：
pip install elasticsearch pydantic langchain langchain-openai -q
Elasticsearch 将帮助我们检索索引映射。Pydantic 允许我们在 Python 中定义模式，然后要求 LLM 遵循这些模式，而LangChain框架则有助于更轻松地调用 LLM 和人工智能工具。
我们将创建一个 Pydantic 模式，以定义我们希望从 LLM 得到的输出。我们需要从图片中了解图表类型、字段、可视化标题和仪表盘标题：
class Visualization(BaseModel):
    title: str = Field(description="The dashboard title")
    type: List[Literal["pie", "bar", "metric"]]
    field: str = Field(
        description="The field that this visualization use based on the provided mappings"
    )


class Dashboard(BaseModel):
    title: str = Field(description="The dashboard title")
    visualizations: List[Visualization]
对于图像输入，我们将发送一个我刚刚画好的仪表盘：
现在我们声明 LLM 模型调用和图像加载。该函数将接收 Elasticsearch 索引的映射和我们要生成的仪表盘图像。
通过with_structured_output ，我们可以使用 PydanticDashboard 模式作为 LLM 生成的响应对象。通过Pydantic，我们可以定义带有验证功能的数据模型，从而确保 LLM 输出与预期结构相匹配。
要将图像转换为 base64 并作为输入发送，可以使用在线转换器 或用代码完成。
prompt = f"""
    You are an expert in analyzing Kibana dashboards from images for the version 9.0.0 of Kibana.

    You will be given a dashboard image and an Elasticsearch index mapping.

    Below are the index mappings for the index that the dashboard is based on.
    Use this to help you understand the data and the fields that are available.

    Index Mappings:
    {index_mappings}

    Only include the fields that are relevant for each visualization, based on what is visible in the image.
    """

message = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": prompt},
            {
                "type": "image",
                "source_type": "base64",
                "data": image_base64,
                "mime_type": "image/png",
            },
        ],
    }
]


try:
    llm = init_chat_model("gpt-4.1-mini")
    llm = llm.with_structured_output(Dashboard)
    dashboard_values = llm.invoke(message)

    print("Dashboard values generated by the LLM successfully")
    print(dashboard_values)
except Exception as e:
    print(f"Failed to analyze image and match fields: {str(e)}")
LLM 已经掌握了 Kibana 面板的上下文，因此我们不需要在提示中解释所有内容，只需提供一些细节，确保它不会忘记自己正在使用 Elasticsearch 和 Kibana。
让我们来分析一下提示：
            
              
                
                    
                      部门 原因
                    
                    
                      您是根据 Kibana 9.0.0 版本的图像分析 Kibana 仪表板的专家。 通过强化 Elasticsearch 和 Elasticsearch 版本，我们降低了 LLM 产生旧参数/无效参数的可能性。
                    
                    
                      您将获得一个仪表盘图像和一个 Elasticsearch 索引映射。 我们解释说，图片是关于仪表盘的，以避免法律硕士做出任何错误的解释。
                    
                    
                      下面是仪表盘所基于的索引的索引映射，使用它可以帮助你理解数据和可用字段。索引映射： {index_mappings} 提供映射至关重要，这样 LLM 才能动态选择有效字段。否则，我们就可能在这里硬编码映射，这太死板了，或者依靠图像包含正确的字段名，这也不可靠。
                    
                    
                      根据图像中可见的内容，只包含与每个可视化相关的字段。 我们必须添加这一增强功能，因为有时它会尝试添加与图像无关的字段。
                    
              
            
          这将返回一个包含要显示的可视化数组的对象：
"Dashboard values generated by the LLM successfully
title=""Client, Extension, OS, and Response Keyword Analysis""visualizations="[
   "Visualization(title=""Count of Client IP",
   "type="[
      "metric"
   ],
   "field=""clientip"")",
   "Visualization(title=""Extension Keyword Distribution",
   "type="[
      "pie"
   ],
   "field=""extension.keyword"")",
   "Visualization(title=""Most Used OS",
   "type="[
      "bar"
   ],
   "field=""machine.os.keyword"")",
   "Visualization(title=""Response Keyword Distribution",
   "type="[
      "bar"
   ],
   "field=""response.keyword"")"
]
处理 LLM 答复
我们在 上创建了一个 2x2 面板仪表盘示例，然后使用 "获取仪表盘 API "将其导出为 JSON 格式，然后将面板存储为可视化模板（饼状、条状、度量），在这些模板中，我们可以替换部分参数，根据问题创建带有不同字段的新可视化。
您可以在此处查看模板 JSON 文件。请注意我们是如何用 {variable_name} 更改我们稍后要替换的对象值的。
根据 LLM 提供的信息，我们可以决定使用哪个模板，替换哪些值。
fill_template_with_analysis 将接收单个面板的参数，包括可视化的 JSON 模板、标题、字段和可视化在网格上的坐标。
然后，它会替换模板的值，并返回最终的 JSON 可视化。
def fill_template_with_analysis(
    template: Dict[str, Any],
    visualization: Visualization,
    grid_data: Dict[str, Any],
):
    template_str = json.dumps(template)
    replacements = {
	 "{visualization_id}": str(uuid.uuid4()),
        "{title}": visualization.title,
        "{x}": grid_data["x"],
        "{y}": grid_data["y"],
    }

    if visualization.field:
        replacements["{field}"] = visualization.field

    for placeholder, value in replacements.items():
        template_str = template_str.replace(placeholder, str(value))

    return json.loads(template_str)
为了简单起见，我们将为 LLM 决定创建的面板分配静态坐标，并生成如上图所示的 2x2 网格仪表盘。
# Filling templates fields
panels = []    
grid_data = [
    {"x": 0, "y": 0},
    {"x": 12, "y": 0},
    {"x": 0, "y": 12},
    {"x": 12, "y": 12},
]


i = 0

for vis in dashboard_values.visualizations:
    for vis_type in vis.type:
        template = templates.get(vis_type, templates.get("bar", {}))
        filled_panel = fill_template_with_analysis(template, vis, grid_data[i])
        panels.append(filled_panel)
        i += 1
根据 LLM 决定的可视化类型，我们将选择一个 JSON 文件模板，并使用fill_template_with_analysis 替换相关信息，然后将新面板追加到稍后用于创建仪表盘的数组中。
仪表盘准备就绪后，我们将使用 创建 仪表盘 API 将新的 JSON 文件推送到 Kibana 以生成仪表盘：
try:
    dashboard_id = str(uuid.uuid4())

    # post request to create the dashboard endpoint
    url = f"{os.getenv('KIBANA_URL')}/api/dashboards/dashboard/{dashboard_id}"

    dashboard_config = {
        "attributes": {
            "title": dashboard_values.title,
            "description": "Generated by AI",
            "timeRestore": True,
            "panels": panels,  # Visualizations with the values generated by the LLM
            "timeFrom": "now-7d/d",
            "timeTo": "now",
        },
    }

    headers = {
        "Content-Type": "application/json",
        "kbn-xsrf": "true",
        "Authorization": f"ApiKey {os.getenv('ELASTICSEARCH_API_KEY')}",
    }

    requests.post(
        url,
        headers=headers,
        json=dashboard_config,
    )

    # Url to the generated dashboard
    dashboard_url = f"{os.getenv('KIBANA_URL')}/app/dashboards#/view/{dashboard_id}"

    print("Dashboard URL: ", dashboard_url)
    print("Dashboard ID: ", dashboard_id)

except Exception as e:
    print(f"Failed to create dashboard: {str(e)}")
要执行脚本并生成仪表盘，请在控制台中运行以下命令：
python .py
最终结果将是这样的
结论
在将文本转化为代码或将图像转化为代码时，LLM 展示了其强大的视觉能力。仪表盘 API 还能将 JSON 文件转化为仪表盘，而通过 LLM 和一些代码，我们就能将图片转化为 Kibana 仪表盘。
下一步是通过使用不同的网格设置、仪表盘大小和位置来提高仪表盘视觉效果的灵活性。此外，为更复杂的可视化和可视化类型提供支持也是对该应用程序的有益补充。


揭开独特模式的面纱：Elasticsearch 中重要术语聚合指南
Alexander Dávila — Mon, 07 Jul 2025 00:00:00 GMT
在 Elasticsearch 中，重要术语聚合超出了最常见术语的范围，可在数据集中找到统计上不寻常的值。这使我们能够发现有价值的见解和非显而易见的模式。一个重要的术语集合提供了两个有用参数的响应：
bg_count（背景计数）： 在父数据集中找到的文件数
doc_count：结果数据集中找到的文件数
例如，在手机销售数据集中，我们可以像这样查找 iPhone 16 销售的重要术语：
GET phone_sales_analysis/_search
{
 "size": 0,
 "query": {
   "term": {
     "phone_model": {
       "value": "iPhone 16"
     }
   }
 },
 "aggs": {
   "significant_cities": {
     "significant_terms": {
       "field": "city_region",
       "size": 1
     }
   }
 }
}
然后，答复给了我们：
{
 "aggregations": {
   "significant_cities": {
     "doc_count": 122,
     "bg_count": 424,
     "buckets": [
       {
         "key": "Houston",
         "doc_count": 12,
         "score": 0.1946481360617346,
         "bg_count": 14
       }

     ]
   }
 }
}
在整个数据集中，休斯顿既不是排名前十的城市，也不是 iPhone 16 的热门城市。不过，重要术语汇总显示，与其他数据相比， 该城市购买 iPhone 16 的比例过高。让我们深入了解这些数字：
在最高层：doc_count：122 - 查询总共匹配了 122 份文件
bg_count：424 - 背景集（所有销售文件）包含 424 份文件
在休斯顿的水桶里：doc_count：12 - 休斯顿出现在 122 条查询结果中的 12 条中
bg_count：14 - 在背景数据集的 424 份文件中，休斯顿出现在 14 份文件中
这告诉我们，在 424 次总购物中，只有 14 次发生在休斯顿，占总购物次数的 3.3% 。然而，如果我们只看 iPhone 16 的销售情况，就会发现 122 件中有 12 件发生在休斯顿，比整个数据集多 3 倍，即 9.8% ；这是非常重要的！
以下是可视化效果图：每个城市/地区的销售总额。
我们可以看到，休斯顿有 14 笔销售，是数据集中销售额第 14 高的城市。
现在，如果我们只对 iPhone 16 的销售情况进行筛选，休斯顿就有 12 台，成为该机型销售量第二大的城市：
了解重要术语汇总
根据 Elastic 文档，重要的术语是聚合：
"（查找）在前景集和背景集之间流行度发生显著变化的术语"。
这意味着它使用统计指标，将数据子集（前景集）中某个术语的频率与父数据集（背景集）中同一术语的频率进行比较。这样，评分反映的是统计意义，而不是术语在数据中出现的频率。
重要术语聚合与普通术语聚合的主要区别在于
重要术语对数据的子集进行比较，而术语聚合只对查询产生的数据集起作用。
术语聚合的结果是数据集中最常见的术语，而重要术语的结果则忽略了常见术语，以找出数据集的独特之处。
重要术语对性能的影响更大，因为它需要从磁盘而不是内存中获取数据，就像术语聚合所做的那样。
实际应用（消费者行为分析）
为分析准备数据
为了进行分析，我们生成了一个合成的手机销售数据集，其中包括价格、手机规格、购买者的人口统计数据和反馈信息。我们还根据用户的反馈生成了嵌入信息，以便日后进行语义查询。我们使用了 Elasticsearch 上开箱即用的多语言 e5 小型模型。
要在 Elasticsearch 上使用此数据集：
使用 Kibana 上传数据文件 功能上传 CSV 文件（可从 此处 下载）。
如本博客所示，设置一个名为 "嵌入 "的语义字段，使用 multilingual-e5-small model
使用字段类型默认值完成导入（除purchase_date 和user_feedback) 外，每个字段都使用关键字。请确保添加索引名称phone_sales_analysis ，以便能够按原样运行此处提供的查询。
这项分析的主要重点是发现"iPhone 16 购买者与其他人群的不同之处"，并为营销目的对购买者进行细分。 
这是数据集中的一份样本文件：
{
         "customer_type": "Returning",
         "user_feedback": "I have to say, quality is great for the price. The battery life is really good.",
         "upgrade_frequency": "2 years",
         "storage_capacity": "256GB",
         "occupation": "Technology & Data",
         "color": "Phantom Black",
         "gender": "Male",
         "price_paid": 899,
         "previous_brand_loyalty": "Mixed",
         "location_type": "Urban",
         "phone_model": "Samsung Galaxy S24",
         "city_region": "San Francisco Bay Area",
         "@timestamp": "2024-03-15T00:00:00.000-05:00",
         "income_bracket": "75000-100000",
         "purchase_channel": "Online",
         "feedback_sentiment": "positive",
         "education_level": "Bachelor",
         "embedding": "I have to say, quality is great for the price. The battery life is really good.",
         "customer_id": "C001",
         "purchase_date": "2024-03-15",
         "age": 34,
         "trade_in_model": "iPhone 13"
}
了解人口模式
在此，我们将对一般人群进行分析，并将其与 iPhone 16 用户重要术语汇总的有趣发现进行比较。
正常模式
为了了解正常的购买模式，我们可以汇总不同领域所有文档的数据。为简单起见，我们将重点探讨购买手机的人的职业。我们可以通过向 Elasticsearch 提出请求来实现这一点。
GET phone_sales_analysis/_search
{
 "aggs": {
   "occupation_distribution": {
     "terms": {
       "size": 5,
       "field": "occupation"
     }
   }
 },
 "size": 0
}
这告诉我们，数据集中的主要职业（按记录数计）是
iPhone 16 用户的使用模式
为了了解购买了 iPhone 16 的人有什么不同，让我们在同一字段上运行术语聚合，并在查询中使用过滤器找到这些人，就像这样：
GET phone_sales_analysis/_search
{
  "query": {
    "term": {
      "phone_model": "iPhone 16"
    }
  },
  "aggs": {
    "occupation_distribution": {
      "terms": {
        "size": 5,
        "field": "occupation"
      }
    }
  },
  "size": 0
}
因此，iPhone 16 用户的主要职业是
我们可以看到，iPhone 16 用户的职业模式与其他型号手机的用户不同。让我们使用 Kibana 来轻松实现结果的可视化：
在这张图表中，我们可以看到 iPhone 16 的趋势与整个人群的趋势不同。
我们可以跳过整个分析，通过一个重要项的汇总，来看看 iPhone 16 用户与普通用户的不同之处：
GET phone_sales_analysis/_search
{
  "query": {
    "term": {
      "phone_model": "iPhone 16"
    }
  },
  "aggs": {
    "occupation_distribution": {
      "significant_terms": {
        "size": 5,
        "field": "occupation"
      }
    }
  },
  "size": 0
}
简而言之，我们得到了这样的答复：
            
              
                
                    
                      iPhone 16 的职业值 文件数量 bg_count
                    
                    
                      职业分布（最高级别） 122 424
                    
                    
                      医疗& 保健桶 45 57
                    
              
            
          这些回复清楚地表明，iPhone 16 用户有一个不常见的（读作 "重要！"）问题。与普通人相比，医疗& 保健领域的人数更多。让我们看看回复中的数字意味着什么：
在最高层：doc_count：122 - 查询总共匹配了 122 份文件
bg_count：424 - 背景集（所有销售文件）包含 424 份文件
在医疗& 保健桶中：doc_count：45 - "医疗& 保健" 在 122 条查询结果中出现了 45 条
bg_count：57 - "医疗& 保健" 在背景数据集中的全部 424 份文件中出现 57 份
在 424 位买家中，有 57 位在医疗& 保健领域工作，即 13.44% 。但是，当我们查看 iPhone 16 的购买者时，122 位购买者中有 45 位从事医疗& ，即 36.88% 。这意味着在 iPhone 16 用户中，从事医疗& 保健工作的可能性要高出一倍！
我们可以将同样的分析应用于其他领域（年龄、地点、收入阶层等），从而发现更多有关 iPhone 16 用户独特之处的信息。 
消费者细分
我们可以利用重要术语聚合来提取产品、类别和客户群之间的关系洞察。为此，我们为感兴趣的类别建立一个父聚合。我们还使用了重要术语和普通术语子分类，以发现对该类别的有趣见解，并将其与该职业中大多数人使用的术语进行比较。
例如，让我们看看某些工作领域的人喜欢什么：
为了更清楚地进行分析，我们将搜索范围限制在 3 个工作领域：["行政& 支持","技术& 数据","医疗& 保健"]
在汇总方面，我们首先按职业进行术语汇总
增加一个子分类：按手机型号分类--查找在各个领域工作的用户正在购买哪些手机型号
添加第二个子分类：按手机型号分类的重要术语，以找出每个工作领域中的特殊型号
GET phone_sales_analysis/_search
{
 "query": {
   "terms": {
     "occupation": [
       "Administrative & Support",
       "Technology & Data",
       "Medical & Healthcare"
     ]
   }
 },
 "aggs": {
   "occupations": {
     "terms": {
       "size": 15,
       "field": "occupation"
     },
     "aggs": {
       "general_models": {
         "terms": {
           "field": "phone_model"
         }
       },
       "significant_models": {
         "significant_terms": {
           "field": "phone_model"
         }
       }
     }
   }
 },
 "size": 0
}
让我们来分析一下汇总结果：
职业行政& 支持
术语汇总
重要术语汇总
从该表中我们可以推断出，该职业的趋势与整个人口的趋势之间没有显著差异
职业：技术& 数据
术语汇总
重要术语汇总
文件总数424
该职业的文件：71
            
              
                
                    
                      手机型号 doc_count （本职业中的本模型） bg_count （所有文件中都有此模型） % 在所有文件中 % 从事这一职业
                    
                    
                      谷歌 Pixel 8 12 220 5.19% 16.90%
                    
                    
                      OnePlus 11 9 14 3.30% 12.68%
                    
                    
                      OnePlus 12 Pro 3 3 0.71% 4.23%
                    
                    
                      谷歌 Pixel 8 Pro 9 21 4.95% 12.68%
                    
                    
                      无手机 2 5 8 1.89% 7.04%
                    
                    
                      三星 Galaxy Z Fold5 4 6 1.42% 5.63%
                    
                    
                      OnePlus 12 8 20 4.72% 11.27%
                    
              
            
          职业：医疗& 保健
术语汇总
重要术语汇总
文件总数424
该职业的文件：57
            
              
                
                    
                      手机型号 doc_count （本职业中的本模型） bg_count （所有文件中都有此模型） % 在所有文件中 % 从事这一职业
                    
                    
                      iPhone 16 45 122 28.77% 78.95%
                    
                    
                      iPhone 15 Pro Max 3 13 3.07% 5.26%
                    
                    
                      iPhone 15 7 40 9.43% 12.28%
                    
              
            
          让我们看看这些数据告诉了我们什么故事：
医疗& 医疗保健专业人士更喜欢 iPhone 16，而且普遍倾向于使用苹果手机。
技术& 数据专业人士更喜欢高端安卓手机，但不一定使用三星品牌。在这一类别中，iPhone 也有相当大的发展趋势。
行政管理& 支持专业人员更喜欢三星和谷歌手机，但没有形成强烈而独特的趋势。
重要术语汇总和混合搜索
混合搜索结合了文本搜索和语义结果，可提供更好的搜索体验。在这种情况下，一个重要的术语聚合可以通过回答问题来深入了解上下文感知搜索的结果：与所有文档相比，这个数据集有什么特别之处？为了展示这一特点，让我们看看当用户谈论良好性能时，哪些模型的代表性过高： 
让我们建立一个语义查询，通过字段嵌入找到最接近输入 "性能良好 "的用户反馈
我们还将在文本字段 user_feedback 中使用相同的术语进行文本搜索
我们还将添加一个重要术语查询，以找到在这些结果中出现频率高于完整数据集的手机型号
GET phone_sales_analysis/_search
{
 "retriever": {
   "rrf": {
     "retrievers": [
       {
         "standard": {
           "query": {
             "bool": {
               "must": [
                 {
                   "match": {
                     "user_feedback": {
                       "query": "good performance",
                       "operator": "and"
                     }
                   }
                 }
               ]
             }
           }
         }
       },
       {
         "standard": {
           "query": {
             "semantic": {
               "field": "embedding",
               "query": "good performance"
             }
           }
         }
       }
     ],
    "rank_window_size": 20
   }
 },
 "aggs": {
   "Models": {
     "significant_terms": {
       "field": "phone_model"
     }
   }
 }
}
让我们来看一个匹配文件的例子：
这就是我们得到的答复：
{
  "took": 388,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 20,
      "relation": "eq"
    },
    "max_score": 0.016393442,
    "hits": [...]
  },
  "aggregations": {
    "Models": {
      "doc_count": 20,
      "bg_count": 424,
      "buckets": [
        {
          "key": "iPhone 15",
          "doc_count": 5,
          "score": 0.4125,
          "bg_count": 40
        }
      ]
    }
  }
}
这告诉我们，虽然 iPhone 15 在总共 424 篇文档中出现了 40 次（占文档总数的 9.4% ），但在符合语义搜索 "良好表现 "的 20 篇文档（占文档总数的 25% ）中却能找到 5 次。因此，我们可以得出这样的结论：在谈论良好性能时，发现 iPhone 15 的可能性是偶然发现的 2.7 倍。
结论
重要术语聚合可以通过将数据集与全局文档进行比较，发现数据集的独特细节。这可以揭示数据中意想不到的关系，而不仅仅是出现次数的计算。例如，我们可以在各种使用案例中应用重要术语，从而实现非常有趣的功能：
在 侦查 欺诈行为时找出模式 --识别被盗信用卡的常见交易。
从用户评论中洞察品牌质量--发现差评过多的品牌。
发现 分类错误的文档--发现属于某个类别（术语过滤器）但在描述中使用了该类别不常用词的文档（重要术语汇总）。


使用 JavaScript、Mastra 和 Elasticsearch 构建代理 RAG 助手
JD Armada — Tue, 01 Jul 2025 00:00:00 GMT
我是在激烈的高风险梦幻篮球联赛中萌生这个想法的。我想知道我能否建立一个人工智能代理，帮助我在每周的对阵中占据优势？当然可以！
在本篇文章中，我们将探讨如何使用Mastra和一个轻量级 JavaScript 网络应用程序来构建一个代理 RAG 助手，并与其进行交互。通过将该代理连接到 Elasticsearch，我们可以让它访问结构化的球员数据，并能够运行实时统计汇总，从而为您提供基于球员统计数据的推荐。请访问 GitHub软件源，了解如何克隆和运行应用程序；README提供了相关说明。 
下面是全部组装好后的样子：
注：本博文以 "使用 AI SDK 和 Elastic 构建 AI 代理"为基础。如果您是第一次接触人工智能代理及其用途，请从这里开始。
结构概述
该系统的核心是一个大型语言模型（LLM），它充当了代理的推理引擎（大脑）。它能解释用户输入，决定调用哪些工具，并协调生成相关响应所需的步骤。
代理本身由 JavaScript 生态系统中的代理框架 Mastra 搭建脚手架。Mastra 将 LLM 与后端基础设施封装在一起，将其作为 API 端点公开，并提供了一个用于定义工具、系统提示和代理行为的接口。
在前端，我们使用Vite快速搭建了一个 React 网络应用程序，它提供了一个聊天界面，用于向代理发送查询并接收其回复。
最后，我们还有 Elasticsearch，它存储了代理可以查询和汇总的球员统计数据和对阵数据。
背景
让我们来回顾一下几个基本概念：
什么是代理 RAG？
人工智能代理可以与其他系统互动，独立运行，并根据其定义的参数执行操作。代理式 RAG 将人工智能代理的自主性与检索增强生成的原则相结合，使 LLM 能够选择调用哪些工具和使用哪些数据作为上下文来生成响应。点击此处了解有关 RAG 的更多信息。
选择框架，为什么要超越 AI-SDK？
目前有许多人工智能代理框架，你可能听说过CrewAI、AutoGen和LangGraph 等比较流行的框架。这些框架大多有一套共同的功能，包括支持不同的模型、工具使用和内存管理。
下面是哈里森-蔡斯（LangChain 首席执行官）的框架比较表。
让我对 Mastra 产生兴趣的是，它是一个 JavaScript 优先框架，专为全栈开发人员设计，可以轻松地将代理集成到他们的生态系统中。Vercel 的 AI-SDK 也能实现大部分功能，但 Mastra 的优势在于当项目包含更复杂的代理工作流程时。Mastra 增强了 AI-SDK 设置的基本模式，在本项目中，我们将同时使用它们。
框架和模型选择考虑因素
虽然这些框架可以帮助您快速构建人工智能代理，但也有一些缺点需要考虑。例如，在使用人工智能代理或任何抽象层之外的其他框架时，你会失去一些控制权。如果 LLM 没有正确使用工具，或者做了一些你不希望它做的事情，抽象化就会增加调试难度。不过，在我看来，这种折衷还是值得的，尤其是因为这些框架的发展势头越来越好，而且还在不断迭代。
同样，这些框架与模型无关，这意味着您可以即插即用不同的模型，但请记住，模型在不同的数据集上训练出来的结果是不同的，反过来，它们给出的响应也是不同的。有些型号甚至不支持工具调用。因此，可以切换和测试不同的型号，看看哪种型号能给您带来最好的响应，但请记住，您很可能需要为每种型号重写系统提示。例如，使用 Llama3.3与 GPT-4o 相比，它需要更多的提示和具体指令才能得到您想要的回应。
NBA 梦幻篮球
梦幻篮球就是和你的一群朋友组成一个联盟（警告，这可能会影响你们的友谊，这取决于你们的竞争有多激烈），通常会涉及到一些金钱问题。然后，你们每个人起草一支由 10 名球员组成的队伍，每周轮流与另一位朋友的 10 名球员比赛。您的总得分取决于您的每位球员在一周内与对手的对战情况。
如果您队中有球员受伤、停赛等，会有一份自由球员名单供您选择。这也是梦幻体育中最难思考的地方，因为你只有有限的选择权，而每个人都在不断地寻找最好的球员。
这正是我们的 NBA AI 助手大显身手的地方，尤其是在您必须迅速决定选择哪位球员的情况下。助手无需手动查找球员在与特定对手比赛时的表现，而是可以快速找到这些数据并比较平均值，从而为您提供明智的建议。
现在，您已经了解了代理 RAG 和 NBA 梦幻篮球的一些基本知识，让我们来看看它的实际应用。
建设项目
如果您遇到任何问题或不想从头开始构建，请参考软件仓库。
我们的内容
为项目搭建脚手架：后端（Mastra）：使用 npx create mastra@latest 构建后端并定义代理逻辑。
前端（Vite + React）：使用 npm create vite@latest 构建与代理交互的前端聊天界面。
设置环境变量安装 dotenv 来管理环境变量。
创建 .env文件，并提供所需的变量。
设置 Elasticsearch启动 Elasticsearch 集群（本地或云端）。
安装官方 Elasticsearch 客户端。
确保环境变量可访问。
建立与客户端的连接。
将 NBA 数据批量导入 Elasticsearch创建具有适当映射的索引，以启用聚合。
将 CSV 文件中的玩家游戏统计数据批量导入 Elasticsearch 索引。
定义 Elasticsearch 聚合查询计算与特定对手的历史平均值。
查询计算对特定对手的赛季平均分。
播放器比较实用程序文件整合辅助函数和 Elasticsearch 聚合。
建立代理添加代理定义和系统提示。
安装 zod 和定义工具。
添加中间件设置以处理 CORS。
整合前端使用 AI-SDK 的 useChat 与代理互动。
创建用户界面，以保存格式正确的对话。
运行应用程序同时启动后端（Mastra 服务器）和前端（React 应用程序）。
查询和使用示例。
下一步是什么？让代理更智能增加语义搜索功能，提供更具洞察力的建议。
将搜索逻辑移至 Elasticsearch MCP（模型上下文协议）服务器，从而启用动态查询。
准备工作
Node.js 和 npm：后端和前端都在 Node 上运行。确保已安装 Node 18+ 和 npm v9+（与 Node 18+ 绑定）。
Elasticsearch 集群：本地或云端的活动 Elasticsearch 集群。
OpenAI API 密钥：在OpenAI 开发人员门户网站的 API 密钥页面上生成一个。
项目结构
步骤 1：为项目搭建脚手架
首先，创建目录 nba-ai-assistant-js，并在其中导航： 
mkdir nba-ai-assistant-js && cd nba-ai-assistant-js
后台
使用 Mastra 创建工具并执行命令： 
npx create-mastra@latest
2.你的终端应该会收到一些提示，第一个提示是命名项目后台：
3.接下来，我们将保留存储 Mastra 文件的默认结构，因此输入src/.
4.然后，我们将选择 OpenAI 作为默认的 LLM 提供商。
5.最后，它会要求你提供 OpenAI API 密钥。现在，我们选择跳过选项，稍后在 .env 文件中提供。
前台
返回根目录，使用此命令运行Vite 创建工具： npm create vite@latest frontend -- --template react
这将创建一个名为frontend 的轻量级 React 应用程序，并为 React 提供特定模板。
如果一切顺利，在你的项目目录中，你应该会看到一个存放 Mastra 代码的后台目录和一个存放 React 应用程序的frontend 目录。
步骤 2：设置环境变量
为了管理敏感键，我们将使用dotenv 软件包从 .env 中加载环境变量。锉刀导航至后台目录，安装dotenv ：
cd backend
npm install dotenv --save
2.在后台目录中，会提供一个 example.env 文件，其中包含需要填写的相应变量。如果您自己创建，请确保包含以下变量：
# OpenAI Configuration
OPENAI_API_KEY=your_openai_api_key_here

# Elasticsearch Configuration
ELASTIC_ENDPOINT=your_elasticsearch_endpoint_here
ELASTIC_API_KEY=your_elasticsearch_api_key_here
注意：通过在.gitignore 中添加.env ，确保将此文件排除在版本控制之外。
第 3 步：设置 Elasticsearch
首先，您需要一个活动的 Elasticsearch 集群。有两种选择：
选项 A：使用 Elasticsearch 云注册弹性云
创建新的部署
获取端点 URL 和 API 密钥（已编码）
选项 B：在本地运行 Elasticsearch在本地安装并运行 Elasticsearch
使用 http://localhost:9200 作为终端
生成 API 密钥
在后台安装 Elasticsearch 客户端：
首先，在后台目录中安装 Elasticsearch 官方客户端：
npm install @elastic/elasticsearch
2.然后创建一个 lib 目录来存放可重复使用的函数，并导航进入该目录：
mkdir lib && cd lib
3.在其中创建一个名为elasticClient.js 的新文件。该文件将初始化 Elasticsearch 客户端，并在整个项目中公开使用。
4.由于我们使用的是 ECMAScript 模块 (ESM)，因此无法使用__dirname and __文件名。为确保您的环境变量能从 .env文件，将此设置添加到文件顶部：
import { config } from 'dotenv';
import { fileURLToPath } from 'url';
import { dirname, join } from 'path';
import { Client } from '@elastic/elasticsearch';

// Grab current directory and load .env from backend folder
const __filename = fileURLToPath(import.meta.url);
const __dirname = dirname(__filename);
const envPath = join(__dirname, '../.env');

// Load environment variables from the correct path
config({ path: envPath });
5.现在，使用环境变量初始化 Elasticsearch 客户端并检查连接：
//Elastic client Initialization, make sure environment variables are being loaded in correctly
const config= {
    node: `${process.env.ELASTIC_ENDPOINT}`,
    auth: {
        apiKey: `${process.env.ELASTIC_API_KEY}`,
    },
};

export const elasticClient = new Client(config);

//Check if the client is connected
async function checkConnection() { 
    try {
        const info = await elasticClient.info();
        console.log('Elasticsearch is connected:', info);
    } catch (error) {
        console.error('Elasticsearch connection error:', error);
    }
}

checkConnection();
现在，我们可以将此客户端实例导入任何需要与 Elasticsearch 集群交互的文件。
第 4 步：将 NBA 数据批量导入 Elasticsearch
数据集：
在本项目中，我们将引用软件版本中后端/数据目录下的数据集。我们的 NBA 助手将以这些数据为知识基础，进行统计比较并生成建议。
sample_player_game_stats.csv- NBA 球员职业生涯的球员比赛统计数据样本（如得分、篮板、抢断等）。我们将使用该数据集进行聚合。(注：这是模拟数据，为演示目的而预先生成，并非来自 NBA 官方来源）。
playerAndTeamInfo.js- 替代通常由应用程序接口调用提供的球员和球队元数据，以便代理能将球员和球队名称与 ID 匹配。由于我们使用的是样本数据，我们不希望从外部应用程序接口获取数据造成开销，因此我们硬编码了一些代理可以引用的值。
实施：
在backend/lib 目录中，创建名为playerDataIngestion.js 的文件。
设置导入、解析 CSV 文件路径并设置解析。同样，由于我们使用的是 ESM，因此需要重构__dirname 来解析 CSV 样本的路径。此外，我们还将导入Node.js的内置模块fs 和readline 逐行解析给定的 CSV 文件。
import fs from 'fs';
import readline from 'readline';
import path from 'path';
import { fileURLToPath } from 'url';
import { elasticClient } from './elasticClient.js';

const indexName = 'sample-nba-player-data'; //Replace with your preferred index name

//Since we are using ES modules __dirname and __filename don't exist, so this is a workaround that allows us to use the absolute file path for our sample data.
const __filename = fileURLToPath(import.meta.url);
const __dirname = path.dirname(__filename);
const filePath = path.resolve(__dirname, '../data/sample_nba_data.csv');
这样，当我们进入批量摄取步骤时，就能高效地读取和解析 CSV。
3.创建具有适当映射的索引。虽然 Elasticsearch 可以通过动态映射自动推断字段类型，但我们希望在此明确说明，以便每个统计信息都被视为数字字段。这一点很重要，因为稍后我们将使用这些字段进行聚合。我们还希望对得分、篮板等统计数据使用float 类型，以确保包含小数值。最后，我们要添加映射属性dynamic: 'strict' ，这样 Elasticsearch 就不会动态映射未识别的字段。 
// Function to create an index with mappings
async function createIndex() {
    try {
        // Check if the index already exists
        const exists = await elasticClient.indices.exists({ index: indexName });

        if (exists) {
            console.log(`Index "${indexName}" already exists, deleting it now.`);
            await elasticClient.indices.delete({ index: indexName });
            console.log(`Deleted index "${indexName}".`);
        }
        // Create the index with mappings
        const response = await elasticClient.indices.create({
            index: indexName,
            body: {
                mappings: {
                    dynamic: 'strict', // Prevent dynamic mapping
                    properties: {
                        game_id: { type: 'integer' },
                        game_date: { type: 'date' },
                        player_id: { type: 'integer' },
                        player_full_name: { type: 'text' },
                        player_team_id: { type: 'integer' },
                        player_team_name: { type: 'text' },
                        home_team: { type: 'boolean' },
                        opponent_team_id: { type: 'integer' },
                        opponent_team_name: { type: 'text' },
                        points: { type: 'float' },
                        rebounds: { type: 'float' },
                        assists: { type: 'float' },
                        steals: { type: 'float' },
                        blocks: { type: 'float' },
                        fg_percentage: { type: 'float' },
                        minutes_played: { type: 'float' },
                    },
                },
            },
        });

        console.log('Index created:', response);
        return true;
    } catch (error) {
        console.error('Error creating index:', error);
        return false;
    }
}
4.添加将 CSV 数据批量导入 Elasticsearch 索引的函数。在代码块内，我们跳过标题行。然后，用逗号分隔每个行项目，并将其推入文档对象。这一步骤还可以清洁它们，并确保它们是正确的类型。接下来，我们将文档连同索引信息一起推送到 bulkBody 数组中，作为批量摄取到 Elasticsearch 的有效载荷。
async function bulkIngestCsv(filePath) {
    const readStream = fs.createReadStream(filePath);
    const rl = readline.createInterface({
        input: readStream,
        crlfDelay: Infinity,
    });

    const bulkBody = [];
    let lineNum = 0;

    //Skip the header line
    let headerLine = true;
    for await (const line of rl) {
        if (headerLine) {
            headerLine = false;
            continue;
        }
        lineNum++;

        // Split the line by comma and remove whitespace
        const [
            game_id,
            game_date,
            player_id,
            player_full_name,
            player_team_id,
            player_team_name,
            home_team,
            opponent_team_id,
            opponent_team_name,
            points,
            rebounds,
            assists,
            steals,
            blocks,
            fg_percentage,
            minutes_played,
        ] = line.split(',');

        // Create a document object
        const document = {
            game_id: parseInt(game_id),
            game_date: game_date.trim(),
            player_id: parseInt(player_id),
            player_full_name: player_full_name.trim(),
            player_team_id: parseInt(player_team_id),
            player_team_name: player_team_name.trim(),
            home_team: home_team.trim() === 'True', // Converts True/False into a boolean
            opponent_team_id: parseInt(opponent_team_id),
            opponent_team_name: opponent_team_name.trim(),
            points: parseFloat(points),
            rebounds: parseFloat(rebounds),
            assists: parseFloat(assists),
            steals: parseFloat(steals),
            blocks: parseFloat(blocks),
            fg_percentage: parseFloat(fg_percentage),
            minutes_played: parseFloat(minutes_played),
        };

        // Prepare the bulk operation format
        bulkBody.push({ index: { _index: indexName } });
        bulkBody.push(document);
    }

    console.log(`Parsed ${lineNum} lines from CSV`);
5.然后，我们可以通过elasticClient.bulk() 使用 Elasticsearch 的批量 API，在一次请求中摄取多个文档。下面的错误处理结构可以让你计算有多少文档未能被摄取，有多少文档被成功摄取。
try {
        // Perform the bulk request
        const response = await elasticClient.bulk({ body: bulkBody });

        if (response.errors) {
            console.log('Bulk Ingestion had some hiccups:');

            // Count successful vs failed operations
            let successCount = 0;
            let errorCount = 0;
            const errorDetails = [];

            response.items.forEach((item, index) => {
                const operation = item.index || item.create || item.update || item.delete;
                if (operation.error) {
                    errorCount++;
                    errorDetails.push({
                        document: index + 1,
                        error: operation.error,
                    });
                } else {
                    successCount++;
                }
            });

            console.log(`Successfully indexed: ${successCount} documents`);
            console.log(`Failed to index: ${errorCount} documents, here are the details`, errorDetails);

        } else {
            console.log(`Bulk Ingestion fully successful!`);
        }

    } catch (error) {
        console.error('Error performing bulk ingestion:', error);
    }
}
6.运行下面的main() 函数，依次运行createIndex() 和bulkIngestCsv() 函数。
// Run this function
async function main() {
    const result = await createIndex();
    if (!result) {
        console.error('Index setup failed. Aborting.');
        return;
    }

    await bulkIngestCsv(filePath);
    console.log('Bulk ingestion completed!');
}

main();
如果看到控制台日志显示批量摄取成功，请在 Elasticsearch 索引上执行快速检查，查看是否确实成功摄取了文档。
步骤 5：定义 Elasticsearch 聚合和合并
这些将是我们为人工智能代理定义工具时使用的主要功能，以便对球员的统计数据进行比较。
1.导航至backend/lib 目录，创建名为elasticAggs.js 的文件。
2.添加下面的查询，计算球员对特定对手的历史平均分。该查询使用bool 过滤器，其中包含两个条件：一个匹配player_id ，另一个匹配opponent_team_id ，以便只检索相关游戏。我们不需要返回任何文档，我们只关心聚合，因此我们设置size:0 。在aggs 块下，我们在points, rebounds, assists, steals, blocks 和fg_percentage 等字段上并行运行多个度量聚合，以计算它们的平均值。LLM 的计算可能会出现偏差，而这一功能可将计算过程卸载到 Elasticsearch，确保我们的 NBA AI 助手能够访问准确的数据。
export async function getHistoricalAveragesAgainstOpponent(player_id, opponent_team_id) {
    try {
        //Query for Historical Averages
        const historicalQuery = await elasticClient.search({
            index: 'sample-nba-player-data', 
            size: 0,
            query: {
                bool: {
                    must: [
                        {
                            term: {
                                player_id: {
                                    value: player_id,
                                },
                            },
                        },
                        {
                            term: {
                                opponent_team_id: {
                                    value: opponent_team_id,
                                },
                            },
                        },
                    ],
                },
            },
            aggs: {
                avg_points: { avg: { field: 'points' } },
                avg_rebounds: { avg: { field: 'rebounds' } },
                avg_assists: { avg: { field: 'assists' } },
                avg_steals: { avg: { field: 'steals' } },
                avg_blocks: { avg: { field: 'blocks' } },
             avg_fg_percentage: { avg: { field: 'fg_percentage' } },
            },
        });

        return {
            points: historicalQuery.aggregations.avg_points.value || 0,
            rebounds: historicalQuery.aggregations.avg_rebounds.value || 0,
            assists: historicalQuery.aggregations.avg_assists.value || 0,
            steals: historicalQuery.aggregations.avg_steals.value || 0,
            blocks: historicalQuery.aggregations.avg_blocks.value || 0,
            fgPercentage: historicalQuery.aggregations.avg_fg_percentage.value || 0,
        };
    } catch (error) {
        console.error('Query error from getHistoricalAveragesAgainstOpponent function:', error);
        return { error: 'Queries failed in getting historical averages against opponent.' };
    }
}
3.要计算一名球员对阵特定对手的赛季平均值，我们将使用与历史查询几乎相同的查询方式。该查询的唯一区别是bool 过滤器对game_date 附加了一个条件。game_date 必须在当前 NBA 赛季的范围内。在这种情况下，范围介于2024-10-01 和2025-06-30 之间。下面这个额外的条件确保了后面的汇总将只分离出本赛季的比赛。
        {
                            range: {
                    //Range for this season, change to match current season
                                game_date: {
                                    gte: '2024-10-01',
                                    lte: '2025-06-30',
                                },
                            },
步骤 6：球员比较实用程序
为了保持代码的模块化和可维护性，我们将创建一个实用程序文件来整合元数据辅助函数和 Elasticsearch 聚合。这将为特工使用的主要工具提供动力。稍后再详述：
1.在backend/lib 目录中新建一个文件comparePlayers.js。
2.添加下面的函数，将元数据助手和 Elasticsearch 聚合逻辑合并为一个函数，为代理使用的主要工具提供动力。
import { playersByName } from '../data/playerAndTeamInfo.js';
import { teamsByName } from '../data/playerAndTeamInfo.js';
import { upcomingMatchups } from '../data/playerAndTeamInfo.js';
import { getHistoricalAveragesAgainstOpponent } from './elasticAggs.js';
import { getSeasonAveragesAgainstOpponent } from './elasticAggs.js';

//Simple helper functions to simulate API calls for player and team metadata. These reference the hardcoded values from playerAndTeamInfo.js in the data directory
export function getPlayerInfo(playerFullName) {
    return playersByName[playerFullName];
}

export function getTeamID(teamFullName) {
    return teamsByName[teamFullName];
}

export function getUpcomingMatchups(teamId) {
    return upcomingMatchups[teamId];
}

//Main function used by the 'playerComparisonTool' agent tool
export async function comparePlayersForNextMatchup(player1Name, player2Name) {
    //Get Player Info
    const player1Info = getPlayerInfo(player1Name);
    const player2Info = getPlayerInfo(player2Name);

    //Get upcoming matchups
    const player1NextGame = getUpcomingMatchups(player1Info.team_id)[0];
    const player2NextGame = getUpcomingMatchups(player2Info.team_id)[0];

    //Get season and historical averages against next opponent for player 1
    const player1SeasonAverages = await getSeasonAveragesAgainstOpponent(
        player1Info.player_id,
        player1NextGame.opponent_team_id
    );
    const player1HistoricalAverages = await getHistoricalAveragesAgainstOpponent(
        player1Info.player_id,
        player1NextGame.opponent_team_id
    );

    //Get season and historical averages against next opponent for player 2
    const player2SeasonAverages = await getSeasonAveragesAgainstOpponent(
        player2Info.player_id,
        player2NextGame.opponent_team_id
    );
    const player2HistoricalAverages = await getHistoricalAveragesAgainstOpponent(
        player2Info.player_id,
        player2NextGame.opponent_team_id
    );

    const player1 = {
        name: player1Name,
        playerId: player1Info.player_id,
        teamId: player1Info.team_id,
        nextOpponent: {
            teamId: player1NextGame.opponent_team_id,
            teamName: player1NextGame.opponent_team_name,
            home: player1NextGame.home,
        },
        stats: {
            seasonAverages: player1SeasonAverages,
            historicalAverages: player1HistoricalAverages,
        },
    };

    const player2 = {
        name: player2Name,
        playerId: player2Info.player_id,
        teamId: player2Info.team_id,
        nextOpponent: {
            teamId: player2NextGame.opponent_team_id,
            teamName: player2NextGame.opponent_team_name,
            home: player2NextGame.home,
        },
        stats: {
            seasonAverages: player2SeasonAverages,
            historicalAverages: player2HistoricalAverages,
        },
    };

    return [player1, player2];
}
步骤 7：建立代理
现在，您已经创建了前端和后端脚手架，摄取了 NBA 游戏数据，并建立了与 Elasticsearch 的连接，我们可以开始将所有部件组装在一起以构建代理。
定义代理
1.导航至backend/src/mastra/agents 目录中的index.ts文件并添加代理定义。您可以指定以下字段
名称：给代理起一个名字，在前台调用时用作参考。
指令/系统提示： 系统提示为 LLM 提供交互过程中需要遵循的初始环境和规则。它类似于用户通过聊天框发出的提示，但这个提示是在用户输入之前发出的。同样，这也会根据您选择的机型而变化。
模型：使用哪种 LLM（Mastra 支持 OpenAI、Anthropic、本地模型等）。
工具：代理可调用的工具功能列表。
记忆：（可选）如果我们希望代理记住对话历史等。为了简单起见，我们可以不使用持久内存，尽管 Mastra 支持持久内存。
import { openai } from '@ai-sdk/openai';
import { Agent } from '@mastra/core/agent';
import { playerComparisonTool } from '../tools';

export const basketballAgent = new Agent({
    name: 'Basketball Agent',
    instructions: `
      You are a NBA Basketball expert.
      Your primary function is to compare two NBA players and recommend which one is the better fantasy pickup.

      Only compare players from the following list:
      - LeBron James
      - Stephen Curry
      - Jayson Tatum
      - Jaylen Brown
      - Nikola Jokic
      - Luka Doncic
      - Kyrie Irving
      - Anthony Davis
      - Kawhi Leonard
      - Russell Westbrook

      Input Handling Rules:
      - If the user asks about a player that is not on this list, respond with the list of available players for comparison.
      - If the user only inputs one player, ask the user to add another player from the list provided.
      - If the user inputs a player with the wrong spelling or capitalizations, infer from the list of available players provided.
      - IMPORTANT: If the user asks a question or asks you to generate a response about anything outside of basketball or the scope of this project, DO NOT answer and affirm you can only talk about basketball.

      Tool Usage:
      - Extract and standardize player names to match the list exactly.
      - Use the playerComparisonTool, passing both names as strings.
      - The tool will return an object with game information, stats, and analysis.

      Format your response using Markdown syntax. Use:

        Example output format:

       
        #### Next Game Info
        - ***LeBron James** vs Warriors, May 24 (Home)  
        - ***Stephen Curry** vs Lakers, May 24 (Away)


        #### Stats Comparison  
        \`\`\`  
        Stat                  LeBron James (vs Warriors)    Stephen Curry (vs Lakers)  
        --------------------  -----------------------------  ----------------------------  
        Historical Points     28.3                          30.3  
        Historical Assists    6.7                           8.7  
        Season Points         28.8                          23.3  
        Season Assists        6.2                           4.7  
        \`\`\`

        #### Fantasy Recommendation  
        Explain which player is the better fantasy pickup and why.
      
    `,
    model: openai('gpt-4o'),
    tools: { playerComparisonTool },
});

定义工具
导航至backend/src/mastra/tools 目录中的index.ts文件。
使用命令安装 Zod：
npm install zod
3.添加工具定义。请注意，我们将comparePlayers.js 文件中的函数导入为代理在调用该工具时将使用的主函数。使用 Mastra 的createTool() 功能，我们将注册playerComparisonTool 。这些领域包括
id:这是一种自然语言描述，用于帮助代理理解工具的功能。
input schema:为了定义工具的输入形状，Mastra 使用了Zod模式，这是一个 TypeScript 模式验证库。Zod 可确保代理输入结构正确的输入，并在输入结构不匹配时阻止工具执行。
description:这是一种自然语言描述，帮助代理了解何时呼叫和使用工具。
execute:调用工具时运行的逻辑。在本例中，我们使用一个导入的辅助函数来返回性能统计信息。
import { comparePlayersForNextMatchup } from '../../../lib/comparePlayers.js'
import { createTool } from "@mastra/core/tools";
import { z } from "zod";

export const playerComparisonTool = createTool({
    id: "Compare two NBA players",
    inputSchema: z.object({
        player1:z.string(),
        player2:z.string()
    }),
    description: "Use this tool to compare two players given in the user prompt.",
    execute: async ({ context: { player1, player2 } }) => {
        return await comparePlayersForNextMatchup(player1, player2);
      },
})
添加中间件处理 CORS
在 Mastra 服务器中添加中间件以处理CORS。俗话说，人生有三件事无法避免：死亡、税收，而对于网络开发人员来说，就是 CORS。简而言之，跨源资源共享是一种浏览器安全功能，可阻止前台向运行在不同域或端口的后台发出请求。尽管我们在 localhost 上运行后端和前端，但它们使用不同的端口，从而触发了 CORS 策略。我们需要添加Mastra 文档中指定的中间件，以便我们的后端允许来自前端的请求。
1.导航至backend/src/mastra 目录中的index.ts文件，并添加 CORS 配置：
origin: ['http://localhost:5173']只允许来自该地址的请求（Vite 默认地址）
allowMethods: ["GET", "POST"]允许使用的 HTTP 方法。大多数情况下，它将使用 POST。
allowHeaders: ["Content-Type", "Authorization", "x-mastra-client-type, "x-highlight-request", "traceparent"],它们决定了哪些自定义标头可以在请求中使用
import { Mastra } from '@mastra/core/mastra';
import { basketballAgent } from './agents';

console.log('Starting Mastra server...');

export const mastra = new Mastra({
  agents: { basketballAgent },
  server:{
    timeout: 10 * 60 * 1000, // 10 minutes
    cors: {
      origin: ['http://localhost:5173'],
      allowMethods: ["GET", "POST"],
      allowHeaders: [
        "Content-Type",
        "Authorization",
        "x-mastra-client-type",
        "x-highlight-request",
        "traceparent",
      ],
      exposeHeaders: ["Content-Length", "X-Requested-With"],
      credentials: false,
    },
  },

});

console.log('Mastra server configured.'); // Log after server configuration
步骤 8：整合前端
这个 React 组件提供了一个简单的聊天界面，可使用@ai-sdk/react 中的useChat()钩子连接到 Mastra AI 代理。我们还将使用此钩子来显示标记的使用情况、工具调用情况并渲染对话。在上面的系统提示中，我们还要求代理以 markdown 格式输出响应，因此我们将使用react-markdown 来正确格式化响应。
1.在前端目录中，安装 @ai-sdk/react 软件包以使用 useChat() 钩子。
npm install @ai-sdk/react
2.在同一目录下，安装 React Markdown，这样我们就能正确格式化代理生成的响应。
npm install react-markdown
3.实施useChat() 。此钩子将管理前台与人工智能代理后台之间的交互。它可以处理消息状态、用户输入和状态，并为您提供生命周期钩子，以实现可观察性。我们提供的选项包括
api: 这定义了 Mastra AI 代理的端点。默认端口为 4111，我们还要添加支持流式响应的路由。
onToolCall:在代理调用工具时执行；我们用它来跟踪代理调用了哪些工具。
onFinish:在代理完成完整响应后执行。尽管我们启用了流式传输，但onFinish 仍将在收到完整报文后运行，而不是在每个分块后运行。在这里，我们用它来跟踪令牌的使用情况。这对监控 LLM 成本和优化成本很有帮助。
4.最后，前往frontend/components 目录中的ChatUI.jsx组件，创建用户界面来进行对话。接下来，用ReactMarkdown 组件封装响应，以便正确格式化来自代理的响应。
import React, { useState } from 'react';
import { useChat } from '@ai-sdk/react';
import ReactMarkdown from 'react-markdown';

export default function ChatUI() {
    const [totalTokenUsage, setTotalTokenUsage] = useState(0);
    const [promptTokenUsage, setPromptTokenUsage] = useState(0);
    const [completionTokenUsage, setCompletionTokenUsage] = useState(0);
    const [toolsCalled, setToolsCalled] = useState([]);

    const { messages, input, handleInputChange, handleSubmit, status } = useChat({
        api: 'http://localhost:4111/api/agents/basketballAgent/stream', //Replace with your own endpoint for your agent
        id: 'my-chat-session',

        //Optional parameter to check agent tool calls
        onToolCall: ({ toolCall }) => {
            setToolsCalled((prev) => [...prev, toolCall.toolName]);
        },

        //Optional parameter to check token usages
        onFinish: (message, { usage }) => {
            setTotalTokenUsage((prev) => prev + usage.totalTokens);
            setPromptTokenUsage((prev) => prev + usage.promptTokens);
            setCompletionTokenUsage((prev) => prev + usage.completionTokens);
        },

        //Optional parameter for error handling
        onError: (error) => {
            console.error('Agent error:', error);
        },
    });

    return (
        
            
                What's My Agent Doing?

                
                    Tools Called:
                    
                        {toolsCalled.map((tool, idx) => (
                            {tool}
                        ))}
                        {toolsCalled.length === 0 && No tools called yet.}
                    

                    
                        Prompt Token Usage: {promptTokenUsage}
                        Completion Token Usage: {completionTokenUsage}
                        Total Token Usage: {totalTokenUsage}
                    
                
            

            Conversation:
            
                {messages.map((msg) => (
                    
                        {msg.role === 'assistant' ? 'Basketbot' : 'You'}:
                        {msg.content}
                    
                ))}
            

            
                
                
            
        
    );
}
步骤 9：运行应用程序
祝贺你现在就可以运行应用程序了。按照以下步骤启动后台和前台。
在终端窗口中，从根目录开始，导航到后台目录并启动 Mastra 服务器：
cd backend

npm run dev
2.在另一个终端窗口中，从根目录开始，导航到前端目录并启动 React 应用程序：
cd frontend

npm run dev
3.打开浏览器，导航到
http://localhost:5173
您应该可以看到聊天界面。试试这些提示样本：
"对比勒布朗-詹姆斯和斯蒂芬-库里"
"我应该在杰森-塔图姆和卢卡-东契奇之间选谁？"
下一步是什么？让代理更智能
为了让助手更具代理能力，建议更具洞察力，我将在下一次迭代中添加一些关键升级。
NBA 新闻的语义搜索
有很多因素会影响球员的表现，其中很多并不会在原始数据中体现出来。像伤病报告、阵容变化，甚至赛后分析，你只能在新闻报道中找到。为了捕捉这些额外的上下文，我将添加语义搜索功能，这样代理就可以检索相关的 NBA 文章，并将这些叙述纳入其推荐中。
使用 Elasticsearch MCP 服务器进行动态搜索
MCP（模型上下文协议）正迅速成为代理连接数据源的标准。我将把搜索逻辑迁移到 Elasticsearch MCP 服务器中，这样代理就可以动态建立查询，而不是依赖我们提供的预定义搜索功能。这使我们能够使用更多的自然语言工作流，并减少了手动编写每个搜索查询的需要。点击此处了解有关 Elasticsearch MCP 服务器和生态系统现状的更多信息。
这些更改正在进行中，敬请期待！
结论
在本博客中，我们使用 JavaScript、Mastra 和 Elasticsearch 构建了一个代理 RAG 助手，为您的梦幻篮球队提供量身定制的建议。我们报道了
代理 RAG 的基本原理，以及如何将人工智能代理的自主性与有效使用 RAG 的工具相结合，从而产生更细致入微、更具活力的代理。
Elasticsearch 及其数据存储能力和强大的本地聚合功能如何使其成为法律硕士知识库的最佳合作伙伴。
Mastra 框架及其如何为 javaScript 生态系统中的开发人员简化这些代理的构建。
无论你是篮球迷，还是在探索如何构建人工智能代理，或者像我一样两者兼而有之，我都希望这篇博客能为你提供一些入门的基础知识。完整的软件源可在GitHub 上获取，请随意克隆和修补。现在，去赢得梦幻联赛吧！


在 Logstash 中使用 Ruby 脚本
Dai Sugimori — Tue, 24 Jun 2025 00:00:00 GMT
Logstash 是一个数据处理管道，可从多个来源摄取数据，对其进行转换，然后发送到您选择的目的地。过滤器插件是这一过程的关键；当数据通过管道时，它们会对数据执行特定操作。
Logstash 包含多个内置过滤器，可用于解析、丰富和修改数据等常见任务。但有时，您会遇到需要自定义逻辑的情况，这超出了这些标准过滤器所能提供的范围。这就是Ruby 过滤器插件的用武之地。
Ruby 过滤器插件允许您在 Logstash 管道中直接执行自定义 Ruby 代码。如果标准过滤器还不够用，Ruby 过滤器还能让您处理复杂的数据转换、实施自定义业务逻辑或与外部系统集成。
在本博客中，我们将探讨如何从基础到高级使用 Ruby 过滤器。
何时使用 Ruby 过滤器？
作为 Elastic 的咨询架构师，我经常看到客户在数据处理管道中使用 Logstash，尽管现在它还不是最先进的数据处理引擎。当涉及到复杂的数据操作或自定义逻辑时，他们往往会因为标准过滤器的局限性而苦恼。在这种情况下，Ruby 过滤器可以帮助克服这些挑战。
当标准 Logstash 过滤器无法满足您的特定要求时，Ruby 过滤器就会派上用场。下面是一些常见的使用案例：
深度嵌套数据操作：修改复杂的 JSON 结构、数组中的数组或根据内容动态重组数据
高级字符串处理：从非结构化文本中解析和提取结构化数据
实施复杂的业务逻辑：创建需要条件逻辑、循环或复杂计算的自定义转换
基本用法
让我们从一个简单的例子开始，了解 Ruby 过滤器是如何工作的。
配置 Ruby 过滤器
创建 Logstash 管道时，应将配置文件放在/etc/logstash/conf.d 目录中。或者，你也可以使用-f 选项，在手动启动 Logstash 时指定配置文件的路径，这样就可以轻松试验你的管道了。
$ ./bin/logstash -f /path/to/your_pipeline.conf
配置文件的扩展名应为.conf 。
要使用 Ruby 过滤器，请在 Logstash 管道配置 (*.conf) 文件的过滤器部分定义ruby 过滤器。下面是一个基本例子：
filter {
  ruby {
    code => "
      event.set('new_field', 'Hello from Ruby!')
    "
  }
}
此内联 Ruby 过滤器在 Logstash 配置中定义了一个 Ruby 过滤器实例。code 参数提供了 Logstash 将为该过滤器处理的每个事件执行的内联 Ruby 脚本。在该脚本中，有一个event 变量可用于表示事件本身。事件对象包含发送到 Logstash 的原始数据以及在 Logstash 过滤阶段创建的任何附加字段。您可以通过 Logstash 事件 API 访问这些字段，如event.get() 和event.set() 。在此示例代码中，event.set('new_field', 'Hello from Ruby!') 将名为new_field 的新字段设置为字符串值Hello from Ruby! 。您可以根据需要在code 块中添加任何其他代码。
请注意，这个event 对象虽然是键值类型的数据容器，但它并不是通常的 Ruby 哈希对象。查看此官方文档，了解有关事件 API 的更多信息。
外部化 Ruby 脚本
对于简单的转换，内联 Ruby 代码非常方便。但是，对于复杂的逻辑或可重复使用的功能，建议将代码移到外部 Ruby 脚本中。这样可以提高可维护性，并保持 Logstash 管道配置的整洁。
首先，创建 Ruby 脚本并将其保存为my_ruby_script.rb 。脚本必须定义一个处理事件的filter 方法。它将一个事件对象作为参数，该对象代表正在处理的当前事件。filter 方法需要返回一个要发射的事件数组。要删除事件，返回空数组。
例如，下面的脚本读取message 字段，计算其长度，并将结果存储到名为message_length 的新字段中。
def register(params)
  # This method is called when the plugin is loaded.
  # You can use it to initialize any instance variables or perform setup tasks.
end

def filter(event)
  message = event.get('message')

  if message
    event.set('message_length', message.length)
  end

  return [event]
end
接下来，使用path 选项设置 Ruby 过滤器配置，以引用脚本。这会告诉 Logstash 加载并执行外部脚本。使用外部脚本时，请确保文件存在并具有正确的权限。
filter {
  ruby {
    path => "/path/to/my_ruby_script.rb"
  }
}
现在，每个事件都会被传递到my_ruby_script.rb 中的filter 方法，并由它进行处理。
这种方法能帮助你更有效地管理复杂的逻辑，使测试、调试和重用 Ruby 代码变得更容易。
高级用法
在本节中，我们将探讨在 Logstash 中使用 Ruby 过滤器的一些高级示例。这些示例将演示如何使用 Ruby 执行数据转换、丰富事件和实现自定义逻辑。
操作嵌套数据结构
Logstash 事件是 Logstash 处理的核心数据结构。它可以包含各种字段，包括嵌套数据结构，如数组和哈希值。通过 Ruby 过滤器，您可以轻松处理这些嵌套结构。
Ruby 过滤器可以处理嵌套数据结构，如哈希值和数组，允许你修改或添加这些结构中的字段。这在处理 JSON 等复杂数据格式时非常有用。
input {
  generator {
    lines => [
      '{"nested": {"key1": "value1", "key2": "value2"}}'
    ]
    count => 1
    codec => "json"
    ecs_compatibility => "disabled"
  }
}

filter {
  ruby {
    code => "
      nested_data = event.get('nested')

      if nested_data.is_a?(Hash)
        nested_data['key3'] = 'value3'
        event.set('nested', nested_data)
      end
    "
  }
}

output {
  stdout { codec => rubydebug }
}
此示例在输入数据中包含一个嵌套 JSON 对象。Ruby 过滤器通过添加新的键值对来修改嵌套数据。标准 Logstash 过滤器无法对嵌套数据进行此类操作，因此 Ruby 过滤器成为复杂数据结构的便捷选择。
将单个事件拆分为多个事件
Ruby 过滤器还可用于将单个事件分割成多个事件。当您有一个包含项目数组的单个事件，并希望为每个项目创建单独的事件时，这个功能就非常有用。
请注意，Elasticsearch 的摄取管道和 Beats/Elastic Agent 的处理器都不支持拆分事件。这是 Logstash 最强大的用例之一。
带分体式过滤器
您可以使用split 过滤器，根据指定字段将一个事件拆分成多个事件。不过，如果需要在分割过程中执行额外的转换或逻辑，可以将 Ruby 过滤器与分割过滤器结合使用。
在下面的示例中，我们将 RSS 订阅作为一行 XML 文本。它包含多个 元素。Ruby 过滤器用于从 XML 中提取 元素，并将其存储在名为items 的新字段中。然后，根据items 字段，使用拆分过滤器将事件拆分成多个事件。
input {
  generator {
    lines => [
      'Sample RSSArticle 1http://example.com/1Desc 1


Article 2
Desc 2


如何在 GCP GKE Autopilot 上部署 Elasticsearch。
Eduard Martin — Thu, 19 Jun 2025 00:00:00 GMT
在本文中，我们将学习如何使用 Autopilot 在 Google Cloud Kubernetes (GKE) 上部署 Elasticsearch。
对于 Elasticsearch，我们将使用 Elastic Cloud on Kubernetes (ECK)，这是正式的 Elasticsearch Kubernetes 运维工具，简化了所有 Elastic Stack 组件的 Kubernetes 部署协调。
要了解更多关于如何在不同 GCP 基础架构上部署 Elasticsearch 集群的信息，您可以阅读我们关于 Google Cloud Compute 和 Google Cloud Marketplace 的入门文章。
Elasticsearch 部署步骤
什么是 GKE Autopilot？
Google Kubernetes Engine (GKE) Autopilot 提供完全托管的 Kubernetes 体验，由 Google 负责集群配置、节点管理、安全与扩展，而开发人员只需专注于应用程序部署，使团队能够凭借内置的最佳实践在几分钟内完成从代码到生产环境的转化。
何时在 Google Cloud 中使用 ECK？
Elastic Cloud on Kubernetes (ECK) 最适合那些拥有现有 Kubernetes 基础架构并希望部署具有高级功能（如专用节点角色、高可用性和自动化）的 Elasticsearch 的组织。
如何在 Google Cloud 中设置 ECK？
1. 登录 Google Cloud Console 。
2. 在右上角点击“Cloud Shell”按钮进入控制台，并从那里部署 GKE 集群。或者，您也可以使用 gcloud CLI。
操作过程中记得将项目 ID 替换为您自己的项目 ID。
3. 启用 Google Kubernetes Engine API。
点击下一步。
现在，搜索 Kubernetes Engine API 时，应该显示 Kubernetes Engine API 已启用。
4. 在 Cloud Shell 中创建一个 Autopilot 集群。我们将其命名为 autopilot-cluster-1，并请将 autopilot-test 替换为您的项目 ID。
gcloud beta container --project "autopilot-test-457216" clusters create-auto "autopilot-cluster-1" --region "us-central1" --release-channel "regular" --tier "standard" --enable-ip-access --no-enable-google-cloud-access --network "projects/autopilot-test-457216/global/networks/default" --subnetwork "projects/autopilot-test-457216/regions/us-central1/subnetworks/default" --cluster-ipv4-cidr "/17" --binauthz-evaluation-mode=DISABLED
5. 等待集群就绪。创建过程大约需要 10 分钟。
正确设置集群后，将显示一条确认消息。
6. 配置 kubectl 命令行访问。
gcloud container clusters get-credentials autopilot-cluster-1 --region us-central1 --project autopilot-test-457216
您应该看到：
已为 autopilot-cluster-1 生成 kubeconfig 条目。
7. 安装 Elastic Cloud on Kubernetes(ECK) 运维工具。
# Install ECK Custom Resource Definitions
kubectl create -f https://download.elastic.co/downloads/eck/2.16.1/crds.yaml

# Install the ECK operator
kubectl apply -f https://download.elastic.co/downloads/eck/2.16.1/operator.yaml
8. 让我们创建一个具有默认值的单节点 Elasticsearch 实例。
如果您想查看不同设置的配方，可以访问此链接。
请注意，如果未指定 storageClass，ECK 将使用默认设置，GKE 的默认设置为 standard-rwo，该配置使用 Compute Engine 持久化磁盘 CSI 驱动）并创建 1GB 的卷。
cat <
我们禁用nmap，是因为默认 GKE 机器的 vm.max_map_count 值过低。不建议在生产环境中禁用它，但建议增加 vm.max_map_count 的值。您可以在这里阅读更多关于如何做到这一点的信息。
9. 我们还要部署一个 Kibana 单节点集群。对于 Kibana，我们将添加一个 LoadBalancer，它将为我们提供一个外部 IP，我们可以使用该 IP 从我们的设备访问 Kibana。
cat <
请注意注释： 
cloud.google.com/l4-rbs: "enabled"
该注释非常重要，因为它指示 Autopilot 提供一个面向公众的 LoadBalancer。如果未设置，LoadBalancer 将为内部类型。
10. 检查您的 pod 是否正在运行
kubectl get pods
11. 您还可以使用 run kubectl get elasticsearch 和 kubectl get kibana 来获取更具体的统计信息，例如 Elasticsearch 版本、节点和健康状况。
12. 获取您的服务。
kubectl get svc
这将显示 Kibana 在 EXTERNAL-IP 下的外部 URL。可能需要几分钟时间来配置 LoadBalancer。复制 EXTERNAL-IP 的值。
13. 获取“elastic”用户的 Elasticsearch 密码：
kubectl get secret quickstart-es-elastic-user -o=jsonpath='{.data.elastic}' | base64 --decode
14. 通过浏览器访问 Kibana：
URL: https://:5601
用户名：elastic
密码：28Pao50lr2GpyguX470L2uj5（来自上一步）
15. 通过浏览器访问时，您将看到欢迎界面。
如果您想更改 Elasticsearch 集群规格，例如更改或调整节点大小，可重新应用包含新设置的 yml 配置文件：
cat <
在此示例中，我们将再添加一个节点，并修改 RAM 和 CPU。如您所见，现在 kubectl get elasticsearch 显示 2 个节点：
这同样适用于 Kibana：
cat <
我们可以调整容器 CPU/RAM 以及 Node.js 的内存使用量（max-old-space-size）。
请注意，现有的卷声明无法缩小容量。应用更新后，运维工具将在最短中断时间内完成更改。
请记得在测试结束后删除集群，以避免产生不必要的成本。
gcloud container clusters delete autopilot-cluster-1
后续步骤
如果您想了解更多关于 Kubernetes 和 Google Kubernetes Engine 的信息，请查看以下文章：
Kubernetes 上的 Elastic Cloud | Elastic 文档
推出 GKE Autopilot ｜ Google Cloud 博客
Autopilot 概述 | Google Kubernetes Engine (GKE)



将 Azure LLM 函数与 Elasticsearch 结合使用，获得更智能的查询体验
Jonathan Simon — Fri, 13 Jun 2025 00:00:00 GMT
精确。重要的时候，它非常重要。当您搜索特定的内容时，精确度就显得格外重要。不过，有时过于精确的查询不会返回任何结果，因此，灵活地扩大查询范围以查找更多潜在的相关数据是有好处的。
这篇博文介绍了如何使用 Elasticsearch 和 Azure Open AI 创建一个示例应用程序，演示如何在搜索非常具体的房地产物业时找到准确的结果，同时在没有具体匹配结果时仍然提供相关结果。我们将介绍创建 Elasticsearch 索引和搜索模板所需的所有步骤。然后，我们将介绍如何创建一个应用程序，使用 Azure OpenAI 接收用户查询并将其转换为 Elasticsearch 搜索模板查询，从而生成令人惊叹的自定义结果的整个过程。
下面列出了我们在创建房地产搜索应用程序示例时要用到的所有资源：
Elasticsearch 索引和搜索模板
Azure OpenAI
Azure 地图 API
Codespaces Jupyter 笔记本
语义内核
使用 Blazor 前端的 C# 应用程序
智能查询工作流程
该工作流程将 LLM、LLM 工具和搜索结合起来，将自然语言查询转化为结构化的相关搜索结果：
LLM（大型语言模型）--解释复杂的用户查询并协调工具以提取搜索意图和丰富上下文。
LLM 工具- 每个 LLM 工具都是我们为本职位创建的 C# 程序。有三种工具：参数提取工具：从查询中提取卧室、浴室、功能和价格等关键属性。
地理编码工具：将地点名称转换为经纬度，以便进行空间筛选。
搜索工具：使用查询参数填充 Elasticsearch 搜索模板并执行搜索。混合搜索- 利用内置 ML 推理执行混合搜索（全文 + 密集向量）。这种分层方法可确保终端用户获得更智能、更能感知上下文的查询体验。
应用架构
下面是示例应用程序的系统架构图。我们将使用 Codespaces Jupyter Notebook 与 Elastic Cloud 进行交互。
准备工作
Unknown block type "block", specify a component for it in the `components.types` option
在 Codespaces 中克隆示例应用程序 repo
首先克隆示例应用程序的代码。GitHub Codespaces 提供了克隆和运行应用程序的方法。单击新建代码空间。
然后，在 Repository 下拉菜单中选择 repo jwilliams-elastic/msbuild-intelligent-query-demo ，然后单击 Create Codespace 。
创建 .env文件
我们将使用 Python Jupyter Notebook 访问 Elastic Cloud 并与之交互，它使用存储在配置文件中的配置值进行访问和交互。笔记本配置文件的文件名应为.env您现在就可以创建它。
在 GitHub 代码空间中，单击 "新建文件 "按钮，添加一个名为.env的文件
在新创建的.env中添加以下内容文件
ELASTIC_URL=
ELASTIC_API_KEY=
正如您所看到的，我们需要在.env 中添加几个缺失值，即 ELASTIC_URL 和 ELASTIC_API_KEY。锉刀现在，让我们创建一个 Elasticsearch 无服务器项目，将其作为后端，为我们示例应用的搜索功能提供动力。
创建弹性无服务器项目
访问cloud.elastic.co，点击创建新的无服务器项目
单击 "下一步 "查看Elasticsearch解决方案
选择优化的载体
将云提供商设置为Azure
点击创建无服务器项目
单击主导航菜单中的 "入门"，然后向下滚动以复制 "连接详情"。
单击 " 复制"按钮，从 " 连接详细信息"中复制 Elasticsearch 端点 。
更新.env文件，将ELASTIC_URL设置为复制的Elasticsearch 端点
创建弹性 API 密钥
打开 Elasticsearch 入门 页面，单击 添加 API 密钥 部分中的 新建
输入密钥名称
单击 创建 API 密钥
单击 "复制 "按钮复制 API 密钥值
回到Codespaces，在这里我们有.env 打开编辑文件，粘贴复制的值以设置 ELASTIC_API_KEY
打开 Codespaces 笔记本并安装依赖库
在文件资源管理器中，选择VectorDBSetup.ipynb文件，打开笔记本。加载笔记本后，找到笔记本中 标题为 " 安装库" 的部分 。点击章节播放按钮。
如果这是你第一次在 GitHub Codespaces 中运行笔记本，系统会提示你选择 Codespaces 内核并配置 Python 环境。
使用 Codespaces Notebook 定义导入和加载环境变量
转到笔记本的下一节，标题为 " 定义导入和加载环境变量"。点击章节播放按钮。
这段代码导入了 Notebook 使用的 Python 库，并从.env 中加载了环境变量。 您之前创建的
使用 Codespaces Notebook 创建 Elastic ML 推理端点
转到下一个笔记本部分，标题为 创建 ML 推理端点。点击章节播放按钮。
这将在 Elasticsearch 项目中创建一个新的 ML 推理端点，我们将用它从数据中生成文本嵌入。文本嵌入是文本的向量表示，将存储在 Elasticsearch 中以支持语义搜索。
使用 Codespaces Notebook 创建 Elasticsearch 索引
转到下一个笔记本部分，标题为 创建 Elasticsearch 索引。点击章节播放按钮。
这将创建 Elasticsearch 索引，用于存储示例数据和通过 ML 推理端点生成的任何相关向量数据。
使用 Codespaces Notebook 创建 Elasticsearch 搜索模板
继续下一个笔记本部分，标题为 " 搜索模板"。点击章节播放按钮。
这样就创建了一个搜索模板，我们的示例应用程序将使用它作为模板，其中填充了从用户搜索查询中解析出的单词。这样，我们就可以配置和控制在 Elasticsearch 索引中查询数据时的特定程度。
使用 Codespaces Notebook 将数据输入 Elasticsearch 索引
转到笔记本的下一部分，标题为 " 输入属性数据"。点击章节运行按钮。
运行该代码段将批量加载properties.jsonl 文件中包含的示例数据。几分钟后，您应该会看到程序成功完成的确认信息。您可以访问 Elastic Cloud 中的 "索引管理"部分，确认索引包含预期记录。
创建 appsetting.json 以配置 C# 应用程序
创建了 Elasticsearch 索引并填充了数据后，我们现在就可以配置示例应用程序，使其与 Elastic 和 Azure Cloud 协同工作。C# 示例应用程序使用名为appsettings.json的文件来存储和加载 API 密钥等访问信息。现在，您将使用 Codespaces 中的编辑器创建appsettings.json文件。
1.在 HomeFinderApp 文件夹中创建 appsettings.json
2.将以下代码粘贴到appsettings.json文件中
{
 "ElasticSettings": {
   "Url": "",
   "ApiKey": "",
   "IndexName": "properties",
   "TemplateId": "properties-search-template"
 },
 "AzureOpenAISettings": {
   "Endpoint": "",
   "ApiKey": "",
   "DeploymentName": "gpt-4o"
 },
 "AzureMapsSettings": {
   "Url": "https://atlas.microsoft.com/geocode",
   "ApiKey": ""
 },
 "Logging": {
   "LogLevel": {
 	"Default": "Information",
 	"Microsoft.AspNetCore": "Warning"
   }
 },
 "AllowedHosts": "*"
}
3.查找 ElasticSettings 部分下的 Url 和 ApiKey 值。将它们设置为与在.env文件。
创建 Azure OpenAI 服务
我们的示例应用程序将使用 Azure OpenAI 来解析应用程序用户的查询，然后通过填充搜索模板向 Elasticsearch 提交请求，以尝试灵活地传达用户正在搜索的内容。
打开新的浏览器选项卡，转到 Azure 门户中的 AI Foundry | Azure OpenAI 。点击+创建
在创建表格中，选择一个资源组。
输入名称
选择定价层级
点击下一步
在网络选项卡上，单击 下一步
在 "标签"选项卡上，单击 "下一步
在 "审核和提交"选项卡上，单击 "创建
创建完成后，单击转到资源
从左侧导航菜单中选择密钥和端点
复制端点并将其粘贴到在浏览器标签页中创建的appsettings.json文件中，该标签页已打开 Codespaces 编辑器。
然后返回包含 Azure OpenAI密钥和端点页面的浏览器选项卡。单击关键字 1 的复制按钮，然后将复制的值粘贴到appsettings.json文件中，回到打开 Codespaces 编辑器的浏览器标签页。
为 Azure Open AI 服务添加 gpt-4o 模型部署
很好，我们现在已经有了一个正在运行的 Azure OpenAI 服务，但它仍然需要一个模型部署，以提供我们的示例应用程序所需的 LLM 功能。有多种型号可供选择。既然已在创建的 appsettings.json 文件中指定了 gpt-4o ，那就部署它吧。
转到Azure AI Foundry并单击创建部署
搜索gpt-4o，并从结果中选择它
单击确认选择
单击 "部署"来部署模型
成功部署gpt-4o模型后，可以从左侧导航菜单中选择 "部署"，确认gpt-4o部署的状态为 "已成功"。
创建 Azure 地图账户
我们希望我们示例应用程序的用户能够搜索特定区域的房地产，但又不必太具体。如果有人想搜索当地农贸市场附近的房产，OpenAI LLM 可以使用 Azure 地图服务来获取市场的纬度和经度坐标。然后，在发送给 Elasticsearch 的基于搜索模板的请求中可以包含这些坐标，以便用户查询包含特定位置和地理距离的信息。
单击 Azure 地图账户 中的 创建
选择资源组
输入名称
同意许可和隐私声明
单击审查并创建
点击创建
账户创建完成后，单击转到资源
单击左侧导航菜单中的身份验证
复制 主键值 并粘贴到包含 Codespaces 编辑器的浏览器选项卡上，使其成为 appsettings.json 文件中 AzureMapsSettings 部分的 ApiKey 值
试用示例应用程序
现在是有趣的部分。是时候运行示例应用程序了。我们已经掌握了所有配置细节，以及为应用程序提供动力所需的 Elastic Cloud 和 Azure Cloud 资源。
1.在 Codespaces 编辑器中打开终端窗口。
2.使用以下命令将活动目录更改为示例应用程序文件夹。
cd HomeFinderApp
3.使用以下dotnet命令运行应用程序。
dotnet run
4.出现 "在浏览器中打开 "按钮时，单击该按钮。
5.测试默认搜索，然后尝试一些自己的自定义搜索。如果想查看后台生成搜索结果的更多详细信息，可以单击 工具调用 旁边的 显示 链接。
奖励： 如果你真的想测试 GPT-4o，请尝试以下搜索：我正在寻找佛罗里达州迪斯尼世界附近的房产，有 30 多间卧室、20 多间浴室、游泳池和车库，靠近海滩，价格在 20 万以下。 该查询将在多次调用搜索工具后返回结果。
Elastic 是您的搜索人工智能解决方案
运行中的应用程序是 Gen AI LLM 引导搜索的一个示例，它通过搜索模板使用 Elasticsearch 作为基础数据源。请随意尝试和定制示例应用程序，以创建精确而灵活的搜索体验，帮助用户找到他们想要的内容。
感谢您的阅读。试试弹性云。


模型上下文协议（MCP）的现状
JD Armada — Thu, 12 Jun 2025 00:00:00 GMT
我最近参加了在旧金山举行的MCP 开发者峰会，很明显，模型上下文协议（MCP）正在迅速成为人工智能代理和上下文丰富的人工智能应用的基础构件。在 Elastic，我们正朝着这个方向努力，通过Agent Builder 直接公开 MCP 服务器，使 Elasticsearch 成为任何兼容 MCP 的代理的一流上下文和工具提供商。在本篇文章中，我将介绍此次活动的主要更新、新兴用例、MCP 的发展前景，以及如何使用 Agent Builder 通过 MCP 向代理提供 Elasticsearch。
什么是模型上下文协议（MCP）？
对于不熟悉的人来说，模型上下文协议是一种开放标准，它提供了一种结构化的双向方式，将人工智能模型连接到各种数据源和工具中，使其能够生成更相关、更明智的响应。它通常被称为 "用于人工智能应用的 USB-C 端口"。
下面的结构图突出了它的双向性：
这对人工智能从业人员来说是一个重大转变，因为扩展人工智能应用的主要挑战之一就是必须为每个新数据源建立自定义集成。MCP 提供了一个可持续、可重复使用的架构，用于管理和提供模型的上下文。它与模型无关，与服务器无关，并且完全开源。
MCP 是一系列 API 规范的最新版本，旨在实现应用程序之间集成的标准化。过去，我们有用于 RESTful 服务的 OpenAPI、用于数据查询的 GraphQL 和用于微服务通信的 gRPC。MCP 不仅在结构上与这些旧规范一样严谨，而且还将其带入了生成式人工智能环境，使其更容易将代理插入不同的系统，而无需定制连接器。在许多方面，MCP 的目标都是为人工智能代理做 HTTP 为网络所做的事情。正如 HTTP 标准化了浏览器和网站之间的通信一样，MCP 试图标准化人工智能代理与周围数据世界的交互方式。
MCP 与其他代理协议的比较
代理协议的范围正在迅速扩大，有十多种新兴标准竞相定义代理的交互方式。来自 LlamaIndex 的Laurie Voss介绍说，大多数协议可分为两类：侧重于代理相互对话的代理间协议和侧重于向 LLM 提供结构化上下文的面向上下文的协议（如 MCP）。
其他流行的协议，如谷歌的A2A（代理对代理）、思科和 IBM 的ACP（代理通信协议）以及Agora，都旨在实现代理对代理的协商、联盟建设甚至分散式身份系统。在这方面，MCP 采取了更加务实的方法，因为它关注的是代理如何访问工具和数据，而不一定是代理之间如何对话（尽管 MCP 在未来也可以通过不同的方式实现这一点）。
目前，MCP 的与众不同之处在于其牵引力和动力。与前端框架早期的 React 一样，MCP 也是从一个利基问题开始的，现在已成为实践中最常用、最具扩展性的代理协议之一。
峰会回顾：MCP 不断变化的优先事项
此次峰会的演讲者来自 Anthropic、Okta、OpenAI、AWS、GitHub 等公司。会谈内容从核心协议的改进到现实世界的实施，并概述了当前和长期的优先事项。这些会谈反映了从早期实验和简单的工具调用到以 MCP 为基础构建可信、可扩展和模块化的人工智能系统的转变。
几位发言人预言，在未来，MCP 不仅仅是协议管道，它还能成为人工智能原生网络的基础。就像 JavaScript 能让用户点击网页并与之互动一样，MCP 也能让代理代表我们执行同样的操作。例如，在电子商务中，用户无需手动导航到网站购物，只需告诉代理登录、找到特定产品、将其添加到购物车并结账即可。
这也不是纯粹的猜测和炒作；PayPal 在峰会上展示了他们新的代理工具包和 MCP 服务器，可以实现这种确切的代理商务体验。有了 MCP 提供的对工具和数据源的安全可靠访问，代理商将不仅仅是阅读网络，他们还将能够对其采取行动。如今，MCP 已经成为一个强大的标准，发展势头迅猛，未来可能成为全网人工智能增强型用户交互的标准。
MCP 项目更新：运输、征询和结构化工具
MCP 的核心贡献者杰罗姆-斯旺纳克（Jerome Swannack）分享了过去 6 个月中协议规范的一些更新。这些变化的主要目标是
添加可流 HTTP 后启用远程 MCP
通过增加诱导和工具输出模式，建立更丰富的代理交互模型
由于 MCP 是开放源代码，开发人员已经可以实现流式 HTTP 等更改。激发和工具输出示意图目前尚未发布；它们正处于草案阶段，可能会有所变化。
可流 HTTP （发布于 03-26-2025）：一个有影响的技术更新是引入了可流 HTTP 作为新的传输机制。它以一种更具可扩展性的双向模式取代了服务器发送事件（SSE），该模式支持分块传输编码和通过单个 HTTP 连接渐进式信息传输。这使您能够在 AWS Lambda 等云基础设施上部署 MCP 服务器，并支持企业网络限制，而无需长期连接或轮询。
诱导 （ Elicitation ） （发布于 06-18-2025 ） ： 诱导允许服务器定义一个模式，说明他们希望如何从客户端获得上下文结构。从根本上说，服务器可以描述它需要什么以及它期望的输入类型。这将产生一些影响：对于服务器构建者来说，他们可以构建更复杂的代理交互。对于客户端构建者来说，他们可以实现适应这些模式的动态用户界面。不过，不应利用诱导来获取用户的敏感信息或个人身份信息。开发人员应遵循最佳实践，确保诱导提示安全、适当，尤其是随着 MCP 的成熟。这与我们稍后将讨论的更广泛的安全问题有关。
工具输出示意图 （发布于 06-18-2025）： 这一概念允许客户和 LLM 提前了解工具输出形状。工具输出模式可让开发人员描述工具预期返回的内容。这些模式解决了直接调用工具的一个主要局限性，即上下文窗口的使用效率低下。上下文窗口被认为是使用 LLM 时最重要的资源之一，当你直接调用一个工具时，它返回的原始内容会全部推送到 LLM 的上下文中。工具输出模式可让 MCP 服务器提供结构化数据，从而帮助您更好地利用标记和上下文窗口。以下是一些有关工具的一般最佳实践。
这些新的更新和未来的新增功能将共同帮助 MCP 成为一个更加模块化、类型化和生产就绪的代理协议。
未充分利用的动力特性：采样和根
虽然 MCP 规范并不新鲜，但在主题演讲中，采样和根都得到了强调。这两个基本原理目前被忽视，也未得到充分探索，但却能极大地促进代理之间更丰富、更安全的交互。
取样 - 服务器可从客户端请求完成： 取样允许 MCP 服务器向客户端 LLM 请求完成。这就增加了协议的双向性，即服务器不只是响应请求，还可以提示并要求客户端的模型生成响应。这样，客户就可以完全控制成本、安全性以及 MCP 服务器使用的模型。因此，在使用带有预配置模型的外部 MCP 服务器的情况下，您无需提供自己的 API 密钥或配置自己对该模型的订阅，因为服务器可以直接提示已连接到客户端的模型。这使得代理行为更加复杂，互动性更强。
根 - 资源的范围访问： 根的设计目的是为客户端提供一种方法，让服务器了解相关的资源和工作区。这对于设定服务器的运行范围非常有效。值得注意的是，根是 "信息性的，而不是严格执行的"，这意味着它们并不定义 MCP 服务器或代理的权利或权限。换句话说，不能仅靠根来阻止服务器或代理执行某些工具或执行写入操作。有了根，权限仍应通过用户批准机制在客户端处理。此外，开发人员仍应注意使用在设计上尊重根设置的界限并采用最佳实践的服务器。
代理身份验证：OAuth 2.1 和受保护的元数据
本节重点介绍 OAuth 2.1，它是 OAuth 2.0 的最新迭代版本，删除了不安全流程并整合了最佳实践。
OAuth 支持是一个备受期待的话题，尤其是因为安全性和可扩展性被视为阻碍 MCP 成为将代理连接到工具的标准的主要障碍。Aaron Parecki（Okta 的 OAuth 2.1 编辑和身份标准专家）讨论了 MCP 如何采用简洁、可扩展的 OAuth 流程，从服务器开发人员那里卸载大部分复杂性。官方 OAuth 2.1 授权规范最近于2025 年 6 月 18 日发布了最新的协议修订版。
在这种实现方式中，OAuth 的责任可由 MCP 客户端和服务器分担。大部分身份验证流程都由 MCP 客户端启动和处理，只有服务器在最后才参与接收和验证安全令牌。这种拆分有助于解决一个关键的扩展问题，即如何在不要求开发人员配置每个连接的情况下跨多个工具进行身份验证，并确保 MCP 服务器开发人员不必成为 OAuth 专家。
讲座的两大亮点
受保护资源元数据：MCP 服务器可发布一个 JSON 文件，描述其目的、端点和验证方法。这样，客户端只需输入服务器 URL 就能启动 OAuth 流程，从而简化了连接过程。了解更多信息：让我们修复 MCP 中的 OAuth
支持 IDP 和 SSO：企业可以整合身份提供商，集中管理访问。这对用户体验和安全性来说都是双赢。用户无需点击 10 个不同的同意屏幕，安全团队也可以观察到每个连接。
通过将 OAuth 逻辑推送到客户端并依赖服务器的元数据，MCP 生态系统避免了一个主要瓶颈。这使 MCP 与当今生产环境中现代应用程序接口的安全保护方式更加一致。
补充阅读：OAuth 2 简化版
可组合生态系统中的安全挑战
新的发展也带来了新的攻击面。思科公司的 Arjun Sambamoorthy 列出了 MCP 环境中的几个主要威胁，包括
            
              
                
                    
                      威胁 描述 补救& 最佳做法
                    
                    
                      及时注射& 工具中毒 在 LLM 系统上下文或工具描述中注入恶意提示的方法，导致 LLM 执行读取文件或泄漏数据等意外操作。 使用 MCP 扫描等工具对工具元数据进行检查。在提示中包含说明和参数前对其进行验证。最后，考虑对高风险工具实施用户审批。有关详细信息，请参阅表格下方附加阅读列表中的 OWASP 提示注入指南。
                    
                    
                      采样攻击 就 MCP 而言，采样为 MCP 服务器对 LLM 进行提示注入攻击打开了大门。 对不信任的服务器禁用取样功能，并考虑对取样请求增加人工在环审批。
                    
                    
                      恶意 MCP 服务器 在目前收集的 MCP 服务器中，很难逐一审查以确保安全。流氓服务器会悄悄收集你的数据，并将其暴露给恶意行为者。 仅从受信任的注册表或内部列表中连接到 MCP 服务器。在具有沙箱功能的容器中运行第三方服务器。
                    
                    
                      恶意 MCP 安装工具 命令行安装程序和脚本可方便地快速实施 MCP 服务器或工具，但最终可能会安装未经验证的加密代码。 在沙箱环境中安装并验证软件包签名。切勿从未经验证的来源自动更新。
                    
              
            
          为了进一步解决这个问题，Arjun 建议使用可信的 MCP 注册表来处理所有验证（这是一个前沿和中心话题--更多详情，请参阅下面阅读清单中的前两项），以及使用这份安全检查清单。
补充阅读：
官方 MCP 安全最佳实践
OWASP 法律硕士申请 10 强
隐藏层威胁研究
MCP 扫描
OWASP 提示注入指南
下一步：注册、管理和生态系统
一个集中的 MCP 注册中心正在开发中，这也是峰会上讨论最多的话题之一。当前的服务器生态系统存在分散、信任度低和可发现性差等问题。开发人员很难找到 MCP 服务器、验证它们的功能并安全安装，尤其是在元数据可能不完整或被欺骗的分散生态系统中。
集中式注册表可作为可信的真相来源，提高可发现性，确保服务器元数据的完整性，降低安装恶意工具的风险，从而直接解决这些痛点。
登记册的目标是
为服务器元数据（服务器的功能、如何验证、安装和调用）提供单一真实来源
消除不完整的第三方注册表和碎片，这样当服务器想要注册时，就不必更新互联网上的所有其他注册表。
提供服务器注册流程，其中包括 CLI 工具和包含上述元数据的 server.json 文件。
更广泛的希望是，可信的注册表将有助于安全地扩展生态系统，使开发人员能够放心地构建和共享新工具。
对 Anthropic 来说，治理是另一个首要问题。他们明确表示，MCP 应保持开放和社区驱动，但这种管理模式的推广仍在进行中。他们目前正在寻求这方面的帮助，并希望任何有开源协议管理经验的人伸出援手。这就引出了我想说的另一个话题。在整个活动中，发言人都强调，只有内部开发人员做出贡献，生态系统才能发展壮大。为了使 MCP 成为新的网络标准，并从其他流行的代理协议中脱颖而出，我们需要集中精力。
现实世界中的 MCP：案例研究和演示
一些组织分享了如何在实际应用中使用 MCP：
PayPal - 用于代理商务的 MCP 服务器： PayPal 展示了其新的代理工具包和 MCP 服务器，它们可以从根本上改变用户的购物体验。用户无需在社交媒体上搜索商品、比较价格和结账，而是可以与连接到 PayPal MCP 服务器的代理聊天，处理所有这些操作。
EpicAI.pro - 贾维斯：MCP 的发展让我们越来越接近拥有一个现实生活中的 Jarvis 型助手。对于那些不熟悉《钢铁侠》电影的人来说，Jarvis 是一个人工智能助手，它使用自然语言，能对多模式输入做出响应，响应零延迟，能主动预测用户需求，自动管理集成，并能在设备和位置之间进行上下文切换。如果我们把贾维斯想象成一个物理机器人助手，那么 MCP 就赋予了贾维斯 "双手 "或处理复杂任务的能力。
Postman - MCP 服务器生成器： 为 API 请求提供购物车体验，您可以挑选不同的 API 请求，将其放入购物篮，然后将整个购物篮下载为 MCP 服务器。
彭博社 - 彭博社 解决了企业 GenAI 开发中的一个关键瓶颈。他们拥有近 10,000 名工程师，需要一种标准化的方法来跨团队集成工具和代理。通过 MCP，他们将内部工具转变为模块化、远程优先的组件，代理可以在统一界面上轻松调用。这使他们的工程师能够在整个组织内贡献工具，而人工智能团队则专注于构建代理，而不是定制集成。Bloomberg 现在支持可扩展的安全代理工作流，可实现与 MCP 生态系统的完全互操作性。彭博社没有链接任何公共资源，但这是他们在峰会上公开展示的内容。
Block- -Block使用MCP为内部人工智能代理Goose提供支持，使员工能够自动执行工程、销售、营销等方面的任务。他们为 Git、Snowflake、Jira 和 Google Workspace 等工具构建了 60 多个 MCP 服务器，以实现与日常使用的系统进行自然语言交互。现在，Block 公司的员工可以使用 Goose 查询数据、检测欺诈、管理事件、浏览内部流程等，而无需编写代码。MCP 在短短 2 个月内就帮助 Block 在许多工作职能中推广了人工智能。
AWS - AWS MCP 服务器： AWS 推出了一款以《龙与地下城》为主题的有趣 MCP 服务器，该服务器可模拟掷骰子，跟踪过去的掷骰子情况，并使用可流式 HTTP 返回结果。这个轻量级示例强调了使用 Lambda 和 Fargate 等 AWS 工具和基础设施构建和部署 MCP 服务器是多么容易。他们还介绍了Strands SDK，这是一个用于构建与 MCP 服务器交互的多模式代理的开源工具包。
弹性代理生成器支持 MCP
您现在就可以使用Elastic Agent Builder开始尝试使用 MCP，它是直接在您的数据之上构建代理的最简单方法。代理生成器可让您将由 Elasticsearch 支持的工具暴露给兼容 MCP 的代理，它已配备了一些功能强大的内置工具，包括
platform.core.search - 使用完整的 Elasticsearch 查询 DSL 执行搜索
platform.core.list_indices - 列出 Elasticsearch 中所有可用的索引（帮助代理发现存在的数据）
platform.core.get_index_mapping - 检索特定索引的字段映射（帮助代理了解数据的形状和类型）
platform.core.get_document_by_id - 按 ID 抓取特定文件（用于精确检索）
只需使用这些工具，您就能为您的代理提供企业级搜索和相关性，这是建立可靠的人工智能代理的核心。
使 Agent Builder 功能更加强大的是，它能够根据应用程序的需要，定义和公开您自己的定制工具。这对意见性或可重复的工作流特别有用，因为在这种情况下，你希望代理针对特定索引执行特定类型的搜索，而不必每次都重新发现该逻辑。您可以将这种意图直接编码到工具中，从而使您的代理更快、更可靠、更具成本效益，而不必为得出相同的结论而花费大量时间进行规划和推理。
在代理生成器用户界面中，下面是一个使用 ES|QL 的自定义工具定义示例：
定义好自定义工具后，点击Manage MCP 下拉菜单并复制 MCP 服务器 URL，就可以使用 MCP 公开这些工具（以及内置的本地工具）。
现在，您可以将此 MCP 端点导入任何使用 MCP 的客户端，使其连接到 Agent Builder，并访问所有可用工具。更多信息，请阅读Agent Builder 简介。
结论
MCP Dev 峰会清楚地表明，MCP 正在塑造这些人工智能代理彼此互动以及与周围数据世界互动的方式。无论您是将代理连接到企业数据，还是设计完全自主的代理，MCP 都能提供一种标准化、可组合的集成方式，并迅速在大规模应用中发挥作用。从传输协议和安全模式到注册和管理，MCP 生态系统正在迅速成熟。MCP 将继续保持开放性和社区驱动，因此现在的开发人员有机会塑造其发展。


混合搜索重温：在 Elasticsearch 中引入线性检索器！
Wed, 28 May 2025 00:00:00 GMT
在上一篇博文中，我们介绍了重新设计的 "从零开始 "检索器框架，它可以创建复杂的排名管道。我们还探讨了互易排名融合（RRF）检索器如何通过合并不同查询的结果来实现混合搜索。虽然 RRF 很容易实现，但它有一个明显的局限性：它只关注相对排名，而忽略了实际得分。这就给微调和优化带来了挑战。
直线型寻回犬
在本篇文章中，我们将介绍linear retriever，它是我们支持混合搜索的最新成员！与rrf 不同，linear retriever 计算的是与文档匹配的所有查询的加权总和。这种方法既能保留结果集中每个文档的相对重要性，又能精确控制每个查询对最终得分的影响。因此，它为微调混合搜索提供了一种更直观、更灵活的方式。
定义一个线性检索器，其最终得分的计算公式为
 $score = 5 * knn + 1.5 * bm25$ 就这么简单：
GET linear_retriever_blog/_search
{
   "retriever": {
       "linear": {
           "retrievers": [
               {
                   "retriever": {
                       "knn": {
                          ...
                        }
                    },
                   "weight": 5
               },
                  {
                   "retriever": {
                       "standard": {
                          ...
                        }
                    },
                   "weight": 1.5
               },


           ]
        }
     }
}
注意到它有多简单直观了吗？(与rrf 非常相似！）这种配置允许您精确控制每种查询类型对最终排名的贡献程度，这与rrf 不同，后者仅依赖于相对排名。
需要注意的是：knn 分数可能有严格的界限，这取决于所使用的相似性指标。例如，使用余弦相似度或单位归一化向量的点积，得分总是在[0, 1] 范围内。相比之下，bm25 分数的可预测性较差，而且没有明确的界限。
评分缩放：KNN vs BM25
混合搜索面临的一个挑战是，不同的检索器会产生不同的分数。例如，请考虑以下情况：
查询 A 得分：
            
              
                
                    
                      doc1 doc2 doc3 文档4
                    
                    
                      knn 0.347 0.35 0.348 0.346
                    
                    
                      bm25 100 1.5 1 0.5
                    
              
            
          查询 B 得分：
            
              
                
                    
                      doc1 doc2 doc3 文档4
                    
                    
                      knn 0.347 0.35 0.348 0.346
                    
                    
                      bm25 0.63 0.01 0.3 0.4
                    
              
            
          您可以从上面看到这种差异：kNN 分数介于 0 和 1 之间，而bm25 分数可能相差悬殊。这种差异使得设置静态最佳权重以合并结果变得非常棘手。
归一化拯救：MinMax 归一化器
为了解决这个问题，我们引入了一个可选的minmax 归一化器，该归一化器使用以下公式将每个查询的分数独立缩放至[0, 1] 范围：
 $normalized_score = (score - min) / (max - min)$ 这就保留了每个文档在查询结果集中的相对重要性，从而更容易合并来自不同检索器的得分。正常化后，分数变为
查询 A 得分：
            
              
                
                    
                      doc1 doc2 doc3 文档4
                    
                    
                      knn 0.347 0.35 0.348 0.346
                    
                    
                      bm25 1.00 0.01 0.005 0.000
                    
              
            
          查询 B 得分：
            
              
                
                    
                      doc1 doc2 doc3 文档4
                    
                    
                      knn 0.347 0.35 0.348 0.346
                    
                    
                      bm25 1.00 0.000 0.465 0.645
                    
              
            
          现在，所有得分都在[0, 1] 范围内，加权总和的优化也更加简单明了，因为我们现在捕捉的是结果的重要性（相对于查询而言），而不是绝对得分，并能在不同查询中保持一致。
线性寻回器示例 
现在，让我们通过一个例子来展示上述内容，以及linear Retriever 如何解决rrf 的一些不足之处。RRF 仅依靠相对排名，不考虑实际分数差异。例如，给出这些分数：
            
              
                
                    
                      doc1 doc2 doc3 文档4
                    
                    
                      knn 0.347 0.35 0.348 0.346
                    
                    
                      bm25 100 1.5 1 0.5
                    
                    
                      rrf 分数 0.03226 0.03252 0.03200 0.03125
                    
              
            
          rrf 会将文件排序为
 $doc2 > doc1 > doc3 > doc4$ 但是，doc1 的bm25 得分明显高于其他文件，而rrf 只查看相对排名，因此未能捕捉到这一点。linear Retriever 结合归一化处理，可以正确地考虑分数及其差异，从而得出更有意义的排名：
            
              
                
                    
                      doc1 doc2 doc3 文档4
                    
                    
                      knn 0.347 0.35 0.348 0.346
                    
                    
                      bm25 1 0.01 0.005 0
                    
              
            
          如上图所示，doc1 的优秀排名和score 的bm25 都得到了适当的考虑，并反映在最终得分上。此外，所有分数现在都在[0, 1] 范围内，这样我们就能以更直观的方式对它们进行比较和组合（甚至建立离线优化流程）。
将所有内容整合在一起
要充分利用linear 检索器的正常化功能，搜索请求应如下所示：
GET linear_retriever_blog/_search
{
   "retriever": {
       "linear": {
           "retrievers": [
               {
                   "retriever": {
                       "knn": {
                          ...
                        }
                    },
                   "weight": 5
               },
                  {
                   "retriever": {
                       "standard": {
                          ...
                        }
                    },
                   "weight": 1.5,
                   "normalizer": "minmax"
               },


           ]
       }
   }
}
这种方法结合了两方面的优点：既保留了linear Retriever 的灵活性和直观评分，又通过 MinMax 归一化确保了一致的评分缩放。
与我们所有的检索工具一样，linear 检索工具可以集成到分层检索树的任何层级中，并支持可解释性、匹配高亮、字段折叠等功能。
何时选择线性寻回犬，为什么会有区别
linear 猎犬：
通过利用实际得分，而不仅仅是排名，来保留相对重要性。
允许利用不同查询的加权贡献进行微调。
利用规范化增强一致性，使混合搜索更稳健、更可预测。
结论
linear retriever 已经在 Elasticsearch Serverless 以及 8.18 和 9.0 版本中可用！更多示例和配置参数可参阅我们的文档。试用一下，看看它如何改善您的混合搜索体验--我们期待您的反馈。搜索愉快


使用 Quepid 创建判断列表
Daniel Wrigley — Mon, 26 May 2025 00:00:00 GMT
创建判断列表是优化搜索结果质量的关键步骤，但这可能是一项复杂而艰巨的任务。判断列表是一组经过整理的搜索查询，并对其相应结果进行相关性评级，也称为测试集合。使用该列表计算的指标可作为衡量搜索引擎性能的基准。为了帮助简化创建判断列表的过程，OpenSource Connections团队开发了Quepid。判断可以是明确的，也可以基于用户的隐性反馈。本博客将指导您在 Quepid 中建立一个协作环境，以便有效地让人类评分员进行明确的判断，这是每个判断列表的基础。
Quepid 在搜索质量评估过程中为搜索团队提供支持：
建立查询集
创建判断列表
计算搜索质量指标
根据计算得出的搜索质量指标，比较不同的搜索算法/排名器
在我们的博客中，假设我们经营一家电影租赁店，目标是提高搜索结果的质量。
准备工作
本博客使用es-tmdb 资源库中的数据和映射。数据来自电影数据库。接下来，使用映射建立名为 tmdb 的索引，并为数据建立索引。不管是建立本地实例还是使用弹性云部署，都可以正常工作。我们假设本博客使用的是弹性云部署。你可以在es-tmdb 软件仓库的 README 中找到有关如何为数据建立索引的信息。
对rocky 的标题字段进行简单的匹配查询，以确认有数据可供搜索：
GET tmdb/_search
{
 "query": {
   "match": {
     "title": "rocky"
   }
 }
}
您将看到 8 项结果。
{
 "took": 2,
 "timed_out": false,
 "_shards": {
   "total": 1,
   "successful": 1,
   "skipped": 0,
   "failed": 0
 },
 "hits": {
   "total": {
     "value": 8,
     "relation": "eq"
   }
…
}
登录 Quepid
Quepid是一款能让用户衡量搜索结果质量并进行离线实验以提高质量的工具。
您可以通过两种方式使用 Quepid：一种是使用https://app.quepid.com 上的免费公开托管版本、或在你可以访问的机器上设置 Quepid。本帖假设您使用的是免费托管版本。如果您想在自己的环境中建立一个 Quepid 实例，请遵循《安装指南》。
无论您选择哪种设置，如果还没有账户，您都需要创建一个账户。
如何设置 Quepid 案例
Quepid 的组织结构围绕"案例展开。"案例可存储查询、相关性调整设置以及如何与搜索引擎建立连接。
对于首次使用的用户，请选择创建第一个相关性案例。
老用户可以从顶层菜单中选择相关性案例，然后点击+ 创建案例。
请描述性地命名您的案例，例如"电影搜索基线，" ，因为我们希望开始测量和改进我们的基线搜索。
选择继续，确认名称。
接下来，我们建立 Quepid 与搜索引擎的连接。Quepid 可以连接各种搜索引擎，包括 Elasticsearch。
配置会因 Elasticsearch 和 Quepid 设置的不同而有所差异。要将 Quepid 连接到 Elastic Cloud 部署，我们需要为 Elastic Cloud 部署启用和配置 CORS，并准备好 API 密钥。详细说明见 Quepid 文档中的 相应 操作 指南。
输入 Elasticsearch 端点信息 (https://YOUR_ES_HOST:PORT/tmdb/_search) 和连接所需的其他信息（如果在高级配置选项中部署了 Elastic Cloud，则输入 API 密钥），点击ping测试连接，然后选择继续进入下一步。
现在，我们定义要在案例中显示的字段。选择所有有助于我们的人工评判员稍后评估文档与给定查询相关性的内容。
将title 设置为标题字段，将_id 保留为ID 字段，将overview, tagline, cast, vote_average, thumb:poster_path 添加为附加显示字段。最后一个条目显示了结果中电影的小缩略图，为我们和人类评分员提供视觉指导。
选择继续按钮确认显示设置。
最后一步是在案例中添加搜索查询。通过输入框逐一添加 "星球大战"、"哈里森-福特"和 "最佳动作片"三个查询，然后继续。
理想情况下，案例包含的查询能代表真实的用户查询，并能说明不同类型的查询。现在，我们可以把《星球大战》想象成一个查询，代表所有关于电影名称的查询；把哈里森-福特想象成一个查询，代表所有关于演员的查询；把最佳动作片想象成一个查询，代表所有搜索特定类型电影的查询。这通常称为查询集。
在生产场景中，我们将通过应用概率比例大小采样等统计技术，从事件跟踪数据中抽取查询样本，并将这些采样查询导入 Quepid，以根据查询频率包含头部（频繁查询）和尾部（不频繁查询）的查询，这意味着我们会偏向于更频繁的查询，而不会排除罕见的查询。
最后，选择 "完成"，您将转到案例界面，看到三个已定义的查询。
查询和信息需求
为了实现我们的总体目标--评判列表，人类评判者需要对给定查询的搜索结果（通常是文档）进行评判。这就是所谓的查询/文档对。
有时，在查看查询时似乎很容易知道用户想要什么。查询harrison ford 的目的是查找演员哈里森-福特主演的电影。查询action 如何？我知道我很想说用户的意图是寻找动作类型的电影。但是是哪些呢？最新的、最受欢迎的、用户评价最好的？或者，用户是否想找到所有名为 "动作 "的电影？在电影数据库中，至少有 12 部（！）电影被称为 "动作片"，它们的名称主要区别在于片名中感叹号的数量。
如果查询的意图不明确，两名人工评分员对查询的解释可能会有所不同。输入信息需求：信息需求是一种有意识或无意识的信息渴望。定义信息需求有助于人类评判员判断查询的文档，因此他们在建立判断列表的过程中发挥着重要作用。专家用户或主题专家是明确信息需求的最佳人选。从用户的角度来定义信息需求是一种很好的做法，因为搜索结果应该满足用户的需求。
电影搜索基线 "案例查询的信息需求：
星球大战用户希望查找《星球大战》系列电影或节目。有可能相关的是关于《星球大战》的纪录片。
哈里森-福特用户希望查找演员 Harrison Ford 主演的电影。哈里森-福特扮演不同角色的电影也可能与此相关，比如旁白。
最佳动作片：用户希望找到动作片，最好是用户平均票数高的动作片。
如何在 Quepid 中定义信息需求
要在 Quepid 中定义信息需求，请访问案例界面：
1.打开一个查询（例如星际大战）并选择切换备注。
2.在第一个字段中输入信息需求，并在第二个字段中输入任何附加说明：
3.单击保存。
对于少数几个查询，这个过程没有问题。但是，当您将案例从 3 个查询扩展到 100 个查询时（Quepid 案例通常在 50 到 100 个查询之间），您可能希望在 Quepid 之外定义信息需求（例如，在电子表格中），然后通过导入并选择信息需求来上传。
在 Quepid 中创建团队并共享案例
合作判断可提高相关性评估的质量。组建团队：
1.在顶层菜单中导航至团队。
2.单击+ 添加新成员，输入团队名称（例如"Search Relevance Raters" ），然后单击创建。
3.输入成员的电子邮件地址并单击 "添加用户"，添加成员。
4.在个案界面，选择共享个案。
5.选择合适的团队并确认。
在 Quepid 中创建评估手册
Quepid 中的一本书允许多个评分者对查询/文档对进行系统评估。创建一个
1.转到案件界面中的 判决书 ，点击 + 创建一本书 。
2.为图书配置一个描述性的名称，将其分配给您的团队，选择一种评分方法（例如 DCG@10），并设置选择策略（单个或多个评分者）。图书使用以下设置：
名称："电影搜索 0-3 刻度"
要与之分享此书的团队：勾选您创建的团队
得分者DCG@10
3.单击创建图书。
名称具有描述性，包含搜索内容（"电影"）和评判标准（"0-3"）的信息。所选的 Scorer DCG@10 定义了搜索指标的计算方式。DCG "是 "贴现累积收益"的缩写，"@10 "是在计算该指标时，从顶部开始考虑的结果数量。
在这种情况下，我们使用一种衡量信息增益的指标，并将其与位置加权相结合。可能还有其他搜索指标更适合您的使用情况， 选择合适的 指标 本身就是一项挑战 。
用查询/文档对填充评估手册
要添加查询/文档对进行相关性评估，请按照以下步骤操作：
1.在案件界面中，导航至"判决。"
2.选择您创建的图书。
3.单击"Populate Book" ，然后选择"Refresh Query/Doc Pairs for Book 进行确认。"
该操作根据每个查询的热门搜索结果生成配对，供团队评估。
让您的人工评分团队进行评估 
到目前为止，已完成的步骤都是相当技术性和行政性的。现在，这些必要的准备工作已经完成，我们可以让我们的评委团队开展工作了。从本质上讲，法官的工作就是评定特定文档与给定查询的相关性。这一过程的结果就是判断列表，其中包含了被判断的查询文档对的所有相关性标签。接下来，我们将进一步详细解释这一过程及其界面。
人工评分界面概览
Quepid 的人工评分界面专为高效评估设计：
查询：显示搜索词。
信息需求：显示用户的意图。
评分指南：提供一致评价的说明。
文件元数据：介绍文件的相关详细信息。
评级按钮：允许评定者使用相应的键盘快捷键指定评定结果。
使用人工评分界面
作为一名人工评审员，我通过图书概览进入界面：
1.导航至案件界面并单击判决。
2.点击 "需要更多判决！"。
系统会显示一个尚未评级的查询/文件对，该查询/文件对需要额外的判断。这是由图书的选择策略决定的：
单一评判者：每个查询/文档对只有一个评判。
多个评分者：每个查询/文档对最多可有三个评判。
评估查询/文档对
让我们举几个例子。当您按照本指南进行操作时，很可能会看到不同的电影。不过，评级原则保持不变。
第一个例子是电影 "英雄 "中的查询 "哈里森-福特"：
我们首先查看查询，然后是信息需求，最后根据给出的元数据对电影进行判断。
这部电影与我们的查询结果相关，因为演员中有哈里森-福特（Harridson Ford）。我们可能会主观地认为近期的电影更具相关性，但这并不是我们信息需求的一部分。因此，我们给这份文件的评分是 "完美"，在我们的评分标准中是 3 分。
下一个例子是电影 "福特诉法拉利"，查询条件是哈里森-福特：
按照同样的做法，我们通过查看查询、信息需求以及文档元数据与信息需求的匹配程度来判断该查询/文档。
这是一个糟糕的结果。我们可能会看到这个结果，因为我们的查询词之一 "福特 "在标题中匹配。但哈里森-福特在这部电影中没有扮演任何角色，也没有扮演任何其他角色。因此，我们将这份文件评为 "差"，在我们的评分标准中是 0 分。
第三个例子是电影 "动作杰克逊 "的最佳动作片查询：
这看起来像是一部动作片，因此至少满足了部分信息需求。不过，投票的平均值为 5.4（满分 10 分）。因此，这部电影可能不是我们收藏的最好的动作片。因此，作为评委，我给这份文件的评分是 "尚可"，在我们的评分标准中是 1 分。
这些示例特别说明了使用 Quepid 对查询/文档进行评级的过程，既有高层次的，也有一般的。
人工评分员最佳实践
所展示的示例可能会让人觉得可以直接得出明确的判断。但是，建立一个可靠的人工评级程序并非易事。这是一个充满挑战的过程，很容易影响数据质量：
人类评分员可能会因重复性工作而感到疲劳。
个人喜好可能会影响判断。
不同法官的领域专业知识水平各不相同。
评级员往往身兼数职。
文档的感知相关性可能与查询的真实相关性不一致。
这些因素可能导致判决不一致、质量不高。不过不用担心，有一些经过验证的最佳实践可以帮助你最大限度地减少这些问题，并建立一个更强大、更可靠的评估流程：
一致的评估：依次审查查询、信息需求和文件元数据。
参考指南：使用评分指南以保持一致性。评分指南可以举例说明何时采用哪种等级，从而说明评审过程。事实证明，在第一批评判结束后与人工评判员进行核对是一种很好的做法，可以了解具有挑战性的边缘案例以及在哪些方面需要额外的支持。
利用选项：如果不确定，可使用"I Will Judge Later" 或"I Can't Tell," ，必要时提供解释。
休息：定期休息有助于保持判断质量。每当人工评判员完成一批评判时，Quepid 都会弹出彩纸，帮助用户定期休息。
按照这些步骤，您就可以在 Quepid 中建立一个结构化的协作方法来创建判断列表，从而提高搜索相关性优化工作的效率。
后续步骤
何去何从？判断列表只是提高搜索结果质量的一个基础步骤。下面是接下来的步骤：
计算指标并开始实验
一旦有了判断列表，利用判断和计算搜索质量指标就水到渠成了。当有判决书时，Quepid 会自动计算当前案件的配置指标。指标以 "计分器 "的形式实现，如果支持的指标不包括您最喜欢的指标，您可以提供自己的指标！
进入案例界面，导航至 "选择评分员"，选择DCG@10，点击 "选择评分员"确认。现在，Quepid 将计算每次查询的 DCG@10，并计算总体查询的平均值，以量化搜索结果的质量。
既然已经量化了搜索结果的质量，那么就可以进行第一次实验了。实验从提出假设开始。在对截图中的三个查询进行评级后，可以明显看出这三个查询在搜索质量指标方面的表现截然不同：《星球大战》表现不错，《哈里森-福特》看起来还行，但《最佳动作片》的潜力最大。
扩大查询范围后，我们就能看到查询结果，并能深入研究细节，探索文档匹配的原因以及影响其得分的因素：
点击 "Explain Query（解释查询）"并进入 "Parsing（解析）"选项卡，我们可以看到该查询是一个 DisjunctionMaxxQuery，搜索三个字段：演员、概述和标题：
通常情况下，作为搜索工程师，我们对搜索平台的一些特定领域了如指掌。在这种情况下，我们可能知道我们有一个基因字段。让我们将其添加到查询中，看看搜索质量是否有所提高。
我们使用在案例界面选择 " 调整相关性"时打开的 " 查询沙盒"。请添加您搜索的流派字段，继续探索：
{
  "query": {
    "multi_match": {
      "query": "#$query##",
      "type": "best_fields",
      "fields": [
        "title^10",
        "overview",
        "cast",
        "genres"
      ]
    }
  }
}
单击重新运行我的搜索！并查看结果。他们变了吗？遗憾的是没有。我们现在有很多选项可以探索，基本上是 Elasticsearch 提供的所有查询选项：
我们可以增加基因字段的字段权重。
我们可以添加一个功能，根据文件的平均得票率来提升文件。
我们可以创建一个更复杂的查询，只在有强基因匹配的情况下，才按投票平均值提升文档。
…
在 Quepid 中拥有所有这些选项并对其进行探索的最大好处是，我们不仅可以量化我们试图改进的查询的效果，还可以量化我们的所有查询的效果。这就避免了我们通过牺牲其他搜索结果的质量来改善一个表现不佳的查询。我们可以快速、低成本地迭代，并在没有任何风险的情况下验证我们假设的价值，这使得离线实验成为所有搜索团队的基本能力。
评估评分员间信度
即使有任务说明、信息需求和类似 Quepid 提供的人工评定界面，人工评定者也会出现分歧。
意见分歧本身并不是坏事，恰恰相反：衡量意见分歧可以让你发现你可能想要解决的问题。相关性可能是主观的，查询可能是模糊的，数据可能是不完整或不正确的。弗莱斯卡帕（Fleiss' Kappa）是衡量评分者之间一致性的一种统计方法，Quepid 中有一个示例笔记本可供使用。要找到它，请在顶层导航中选择 笔记本 ，然后在 示例 文件夹中选择笔记本 Fleiss Kappa.ipynb 。
结论
Quepid 使您能够应对最复杂的搜索相关性挑战，并将继续发展：从第 8 版开始，Quepid 支持人工智能生成判断，这对希望扩展判断生成流程的团队特别有用。
Quepid工作流程使您能够高效地创建可扩展的判断列表，最终产生真正满足用户需求的搜索结果。有了判断列表，您就有了衡量搜索相关性、迭代改进和改善用户体验的坚实基础。
在前进的过程中，请记住相关性调整是一个持续的过程。判断列表可以让你系统地评估自己的进步，但如果能与实验、指标分析和迭代改进相结合，判断列表的作用会更加强大。
延展阅读
Quepid docs：相关性是一项团队运动
人类评级员的 Quepid
如何将 Quepid 连接到弹性云
Quepid Github 存储库
认识皮特，关于改进电子商务搜索的系列博客
相关性 Slack：加入 #quepid 频道
与 Open Source Connections 合作 ，改造您的搜索和人工智能能力，并使您的团队能够不断发展这些能力。我们的业绩记录遍布全球，客户在搜索质量、团队能力和业务绩效方面不断取得显著提高。现在就联系我们，了解更多信息。


显示 Elasticsearch 索引中的字段
Kofi Bartlett — Mon, 26 May 2025 00:00:00 GMT
本文将讨论如何在 Elasticsearch 索引中显示字段。这对了解数据结构、识别特定字段和排除故障非常有用。我们将讨论以下主题
使用 _mapping API 获取字段信息
使用 _search API 显示字段值
使用fields 参数 过滤字段
显示嵌套字段
1.使用 _mapping API 获取字段信息
_mapping API 允许您检索一个或多个索引的映射定义。这包括有关字段、其数据类型和其他属性的信息。要检索特定索引的映射，请使用以下请求：
GET //_mapping
例如，如果有一个名为my_index 的索引，可以通过以下请求检索其映射：
GET /my_index/_mapping
响应将包括索引的映射定义，其中包含有关字段及其属性的信息。
还可以检索某一特定字段的映射。如果您的映射范围很大，而您只想专注于某一特定领域，这将非常有用。要检索特定字段的映射，请使用以下请求：
GET /my_index/_mapping/field/my_field
您还可以检索多个字段的映射，方法是用逗号分隔字段名，如下所示：
GET /my_index/_mapping/field/my_field_1,my_field_2,my_field_3
2.使用 _search API 显示字段值
要显示 Elasticsearch 索引中字段的值，可以使用_search API。默认情况下，_search API 会返回_source 字段，其中包含被索引的原始 JSON 文档。要只显示特定字段，可以在搜索请求中使用_source 参数。
下面是一个搜索请求示例，它返回my_index 索引中文档的title 和author 字段的值：
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "_source": ["title", "author"]
}
在本例中，_source 参数指定了要返回的字段。
3.使用字段参数过滤字段
您还可以使用fields 参数过滤搜索响应中返回的字段。如果您只需要特定字段，并希望减小回复的大小，这可能会很有用。fields 参数接受一个字段名或通配符模式数组。
例如，要只返回my_index 索引中文档的title 和author 字段，可以使用以下搜索请求：
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "fields": ["title", "author"],
  "_source": false
}
请注意，为了不返回源文件，_source 参数设置为 false。
要返回text 数据类型的所有字段，可以使用通配符模式，如下所示：
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "fields": ["*.text"],
  "_source": false
}
4.显示嵌套字段
如果索引包含嵌套字段，可以使用点符号在fields 参数中指定嵌套字段路径。例如，如果嵌套字段的名称是address.city ，可以像这样将其包含在搜索响应中：
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "fields": ["title", "author", "address.city"],
  "_source": false
}
在此示例中，搜索响应将包括title 、author 和address.city 字段的值。
结论
总之，在 Elasticsearch 索引中显示字段可以使用_mapping API 来检索字段信息，使用_search API 来显示字段值。您可以使用_source 或fields 参数过滤搜索响应中返回的字段，并使用点符号显示嵌套字段。这些技术可以帮助您了解数据结构、识别特定字段并排除故障。


将 Spring AI 和 Elasticsearch 作为矢量数据库
Philipp Krenn, Laura Trotta — Tue, 20 May 2025 00:00:00 GMT
Spring AI现已全面上市，其首个稳定版本 1.0已在Maven Central 上供您下载。让我们立即使用它来构建一个完整的人工智能应用程序，使用你最喜欢的LLM和我们最喜欢的向量数据库。或者直接进入资源库，进行最终应用。
Watch video on YouTube什么是春季人工智能？
Spring AI 1.0 是 Java 中人工智能工程的全面解决方案，在经历了人工智能领域快速发展的重要开发阶段后，现已面世。该版本为人工智能工程师提供了许多重要的新功能。
Java 和 Spring 在人工智能浪潮中处于有利位置。很多公司都在 Spring Boot 上运行他们的产品，这使得将人工智能插入到他们已经在做的事情中变得非常容易。您基本上可以将您的业务逻辑和数据直接与这些人工智能模型连接起来，而不会有太多麻烦。
Spring AI 为各种人工智能模型和技术提供支持，例如
图像模型：根据文字提示生成图像。
转录模型：获取音频源并将其转换为文本。
嵌入模型： 将任意数据转换为矢量，矢量是为语义相似性搜索而优化的数据类型。
聊天模式： 这些 应该很熟悉！毫无疑问，你甚至在某个地方与他们进行过简短的交谈。
在人工智能领域，聊天模型似乎最受关注，这也是理所当然的，因为它们非常棒！你可以让他们帮你修改文件或写诗。(只是先别让他们讲笑话......）。它们很棒，但也存在一些问题。
应对人工智能挑战的春季人工智能解决方案
让我们来看看 Spring AI 中的一些问题及其解决方案。
            
              
                
                    
                      问题 解决方案
                    
                    
                      一致性 聊天模式思想开放，容易分心 您可以给它们一个系统提示，以规范它们的整体形状和结构
                    
                    
                      内存 人工智能模型没有内存，因此无法将某个用户的一条信息与另一条信息关联起来 您可以为他们提供一个记忆系统，存储对话的相关部分
                    
                    
                      隔离 人工智能模型生活在与世隔绝的小沙箱中，但如果你能让它们使用一些工具--在它们认为必要时可以调用的功能，它们就能做出非常了不起的事情 Spring AI 支持工具调用，让你可以告诉 AI 模型其环境中的工具，然后它可以要求你调用这些工具。这种多轮互动都是透明处理的
                    
                    
                      私人数据 人工智能模型很聪明，但并非无所不知！他们不知道你专有数据库中的内容，我们认为你也不希望他们知道！ 您需要通过填充提示来告知他们的回复--基本上就是在模型查看所提问题之前，使用强大的字符串连接运算符将文本放入请求中。背景资料，如果你愿意的话。如何决定哪些应该发送，哪些不应该发送？使用矢量存储，只选择相关数据并将其继续发送。这被称为检索增强生成，或 RAG
                    
                    
                      幻觉 人工智能聊天模型喜欢，嗯，聊天！有时，他们自信到可以胡编乱造 您需要使用评估--使用一个模型来验证另一个模型的输出--来确认合理的结果
                    
              
            
          
当然，任何人工智能应用都不是一座孤岛。如今，现代人工智能系统和服务在与其他系统和服务集成时效果最佳。通过模型上下文协议 (MCP)，可以将人工智能应用程序与其他基于 MCP 的服务连接起来，无论这些服务是用什么语言编写的。您可以将所有这些集合到代理 工作流程中，以实现更大的目标。
最棒的是什么？您可以在熟悉的成语和抽象基础上完成所有这些工作，Spring Boot 开发人员都会期待这些成语和抽象：Spring Initializr上提供了方便的启动依赖项，基本上所有东西都可以使用。
Spring AI 提供方便的 Spring Boot 自动配置，为您提供您所熟知和期待的 "惯例重于配置 "设置。Spring AI 通过 Spring Boot 的 Actuator 和 Micrometer 项目支持可观察性。它还能很好地与 GraalVM 和虚拟线程配合使用，让您可以构建超快、高效的人工智能应用程序，并进行扩展。
为什么选择 Elasticsearch
Elasticsearch 是一个全文搜索引擎，这一点你可能知道。那么，我们为什么要在这个项目中使用它呢？嗯，这也是一家矢量商店！数据与全文并存，相当不错。其他显著优势
设置超级简单
开源
可横向扩展
您企业的大部分自由格式数据可能已经存在于 Elasticsearch 集群中
具有完整的搜索引擎功能
完全集成到 Spring AI 中！
综上所述，Elasticsearch 符合优秀矢量存储的所有条件，因此让我们对其进行设置，然后开始构建我们的应用程序！
Elasticsearch 入门
我们需要 Elasticsearch 和 Kibana，这是用户界面控制台，用于与数据库中的数据交互。
借助 Docker 镜像和Elastic.co 主页，您可以在本地机器上尝试一切。访问该网站，向下滚动找到curl 命令，运行该命令并将其直接导入 shell：
 curl -fsSL https://elastic.co/start-local | sh 
  ______ _           _   _      
 |  ____| |         | | (_)     
 | |__  | | __ _ ___| |_ _  ___ 
 |  __| | |/ _` / __| __| |/ __|
 | |____| | (_| \__ \ |_| | (__ 
 |______|_|\__,_|___/\__|_|\___|
-------------------------------------------------
🚀 Run Elasticsearch and Kibana for local testing
-------------------------------------------------
ℹ️  Do not use this script in a production environment
⌛️ Setting up Elasticsearch and Kibana v9.0.0...
- Generated random passwords
- Created the elastic-start-local folder containing the files:
  - .env, with settings
  - docker-compose.yml, for Docker services
  - start/stop/uninstall commands
- Running docker compose up --wait
[+] Running 25/26
 ✔ kibana_settings Pulled                                                 16.7s 
 ✔ kibana Pulled                                                          26.8s 
 ✔ elasticsearch Pulled                                                   17.4s                                                                     
[+] Running 6/6
 ✔ Network elastic-start-local_default             Created                 0.0s 
 ✔ Volume "elastic-start-local_dev-elasticsearch"  Created                 0.0s 
 ✔ Volume "elastic-start-local_dev-kibana"         Created                 0.0s 
 ✔ Container es-local-dev                          Healthy                12.9s 
 ✔ Container kibana_settings                       Exited                 11.9s 
 ✔ Container kibana-local-dev                      Healthy                21.8s 
🎉 Congrats, Elasticsearch and Kibana are installed and running in Docker!
🌐 Open your browser at http://localhost:5601
   Username: elastic
   Password: w1GB15uQ
🔌 Elasticsearch API endpoint: http://localhost:9200
🔑 API key: SERqaGlKWUJLNVJDODc1UGxjLWE6WFdxSTNvMU5SbVc5NDlKMEhpMzJmZw==
Learn more at https://github.com/elastic/start-local
➜  ~ 
这只需为 Elasticsearch 和 Kibana 提取和配置 Docker 映像，几分钟后，它们就会在本地计算机上运行，并提供完整的连接凭据。
您还可以使用两个不同的 URL 与 Elasticsearch 实例交互。按提示操作，将浏览器指向http://localhost:5601。
请注意打印在控制台上的用户名elastic 和密码：登录时需要使用这两个用户名和密码（在上面的输出示例中，它们分别是elastic 和w1GB15uQ ）。
整合应用程序
转到Spring Initializr页面并生成一个新的 Spring AI 项目，其中包含以下依赖项：
Elasticsearch Vector Store
Spring Boot Actuator
GraalVM
OpenAI
Web
确保选择最新、最好的 Java 版本（最好是 Java 24（截至本文撰写之时）或更高版本）和您所选择的构建工具。本例中我们使用 Apache Maven。
单击Generate ，然后解压缩项目并将其导入您选择的集成开发环境。(我们使用的是 IntelliJ IDEA）。
首先：让我们为 Spring Boot 应用程序指定连接细节。在application.properties, 中写下以下内容：
spring.elasticsearch.uris=http://localhost:9200
spring.elasticsearch.username=elastic
spring.elasticsearch.password=w1GB15uQ
我们还将利用 Spring AI 的向量存储功能来初始化 Elasticsearch 端所需的数据结构，请具体说明：
spring.ai.vectorstore.elasticsearch.initialize-schema=true
在本演示中，我们将使用OpenAI，特别是嵌入模型和聊天模型 （只要Spring AI 支持，您可以随意使用自己喜欢的服务）。
在将数据存储到 Elasticsearch 之前，我们需要嵌入模型来创建数据的嵌入。为了让 OpenAI 正常工作，我们需要指定API key ：
spring.ai.openai.api-key=...
您可以将其定义为一个环境变量，如SPRING_AI_OPENAI_API_KEY ，以避免在源代码中存储凭据。
我们将上传文件，因此请务必自定义可上传至 servlet 容器的数据量：
spring.servlet.multipart.max-file-size=20MB
spring.servlet.multipart.max-request-size=20MB
我们快到了在开始编写代码之前，让我们先预览一下它是如何工作的。
在我们的机器上，我们下载了以下文件（一个棋盘游戏的规则列表），将其重命名为test.pdf 并放入~/Downloads/test.pdf.
文件将被发送到/rag/ingest 端点（根据本地设置替换相应路径）：
http --form POST http://localhost:8080/rag/ingest path@/Users/jlong/Downloads/test.pdf
这可能需要几秒钟...
在幕后，数据被发送到 OpenAI，OpenAI 正在创建数据嵌入；然后，数据（包括向量和原始文本）被写入 Elasticsearch。
这些数据以及其中的所有嵌入式数据，就是神奇之处。然后，我们就可以使用VectorStore 界面查询 Elasticsearch。
整个流程是这样的
HTTP 客户端会将您选择的 PDF 上传到 Spring 应用程序。
Spring AI 负责从我们的 PDF 中提取文本，并将每页分成 800 个字符的小块。
OpenAI 会为每个块生成向量表示。
然后，分块文本和嵌入都会存储在 Elasticsearch 中。
最后，我们将发出一个查询：
http :8080/rag/query question=="where do you place the reward card after obtaining it?" 
我们会得到相关的答案：
After obtaining a Reward card, you place it facedown under the Hero card of the hero who received it.
Found at page: 28 of the manual
不错！这一切是如何运作的？
HTTP 客户端将问题提交给 Spring 应用程序。
Spring AI 从 OpenAI 获取问题的向量表示。
有了这种嵌入，它就能在存储的 Elasticsearch 块中搜索相似文档，并检索出最相似的文档。
然后，Spring AI 将问题和检索到的上下文发送给 OpenAI，以生成 LLM 答案。
最后，它会返回生成的答案和检索到的上下文的引用。
让我们深入 Java 代码，看看它到底是如何工作的。
首先是Main类：它是 Spring Boot 应用程序的标准主类。
@SpringBootApplication
public class DemoApplication {
 	public static void main(String[] args) { 
     		SpringApplication.run(DemoApplication.class, args);
 	}
}
没什么好看的。继续...
接下来是基本 HTTP 控制器：
@RestController
class RagController {

   private final RagService rag;

   RagController(RagService rag) {
       this.rag = rag;
   }

   @PostMapping("/rag/ingest")
   ResponseEntity ingestPDF(@RequestBody MultipartFile path) {
       rag.ingest(path.getResource());
       return ResponseEntity.ok().body("Done!");
   }

   @GetMapping("/rag/query")
   ResponseEntity query(@RequestParam String question) {
       String response = rag.directRag(question);
       return ResponseEntity.ok().body(response);
   }
}
控制器只是调用我们构建的一项服务，以处理文件摄取并将其写入 Elasticsearch 向量存储，然后方便对同一向量存储进行查询。
让我们来看看服务：
@Service
class RagService {

   private final ElasticsearchVectorStore vectorStore;

   private final ChatClient ai;

   RagService(ElasticsearchVectorStore vectorStore, ChatClient.Builder clientBuilder) {
       this.vectorStore = vectorStore;
       this.ai = clientBuilder.build();
   }

   void ingest(Resource path) {
       PagePdfDocumentReader pdfReader = new PagePdfDocumentReader(path);
       List batch = new TokenTextSplitter().apply(pdfReader.read());
       vectorStore.add(batch);
   }

  // TBD
}
这段代码将处理所有的输入：给定一个 Spring FrameworkResource ，它是一个围绕字节的容器，我们使用 Spring AI 的PagePdfDocumentReader 读取 PDF 数据（假定是一个.PDF 文件--在接受任意输入之前，请确保您验证了这一点！），然后使用 Spring AI 的TokenTextSplitter 对其进行标记化，最后将生成的Lists 添加到VectorStore 的实现ElasticsearchVectorStore 中。
您可以使用 Kibana 进行确认：向/rag/ingest 端点发送文件后，打开浏览器localhost:5601 ，然后在左侧菜单中导航至Dev Tools 。在这里，你可以发出查询，与 Elasticsearch 实例中的数据交互。
发出这样的查询
现在，有趣的事情来了：我们怎样才能在响应用户查询时将数据返回？
下面是查询的初步实现，方法名为directRag 。
String directRag(String question) {
   // Query the vector store for documents related to the question
   List vectorStoreResult =
           vectorStore.doSimilaritySearch(SearchRequest.builder().query(question).topK(5)
                   .similarityThreshold(0.7).build());

   // Merging the documents into a single string
   String documents = vectorStoreResult.stream()
           .map(Document::getText)
           .collect(Collectors.joining(System.lineSeparator()));

   // Exit if the vector search didn't find any results
   if (documents.isEmpty()) {
       return "No relevant context found. Please change your question.";
   }

   // Setting the prompt with the context
   String prompt = """
           You're assisting with providing the rules of the tabletop game Runewars.
           Use the information from the DOCUMENTS section to provide accurate answers to the
           question in the QUESTION section.
           If unsure, simply state that you don't know.
          
           DOCUMENTS:
           """ + documents
           + """
           QUESTION:
           """ + question;


   // Calling the chat model with the question
   String response = ai
           .prompt()
           .user(prompt)
           .call()
           .content();

   return response +
           System.lineSeparator() +
           "Found at page: " +
           // Retrieving the first ranked page number from the document metadata
           vectorStoreResult.getFirst().getMetadata().get(PagePdfDocumentReader.METADATA_START_PAGE_NUMBER) +
           " of the manual";

}
代码非常简单，但让我们把它分成多个步骤：
使用VectorStore 进行相似性搜索。
给定所有结果后，获取底层 Spring AIDocuments 并提取其文本，将所有结果串联成一个结果。
将VectorStore 的结果发送给模型，同时发送一个提示，指示模型如何处理这些结果以及用户提出的问题。等待回复并返回。
这就是RAG--检索增强生成。这就是我们使用矢量存储的数据为模型的处理和分析提供信息的理念。既然你已经知道怎么做了，那就希望你永远都不必这么做！反正不是这样的：Spring AI顾问将进一步简化这一过程。
除了在应用程序和矢量存储之间提供一个抽象层外，Advisors 还允许你对给定模型的请求进行预处理和后处理。在构建过程中添加以下依赖项

   org.springframework.ai
   spring-ai-advisors-vector-store
在类中添加另一个名为advisedRag(String question) 的方法：
String advisedRag(String question) {
   return this.ai
           .prompt()
           .user(question)
           .advisors(new QuestionAnswerAdvisor(vectorStore))
           .call()
           .content();
}
所有 RAG 模式逻辑都封装在QuestionAnswerAdvisor 中。其他一切都与向ChatModel 提出的任何请求一样！不错！
你可以从 GitHub 获取完整的代码。
结论
在这个演示中，我们使用了 Docker 镜像，并在本地机器上完成了所有操作，但我们的目标是构建可投入生产的人工智能系统和服务。为了实现这一目标，您可以做几件事。
首先，你可以添加Spring Boot Actuator来监控令牌的消耗。代币代表了特定请求对模型造成的复杂性成本（有时是美元和美分）。
您已经在类路径上安装了 Spring Boot Actuator，因此只需指定以下属性即可显示所有指标（由宏伟的Micrometer.io项目捕获）：
management.endpoints.web.exposure.include=*
重新启动应用程序。进行查询，然后转到： http://localhost:8080/actuator/metrics。搜索 "token"，就能看到应用程序使用的令牌信息。请务必留意这一点。当然，您也可以使用 Micrometer与 Elasticsearch 的集成来推送这些指标，并让 Elasticsearch 作为您选择的时间序列数据库！
因此，您应该考虑到，每次我们向 Elasticsearch 等数据存储、OpenAI 或其他网络服务发出请求时，我们都在进行 IO，而且 IO 经常会阻塞执行它的线程。Java 21 及更高版本配备了非阻塞虚拟线程，大大提高了可扩展性。使用
spring.threads.virtual.enabled=true
最后，您还需要将应用程序和数据托管在一个能够使其蓬勃发展和扩展的地方。我们相信，您可能已经考虑好在哪里运行应用程序了，但在哪里托管您的数据呢？我们可以推荐弹性云吗？它安全、私密、可扩展，功能齐全。我们最喜欢的部分？如果你愿意，还可以购买无服务器版，在无服务器版中，Elastic 会为你佩戴传呼机，而不是你！


正确使用 JavaScript 的 Elasticsearch，第二部分
Jeffrey Rengifo — Mon, 19 May 2025 00:00:00 GMT
这是 Elasticsearch in JavaScript 系列的第二部分。在 第一部分 中 ， 我们学习了如何正确设置环境、配置 Node.js 客户端、索引数据和搜索。在第二部分中，我们将学习如何实施生产最佳实践，并在无服务器环境中运行 ElasticsearchNode.js客户端。
我们将审查
生产最佳实践错误处理能力
测试
无服务器环境在 Elastic Serverless 上运行客户端
在功能即服务环境中运行客户端
您可以 在这里查看示例的源代码 。
生产最佳实践
Elasticsearch 中的错误处理
Node.js 中 Elasticsearch 客户端的一个有用功能是，它为 Elasticsearch 中可能出现的错误提供了对象，因此您可以用不同的方式验证和处理这些错误。
要查看全部内容，请执行此操作： 
const { errors } = require('@elastic/elasticsearch')
console.log(errors)
让我们回到搜索示例，处理一些可能出现的错误：
app.get("/search/lexic", async (req, res) => {
 ....
  } catch (error) {
    if (error instanceof errors.ResponseError) {
      let errorMessage =
        "Response error!, query malformed or server down, contact the administrator!";

      if (error.body.error.type === "parsing_exception") {
        errorMessage = "Query malformed, make sure mappings are set correctly";
      }

      res.status(error.meta.statusCode).json({
        erroStatus: error.meta.statusCode,
        success: false,
        results: null,
        error: errorMessage,
      });
    }

    res.status(500).json({
      success: false,
      results: null,
      error: error.message,
    });
  }
});
ResponseError 尤其是当答案为4xx 或5xx 时，即表示请求不正确或服务器不可用。
我们可以通过生成错误查询来测试这类错误，比如尝试在文本类型字段上进行术语查询：
默认错误：
 {
    "success": false,
    "results": null,
    "error": "parsing_exception\n\tRoot causes:\n\t\tparsing_exception: [terms] query does not support [visit_details]"
}
定制错误： 
{
    "erroStatus": 400,
    "success": false,
    "results": null,
    "error": "Response error!, query malformed or server down; contact the administrator!"
}
我们还可以以某种方式捕捉和处理每种类型的错误。例如，我们可以在TimeoutError 中添加重试逻辑。
app.get("/search/semantic", async (req, res) => {
    try {
  ...
  } catch (error) {
    if (error instanceof errors.TimeoutError) {


     // Retry logic...

      res.status(error.meta.statusCode).json({
        erroStatus: error.meta.statusCode,
        success: false,
        results: null,
        error:
          "The request took more than 10s after 3 retries. Try again later.",
      });
    }
  }
});
测试
测试是保证应用程序稳定性的关键。为了以一种与 Elasticsearch 隔离的方式测试代码，我们可以在创建集群时使用elasticsearch-js-mock库。
通过该库，我们可以实例化一个与真实客户端非常相似的客户端，但只需将客户端的 HTTP 层替换为模拟层，其他部分与原始客户端保持一致，就能满足我们的配置要求。
我们将安装 mocks 库和用于自动测试的AVA。
npm install @elastic/elasticsearch-mock
npm install --save-dev ava
我们将配置package.json 文件以运行测试。确保它看起来是这样的：
"type": "module",
	"scripts": {
		"test": "ava"
	},
	"devDependencies": {
		"ava": "^5.0.0"
	}
现在，让我们创建test.js 文件并安装我们的模拟客户端：
const { Client } = require('@elastic/elasticsearch')
const Mock = require('@elastic/elasticsearch-mock')

const mock = new Mock()
const client = new Client({
  node: 'http://localhost:9200',
  Connection: mock.getConnection()
})
现在，为语义搜索添加一个模拟：
function createSemanticSearchMock(query, indexName) {
  mock.add(
    {
      method: "POST",
      path: `/${indexName}/_search`,
      body: {
        query: {
          semantic: {
            field: "semantic_field",
            query: query,
          },
        },
      },
    },
    () => {
      return {
        hits: {
          total: { value: 2, relation: "eq" },
          hits: [
            {
              _id: "1",
              _score: 0.9,
              _source: {
                owner_name: "Alice Johnson",
                pet_name: "Buddy",
                species: "Dog",
                breed: "Golden Retriever",
                vaccination_history: ["Rabies", "Parvovirus", "Distemper"],
                visit_details:
                  "Annual check-up and nail trimming. Healthy and active.",
              },
            },
            {
              _id: "2",
              _score: 0.7,
              _source: {
                owner_name: "Daniel Kim",
                pet_name: "Mochi",
                species: "Rabbit",
                breed: "Mixed",
                vaccination_history: [],
                visit_details:
                  "Nail trimming and general health check. No issues.",
              },
            },
          ],
        },
      };
    }
  );
}
现在我们可以为代码创建一个测试，确保 Elasticsearch 部分始终返回相同的结果：
import test from 'ava';

test("performSemanticSearch must return formatted results correctly", async (t) => {
  const indexName = "vet-visits";
  const query = "Which pets had nail trimming?";

  createSemanticSearchMock(query, indexName);

  async function performSemanticSearch(esClient, q, indexName = "vet-visits") {
    try {
      const result = await esClient.search({
        index: indexName,
        body: {
          query: {
            semantic: {
              field: "semantic_field",
              query: q,
            },
          },
        },
      });

      return {
        success: true,
        results: result.hits.hits,
      };
    } catch (error) {
      if (error instanceof errors.TimeoutError) {
        return {
          success: false,
          results: null,
          error: error.body.error.reason,
        };
      }

      return {
        success: false,
        results: null,
        error: error.message,
      };
    }
  }

  const result = await performSemanticSearch(esClient, query, indexName);

  t.true(result.success, "The search must be successful");
  t.true(Array.isArray(result.results), "The results must be an array");

  if (result.results.length > 0) {
    t.true(
      "_source" in result.results[0],
      "Each result must have a _source property"
    );
    t.true(
      "pet_name" in result.results[0]._source,
      "Results must include the pet_name field"
    );
    t.true(
      "visit_details" in result.results[0]._source,
      "Results must include the visit_details field"
    );
  }
});
让我们进行测试。
npm run test
完成！从现在起，我们就可以测试我们的应用程序，100% 专注于代码而不是外部因素。
无服务器环境
如何在 Elastic Serverless 上运行客户端
我们介绍了在云端或内部运行 Elasticsearch 的情况；不过，Node.js 客户端也支持与Elastic Cloud Serverless 的连接。
Elastic Cloud Serverless 允许您创建一个项目，在这个项目中，您无需担心基础设施问题，因为 Elastic 会在内部处理这些问题，您只需担心您想索引的数据以及您想在多长时间内访问这些数据。
从使用角度来看，Serverless 将计算与存储分离，为搜索和索引提供了自动扩展功能。这样，您就可以只增长实际需要的资源。
客户端会进行以下调整，以连接到无服务器：
关闭嗅探，忽略任何与嗅探相关的选项
忽略配置中传递的除第一个节点外的所有节点，并忽略任何节点过滤和选择选项
启用压缩和 "TLSv1_2_method"（与为弹性云配置时相同）
为所有请求添加 "elastic-api-version "HTTP 头信息
默认使用 "云连接池"，而不是 "加权连接池
关闭卖方 "内容类型 "和 "接受 "标头，转而使用标准 MIME 类型
要连接无服务器项目，需要使用参数 serverMode：serverless。
const { Client } = require('@elastic/elasticsearch')
const client = new Client({
  node: 'ELASTICSEARCH_ENDPOINT',
  auth: { apiKey: 'ELASTICSEARCH_API_KEY' },
  serverMode: "serverless",
});
如何在函数即服务环境中运行客户端
在示例中，我们使用了 Node.js 服务器，但您也可以使用功能即服务环境连接 AWS lambda、GCP Run 等功能。
'use strict'

const { Client } = require('@elastic/elasticsearch')

const client = new Client({
  // client initialisation
})

exports.handler = async function (event, context) {
  // use the client
}
另一个例子是连接像 Vercel 这样的服务，它也是无服务器的。您可以查看这个完整的示例，了解如何做到这一点，但搜索端点最相关的部分如下所示：
const response = await client.search(
  {
    index: INDEX,
    // You could directly send from the browser
    // the Elasticsearch's query DSL, but it will
    // expose you to the risk that a malicious user
    // could overload your cluster by crafting
    // expensive queries.
    query: {
      match: { field: req.body.text },
    },
  },
  {
    headers: {
      Authorization: `ApiKey ${token}`,
    },
  }
);
该端点位于 /api 文件夹中，从服务器端运行，因此客户端只能控制与搜索词相对应的 "文本 "参数。
使用 "功能即服务 "的意义在于，与全天候运行的服务器不同，功能只启动运行该功能的机器，一旦完成，机器就会进入休息模式，以减少资源消耗。
如果应用程序没有收到太多请求，这种配置会很方便；否则，成本会很高。您还需要考虑函数的生命周期和运行时间（在某些情况下可能只有几秒钟）。
结论
在本文中，我们学习了如何处理错误，这在生产环境中至关重要。我们还介绍了在模拟 Elasticsearch 服务的过程中测试应用程序的方法，无论集群的状态如何，这种方法都能提供可靠的测试，让我们专注于我们的代码。
最后，我们演示了如何通过配置 Elastic Cloud Serverless 和 Vercel 应用程序来启动完全无服务器堆栈。


如何优化 Elasticsearch 磁盘空间和使用率
Fri, 16 May 2025 00:00:00 GMT
磁盘管理对任何数据库都很重要，Elasticsearch 也不例外。如果没有足够的可用磁盘空间，Elasticsearch 将停止向节点分配分片。这将最终导致您无法向群集写入数据，并有可能导致应用程序中的数据丢失。另一方面，如果磁盘空间过大，则需要为超出需要的资源付费。
水印背景
Elasticsearch 集群上有各种 "水印 "阈值，可帮助您跟踪可用磁盘空间。当节点上的磁盘填满时，第一个越过的阈值就是 "低磁盘水印"。 第二个阈值就是 "高磁盘水印阈值"。 最后，将达到 "磁盘淹没阶段"。一旦过了这个阈值，群集就会阻止写入已通过水印的节点上有一个分片（主分片或副本）的所有索引。 仍可进行读取（搜索）。
如何预防和处理磁盘过满（利用率过高）的情况
有多种方法可以处理 Elasticsearch 磁盘过满的情况：
删除 旧数据：通常情况下，数据不应无限期保存。防止和解决磁盘过满的方法之一是确保当数据达到一定年限时，对其进行可靠的归档和删除。一种方法是使用ILM。
增加存储容量：如果无法删除数据，可能需要添加更多数据节点或增加磁盘大小，以便在不影响性能的情况下保留所有数据。如果需要为群集增加存储容量，则应考虑是否只需增加存储容量，还是同时按比例增加存储容量以及 RAM 和 CPU 资源（请参阅下文有关磁盘大小、RAM 和 CPU 比例的部分）。
如何为 Elasticsearch 集群增加存储容量
增加数据节点的数量： 请记住，新节点的大小应与现有节点相同，并使用相同的 Elasticsearch 版本。
扩大现有节点的规模： 在基于云的环境中，增加现有节点的磁盘大小和内存/CPU 通常很容易。
只增加磁盘大小： 在基于云的环境中，增加磁盘大小通常相对容易。
快照 和 恢复：如果您愿意让旧数据根据要求通过自动流程从备份中检索出来，您可以对旧索引进行快照、删除，并根据要求从快照中临时恢复数据。 
减少每个分片的副本数量：减少数据的另一个方法是减少每个分片的副本数量。为了实现高可用性，您希望每个分片有一个副本，但当数据变旧时，您可能不需要副本也能工作。如果数据是持久性的，或者您有备份可以在需要时恢复，那么这种方法通常是可行的。
创建警报：为了防止磁盘将来被填满并采取主动行动，应根据磁盘使用情况创建警报，以便在磁盘开始填满时发出通知。 
如何预防和处理磁盘容量利用不足的情况
如果磁盘容量未得到充分利用，有多种选择可以减少群集的存储容量。
如何减少 Elasticsearch 集群的存储容量
减少群集存储容量的方法有很多种。
1.减少数据节点数量
如果你想减少数据存储，同时按相同比例减少 RAM 和 CPU 资源，那么这是最简单的策略。停用不必要的节点可能会节省最大的成本。
在停止节点运行之前，您应该
确保要停用的节点不需要作为 MASTER 节点。应始终至少有三个节点具有 MASTER 节点角色。
将数据碎片从要退役的节点上移走。
2.用较小的节点取代现有节点
如果无法进一步减少节点数量（通常最低配置为 3 个），则可能需要缩小现有节点的规模。请记住，最好确保所有数据节点的 RAM 内存和磁盘大小相同，因为分片是根据每个节点的分片数量进行平衡的。
过程如下
向群集添加新的、较小的节点
将碎片迁移到远离将要退役的节点的地方
关闭旧节点
3.缩小节点上的磁盘大小
如果只想减少节点上的磁盘大小，而不改变群集的整体 RAM 或 CPU，那么可以减少每个节点的磁盘大小。减少 Elasticsearch 节点上的磁盘大小并非易事。
最简单的方法通常是
从节点迁移碎片
停止节点
在节点上挂载新数据卷，并设置适当大小
将旧磁盘卷中的所有数据复制到新卷中
分离旧卷 A
启动节点并将碎片迁移回节点
这就要求其他节点上有足够的容量，以便在此过程中临时存储节点上的额外碎片。在许多情况下，管理这一流程的成本可能会超过潜在的磁盘使用节余。因此，用具有所需磁盘大小的新节点完全替换该节点可能更简单（请参阅上文 "用较小节点替换现有节点"）。
在为不必要的资源付费时，显然可以通过优化资源利用率来降低成本。
磁盘大小、内存和 CPU 之间的关系
集群中磁盘容量与内存的理想比例取决于您的具体使用情况。因此，在考虑更改存储容量时，还应考虑当前的磁盘/内存/CPU 比例是否适当平衡，以及是否需要按相同比例增加/减少内存/CPU。
内存和 CPU 需求取决于索引活动量、查询次数和类型，以及搜索和汇总的数据量。这通常与群集上存储的数据量成正比，因此也应与磁盘大小相关。
磁盘容量和内存之间的比例可根据使用情况进行调整。请看这里的几个例子：
            
              
                
                    
                      指数活动 保留 搜索活动 磁盘容量 内存
                    
                    
                      企业搜索应用程序 适度摄入原木 长 灯光 2TB 32GB
                    
                    
                      应用程序监控 大量摄入原木 短 灯光 1TB 32GB
                    
                    
                      电子商务 轻型数据索引 无限期 重型 500GB 32GB
                    
              
            
          请记住，修改节点机器配置时必须小心谨慎，因为这可能会导致节点宕机，而且需要确保分片不会开始迁移到其他已经过度紧张的节点上。


正确使用 JavaScript 的 Elasticsearch，第一部分
Jeffrey Rengifo — Thu, 15 May 2025 00:00:00 GMT
本文是系列文章的第一篇，介绍如何使用 JavaScript 使用 Elasticsearch。在本系列中，您将学习如何在 JavaScript 环境中使用 Elasticsearch 的基础知识，并回顾创建搜索应用程序的最相关功能和最佳实践。最后，您将了解使用 JavaScript 运行 Elasticsearch 所需的一切。
在第一部分中，我们将回顾
环境前端、后端还是无服务器？
连接客户端
编制文件索引Elasticsearch 客户端
语义映射
批量助手
搜索数据词法查询
语义查询
混合查询
您可以 在这里查看示例的源代码 。
什么是 Elasticsearch Node.js 客户端？
Elasticsearch Node.js 客户端是一个 JavaScript 库，它将 Elasticsearch API 的 HTTP REST 调用放到了 JavaScript 中。这样就能更轻松地处理和使用帮助程序，简化批量编制文档索引等任务。
环境
前端、后端还是无服务器？
要使用 JavaScript 客户端创建搜索应用程序，我们至少需要两个组件：Elasticsearch 集群和运行客户端的 JavaScript 运行时。
JavaScript 客户端支持所有 Elasticsearch 解决方案（云、on-prem 和 Serverless），它们之间没有重大区别，因为客户端内部会处理所有变化，所以你不必担心使用哪一种。
不过，JavaScript 运行时必须从服务器运行，而不能直接从浏览器运行。
这是因为从浏览器调用 Elasticsearch 时，用户可能会获得敏感信息，如集群 API 密钥、主机或查询本身。Elasticsearch 建议永远不要将集群直接暴露在互联网上 ，而是使用一个中间层来抽象所有这些信息，这样用户只能看到参数。您可以在这里了解更多相关信息。
我们建议使用这样的模式：
在这种情况下，客户端只向服务器发送搜索条件和验证密钥，而服务器则完全控制查询和与 Elasticsearch 的通信。
连接客户端
首先，按照以下步骤创建一个 API 密钥。
按照前面的示例，我们将创建一个简单的 Express 服务器，并使用 Node.JS 服务器的客户端连接到该服务器。
我们将使用 NPM 初始化项目，并安装 Elasticsearch 客户端和Express。后者是一个在 Node.js 中调用服务器的库。使用 Express，我们可以通过 HTTP 与后端交互。
让我们初始化项目：
npm init -y
安装依赖项：
npm install @elastic/elasticsearch express split2 dotenv
让我来为你分析一下：
@elastic/elasticsearch：它是 Node.js 的官方客户端
快递：它将使我们能够运行一个轻量级的 nodejs 服务器，以暴露 Elasticsearch
split2： 将文本行分割成数据流。每次处理一行 ndjson 文件时非常有用
dotenv：允许我们使用 .env 管理环境变量文件
创建 .env文件，并添加以下几行：
ELASTICSEARCH_ENDPOINT="Your Elasticsearch endpoint"
ELASTICSEARCH_API_KEY="Your Elasticssearch API"
这样，我们就可以使用dotenv 软件包导入这些变量。
创建server.js 文件：
const express = require("express");
const bodyParser = require("body-parser");
const { Client } = require("@elastic/elasticsearch");
 
require("dotenv").config(); //environment variables setup

const ELASTICSEARCH_ENDPOINT = process.env.ELASTICSEARCH_ENDPOINT;
const ELASTICSEARCH_API_KEY = process.env.ELASTICSEARCH_API_KEY;
const PORT = 3000;


const app = express();

app.listen(PORT, () => {
  console.log("Server running on port", PORT);
});
app.use(bodyParser.json());


let esClient = new Client({
  node: ELASTICSEARCH_ENDPOINT,
  auth: { apiKey: ELASTICSEARCH_API_KEY },  
});

app.get("/ping", async (req, res) => {
  try {
    const result = await esClient.info();

    res.status(200).json({
      success: true,
      clusterInfo: result,
    });
  } catch (error) {
    console.error("Error getting Elasticsearch info:", error);

    res.status(500).json({
      success: false,
      clusterInfo: null,
      error: error.message,
    });
  }
});
这段代码设置了一个基本的 Express.js 服务器，该服务器监听端口 3000，并使用 API 密钥进行身份验证，连接到 Elasticsearch 集群。它包括一个 /ping 端点，通过 GET 请求访问时，可使用 Elasticsearch 客户端的.info() 方法查询 Elasticsearch 集群的基本信息。 
如果查询成功，会以 JSON 格式返回群集信息；否则会返回错误信息。服务器还使用 body-parser 中间件来处理 JSON 请求体。
运行文件，启动服务器：
node server.js
答案应该是这样的
Server running on port 3000
现在，让我们查阅端点/ping ，检查 Elasticsearch 集群的状态。
curl http://localhost:3000/ping
{
    "success": true,
    "clusterInfo": {
        "name": "instance-0000000000",
        "cluster_name": "61b7e19eec204d59855f5e019acd2689",
        "cluster_uuid": "BIfvfLM0RJWRK_bDCY5ldg",
        "version": {
            "number": "9.0.0",
            "build_flavor": "default",
            "build_type": "docker",
            "build_hash": "112859b85d50de2a7e63f73c8fc70b99eea24291",
            "build_date": "2025-04-08T15:13:46.049795831Z",
            "build_snapshot": false,
            "lucene_version": "10.1.0",
            "minimum_wire_compatibility_version": "8.18.0",
            "minimum_index_compatibility_version": "8.0.0"
        },
        "tagline": "You Know, for Search"
    }
}
编制文件索引
一旦连接起来，我们就可以使用语义_文本（用于语义搜索）和文本（用于全文查询）等映射对文档进行索引。有了这两种字段类型，我们还可以进行混合搜索。
我们将创建一个新的load.js 文件来生成映射并上传文件。
Elasticsearch 客户端
我们首先需要对客户端进行实例化和身份验证：
const { Client } = require("@elastic/elasticsearch");

const ELASTICSEARCH_ENDPOINT = "cluster/project_endpoint";
const ELASTICSEARCH_API_KEY = "apiKey";

const esClient = new Client({
  node: ELASTICSEARCH_ENDPOINT,
  auth: { apiKey: ELASTICSEARCH_API_KEY },
});
语义映射
我们将创建一个包含兽医院数据的索引。我们将保存主人、宠物和访问详情的信息。
我们要进行全文搜索的数据，如名称和描述，将以文本形式存储。类别中的数据，如动物的种类或品种，将以关键字的形式存储。
此外，我们还将把所有字段的值复制到一个 semantic_text 字段中，以便也能针对这些信息运行语义搜索。
const INDEX_NAME = "vet-visits";

const createMappings = async (indexName, mapping) => {
  try {
    const body = await esClient.indices.create({
      index: indexName,
      body: {
        mappings: mapping,
      },
    });

    console.log("Index created successfully:", body);
  } catch (error) {
    console.error("Error creating mapping:", error);
  }
};

await createMappings(INDEX_NAME, {
  properties: {
    owner_name: {
      type: "text",
      copy_to: "semantic_field",
    },
    pet_name: {
      type: "text",
      copy_to: "semantic_field",
    },
    species: {
      type: "keyword",
      copy_to: "semantic_field",
    },
    breed: {
      type: "keyword",
      copy_to: "semantic_field",
    },
    vaccination_history: {
      type: "keyword",
      copy_to: "semantic_field",
    },
    visit_details: {
      type: "text",
      copy_to: "semantic_field",
    },
    semantic_field: {
      type: "semantic_text",
    },
  },
});
批量助手
客户端的另一个优势是，我们可以使用批量助手来分批建立索引。通过批量辅助器，我们可以轻松处理并发、重试等问题，以及如何处理通过函数成功或失败的每个文档。
该助手的一个吸引人的特点是可以使用数据流。该功能允许您逐行发送文件，而不是将整个文件存储在内存中并一次性发送到 Elasticsearch。
要将数据上传到 Elasticsearch，请在项目根目录下创建名为 data.ndjson 的文件，并添加以下信息（也可以从此处下载包含数据集的文件）：
{"owner_name":"Alice Johnson","pet_name":"Buddy","species":"Dog","breed":"Golden Retriever","vaccination_history":["Rabies","Parvovirus","Distemper"],"visit_details":"Annual check-up and nail trimming. Healthy and active."}
{"owner_name":"Marco Rivera","pet_name":"Milo","species":"Cat","breed":"Siamese","vaccination_history":["Rabies","Feline Leukemia"],"visit_details":"Slight eye irritation, prescribed eye drops."}
{"owner_name":"Sandra Lee","pet_name":"Pickles","species":"Guinea Pig","breed":"Mixed","vaccination_history":[],"visit_details":"Loss of appetite, recommended dietary changes."}
{"owner_name":"Jake Thompson","pet_name":"Luna","species":"Dog","breed":"Labrador Mix","vaccination_history":["Rabies","Bordetella"],"visit_details":"Mild ear infection, cleaning and antibiotics given."}
{"owner_name":"Emily Chen","pet_name":"Ziggy","species":"Cat","breed":"Mixed","vaccination_history":["Rabies","Feline Calicivirus"],"visit_details":"Vaccination update and routine physical."}
{"owner_name":"Tomás Herrera","pet_name":"Rex","species":"Dog","breed":"German Shepherd","vaccination_history":["Rabies","Parvovirus","Leptospirosis"],"visit_details":"Follow-up for previous leg strain, improving well."}
{"owner_name":"Nina Park","pet_name":"Coco","species":"Ferret","breed":"Mixed","vaccination_history":["Rabies"],"visit_details":"Slight weight loss; advised new diet."}
{"owner_name":"Leo Martínez","pet_name":"Simba","species":"Cat","breed":"Maine Coon","vaccination_history":["Rabies","Feline Panleukopenia"],"visit_details":"Dental cleaning. Minor tartar buildup removed."}
{"owner_name":"Rachel Green","pet_name":"Rocky","species":"Dog","breed":"Bulldog Mix","vaccination_history":["Rabies","Parvovirus"],"visit_details":"Skin rash, antihistamines prescribed."}
{"owner_name":"Daniel Kim","pet_name":"Mochi","species":"Rabbit","breed":"Mixed","vaccination_history":[],"visit_details":"Nail trimming and general health check. No issues."}
我们使用 split2 对文件行进行流式处理，而批量助手则将它们发送到 Elasticsearch。
const { createReadStream } = require("fs");
const split = require("split2");
 
const indexData = async (filePath, indexName) => {
  try {
    console.log(`Indexing data from ${filePath} into ${indexName}...`);

    const result = await esClient.helpers.bulk({
      datasource: createReadStream(filePath).pipe(split()),

      onDocument: () => {
        return {
          index: { _index: indexName },
        };
      },
      onDrop(doc) {
        console.error("Error processing document:", doc);
      },
    });

    console.log("Bulk indexing successful elements:", result.items.length);
  } catch (error) {
    console.error("Error indexing data:", error);
    throw error;
  }
};

await indexData("./data.ndjson", INDEX_NAME);
上面的代码读取 .ndjson文件，并使用helpers.bulk 方法将每个 JSON 对象批量索引到指定的 Elasticsearch 索引中。它使用createReadStream 和split2 对文件进行流式处理，为每个文件设置索引元数据，并记录处理失败的文件。完成后，它会记录成功索引的项目数。
除indexData 功能外，您还可以使用 Kibana 直接通过用户界面上传文件，并使用上传数据文件用户界面。
我们运行文件，将文件上传到 Elasticsearch 集群。
node load.js
Creating mappings for index vet-visits...
Index created successfully: { acknowledged: true, shards_acknowledged: true, index: 'vet-visits' }
Indexing data from ./data.ndjson into vet-visits...
Bulk indexing completed. Total documents: 10, Failed: 0
在 Elasticsearch 中搜索数据
回到server.js 文件，我们将创建不同的端点来执行词法、语义或混合搜索。
简而言之，这些类型的搜索并不相互排斥，而是取决于您需要回答的问题类型。
            
              
                
                    
                      查询类型 用例 问题示例
                    
                    
                      词法查询 问题中的单词或词根很可能出现在索引文件中。问题与文件之间的标记相似性。 我在找一件蓝色运动 T 恤。
                    
                    
                      语义查询 问题中的词语不可能出现在文件中。问题与文件之间的概念相似性。 我在寻找适合寒冷天气穿的衣服。
                    
                    
                      混合搜索 问题包含词汇和/或语义成分。问题与文档之间的标记和语义相似性。 我想为海滩婚礼找一件 S 码的礼服。
                    
              
            
          问题的词汇 部分很可能是标题和说明的一部分，或者是类别名称，而语义 部分则是与这些领域相关的概念。蓝色可能是一个类别名称或描述的一部分，海滩婚礼不太可能是，但可以与亚麻服装在语义上相关。
词法查询 (/search/lexic?q=)
词法搜索也称全文搜索，是指基于标记的相似性进行搜索；也就是说，经过分析后，将返回包含搜索标记的文档。
您可以点击此处查看我们的词法搜索实践教程。
app.get("/search/lexic", async (req, res) => {
  const { q } = req.query;

  const INDEX_NAME = "vet-visits";

  try {
    const result = await esClient.search({
      index: INDEX_NAME,
      size: 5,
      body: {
        query: {
          multi_match: {
            query: q,
            fields: ["owner_name", "pet_name", "visit_details"],
          },
        },
      },
    });

    res.status(200).json({
      success: true,
      results: result.hits.hits
    });
  } catch (error) {
    console.error("Error performing search:", error);

    res.status(500).json({
      success: false,
      results: null,
      error: error.message,
    });
  }
});
我们测试：修剪指甲
curl http://localhost:3000/search/lexic?q=nail%20trimming
请回答：
{
    "success": true,
    "results": [
        {
            "_index": "vet-visits",
            "_id": "-RY6RJYBLe2GoFQ6-9n9",
            "_score": 2.7075968,
            "_source": {
                "pet_name": "Mochi",
                "owner_name": "Daniel Kim",
                "species": "Rabbit",
                "visit_details": "Nail trimming and general health check. No issues.",
                "breed": "Mixed",
                "vaccination_history": []
            }
        },
        {
            "_index": "vet-visits",
            "_id": "8BY6RJYBLe2GoFQ6-9n9",
            "_score": 2.560356,
            "_source": {
                "pet_name": "Buddy",
                "owner_name": "Alice Johnson",
                "species": "Dog",
                "visit_details": "Annual check-up and nail trimming. Healthy and active.",
                "breed": "Golden Retriever",
                "vaccination_history": [
                    "Rabies",
                    "Parvovirus",
                    "Distemper"
                ]
            }
        }
    ]
}
语义查询 (/search/semantic?q=)
语义搜索与词汇搜索不同，它通过矢量搜索找到与搜索词含义相似的结果。
您可以点击这里查看我们的语义搜索实践教程。
app.get("/search/semantic", async (req, res) => {
  const { q } = req.query;

  const INDEX_NAME = "vet-visits";

  try {
    const result = await esClient.search({
      index: INDEX_NAME,
      size: 5,
      body: {
        query: {
          semantic: {
            field: "semantic_field",
            query: q
          },
        },
      },
    });

    res.status(200).json({
      success: true,
      results: result.hits.hits,
    });
  } catch (error) {
    console.error("Error performing search:", error);

    res.status(500).json({
      success: false,
      results: null,
      error: error.message,
    });
  }
});
我们进行测试：谁做了修脚？
curl http://localhost:3000/search/semantic?q=Who%20got%20a%20pedicure?
请回答：
{
    "success": true,
    "results": [
        {
            "_index": "vet-visits",
            "_id": "-RY6RJYBLe2GoFQ6-9n9",
            "_score": 4.861466,
            "_source": {
                "owner_name": "Daniel Kim",
                "pet_name": "Mochi",
                "species": "Rabbit",
                "breed": "Mixed",
                "vaccination_history": [],
                "visit_details": "Nail trimming and general health check. No issues."
            }
        },
        {
            "_index": "vet-visits",
            "_id": "8BY6RJYBLe2GoFQ6-9n9",
            "_score": 4.7152824,
            "_source": {
                "pet_name": "Buddy",
                "owner_name": "Alice Johnson",
                "species": "Dog",
                "visit_details": "Annual check-up and nail trimming. Healthy and active.",
                "breed": "Golden Retriever",
                "vaccination_history": [
                    "Rabies",
                    "Parvovirus",
                    "Distemper"
                ]
            }
        },
        {
            "_index": "vet-visits",
            "_id": "9RY6RJYBLe2GoFQ6-9n9",
            "_score": 1.6717153,
            "_source": {
                "pet_name": "Rex",
                "owner_name": "Tomás Herrera",
                "species": "Dog",
                "visit_details": "Follow-up for previous leg strain, improving well.",
                "breed": "German Shepherd",
                "vaccination_history": [
                    "Rabies",
                    "Parvovirus",
                    "Leptospirosis"
                ]
            }
        },
        {
            "_index": "vet-visits",
            "_id": "9xY6RJYBLe2GoFQ6-9n9",
            "_score": 1.5600781,
            "_source": {
                "pet_name": "Simba",
                "owner_name": "Leo Martínez",
                "species": "Cat",
                "visit_details": "Dental cleaning. Minor tartar buildup removed.",
                "breed": "Maine Coon",
                "vaccination_history": [
                    "Rabies",
                    "Feline Panleukopenia"
                ]
            }
        },
        {
            "_index": "vet-visits",
            "_id": "-BY6RJYBLe2GoFQ6-9n9",
            "_score": 1.2696637,
            "_source": {
                "pet_name": "Rocky",
                "owner_name": "Rachel Green",
                "species": "Dog",
                "visit_details": "Skin rash, antihistamines prescribed.",
                "breed": "Bulldog Mix",
                "vaccination_history": [
                    "Rabies",
                    "Parvovirus"
                ]
            }
        }
    ]
}
混合查询 (/search/hybrid?q=)
混合搜索允许我们将语义搜索和词法搜索结合起来，从而获得两全其美的效果：既能获得标记搜索的精确性，又能获得语义搜索的意义接近性。
app.get("/search/hybrid", async (req, res) => {
  const { q } = req.query;

  const INDEX_NAME = "vet-visits";

  try {
    const result = await esClient.search({
      index: INDEX_NAME,
      body: {
        retriever: {
          rrf: {
            retrievers: [
              {
                standard: {
                  query: {
                    bool: {
                      must: {
                         multi_match: {
             query: q,
            fields: ["owner_name", "pet_name", "visit_details"],
          },
                      },
                    },
                  },
                },
              },
              {
                standard: {
                  query: {
                    bool: {
                      must: {
                        semantic: {
                          field: "semantic_field",
                          query: q,
                        },
                      },
                    },
                  },
                },
              },
            ],
          },
        },
        size: 5,
      },
    });

    res.status(200).json({
      success: true,
      results: result.hits.hits,
    });
  } catch (error) {
    console.error("Error performing search:", error);

    res.status(500).json({
      success: false,
      results: null,
      error: error.message,
    });
  }
});
我们以 "谁做了修脚或牙科治疗？"
curl http://localhost:3000/search/hybrid?q=who%20got%20a%20pedicure%20or%20dental%20treatment
响应：
{
    "success": true,
    "results": [
        {
            "_index": "vet-visits",
            "_id": "9xY6RJYBLe2GoFQ6-9n9",
            "_score": 0.032522473,
            "_source": {
                "pet_name": "Simba",
                "owner_name": "Leo Martínez",
                "species": "Cat",
                "visit_details": "Dental cleaning. Minor tartar buildup removed.",
                "breed": "Maine Coon",
                "vaccination_history": [
                    "Rabies",
                    "Feline Panleukopenia"
                ]
            }
        },
        {
            "_index": "vet-visits",
            "_id": "-RY6RJYBLe2GoFQ6-9n9",
            "_score": 0.016393442,
            "_source": {
                "pet_name": "Mochi",
                "owner_name": "Daniel Kim",
                "species": "Rabbit",
                "visit_details": "Nail trimming and general health check. No issues.",
                "breed": "Mixed",
                "vaccination_history": []
            }
        },
        {
            "_index": "vet-visits",
            "_id": "8BY6RJYBLe2GoFQ6-9n9",
            "_score": 0.015873017,
            "_source": {
                "pet_name": "Buddy",
                "owner_name": "Alice Johnson",
                "species": "Dog",
                "visit_details": "Annual check-up and nail trimming. Healthy and active.",
                "breed": "Golden Retriever",
                "vaccination_history": [
                    "Rabies",
                    "Parvovirus",
                    "Distemper"
                ]
            }
        },
        {
            "_index": "vet-visits",
            "_id": "9RY6RJYBLe2GoFQ6-9n9",
            "_score": 0.015625,
            "_source": {
                "pet_name": "Rex",
                "owner_name": "Tomás Herrera",
                "species": "Dog",
                "visit_details": "Follow-up for previous leg strain, improving well.",
                "breed": "German Shepherd",
                "vaccination_history": [
                    "Rabies",
                    "Parvovirus",
                    "Leptospirosis"
                ]
            }
        },
        {
            "_index": "vet-visits",
            "_id": "8xY6RJYBLe2GoFQ6-9n9",
            "_score": 0.015384615,
            "_source": {
                "pet_name": "Luna",
                "owner_name": "Jake Thompson",
                "species": "Dog",
                "visit_details": "Mild ear infection, cleaning and antibiotics given.",
                "breed": "Labrador Mix",
                "vaccination_history": [
                    "Rabies",
                    "Bordetella"
                ]
            }
        }
    ]
}
结论
在本系列的第一部分中，我们介绍了如何按照客户端/服务器最佳实践设置环境并创建带有不同搜索端点的服务器，以查询 Elasticsearch 文档。查看我们系列的第二部分，您将了解生产最佳实践以及如何在无服务器环境中运行 Elasticsearch Node.js 客户端。

功能	Agent2Agent (A2A)	模型上下文协议（MCP）	混合型（A2A + MCP）
首要目标	多代理协调：使专业代理团队能够在复杂的多步骤工作流程中协同工作。	单一代理增强：利用外部工具、资源和数据扩展单一 LLM/Agent 的能力。	综合实力：A2A 负责团队的工作流程，而 MCP 则为每个团队成员提供工具。
新闻编辑室团队范例	工作流程链：新闻主管 → 记者 → 研究员 → 编辑 → 出版商。这是协调层。	单个代理的工具：记者代理访问样式指南服务器和模板服务器（通过 MCP）。这是工具访问层。	完整的系统：记者与编辑（A2A）协调，记者使用图像库 MCP 服务器为报道寻找图片。
何时使用	当您需要真正的协作、迭代和改进，或需要多个代理分担专业知识时。	当单个代理需要访问多个工具和数据源或需要与专有系统进行标准化集成时。	当您需要多代理系统的组织优势以及 MCP 的标准化和生态系统优势时。
核心效益	自主性和扩展性：代理可以独立做出决定，系统允许专门功能的横向扩展。	简单化和标准化：由于集中推理，调试和维护更容易，并为资源提供了通用接口。	明确区分关注点：使系统更易于理解：A2A = 团队合作，MCP = 工具使用。

现场	类型	示例	目的/说明	矢量/索引
本我	关键词	阿玛-达布拉姆	稳定的弹头/ID	-
姓名	文本 + 关键字子字段	["Ama Dablam","Amadablam"]	别名/多语言名称；names.raw 用于精确筛选	-
纬纶	地理点	{"lat":27.8617,"lon":86.8614}	以经纬度组合形式显示的山顶 GPS 坐标（可选）	-
海拔_m	整数	6812	海拔（可选）	-
嵌入文本	dense_vector	768	该山峰的混合原型（提示和可选的 1-3 幅参考图片	index:true, similarity:"cosine", index_options：{type:"hnsw", m:16, ef_construction:128}

查询	文件内容	等级	说明
"最佳比萨饼配方"	"正宗意大利比萨面团配方及步骤图片"	4.0	高度相关，正是用户正在寻找的内容
"最佳比萨饼配方"	"意大利比萨的历史"	1.0	与主题有点吻合，是关于披萨的，但不是食谱
"最佳比萨饼配方"	"适合初学者的 15 分钟快速比萨食谱"	3.0	这是个不错的结果，但也许还达不到 "最佳 "配方的标准。
"最佳比萨饼配方"	"汽车保养指南"	0.0	完全不相关，与查询完全无关

qid	docid	职级	查询
Q1 意大利食谱	基本食谱	0.0	意大利食谱
Q1 意大利食谱	菜谱_比萨_玛格丽塔	3.333333	意大利食谱
Q1 意大利食谱	菜谱指南	10.0	意大利食谱
Q1 意大利食谱	法式羊角面包食谱	0.0	意大利食谱
Q1 意大利食谱	西班牙海鲜饭食谱	0.0	意大利食谱
Q1 意大利食谱	希腊穆萨卡菜谱	1.875	意大利食谱

公制	描述
精确度& 召回率	在实际输出和预期输出之间匹配警报 ID，以衡量检测准确性。
相似性	使用 BERTScore 比较回复文本的语义相似性。
事实性	是否存在关键的 IOC（妥协指标）？是否正确反映了 MITRE 战术（行业攻击分类）？
攻击链一致性	比较发现的次数，检查是否存在多报或少报攻击事件的情况。

部门	原因
您是根据 Kibana 9.0.0 版本的图像分析 Kibana 仪表板的专家。	通过强化 Elasticsearch 和 Elasticsearch 版本，我们降低了 LLM 产生旧参数/无效参数的可能性。
您将获得一个仪表盘图像和一个 Elasticsearch 索引映射。	我们解释说，图片是关于仪表盘的，以避免法律硕士做出任何错误的解释。
下面是仪表盘所基于的索引的索引映射，使用它可以帮助你理解数据和可用字段。索引映射： {index_mappings}	提供映射至关重要，这样 LLM 才能动态选择有效字段。否则，我们就可能在这里硬编码映射，这太死板了，或者依靠图像包含正确的字段名，这也不可靠。
根据图像中可见的内容，只包含与每个可视化相关的字段。	我们必须添加这一增强功能，因为有时它会尝试添加与图像无关的字段。

iPhone 16 的职业值	文件数量	bg_count
职业分布（最高级别）	122	424
医疗& 保健桶	45	57

手机型号	doc_count （本职业中的本模型）	bg_count （所有文件中都有此模型）	% 在所有文件中	% 从事这一职业
谷歌 Pixel 8	12	220	5.19%	16.90%
OnePlus 11	9	14	3.30%	12.68%
OnePlus 12 Pro	3	3	0.71%	4.23%
谷歌 Pixel 8 Pro	9	21	4.95%	12.68%
无手机 2	5	8	1.89%	7.04%
三星 Galaxy Z Fold5	4	6	1.42%	5.63%
OnePlus 12	8	20	4.72%	11.27%

威胁	描述	补救& 最佳做法
及时注射& 工具中毒	在 LLM 系统上下文或工具描述中注入恶意提示的方法，导致 LLM 执行读取文件或泄漏数据等意外操作。	使用 MCP 扫描等工具对工具元数据进行检查。在提示中包含说明和参数前对其进行验证。最后，考虑对高风险工具实施用户审批。有关详细信息，请参阅表格下方附加阅读列表中的 OWASP 提示注入指南。
采样攻击	就 MCP 而言，采样为 MCP 服务器对 LLM 进行提示注入攻击打开了大门。	对不信任的服务器禁用取样功能，并考虑对取样请求增加人工在环审批。
恶意 MCP 服务器	在目前收集的 MCP 服务器中，很难逐一审查以确保安全。流氓服务器会悄悄收集你的数据，并将其暴露给恶意行为者。	仅从受信任的注册表或内部列表中连接到 MCP 服务器。在具有沙箱功能的容器中运行第三方服务器。
恶意 MCP 安装工具	命令行安装程序和脚本可方便地快速实施 MCP 服务器或工具，但最终可能会安装未经验证的加密代码。	在沙箱环境中安装并验证软件包签名。切勿从未经验证的来源自动更新。

	问题	解决方案
一致性	聊天模式思想开放，容易分心	您可以给它们一个系统提示，以规范它们的整体形状和结构
内存	人工智能模型没有内存，因此无法将某个用户的一条信息与另一条信息关联起来	您可以为他们提供一个记忆系统，存储对话的相关部分
隔离	人工智能模型生活在与世隔绝的小沙箱中，但如果你能让它们使用一些工具--在它们认为必要时可以调用的功能，它们就能做出非常了不起的事情	Spring AI 支持工具调用，让你可以告诉 AI 模型其环境中的工具，然后它可以要求你调用这些工具。这种多轮互动都是透明处理的
私人数据	人工智能模型很聪明，但并非无所不知！他们不知道你专有数据库中的内容，我们认为你也不希望他们知道！	您需要通过填充提示来告知他们的回复--基本上就是在模型查看所提问题之前，使用强大的字符串连接运算符将文本放入请求中。背景资料，如果你愿意的话。如何决定哪些应该发送，哪些不应该发送？使用矢量存储，只选择相关数据并将其继续发送。这被称为检索增强生成，或 RAG
幻觉	人工智能聊天模型喜欢，嗯，聊天！有时，他们自信到可以胡编乱造	您需要使用评估--使用一个模型来验证另一个模型的输出--来确认合理的结果

	指数活动	保留	搜索活动	磁盘容量	内存
企业搜索应用程序	适度摄入原木	长	灯光	2TB	32GB
应用程序监控	大量摄入原木	短	灯光	1TB	32GB
电子商务	轻型数据索引	无限期	重型	500GB	32GB

查询类型	用例	问题示例
词法查询	问题中的单词或词根很可能出现在索引文件中。问题与文件之间的标记相似性。	我在找一件蓝色运动 T 恤。
语义查询	问题中的词语不可能出现在文件中。问题与文件之间的概念相似性。	我在寻找适合寒冷天气穿的衣服。
混合搜索	问题包含词汇和/或语义成分。问题与文档之间的标记和语义相似性。	我想为海滩婚礼找一件 S 码的礼服。