Elasticsearch Labs

KibanaのAI Chatがダッシュボードをネイティブにレンダリングするように

Teresa Alvarez Soler, Robert Jaszczurek — Mon, 25 May 2026 00:00:00 GMT

KibanaのElastic AI Chatでは、平易な質問をES|QLに裏付けられた可視化や完全なダッシュボードに変換し、会話の中で直接利用できます。必要な指標を定義し、必要に応じて修正し、ストーリーが成り立つようになったら保存できます。すべては会話の中に残り、保存の準備ができるころには、チームが開いて編集し再利用できる一流のKibanaオブジェクトになります。Elastic 9.4でテクニカルプレビューとして利用可能です。

Watch video on Vidyard

エージェントはダッシュボードをゼロから構築しますが、既存のものも使用できます。ダッシュボードを表示中にAI Chatのサイドバーを開くと、自動的に接続されます。指標が急上昇した理由を尋ねたり、地域別に分析したり、比較パネルを追加したりしてみましょう。既存のダッシュボードが単なる最終成果物ではなく出発点となります。

舞台裏：AI Chatでダッシュボードを構築した方法

私たちは、スキル（与えられた問題に対する操作方法の構造化された記述）を通じて、エージェントに特定のタスクを教えます。しかし、ダッシュボードスキルを構築するには、LLMに有効なKibanaダッシュボードを生成する方法を教える必要がありましたが、従来のSaved Object APIでは、深くネストされたJSON、微妙なバージョン間の変更、脆弱な参照など、多くの問題があり、非常に困難でした。別のアプローチが必要でした。

プログラマティックダッシュボード専用に設計されたAPI

新しいDashboards APIは、まさにこのシナリオのために構築されました。生の内部状態を公開する代わりに、パネルの種類ごとに型付けされ検証済みのスキーマを提供します。APIは、クリーンな外部構造とKibanaの内部表現間の変換を処理するため、エージェントはダッシュボードのフォーマット方法ではなく、ダッシュボードに含めるべき内容に集中できます。

1つのスキル、1つのツール、多数の操作

dashboard-managementスキルは、操作の順序付き配列を受け入れる単一のmanage_dashboardツールを公開します。各操作は個別のアクションです。メタデータの設定、マークダウンパネルの追加、自然言語からのES|QLベースの可視化の作成、既存パネルの編集、パネルの折りたたみ可能なセクションへのグループ化、グリッド上のアイテムの再配置などが可能です。

エージェントは、タイトル、説明、セクション、およびその中のすべてのパネルなど、ダッシュボード全体を1回の呼び出しで説明できます。

{
 "operations": [
   { "operation": "set_metadata", "title": "Checkout latency investigation" },
   {
     "operation": "add_section",
     "title": "Overview",
     "panels": [
       { "query": "p95 checkout latency over the last 24h", "chartType": "xy" },
       { "query": "checkout error rate by region", "chartType": "metric" }
     ]
   }
 ]
}

操作は順序通りに実行されるため、後のステップは前のステップを参照し、その上に構築できます。この設計により、議論は実装の詳細ではなく、意図に焦点を当てたものとなります。

可視化パイプライン：自然言語からES|QL、そして可視化へ

ダッシュボードを要求すると、エージェントはデータ（インデックス、フィールドマッピング、タイプ）を探索し、可視化を計画し、manage_dashboardを呼び出します。

各パネルは、グラフタイプの選択、ES|QL生成、可視化構成、検証という独自のパイプラインを通過します。これをメインのエージェントスレッドから分離しました。可視化の構築にはパネルごとに複数のモデル呼び出しが必要であり、それをメインのコンテキストに混ぜるとウィンドウが肥大化し、推論が不明瞭になるためです。

manage_dashboardの内部では、すべてのパネルが同時に組み立てられ、順番に組み立て直されます。結果として、埋め込みパネルを備えた完全なダッシュボードが得られます。孤立した可視化も、同期の問題もありません。

ダッシュボードツール内に可視化作成機能を移動した理由

最初のアプローチでは、個別のcreate_visualizationツールを使用しました。パネルごとに1回呼び出しを行い、各添付ファイルをダッシュボードツールに渡しました。うまくいきましたが、各可視化には独自のツール呼び出し、独自のライフサイクル、そして明示的なハンドオフが必要でした。さらに悪いことに、会話内で可視化を編集してもダッシュボードパネルが更新されず、ユーザーを混乱させる結果となりました。

視覚化の作成機能をmanage_dashboardに直接統合しました。同じ並行ワークフローが実行されますが、パネルは中間的な接続を介さずにダッシュボード構造に組み込まれます。呼び出し回数が減り、同期の問題も発生せず、ライフサイクルは1つに統合されます。

スタンドアロンの可視化は引き続き機能します。既存のチャートは添付参照を使ってダッシュボードに追加できますが、新規作成の場合はインライン作成のほうがより適切です。

セキュリティチーム向け

SOCアナリストや検出エンジニアには、調査中にダッシュボードエディターを往復する余裕はありません。AI Chatでは、ルールの種類、ホスト、MITREの戦術別にアラート量を尋ねると、約1分でスレッドに表示されます。ハンティングが進むにつれて、コンテキストを損なうことなく、プロセス実行の異常、ネットワーク接続、タイムラインの比較といったパネルを重ねていくことができます。

作業が終わったら保存します。ダッシュボードは、事後分析の参考資料となり、次のアナリストの出発点となり、週次の脅威ブリーフィングの資料にもなります。再説明は不要です。

セキュリティチームがダッシュボード作成や最近開始されたその他のAI Chat機能をどのように利用できるかについては、こちらのブログ記事をご覧ください。

オブザーバビリティおよびサイト信頼性エンジニア（SRE）向け

午前2時にサービスがダウンした場合、ダッシュボードを一から構築する時間はありません。AI Chatを使用すると、SREは必要なメトリクス（サービスごとのp99レイテンシ、導入イベントに対するエラー率、過去1時間のポッド再起動数）を記述し、約1分で調査スレッドに完全なダッシュボードを取得できます。エージェントは、全体像がはっきりしてくるにつれて、パネルを追加し、時間ウィンドウを変更し、地域ごとに細分化し、段階的に調整できます。

ダッシュボードを保存すると、インシデントブリッジに参加する全員が作戦室ですぐにそのダッシュボードを利用できるようになります（同じパネル、同じフレーム）。事件後、それは事後検証の基礎となります。

次のステップ

トークンの最適化、よりリッチな全画面表示、より幅広いパネルのサポート、そして継続的な品質の向上に取り組んでいます。テクニカルプレビューは、優先順位を決定する絶好の機会です。何か不足している点があれば、上部メニューの「フィードバックを送信」アイコンからお知らせください。

試してみる

Elastic 9.4にアップグレード（またはトライアルを開始）するか、AI Chatを全画面モードで開いて、実際の調査で試してみてください。エージェントに注目している指標のグラフを作成してもらい、その後、次の詳細な内訳を依頼します。ストーリーが成立したら、保存して共有してください。同じパネル、同じ構図で、再説明は不要です。エンタープライズライセンスが必要です（利用開始はこちら）。本記事に記述されているあらゆる機能または性能のリリースおよびタイミングは、Elastic単独の裁量に委ねられます。現時点で提供されていないあらゆる機能または性能は、すみやかに提供されない可能性、または一切の提供が行われない可能性があります。

Kibanaはダッシュボードの読み込み時間を最大25％短縮 - その背後にあるポーリング戦略を紹介

Drew Tate, Matthias Wilhelm — Fri, 22 May 2026 00:00:00 GMT

継続的なポーリングにより、KibanaのダッシュボードとDiscoverの読み込みが最大25％速くなりました。Kibanaは、定期的なチェックの合間にスリープする代わりに、HTTP接続を開いたままに維持し、準備ができたらすぐにElasticsearchのクエリ結果を配信するようになりました。HTTP/2+（9.0以降のKibanaのデフォルト）では、自動的に有効になるため、設定は不要です。HTTP/1では、Kibanaは接続プールの枯渇を防ぐために従来のポーリングに戻ります。

Kibanaがダッシュボードを読み込む際にデータを取得する方法

ダッシュボードを開くと、ほとんどのパネル（内部的には、これらを埋込と呼びます）が1つ以上のElasticsearchクエリを開始します。しかし、同期検索の単純な呼び出しと応答の代わりに、非同期検索のパワーを使います（ドキュメント）。

非同期検索では、クエリ結果が特定のHTTPリクエスト外でもElasticsearch内で利用可能な状態に保たれます。これが重要な理由を以下に挙げます。

ネットワークの不安定性に耐性が高く、データの読み込みを安定させます
バックグラウンド検索機能により、ユーザーは長時間実行されるダッシュボードやDiscoverセッションを待つ間も、Kibanaで他の作業を行うことができます

最初のクエリが送信された後、Kibanaは検索を監視して完了を検出し、結果のセットを取得します。

従来のポーリングがKibanaのダッシュボードのロード時間に与える影響

従来のポーリングでは、Kibanaはクエリを送信し、最初の接続を閉じてから、Elasticsearchの完了を定期的にチェックします。

Elasticsearchは、クエリ送信後に検索を完了して結果を返すまでの短い時間を設けています。もし検索がこれほど速く完了する場合、それは単純な呼び出しと応答のやり取りに相当します。しかし、長時間の検索の場合、最初の接続は切断され、Kibanaは検索の完了を定期的に確認し始めます。これはポーリングと呼ばれます。

従来のポーリングのパフォーマンス上の課題

上の図をご覧いただくと、このアプローチのパフォーマンス上の欠点がお分かりいただけるかもしれません。検索はKibanaのスリープインターバルのいずれかで終了する可能性が最も高く、そのため時間の無駄につながります。

最悪のシナリオ（検索がスリープ期間の始めに完了する場合）では、ポーリングインターバルの全期間が無駄になります。

バックオフ戦略の影響

ポーリング時にはバックオフ戦略を適用するのが標準的な方法です。これは、検索の期間が長くなるほど、ポーリングの頻度が低くなることを意味します。

しかし、これはまた、検索の期間に応じて潜在的な時間損失が比例して増加することを意味します。

ポーリング間隔がノコギリ状のレイテンシパターンを作り出す仕組み

これらの要素を合わせると、失われた時間は段階的なノコギリ状の関数となります。

ここで、ピークは最悪のシナリオ、谷は最良のシナリオを表しています。これは、従来のポーリングコストが、検索期間（およびネットワーク条件）に応じて、ゼロからポーリング間隔の全期間まで変化することを示しています。

継続的なポーリング：Kibanaが待ち時間を排除する仕組み

従来のポーリングの問題は、KibanaとElasticsearchの間にある根本的な連携不足です。理想は、Kibanaが結果が利用可能になったことを即座に認識することです。では、ほぼすべての時間をElasticsearchのチェックに費やし、待機時間をまったく設けないポーリングパターンに逆転させたらどうなるでしょうか？

長時間のポーリングとスリープ期間の廃止を組み合わせることで、結果は準備ができ次第すぐに提供されます。

HTTP/1の陳腐化

その理論は堅実なものです。では、継続的なポーリングをオンにすると、なぜこのKibana導入はそれほど陳腐化して見えるのでしょうか？

重要なのは、この導入がHTTP/1上で実行されていることです。HTTP/1では、HTTPリクエストはTCP接続に1:1でマップされます。そのため、複数の長時間にわたるポーリングリクエストがブラウザの限られた接続プールを占有し、他のリクエストがキューに溜まってしまいます。

一方、HTTP/2+では、ネットワークリクエストは多重化によってTCP接続を共有できるため、この問題は発生しません。

つまり、HTTP/2+では継続的なポーリングは利点となりますが、HTTP/1では欠点となります。

	HTTP/1	HTTP/2+
TCP接続	HTTPリクエストごとに1つ	多重化（多くのリクエストが接続を共有）
継続的なポーリング実行	パフォーマンスが低下（接続プールの枯渇）	最大の効果（結果をすぐに表示）

KibanaがHTTPプロトコルを検出して最適なポーリングを行う方法

HTTP/2は推奨されているプロトコルであり、Kibanaのデフォルトは9.0以降であるため、このパフォーマンス向上を実装しないのはもったいないでしょう。一方、HTTP/1のエクスペリエンスは非常に陳腐化しているため、プロトコルをまだアップグレードしていないオンプレミス導入でリスクを冒すことは許されません。答えは明確です。どのプロトコルが使用されているかを検出し、最適なポーリング戦略を適用する必要があります。

Kibanaサーバーがどのプロトコルを使用しているかを知ることは確かに可能です。しかし、そこには落とし穴があります：制限要因はブラウザの接続プールです。つまり、本当に重要なのはブラウザが何を使用しているかということです。

プロキシの関係で、これらは必ずしも同じではありません。

最適化をサーバープロトコルに基づいて行うと、2つの誤りのどちらかが起こり得ます。

適用すべきでないのに継続的なポーリングを適用し、エクスペリエンスを低下させる。
継続的ポーリングを適用すべき場合に適用せず、最適化の機会を逃す。

幸いなことに、最新のブラウザは PerformanceObserver を使用することで、完了したリクエストの最後のネットワークホップのプロトコルを検出する方法を提供しています。そこで、最初のクエリ送信のプロトコルを監視し、それに基づいて最適化します。

new PerformanceObserver((list) => {
  const entries = list.getEntries();
  const entry = entries.find(({ name }) => name.includes('/internal/search/'));
  if (entry) {
    this.protocolSupportsMultiplexing = ['h2', 'h3'].includes(entry.nextHopProtocol);
  }
});

ラボでの結果：継続的ポーリングと従来のポーリングとの比較（Kibana）

継続的なポーリングを検証するために、1秒から23秒の範囲でクエリが遅延するダッシュボードを作成し、最適化を有効にした状態と有効にしていない状態での読み込み時間を測定しました。次に、継続的なポーリングが有効なダッシュボードと有効でないダッシュボードを読み込み、その結果を（賞品のかかったレースのように楽しんで）測定しました。

このパターンは、元のノコギリ型の図を踏襲しています。クエリの期間によっては、効果が小さい場合もあれば、数秒に及ぶ場合もあります。

まとめ

この最適化により、従来のポーリング方式に内在する遅延を、より効率的な継続的ポーリング方式に置き換えることに成功しました。主な課題は、HTTP/1環境でのパフォーマンス低下を防ぐために、この最適化を条件付きで実装することでした。私たちはこの課題を、ブラウザの PerformanceObserver を使って、最終ネットワークホップで使用されているプロトコルを確実に検出することで解決しました。

ラボでのテストによりこの理論が検証され、継続的なポーリングによって結果が準備でき次第すぐに得られることが示されました。平均して、これはユーザーエクスペリエンスの有意義な改善につながり、データの読み込みを最大25％高速化します。

この取り組みは、ユーザーが洞察を得るまでの時間を短縮するという私たちのコミットメントにおける、最新のステップです。KibanaをElasticsearchデータに対してより透明性の高いプロキシにすることで、私たちの影響が及ぶ範囲内でのパフォーマンスの限界を押し広げます。ぜひ今後の続報をお待ちください。

（2025年、トーマス・ナイリンクはKibanaのダッシュボードのパフォーマンスを向上させる方法と動機について優れた概要を紹介しました。これはその取り組みをアップデートしたものです。

描くのではなく、説明する：MCPとES|QLによるAIネイティブのKibanaダッシュボード

Stratoula Kalafateli — Fri, 22 May 2026 00:00:00 GMT

example-mcp-dashbuilderはオープンソースのMCPアプリケーションで、平易な英語のプロンプトをライブでインタラクティブなKibanaのダッシュボードに変換します。これらはすべて、エディタのチャット画面内で行われます。ダッシュボードの要望を記述すると、AIがインデックス構造を検出し、各可視化に適切なES|QLアグリゲーションを記述し、作業中にインラインでプレビューをレンダリングします。完了後、1つのコマンドで完全に機能するKibanaのダッシュボードがエクスポートされます。実際のLens可視化、正確なグリッドレイアウト、カスタムカラーもそのまま保持されます。現在、6種類のグラフがサポートされており、Kibana Lensの全機能がロードマップに設定されています。

Kibanaダッシュボードビルダーとは？

必要なダッシュボードをわかりやすい日本語で説明すると、インタラクティブなグラフ、ドラッグアンドドロップのレイアウト、Kibanaへのワンクリックエクスポートが表示・実行されるとしたらどうでしょうか。

それがまさに example-mcp-dashbuilder の役割です。これはオープンソースのモデルコンテキストプロトコル（MCP）アプリケーションで、AIアシスタントをElasticsearchに接続し、会話を通じて総合的なKibanaのダッシュボードを作成できます。メニューをクリックしたり、手動で可視化設定を書く必要はありません。必要なものを説明するだけで、AIがデータを調査し、Elasticsearch Query Language（ES|QL）でクエリを書き、グラフを作成し、ライブかつインタラクティブなダッシュボードを提供します。これらはすべて、エディタのチャット画面内で行われます。

Watch video on Vidyard

プロンプトからダッシュボードまでを数秒で

実際の様子を以下で紹介します。次のように入力します：

「「logstash-*」から、リクエストの合計数、時間の経過に伴う転送バイト数、上位の地理的ソース、対応コードの内訳を含むWebトラフィックダッシュボードを作成してください。」

AIは次のように動作します：

データを発見：インデックスを一覧表示し、フィールドマッピングを検査します。
ES|QLのクエリを作成：スキーマに合わせ、適切なアグリゲーションを使用します。
可視化を作成：棒グラフ、折れ線グラフ、スパークライン付きメトリクス、ヒートマップ、円グラフを作成できます。
すべてを整理整頓：折りたたみ可能なセクション、わかりやすいタイトル、適切なレイアウト。
インタラクティブなプレビューを表示：チャット内でツールチップ、時間選択機能、ドラッグ＆ドロップ機能を利用できます。

各グラフは作成されると同時にインラインで表示されるため、リアルタイムで進捗状況を確認できます。次にview_dashboardは、Kibanaの48列グリッドにすべてのパネルが配置された完全なダッシュボードを表示します。

単一のグラフを本文中にプレビュー表示します。

ES|QLで構築

すべてのデータ検索には、Elasticsearchのパイプ型クエリ言語であるES|QLを使用しています。AIは単に未加工のクエリをそのまま渡すだけでなく、ES|QL構文に関して標準搭載された知識とお客様のデータ構造に関する情報を使用して、各可視化タイプに対して正確かつ効率的なクエリを作成します。

サーバーには包括的なES|QLリファレンスがMCPリソースとして含まれています。クエリを書く前に、AIはこのリファレンスを読み取り、利用可能なコマンド、関数、およびパターンを理解します。データ可視化のベストプラクティス・ガイド（リソースとしても機能）と組み合わせることで、AIはクエリの方法だけでなく、何が可視化を優れたものにするのかも知ることができます：

時系列には BUCKET(@timestamp, 1 day) を使い、常に時間フィールドで SORT します。
円グラフは| SORT value DESC | LIMIT 6で6切れに制限します。
カテゴリー比較のための棒グラフ、トレンドを示す折れ線グラフ、主要業績評価指標（KPI）のためのメトリクスを選択します。

オープンエンド分析によるAI主導のデータ探索

頭の中で既に設計したダッシュボードを、実際に作成することはまた別の作業です。「このインデックスの何が興味深いのか？」と尋ねること、そして有用な答えを得ることはより難しく、AIが単に描くのではなく、探索する方法を知る必要があります。

example-mcp-dashbuilder は、構造化された探索フローを定義する analysis://guidelines リソースを提供します。そのリソースとは、データのプロファイリング、ターゲットを絞ったアグリゲーションの実行、調査に値するパターンの抽出、最も興味深い発見のためのチャートの作成、ユーザーが次に望むかもしれないドリルダウンクエリの提案などです。トリガーフレーズ（例えば「ログを分析」や「このインデックス内のパターンを発見」）は、AIが何かを行う前にプレイブックを読み込むようにするため、オープンエンドなプロンプトはランダムなチャートの集合ではなく、一貫性のある調査を生成します。

結果：AIに馴染みのないインデックスを渡すと、開始点が返されます。開始点は、ダッシュボードと「以下に気づきました。これらの中に詳しく調べたいものはありますか？」というプロンプトと短いリストです。

Kibanaダッシュボードのエクスポートとインポート：完全な往復処理

エクスポート/インポートの往復処理は、既に Kibana を使用しているチームにとって example-mcp-dashbuilder が真に役立つ部分です。example-mcp-dashbuilder は独自の機能を持ち、エディタ内に存在する対話型のダッシュボード画面ですが、作業内容をエディタ内に閉じ込めることはありません。ここで構築されたダッシュボードは、必要に応じてKibanaに移動できます。既存のKibanaダッシュボードは、AI支援による編集のために逆方向に移動させることが可能です。

Kibanaにエクスポート

ダッシュボードにご満足いただけましたら、次のコマンド1つでエクスポートできます：

「このダッシュボードをKibanaにエクスポートしてください」

すべてのパネルは実際のKibana Lensの可視化に変換されます。変換後も以下は保持されます：

ES|QLクエリ：LensにおけるES|QLのデータソースとして直接転送されます。
グリッド位置：Kibanaと同じ48列システムを使用しているため、レイアウトはKibanaと全く同じに見えます。
カスタムカラー：シリーズパレット、メトリックの背景、ヒートマップのカラーランプ。

その結果として、全面的に機能するKibanaのダッシュボードができます。スクリーンショットでも埋め込みでもありません。共有してKibanaで編集を続けることができるダッシュボードです。

Kibanaダッシュボードとカーソルチャットのダッシュボードを並べて表示します。

Kibanaからインポート

往復処理は逆方向でも機能します。

「ID abc-123でKibanaのダッシュボードをインポート」

これは既存のKibanaのダッシュボードを取得し、そのLensの可視化を編集可能なチャート構成に変換し、グリッドのレイアウトとセクションを保持して、すべてを example-mcp-dashbuilder に読み込みます。そこから自然言語で修正し、再エクスポートできます。

このように、AIは既存のKibanaワークフローにおける共同作業者となり、それを置き換えるものではありません。

カスタムテーマと色

ブランド化されたダッシュボードをご希望ですか？お問い合わせください：

「カスタムカラーを使用したピンクを基調としたダッシュボードを作成」

すべての可視化タイプはカスタムカラー設定をサポートしています：

チャート：palette はシリーズとスライスに対して16進数の色の配列を指定できます。
指標：color が背景色を設定します。
ヒートマップ： colorRamp は、低い値から高い値への勾配を定義します。

AIはテーマのリクエストを自然に受け取ります。「海のテーマ」と伝えると、青やティールの色合いが選択されます。「自社のブランドカラーと一致させてください」と伝えて16進数の値を指定すると、エクスポート時にKibanaに引き継がれます。

カスタムカラーの、テーマを使用したダッシュボード。

example-mcp-dashbuilder の仕組み：MCPアーキテクチャ

example-mcp-dashbuilderは、AIアシスタントを外部ツールやデータに接続するためのオープン標準である MCPに基づいて構築されています。アーキテクチャの概要は以下の通りです：

MCPサーバーは、AIが直接呼び出せる25のツールを公開しています。これには、ES|QLクエリの実行からダッシュボードのエクスポートまで、網羅的な内容が含まれています。さらに、インラインプレビューがデータの取得、レイアウト変更の永続化、時間フィールドの検出に使用する内部専用の「アプリのみ」ツールもいくつかあります。また、3つのリソースも提供しており、データ可視化のベストプラクティスガイド、ES|QLリファレンス、そしてオープンエンドのプロンプト（「ログを分析」、「このインデックスで何が興味深いのか」）に対応する深度分析プレイブックがあります。そして、stdioまたはHTTPのいずれかで実行されます。HTTPトランスポートはストリーム可能な対応とセッション管理をサポートしているため、複数のクライアントが1つのサーバーに接続できます。

MCPアプリは、インタラクティブなプレビューを表示します。React、Elastic Charts、Elastic UIを組み合わせて構築されており、1つの独立したHTMLファイルにまとめられています。AIが view_dashboard を呼び出したり、チャートを作成したりすると、ホストはこのHTMLをサンドボックス化されたiframe内にレンダリングします。アプリ全体はMCP Appsのプロトコルを通じてサーバーと通信し、postMessage上の callServerTool() を使ってデータの取得、レイアウトの保存、時間フィールドの検出を行います。localhostサーバーもなく、ポート設定も、外部ネットワーク依存もありません。

これは、あらゆるMCP互換のクライアント（Cursor、Claude Desktop、Claude.ai、VS CodeとCopilotの併用など）と動作することを意味します。

example-mcp-dashbuilder はどのようなチャートタイプをサポートしていますか？

執筆時点では、最も一般的なダッシュボードのシナリオをカバーする以下の6種類のチャートタイプがサポートされています。

タイプ	最適な用途	例
棒グラフ	カテゴリ比較	地理的ソース別のリクエスト
折れ線グラフ	一定期間におけるトレンドの変化	1時間あたりの転送バイト数
エリア	時間経過に伴うボリューム	時間経過に伴うリクエスト量
円グラフ	全体に占める割合（最大6切れ）	対応コードの分布
メトリック	スパークライン付きの単一KPI	時間別トレンド付きのリクエスト総数
ヒートマップ	二次元領域全体でのパターン	曜日・時間別リクエスト

ダッシュボードは、整理のための折りたたみ可能なセクション、自動時間フィールド検出を備えたタイムピッカー、および複数のダッシュボードを保存して切り替える機能をサポートしています。並行チャットセッションは、すべてのツールコールでdashboardIdがスレッド化されているため、互いに分離された状態を維持します。

example-mcp-dashbuilder のインストールと実行方法

example-mcp-dashbuilder はオープンソースであり、すぐに利用可能です。Node.js 22+、Elasticsearchインスタンス（ローカルまたはElastic Cloud）、およびMCP互換のクライアントが必要です。

Claude Desktop： GitHub Releasesから最新版.mcpbをダウンロードし、ダブルクリックします。Claude Desktopから、Elasticsearchの認証情報を入力するよう促されます。

Cursor / Claude Code / VS Code Copilot：MCP設定をリリースされた tarball に指定します。クローンや npm install は不要です。

{
  "mcpServers": {
    "example-mcp-dashbuilder": {
      "type": "stdio",
      "command": "npx",
      "args": ["https://github.com/elastic/example-mcp-dashbuilder/releases/latest/download/example-mcp-dashbuilder.tgz"]
    }
  }
}

環境変数として ES_NODE, ES_API_KEY（または ES_USERNAME / ES_PASSWORD）と KIBANA_URL を設定します。ソースから作業したい場合は、リポジトリをクローンし、npm run setup を実行して、ローカルのElasticsearchとElastic Cloud（Cloud ID + APIキー）の両方を処理するインタラクティブウィザードを使用します。

次のように、構築を開始できます：

「ログのインデックスを探索し、可能な限り洞察に富むダッシュボードを作成してください」

AIがその後を引き継ぎます。😉

ロードマップ：example-mcp-dashbuilder の今後

これは初期リリースであり、現在も鋭意開発を進めています。以下の分野などに注力しています。

より多くのチャートタイプ：ゲージグラフ、ドーナツグラフ、ツリーマップ、データテーブル、タグクラウドなど、Lensの全機能に対応。
ダッシュボードをGitにプッシュ：ダッシュボードの設定をリポジトリに書き込み、バージョン管理やコードレビューのワークフローを行います。
優れたエラーUX：ES|QLクエリが失敗した場合、一般的な修正案を含むより詳細なフィードバックを提供します。
より高度な分析フロー：詳細分析のプレイブックを拡張し、より多くのデータ形式（ログ、メトリクス、トレース）に対応します。

お客様が構築されたものを、ぜひご紹介ください。お試しの後で問題があればご報告いただき、お客様のチームにとって最も役立つ可視化やワークフローはどのようなものかお知らせください。

GitHub: elastic/example-mcp-dashbuilder

謝辞

ウォルター・ラフェルズバーガーとティム・シュネルの実装への貢献に感謝します。

FAQ

example-mcp-dashbuilder とは？example-mcp-dashbuilder は、AIアシスタントをElasticsearchに接続するオープンソースのMCP（Model Context Protocol）アプリケーションです。Kibanaのダッシュボードを平易な日本語で説明し、ES|QLクエリを自動生成し、可視化を作成し、エディタのチャット画面内にライブかつインタラクティブなダッシュボードを表示できます。

example-mcp-dashbuilder はデータ取得にどのようなクエリ言語を使っていますか？すべてのデータ取得には、Elasticsearchのパイプクエリ言語であるES|QLを使用しています。MCPサーバーには、クエリを書く前にAIが読み取るES|QLリファレンスが標準搭載されているため、各可視化タイプの正しい構文と効率的なアグリゲーションが確保されます。

example-mcp-dashbuilder で作成したダッシュボードをKibanaにエクスポートできますか？はい。「このダッシュボードをKibanaにエクスポート」を実行すると、すべてのパネルが実際の Kibana Lens の可視化に変換され、ES|QLクエリ、48列のグリッドレイアウト、カスタムカラー、シリーズパレットが保持されます。結果は、スクリーンショットや埋め込みではなく、全面的に機能するKibanaのダッシュボードです。

既存のKibanaのダッシュボードを example-mcp-dashbuilder にインポートして、AI支援型編集はできますか？はい。KibanaのダッシュボードIDを指定すると、既存のダッシュボードが取得され、Lensの可視化が編集可能なグラフ構成に変換され、example-mcp-dashbuilder に読み込まれます。その後、自然言語を使用してダッシュボードを変更し、Kibanaに再エクスポートできます。

example-mcp-dashbuilder と互換性のあるMCPクライアントはどれですか？example-mcp-dashbuilder は、Cursor、Claude Desktop、Claude.ai、VS Code with Copilotなど、あらゆるMCP互換クライアントで動作します。stdioとHTTPトランスポートの両方をサポートしており、localhostサーバーやポートの設定は不要です。

example-mcp-dashbuilder はどのチャートタイプをサポートしていますか？現在のリリースでは、棒グラフ、折れ線グラフ、面グラフ、円グラフ、メトリクス（スパークライン付き）、ヒートマップの6種類のグラフがサポートされています。Kibana Lensの全機能に合わせて、ゲージグラフ、ドーナツ、ツリーマップ、データテーブル、タグクラウドなどを追加する予定です。

example-mcp-dashbuilder を実行するには何が必要ですか？Node.js 22以上、Elasticsearchインスタンス（ローカルまたはElastic Cloud）、およびMCP互換クライアントが必要です。環境変数 ES_NODE、ES_API_KEY（またはES_USERNAME/ES_PASSWORD）、KIBANA_URLを設定します。Claude Desktopの場合は、GitHub Releasesから.mcpbファイルをダウンロードし、ダブルクリックしてインストールします。

1つのクエリ、複数のElasticsearchサーバーレスプロジェクト：プロジェクト横断検索の紹介

Michael Peterson, Najwa Harif — Mon, 18 May 2026 00:00:00 GMT

Elastic Cloud Serverlessでプロジェクト横断検索（CPS）が利用可能になりました。FROM logs*のような単一のクエリで、ネットワークピアリング、証明書管理、データ重複なしに複数の独立したプロジェクトにわたってデータを検索できます。プロジェクトはそれぞれ独自のリージョンとクラウド内に保持され、結果のみが返されます。データレジデンシーの要件、テナントの分離、ログのコピーに伴う高額なデータ転送コストといった課題を抱えるチームにとって、CPSはデータが本来あるべき場所に正確に存在し、かつ全体としてクエリを実行できることを意味します。

Elastic Cloud Serverlessはインフラストラクチャの管理とバージョンアップグレードの煩わしさをすでに解消していますが、CPSはそれをさらに一歩進めます。複雑なネットワークピアリングと手動による証明書管理を、シンプルなリンクモデルに置き換え、Elastic Cloud Serverlessプロジェクトをデータの単純な名前空間として扱うことができます。厳格なデータレジデンシー法への対応、テナントデータの分離、あるいはログの重複によって発生する莫大なネットワーク送信料金の回避など、どのような場合でも、CPSを使えば、単一のクエリでデータが存在する場所で正確に検索できます。

この投稿では、CPSの仕組み、プロジェクトタグを使用して検索を制御する方法、そしてこの新しいモデルが従来のクラスター横断検索（CCS）とどのように異なるかを説明します。

プロジェクトをリンクしてプロジェクト横断検索を行う方法

プロジェクト横断検索を始めるには、Elastic CloudコンソールまたはAPIでプロジェクトをリンクします。リンクは簡単で一方向です。元となるプロジェクトを選択し、検索するプロジェクトを接続します。これらのリンクはリージョン、クラウドプロバイダー、プロジェクトの種類にまたがるため、統一された検索エクスペリエンスを損なうことなく、データを元の場所に保存できます。

リンクが作成されると、通常約1分以内に有効になります。すでにKibanaを開いている場合は、更新して新しいプロジェクト横断検索機能を確認してください。

プロジェクト横断検索がデフォルトでリンクされたすべてのプロジェクトにクエリを適用する方法

プロジェクトがリンクされると、プロジェクト横断検索は別々のプロジェクトを1つの論理的な検索画面に変えます。ログが複数のプロジェクトにまたがっている場合、FROM logs* のようなクエリは、元のプロジェクトと一致するデータを持つリンクされたプロジェクトを検索します。事前に各リモートターゲットに名前を付ける必要はありません。

これはクラスター横断探索に比べて大きな進歩です。CCSでは、ローカルデータとリモートデータの両方にアクセスするには、 FROM logs*,*:logs*のような記述が必要になることがよくあります。ユーザーにとっては、クエリの複雑さが軽減されるということです。チームにとって、これは分散データ全体にわたる真の可視化の実現に近づくことを意味します。

詳細については、CPS検索モデルドキュメントをご覧ください。

この技術的な詳細については「Elasticsearch Serverlessにおけるプロジェクト横断検索（CPS）の仕組み」をご覧ください。

プロジェクトルーティングによる検索の制御

デフォルトでリンクされたすべてのプロジェクトを検索する機能は、多くのワークフローにとって便利で役立ちますが、すべての検索がすべてのプロジェクトを対象とするべきではありません。プロジェクト横断検索では、プロジェクトルーティングが導入され、クエリを特定のプロジェクト群に限定することが可能になります。

Elastic Cloudで定義されたプロジェクトタグを通じて動作します。すべてのプロジェクトには、そのエイリアス、クラウドプロバイダー、リージョンなどの組み込まれた属性があります。また、 environment:prod, environment:test 、事業部門、顧客名など、組織が資産をどのように考えているかを反映するために、独自のタグを追加することもできます。Elasticsearchはその後、そのメタデータを使用して、どのリンクされたプロジェクトが検索に参加すべきかを決定できます。

プロジェクト横断検索をサポートするすべてのElasticsearchエンドポイントは、project_routing パラメーターを受け付けます。テクニカルプレビューでは、ルーティングはプロジェクトエイリアスの使用に限定されています。例えば、project_routingを _alias:my-linked-project に設定すると、リンクされたプロジェクトにのみクエリが送信され、_alias:_origin は元のプロジェクトにクエリが保持されます。時間の経過とともに、このモデルはより高度なルーティングへの道を開き、検索範囲をインフラの物理的なレイアウトではなく、組織の論理的な構造に従わせることができるようになります。

プロジェクトルーティングに関するドキュメントには、例や仕組みの詳細が記載されていますので、そちらを参照してください。

Kibanaスペースレベルのデフォルトプロジェクトルーティング

検索ルーティングの精度を高める必要がある例として、リンクされたすべてのプロジェクトを検索すると、Kibanaルールで誤検知が殺到したり、既存のダッシュボードで混乱する結果になったりする可能性があります。これを解決するには、Kibanaでスペースレベルのデフォルトプロジェクトスコープを設定することができます。これは、その特定のスペースに対する安全設定として機能します。つまり、すべてのダッシュボード、Discoverセッション、アラートルールは、自動的にこの設定を尊重します。アナリストは、より広範なビューが必要な場合、調査中にスコープを手動で上書きすることができます。

これは、MSP、MSSP、センター・オブ・エクセレンスなど、中心的なプロジェクトを共有するチームにとって重要です。各チームに独自の Kibana スペースを割り当て、特定の顧客プロジェクトのクエリのみに制限することで、テナント固有のエクスペリエンスを保証できます。アナリストは、より広範なビューが必要な場合、調査中にスコープを手動で上書きすることができます。

このスペースのデフォルトは、Cloud UIでプロジェクトを実際にリンクする前でも後でも設定できます。しかし、CPSはリンクが作成された瞬間に「すべて検索」動作を即座に有効にするため、Kibanaのデフォルト設定を先に行うことで、既存の検出ルールが突然膨大なグローバルデータセットに対して実行され、チームに過負荷がかかることを防ぐことができます。

検索でのタグの使用

プロジェクトのルーティングにタグを使用するだけでなく、ES|QLと_searchのクエリでもタグを使用できます。これは、結果セット内の各レコードまたは行がどこから来たのかを特定したり、これらのタグに基づいて並べ替え、フィルタリング、集計したりするのに役立ちます。

例えば、ES|QLレスポンスの各行がどのプロジェクトから来たのかを確認したい場合は、ES|QLクエリに_project._aliasタグを追加できます。

FROM logs* METADATA _project._alias | ...

これにより、_project._alias を KEEP 句を含むクエリの他の部分で使用して、最終結果に表示させることができます。

FROM logs* METADATA _project._alias | ... | KEEP @timestamp, message, _project._alias

タグをクエリで使用するその他の例については、このドキュメントを参照してください。これには、Search APIとES|QLの両方での使用方法が説明されています。

SearchクエリとES|QLクエリにタグを追加する方法の技術的な詳細については、「プロジェクトタグとルーティングを使用したElasticsearch Serverlessでの高速なプロジェクト横断検索」を参照してください。

プロジェクト横断検索が元のプロジェクトとリンクされたプロジェクトを同等に扱う方法

CCSを使用したことがある方なら、ローカルクラスターはリモートクラスターとはいくつかの点で異なる扱いを受けることをご存知かもしれません。

ローカルクラスターからのエラーは、リモートクラスターからのエラーとは異なる処理方法があります。特に、CCSはskip_unavailable設定を使用してリモートクラスターからのエラーの動作を制御しますが、その設定はローカルクラスターには存在しません。
ローカルクラスターには「クラスターエイリアス」がないため、インデックス式 *:logs* はすべてのリモートプロジェクトを検索しますが、ローカルクラスターはスキップされます。両方を検索するには、インデックス式 logs*,*:logs* を使用します。

CPSでは、元のプロジェクトとリンクされたプロジェクトをより均一な基盤に置くために、これらの動作の両方を変更しました。

まず、skip_unavailable設定はElastic Cloud Serverlessでは使われていません。代わりに、_search または _async_search のallow_partial_search_resultsパラメーターまたは ES|QL のallow_partial_resultsパラメーターを使用して、検索で部分的な結果を表示するかどうかを制御します。

次に、Elastic Cloud Serverlessでは、元のプロジェクトにプロジェクトエイリアスがあります。すべてのプロジェクトタグと同様に、Elastic Cloudで定義されています。したがって、CPSでは、以下のすべてのクエリは同等です。それらは「logs」インデックスを持つすべてのプロジェクトを対象としています。

POST logs/_search

POST *:logs/_search


POST logs/search 
{
  "project_routing": "_alias:*"
}

注：修飾インデックス式*:logsと非修飾式logsでは、インデックスが欠落した場合のエラー処理の仕組みに重要な違いがあります。詳細については、公開ドキュメントの「非修飾検索式と修飾検索式」を参照してください。

プロジェクト横断検索のアクセス制御とセキュリティモデル

Elasticは、クラウドベースの新しいセキュリティモデル、ユニバーサルIDおよびアクセス管理（UIAM）を作成しました。これにより、プロジェクト横断検索の重要な原則である「アクセスできるプロジェクトとデータはアクセス元の場所に依存しない」ことが実現されます。

主要なオブザーバビリティプロジェクトから検索を開始する場合でも、アドホックな分析プロジェクトから検索を開始する場合でも、アクセス権限は一元的に定義されているため、リンクされたデータへのアクセスは一貫しています。クラウドベースの認証と承認モデルは、クラウドUIAMサービスを使用して、元のプロジェクトに関係なく、アクセス許可が統一されることを保証します。

プロジェクト横断検索を試す

最終的に、Elastic Cloud ServerlessとCPSを組み合わせることで、運用上の摩擦を軽減し、物理的または運用上の考慮事項ではなく、論理的な考慮事項に基づいてデータを整理するための追加の選択肢が得られます。プロジェクト横断型検索により、ユーザーはデータの論理的な整理にのみ集中でき、従来のような物理的な複雑さを伴わずに統一された検索エクスペリエンスを実現できます。

Elasticsearchにおける決定論的なガードレールを備えたエージェント型AI検索による安全なクエリ実行

Alexander Marquardt, Honza Král, Taylor Roy — Mon, 18 May 2026 00:00:00 GMT

このシリーズのパート1から7では、eコマース検索のための管理された制御プレーンを説明しました。ユーザーがクエリを入力します。商品カタログへのクエリ実行前に、意図の分類、制約の適用、ポリシーの競合の解決、適切な検索戦略へのルーティングを行う制御プレーンが意図を分類し、ビジネス制約を適用し、ポリシーの競合を解決し、適切な検索戦略にルーティングします。このアーキテクチャー全体は、入力が人間の購入者によって入力された検索文字列であることを前提としています。

この最後の投稿では、入力がAIエージェントから来る場合、何が変わるのかを問いかけます。

その答えは、アーキテクチャーは変わらなくとも、重要性は変わるということです。人間が作成したクエリにとって重要であるガバナンスを備えた制御プレーンのすべてのプロパティは、上流の意思決定者が大規模言語モデル（LLM）である場合、さらに重要になります。入力を生成するシステムが本質的に確率的であるため、決定論、監査可能性、競合の解決、制約の強制は、運用上の利便性ではなく、重要な安全策となります。

エージェント型検索の問題

AIを活用した検索の最も一般的なアプローチは単純明快です。LLMにデータベーススキーマを与え、プロンプトにビジネスルールを指定すれば、エージェントがクエリを直接生成します。

eコマースチャットボットの場合、これはElasticsearchのインデックスマッピング、フィールドタイプ、カテゴリー分類、価格設定ロジック、ビジネス制約をエージェントのコンテキストウィンドウに挿入し、LLMに自然言語を有効なElasticsearchクエリDSLに変換するように要求することを意味します。LLMがクエリ作成者となります。

このアプローチはデモでは有効です。本番環境で失敗する理由は4つあります。

コンテキストの肥大化

エンタープライズeコマースインデックスのマッピングは簡単な文書ではありません。フィールド定義、ネストされたオブジェクト、マルチフィールド設定、アナライザー設定は、ビジネスロジックを追加する前に何千ものトークンに実行される可能性があります。マッピングに加えて、エージェントにはカテゴリータクソノミー（エンタープライズeコマースでは数万の値を含む可能性がある）、価格設定ルール、ブランド階層、適格性制約、キャンペーンロジックが必要です。

その結果、コンテキストウィンドウはユーザーの実際の意図よりも、構造的なメタデータによって支配されることになります。これにより、待ち時間が長くなり、トークンのコストが増加し、コンテキストが大きくなるにつれてLLMの指示に従う能力が低下します。これはよく知られた現象で、文脈の劣化と呼ばれることもあります。つまり、プロンプトが長くなるにつれて、モデルが特定の指示に注意を払う能力が弱まるのです。

確率的なハルシネーション

LLMは、トレーニングデータのパターンと提供されたコンテキストに基づいてクエリを生成します。ElasticsearchクエリDSLを生成するように求められた場合、モデルは存在しないフィールド名を誤って生成したり、構文的に無効なクエリ句を構築したり、フィルタータイプを間違ったフィールドタイプに誤って適用したり、構文的には有効であるものの意味的に間違ったクエリを生成して、ユーザーの意図と一致しない結果を返したりする可能性があります。

Google CloudのテキストからSQLへの変換に関するBIRDベンチマークはこのアプローチの限界を示しています。Googleの最先端の単一モデルによる検索結果は70%から80%の精度を達成しましたが、これは生成されたクエリのほぼ4分の1が間違っていたことを意味します。これはSQL用で、ElasticsearchのクエリDSLよりもはるかに標準化されています。複雑なマッピングとビジネス固有のセマンティクスを含む実際の本番環境でのLLMで生成されたElasticsearchクエリのエラー率は、おそらくもっと高いでしょう。

収益に直結するeコマースシステムにとって、クエリエラー率が4回に1回というのは、反復的に解決できるようなチューニングの問題ではなく、このアプローチにおけるアーキテクチャー上の制約です。

セキュリティギャップ

LLMがデータベーススキーマにアクセスし、クエリ作成者として動作する場合、システムは間接的なプロンプトインジェクションに対して脆弱になります。eコマースチャットボットと対話するユーザーは、エージェントを操作して意図しないクエリを生成するように設計されたインプットを作成できます。

これは理論上のリスクではありません。プロンプトインジェクションは、デプロイされたLLMシステムにおいて最も活発に研究されている攻撃面の1つです。根本的な問題は、エージェントがクエリを作成する際に、ユーザーの意図とクエリ実行の間に構造的な境界がないことです。LLMは、ユーザーの要求を解釈すると同時に、データベース操作を構築します。前者への操作は後者に直接影響します。

高カーディナリティスケーリングの失敗

特定のeコマースフィールドは非常に高カーディナリティです。商品タログには、17,000のカテゴリ値、数千のブランド名、そして数百の属性の組み合わせが含まれている可能性があります。標準的なエージェントワークフローでは、LLMがクエリを構築する際に正しい値を選択できるように、これらの値をコンテキストに注入する必要があります。

これは不可能ともいえるトレードオフを生み出します。具体的には、すべての可能な値を注入する（膨大なコンテキストを消費し、パフォーマンスを低下させる）、サブセットを注入する（そして、エージェントがそのサブセット外の値を参照できないことを受け入れる）、または管理されていない検索にフォールバックすることのいずれかです。これはパート1の核心的な問題に直接つながります。LLMが「オレンジ」を検索し、Elasticsearchがオレンジソーダを返すようであれば、検索エクスペリエンスと同様にチャットエクスペリエンスが低下します。ガバナンスがないため、システムは顧客の意図した解決を強制できません。

クエリに基づいて関連値を動的に取得する方法は既知の代替手段ですが、取得自体が関連値を見落とす可能性があるという、非決定論的なステップが追加されます。さらに、これはすべてのクエリに遅延と複雑さを加えることになります。

アーキテクチャー上の代替案：意図と実行の切り離し

パート1から7で説明されているガバナンスを備えた制御プレーンは、根本的に異なるアプローチを提供します。LLMが最後のクエリを作成する代わりに、LLMの役割は、ユーザーの自然言語インプットから検索する意図文字列を抽出するという1つの明確なタスクに限定されます。

ユーザーは「安い茶色の靴を探しています」と言っています。エージェントの役割はElasticsearchクエリを生成することではなく、検索意図（この場合は「安い茶色の靴」のようなもの）を抽出して制御プレーンに渡すことです。コントロールプレーンは、これまでと同様に、意図文字列を保存済みのポリシーと照合し、カスケード変換によって一致するポリシーを構成、競合を決定論的に解決し、ガバナンスを備えたElasticsearchクエリを生成します。

LLMはインデックスマッピングを一切認識せず、フィールドタイプ、カテゴリ分類、価格設定のしきい値などについては一切認識しません。クエリ句は構築されません。これは、メタデータエアギャップと呼ばれるアーキテクチャ境界の自然言語側で動作し、確率的コンポーネント（LLM）と構造化データレイヤー（スキーマ、ポリシー、クエリ構築）との厳密な分離を意味します。

メタデータのエアギャップが提供するもの

スキーマの盲点。LLMはデータベーススキーマにアクセスできないため、無効なクエリを生成したり、フィールド名を誤認したり、構造情報を公開するように操作されたりすることはありません。このスキーマはエアギャップの決定論的な側面にのみ存在します。
最小限の文脈。何千ものマッピングデータ、ビジネスルール、カテゴリータクソノミーの代わりに、LLMのプロンプトにはペルソナとインテント抽出の指示のみが含まれています。これによりトークンコスト、遅延、コンテキストのロットが劇的に削減されます。
決定論的な実行。Elasticsearchに届くすべてのクエリは、LLMによって確率的に生成されたものではなく、人間が精査したポリシーテンプレートを使用して制御プレーンによって構築されます。構文の妥当性は保証されています。意味論的正しさは、パート1から6までで説明された同じ政策フレームワークによって強制されます。
アーキテクチャーによるセキュリティ。迅速な注入は構造的に効果的でなくなります。ユーザーがエージェントを操作して異常な意図文字列を生成しても、その文字列は保存されたポリシーに照合されます。ポリシーが一致しなければ、クエリは生成されません。エージェントはクエリを作成しないため、ユーザーはエージェントにクエリを作成するように指示することはできません。制御プレーンは指示できるため、決定論的です。

各部分がどのように繋がるか

以下のウォークスルーでは、ガバナンスを備えた制御プレーンがエージェント媒介クエリをどのように処理するかを示します。

ステップ1：ユーザーがエージェントに話しかける

ある購入者がECサイトのチャットボットに「ピーナッツが入っていない安いチョコレートを探しています」と言います。

ステップ2：エージェントが意図を抽出する

LLMの役割は意図の抽出であり、クエリ生成ではありません。最小限のプロンプトで製品の意図を識別するように指示された場合、エージェントは検索意図文字列「ピーナッツなしの安いチョコレート」を生成します。

これは軽量な分類タスクです。LLMは、インデックスマッピング、カテゴリ分類、価格設定ルールなどを必要としません。自然言語を理解する必要がありますが、まさにLLMが得意なことです。

ステップ3：制御プレーンがクエリを制御する

「ピーナッツなしの安いチョコレート」という意図文字列は制御プレーンに渡され、そこでポリシーインデックスと照合されます。3つのポリシーが一致します。

「安い」ポリシー（「安い」というキーワードを抽出し、商品カテゴリーに基づいて価格フィルターを適用します）。
「チョコレート」ポリシー（検索結果をチョコレートのカテゴリーに限定します）。
「なし」否定ポリシー（排除ターゲットを抽出し、must_notフィルターを適用します）。

制御プレーンは、パート3とパート4で説明されているものと同じカスケード変換（優先順位付け、フィールドごとの競合解決、消費されたフレーズの追跡）を通じて、これらのポリシーを適用します。「クリスマスキャンペーン」ポリシーも有効な場合、商品ポリシーと正確に同じように構成されます。これはパート3で説明されている通りで、エージェントの関与はガバナンスモデルを全く変更しません。

ステップ4：管理されたクエリが実行される

制御プレーンは、適切なカテゴリーに制限された「チョコレート」の検索、「安い」ポリシーから導出された価格上限、ピーナッツを含む製品の除外フィルター、適用されるアクティブなキャンペーンブーストなどの面で完全にガバナンスされたElasticsearchクエリを生成します。「チョコレート」ポリシーに経済的最適化の重みも含まれている場合（パート7）、それらも適用されます。マージンブーストは3.0倍に設定されています。これは、「チョコレート」が、小売業者が高利益率の商品を宣伝することで利益を得られる検索クエリであるためです。買い物客に購入履歴がある場合（パート6 ）、パーソナライゼーションシグナルがその上に重ねられます。このクエリは構造上は構文的に妥当であり、ポリシー設計上は意味的に正しいです。

ステップ5：結果はエージェントを通じて返送される

検索結果はエージェントに返され、エージェントはそれをユーザーに会話形式で提示します。返答パスにおけるエージェントの役割は、結果の提示、フォローアップの質問への回答、製品の詳細の提供などです。検索自体は、統制され、決定論的で、説明可能でした。

エージェントが得意なこと（そして得意でないこと）

このアーキテクチャーは、LLMの得意な部分を最大限に活用し、LLMの苦手な部分からシステムを保護します。

LLMは自然言語の意図を理解するのに優れています。「ピーナッツが入っていない安いチョコレートを探しています」は、意図の解析、製品参照の特定、否定の認識などを行う自然言語理解タスクです。LLMはこれを確実に処理できます。なぜなら、これは生成問題ではなく分類問題だからです。出力は短い意図文字列であり、複雑な構造化クエリではありません。

LLMは、複雑な制約の下で正確で構造化された出力を提供することに苦労しています。有効なElasticsearchクエリDSLを生成するには、正確なフィールド名、正しい句のネスト、各フィールドに適したフィルタータイプ、そして数千もの例外的なケースにわたるビジネスルールの一貫した適用が必要です。これらはまさに、決定論的システムが自明に保証する特性であり、確率論的システムが信頼性に欠ける形で保証する特性です。

ガバナンスを備えた制御プレーンは、各コンポーネントを適切な場所、つまり、自然言語側のLLM、クエリ構築側の決定論的ポリシーエンジン、そしてそれらの間のアーキテクチャ境界に配置します。

ガバナンスによる爆発半径の制約

これはパート3と同じ洞察を、エージェントのコンテキストに拡張したものです。パート3では、ガバナンスが検索開始前に候補を絞り込むことでセマンティック検索が安全性が高まることが観察されました。管理対象カテゴリー内の500製品に対するセマンティック検索は、50万SKUに対するセマンティック検索とは根本的に異なる提案です。

同じ原理はエージェントが媒介したクエリにも当てはまります。ガバナンスがなければ、「安いチョコレート」を誤って解釈したエージェントは、価格制約、カテゴリーフィルター、除外条件を一切設けずにカタログ全体を検索するクエリを生成してしまう可能性があります。ガバナンスがあれば、エージェントが不完全な意図文字列を生成した場合でも、制御プレーンはクエリを一致するポリシーに限定します。最悪の場合でも実行されるポリシーの数が減るだけで、無制限のクエリが商品カタログにヒットするわけではありません。

ガバナンスは確率的エラーの爆発範囲を狭めます。これは確率的要素がセマンティック検索モデルであれLLMエージェントであれ、すべて当てはまります。

LLMが提案するポリシー：適用範囲の拡大

第2部では、LLMが人間が作成したポリシーと同じ「作成 → テスト → 昇格」のパイプラインに入る新しいポリシーを提案できるという考え方を紹介しました。主体的な文脈においては、これは強力なフィードバックループとなります。

LLMはクエリログを分析し、制御プレーンに一致するポリシーがないパターン（変更されずに取得されるクエリ）を特定し、それらのギャップを埋めるための新しいポリシーを提案することができます。マーチャンダイザーは、各提案を検討し、テストし、期待される行動を生み出すものであれば、それを昇格します。このガバナンスモデルにより、LLMが提案するポリシーが人間の検証なしに本番環境に移行することは決してありません。

時間が経つにつれて、これは好循環を生み出します。制御プレーンのポリシーの対象範囲が拡大し、変更されていない取得を必要とするクエリの割合が減少し、システムの管理が次第に強化され、すべてのポリシーが監査、バージョン管理され、個別に元に戻せるようになります。

より広範なパターン：確率的システムのための決定論的ガードレール

このシリーズで説明されているアーキテクチャーは、確率的な入力ソースとデータ検索システムの間にある決定論的制御プレーンですが、これはeコマース検索に特化したものではありません。同じパターンは、AIエージェントが構造化データとやり取りする必要があるすべての場所に当てはまります。

SQLデータベースにクエリを実行するエージェントも、スキーマインジェクションによるコンテキストの肥大化、誤った列名、プロンプトインジェクションのリスク、高カーディナリティ値の選択といった同様の課題に直面します。Jiraのようなチケットシステム、Salesforceのような顧客関係管理（CRM）システム、またはGitHubのようなコードリポジトリとやり取りするエージェントも同様の問題に直面しています。いずれの場合も、アーキテクチャー上の根本的な問題は同じです。LLMがクエリを作成すべきか、それともLLMが意図を抽出し、それをクエリを作成する決定論的なレイヤーに渡すべきか、ということです。

制御プレーンは、その問いに対して再現性のある答えを提供します。ポリシーはデータであり、意図の抽出はLLMの仕事です。クエリの構築は制御プレーンの役割です。メタデータのエアギャップによって、それらは分離されたままとなります。また、ガバナンスフレームワーク（優先順位付け、競合の解決、段階的な変換、監査可能性）により、ポリシーの数が増加しても、決定論的レイヤーが運用上管理可能であることが保証されます。

まとめ

本シリーズで説明するeコマース検索ガバナンスパターン（データとしてのポリシー、作成 → テスト → 昇格のワークフロー、カスケード変換、フィールドごとの競合解決、パーコレーターベースの逆マッチング、マルチティアフォールバック）は、マーチャンダイザーがポリシーを作成し、購入者がクエリを入力する世界を想定して設計されています。しかし、このアーキテクチャーは、当初のユースケース以上のことを可能にします。

入力ソースが人間の購入者ではなくAIエージェントである場合、ガバナンスを備えた制御プレーンは、確率論的システムと本番環境のデータ格納レイヤーの間の重要な安全レイヤーとなります。これは、エンタープライズシステムが要求する決定論的な保証（構文の妥当性、意味の正しさ、監査可能性、セキュリティ）を提供するものであり、LLM単独では提供できないものです。

決定論的な制御プレーンはAIエージェントの代わりにはなりません。これにより、AIエージェントを安全に展開できるようになります。

ガバナンスを備えたeコマース検索を実践

このシリーズで説明されているガバナンスを備えた制御プレーンアーキテクチャーは、「データとしてのポリシー」パラダイムからパーコレーターベースのルックアップ、パーソナライゼーション、経済的最適化、そしてエージェンティックエアギャップに至るまで、Elastic Services Engineeringによって設計および構築されました。このシリーズで説明されているすべてのパターンは、企業規模の商品カタログに対して構築され、検証済みの実際のシステムから得られたものです。

チームがAIを利用した検索体験を構築し、エージェントが仲介するクエリに対して決定論的なガードレールが必要な場合、またはElasticsearch上で管理された、ビジネスで編集可能な検索アーキテクチャを実装したい場合は、Elastic Professional Servicesが実装を加速できます。Elastic Professional Servicesにお問い合わせください。

議論に参加

検索ガバナンス、検索戦略、またはeコマース検索アーキテクチャについてご質問がありますか？より広範なElasticコミュニティの議論に参加しましょう。

Elasticsearch on Kubernetesがシンプルに：ゾーン認識、再起動、mTLS

Omer Kushmaro — Fri, 15 May 2026 00:00:00 GMT

ECK 3.4はElastic Stack on Kubernetesの運用をより簡単にします。ゾーン認識型HA、安全なローリング再起動、Kibana↔Elasticsearch mTLSは、それぞれマニフェスト内で1行で記述できます。

今回のリリースは、Elastic Cloud on Kubernetes (ECK) を運用されている方の日々の業務における摩擦を軽減することを目的としています。

操作が簡単で、理解しやすく

ECK 3.4は、Kubernetes上でElastic Stackを実行する際に考慮すべき点を減らすことに焦点を当てたリリースです。見出しの変更はそれぞれ、複数のステップからなるタスクを選択し、それを単一の明確な回答に変換します。

ゾーン認識の簡素化。クラスターを複数の可用性ゾーンに分散させる必要があることをECKに伝えるための設定をNodeSet上の単一のフィールドで行えるようになりました。オペレーターが、トポロジー、スケジューリング、Elasticsearch側の認識設定をユーザーに代わって処理します。マニフェストは、構成方法ではなく、ユーザーが意図する内容を反映します。
クラスターの再起動は他の操作と同じ手順で行います。ローリング再起動のトリガーは、Elasticsearchリソース上のアノテーションとして機能しています。宣言型であり、GitOpsに適合し、監査証跡を残します。無関係なフィールドで強制編集してロールアウトする必要はありません。
mTLSはオペレーターにより自動設定されます。KibanaとElasticsearch間の相互TLSを手作業で配線するには、CA、コンポーネントごとのクライアント証明書、マウント、ローテーション、設定を両端で管理する必要があります。ECK 3.4はそのすべてを処理します。Elasticsearchでフラグを立て、Kibanaに向けると、あとはオペレーターが管理します。

今回のリリースは、ECKの日常的な操作を良い意味で退屈なものにすることを目的としています。覚えておくべき項目が減り、同期を維持するための余計な作業が減り、マニフェストがより分かりやすくなります。

ゾーン認識の簡素化

NodeSetにフィールドを1つ設定することで、Elasticsearchクラスターを可用性ゾーン全体で高可用性にすることができます。ECK 3.4は、トポロジーのスプレッド、ポッドのスケジューリング、Elasticsearch側の認識設定を自動的に処理します。

以前は、下位ノードラベル用のElasticsearchリソースのアノテーション、NodeSet設定の認識属性、ゾーンを表示するためのポッドテンプレートのfieldRef環境変数、クラスターを特定のゾーンに固定する対応するtopologySpreadConstraintsブロックとnodeAffinityルールという4つの別々のオブジェクトにわたって、これらすべてを手動で接続する必要がありました。約40行のYAMLで、設定を間違えやすいです。

ECK 3.4では、同じゾーン対応クラスターは4行で構成されています。

apiVersion: elasticsearch.k8s.elastic.co/v1
kind: Elasticsearch
metadata:
  name: my-cluster
spec:
  version: 9.4.0
  nodeSets:
  - name: default
    count: 3
    zoneAwareness: {}

特定のゾーンセットにピン留めするには、ゾーンに名前を付けると、ECKが対応する必要なノードアフィニティルールを追加します。

spec:
  nodeSets:
  - name: hot
    count: 3
    zoneAwareness:
      zones: ["us-east-1a", "us-east-1b", "us-east-1c"]

maxSkewまたはwhenUnsatisfiableカスタマイズする必要がある場合は、 podTemplateで同じtopologyKeyを持つ一致するトポロジースプレッド制約を提供することが依然として最善です。オーバーライドはオーバーライドのままとなります。

アップグレードに関する注意点：既存のNodeSetでzoneAwareness有効にすると、StatefulSetのポッドテンプレートが変更され（新しいトポロジーのスプレッド制約、 ZONE環境変数、ノードアフィニティ、 node.attr.zone）、影響を受けるNodeSetが一度だけローリング再起動されます。適切に計画を立ててください。

ゾーン管理の簡素化についてさらに詳しく知りたい場合は、Elasticドキュメントのこちらのページをご覧ください。

宣言的ローリング再起動

3.4では、仕様を変更せずにElasticsearchクラスターを再起動することがファーストクラスのワークフローとなりました。Elasticsearchリソースに追加された2つの新しいアノテーションがその役割を果たします。

eck.k8s.elastic.co/restart-triggerローリング再起動を開始するには、この値（タイムスタンプが一般的な選択肢です）を設定または変更します。値を変更すると後で別の再起動がトリガーされますが、アノテーションを削除するとトリガーされません。
eck.k8s.elastic.co/restart-allocation-delay: オプションの期間文字列（例："20m"）は、再起動時の割り当て遅延としてElasticsearchノードシャットダウンAPIに渡され、ポッドがリサイクルされている間はリバランスを保留できます。

apiVersion: elasticsearch.k8s.elastic.co/v1
kind: Elasticsearch
metadata:
  name: my-cluster
  annotations:
    eck.k8s.elastic.co/restart-trigger: "2026-04-30T10:00:00Z"
    eck.k8s.elastic.co/restart-allocation-delay: "20m"
spec:
  version: 9.4.0

ECKの内部では、トリガー値がポッドアノテーションに伝播され、StatefulSetテンプレートハッシュが変更され、既存のローリングアップグレードパス（NodeシャットダウンAPI、述語、一度に1つのポッド削除）を通じてすべてのポッドにフィードされます。新たに覚えるべき再起動メカニズムはなく、ローリングアップグレードで既に利用しているステータスメッセージや監視機能はそのまま引き継がれます。

GitOpsユーザーにとって、これはFlux/ArgoCDパイプラインが1つのアノテーションにパッチを当てるだけで再起動を要求できることを意味します。スペックドリフトなし、差分チャーンなし、無関係なフィールドでの強制編集はありません。

Kibana ↔ ElasticsearchのためのマネージドmTLS

今回のリリースで、KibanaとElasticsearch間の相互TLSオーケストレーション機能が追加されました。Elasticsearch CRDは、クラスターにHTTPsインターフェースでクライアント証明書を要求するように指示する単一の新しいフィールドspec.http.tls.client.authentication: trueを受け入れます。ECKは残りの処理を行います。ラベルeck.k8s.elastic.co/client-certificate: trueが付いた任意のシークレットからトラストバンドルを作成し、それをElasticsearchポッドにマウントし、 xpack.security.http.ssl.client_authentication: requiredを設定し、ロールアウト全体を通してクラスターと通信できるようにオペレーター側のクライアント証明書を発行します。

これにより、スタック（このリリースではElasticsearchとKibanaのみ）のmTLSを有効にして設定する作業がはるかに簡単になります。

ElasticsearchでmTLSを有効にする方法：

apiVersion: elasticsearch.k8s.elastic.co/v1
kind: Elasticsearch
metadata:
  name: secure-cluster
spec:
  version: 9.4.0
  http:
    tls:
      client:
        authentication: true # <---- This is all you need
  nodeSets:
  - name: default
    count: 3

クライアント側では、Kibanaのアソシエーションコントローラーが参照先のElasticsearch上のclient-authentication-requiredアノテーションを検出し、Kibana用のクライアント証明書を自動的に生成します。追加の設定は不要です。独自の証明書（cert-manager、内部PKIなど）を使用する場合は、すでにプロビジョニング済みのシークレットを指定してください。

apiVersion: kibana.k8s.elastic.co/v1
kind: Kibana
metadata:
  name: kibana
spec:
  version: 9.4.0
  count: 1
  elasticsearchRef:
    name: secure-cluster
    clientCertificateSecretName: my-custom-client-cert

ECKは証明書をローテーションし、シークレットをKibanaポッドにマウントし、 elasticsearch.ssl.certificateとelasticsearch.ssl.keyを接続します。mTLSリソースのクリーンアップは、すべてのポッドがロールアウトするまで延期されるため、移行中も接続は維持されます。

Kibanaは、3.4でこのファーストクラスとして扱われる最初のスタックコンポーネントです。APM Server、Beats、Fleet Server、Elastic Agent、Logstash、Maps、Enterprise Searchのサポートが近日中に提供されます。それまでの間、新しいレシピでcert-managerを使用するコンポーネントに対して、手動でmTLSを設定する方法を解説しています。

その他の特筆すべき改善点

このリリースには、他にも特筆すべき改善点があります。以下は、関連するプルリクエストの一覧です。

FIPS対応オペレーターにおけるネイティブGo FIPS 140-3（別イメージ）。FIPS準拠のECKイメージ（docker.elastic.co/eck/eck-operator-fips:3.4.0、およびUBIバリアントeck-operator-ubi-fips:3.4.0）は、認証済みのGOFIPS140=v1.0.0モジュールに固定され、ランタイムで強制されるネイティブのGo FIPS 140-3サポートを搭載してシッピングするようになりました。標準の eck-operator イメージは変更されていません。Elasticsearch 9.4.0以降では、オペレーターは xpack.security.fips_mode.enabled: true 設定時に自動的にFIPS準拠のキーストアパスワードを生成・マウントします(#9263、#9287)。
特筆すべき信頼性改善策：
- 期限切れのCAが証明書チェーンで検出されるようになり、再発行がトリガーされます（#9197）。
- リモートCAのシークレット生成の失敗は非ブロッキングになりました（#9271）。
- NetworkPolicyの名前空間セレクターラベルはソフトマルチテナンシー設定で固定されています（#9153）。
- Elasticsearchコントローラーは、同じ名前のボリュームがすでに存在する場合は、デフォルトのPVCをスキップします（#9199）。
- DaemonSetリコンサイラーは、Deploymentリコンサイラーと同じ方法で古いキャッシュを処理します（#9256）。

はじめに

すでにECKを実行している場合は、Helmを使用して3.4.0にアップグレードしてください。

helm upgrade elastic-operator elastic/eck-operator -n elastic-system

または最新のオペレーターマニフェストを直接適用することもできます。

kubectl apply -f https://download.elastic.co/downloads/eck/3.4.0/crds.yaml
kubectl apply -f https://download.elastic.co/downloads/eck/3.4.0/operator.yaml

ECKを初めて使用する場合は、クイックスタートガイドから始めて、Kubernetes上でElasticsearchクラスターを数分で稼働させましょう。

変更点の全リストについては GitHubのECK 3.4.0リリースノートをご覧ください。

Elastic Cloudの利用を始めるには、Elastic Cloudコンソールにログインするか、無料トライアルに登録してください。

よくあるご質問

トポロジーのスプレッド制約を記述せずにECKでElasticsearchクラスターをゾーン認識型にするにはどうすればよいですか？

Elasticsearchリソースで spec.nodeSets[].zoneAwareness: {} を設定してください。ECKはトポロジーを導出、node.attr.zoneを接続、maxSkew=1トポロジー拡散制約を設定し、下方向ラベルを自動的に挿入します。特定の利用可能なゾーンにピン留めしたい場合は、 zones: [...] を用意してください。既存のNodeSetでこれを有効にすると、一度限りのローリング再起動が実行されます。

仕様を編集せずにKubernetes上のElasticsearchクラスターのローリング再起動をトリガーすることはできますか？

はい。ECK 3.4では、Elasticsearchリソースに2つのアノテーション、 eck.k8s.elastic.co/restart-trigger（値を設定または変更し、例えばタイムスタンプを指定してローリング再起動を開始）と eck.k8s.elastic.co/restart-allocation-delay（Elasticsearch Nodeのシャットダウン API に渡されるオプションの期間文字列）が導入されました。トリガーアノテーションを削除しても、新しい再起動は開始されません。

KibanaとElasticsearch on Kubernetesの間で相互TLSを有効にするにはどうすればよいですか？

ECK 3.4では、Elasticsearch CRDにspec.http.tls.client.authentication: trueを設定し、KibanaからelasticsearchRefを介して参照します。ECKはKibana用のクライアント証明書を自動生成し、eck.k8s.elastic.co/client-certificate: trueとラベル付けされた任意のシークレットからトラストバンドルを構築し、xpack.security.http.ssl.client_authentication: requiredを設定します。Kibana ↔ ElasticsearchのmTLSは3.4のテクニカルプレビューです。

ECK 3.4 mTLSのサポートは、BeatsやFleetなどのすべてのスタックコンポーネントをカバーしていますか？

まだサポートしていません。Kibanaは、3.4でファーストクラスのmTLSサポートを受けた最初のStackコンポーネントです。オペレーターがクライアント証明書を自動生成します。APM Server、Beats、Fleet Server、Elastic Agent、Logstash、Maps、Enterprise Searchのサポートが次のリリースに含まれます。それまでの間、新しいレシピでcert-managerを使用するコンポーネントに対して、手動でmTLSを設定する方法を解説しています。

ECKはFIPS 140-3をサポートしていますか？

はい、別のオペレーターイメージでサポートします。ECK 3.4は、FIPS準拠のビルド（docker.elastic.co/eck/eck-operator-fips:3.4.0、およびUBIバリアント）を公開し、ネイティブのGo FIPS 140-3サポートを提供します。標準の eck-operator イメージは変更されていません。Elasticsearch 9.4.0以降では、 xpack.security.fips_mode.enabled: trueが設定されている場合、ECKはFIPS準拠のキーストアパスワードを自動的に生成してマウントします。

Elasticsearchに火を灯す：Prometheus APIのネイティブサポートを追加

Felix Barnsteiner — Mon, 11 May 2026 00:00:00 GMT

Prometheusと互換性のある任意のクライアントをElasticsearchに向け、既存のメトリックに対してPromQLを直接実行します。Elasticsearchは、Prometheusのリモート書き込み、OpenTelemetry、またはBulk APIを通じて取り込まれたメトリックで動作するネイティブのPrometheusクエリ、検出、およびメタデータのエンドポイントをテクニカルプレビューとして追加しています。APIはElasticsearchの時系列データストリーム（TSDS）上で動作するので、Prometheus固有のストレージレイヤーを個別に運用する必要はありません。

この記事では、クエリ、検出、メタデータのエンドポイントが、以前の取り込みとクエリの作業に基づいてどのように構築され、APIサーフェスを形成するのかを説明します。関連記事では、個々のトピックについてさらに詳しく掘り下げています。

ES|QLのネイティブPromQLサポートでは、PromQLクエリがES|QL実行プランに変換される仕組みについて説明します。
Prometheus MetricsをRemote WriteでElasticsearchに送信する手順では、取り込み設定について説明します。
ElasticsearchにおけるPrometheus Remote Writeインジェストの仕組みでは、リモート書き込みの内部構造を説明しています。

これはまだ開発途中の機能です。以下のセクションでは、現在サポートされている機能と、まだ開発中の部分について記載しています。

APIサーフェス

現在、Prometheus互換APIサーフェスは3つのグループに分かれます。

クエリエンドポイント

クエリエンドポイントを使用すると、Prometheus互換クライアントはPromQL式を評価できます。

GET /_prometheus/api/v1/query_range は時間ウィンドウ内でPromQL式を評価します（マトリクス結果）。
GET /_prometheus/api/v1/query は単一の時点で評価します（ベクトル結果）。現在は、最後のサンプルを返す短範囲クエリとして実装されています。

現在、クエリエンドポイントでサポートされているのはGETのみです。一部のクライアントはデフォルトでPOSTを使用するため、GETを使用するように設定する必要があります。PrometheusのPOST規約ではapplication/x-www-form-urlencoded本文を使用しますが、ElasticsearchのHTTPレイヤーは、リクエストがハンドラーに到達する前にCSRF対策として拒否します。

PromQLの完全なカバレッジ状況については、ES|QLにおけるPromQLに関する関連記事をご覧ください。

メタデータエンドポイント

メタデータエンドポイントは、クライアントがオートコンプリート、変数のドロップダウン、およびメトリックのブラウジングに必要な検出情報を提供します。

シリーズ、ラベル、およびラベル値のエンドポイントはすべて match[] セレクターと時間範囲 (start/end) を受け入れます。match[]パラメーターはhttp_requests_total{job="api"}のようなPrometheusシリーズセレクターを取り、一致する時系列に対応を制限します。これにより、多数のメトリクスを持つクラスター上で対応を迅速かつ関連性の高いものに保ちます。例：

GET /_prometheus/api/v1/series?match[]=http_requests_total{job="api"}

GET /_prometheus/api/v1/labels?match[]=http_requests_total

GET /_prometheus/api/v1/label/instance/values?match[]=http_requests_total{job="api"}

最初の関数は、 http_requests_totalかつjob="api"であるすべての系列を、完全なラベルセットとともに返します。2番目は、 http_requests_totalシリーズに存在するラベル名のみを返します。3番目の結果は、マッチングするシリーズに現れる instance 値のみを返します。

GET /_prometheus/api/v1/metadata は異なります。各メトリックのタイプと単位を返し、オプションでmetricパラメーターを使用して名前でフィルタリングできます。

GET /_prometheus/api/v1/metadata?metric=http_requests_total

match[]セレクターや時間範囲は受け付けません。Prometheusでは、メタデータはアクティブなスクレイピングターゲット（それらが公開するHELP、 TYPE、 UNIT行）から収集されるため、応答にはデータスキャンは含まれません。Elasticsearchにはそのような専用のメタデータストアがないため、現在の実装では過去24時間の時系列データを参照することでメトリックメタデータを検出しています。これにより、インデックス全体のスキャンを必要とせずにクエリの高速性を維持できます。その24時間遡及は現在本日に固定されています。PrometheusメタデータAPIは、Elasticsearchがユーザー調整可能にするために使用できるstartまたはendパラメーターを公開していません。

メタデータエンドポイントがどのように機能するかについては、TS_INFO と METRICS_INFO コマンドを含め、以下で説明します。

インデックスの事前フィルタリング

すべてのクエリとメタデータエンドポイントは、/_prometheus/ の後にオプションの {index} パスセグメントを受け入れます。

GET /_prometheus/metrics-prod-*/api/v1/query_range?query=up&start=...&end=...

これは、式の評価を開始する前に、どのElasticsearchインデックスに対してクエリを実行するかを制限します。複数のチームや環境にわたる多くのデータストリームを持つクラスターでは、無関係なインデックスのスキャンを避けることで、クエリのレイテンシを大幅に削減できます。チームごとに独自のメトリクスへのスコープ付きアクセスを提供するために、インデックスパターンごとに個別のデータソースを設定できます。

リモート書き込みに関する注意事項

インジェストのために、Elasticsearchは標準のPrometheus Remote Writeエンドポイントを公開しています。

POST /_prometheus/api/v1/write Prometheus Remote Write v1プロトコルを介して時系列データを取り込みます。v2はまだサポートされていません。

Remote Writeは、Prometheus専用のストレージレイヤーではなく、Elasticsearchの既存の時系列データストリーム（TSDS）に書き込みます。PrometheusのラベルはTSDSディメンションになり、メトリック名はインデックスマッピングのフィールドになります。リモート書き込みアーキテクチャの記事では、メトリックタイプがどのように推論され、ラベルがlabels.プレフィックスでどのように格納されるかを含む、マッピングの詳細を網羅しています。

プログラム概要

内部的には、すべてのエンドポイントは同じように動作します。受信したHTTPパラメーターを解析し、ES|QLクエリプランを作成し、時系列データストリームに対してそれを実行し、列形式の結果をPrometheusクライアントが期待するJSON形式に変換します。

TS_INFOとMETRICS_INFO

メタデータエンドポイントは、すべてのデータポイントをスキャンすることなく、数百万もの時系列データに対して、「どのようなラベルが存在するか？」や「どのようなメトリックタイプが定義されているか？」といった質問に答える必要があります。

内部的には、Prometheusのメタデータエンドポイントは、2つの新しい処理コマンドMETRICS_INFOとTS_INFOを中心にES|QLプランを構築することで、これらの質問に答えます。Prometheus APIを使用するためにこれらのコマンドを直接使用する必要はありませんが、これらはメタデータ応答の背後にあるコアとなる実行プリミティブです。どちらも、すべてのサンプルをスキャンするのではなく、時系列ごとに1つの文書にのみアクセスしてメタデータを抽出します。これは、コストがデータポイントの数ではなく、個別の時系列の数に応じてスケールすることを意味します。

METRICS_INFO 1行ごとに、その名前、タイプ、単位、および関連するディメンションフィールドを持つ固有のメトリックを返します。TS_INFOはより詳細な情報を提供します。メトリック、時系列の組み合わせごとに1行が含まれ、実際のディメンション値がJSONオブジェクトとして含まれます。

TS metrics-*
| METRICS_INFO
| SORT metric_name

TS_INFOとMETRICS_INFOに関する専用のブログ記事がまもなく公開されます。二段階実行モデル、それらのスケール方法、そしてPrometheus APIを超えてES|QLクエリで直接使用する方法について詳しく解説します。

メタデータエンドポイントがこれらを使用する方法

各メタデータエンドポイントは、これらのコマンドのいずれかをコアとしてES|QLプランを構築します。

/api/v1/labels また、/api/v1/seriesはTS_INFOを使用します。これは、時系列ごとの詳細情報（どのラベルが存在するか、どのディメンション値が各系列を識別するか）が必要なためです。/api/v1/metadataと/api/v1/label/__name__/valuesは、メトリクス名、型、単位などの各メトリクス情報のみを必要とするため、METRICS_INFOを使用します。

/api/v1/label/{name}/values 通常のラベル（__name__以外）の場合は、どちらのコマンドも使用しません。通常のラベル job や instance は、インデックス内の実際のディメンションフィールドなので、エンドポイントはグループ分けアグリゲーションで直接クエリできます。match[] 個のセレクターが提供されると、それらは時系列をフィルタリングする WHERE 句に変換され、アグリゲーションが実行される前に適用されます。

__name__ラベルは、ディメンションフィールドとして常に存在するとは限らないため、別の戦略が必要です。Prometheus Remote Writeはlabels.__name__ を保存しますが、他の経路（OpenTelemetry、Bulk API）で取り込まれたメトリクスには保存されません。メトリック名はフィールド名自体にエンコードされています（例： metrics.http_requests_total ）。インデックスマッピングを見てフィールド名を列挙することはできますが、マッピングだけではどのメトリックがどのディメンションを持っているかはわかりませんし、 match[]セレクターからのラベル値でフィルタリングすることもできません。METRICS_INFOは両方を行うことができます。インデックス全体でメトリック名を列挙しながら、上流のWHEREフィルターを尊重します。

すべての場合において、APIレイヤーはPrometheusの規則に戻す変換を処理します。labels.とmetrics.のストレージプレフィックスを除去し、__name__をPrometheus以外のメトリクスに対して合成します。

まとめ

その結果、Prometheusと互換性のあるクライアントであれば、すでに理解しているエンドポイントを利用してElasticsearchをクエリし、調査することができます。リモート書き込みメトリック、OpenTelemetryメトリック、およびその他の経路でインデックスされたメトリックはすべて、同じTSDSインデックスによって支えられた同じAPIを通じて表示されます。

ここで紹介したすべてのPrometheus APIは、現在Elasticsearch Serverlessのテクニカルプレビューとして利用可能です。セルフマネージドクラスターおよびElastic Cloud Hostedの導入は、GET /_prometheus/api/v1/metadataを除いて、Elasticsearch 9.4でテクニカルプレビューとして利用可能です。ローカルで実験するにはstart-localを使用します。

eコマース検索のパーソナライズ：購入履歴とユーザーコホートの統合

Alexander Marquardt, Honza Král, Taylor Roy — Mon, 11 May 2026 00:00:00 GMT

本シリーズのパート1から5では、商品カタログへのクエリ実行前に、意図の分類、制約の適用、ポリシーの競合の解決、適切な検索戦略へのルーティングを行う、ガバナンスを備えた制御プレーンについて説明します。これまでに説明したすべてのメカニズムは、すべての購入者を同じように扱います。「chocolate」の検索では、購入者がビーガンであろうと、子供の誕生日用に購入している親であろうと、ハラールを遵守する消費者であろうと、同じ制御された結果セットが生成されます。

この記事では、アーキテクチャを変更することなく、ガバナンスを備えた制御プレーンを拡張する2つのパーソナライゼーションメカニズムを紹介します。両方のメカニズムは、パート1から5までのガバナンスレイヤーと乗算的に積み重なります。ポリシーは引き続き起動し、制約は引き続き適用され、競合は引き続き解決され、パーソナライゼーションシグナルは同じガバナンスされたクエリに統合されます。これにより、Elasticsearchが返す結果はすでにパーソナライズされていることが保証されます。

最初の仕組みは、個々の購入者が以前に購入した商品を優先的に販売促進するものです。2つ目は、購入者のプロフィールに基づいてコホート固有のポリシーを有効化します。これらは、パーソナライゼーションが検索の横にボルトで固定された別個のシステムでも、検索後の処理として適用されるものでもないことを示しています。それは、ポリシー駆動の制御プレーンの自然な延長です。

パーソナライゼーション技術に関する数学的な詳細については、ElasticsearchでMLの事後処理を行わずに検索をパーソナライズするとElasticsearchにおけるコホート対応ランキングをご覧ください。

購入履歴を使用してリピーターの検索結果を向上させる方法を実際にご覧になりたい場合は、ビデオ説明可能なパーソナライゼーション：購入履歴による検索結果の向上をご覧ください。

個人の購入履歴を活用したブースト

最もシンプルなパーソナライゼーションは、同時に最も効果的な方法の一つでもあります。それは、顧客が以前に商品を購入したことがある場合、その顧客が関連商品を検索した際にその商品を優先的に表示するというものです。特定のブランドのチョコレートチップクッキーを定期的に購入する購入者が「クッキー」と検索した際、そのクッキーが上位に表示されるべきです。これは、モデルが好みを予測したからではなく、直接的な行動証拠が存在するからです。

プログラム概要

ユーザー識別子を含む検索リクエスト（オープンセッションを持つユーザーの場合など）では、制御プレーンはスレッドプールを使用して2つのElasticsearchクエリを並行して実行します。

ポリシーインデックスに対するパーコレータークエリ（パート3およびパート4で説明したガバナンスルックアップと同じもの）。
user_purchasesインデックスに対する購入履歴クエリは、term(user_id)によって特定のユーザーにフィルタリングされ、そのユーザーの商品タイトルに現在の検索文字列をクエリします。

これらは並行して実行されるため（どちらも他方を待つことはない）、パーソナライゼーションの検索によってガバナンスパイプラインに意味のある遅延が発生することはありません。

購入履歴のクエリは、現在の検索文字列を保存されている商品タイトルと照合する際に、Elasticsearchのテキスト分析（ステミング、トークン化）を使用します。これはつまり、「クッキー」という検索語は、厳密な文字列一致を必要とせず、標準的なテキスト分析によって過去に購入した「ブラウニークッキー」と一致するということです。

ブーストの重み付けの計算

すべての過去の購入が同じように評価されるわけではありません。この重み付けは、購入者がその商品を購入した頻度と、最近購入した頻度という2つの直感的な要素を考慮したものです。先週15回購入された商品は、半年前に1回購入された商品よりもはるかに強いシグナルです。重み付けは、頻度に対して対数スケーリング（単一の頻繁に購入される商品が他のすべてを圧倒しないように）と、最近性に対して指数減衰（古い購入が時間とともに自然に薄れていくように）を使用します。

ブースト式の数学的な詳細については、ElasticsearchでMLの事後処理を行わずに検索をパーソナライズするをご覧ください。

これがクエリとなる方法

購入履歴のブーストは、クエリの最外レイヤーのスコアリングレイヤーとして構成され、パート3およびパート4のガバナンスポリシーフィルターとブースト、さらにビジネスシグナルのブースト（マージンや人気など）（パート7で詳しく説明します）を含みます。これは、ガバナンスポリシーによって削除された商品が、購入履歴のブースト効果によって再び表示されることはないことを意味します。ガバナンスは結果セットを制御し、パーソナライゼーションはその中の順序を調整します。購入履歴のない商品はペナルティを受けません。それらの商品のランキングは維持されますが、他の条件がすべて同じであれば、関連する購入履歴を持つ商品がそれらよりも上位にランク付けされます。

検索のたびにElasticsearchにクエリを実行する必要があるのはなぜですか？

購入履歴は、アプリケーションレイヤーにキャッシュされるのではなく、検索のたびにElasticsearchからクエリされます。これは意図的な設計上の選択です。クエリがElasticsearchのテキスト分析パイプラインを使用して商品タイトルと照合されるため、システムは商品検索自体を強化するステミング、トークン化、言語処理の恩恵を受けます。キャッシュされたメモリ内ルックアップは、その分析を再実装するか、より粗雑なマッチングを受け入れる必要があります。

この注文がなぜ重要なのかを理解するには、以前にオレンジジュースを購入した購入者が、今は「オレンジ」を検索しているとします。購入履歴クエリは、テキスト分析によって「オレンジジュース」という検索語と「オレンジ」を照合し、その商品のブーストを計算します。しかし、ガバナンスレイヤーはすでに「オレンジ」を農産物カテゴリーに限定しており、オレンジジュースは完全に除外しています。オレンジジュースの購入履歴ブーストはクエリに存在しますが、作用する対象となるガバナンスされた結果セットに一致するドキュメントがないため、効果がありません。購入者には、関連性とパーソナライズに基づいてランク付けされた果物のオレンジを目にします。ガバナンスのガードレールが維持されています。

パフォーマンスコストは最小限です。購入履歴インデックスは小さく（ユーザーの購入履歴は通常数十から数百のドキュメントであり、何百万というものではありません）、クエリはパーコレータールックアップと並行して実行されるため、クリティカルパスを延長しません。

ユーザー履歴なしの「spring water」のクエリ例

ログインしていないユーザーや「spring water」を購入したことがないユーザーが検索すると、次のような結果が表示されることがあります。

ユーザーの購入履歴の例

一方、Carolというユーザーのショッピング履歴には、以下の商品が含まれています。

上記の購入履歴で「spring water」を検索する例

Carolが「spring water」を検索すると、過去に購入した内容を反映したパーソナライズされた結果が表示されます。上記の購入履歴を見ると、彼女は「Carbonated Spring Water」（緑色のボトル）を約40回購入しており、最近では2日前に購入しています。彼女が「spring water」を検索した場合、彼女がそれを好んでいることがわかっているので、その商品が上位に表示されるようになります。パーソナライズされていない検索結果では、Rubiconのミネラルウォーターが最初に表示されたことに注目してください。

コホート認識ポリシーの有効化

個別の購入履歴は、確立された行動を持つリピーターにとって有効です。しかし、多くの購入者は新規顧客であったり、匿名であったり、普段とは異なるパターンで商品を探していたりします。こうした購入者にとって、コホートメンバーシップは、購入者の過去の行動ではなく、購入者自身がどのような人物であるかに基づいた、従来とは異なる種類のパーソナライゼーションを提供します。

「チョコレート」を検索するビーガンの購入者には、ビーガンチョコレートが上位に表示されるべきです。「スナック」を探すハラール遵守の購入者には、ハラール認証の選択肢が目立つように表示されるべきです。健康志向の購入者が「ヨーグルト」を探す際には、プロバイオティクスの選択肢が優先的に表示されるべきです。

商品タグではなくポリシーとしてのコホート

商品にはすでに通常の属性があり、dietary_restrictions: ["vegan"]やdietary_restrictions: ["halal"]などのフィールドが含まれます。問題は、購買者のコホートを商品の属性に関連付けるロジックがどこに存在するかという点です。

単純な方法は、アプリケーションレイヤーまたは検索テンプレートでそのマッピングをハードコードすることです。ユーザーがビーガンの場合は、dietary_restrictions: "vegan"にブーストを追加します。しかし、これはパート1で説明されたアプリケーションレイヤーのスパゲッティと同じであり、同じ運用上の摩擦を生み出します。新しいコホートの追加やコホートの意味の変更にはコードの変更が必要です。

ガバナンスを備えた制御プレーンは、代わりにコホートロジックをポリシーエンジンに保持します。コホートポリシーは、購入者のコホートメンバーシップ（例：「ビーガン」）と商品属性（例：dietary_restrictions: “vegan”）の2つを橋渡しします。このポリシーでは、次のような関連性を定義します。ビーガンの購入者が検索したとき、 dietary_restrictionsに「ビーガン」が含まれる商品をブーストします。

コホートロジックはアプリケーションコードではなくポリシーエンジンに存在するため、次のようになります。

新しいコホートは新しいポリシーを作成することで追加できます。プロダクトの再インデックスは不要です。
コホートポリシーは、ルールエンジンを完全に活用します。フィルターの追加、ソフトブーストの適用、同義語の拡張、検索戦略の変更など、ポリシーが実行できるあらゆるアクションを実行できます。
コホートの動作は、他のすべてのポリシーと同じ管理UIを通じて管理されます。マーチャンダイザーはパート2で説明されている「作成 → テスト → 昇格」ワークフローを通じて、コホートポリシーを作成、テスト、昇格できます。

ビーガンコホートポリシーの例

マーチャンダイザーは、以下の特徴を持つコホートポリシーを作成します。

コホート：["vegan"]。
一致条件：任意のクエリ（または特定の商品カテゴリー）に一致します。

アクション：dietary_restrictions: "vegan"に対してブーストウェイト2でソフトブーストを行います。

コホートのアクティベーションの仕組み

各ポリシードキュメントには cohorts フィールドがあります。ユニバーサルポリシーは、コホートに関係なくすべての購入者に適用されます。このフィールドを空白のままにすることができます。制御プレーンによって内部的に"_all"の値が割り当てられます。コホート固有のポリシーは、["vegan", "kosher", “sweet_tooth”]などのターゲットコホート名を保存します。

検索リクエストにユーザープロファイルが含まれる場合、制御プレーンはパーコレータークエリに対して単純なtermsフィルタを構築します。

{ "terms": { "cohorts": ["_all", "vegan", "health_conscious"] } }

この単一のフィルターには、すべてのユニバーサルポリシーに加え、ユーザーのコホート固有のポリシーも含まれます。_all センチネルにより、これはクリーンな包含フィルターになります：ポリシーにコホートの制限がない場合を処理するために must_not または exists のクエリは必要ありません。

その後、パーコレーターは通常どおりポリシーの一致を評価します。唯一の違いは、候補となるポリシーが、この購入者のグループに関連するものに絞り込まれている点です。下流のすべての処理（カスケード変換、フィールドごとの競合解決、消費フレーズの追跡）は、パート3およびパート4で説明した非パーソナライズフローとまったく同じように動作します。

「chocolate」を検索した非ヴィーガン（標準）ユーザーの検索結果

非ビーガンのユーザーがチョコレートを検索しても、ビーガンコホートのブーストは結果に適用されません。検索結果の上位には、以下のような非ビーガンチョコレートがよく表示されていました。

「chocolate」で検索したヴィーガンコホートポリシーの結果

ヴィーガンコホートの購入者が「チョコレート」を検索すると、このポリシーはパーコレーター候補セットに含まれます。一致しており、制御プレーンはヴィーガン認証チョコレートに穏やかなブーストを適用します。このブースト効果は乗算的です。ヴィーガンチョコレートは上位にランクインしますが、上記のフィルターはソフトブーストとして定義されているため、非ヴィーガンチョコレートが完全に除外されるわけではありません。ソフトブーストについては、このシリーズのパート3で詳しく説明しました。

しかし、購入者が明示的に「ハーシーミルクチョコレート」を検索する場合、ヴィーガンブーストは依然として適用されますが、「ハーシーミルクチョコレート」商品のより強いテキスト関連性によって影響を受ける可能性があります。

ビーガンコホートの外にいる購入者が同じクエリを検索しても、「ビーガンコホート」ポリシーは表示されません。それは候補セットに含まれていないためです。ガバナンスレイヤーは同一であり、異なるのは有効なポリシーセットのみです。

購入履歴のあるコホート

豊富な購入履歴を持つヴィーガンの購入者は、ビーガンコホート特有のポリシーの有効化や購入履歴の向上といった恩恵を受けられます。新規の購入者や匿名の購入者の場合、行動データを必要とせずに、暗黙のコホートメンバーシップだけで意味のあるパーソナライゼーションを提供します（例えば、匿名のユーザーはビーガン商品しか検索することがないので、ビーガンコホートのメンバーとして分類します）。アカウント作成時にハラール遵守として自己申告した購入者については、最初の検索ですぐにハラールに合わせた結果が表示されます。

パーソナライズレイヤーの構成方法

function_score層の入れ子順序が重要です。最も内側から最も外側へ：

ベースクエリ：キーワードまたは名前付きクエリ（fulltext_match、title_phrase_match）とのセマンティック一致。
ガバナンスポリシーレイヤー：ハードフィルターはbool.filter節、ソフトブーストはfunction_score関数として定義されます（パート3と4）。
ビジネスシグナルの強化：マージンと人気度の向上（パート7で詳しく説明します）。
購入履歴のブースト：一番外側の function_score レイヤー。

この順序付けにより、ガバナンスが結果セット（表示されるもの）を管理し、ビジネスシグナルがそのセット内でランキングを調整し（小売業者の視点で最初に表示されるもの）、購買履歴が個人の行動に基づいてさらにランキングを調整します（購入者の視点で最初に表示されるもの）。各レイヤーは前のレイヤーを乗法的に重ね合わせるため、効果は衝突するのではなく、相乗的に増幅されます。レイヤー

これが運用上で意味すること

パーソナライゼーションを通じたガバナンスを備えた制御プレーンは、パート1とパート2で説明されているすべての運用プロパティを保持します。

デプロイの変更なし。コホートポリシーは管理者UIを通じて作成、テスト、推進されます。新しい食事コホートの追加やブーストの重みの調整には、コードの変更やエンジニアリングの関与は不要です。
監査可能性。すべてのコホートポリシーは、離散的でバージョン管理されたドキュメントです。マーチャンダイザーが「なぜこのユーザーに対してビーガン商品がより高いランキングを示しているのか？」と尋ねた場合、その答えは特定のポリシーとその特定の優先順位にあり、それはデバッグパネルで、そのクエリに対して起動した他のすべてのポリシーと共に表示されます。
競合解決。コホートポリシーは、第3部で説明したフィールドごとの競合解決と同じ処理に参加します。コホートポリシーのカテゴリブーストがキャンペーンポリシーのカテゴリーオーバーライドと競合する場合、競合は同じ優先順位と戦略のフレームワークによって決定論的に解決され、特別な処理は必要ありません。
測定可能性。コホートポリシーは個別に設定可能で、それぞれ独立しているため、システム内の他のポリシーと同様に、コンバージョン率、クリック率、カート追加率への影響を個別に測定できます。

このシリーズの次回作

次の投稿では、ガバナンスを備えた制御プレーンの別の側面を探ります。クエリごとにマージンと人気ブーストをポリシーを通じて調整し、経済的最適化を静的な設定ではなくガバナンス決定へと変える方法です。

パート7：クエリ制御型経済最適化：クエリごとのマージンと人気度向上を見る

ガバナンスを備えたeコマース検索を実践

この投稿で説明されているパーソナライゼーションパターン（個別の購入履歴ブーストとコホート対応ポリシーのアクティベーション）は、Elastic Services Engineeringによって、当社の繰り返し利用可能なeコマース検索アクセラレーターの一部として設計および構築されました。これらのメカニズムはどちらも、本シリーズ全体を通して説明してきたガバナンスを備えた制御プレーンアーキテクチャと統合されています。Elastic Professional Servicesにお問い合わせください。

議論に参加

1つのインデックスですべてのメディアに対応：jina-embeddings-v5-omniの紹介

Scott Martens — Mon, 11 May 2026 00:00:00 GMT

jina-embeddings-v5-omni テキスト、画像、動画、音声を1つのElasticsearchインデックスにまとめます。クラス最高のjina-embeddings-v5-textモデルを拡張し、v5-omniスイートは革新的なアーキテクチャを通じてビジュアルおよびオーディオのエンコードを追加します。テキスト基盤はそのままで、非常にコンパクトな埋め込みモデルで最先端クラスのパフォーマンスを提供します。

テキスト、画像、動画、音声記録のための高性能なセマンティック埋め込みを作成し、100近い言語にまたがる分類、クラスタリング、意味的類似性の測定、検索のためのインデキシングに利用できます。データがテキストだけでなく、PDF、録音、動画といった形式でも存在する場合、それぞれに個別のパイプラインを用意する必要はなくなります。

jina-embeddings-v5-omniファミリーは画像、音声、印刷物、動画をサポートする、現在市場で最もコンパクトな埋め込みモデルです。以下を提供します。

jina-embeddings-v5-textのフロンティアクラスのテキスト埋め込みを検索、分析、AIエージェント用途で使用。
クラス最高の埋め込みを視覚的な意味的類似性、視覚的理解、画像検索用途で使用。jina-embeddings-v5-omni-small は、10億（10⁹）個のパラメーターを持つモデルの中で画像ベンチマークにおいて最高のパフォーマンスを発揮し、当社の以前のjina-clip-v2よりも優れています。このモデルに匹敵する性能を発揮できるのはパラメーター数が3倍から30倍もあるごく少数のモデルのみです。
多言語の視覚的理解および検索のための最先端の埋め込み技術で、最大20倍もの規模を持つモデルを凌駕します。
同サイズクラスで最高のオーディオ埋め込みであり、標準ベンチマークでより優れた性能を発揮するのは、パラメーター数が2倍以上のモデルのみです。
動画のサポート、特に映像内の物体やイベントを特定する機能。

これは、情報検索、文書処理、データ分析といったあらゆる分野に応用可能です。jina-embeddings-v5-omni は、異なるメディアサイロに閉じ込められた情報を開放し、AIエージェントによる検索、分析、使用を可能にします。音声・動画記録、PDF、印刷ページのスキャン画像、インフォグラフィックなどの情報は、データエコシステムにおいてデジタル化されたテキストと同等の扱いを受けます。

jina-embeddings-v5-textと同様に、これらのモデルにはsmallとnanoの2つのサイズがあります。どちらのモデルも、音声インプットと視覚インプットをサポートする追加モジュールによって、対応するテキスト版を拡張しています。ユーザーは読み込み時にモジュールを選択できます。さらに、意味的類似性、分類、クラスタリング、情報検索向けのタスク固有の拡張は、コンパクトな低ランク適応（LoRA）アダプターとして実装され、すべて読み込まれるため、ユーザーは推論時に選択できます。

どちらのモデルも非常にコンパクトです。jina-embeddings-v5-omni-small従来のGPU搭載サーバーで動作可能であり、 jina-embeddings-v5-omni-nanoは汎用ハードウェアで動作できるほど小型です。これは、計算コストの大幅な節約の可能性を示し、ライセンスされたローカルインストールとエッジ処理を可能にし、レイテンシを削減し、データの制御を強化します。

v5-omniスイートは、革新的なモデル設計と機械学習技術を用いて、以前に学習済みのモデルを再学習させることなく、新しい埋め込みモデルを構成します。既存のjina-embeddings-v5-textモデルスイートのインプット前処理器として、音声および動画メディア用の事前トレーニング済みの、言語に合わせた埋め込みモデルからエンコーダを使用しています。結果として得られるモデルは、画像や音声録音に対して、テキストに対して生成する埋め込み表現と意味的に互換性のある埋め込み表現を生成します。

v5-omniモデルは、jina-embeddings-v5-text と同一のテキスト埋め込みを生成します（つまり、jina-embeddings-v5-omni-small に jina-embeddings-v5-text-small、jina-embeddings-v5-omni-nano に jina-embeddings-v5-text-nano）。これにより、インデックスを再構築することなく、既存のテキスト検索リポジトリをマルチメディアアプリケーションに拡張できます。

内蔵エンコーダーはすべてオープンウェイトソースから派生したものです。画像と動画にはQwen3.5モデルのエンコーダーを使用しました。

jina-embeddings-v5-omni-nanoの場合、Qwen3.5-0.8Bの微調整されたSigLIP2 Baseエンコーダーを使用します。
jina-embeddings-v5-omni-smallには、Qwen3.5-2Bの微調整されたSigLIP2 So400mエンコーダーを使用します。
音声サポートのため、Qwen2.5-Omni-7Bから抽出したWhisper-large-v3のエンコーダーを、smallバージョンとnanoバージョンの両方に追加しました。

これらのメディア固有のエンコーダーを、訓練済みのクロスモーダルプロジェクターを備えたテキスト処理基盤に接続しました。これらのプロジェクターは、ネイティブ出力をjina-embeddings-v5-textと互換性のある入力埋め込みに変換します。jina-embeddings-v5-omniモデルで新たに学習された部分は、それらのプロジェクターの重みだけです。

このアーキテクチャーは、4つのLoRAアダプターのそれぞれに対して、jina-embeddings-v5-omni-small用に約550万、jina-embeddings-v5-omni-nano用に350万未満のクロスモデルプロジェクターのみをトレーニングする必要があることを意味します。このアプローチでは、異なる埋め込みモデルを接続するために必要な追加トレーニングを最小限に抑え、それぞれの専門的なトレーニングを活用することで、非常にコンパクトで高性能なモジュール式の埋め込みスイートを実現します。

選択されたモデルプロパティ

入力/出力

モデル名	入力コンテキストウィンドウのサイズ	埋め込みサイズ
jina-embeddings-v5-omni-small	32,768トークン	1024ディメンション（最小：32）
jina-embeddings-v5-omni-nano	8,192 トークン*	768次元（最小：32）

* 非テキストメディアのトークン化方法については、以下のjina-embeddings-v5-omniの使用をご覧ください。

サイズ

モデル名	合計サイズ
jina-embeddings-v5-omni-small（テキストのみの基本モデル＋4つのLoRAアダプター）	700M パラメータ
画像/動画サポート（Qwen3.5-2Bから抽出したSigLIP2 So400Mエンコーダー）	10.06億パラメーター
音声サポート（Qwen2.5-Omni-7Bから抽出したWhisper-large-v3エンコーダー）	13.54億パラメーター
両方	16.60億パラメーター
LoRAアダプター（各）	20M
jina-embeddings-v5-omni-nano（テキストのみの基本モデル＋4つのLoRAアダプター）	266M パラメータ
画像/動画サポート（Qwen3.5-0.8Bから抽出したSigLIP2ベースエンコーダー）	354M パラメータ
音声サポート（Qwen2.5-Omni-7Bから抽出したWhisper-large-v3エンコーダー）	916M パラメータ
両方	1.004B パラメータ
LoRAアダプター（各）	7M

* 非テキストメディアのトークン化方法については、以下のjina-embeddings-v5-omniの使用をご覧ください。

タスク特化型トレーニング

jina-embeddings-v5-omniファミリーはjina-embeddings-v5-textと同じタスク固有のLoRAアダプタをサポートしています。

タスク	使用例
検索	情報検索は単独または他の検索および候補評価技術と組み合わせて行われます。v5-omniモデルでは、1つのインデックスから1回のクエリで音声、動画、画像を取得できます。
クラスタリング	あらゆるメディアにおけるトピックの発見と自動的なトピック整理。
分類	分類、感情分析、関連する各種タスク。
意味的類似性	メディア全体でのデータ重複除去、レコメンデーションシステム、関連メディア、音声に一致するテキストの検索、翻訳の識別、その他の類似タスク。

出力の埋め込みは選択されたタスクカテゴリに依存します。例えば、検索指向の埋め込みをクラスタリングに、または意味的類似性の埋め込みを分類に使用すべきではありません。

マルチメディア、マルチモーダル、多言語、多機能

jina-embeddings-v5-omni で何ができるかを示すために、2つの小説の有名な冒頭部分を取り上げて、それらの意味的類似性を測定してみましょう。

二都物語（チャールズ・ディケンズ）

It was the best of times, it was the worst of times, it was the
age of wisdom, it was the age of foolishness, 
it was the epoch of belief, it was the epoch of incredulity,
it was the season of Light, it was the season of Darkness,
it was the spring of hope, it was the winter of despair,
we had everything before us, we had nothing before us,
we were all going direct to Heaven, we were all going
direct the other way—in short, the period was so far like
the present period, that some of its noisiest authorities
insisted on its being received, for good or for evil, in 
the superlative degree of comparison only.

高慢と偏見 (ジェーン・オースティン)

It is a truth universally acknowledged, that a 
single man in possession of a good fortune must
be in want of a wife. However little known the
feelings or views of such a man may be on his first
entering a neighbourhood, this truth is so well
fixed in the minds of the surrounding families,
that he is considered as the rightful property of
some one or other of their daughters.

意味的類似性アダプターを備えたjina-embeddings-v5-omni-smallを使用すると、これらのテキストの類似度は0.5329です。

この数値は比較対象がなければあまり意味がないので、同じモデルとアダプターを使用して、これら2つのテキストをフランス語訳と比較してみましょう。

言語間のテキストの意味的類似度スコア

	『二都物語』（英語）	高慢と偏見（英語版）
二都物語（フランス語版）（Paris et Londres en 1783, tr. H. Loreau）	0.9095	0.5074
高慢と偏見（フランス語版）（Orgueil et Préjugés,tr. Leconte et Pressoir）	0.4826	0.8784

この2つのテキストは、同じ言語や別の言語の他のテキストよりも、翻訳との類似性がはるかに高いことを示しています。これは、jina-embeddings-v5-omni-smallに変更されずに含まれたjina-embeddings-v5-text-smallの非常に高性能な多言語セマンティック埋め込みを反映しています。

マルチメディアサポートをjina-embeddings-v5-omniに加えることで、この実験をまったく異なる種類のデータに拡張できるようになります。例えば、私たちは両方の小説の最初のページのスキャンを古い印刷版から入手しました。

図2： 二都物語、19世紀の年代不明版、および 高慢と偏見、1903年マクミラン版。

意味的類似性アダプターを再度使用して、両方のテキストをスキャン画像と比較してみましょう。

テキストと画像間の意味的類似度スコア

	二都物語（スキャン）	高慢と偏見（スキャン）
二都物語（テキスト）	0.7336	0.4891
高慢と偏見（本文）	0.4804	0.7213

意味的類似度スコアは、画像の内容に一致するテキストを強く支持することがわかります。

同じ設定を使用して、テキストをSNSの投稿のスクリーンショットやそれらのテキストを参照するミームと比較することもできます。

図3：イーロン・マスクのツイート（ 『二都物語』に言及）と『高慢と偏見』の有名な冒頭シーンに言及したミーム。

テキストと画像間の意味的類似度スコア

	二都物語	高慢と偏見
マスク氏のツイート（画像）	0.7156	0.4912
「Keep calm」ミーム（画像）	0.4555	0.6244

音声でも同じことができます。英語とフランス語の両テキストの朗読録音を入手しました。

異なる言語間のテキストと音声のセマンティック類似度スコア

	『二都物語』（英語音声）	二都物語（フランス語音声）	高慢と偏見(英語音声)	高慢と偏見（フランス語音声）
『二都物語』 (英語テキスト)	0.3816	0.3106	0.1607	0.1774
二都物語（フランス語テキスト）	0.3528	0.3253	0.1598	0.1721
高慢と偏見(英語テキスト)	0.1910	0.1682	0.3511	0.3398
高慢と偏見（フランス語テキスト）	0.1667	0.1474	0.3018	0.3702

この多言語・マルチメディア能力は情報検索にも及びます。

jina-embeddings-v5-omniモデルの検索アダプターは非対称検索を実装しています。これは、クエリを埋め込む方法が検索対象のドキュメントを埋め込む方法とは異なることを意味します。そのため、クロスモーダルクエリは常に一方向にあり、クエリが一方のメディアに、ドキュメントがもう一方のメディアにあるため、逆の場合とは異なるスコアが得られます。

以下の表は、二都物語と高慢と偏見のテキスト、音声、ページスキャン画像の検索スコアを示しています。これは、二都物語（英語）のテキストがクエリとしてエンコードされた場合です。

テキストからテキスト

ドキュメント	検索スコア
二都物語（フランス語テキスト抜粋）	0.7597
高慢と偏見（英語テキスト抜粋）	0.1482
高慢と偏見（フランス語テキスト抜粋）	0.0523

テキストから画像

ドキュメント	検索スコア
二都物語（英語ページスキャン）	0.5517
二都物語（フランス語ページスキャン）	0.3576
高慢と偏見（英語ページスキャン）	0.1917

テキストから音声

ドキュメント	検索スコア
『二都物語』（英語音声）	0.3277
二都物語（フランス語音声）	0.1980
高慢と偏見(英語音声)	0.1419
高慢と偏見（フランス語音声）	0.1759

ユーザーは、クエリを逆向きに実行することもでき、音声からテキストへ、画像からテキストへの検索を行うことができます。

以下は、 二都物語の英語音声をクエリとして、さまざまなテキストをドキュメントとして使用した場合のスコアです。

画像からテキスト

ドキュメント	検索スコア
二都物語（英語テキスト抜粋）	0.3352
二都物語（フランス語テキスト抜粋）	0.2650
高慢と偏見（英語テキスト抜粋）	0.1626
高慢と偏見（フランス語テキスト抜粋）	0.1385

そして、二都物語（英語版）の1ページ目のスキャン画像をクエリとして使用した場合のスコアは以下のとおりです。

音声からテキスト

ドキュメント	検索スコア
二都物語（英語テキスト抜粋）	0.5304
二都物語（フランス語テキスト抜粋）	0.4845
高慢と偏見（英語テキスト抜粋）	0.1467
高慢と偏見（フランス語テキスト抜粋）	0.0761

動画検索

jina-embeddings-v5-omniの動画インデキシングと検索機能は、Elasticsearchデータベースに新たな機能をもたらしますが、テキストに適用される多くの同じ警告の対象となります。長編映画の単一の埋め込みを生成することは、非常に長い小説を埋め込むようなものです。詳細な情報が埋もれてしまい、結果として得られる埋め込みは、多くの非常に曖昧なクエリに適合する可能性があります。

指輪物語の全文（約50万語）を埋め込めば、探しているものが何であれ、ほとんどの検索クエリに対して適切な結果が得られる可能性が高いでしょう。同様に、2時間のハリウッド映画のインデックスを作成すると、誤ったマッチングが多く、詳細が完全に見落とされます。jina-embeddings-v5-omniは短いクリップに最適です。

この例では、1961年の映画ティファニーで朝食をの予告編をダウンロードしました。この予告編はわずか158秒で、パブリックドメインとなっています。予告編をインターネットアーカイブで見ることができます。

図4：ティファニーで朝食をの劇場ポスター。

PySceneDetectを使い、予告編を28のシーンに分割しました。長さは1.877秒（45フレーム）から18.393秒（441フレーム）までさまざまです。シーン検出は完璧ではありませんが、動画を検索しやすいように小さな断片に分割するのに十分な仕組みを提供します。次に、jina-embeddings-v5-omni-smallを使用して、28セグメントのそれぞれについてドキュメント埋め込みを生成しました。これにより、動画内の特定の要素を見つけるためのテキストクエリの有効性をテストすることができました。

例えば、「cat」を検索すると、上位3つの結果として次のクリップが返されました。猫が登場する唯一のシーンがトップで、スコアは0.1634です。

クリップ1番目をご覧ください。

次に高い一致度は0.1237で、はるかに低い値です。

クリップ2をご覧ください。

また、アクションをクエリすることもできます。「kiss」という文字列でクエリを実行すると、上位4つの一致結果にはすべてキスが含まれています。

クリップ3をご覧ください。スコアは0.2864です。

スコア：2番目のマッチ（0.2494）、3番目のマッチ（0.2099）、4番目のマッチ（0.2068）

また、「Buddy Ebsen」のように、一度しか表示されない動画に表示されているテキストを検索することもできます。jina-embeddings-v5-omni-small は0.3885というスコアで、次点の候補よりもかなり高い、最も一致する候補として容易に識別できます。

Buddy Ebsenのクリップ。

視覚的文書検索

Jina AIのマルチモーダル埋め込みモデルは、ビジュアルドキュメント処理においてトップパフォーマーであり、多言語ビジュアルドキュメント処理においては最先端です。これは、テキスト、図、構造化情報を含む画像データを扱うことを意味します。重要なデータは、印刷スキャン、PDFファイル、図、技術図面、スクリーンショット、画像、インフォグラフィックなどの形式で存在することがよくあります。これらの画像は、しばしば機械的に構成されたり、コンピューターで生成されたりします。それらは通常、意味を損なうことなくテキストに還元することはできず、自然な風景の撮影用に設計されたコンピュータビジョンモデルには適していません。

jina-embeddings-v5-omni埋め込みには、画像内の物体、それらに印刷されたテキスト、および両者の関係に関する情報が含まれます。視覚的文書検索により、物と関連テキストの両方を含むリッチ画像をインデックス化し、それを複数の言語間で行うことが可能になります。

例として、さまざまなECサイトから4つの商品画像を使ってみましょう。

では、「ラーメン」というクエリで jina-embeddings-v5-omni-small がこの4枚の画像をどれだけ評価しているか見てみましょう。

Campbell’s Chunky Chicken Noodle（カナダ版パッケージ）	Kraft Dinner（カナダ版パッケージ）	マルちゃん味噌風味生ラーメン（日本版パッケージ）	Birkelスパゲッティ（ドイツ版パッケージ）
0.0872	0.0711	0.1123	0.0886

日本の製品を一致としてすぐに見つけます。

ここで、「マカロニチーズ」（日本語のmacaroni and cheese）のクエリを試してみましょう。

Campbell’s Chunky Chicken Noodle（カナダ版パッケージ）	Kraft Dinner（カナダ版パッケージ）	マルちゃん味噌風味生ラーメン（日本版パッケージ）	Birkelスパゲッティ（ドイツ版パッケージ）
0.2207	0.3487	0.2760	0.2674

英語のクエリと同じくらい簡単に正しい一致を見つけます。

jina-embeddings-v5-omni また、チャートのような情報豊富な画像の解釈にも優れています。実際にどのように機能するかを確認するには、次の2つの棒グラフをご覧ください。

左側の図1は世界の疾病負担に関するもので、右側の図2は犬種ごとの寿命に関するものです。

検索にjina-embeddings-v5-omni-smallを使用した場合、それぞれが一方のチャートには関連するが両方のチャートには関連しない、2つの潜在的なテキスト質問がどれだけうまく一致するかを見てみましょう。

テキストの質問	チャート1	グラフ 2
「高齢者によく見られる健康問題にはどのようなものがありますか？」	0.2787	0.1099
「犬の寿命は？」	0.1350	0.3564

画像をクエリとして使用して、テキストを検索する逆のプロセスも可能です。以下の表は、関連する科学論文の要約から抽出された対象文書と、グラフ画像をクエリとして使用した場合の検索スコアを示しています。

	テキスト1	テキスト 2
	極度の貧困の中で暮らす人々の健康は、長年にわたり世界の開発努力の焦点となっており、持続可能な開発目標の時代においても引き続き優先事項となっています。しかし、この特定の集団における負担の規模と原因を定量化するための体系的な試みは、ほぼ20年間行われていません。私たちは、世界で最も貧しい10億人を対象に、原因別の疾病率を推定し、高所得層の疾病率と比較しました。	コンパニオンドッグは表現型が最も多様な種の一つです。品種間のばらつきは形態や行動の側面だけでなく、寿命にも及びます。この事実にもかかわらず、品種間の平均余命のばらつきを評価したり、長寿の系統的特徴の可能性を評価したりする研究はほとんど行われていません。
チャート1	0.2377	0.1357
グラフ 2	0.0673	0.3576

特徴

切り捨て可能な埋め込み

jina-embeddings-v5-omni を支える基盤jina-embeddings-v5-text モデルをマトリョーシカ表現学習でトレーニングしたので、これらのモデルからテキストとマルチメディアの埋め込みを切り捨てることができます。

デフォルトでは、 jina-embeddings-v5-omni-small 1024次元の埋め込みを生成し、16ビット精度で保存するために2KBの容量を必要とします。jina-embeddings-v5-omni-nanoの埋め込みは768次元で、約1.5KBを占めます。これらの埋め込みのサイズを32次元（64バイト）に縮小することができます。これにより、精度は若干低下しますが、処理速度は大幅に向上し、リソースコストも削減されます。一般に、埋め込みサイズを半分に減らすと、精度が約2％低下して128次元になり、それを下回ると精度がはるかに速く低下します。

切り捨て可能な埋め込みにより、ユーザーはそれぞれのユースケースに応じて、精度、速度、コストの最適なトレードオフを決定できます。

量子化

jina-embeddings-v5-omniファミリーは、 jina-embeddings-v5-text基盤から量子化に対する堅牢なパフォーマンスも継承しています。これにより、処理速度がさらに向上し、より精度の低い数値を格納することで計算とストレージのコストが削減されます。これらのモデルは Elasticsearchの Better Binary Quantization（BBQ）と連携するように訓練されており、量子化されていない埋め込みとほぼ同じ性能を提供します。Massive Text Embedding Benchmark（MTEB）の検索ベンチマークスイートでは、バイナリ化によるパフォーマンス低下は16ビットの完全な値を使用した場合と比較して3%未満にとどまり、同時に93%のスペースを節約し、処理速度と検索速度を劇的に向上させます。

言語間パフォーマンス

jina-embeddings-v5-textの広範な多言語トレーニングは jina-embeddings-v5-omni にも引き継がれ、jina-embeddings-v5-text-small の事前トレーニングでは約100の言語、jina-embeddings-v5-text-nano では15の主要なグローバル言語がサポートされています。音声メディアの場合、 Whisper-large-v3モデルはトレーニングに約100言語を使用しており、 jina-embeddings-v5-omni-smallおよび-nanoに統合されているQwen-modified SigLip2ビジョンモデルは 201種類の言語と方言のデータを使用してトレーニングされています。

ベンチマーク性能

テキスト

jina-embeddings-v5-omni テキストのみに使用する場合、これらのモデルはjina-embeddings-v5-textモデルと同一です。セマンティックテキスト埋め込みのMMTEBベンチマークスイートにおいて、それぞれのサイズカテゴリーでトップパフォーマンスを示しています。

図5：テキストベンチマークでの jina-embeddings-v5-omni のサイズとパフォーマンス、競合モデルとの比較。記載されているサイズは、他のメディアの読み込み拡張機能を含まないサイズです。

視覚的な意味的類似性

標準的な視覚的意味的類似性ベンチマークにおいて、jina-embeddings-v5-omni はそのサイズに近いモデルの中で最高のスコアを出しています。jina-embeddings-v5-omni モデルは、同等のサイズの公開オープンウェイトモデルの中で圧倒的に最良の性能を示しています。jina-embeddings-v5-omni-smallは視覚的意味的類似性タスクにおいて、その3倍のサイズのモデルにしか負けず、 jina-embeddings-v5-omni-nanoはjina-embeddings-v5-omni-smallと10～25倍のサイズのモデルにしか負けません。

図6：jina-embeddings-v5-omni-small、jina-embeddings-v5-omni-nano、および比較対象モデルの視覚的意味的類似性ベンチマーク平均スコア、ならびに視覚拡張機能を含むそれらのサイズ。

視覚的文書検索

jina-embeddings-v5-omni-small は、10億パラメーター未満でありながら、30億パラメーターおよび70億パラメーターのモデルに匹敵します。jina-embeddings-v5-omni-nanoも同様にそのサイズで際立っており、10倍から60倍も大きいモデルを凌駕しています。

図7 ：6つのベンチマーク（DocVQA、InfoVQA、ShiftProj、SynAI、Tabfquad、TatDQA）におけるViDoRe視覚文書検索の平均スコア。

音声検索

標準的なMAEB（Massive Audio Embedding Benchmark）音声検索ベンチマークにおいて、jina-embeddings-v5-omni-smallとjina-embeddings-v5-omni-nanoはどちらもトップクラスのパフォーマンスを発揮しています。非常に大きなモデルのみ – jina-embeddings-v5-omni-smallの3倍以上のサイズ – がそのスコアを上回ります。

図8：MAEB音声検索ベンチマークにおけるさまざまなモデルの平均スコア。

LAIONのlarger_clap_general モデルは、jina-embeddings-v5-omni-nanoのスコアをより少ないパラメーターで改善していますが、v5-omniスイートの追加マルチモーダル機能は何もない、音声のみのモデルです。

動画

動画では、jina-embeddings-v5-omni-smallがテキストクエリに合致する場所を見つけることに優れています。Charades-STAとMomentSeekerテストは、このタスクの標準的なベンチマークであり、下のグラフからjina-embeddings-v5-omni-smallがサイズがはるかに小さいにもかかわらず、同等のオープンウェイトモデルの中で最高のスコアを獲得していることがわかります。

図9：さまざまなモデルのサイズと、それらのモデルに対するCharades-STAスコア。

図10：さまざまなモデルのMomentSeekerスコアとそれらのサイズ。

また、 jina-embeddings-v5-omni-small ByteDanceのSeed 1.6と比較しました。Seed 1.6は、パラメータ数が非公開のクローズドウェイトモデルです。私たちのモデルは、Charades-STAベンチマークではSeed 1.6を大きくBeatsし、MomentSeekerではほぼ同等です。

モデル	Charades-STAのスコア	MomentSeekerスコア
seed-1.6-embedding	29.30	59.30
jina-embeddings-v5-omni-small	55.57	58.93

強みと制限事項

jina-embeddings-v5-omni モデルは、特に以下のようなさまざまな方法で、ユーザーがデジタル化された情報をインデックス化、検索、分析する能力を拡張します。

テキストクエリからの多言語音声検索。
PDF、スキャン、視覚的文書検索。
動画の時間的グラウンディング、つまり、自然言語のテキスト記述と一致する動画の部分を特定すること。
音楽ジャンルを含むオーディオジャンルの分類。
シーン情報とオブジェクト識別に基づく画像分類。

他のいくつかの分野では、パフォーマンスはやや劣ります。jina-embeddings-v5-omni を使ってこれらの作業をすることは可能かもしれませんが、そのためのトレーニングはしていませんし、結果は芳しくないかもしれません。

当社は以下の分野における技術向上に積極的に取り組んでいます。

自然言語の説明から特定の動画を見つけること。
画像間の意味類似性と検索。
音声における意図の分類、例えば音声コマンドの認識など。
画像とそれに付随するテキスト、または音声、画像、テキストを組み合わせたものなど、複数のメディアからの入力を処理。

jina-embeddings-v5-omniの使用

このモデルスイートは、テキスト、音声、画像と動画を組み合わせた入力という3つの入力方法をサポートしています。jina-embeddings-v5-omniは、幅広い標準フォーマットを変換し、他の前処理を行うフレームワーク内で動作します。

画像処理には、最初のSigLip2リリースで提供されたNaFlex方式と同じものを使用します。入力画像が262,144ピクセル（512x512に相当）より小さい場合は、その最小値を超えるまで拡大されます。また、3,072,000ピクセルより大きい場合は、その最大値より小さくなるまで縮小されます。変換プロセスでは、画像の高さと幅の両方が14ピクセルの倍数になるように調整し、縦横比の歪みを最小限に抑えてその目標を達成します。結果は28×28ピクセルのパッチに分割されます。そのため、パッチの総数は画像を覆うために必要な28×28の正方形の数になります。推論時には各パッチは単一のトークンとして扱われ、各画像入力には単一の画像を区切るための特別な開始トークンと終了トークンが付随します。

jina-embeddings-v5-omni モデルは、画像を変更するのと同じ方法で動画の解像度を変更し（上記を参照）、動画から最大32フレームを抽出します。動画に32フレーム以上ある場合（標準フォーマットは通常1秒あたり少なくとも24フレームなので、その可能性は高い）、抽出するフレームを均等な間隔で配置します。そして、動画プリプロセッサは、2フレームごとに、動画全体をカバーするのに必要な28×28ピクセルの正方形の数に等しいトークンのセットを1つ生成します。

図11： jina-embeddings-v5-omniは動画から等間隔の32フレームを抽出します。長い動画だと多くの部分が失われてしまいます。

動画の前処理の詳細については、 SigLip2の技術文書をご覧ください。

音声トークン化は、Qwen-2.5-Omniに組み込まれているアプローチに従います。音声ファイルは30秒ごとに分割され、30秒を超える場合は16kHzにリサンプリングされ、128チャンネルのメルスペクトログラムに変換されます。各40ミリ秒が単一のトークンとして扱われます。そのため、30秒のセグメントごとに750トークンが処理されます。これは1トークンが40ミリ秒の音声に相当し、さらに1サンプルを区切るための特別な開始トークンと終了トークンが追加されます。

音声前処理の詳細については、Qwen-2.5-Omni Technical Reportをご覧ください。

可用性

はじめに

テキストにjina-embeddings-v5-omniを使用するには、 jina-embeddings-v5-textの場合と同様にsemantic_textフィールドを使用して統合できます。inference_id .jina-embeddings-v5-omni-smallまたは.jina-embeddings-v5-omni-nanoに設定するだけです。手順についてはリファレンスガイドをご覧ください。

他のメディアをjina-embeddings-v5-omniで埋め込むには、推論APIを使用する必要があります。例：

POST _inference/embedding/.jina-embeddings-v5-omni-small
{
  "input": [
    {
      "content": { 
        "type": "image", 
        "format": "base64", 
        "value": "data:image/jpeg;base64,..." 
      } 
    }, 
    { 
      "content": { 
        "type": "text", 
        "value": "Some text to create an embedding" 
      } 
    } 
  ] 
}

jina-embeddings-v5-omni-nanoの場合、POST URIを_inference/embedding/.jina-embeddings-v5-omni-nanoに変更してください。

他のメディアのドキュメントをエンコードしたり、分類やクラスタリングのための埋め込みを生成したりするには、推論エンドポイントをjinaaiサービスで作成してください。

クエリの場合は、以下の例のようにクエリビルダーを使います。inference_idの値を.jina-embeddings-v5-omni-nanoに置き換えて、smallの代わりにnanoモデルを使用してください。

POST my-index/_search
{
  "knn": {
    "field": "dense-vector-field",
    "k": 10,
    "num_candidates": 100,
    "query_vector_builder": {
      "embedding": {
        "inference_id": ".jina-embeddings-v5-omni-small",
        "input": {
          "type": "image",
          "format": "base64",
          "value": "data:image/jpeg;base64,..."
        }
      }
    }
  }
}

詳細については、クエリビルダーのドキュメントを参照してください。

jina-embeddings-v5-omniでBBQを使用するには、BBQインデキシングの説明に従います。

詳細情報

jina-embeddings-v5-omniの詳細については、モデルの技術レポートおよびJina AI Webサイトのページをご覧ください。Hugging Faceのjina-embeddings-v5-omni コレクションページには、これらのモデルをローカルでダウンロードして実行するための技術情報と手順も含まれています。jina-embeddings-v5-omniモデルはCC-BY-NC-4.0ライセンスの下でダウンロードでき、自由に試用できますが、商用利用の場合はElasticの営業担当までお問い合わせください。

eコマース検索ガバナンスのためのElasticsearchパーコレーター：曖昧なクエリをガバナンスを備えた検索戦略に変換

Alexander Marquardt, Honza Král, Taylor Roy — Mon, 04 May 2026 00:00:00 GMT

本記事は、パート3で説明された制御プレーンアーキテクチャのElasticsearch実装についての技術的な詳細を掘り下げ、Elasticsearchパーコレーターを使用して構築する方法を示します。本稿では、決定論的でガバナンスを備えたポリシーエンジンを実運用環境で実装するために使用されるパターンについて概説します。

アーキテクチャーから実装へ

パート3では、制御プレーンアーキテクチャについて説明しました。具体的には、ルックアップのプリミティブとしての逆マッチング、マッチングとアクションを分離するポリシー文書、そして複数のポリシーを単一の実行計画に構成するカスケード変換についてです。この投稿では、ポリシールックアップを駆動するElasticsearchの機能であるパーコレータークエリについて詳しく説明します。

パーコレーターは、制御プレーンが必要とするまさにその方法で探索の方向を反転させるため、ガバナンスに非常に適しています。この投稿では、パーコレーターの機能とその重要性の明確な説明から始め、インデックス設計、ポリシーストレージ、クエリ時評価、マルチポリシー構成に至るまでの実施手順を詳しくご紹介します。

通常の検索の仕組み

eコマースシステムでは、 title 、 category 、 priceなどのフィールドを含む数十万または数百万の商品ドキュメントが存在する場合があります。ユーザーが一致するドキュメントを検索すると、Elasticsearchに対して、ユーザーの検索文字列をこれらの商品ドキュメントに保存されている1つ以上のフィールドと比較するように指示することになります。Elasticsearchのデフォルトアナライザーである標準アナライザーは、テキストを小文字に変換し、トークンに分割します。「oranges」で検索すると「Oranges」が小文字で表示され、検索結果に一致します。語幹解析を含む言語認識アナライザーを使えば、両方の形が同じ語幹に還元されるため「orange」にも合致します。例えば、次の一致クエリは、 “title”フィールドに「orange」または「oranges」を含むドキュメントを返します。

POST products/_search
{
  "query": {
    "match": {
      "title": "oranges"
    }
  }
}

そのため、上記のクエリでは、Elasticsearchはtitleフィールドが「oranges」にマッチする商品ドキュメントを返します。これには「Orange Fruit Spread」、「Orange Juice」、「Juicy oranges」、「Orange Marmalade」などの結果が含まれる可能性があります。覚えておくべき重要な点は、Elasticsearchは一般的に検索文字列をドキュメントと比較し、検索文字列に一致するドキュメントを返すために使用されるということです。

ガバナンスの問題：商品を検索する前に関連するポリシーを見つけること

パート1～3で確立されたように、ガバナンスを備えた検索システムは、ユーザーの検索文字列を直接商品カタログに送信しません。まず、その検索文字列に適用されるポリシーがあるかどうかを確認します。

マーチャンダイザーは、誰かが「オレンジ」を検索したときに、結果をオレンジのカテゴリーに制限し、オレンジジュース、オレンジマーマレード、オレンジソーダを除外することを決定しました。そのビジネス上の意思決定はポリシーとして格納されます。ユーザーが「オレンジ」と入力すると、制御プレーンはそのポリシーを見つけ、その指示を読み取り、それに応じて商品カタログに対する検索を修正する必要があります。そのためには、制御プレーンは、どの保存済みポリシーがこの検索文字列に関連するかを判断する必要があります。

企業環境における導入事例では、このようなポリシーが数百、あるいは数千にも及ぶ可能性があります。それらをif/elseロジックで1つずつチェックすることは、パート2で説明されているアプリケーションレイヤーのアンチパターンです。必要なのは、すべてのポリシーをインデックスに格納し、与えられた検索文字列に一致するものを即座に見つける方法です。そこでパーコレーターが役立ちます。

方向転換：パーコレーター

以前にも述べたように、通常の検索では、Elasticsearchは検索文字列をドキュメントと比較し、その検索文字列を含むドキュメントを返すためによく使用されます。

パーコレーターはこれを反転させます。パーコレーターを使用すると、各ドキュメントがクエリパターンを格納するインデックスがあり、その入力された検索文字列がこれらの格納されたクエリと比較され、どの格納されたクエリパターンがトリガーされたかを判断します。

ガバナンスにおいて、「保存されたクエリパターン」はポリシーとなります。各ポリシーには、一致させる検索文字列の種類を示すパターンが含まれています。例えば、検索文字列は「oranges」と完全に一致するでしょうか、それとも検索文字列に「olive oil」が含まれているでしょうか。入力される文字列はユーザーの検索テキストであり、クエリ実行時に到着し、保存されているすべてのポリシーパターンと照合する必要があります。これはPRISMの関連動画4:09で取り上げられています。

段階的に確認：検索で「oranges」がポリシーを見つける方法

ポリシー

あるマーチャンダイザーが、ユーザーが他の言葉を含めずに正確に「オレンジ」を検索した場合に一致するポリシーを作成しました。パーコレーターが一致すると、ドキュメントの残りの部分には、制御プレーンがプロダクトクエリの構築に使用するルールが含まれます。この例では、ルールの1つは結果を「果物」カテゴリーに制限（フィルター）することです。

{
  "percolator": {
    "match_phrase": { "query": "START oranges END" }
  },
  "rule_type": "filter",
  "rule_args": {
    "filters": [
      {
        "field": "categories",
        "values": ["Fruits"],
        "mode": "hard_filter",
        "on_conflict": "soft_boost",
        "on_conflict_boost_weight": 1.0
      }
    ]
  },
  "priority": 0,
  "enabled": true
}

percolatorフィールドには、このポリシーがいつ発動するべきかを定義するパターンが含まれています。この場合、それはフレーズ"START oranges END"に一致します。rule_typeフィールドとrule_argsフィールドは、ポリシーが発動したときに実行する内容を定義します。STARTトークンとENDトークンは境界マーカーです。これについては後ほど説明します。

PRISM StudioのUIでポリシーがどのように作成されているかは、関連PRISM動画の2:52で確認できます。

ユーザーが検索

購入者が検索バーに「oranges」と入力します。

制御プレーンがポリシーの一致をチェック

商品カタログを検索する前に、制御プレーンはユーザーの検索文字列をインターセプトし、境界マーカーでラップして、それをパーコレーターに送信します。

POST policies/_search
{
  "query": {
    "percolate": {
      "field": "percolator",
      "document": {
        "query": "START oranges END"
      }
    }
  }
}

文字列 "START oranges END" は、保存されているすべてのポリシーパターンと照合されます。内部的には、Elasticsearchは保存されているポリシーパターンをこの文字列に対して実行し、一致するものを返します。それがパーコレーターです。ユーザーの検索文字列は、保存されているすべてのポリシーパターンと照合され、一致するものが返されました。if/elseチェーンや逐次評価はありません。インデックスがマッチングを処理します。

制御プレーンはポリシーを適用

制御プレーンはマッチしたポリシーのアクションを読み取ります。上記のポリシーは、制御プレーンに対し、検索結果を「果物」カテゴリに限定するよう指示するものです。コントロールプレーンは、商品カタログに対して最終的なElasticsearchクエリを以下のように構築します：

POST products/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "title": "oranges" } }
      ],
      "filter": [
        { "terms": { "categories": ["Fruits"] } }
      ]
    }
  }
}

ユーザーは「oranges」を検索しました。商品カタログは、果物カテゴリに限定された「oranges」のクエリを受け取ります。この制約のため、オレンジジュース、オレンジマーマレード、オレンジソーダは除外されます。

「オレンジマーマレード」がオレンジポリシーを発動しない理由

別のユーザーが「orange marmalade」を検索すると仮定します。制御プレーンは文字列をラップし、パーコレーションします： "START orange marmalade END" 。オレンジポリシーのパターンは match_phrase: "START oranges END"です。オレンジポリシーは一致しないため、ポリシーは適用されず、結果は「果物」カテゴリーに限定されません。

これがSTARTおよびEND境界マーカーの目的です。これがないと、「oranges」という単語にマッチするポリシーが、誤って「orange marmalade」のようなクエリにマッチしてしまう可能性があります。ユーザーの検索文字列をSTARTとENDで囲み、それらのマーカーをポリシーのパターンに含めることで、ポリシーが「oranges」が完全な検索文字列であり、他の単語を含まない場合にのみ発動することを保証します。これは購入者とマーチャンダイザーの意図の両方に一致しています。

第二のポリシー：語幹解析されたフィールド上の「olive oil」

すべてのポリシーが正確な文字列一致を必要とするわけではありません。「olive oil」ポリシーは語幹解析されたフィールドで一致するため、単語形式のわずかな変化に関係なく発動します。

{
  "percolator": {
    "bool": {
      "should": [
        { "match_phrase": { "query.stemmed": "START olive oil END" } }
      ]
    }
  },
  "rule_type": "filter",
  "rule_args": {
    "filters": [
      {
        "field": "categories",
        "values": ["Olive oils"],
        "mode": "hard_filter",
        "on_conflict": "soft_boost",
        "on_conflict_boost_weight": 1.0
      }
    ]
  },
  "priority": 300,
  "enabled": true
}

このポリシーのパターンはqueryではなくquery.stemmedに一致します。ユーザーの検索文字列が到着すると、それはqueryフィールド（正確なテキスト）とquery.stemmedフィールド（語幹解析アナライザーで分析され、単語がその語幹に削減されるため、「olives」と「olive」は同じ語幹に削減され、「oils」と「oil」も同じ語幹に削減される）の両方に格納されます。ポリシーのパターンは、文字列の語幹解析されたバージョンに対してチェックされるため、単語形式のわずかな変化に関係なくトリガーされます。

STARTとEND境界マーカーは、語幹解析されたフィールドでも機能するため、このポリシーは「olive oil」が検索文字列全体である場合にのみ発動し、より長い文字列の一部として出現する場合は発動しません。

この記事の残りの部分では、本番環境で使用できるようにするための実装の詳細について説明します。具体的には、2つのマッチングモードをサポートするインデックスマッピング、ハイライトがフレーズの削除と消費フレーズの追跡をどのように促進するか、そして複数の相反するポリシーがどのように単一の実行プランに統合されるかなどです。

ポリシーインデックスのマッピング

ポリシーインデックスには、格納するクエリパターンを保持するパーコレーターフィールドと、パーコレーターが一致させる対象となる入力検索文字列の構造を反映するテキストフィールドが必要です。以下のマッピングは明確さのために簡略化されています。本番環境への導入はより複雑で、境界マーカーの処理、変数パターンマッチング（例えば、「4ドル未満」に通貨値が含まれていることを認識するなど）、その他の種類の分析を行うために、カスタムアナライザーが使用されます。

PUT policies
{
  "mappings": {
    "properties": {
      "percolator": {
        "type": "percolator"
      },
      "query": {
        "type": "text",
        "fields": {
          "stemmed": {
            "type": "text",
            "analyzer": "stemming"
          }
        }
      },
      "rule_type": { "type": "keyword" },
      "rule_args": { "type": "object", "enabled": false },
      "priority": { "type": "integer" },
      "enabled": { "type": "boolean" }
    }
  }
}

インデックスにはpoliciesという名前が付けられています。これは、各ドキュメントがパート2で定義されているように完全な管理ポリシーを表しているためです。これには、一致基準、アクション、優先度、メタデータが含まれます。rule_typeおよびrule_argsフィールドにはポリシーのアクションコンポーネントが含まれており、これらには制御プレーンが商品カタログに対してクエリを実行するために使用する指示が含まれています。

queryフィールドとは、パーコレーターがマッチングする文字列のことです。このバージョンには、完全一致バージョンと語幹解析されたバージョンの2つのバリエーションがあります。ユーザーの検索文字列が到着すると、そのフィールドに一時的なメモリインデックスの中に入力されます。queryに一致するポリシーは完全一致する文字列を参照し、 query.stemmedに一致するポリシーは語幹解析されたバージョンを参照します。

ハイライト、フィルタリング、ソート機能を備えたパーコレーター

上記の簡単な例では、最小限のパーコレーター要求を示しました。実際には、制御プレーンはハイライト表示を追加し、無効化されたポリシーをフィルタリングし、優先度順に並べ替えます。

POST policies/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "percolate": {
            "field": "percolator",
            "document": {
              "query": "START olive oil END"
            }
          }
        },
        {
          "term": { "enabled": true }
        }
      ]
    }
  },
  "highlight": {
    "fields": {
      "query": {
        "matched_fields": ["query.stemmed"]
      }
    }
  },
  "sort": [
    { "priority": { "order": "desc" } }
  ]
}

ハイライト構成では、フィールドキーとして"query"を使用し、matched_fields内の"query.stemmed"を使用します。これは、Elasticsearchの統合ハイライターに、親フィールドqueryハイライトを返すだけでなく、ハイライトするトークンを決定する際にquery.stemmedサブフィールドの一致も考慮するように指示します。これにより、語幹解析されたフィールドで一致するポリシーでも元のテキスト上に正確なハイライト範囲を生成できるようになり、これは制御プレーンがフレーズの削除や消費フレーズの追跡を行うために必要となります。

enabled: trueフィルターは無効なポリシーをスキップすることを保証します。優先度のsortは、優先度の高いポリシーが最初に返されることを保証し、制御プレーンがカスケード変換のために正しい順序でそれらを処理できるようにします。highlightフィールドは最も重要な追加要素です。これにより、ユーザーの検索文字列のどの単語が各マッチをトリガーしたかを正確に確認できます。

「olive oil」の検索結果は、以下のようなものになる場合があります。

{
  "hits": {
    "hits": [
      {
        "_id": "en_2c3021c8",
        "_source": {
          "rule_type": "filter",
          "rule_args": {
            "filters": [
              {
                "field": "categories",
                "values": ["Olive oils"],
                "mode": "hard_filter",
                "on_conflict": "soft_boost",
                "on_conflict_boost_weight": 1.0
              }
            ]
          },
          "priority": 300
        },
        "highlight": {
          "query": ["START olive oil END"]
        }
      }
    ]
  }
}

ハイライトが重要な理由

応答のハイライト部分 "START olive oil END" に注目してください。Elasticsearchは、ユーザーの検索文字列のどの単語がポリシーを一致させたかを正確に教えてくれます。これは表面的なものではありません。ハイライトメタデータは、以下の2つの重要な下流の動作を左右します。

フレーズの削除。一部のポリシーでは、商品カタログクエリを作成する前に、検索文字列から一致したテキストを削除する必要があります。例えば、「安い」という条件に一致するポリシーでは、その単語が削除され、代わりに価格フィルターに変換されます。ハイライト表示によって、検索文字列のどの部分がポリシーに一致したかが正確に識別されるため、システムは削除すべき箇所を把握できます。

消費されたフレーズの追跡。パート3で説明したように、複数のポリシーが同じ検索文字列に一致した場合、優先度の高いポリシーが優先度の低いポリシーでも一致した単語を削除することがあります。各ポリシーのハイライトを現在の（進化する）検索文字列と比較することで、システムはフレーズが消費されたことを検出し、優先度の低いポリシーをスキップすることができます。これにより、二重処理が防止され、決定論的な動作が保証されます。

ハイライト表示の仕組みについてはこちらの記事で詳しく解説しています。

パーコレーターから実行計画へ

パーコレーターは一致するポリシーのセットを返します。しかし、パート3で説明したように、ルックアップは全体の一部に過ぎません。その後、それらの一致を一貫した実行計画にまとめる必要があります。具体的なクエリは次のようになります。

例：クリスマスキャンペーン中の「安いチョコレート」

システムには、「安いチョコレート」ポリシー（優先度210）と「クリスマスチョコレート」ポリシー（優先度300）という2つのアクティブなポリシーがあるとします。どちらもパート3で詳しく説明されています。

ステップ1：抽出する。ユーザーは「cheap chocolate（安いチョコレート）」を検索します。制御プレーンは検索文字列を "START cheap chocolate END" として巻き込み、パーコレーターに送ります。2つのポリシーが一致します。「安いチョコレート」ポリシーのパターンは「安いチョコレート」というフレーズに一致し、「クリスマスチョコレート」ポリシーのパターンは語幹解析されたフィールドを介して「チョコレート」に一致します。

ステップ2：優先順位で並べ替える。パーコレーターは両方のポリシーを優先順に並べて返します。「クリスマスチョコレート」ポリシー（300）が最初に処理され、次に「安いチョコレート」ポリシー（210）が処理されます。

ステップ3：カスケード変換を適用する。これはパート3のinitial state → [Policy A] → state' → [Policy B] → state'' → execution planモデルです。

「クリスマスチョコレート」ポリシー（優先順位300）が最初に適用されます。

「クリスマスの食べ物と飲み物」、「クリスマスのお菓子」というカテゴリーのハードフィルターを追加します。
「7ドル未満」価格フィルターを追加します。
カテゴリーのソフトブースト「アドベントカレンダー」（3倍）を追加します。

「安いチョコレート」ポリシー（優先度210）は、修正された状態に対して次に適用されます。

カテゴリーのハードフィルター「チョコレート」、「ミルクチョコレート」を追加しようとしましたが、クリスマスのポリシーですでにこのフィールドにon_conflict: override設定されているため、「安いチョコレート」カテゴリーは削除されます。
「2ドル」の価格フィルターを追加しようとしましたが、クリスマスのポリシー設定は価格に対してon_conflict: restrictに設定されており、2ドルは 7ドルよりも制限が厳しいので、2ドルが優先されます。
検索文字列から「cheap」を削除します。

ステップ4：Elasticsearchクエリを作成する。制御プレーンは、商品カタログに対する単一のElasticsearchクエリとして実行計画を組み立てます。

POST products/_search
{
  "query": {
    "function_score": {
      "query": {
        "bool": {
          "must": [
            { "match": { "title": "chocolate" } }
          ],
          "filter": [
            { "terms": { "categories": ["Christmas foods and drinks", "Christmas sweets"] } },
            { "range": { "price": { "lt": 2 } } }
          ]
        }
      },
      "functions": [
        {
          "weight": 1
        },
        {
          "filter": { "terms": { "categories": ["Advent calendars"] } },
          "weight": 3
        }
      ],
      "score_mode": "sum",
      "boost_mode": "multiply"
    }
  }
}

元の検索文字列は「cheap chocolate」でした。商品カタログに到達するクエリは、ガバナンスを備え、意図を考慮した検索計画です。「安い」という単語は消費され、価格制約に変換され、結果はクリスマスシーズンのカテゴリーに限定され、アドベントカレンダー商品はランキングが上がり、価格上限は優先度の低いポリシーによるより厳しい値を反映しています。すべての変換は決定論的であり、追跡可能であり、説明可能です。

これらの乗数が基本のBM25スコアとどのように相互作用するかについての概要については、関連PRISM動画の8:45をご覧ください。ここでは、乗算ブーストについて簡単に説明しています。

これがスケールする理由

パーコレーターはこのユースケースにおいて効率的です。なぜなら、非対称性が存在するからです。企業向けeコマースシステムには数百万の商品が存在しても、ポリシーは数百から数千件しかないかもしれません。パーコレーターは、入力された検索文字列を、保存されているポリシーパターンのセットと照合するだけであり、商品カタログ全体をスキャンするわけではありません。コストはポリシーの数に比例し、Elasticsearchは内部最適化（格納されたクエリパターンから用語をインデキシングし、ブールロジックを短絡させる）を適用してマッチングを高速化します。

新しいポリシーの追加は、単に新しいドキュメントをインデキシングすることです。いずれかを無効にすると、フィールドが更新されます。コードの変更も、デプロイも、再起動も一切不要です。

検索からガバナンスを備えた検索へ

パーコレーターは、パート3の制御プレーンアーキテクチャを大規模なスケールで実用的にする高速逆マッチングプリミティブを提供します。ポリシーとは、保存およびインデックス化され、入力された検索文字列と効率的に照合されるデータのことです。制御プレーンは、パート3で説明されているカスケード変換とフィールドごとの競合解決を通じて、マッチングポリシーをガバナンスに基づく実行計画へと統合します。そして、検索エンジンは商品カタログに対してガバナンスに基づく実行計画を実行します。

結果として、マーチャンダイザーがアプリケーションコードに触れることなく新しいポリシーを作成し、代表的なクエリに対してテストし、本番環境に導入し、即座に効果を確認できるシステムが実現します。パーコレーターはポリシーの検索を高速化し、制御プレーンはポリシーの構成を決定論的にし、ガバナンスを備えたワークフローはプロセス全体を安全にします。

このシリーズの次回作

このシリーズの次の投稿では、ガバナンス制御プレーンを新たな領域へと拡張します。多層検索アーキテクチャを紹介し、安定したページネーションとファセットを維持しながら、厳密な検索、緩やかな検索、セマンティックな検索をどのように連携させるかを説明します。

ガバナンスを備えたeコマース検索を実践

本稿で説明するパーコレーターベースの制御プレーンは、インデックスマッピングや境界マーカーから、ハイライト駆動型のフレーズ追跡、カスケード型ポリシー構成に至るまで、Elastic Services Engineeringが当社の再利用可能なeコマース検索アクセラレーターの一部として構築したものです。ここに示されているすべてのクエリ例とポリシー構造は、企業規模の商品カタログに対し、検証済みの実稼働しているシステムから得られたものです。

Elasticsearch上にガバナンスを備えたポリシー駆動型の制御プレーンを実装したい場合、 Elastic Services を利用すれば、より迅速に実現できます。Elastic Professional Servicesにお問い合わせください。

議論に参加

Elasticsearchの検索再現率を測定・改善する方法：ハイブリッド検索で0.43から0.75へ

Jeffrey Rengifo — Mon, 04 May 2026 00:00:00 GMT

BM25ランキングアルゴリズムを用いた語彙検索は、低コストで高速であり、幅広いクエリに対して非常に効果的です。しかし盲点があります。それは、ドキュメントとトークンを共有しないクエリです。この記事では、BM25が足りないところを正確に測定します。Elasticsearchのランキング評価API（rank_eval）を使用し、Elastic Inference Service（EIS）を介してJina AIの埋め込みを追加することでそのギャップを埋めます。再現率スコアが 0.43 から 0.75 に上がるのを見て、その理由がわかるでしょう。

リコールとは何ですか？

再現率は、0から1のスケールで、ユーザーが実際に欲しいドキュメントが検索結果にどれだけ含まれているかを測定します。クエリで3点の製品が表示されるはずなのに、検索結果の上位10位に2つしか表示されない場合は、そのクエリの再現率はrecall@10 = 0.67となります。これは集合ベースの指標であり、そのk件の結果内の関連ドキュメントの位置は考慮されません。10番目の位置にある関連ドキュメントは、1番目の位置にある関連ドキュメントと同じものとして扱われます。再現率が高いということは、関連性の高い検索結果を見逃さないということです。

この図は2つの集合を示しています。1つは関連するすべてのドキュメント（左側）、もう1つはBM25が実際に取得したドキュメント（上位10件、右側）です。再現率に影響する交差部分、prod_1とprod_2が見つかり、prod_3、prod_4、prod_6は完全に見落とされました。結果：Recall@10 = 2/5 = 0.40。

要件

再現率がどのように機能するのかをよりよく理解するために、本題に入りましょう。このデモンストレーションではPythonを使用します。付属のノートブック（notebook.ipynb）で一緒に進めることができます。すべてのコードブロックは、実行準備が整ったセルです。

提供されたコードでは、以下を使用しています。

Elasticsearch 9.3以降
Python 3.10+

pip install elasticsearch pandas plotly python-dotenv

Elasticsearchの認証情報が含まれる.envファイル

ELASTICSEARCH_URL=https://your-cluster-url
ELASTICSEARCH_API_KEY=your-api-key

データセット

靴、電子機器、工具など、さまざまなカテゴリーにわたる1,000点の製品を掲載した製品カタログを使用します。

各ドキュメントには4つのフィールドがあります。

フィールド	タイプ
`タイトル`	テキスト
`description`	テキスト
`ブランド`	キーワード
`category`	キーワード

データセットは dataset.csvから読み込まれます。

語彙検索の力と限界

BM25は、Elasticsearchおよびほとんどの検索エンジンのデフォルトのランキングアルゴリズムです。ドキュメントは、クエリ用語がどれだけ頻繁に出現するかによってスコアリングされます。これは、ドキュメントの長さと、インデックス全体でのそれらの用語の頻度に合わせて調整されます。さらに、小文字への正規化、語幹抽出、ストップワード除去といったアナライザーも搭載されています。「running shoes」というクエリは、「Running Shoes」と一致し、おそらく「run」とも一致します。

これは、多くの種類のクエリに対して有効です。

「running shoes」はタイトルにこれらのトークンを含む商品を即座にマッチングします。
「Bluetoothスピーカー」は、トークンが逐語的に表示されるため、携帯オーディオ製品として表示されます。

結果は決定論的で説明可能です。つまり、検索クエリに含まれる用語がドキュメント中に含まれているからこそ、そのドキュメントは上位にランク付けされるのです。関連性のデバッグは単純明快です。

問題が発生する箇所

では、同じカタログに対してこれらのクエリを試してみましょう。

「スキンケアルーティン」：どの製品名にも「ルーティン」という単語は含まれません。BM25は、「スキンケア」で部分一致することができますが、フェイス美容液、ボディオイル、モイスチャライザーは、「ビタミンC」、「レチノール」、または「ブライトニング」のような用語を使用して説明されており、いずれもクエリと重複しません。完全なスキンケアルーティンを形成する製品は、共通のトークンを持たずにインデックス全体に散らばっています。

ID: B06XX6DS3P, Score: 9.0552, Title: Replenix Retinol Smooth + Tighten Body Lotion - Collagen-Boosting, Regenerating Anti-Aging Body Cream, Reduces Appearance of Stretch Marks, 6.7 oz.

  ID: B08XMPKJ1L, Score: 5.2699, Title: Bio-Oil Skincare Body Oil (Natural) Serum for Scars and Stretchmarks, Face and Body Moisturizer Hydrates Skin, with Organic Jojoba Oil and Vitamin E, For All Skin Types, 6.7 oz

  ID: B01CY764KQ, Score: 5.0057, Title: Nike Up Or Down Men Deodorant - Pack of 2 | Long-Lasting Fragrance, Body Spray Combo for Men | Deodorant for Active Living | Nike Men's Deo Set | Ultimate Odor Protection | Grooming Essentials | Signature Nike Scent | High-Performance Men's Deodorant

「ペット用旅行用品」：これはユースケースのグループ分けであり、製品カテゴリではありません。犬用スリングキャリア、ペット用カーシート、旅行用クレートはどれも関連性のあるアイテムですが、それらの説明文は「旅行用品」というよりは、携帯性、安全性、快適性について述べています。BM25は「ペット」と大まかに一致しますが、旅行固有の商品を他のペットカタログと区別するシグナルはありません。

ID: B0BVV7BKTW, Score: 7.4371, Title: Large Foldable Travel Duffel Bag with Shoes Compartment

ID: B07TNPHYNV, Score: 6.6455, Title: 40 Pieces Christmas Bronze Jingle Bells Craft Small Bells

ID: B08R8FRW53, Score: 6.6335, Title: CUBY Dog and Cat Sling Carrier
ID: B08QMCQYGM, Score: 6.5259, Title: YTFGGY Whiteboard Pinstripe Tape 6 Rolls 1/8"
ID: B0CP3LQSWM, Score: 6.2994, Title: Portable Dog Water Bottle 32 Oz

これは 再現率の問題です。関連するドキュメントはインデックスに存在しますが、ユーザーの言葉と文書の単語が十分に一致しないため、BM25はそれらを見つけることができません。

同義語を追加することは、既知の事例に役立ちますが、ユーザーが意図を表現するすべての方法を列挙することはできません。そこでベクトルが役立ちます。

リコールを測定すべき理由

問題を解決する前に、まずそれを定量化する必要があります。

Recall@kは、ユーザーが実際に求めているドキュメントのうち、検索結果に表示されるドキュメントの数を測定します。正式には：

Recall@k = (relevant documents found in top k) / (total relevant documents)

Precision@kは、上位k件の結果のうち、実際にどれだけ関連性があるかを測定します。

Precision@k = (relevant documents in top k) / k

高精度とは、得られる結果が良好であることを意味します。電子商取引においては、関連商品を見落とすこと（再現率の低さ）は、多少不完全な結果を表示すること（精度の低さ）よりも深刻です。なぜなら、商品が表示されないということは、販売機会の損失を意味するからです。

Elasticsearchのrank_eval APIは、両方を体系的に測定できます。それぞれに評価されたドキュメントを含むクエリのリストを提供すると、Elasticsearchがすべてのクエリのメトリックを計算します。

評価の設定

rank_eval APIには評価データセットが必要です。これは、クエリとそれに関連するドキュメントのマッピング、および関連性グレード（0 = 関連性なし、1 = 関連性あり、2 = 非常に関連性あり）で構成されます。

ノートブックでは、これは判断リストです。

judgments = [
    # Query 1: "running shoes" BM25 handles well (tokens appear in product titles) 
    {"query_id": "q1", "doc_id": "B09NQJFRW6", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B08JMD4LMM", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B08VRJ6F2Q", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B07S8NRRWR", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B01HD620I8", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B07DX86321", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B0968YVLQ8", "grade": 1, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B093QJ39ZS", "grade": 1, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B096FGSC39", "grade": 1, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B01GVQWVV2", "grade": 1, "query": "running shoes"},

    # Query 2: "skincare routine" intent-based, "routine" never appears in product titles
    {"query_id": "q2", "doc_id": "B08XMPKJ1L", "grade": 2, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B0BN3WQB92", "grade": 2, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B0BT7B7P5T", "grade": 2, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B00NPA2WEY", "grade": 2, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B06XX6DS3P", "grade": 1, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B07PDRD1KT", "grade": 1, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B074J7869B", "grade": 1, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B08JV31QW4", "grade": 1, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B00K3TVJMQ", "grade": 1, "query": "skincare routine"},

    # Query 3: "study desk setup" intent-based, products are desks/stands/organizers
    {"query_id": "q3", "doc_id": "B08CS35J2T", "grade": 2, "query": "study desk setup"},
    {"query_id": "q3", "doc_id": "B09B3LFDXJ", "grade": 2, "query": "study desk setup"},
    {"query_id": "q3", "doc_id": "B07W58LMND", "grade": 1, "query": "study desk setup"},
    {"query_id": "q3", "doc_id": "B0CHYDX91L", "grade": 1, "query": "study desk setup"},

    # Query 4: "pet travel accessories" use-case grouping, products are carriers/crates/seats
    {"query_id": "q4", "doc_id": "B08R8FRW53", "grade": 2, "query": "pet travel accessories"},
    {"query_id": "q4", "doc_id": "B01MYUYX33", "grade": 2, "query": "pet travel accessories"},
    {"query_id": "q4", "doc_id": "B003C5RKE4", "grade": 2, "query": "pet travel accessories"},
    {"query_id": "q4", "doc_id": "B09GF8GBF6", "grade": 1, "query": "pet travel accessories"},
    {"query_id": "q4", "doc_id": "B0CP3LQSWM", "grade": 1, "query": "pet travel accessories"},
]

この組み合わせは意図的なものです。 q1はBM25が適切に処理するクエリ（製品タイトル内の正確なトークン）であり、 q2 、 q3 、 q4はユーザーの意図が特定の製品キーワードではなく概念として表現されるインテントベースのクエリです。

BM25ベースライン再現率の測定

まず、Elasticsearchクライアントを設定し、生のテキストデータをインデックス化します。

import os
import json
import pandas as pd
import plotly.graph_objects as go
from elasticsearch import Elasticsearch, helpers
from dotenv import load_dotenv

load_dotenv()

es = Elasticsearch(
    os.getenv("ELASTICSEARCH_URL"),
    api_key=os.getenv("ELASTICSEARCH_API_KEY")
)

INDEX_NAME = "ecommerce-products"

次にBM25のrank_evalリクエストを作成しましょう。リスト内の各リクエストは、クエリとその評価を組み合わせたものです。

judgments_df = pd.DataFrame(judgments)

bm25_requests = []
for query_id, query_text in (
    judgments_df[["query_id", "query"]].drop_duplicates().values
):
    relevant_docs = judgments_df[judgments_df["query_id"] == query_id]
    ratings = [
        {"_index": INDEX_NAME, "_id": row["doc_id"], "rating": row["grade"]}
        for _, row in relevant_docs.iterrows()
    ]

    bm25_requests.append({
        "id": query_id,
        "request": {
            "query": {
                "multi_match": {
                    "query": query_text,
                    "fields": ["title", "description"]
                }
            }
        },
        "ratings": ratings,
    })

bm25_eval = {
    "requests": bm25_requests,
    "metric": {"recall": {"k": 10, "relevant_rating_threshold": 1}},
}

bm25_result = es.rank_eval(index=INDEX_NAME, body=bm25_eval)
print("BM25 Recall@10:", bm25_result.body["metric_score"])

次の結果が得られます。

BM25 Recall@10: 0.43

0.43 は、4つのクエリすべてで、BM25が見つけるべきドキュメントの43%しか見つけられないということです。不足している点は、意図に基づくクエリに集中している。「スキンケアルーティン」という検索では、「ルーティン」が製品タイトルに含まれていないため、フェイス美容液やボディオイルが見つかりません。また、「ペット用旅行用品」という検索では、旅行用品ではなく携帯性や安全性の観点から説明されているキャリーケースやクレートが見つからない一方で、関連性のないペット用品が検索結果に表示されます。

これがベースラインです。これで、破るべき数値ができました。

Jina埋め込みを用いたベクトル検索機能の追加

Vector search はドキュメントとクエリを高次元ベクトルとしてエンコードします。高次元ベクトルとは、数百または数千の数値から構成されるベクトルの一種で、各数値はそれが表すデータの特定の特徴をエンコードします。意味が似ているドキュメントは、たとえ共通の単語が一つもなくても、ベクトル空間上では互いに近い位置に配置されます。「ジム器具」と「ダンベルセット」は、概念が関連しているため、近くに配置されるでしょう。私がベクトルデータベースとしてElasticsearchを選んだ理由は、ハイブリッド検索をサポートしており、セマンティックな理解とキーワードの精度をすぐに実現できるからです。

EISには、推論APIを通じてモデル埋め込みを標準でサポートする機能が含まれています。

ステップ1：Jina埋め込みv5を推論エンドポイントとして使用する

INFERENCE_ENDPOINT_ID = ".jina-embeddings-v5-text-small"

クラスターにGPUリソースがある場合（Elastic CloudおよびElasticsearch 9.3以降で利用可能）、埋め込みはGPU上で生成されます。これはCPU推論よりも大幅に高速であり、従来、大規模な環境でベクトル処理を高価にしていたパフォーマンスのトレードオフを解消します。

なぜJina埋め込みが特に重要なのでしょうか。JINA-embeddings-v5-textは、32,000トークンのコンテキストウィンドウを持ち、タスク固有の Low-Rank Adaptation (LoRA) アダプターをサポートする多言語モデル（119言語以上に対応）です。短い商品説明であれば、そのままでも十分に機能します。jina-embeddings-v5-textモデルの詳細についてはこちらをご覧ください。

ステップ2：セマンティックフィールドを持つインデックスを作成

index_mappings = {
    "mappings": {
        "properties": {
            "title": {"type": "text", "copy_to": "semantic_field"},
            "description": {"type": "text", "copy_to": "semantic_field"},
            "brand": {"type": "keyword"},
            "category": {"type": "keyword"},
            "semantic_field": {
                "type": "semantic_text",
                "inference_id": INFERENCE_ENDPOINT_ID,
            },
        }
    }
}

if not es.indices.exists(index=INDEX_NAME):
    es.indices.create(index=INDEX_NAME, body=index_mappings)
    print(f"Created index: {INDEX_NAME}")

ここで重要なのは semantic_text フィールドタイプです。これはdense_vectorよりも高レベルの抽象化です。推論エンドポイントを指定すると、Elasticsearchが埋め込みの生成を自動的に行います。

copy_toプロパティがtitleとdescriptionにある場合、両方のフィールドのコンテンツがsemantic_fieldに流れ込んで埋め込まれるため、単一のベクトルで製品の完全な表現を捉えることができます。

ステップ3：製品をインデックス化する

def bulk_index(products, index_name):
    actions = []
    for product in products:
        doc_id = product.get("_id")
        source = {k: v for k, v in product.items() if k != "_id"}
        action = {"_index": index_name, "_source": source}
        if doc_id:
            action["_id"] = doc_id
        actions.append(action)

    success, failed = helpers.bulk(es, actions, raise_on_error=False)
    if failed:
        for error in failed:
            print(f"Error: {error}")
    else:
        print(f"Successfully indexed {success} documents")

bulk_index(products, INDEX_NAME)

インデックス時には、Elasticsearchは各文書の推論エンドポイントを呼び出し、その結果得られた埋め込みをsemantic_fieldに保存します。余計なコードは必要ありません。

ハイブリッド検索：BM25とベクトルおよびRRFの組み合わせ

ベクトルを追加すると再現率は向上しますが、ベクトルのみを使用すると、完全一致クエリの精度が低下するリスクがあります。「ランニングシューズ」は、依然として逐語的に一致するものを最優先にランク付けするべきです。ハイブリッド検索は、その精度を維持するために、語彙要素を意図的に保持します。

ハイブリッド逆順位融合（RRF）検索は、両方の長所を保持します。

BM25は正確およびほぼ正確なクエリを高精度で処理します。
セマンティック検索は、意図に基づく多言語クエリを高い再現率で処理します。
RRFは2つのランキングリストを1つのランキングに統合します。

RRF式は、各結果リストのランクに基づいて各文書にスコアを割り当てます。

score = sum(1 / (rank_constant + rank))

両方のリストで上位に表示されるドキュメントほど、統合スコアは高くなります。rank_constantは、より低いランクの文書に与えられる重みを制御します。

hybrid_requests = []

for query_id, query_text in (
    judgments_df[["query_id", "query"]].drop_duplicates().values
):
    relevant_docs = judgments_df[judgments_df["query_id"] == query_id]
    ratings = [
        {"_index": INDEX_NAME, "_id": row["doc_id"], "rating": row["grade"]}
        for _, row in relevant_docs.iterrows()
    ]

    hybrid_requests.append({
        "id": query_id,
        "request": {
            "retriever": {
                "rrf": {
                    "retrievers": [
                        {
                            "standard": {
                                "query": {
                                    "multi_match": {
                                        "query": query_text,
                                        "fields": ["title", "description"],
                                    }
                                }
                            }
                        },
                        {
                            "standard": {
                                "query": {
                                    "match": {
                                        "semantic_field": {"query": query_text}
                                    }
                                }
                            }
                        },
                    ],
                    "rank_window_size": 50,
                    "rank_constant": 5,
                }
            }
        },
        "ratings": ratings,
    })

hybrid_eval = {
    "requests": hybrid_requests,
    "metric": {"recall": {"k": 10, "relevant_rating_threshold": 1}},
}

hybrid_result = es.rank_eval(index=INDEX_NAME, body=hybrid_eval)
print("Hybrid Recall@10:", hybrid_result.body["metric_score"])

次の結果が得られます。

Hybrid Recall@10: 0.75

ハイブリッドはBM25（0.43）よりも大幅に改善されており、「ランニングシューズ」のような完全一致クエリに対しても精度を維持します。

結果：ビフォーアフター

3つのアプローチの完全な比較は次のとおりです。

methods = {
    "BM25 (Lexical)": bm25_requests,
    "Hybrid (BM25 + Vectors)": hybrid_requests,
}

recall_metric = {"recall": {"k": 10, "relevant_rating_threshold": 1}}

comparison_data = []
for method_name, requests in methods.items():
    result = es.rank_eval(
        index=INDEX_NAME,
        body={"requests": requests, "metric": recall_metric}
    )
    comparison_data.append({
        "method": method_name,
        "recall@10": result.body["metric_score"]
    })

comparison_df = pd.DataFrame(comparison_data)
print(comparison_df.to_string(index=False))

次の結果が得られます。

メソッド	Recall@10
BM25（語彙）	0.43
ハイブリッド（BM25 + ベクター）	0.75

クエリごとに分解すると次のようになります。

まとめ

この記事を通して、BM25の語彙検索は、ユーザーが正確なクエリを入力する場合には信頼性が高いものの、キーワードではなく意図に基づいて検索する場合は再現率が低下することがわかりました。rank_evalを用いて、そのギャップを実数で測定するための再現可能な基準を確立しました。そこから、Jina埋め込みを利用したsemantic_textフィールドを追加し、評価を再度実行しました。結果：ハイブリッド検索により、0.43から0.75への再現率が向上し、正確な一致クエリでの精度を維持しました。ただし、実際の差はクエリの組み合わせによって異なります。

このパターンは、この例を超えてスケールします。ユーザーの実際のクエリから判断を収集し、rank_evalをベースラインとして実行し、semantic_textを追加して再度測定します。何がどれだけ改善したかが正確にわかるでしょう。

今後の見通し

再現率とベクトル検索についてさらに詳しく：再現率とベクトル検索の量子化（Jeff Vestal著）
上位結果の精度をさらに向上させるために再ランキング機能を追加
Elasticsearchハイブリッド検索のドキュメントをご覧ください。
rank_eval APIについて詳しくはこちら

eコマース検索を管理するための制御プレーンの構築

Alexander Marquardt, Honza Král, Taylor Roy — Fri, 01 May 2026 00:00:00 GMT

本シリーズのパート1とパート2では、eコマース検索にガバナンスレイヤー、つまりユーザーのクエリと検索エンジンの間の意思決定レイヤーが必要な理由を明らかにしました。このレイヤーは、意図を分類し、制約を適用し、適切な検索戦略（例えば、BM25、セマンティック、ハイブリッド）にルーティングします。この記事では、クエリ解釈ポリシーをドキュメントとして保存し、クエリ実行時に高速な逆マッチングによって取得する、シンプルなアーキテクチャプリミティブを使用してそのレイヤーを構築する方法を示します。新しい検索ポリシー（「ブランドXを優先」や「カテゴリYのみを表示」など）はコードの変更を必要としないため、結果として、ポリシーが進化してもルーティングレイヤーは安定性を保ち、リスクの高い環境でも検索エンジンを安全に保つことができます。このアーキテクチャの最終的な成果を先に知りたい方は、動画「Fixing Search Relevance in Seconds: Introducing PRISM」をご覧ください。

クエリの解釈が難しい理由

ポリシーをコードとして保存する（アプリケーション層のif/elseブロックとして保存する）と、クエリ時に効率的にポリシーを取得するためのインデックスが一切ない、何万行にも及ぶ脆弱なロジックが生成されます。反復処理が遅く（単一のクエリの動作変更に6週間の導入サイクルが必要になる場合も）、責任の所在が不明確（結果が変更された理由は？）、そしてビジネスユーザーはエンジニアリングの関与なしに検索動作を変更できません。これは次の画像の左側に表示されています。

ポリシーをデータとしてElasticsearchインデックスに格納する方法は上の画像の右側に示されています。このアプローチにより、ハードコードされたクエリ解決ロジックに伴う問題をすべて解消できます。ただし、これを機能させるには、どのポリシーがユーザーのクエリに一致するかを素早く判断し、競合をどのように解決するかを決定する方法が必要です。ここで、ガバナンスを備えた制御プレーンが役立ちます。

制御プレーンのパターン

ガバナンスを備えた制御プレーンは、生のユーザークエリとElasticsearchの検索の間に位置します。ユーザーテキストを入力として受け取り、出力にフィルター、ブースト、検索ルーティングの決定を含む実行計画です。

制御プレーンパイプラインは以下で構成されます:

ユーザークエリ：ユーザーは探しているものの文字列を入力します。例えば「オレンジ」や「おじいちゃんへのプレゼント」など。
ポリシー検索：ユーザーのクエリをポリシーインデックスと照合します。
一致するポリシーを返す：ユーザークエリに一致するポリシーがポリシーインデックスから返されます。
ポリシーの適用：制御プレーンは、返されたこれらのポリシーを分析し、一致するポリシーを、フィルター、ブースト、オーバーライド、ガードレールを含む単一の一貫性のある実行計画に構成し、適切な検索方法（語彙的、意味的、ハイブリッドなど）を適用します。
実行：変更された意図認識型のElasticsearchクエリがアプリケーションに渡され、商品カタログインデックスに対して実行されます。
説明（オプション）：ビジネスと意図に沿った結果を提供するクエリの作成に加えて、制御プレーンは、どのポリシーがトリガーされ、それらがどのように組み合わせられたかを示すオプションの説明ペイロードを提供します。

ユーザーの検索文字列にどのポリシーを適用すべきかを判断するには高速な逆マッチングプリミティブが必要であり、私たちはそれをpercolator（パーコレーター）クエリで解決します。関連するポリシーを取得した後、一致する複数のポリシーを統合された実行計画に組み合わせるには、判断フレームワークが必要です。これには、優先順位、競合戦略、使用済みフレーズの追跡、ポリシーを個別にではなく順番に適用するカスケード変換が含まれます。さらに、最も適切な検索技術を選択する必要があります（例えば、「オレンジ」にはBM25 、一方「おじいちゃんへのプレゼント」にはセマンティック検索など）。

ポリシー検索：商品検索前にクエリを確認

購入者がクエリを入力しても、ガバナンス付きの制御プレーンを備えた検索システムは、そのクエリを直接商品カタログに対して実行することはありません。まず、クエリは保存されたポリシーのセットと照合され、クエリの意図やビジネスの優先順位を反映するように修正されます。

ポリシー構造

各ポリシーは、以下の2つの事項を定義するシンプルな文書です。

一致基準：このポリシーをトリガーするクエリテキスト。正確なフレーズ、単語、パターン、またはそれらの組み合わせです。
アクション：ポリシーが発動した際に何をすべきか。これは、カテゴリーフィルターの適用、商品の除外、価格制約の抽出、または検索戦略の変更などが考えられます。

システムは、一致するすべてのポリシーを検出し、それらを実行計画にまとめ、その後で初めて商品検索を実行します。これらのポリシーを総合的に見ると、まるであなたが探しているものを理解し、適切な通路まで案内してくれる知識豊富な店員のような役割を果たします。

ポリシーパターン

本シリーズの最初の記事では、実際に運用されているポリシーの例を紹介しました。「オレンジ」を農産物カテゴリーに限定すること、「ピーナッツなし」を除外対象として扱うこと、「おじいちゃんへのプレゼント」をセマンティック検索にルーティングすることなどです。重要なアーキテクチャー上のポイントは、いずれの場合も、商品検索を開始する前に、クエリが保存されているポリシーと照合されるという点です。これらのポリシーは、適用する制約、変更するテキスト、使用する検索戦略を決定します。商品カタログに対するクエリは、ポリシーが適用され、新たに書き換えられたクエリが作成された後に行われます。

これが高速である理由

企業向けeコマースシステムには数百万の商品が存在しても、ポリシーは数百から数千件しかないかもしれません。ポリシー検索のステップでは、商品カタログ全体ではなく、厳選された小規模なインデックスに対して検索を行うため、高速です。また、ポリシーは独自のインデックスにデータとして保存されるため、マーチャンダイザーが新しいポリシーを追加する際にアプリケーションコードを変更する必要はなく、商品検索を最適化するエンジニアもポリシーインデックスを変更する必要がありません。この2つの懸念は独立して発展していきます。

上記の例では、概念的に何が起こるかを説明しています。内部的には、ポリシー検索はElasticsearchのパーコレータークエリタイプを使用して実装されています。これは、受信テキストを保存済みのクエリセットと照合するという、この種のパターンに特化して設計されたものです。パート4では、このシリーズのパーコレーター実装について、インデックスマッピング、境界マーカー、ハイライトベースのフレーズ追跡を含めてハンズオン形式で詳しく解説しています。パート4でルックアップメカニズムについて詳しく解説したので、ここではポリシードキュメントに実際に何が含まれているのか、そして制御プレーンが複数のポリシーをどのように組み合わせて単一の実行計画を作成するのかを見ていきましょう。

ポリシーの例

ポリシーが概念的にどのような役割を果たすのかを見てきたところで、次に政策が実際にどのような内容を含んでいるのかを見ていきましょう。以下の2つのポリシーは、意図的に対立するように設計されており、次のセクションで説明する競合解決システムの実例となります。

安いチョコレート

以下に示すポリシーは、ユーザーが「安いチョコレート」というフレーズを含む検索を送信したかどうかを検出します。その場合、結果は「チョコレート」と「ミルクチョコレート」のカテゴリーに限定されます。このポリシーには2ドルの価格フィルターも適用されます。また、このポリシーの優先度は210であることにも注意してください。これについては、競合解決についてより詳しく説明する際に改めて触れます。

ここに示されているフィルターモードと競合戦略の設定（hard_filter、soft_boost、restrict、override）については、以下の競合解決セクションで詳しく説明します。

上記のポリシーが有効になっている場合、「安いチョコレート」を検索すると、2ドルの価格フィルターが適用され、検索結果は「チョコレート」と「ミルクチョコレート」のカテゴリーに制限されます。結果の例を以下に示します。

クリスマスチョコレート

以下に示すポリシーは、クリスマスの時期に適用すると想定できるポリシーの例です。この例では、検索結果を「クリスマスの食べ物と飲み物」と「クリスマスのお菓子」に限定し、「アドベントカレンダー」カテゴリーに含まれる商品をブーストし、手頃な価格の季節商品にフォーカスするために7ドル未満の価格フィルターを適用しています。さらに、このポリシーの優先度は300であることにも注意してください。これについては、競合解決をさらに詳しく説明する際に改めて取り上げます。

上記のポリシーが有効で、競合するポリシーがない場合、「チョコレート」の検索では7ドルの価格フィルターが適用され、「クリスマスの食べ物と飲み物」および「クリスマスのお菓子」のカテゴリに結果が限定され、「アドベントカレンダー」としてタグ付けされた商品の表示がブーストされます。結果の例を以下に示します。

一致するポリシーの組み合わせ

上記のポリシー検索は話の半分に過ぎません。もう半分は、複数のポリシーが同じクエリに一致した場合に起こることです。

複雑なシステム展開においては、単一のクエリによって複数のポリシーが同時に実行されることが一般的です。「安いチョコレート」は、上記で示した2つのポリシーの両方に合致します。それぞれのポリシーは単独で見れば正しいものです。課題は、それらを矛盾なく、二重計算せずに、そして一つのポリシーが他のポリシーの作業を静かに無効にすることなく、単一の一貫した実行計画にまとめることです。

これは検索の問題ではなく、判断の問題です。システムは以下を決定しなければなりません。

適用順序：否定ポリシーにより「ピーナッツなし」がクエリから削除された場合、価格ポリシーは元のテキストと変更後のテキストのどちらを参照するか？
フィルターの競合：2つのポリシーで異なる価格上限が設定されている場合、どちらを優先するか？敗者はひっそりと切り捨てられるのか、それとも穏やかに順位を落とし、ソフトブーストにつなげるのか？
フレーズの所有権：2つのポリシーが同じ単語に一致し、最初のポリシーがすでにその単語を消費している場合、2番目のポリシーは実行されるべきか？

単純な実装（一致するポリシーをすべて個別に適用し、結果をマージ）では、ポリシー同士が相互作用するとすぐに問題が発生します。アーキテクチャーにはポリシーの構成方法に関する明示的なモデルが必要です。次の2つのセクションでは、そのモデルについて説明します。すなわち、優先順位付けと競合解決の枠組み、そしてポリシー間の相互作用を決定論的にするカスケード変換モデルです。

重要な点は、ポリシーの適用は独立した一連の操作ではなく、カスケード的な変換であるということです。各ポリシーは、すべての上位ポリシーによって生成された書き換え状態を受け取り、それをさらに変換します。

初期状態 → ［ポリシーA］ → 状態' → ［ポリシーB］ → 状態'' → ... → 実行計画

状態は書き換えられたクエリテキスト、累積されたフィルター、現在の意図、そしてすべての同義語展開を保持します。優先度の高いポリシーはクエリからテキストを削除することができ、それ以降のすべてのポリシーは元のクエリではなく、変更されたクエリを参照します。コンテキストが蓄積されます。順序が重要です。

優先順位と競合の解決：決定論が重要

具体的な競合戦略は設計上の選択です。組織によって競合解決の方法は異なり、それぞれのビジネス上の要件によって左右されます。以下のアプローチは、制御プレーンに必要な判断フレームワークの種類を示しています。重要なのはこれらの具体的な戦略そのものではなく、システムが予測不可能な相互作用によって競合を解決するのではなく、明確で決定論的な戦略を持つことです。

優先度による順序付け

ポリシーは優先度の高い順に並べ替えられます（最も優先度の高いものから）。複数のポリシーが同じクエリに一致する場合、それらは優先順位に従って適用されます。2つのポリシーが同じフィルターフィールドを設定しようとすると、そのフィールドに対して優先順位の高いポリシーが宣言した戦略が優先されます。同じ優先度を持つポリシーが複数トリガーされた場合、IDが最も高いポリシーが優先されます（より高い優先度が割り当てられているかのように）。この選択により、競合が発生した場合でも決定的な動作が保証されます。

ポリシー単位ではなく、フィールド単位の解決

重要な設計原則：競合解決はフィールドごと（例えば、ブランド、カテゴリー、または説明）で動作し、ポリシーごとではありません。2つのポリシーが特定のフィールドで重複するフィルターを生成する場合、その特定のフィールドのみが競合解決戦略の影響を受け、解決戦略は最も優先度の高いマッチングポリシーによって定義されます。両ポリシーの競合しないフィールドはそのまま残ります。

これは重要です。なぜなら、ポリシーごとのアプローチの代替案では、フィールドの1つだけが競合する場合でも、システムはポリシー全体を受け入れるか拒否しなければならないからです。

フィールドごとの解決により、有用な制約情報を最大限保持できます。

フィルターフィールドごとに3つの設定

ポリシー内の各フィルターフィールドには、3つの独立した設定があります。

フィルターモード：競合がない場合にフィルターがどのように適用されるか。

hard_filter （デフォルト）：Elasticsearchのbool.filter句として適用されます。これは無関係な商品を完全に除外するのに役立ちます。例えば、「オレンジ」という検索語を農産物カテゴリーに限定すると、オレンジジュースやオレンジマーマレードなどの検索結果は除外されます。一致しない文書は検索結果から完全に除外されます。
soft_boost：Elasticsearch function_score の重みとして適用され、boost_weight を設定可能です。一致する文書はランキングが上がりますが、一致しない文書も除外されるわけではありません。これは、他のブランドを排除することなく、自社ブランドの認知度を高めるといった場合に役立ちます。

競合戦略

低優先度のポリシーが同じフィールドを設定した場合、何が起こるのでしょうか。

override：この優先度の高いポリシーの値が優先され、優先度の低いポリシーの値は完全に無視されます。すべてのフィールドタイプに有効です。
restrict:より制限的な数値（例えば、価格__max, the higher floor for price__分の下限）を取ります。数値範囲フィールドでのみ有効です。
merge：両方の値を結合して和集合にします。数値以外のフィールドにのみ有効です。
soft_boost：競合するフィルターを、ハードフィルターではなく、設定可能なboost_weightを持つfunction_score重みに変換します。function_scoreブーストの詳細については、Elasticsearchの乗算ブーストによるBM25ランキングへの影響をご覧ください。これは非否定フィールドにのみ有効です。

値：実際のフィルター値（例：カテゴリーリスト、価格しきい値）。

フィールド別戦略：すべての戦略がすべてのフィールドに有効とは限りません。例えば、除外は本質的に二項的であるため、ソフトブーストはできません。以下の表は各フィールドタイプで利用可能な戦略を示しています。

フィールドタイプ	利用可能な戦略	デフォルト
否定フィールド(__not, __match__not)	オーバーライド、マージ	オーバーライド
数値範囲フィールド（__max, __min、__gt, __lt）	制限、オーバーライド、soft_boost	制限
その他すべてのフィールド（keyword、text）	soft_boost、override、merge	ソフトブースト

否定フィールドは、除外が二値であるため、ソフトブーストすることはできません。「缶詰食品を一切表示しない」を「缶詰以外の食品をやや優先する」に変更すると、意味が根本的に変わってしまいます。「缶詰食品」の商品は依然として表示され、順位が少し下がるだけなので、除外する目的が損なわれてしまいます。

具体的な例：クリスマスキャンペーン中に「安いチョコレート」を検索

あるマーチャンダイザーが、先に説明した2つのチョコレートに関するポリシーを作成したとします。1つは安価なチョコレート向けの優先度の低いポリシー、もう1つはクリスマス期間中に有効になる優先度の高いチョコレート関連のポリシーです。これらのポリシーが両方とも有効になっている場合、それらがどのように組み合わせられるかは、優先順位の高いポリシーのフィルターモードと競合戦略によって決まります。前述の2つのポリシーが両方とも有効になっている場合、それらは以下のように組み合わせられます。

これは、カテゴリーに関する競合と価格に関する競合という2つの対立を示しています。この変換後に実行されるクエリは以下の特徴を持つことに注意してください:

「クリスマスの食べ物と飲み物」および「クリスマスのお菓子」のカテゴリーに属する商品のみが表示されます。
これらのカテゴリーの中で、商品に「アドベントカレンダー」カテゴリーのタグが付けられている場合は、3倍ブーストされます。
2ドルの価格フィルターが適用されます。これは優先度の低いポリシーから取得されたものです（優先度の高いポリシーでは、競合が発生した場合に「制限」するように指定されているため）。
「安い」という単語が削除され、「チョコレート」に一致する商品のみが表示されます。

これら2つのポリシーを有効にすると、「安いチョコレート」という検索語は、以下の画像のような結果を返します。

制約の緩和

おそらく、その小売業者はクリスマス期間中に「チョコレート」や「ミルクチョコレート」といったカテゴリーの商品を除外したくないのでしょう。クリスマスポリシーの設定が行き過ぎて、「安いチョコレート」ポリシーで適用されているカテゴリが誤って削除された可能性があります。これは、優先度の低いポリシーと相反する優先度の高いポリシーを組み合わせる方が望ましい場合がある理由を示す一例です。例えば、クリスマスチョコレートのプロモーションを修正して、競合が発生した場合に「オーバーライド」するのではなく、優先度を少し高めるようにすることができます。そのポリシーの変更は以下の通りです。

この修正後、「安いチョコレート」のクエリ書き換え変換パイプラインの実行は次のようになります。

競合時のソフトブーストでは、競合するフィルターは削除されるのではなく、ソフトブーストに変換されます。この変換後に商品カタログに対して実行されるクエリは、以下の特徴を持ちます。

優先度の高いポリシーでは「競合発生時」が「ソフトブースト」として指定されているため、競合は以下のようにブーストに変換されます。
- 「クリスマスの食べ物と飲み物」および「クリスマスのお菓子」のカテゴリーの商品には、1倍のブーストが適用されます。
- 「チョコレート」および「ミルクチョコレート」カテゴリーの製品には、3倍のブーストが適用されます。
前の例と同様に、商品が「アドベントカレンダー」カテゴリーに分類されている場合、それらは3倍ブーストされます。
前述の例と同様に、2ドルの価格フィルターが適用されます。
「安い」という単語が削除され、「チョコレート」に一致する商品のみが表示されます。

フィルタリング条件を緩めると、結果は以下のようになります。

優先順位の高いポリシーによる価格のオーバーライド

あるいは、小売業者はクリスマス期間中に少し高めのチョコレートを表示できるように、価格の上限を7ドルに引き上げたいと考えているかもしれません。誰かが「安いチョコレート」を検索した場合でも、クリスマスチョコレートポリシーの最大価格がオーバーライドされないようにするには、価格の競合モードを「制限」ではなく「上書き」に設定できます。設定方法は以下のとおりです。

このオーバーライドでは、「安いチョコレート」のクエリは、「安いチョコレートポリシー」で定義されている最高価格を無視し、次のように「クリスマスチョコレート」ポリシーで指定された価格のみを適用します。

これは前の例と似ていますが、違いは、優先順位の高いポリシーで競合時に「オーバーライド」が指定されているため、最大価格が7ドルの値に設定されている点です。クリスマス価格フィルターを優先すると、結果は次のようになります。

これら3つのバリエーション（override、soft_boost、価格のoverride）は、システムの重要なプロパティを示しています。マーチャンダイザーは、コードをデプロイせずに、1つのポリシー内の1つのフィールド設定を変更するだけで2つのポリシーの相互作用を変更できます。競合戦略は、ビジネスの行動を制御する手段となります。

消費されたフレーズの追跡

より微妙な形の対立もあります。同じ言葉で一致する2つのポリシーです。優先度の高いポリシーがクエリから「ピーナッツなし」を削除した場合、「なし」に一致した優先度の低いポリシーは処理すべき対象がなくなります。システムは、一致したフレーズが書き換えられたクエリに存在しないことを検出すると、優先度の低いポリシーをスキップします。

インテントポリシーは、消費されたフレーズの追跡の対象外です。優先度の高いポリシーによって削除されたテキストに関係なく、元のクエリの一致に基づいて検索戦略を設定します。

優先順位付け、フィールドごとの競合解決、消費されたフレーズの追跡を組み合わせることで、制御プレーンは決定論的な構成モデルを実現できます。その基盤が整えば、システムはリスクのあるルーティング決定を行うことができます。

ガバナンスにより検索戦略が安全に

適切な検索方法（テキスト、セマンティック、またはハイブリッド）へのルーティングに関する重要な洞察は、それがガバナンスの後に実行されるということです。ポリシーですでに「農産物カテゴリー」が規定されている場合、候補セットが制限されるため、セマンティック検索のリスクは大幅に軽減されます。500点の商品アイテムに対するセマンティック検索は、50万点のSKUに対するセマンティック検索とは全く異なるものです。ガバナンスにより、検索が始まる前に影響範囲が狭められます。

例えば、ガバナンスがない場合、「4ドル以下のビタミンCを多く含む果物」というセマンティッククエリは、果物に加えて、ビタミン剤、ニンジン、ピーマンを返す可能性があります。制御プレーンは、これらの望ましくない結果が意味展開の一部として考慮されないことを保証します。

この制約が設定されると、制御プレーンは実用的なルーティングロジックを適用します。

ナビゲーションクエリやヘッドクエリなど、決定論的な精度が重要な場面における語彙。
概念マッチングが役立つ、記述的なディスカバリークエリのためのセマンティクス。
制約がすでに実施されており、企業がより広範なリコールを受け入れる場合には、選択的にハイブリッドを採用。

アーキテクチャーから実装へ

ガバナンスを備えた制御プレーンは、アプリケーションコードにそのロジックを組み込むことなく、ビジネスの意図を決定論的で構成可能な実行計画に変換します。ポリシーはデータであり、クエリ時に照合され、フィールドごとの明示的な競合戦略によって解決され、説明可能な結果を生み出すカスケード変換として適用されます。Elastic Services Engineeringは、企業のeコマースチーム向けに、コンセプトから本番環境までの道のりを短縮する反復可能なパターンとアクセラレーターを使用してこのアーキテクチャーを構築しデプロイしました。制御プレーンの実装デモは、YouTubeの「Fixing Search Relevance in Seconds: Introducing PRISM」でご覧いただけます。

このシリーズの次回作

次回の投稿では実装をハンズオンで解説し、Elasticsearchパーコレーターがポリシーのルックアップをどのように支えているかを取り上げます。インデックスのマッピング、境界マーカー、ハイライトに基づくフレーズ追跡、具体的なクエリ例も紹介します。

ガバナンスを備えたeコマース検索を実践

この投稿で説明されている制御プレーンアーキテクチャー（フィールドごとの競合解決、カスケードポリシー変換、ガバナンス制約付き検索ルーティング）は、Elastic Services Engineeringによって設計および構築されました。このシリーズで紹介するパターン、スクリーンショット、トランスフォーメーションパイプラインはすべて、Elastic Services Engineeringによって構築され、エンタープライズスケールの商品カタログと照合された実際のシステムからのものです。

Elasticsearch上にガバナンスを備えたポリシー駆動型の制御プレーンを実装したい場合、Elastic Servicesを利用すれば、より迅速に実現できます。

議論に参加

マッピングの競合を解決するデータストリームの再インデックス

Lisa Larribas — Fri, 24 Apr 2026 00:00:00 GMT

フィールドにマッピング競合が発生した場合、Elastic Common Schema標準（ECS標準）であれデータソース固有であれ、Dev Toolsを使用してデータを再インデックスする必要が生じます。これらの競合は、インジェスト後のダウンストリーム機能に悪影響を与え、不正確な結果を引き起こしたり、可視化、ダッシュボード、Securityアプリ、アグリゲーションなどの機能においてデータセット全体の使用を妨げたりする可能性があります。このブログ記事では、この再インデックス処理の手順を詳しく説明します。

このブログのコンテンツは、Elasticのバージョン9.2.8と8.19.14、Filestream Integrationのバージョン2.3.0と1.2.0を使用して開発および検証されました。

重要な注意点：環境によっては、一部の手順を個別に変更する必要がある場合があります。さらに、Filestream Integrationバージョン2.3.3以降、@package コンポーネントテンプレートから動的テンプレートが削除されたことに注意してください。

再インデックス処理を開始する前に、環境における現在のストレージ割り当て状況を考慮することが重要です。以下に概説する手順では、既存のバッキングインデックスのコピーを作成し、それを一時的にホットティアに配置します。

Elasticsearchのデータティア

ホット：ホットティアはElasticsearchにおける時系列データの入り口であり、最新かつ頻繁に検索されるデータを保存します。ホットティアノードは高速な読み書きを必要とするため、より多くのリソースと高速ストレージ（SSD）が必要となります。このティアは必須であり、新しいデータストリームインデックスはここに自動的に割り当てられます。
ウォーム：時系列データは、ホットティアにある最近インデックス化されたデータよりもクエリ頻度が低くなると、ウォームティアに移動できます。ウォームティアには通常、直近数週間のデータが格納されます。更新は引き続き可能ですが、頻度は低いと思われます。ウォームティアのノードは、一般的にホットティアのノードほど高速である必要はありません。レジリエンス性確保のため、ウォームティアのインデックスは1つ以上のレプリカを使用するように設定する必要があります。
コールド：検索頻度の低いデータは、ウォーム層からコールド層に移動できます。コールドティアは検索は可能ですが、検索速度よりもストレージコストの削減を優先します。あるいは、コールドティアでは、検索可能なスナップショットの代わりにレプリカ付きの通常のインデックスを保存することで、ウォームティアと比較してディスク容量の要件を減らすことなく、古いデータに対してより安価なハードウェアを使用することができます。
フローズン：クエリされる頻度が低い、またはクエリされなくなったデータは、その残りのライフサイクルにおいてコールドティアからフローズンティアに移動します。このティアでは、スナップショットリポジトリと部分的にマウントされたインデックスを使用してデータを格納・読み込み、ローカルストレージとコストを削減しながら検索を可能にします。フローズンティアでの検索は、Elasticsearchがスナップショットリポジトリから凍結されたデータを取得する必要があるため、一般的にコールドティアでの検索よりも遅くなります。専用のフローズンノードの使用をお勧めします。

前提条件：競合が発生しているフィールドを特定

どのフィールドがマッピングの競合があるかを判別するには、［Stack Management］->［Data Views］-> logs-*（logs-*データビューはlogs-接頭辞で存在するデータの最高階層）に移動します。競合が発生した場合は、その旨を示す黄色のボックスが表示されます。［競合を表示］をクリックするか、検索ボックスの横にある［フィールドタイプ］ボックスで［競合］を選択します。

黄色の［競合］ボタンをクリックすると、どのインデックスがどのマッピングタイプに関連付けられているかが表示されます。

この状況（フィールドがkeywordとlongの両方としてマッピングされる場合）は通常、関連するコンポーネントテンプレートのデータストリームで特定のマッピングタイプが定義される前にデータがインジェストされたことが原因で発生します。このような場合、Elasticsearchは動的テンプレートに基づいてマッピングを設定しようとします。

フィールドに適切なマッピングを決定し、そのフィールドがECSフィールドであるかどうかを確認するには、ECSフィールドの参考資料で確認する必要があります。問題のフィールドがECSフィールドでない場合は、その値を確認して正しいマッピングを決定する必要があります。

フィールド（この例ではlog.offset）がECSに文書化されていない場合、次のステップはフィールドの値を調査し、どの競合するマッピングタイプが最も多くのバッキングインデックスを持っているかを判断し、他のインデックスのコンポーネントテンプレートを調べることです。

通常、インデックスの数が最も多いマッピングタイプが正しいものですが、該当するフィールドの値を確認して検証することをお勧めします。マッピングタイプ（例：long）の有効性を確認するには、そのタイプに対してフィールドの値が適切であることも確認する必要があります。この検証は、Discoverで問題のフィールドを検索することで行うことができます。同じフィールドを含む他のデータストリームをレビューすることで、追加の確認が得られる場合もあります。

マッピングの問題があるフィールドの値を確認するには、先ほど述べた黄色の［競合］ボタンに戻り、［競合］ボタンをクリックし、いずれかのバッキングインデックスをハイライトして、Discoverセッションに貼り付けてください。Kibanaクエリ言語（KQL）のステートメントは、_index: フィールド区切り文字を含めて、次のスクリーンショットのようにしてください。

新しいバッキングインデックスカスタムコンポーネントテンプレートを準備する

データストリームのマッピングの競合に対処するには、まず関連する@packageコンポーネントテンプレートを調べます。これは、［Stack Management］->［インデックス管理］->［コンポーネントテンプレート］で確認できます。データストリームを検索し、対応する @package リンクを選択します。このテンプレートには、すぐに使用できるフィールドのマッピングが含まれており、マッピングの不一致は一般的ではありませんが、より適切なタイプが見落とされている可能性があります。

テンプレートを確認して、問題のフィールドに必要なフィールドネストとマッピングが含まれていることを確認してください。例えば、テンプレートに log.offset が keyword として間違って記載されている場合、これが問題の原因です。

重要： @package/managedテンプレートの変更は推奨されていないため、今後のすべてのデータに対してマッピングタイプ（例えばlog.offset用）を修正するには、@customコンポーネントテンプレートを使用または作成する必要があります。

@package/managed テンプレートを変更することはお勧めしません。統合をより新しいバージョンに更新すると、@packageテンプレートに加えた変更が上書きされるためです。そのため、@customテンプレートの使用をお勧めします。
データストリームでマッピングの競合が発生している場合、@customコンポーネントテンプレートに不足しているフィールド（ECSおよび非ECS）のネスティングまたはマッピングを追加する必要があります。このテンプレートがまだ存在しない場合は作成し、フィールドに対して正しいマッピングタイプを指定してください。
データビューに複数の競合がある場合は、データストリームに必要な不足マッピングをすべて同時に適用して、再インデックス処理が複数回ではなく1回で済むようにしてください。@customコンポーネントテンプレートに適切なデータタイプのエントリがあることで、将来のデータインジェストが同じマッピングガイドラインに従うことが保証されます。

@customコンポーネントテンプレートを作成（または使用中であり、入力されていることを確認）するには、［インデックステンプレート］に移動し、該当するデータストリームの名前を入力し、データストリームで使用されている適切な @custom テンプレートをクリックします。テンプレートがまだ作成されていない場合は、黄色のボックスが表示され、UIからテンプレートを作成できます。

以下のスクリーンショットは、 Create component template を選択した後の次のページを示しています。最初のページではデフォルト設定のままにし、マッピング または Next をクリックして マッピング ページに進んでください。

新しいフィールドのマッピングを明示的に設定するか、マッピングの競合があるフィールドを更新する場合、インデックスライフサイクルポリシーで設定された構成によりデータストリームがロールオーバーする際に、競合が存在するフィールドにエントリが必要です。

以下は、ファイルストリームデータストリームの @customコンポーネントテンプレート内にある log.offsetフィールドのマッピングを設定します。@packageから適切なマッピングを使用して、このデータセットに必要なカスタムフィールドを追加したり、必要なフィールドを更新したりする手順を繰り返します。この例では、オフセットを Long に設定すると、フィールドタイプが Numeric になり、数値タイプが Long になります。［フィールドを追加］をクリックし、エリアの外側をクリックして続行してください。

すべての必要なフィールドが追加されたら、レビューに進み、準備ができたら［コンポーネントテンプレートを作成］を選択します。このステップ以降に取り込まれるすべての新しいデータでは、log.offsetがlongに設定されます。

新しいバッキングインデックス構造を作成する

新しいバッキングインデックスには、データストリームのコンポーネントテンプレートからの既存のマッピングと、ECS ecs@mappings コンポーネントテンプレートが必要です。ecs@mappings コンポーネントテンプレートは、データストリームのコンポーネントの後に適用され、前のコンポーネントテンプレートでキャプチャされなかった可能性のある追加のマッピングのキャッチオールとして機能します。

データストリームの @package マッピングを表示するブラウザタブに移動します。（［Stack Management］->［インデックス管理］->［コンポーネントテンプレート］ logs-filestream.generic@package ->［管理］->［編集］の順に進んでください。）そこにアクセスしたら、[Review]セクションをクリックし、次に[Request]をクリックし、最後に右側の[Copy]ボタンをクリックしてください。コンポーネントテンプレートのJSONコンテンツをコピーすることで、log.offsetフィールドマッピングを更新する際に、残りのフィールドマッピングと設定が保持されます。JSONは、新しく再インデックスされたバッキングインデックスの基盤構造を形成します。

重要：テンプレートのJSONがコピーされずに再インデックスの作業が続行された場合、 log.offset競合は解決されますが、現在のマッピングの整合性が維持されないため、統合で新たな競合が発生し、元の問題を解決するために二重の作業が発生します。

別のブラウザタブを開き、Dev Toolsに移動して、コピーした内容を貼り付けてください。さて、貼り付けられた内容を修正しましょう。

リクエストの修正

1. インデックス名：_component_template/logs-filestream.generic@packageを再インデックスするバッキングインデックスの名前に置き換え、-1を末尾に追加してください。例えば、PUT -1を用います。

末尾に付加された-1は再インデックスを意味し、インデックスの作成日を基準とするデフォルトのILMロールオーバー設定とは競合しません。

2. 設定：JSONペイロード全体から"template"（3行目）と最後の閉じ括弧を削除します。3行目は"settings": {で始まる必要があります。

設定セクションの内部コンテンツを"index.codec": "best_compression"に置き換えます。この操作により、インデックス作成時にElasticの最適な圧縮方式が適用されます。
"index.lifecycle.name": "logs"を追加し、 "index.lifecycle.rollover_alias": ""の行も追加してください。
1. "index.lifecycle.name": "logs"エントリーでは、ログのILMポリシーを新しいバックイングインデックスに適用します。ログを使用しない場合は、ILMポリシー名を変更してください。
2. "index.lifecycle.rollover_alias": "" は空白です。このバッキングインデックスはロールオーバーされないため、ホット後の次のILMフェーズへのILMロールオーバーエラーを避けるために設定が必要です。

3. 構造：リクエストには、SettingsセクションとMappingsセクションの両方を含める必要があります。"mappings": { 内部には、"dynamic_templates" と "properties" セクションがあり、ハードコーディングされたフィールドとそのマッピングが含まれています。

4. 動的テンプレートの変更：現在の動的テンプレートセクションには、次にecs@mappings 動的テンプレートが追加されたときに上書きされる可能性のあるフィールドのエントリが含まれており、冗長性と不要な行が発生します。

"dynamic_templates"のセクションのうち、2番目のセクション「"_embedded_ecs-data_stream_to_constant": {」を除いてすべて削除してください。
上記で説明したのと同じプロセスを繰り返し、@packageコンポーネントテンプレートの動的マッピングを収集しますが、今回はecs@mappingsコンポーネントテンプレートの動的マッピングを収集します。
- ecs@mappingsコンポーネントテンプレートのマッピングの全内容をUIからコピーし、作業中のDev Toolsのdynamic_templatesセクションに貼り付け、適切な場所で重複や不要な行を削除する方が簡単な場合があります。これらの動的テンプレート設定の内容は"_embedded_ecs-data_stream_to_constant": {の後に含めてください。dynamic_templates セクションは、Dev Toolsの以下のサンプル内容とよく似ているはずです。
dynamic_templatesが全く含まれていない/削除されていない 場合、他のフィールド（下のスクリーンショットを参照）textとkeywordには、セクションdynamic_templatesが残されている場合の適切なマッピングに対して、二重マッピングが存在します。残っているのは "mappings" の下の "properties" セクションでなければなりません。これにより、フィールドが二重にマッピングされることで（既にそのようにマッピングされていない場合）、Data viewに問題が生じ、追加のマッピング競合が発生します。

5. メタデータの削除： "_meta"とラベル付けされた最後のセクションと、存在する場合は"version"とラベル付けされたセクションを削除します。

6. 書式設定：残りのセクションを自動的にインデントし、正常な実行を妨げる不要な波括弧を調整または削除します。

7. マッピングの変更： "properties" セクションに移動し、"log" を見つけ、その後 "offset" がその下にネストされている場所を見つけます。型をkeywordからlongに変更し、 "ignore_above": 1024,とラベル付けされた行エントリ（カンマを含む）を削除します。先に作成した@customコンポーネントテンプレートに複数のエントリが追加されている場合は、それらをここに含めてください。

これで、Dev Toolsのコンソールビューは以下の例のようになっているはずです。

PUT .ds-logs-filestream.generic-default-2026.04.14-000001-1
{
  "settings": {
    "index.codec": "best_compression",
    "index.lifecycle.name": "logs",
    "index.lifecycle.rollover_alias": ""
  },
  "mappings": {
    "dynamic_templates": [
      {
        "_embedded_ecs-data_stream_to_constant": {
          "path_match": "data_stream.*",
          "mapping": {
            "type": "constant_keyword"
          }
        }
      },
      {
        "ecs_timestamp": {
          "mapping": {
            "ignore_malformed": false,
            "type": "date"
          },
          "match": "@timestamp"
        }
      },
      {
        "ecs_message_match_only_text": {
          "path_match": [
            "message",
            "*.message"
          ],
          "mapping": {
            "type": "match_only_text"
          },
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_non_indexed_keyword": {
          "path_match": [
            "*event.original"
          ],
          "mapping": {
            "index": false,
            "type": "keyword",
            "doc_values": false
          }
        }
      },
      {
        "ecs_non_indexed_long": {
          "path_match": [
            "*.x509.public_key_exponent"
          ],
          "mapping": {
            "index": false,
            "type": "long",
            "doc_values": false
          }
        }
      },
      {
        "ecs_ip": {
          "path_match": [
            "ip",
            "*.ip",
            "*_ip"
          ],
          "mapping": {
            "type": "ip"
          },
          "match_mapping_type": "string"
        }
      },
      {
        "ecs_wildcard": {
          "path_match": [
            "*.io.text",
            "*.message_id",
            "*registry.data.strings",
            "*url.path"
          ],
          "mapping": {
            "type": "wildcard"
          },
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_path_match_wildcard_and_match_only_text": {
          "path_match": [
            "*.body.content",
            "*url.full",
            "*url.original"
          ],
          "mapping": {
            "fields": {
              "text": {
                "type": "match_only_text"
              }
            },
            "type": "wildcard"
          },
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_match_wildcard_and_match_only_text": {
          "mapping": {
            "fields": {
              "text": {
                "type": "match_only_text"
              }
            },
            "type": "wildcard"
          },
          "unmatch_mapping_type": "object",
          "match": [
            "*command_line",
            "*stack_trace"
          ]
        }
      },
      {
        "ecs_path_match_keyword_and_match_only_text": {
          "path_match": [
            "*.title",
            "*.executable",
            "*.name",
            "*.working_directory",
            "*.full_name",
            "*file.path",
            "*file.target_path",
            "*os.full",
            "*email.subject",
            "*vulnerability.description",
            "*user_agent.original"
          ],
          "mapping": {
            "fields": {
              "text": {
                "type": "match_only_text"
              }
            },
            "type": "keyword"
          },
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_date": {
          "path_match": [
            "*.timestamp",
            "*_timestamp",
            "*.not_after",
            "*.not_before",
            "*.accessed",
            "created",
            "*.created",
            "*.installed",
            "*.creation_date",
            "*.ctime",
            "*.mtime",
            "ingested",
            "*.ingested",
            "*.start",
            "*.end",
            "*.indicator.first_seen",
            "*.indicator.last_seen",
            "*.indicator.modified_at",
            "*threat.enrichments.matched.occurred"
          ],
          "mapping": {
            "type": "date"
          },
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_path_match_float": {
          "path_match": [
            "*.score.*",
            "*_score*"
          ],
          "mapping": {
            "type": "float"
          },
          "path_unmatch": "*.version",
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_usage_double_scaled_float": {
          "path_match": "*.usage",
          "mapping": {
            "scaling_factor": 1000,
            "type": "scaled_float"
          },
          "match_mapping_type": [
            "double",
            "long",
            "string"
          ]
        }
      },
      {
        "ecs_geo_point": {
          "path_match": [
            "*.geo.location"
          ],
          "mapping": {
            "type": "geo_point"
          }
        }
      },
      {
        "ecs_flattened": {
          "path_match": [
            "*structured_data",
            "*exports",
            "*imports"
          ],
          "mapping": {
            "type": "flattened"
          },
          "match_mapping_type": "object"
        }
      },
      {
        "all_strings_to_keywords": {
          "mapping": {
            "ignore_above": 1024,
            "type": "keyword"
          },
          "match_mapping_type": "string"
        }
      }
    ],
    "properties": {
      "input": {
        "properties": {
          "type": {
            "ignore_above": 1024,
            "type": "keyword"
          }
        }
      },
      "@timestamp": {
        "ignore_malformed": false,
        "type": "date"
      },
      "ecs": {
        "properties": {
          "version": {
            "ignore_above": 1024,
            "type": "keyword"
          }
        }
      },
      "log": {
        "properties": {
          "file": {
            "properties": {
              "inode": {
                "ignore_above": 1024,
                "type": "keyword"
              },
              "path": {
                "ignore_above": 1024,
                "type": "keyword"
              },
              "device_id": {
                "ignore_above": 1024,
                "type": "keyword"
              },
              "fingerprint": {
                "index": false,
                "type": "keyword"
              }
            }
          },
          "offset": {
            "type": "long"
          },
          "level": {
            "ignore_above": 1024,
            "type": "keyword"
          }
        }
      },
      "data_stream": {
        "properties": {
          "namespace": {
            "type": "constant_keyword"
          },
          "type": {
            "type": "constant_keyword"
          },
          "dataset": {
            "type": "constant_keyword"
          }
        }
      },
      "event": {
        "properties": {
          "original": {
            "index": false,
            "type": "keyword",
            "doc_values": false
          },
          "module": {
            "type": "constant_keyword",
            "value": "filestream"
          },
          "dataset": {
            "type": "constant_keyword",
            "value": "filestream.generic"
          }
        }
      },
      "message": {
        "type": "match_only_text"
      },
      "tags": {
        "ignore_above": 1024,
        "type": "keyword"
      }
    }
  }
}

コンソールが例のようになったら（追加のカスタムフィールドや環境固有のカスタム値も含め）、新しいバッキングインデックスのシェルを作成するコマンドを実行し、発生したエラーを解決するために一時停止します。

再インデックスプロセスを開始する

新しいバッキングインデックスのシェルが正常に作成されたので、次のステップは再インデックスとマッピングの競合を解決することです。

重要： マッピングの競合があるバッキングインデックスが最新のインデックスで、現在の書き込みインデックス（例えば、バッキングインデックスの終わりの番号が-000001）である場合、データストリームをロールオーバーする必要があります。データストリームをロールオーバーする必要があるのは、ドキュメントが投入されている現在の書き込みインデックスがライブバッキングインデックスであり、修正できないためです。

正しいフィールドマッピングが、以前に作成された@customコンポーネントテンプレートを介して新しい書き込みインデックスに適用されたため、すべての新しいドキュメントはこの変更を反映します。

これは、以下の手順を実行することで実現します。

POST /_rollover

例：

POST logs-filestream.generic-default/_rollover

再インデックス作成では、同じ命名規則内の既存のバッキングインデックスから新しいインデックスにデータをコピーし、通常は必要な変更を適用します。これらの変更には、コンポーネントテンプレートの更新や、データを処理するための新しい取り込みパイプラインを追加することが含まれる場合があります。

次に、誤ったマッピングを持つバッキングインデックスから、新しいバッキングインデックスへデータがコピーされます。元のバッキングインデックスは更新済みであるため、新しいドキュメントを追加することはできません。新しいバッキングインデックスは同じ命名規則に従います。これにより、データの可視性と整合性が保たれ、適切なILMポリシーが適用されますが、再インデックスされたことを示す-1サフィックスが含まれます。

必要に応じてインデックス名を調整し、次のコードをコンソールに貼り付けます。wait_for_completion=falseを含めることで、文書コピーの進捗を追跡でき、残りの再インデックス時間の推定に役立ちます。この設定がなければ、以下のGET _tasksコマンドを使用してステータスを追跡することはできず、GET -1/_countを使用して新しいバッキングインデックス内のドキュメント数のみを確認することができます。

重要：再インデックス処理中に問題が発生した場合は、reindexコマンドを再実行しないでください。再実行すると処理が再開され、-1で終わるインデックスに重複レコードが作成されます。再起動が必要な場合は、まず末尾に-1が付いたインデックスを削除し、次に新しいバックイングインデックスシェルを作成するために先行するPUTコマンドを実行してください。

POST _reindex?wait_for_completion=false
{
  "source": {
    "index": ""
  },
  "dest": {
    "index": "-1"
  }
}

i.e.
POST _reindex?wait_for_completion=false
{
  "source": {
    "index": ".ds-logs-filestream.generic-default-2026.04.13-000001"
  },
  "dest": {
    "index": ".ds-logs-filestream.generic-default-2026.04.13-000001-1"
  }
}

実行時には、応答にタスクIDが含まれます。このIDを使用して、コマンドGET _tasks/で再インデックスの進行状況を監視できます。

再インデックスの所要時間は、元のインデックス内のデータ量によって異なります。GETコマンドを実行する際に"completed": trueを探すことで完了を追跡でき、同様の出力が得られるはずです。

GET _tasks/

ドキュメント数に対する再インデックス処理が完了したので、次のステップは新しいバッキングインデックスと特定のフィールドのマッピングが正しいことを確認することです。

GET -1/_mapping

例：

GET .ds-logs-filestream.generic-default-2026.04.13-000001-1/_mapping

log.offsetのマッピングは以下の通りであることを確認できます。他のフィールドに単一のマッピングエントリのみ（textとkeywordの両方ではない）があることを確認するには、それらを先行するPUTコマンドの動的テンプレートセクションの一部ではなかったフィールドと比較します。

再インデックスするバッキングインデックスに多数のドキュメントが含まれる場合は、新しいバッキングインデックスへコピーされているドキュメントの状況を確認すると便利です。次の2つのDev Toolsコマンドでカウントを比較して確認できます。

GET .ds-logs-filestream.generic-default-2026.04.14-000001/_count

GET .ds-logs-filestream.generic-default-2026.04.14-000001-1/_count

カウントが一致し、正しいマッピングが存在することを確認した後、新しいバッキングインデックスを含むようにデータストリームを更新します。これにより、インデックス管理で孤立したバッキングインデックスが発生するのを防ぎ、ILMポリシーがバッキングインデックスに適用されない状況を回避できます。

成功した場合、返される内容はtrueであることを示すものでなければなりません。

POST _data_stream/_modify
{
  "actions": [
    {
      "add_backing_index": {
        "data_stream": "logs-filestream.generic-default",
        "index": ".ds-logs-filestream.generic-default-2026.04.14-000001-1"
      }
    }
  ]
}

次のコマンドを使用して新しいバックインデックスが追加されていることを確認し、ilm_policy が正しいことを確認してください。

GET _data_stream/logs-filestream.generic-default

次に、以下のコマンドを使用して、バッキングインデックスのILMステータスを確認します。

このインデックスが「ホット」と表示されるのは正常です。これは、インデックスがごく最近作成されたためです（8行目または10行目を確認してください）。

GET .ds-logs-filestream.generic-default-2026.04.14-000001-1/_ilm/explain

以下の手順を実行して、このデータストリームのILMポリシーにおけるホットフェーズの後の適切な次のティアに、バッキングインデックスをホットティアから移行します。下のcurrent_stepのphase、action、nameの具体的な値は、上のスクリーンショットの11行目、13行目、15行目でそれぞれ参照できます。

next_step値は、インデックスが移行する次のILMフェーズまたはデータティアを示します。

例：

POST _ilm/move/.ds-logs-filestream.generic-default-2026.04.14-000001-1
{
  "current_step": {
    "phase": "hot",
    "action": "rollover", 
    "name": "check-rollover-ready"
  },
  "next_step": {
    "phase": "warm" 
  }
}

必須ではありませんが、安全対策として、 _ilm/explainコマンドを再度実行して、バッキングインデックスが次のフェーズに移行し、ホット状態ではなくなったことを確認できます。

以下の条件が満たされたら、マッピングの競合があった元のバッキングインデックスを安全に削除できます。

新しいバックインデックスが正常に作成されました。
ドキュメントは新しいインデックスに移され、ドキュメント数も一致しています。
マッピングが修正されました（データストリーム固有のものとECSの両方）。
データストリームには新しいバッキングインデックスが組み込まれています。
ILMポリシーが適用され、インデックスはホットフェーズから移行しました。

重要：または、元のインデックスを削除する前にData viewページを確認することもできます。logs-* を選択し、再インデックスされたバッキングインデックス（-1 で終わるもの）が long セクションに表示されていることを確認してください。元のバッキングインデックスはkeywordの下にまだ存在しているはずです。再インデックスされたバッキングインデックスがlongセクションにない場合は、前の手順に戻って確認し、必要な修正を行ってください。

例：

DELETE .ds-logs-filestream.generic-default-2026.04.14-000001

競合を解決したら、Data viewページに戻り、 logs-*を選択します。もし競合が log.offsetだけに関連している場合、競合は表示されなくなります。他の競合が存在した場合、元のバッキングインデックスは競合リストに表示されなくなり、代わりに新しいバッキングインデックスがlongセクションにリストされます。

Discoverでlog.offsetフィールドに適切なアイコンが表示されていることを確認することもできます。

このプロセスを続け、マッピングの競合があるすべてのバックインデックスに対して上記の手順を繰り返し、すべてが正常に解決されるまで実行してください。

参照資料:

結びに

このブログの手順に従うことで、マッピングの競合を解決し、すべての新しいデータが正しくマッピングされることを保証できます。これは、必要なコンポーネントテンプレートをデータソースにリンクすることで実現します。このワークフローは、直接的な問題を解決するだけでなく、データと要件が進化するにつれて、スキーマの変更を管理するための安全で繰り返し可能なプロセスを確立します。

ベクトル検索を世界最速のものにするためにElasticsearch simdvecを構築した方法

Chris Hegarty, Lorenzo Dematte, Simon Cooper — Thu, 23 Apr 2026 00:00:00 GMT

Elasticsearch simdvecは、Elasticsearch内のすべてのベクトル距離計算のエンジンです。Elasticsearchがサポートするすべてのベクトルタイプに手動で調整されたAVX-512とNEONカーネルを提供します。そのバルクスコアリングアーキテクチャは、x86では明示的なプリフェッチ、ARMではインターリーブロードによってメモリレイテンシを隠蔽し、データがCPUキャッシュを超える場合、FAISSやjvectorなどのライブラリを最大4倍上回るパフォーマンスを発揮します。この記事では、これを構築した理由、その内部構造、そしてこれがElasticsearchのベクトル検索を世界最速の1つにしている理由について説明します。

Elasticsearch simdvecの構築方法

Elasticsearchにおけるすべてのベクトル検索クエリは、Hierarchical Navigable Small World（HNSW）トラバーサル、転置ファイル（IVF）スキャン、再ランキングパスのいずれであっても、結局は同じ問題に帰着します。すなわち、クエリごとにベクトル間の距離を何百万回も計算しなければならないということです。Elasticsearchは、float32からint8、bfloat16、バイナリ、Better Binary Quantization（BBQ）まで、幅広いデータ型と量子化戦略をサポートしています。それぞれにメモリ、スループット、リコールのトレードオフが異なります。そのすべての背後にあるのは、simdvecという単一のエンジンです。

私たちは、ハードウェアが許す限りすべての距離計算を高速に行うためにsimdvecを構築しました。この記事では、simdvecを構築した理由、その内部構造、そしてどのような場面で最も効果を発揮するのかを説明します。

レースカーのような構造

F1愛好家として（当社チームには以前フェラーリのF1チームで勤務経験があるメンバーもいます）明確な類似点を見いだせます。F1カーは、最高のラップタイムを達成するという唯一の目的のために設計されています。エンジンのパワー、空力性能、シャーシ設計は、その結果に貢献する限りにおいてのみ重要です。ベクトルデータベースについても同様で、インデキシングのスループット、クエリのレイテンシ、リコールが成功を定義します。

最終結果は重要ですが、最高レベルのパフォーマンスを達成するには、各コンポーネントが最高の状態である必要があります。必要十分ではなく、そのカテゴリーで最高でなければなりません。simdvecはその考え方で構築されており、システムの重要な部分であるエンジンに焦点を当てています。これは、専用に構築された、単一命令多重データ（SIMD）最適化カーネルライブラリで、JavaからPanama外部関数インターフェース（FFI）を介して呼び出される、手動で調整されたネイティブC++距離関数を提供します。一括スコアリング、キャッシュラインのプリフェッチ、Elasticsearchで使用されるすべてのベクトルの種類とレイアウトをサポートしています。

それがすべてのクエリの背後にあるエンジンです。

自社開発した理由

当社は2023年にApache LuceneのPanama Vector APIを使用してスタートしました。float32の内積計算にはうまく機能しましたが、すぐにその機能ではElasticsearchのニーズには対応できなくなりました。Elasticsearchは、int8、int4、bfloat16、シングルビット、非対称BBQなど、幅広い量子化されたベクトルタイプをサポートしています。それぞれにSIMD戦略、パッキングレイアウト、アキュムレータの要件が異なります。型カバレッジに加えて、Elasticsearchのスコアリングパスは単一ペアのスループット以上のものを要求します。HNSWは1回のパスで複数のグラフ隣接ノードをスコアリングする必要があり、IVFはプリフェッチを使用して数千の候補を一括スコアリングする必要があり、ディスクベースのスコアリングはコピーせずにmmapされたメモリ上で直接動作する必要があります。入手可能なものを調べてみましたが、すべての条件を満たすものは見つかりませんでした。

そこで、simdvecを構築しました。これは、JavaからFFI経由で呼び出される手作業で調整されたネイティブC++カーネルで、一括スコアリング、プリフェッチ、Elasticsearchが使用するすべてのベクトルタイプをサポートしています。ライブラリを所有することで、私たちはフルスタックを制御できます。BBQのような新しい量子化タイプを追加すると、システム全体にわたって調整されたSIMDカーネルが組み込まれます。上流のライブラリがそれをサポートするのを待つ必要はなく、いかなる型においてもパフォーマンスに妥協することはありません。Elasticsearchにおけるすべてのベクトルクエリ（HNSW、IVF、リランキング、ハイブリッドなど）は、実際に使用する操作とタイプに基づいて構築されたこのエンジン上で実行されます。

simdvecには、x86とARMそれぞれに対応したネイティブライブラリが用意されており、起動時に複数の命令セットアーキテクチャ（ISA）階層を選択できます。FFIを介したJavaからの呼び出しオーバーヘッドは非常に低く、1桁ナノ秒です。

ランドスケープ

SIMD最適化されたベクトル距離カーネルを構築しているのは私たちだけではありません。このエコシステムは豊かで、私たちはsimdvecがどのように動作するのかを理解したいと考えました。プロジェクトの優劣を決めるのではなく、背景情報を提供し、Elasticsearchエンジンの位置づけを説明することが目的です。私たちは異なるアプローチを表す3つのプロジェクトを基準点として選びました。

jvector：ベクトル化された距離計算にPanama Vector APIを使用するJava近似最近傍探索（ANN）ライブラリ。x86上ではオプションでネイティブCアクセラレーションが可能。
FAISS：手作業で調整されたAVX2/AVX-512カーネルを備えた、広く展開されているオープンソースのベクトル検索フレームワーク。
NumKong （旧称 SimSIMD）：距離関数、行列演算、地理空間計算など、2,000種類以上の手作業で調整されたSIMDカーネルを網羅した包括的なスイート。

各プロジェクトは異なる目的を持ち、異なるトレードオフをもたらします。Elasticsearchが必要とする特定の操作におけるsimdvecのパフォーマンスのコンテキストを提供するために、それらからの参照番号を含めています。

測定方法

simdvecとjvectorのベンチマークは、FFIオーバーヘッドを含めた標準JVMマイクロベンチマークハーネスであるJMHを使用してJavaで記述されています。NumKongベンチマークとFAISSベンチマークについては、標準的なC++マイクロベンチマークフレームワークであるGoogle Benchmarkを使って小さなC/C++ハーネスを作成しました。どちらのフレームワークも、ウォームアップと反復キャリブレーションを含めた1操作あたりのナノ秒数の精度を報告しています。ハードウェアパフォーマンスカウンターを介して、すべてのライブラリが両方のプラットフォームでSIMDを使用していることを確認しました。ベンチマークコードはすべて、リンク先のGitHubリポジトリ（およびsimdvecの場合はelasticsearchリポジトリ）で公開されています。

ソフトウェア： JDK 25.0.2、JMH 1.37、GCC 14、Google Benchmark（最新版）。

一度に1つのベクトル

ベクトル検索における最も基本的な操作は、2つのベクトル間の距離を計算することです。すべてのHNSW近隣評価、すべてのIVF候補スコア、すべての再ランク比較は、この内側のループに還元されます。

両プラットフォームで1024次元における単一ペアのスループットを測定しました。まず、ベースラインとなる型であり、エコシステムの競争が最も激しいfloat32から評価を開始しました。simdvecをFAISSおよびjvectorと比較しました。NumKongはfloat32にfloat64アキュムレータを使用するため、スループットよりも数値精度を優先し、処理速度が3.2倍から5.3倍遅くなる（プラットフォームによって異なる）ため、比較対象から除外しました。比較を同じように保つために、代わりにint8でNumKongのベンチマークを行います。ここでは、simdvecと同じアキュムレータ戦略を使用しています。

x86アーキテクチャーでは、FAISS AVX-512が23ナノ秒と最速のシングルペアカーネルです。simdvec AVX-512は28ナノ秒で続きますが、この差はFFI呼び出しのオーバーヘッドを反映したものです。どちらもマルチアキュムレータアンローリングを備えた512ビットFMAを使用しています。AVX2レベルでは、両者の性能差ははるかに小さく、それぞれ36ナノ秒と39ナノ秒で、どちらも256ビットのレジスタとメモリのロード幅によって制約されています。jvectorはJava Panama Vector APIを使用して44ナノ秒で到達します。Panamaは優れたSIMDコードを生成しますが、手作業で調整されたC++ intrinsicsが優位を保っています。

ARMでは、simdvecは70ナノ秒でリードしており、110ナノ秒のjvectorと156ナノ秒のFAISSをはるかに上回っています。simdvecはaarch64向けにNEONカーネルを独自にチューニングしました。JvectorにはネイティブのARMコードがなく、Panamaに依存しています。FAISSは明示的なNEON組み込み関数ではなく、コンパイラの自動ベクトル化に依存しているため、差が大きくなっています。これは、カーネルライブラリを所有することによる実用的な利点を反映しています。ElasticsearchがGravitonに拡張された際、専用に構築されたNEONカーネルを追加しました。jvectorもFAISSも、ARMネイティブコードを同程度に優先しているわけではありません。

しかし、Elasticsearchはfloat32だけを評価するわけではありません。Int8の量子化はメモリ使用量を4分の1に削減し、bfloat16は2分の1に、BBQは32分の1に削減します。それぞれのタイプには独自のSIMD戦略が必要であり、simdvecはすべてのタイプ向けに手動チューニングされたネイティブカーネルを提供しています。

比較したライブラリの中で、int8用の同等のカーネルを備えているものはNumKongのみでした。int8ドット積、二乗ユークリッド、余弦を1024次元で測定しました。

Int8シングルペアスコアリング（1024次元、ns/vec 演算 - 数値が小さいほど良い）

どちらのアーキテクチャでも、NumKongは小～中次元では同等かより高速です。その差は主に呼び出しのオーバーヘッドが少ないことに起因します（Cの直接呼び出しとJavaのFFI）。より大きな次元では、simdvecが追いつき、より効率的なカーネル実装（カスケードアンローリングを使用する）が呼び出しコストを償却します。次元が増えるにつれて、このギャップは閉じ、最終的には逆転します。クロスオーバーのサイズは、機能や構造によって768から1536の間となります。

Java FFIのオーバーヘッドが若干高いにもかかわらず、simdvecは高度に最適化されたC/C++ライブラリと同等の性能を発揮します。float32とint8の両方に対応した最適化されたカーネルを備えた唯一のライブラリであるだけでなく、ARMアーキテクチャではトップクラスの性能を誇り、x86アーキテクチャではFAISSにわずかに劣る程度（float32の場合）、そして両アーキテクチャにおいてNumKongに非常に近い性能（int8の場合）を実現しています。また、bfloat16、int4、binary、BBQについては、代替手段は存在するものの、simdvecは各型のデータレイアウトに合わせて手作業で調整されたSIMDによって差別化を図っています。

しかし、実際の検索エンジンは一度に1つのベクトルを評価するのではなく、クエリごとに数千のベクトルを評価します。次の質問は、そのスケールで何が起こるかということです。

一度に数千件

シングルペアのパフォーマンスは全体の一部に過ぎません。実際には、システムが負荷時にどのように動作するかが重要です。単一のHNSWクエリは数百のグラフ近傍をスコアリングすることがあります。IVFスキャンは、数千件の投稿リストエントリーをスコアリングすることがあります。リランクパスは数万の候補をスコアリングすることがあります。シングルペアのスループットは重要ですが、より重要なのは、多くのベクトルをどれだけ速くスコアリングできるか、そして作業セットがCPUキャッシュから溢れ出すにつれてパフォーマンスがどれだけスムーズに低下するかです。

simdvecは、あらゆるデータタイプに対して一括スコアリング機能を提供します。これらは単なる単一ペアカーネル上のループではなく、クエリベクトルを1次元ストライドごとに1回ロードし、複数のドキュメントベクトル間で共有するマルチアキュムレータ内部ループを使用します。次のバッチに対しては、明示的なキャッシュラインプリフェッチが行われます。jvectorもFAISSも同等の機能を提供していません（執筆時点では）。Jvectorには一括処理APIがないため、呼び出し元はループ内で一度に1組ずつスコアを計算します。FAISSはfvec_inner_products_nyを公開していますが、執筆時点では、クエリ償却やプリフェッチを行わずに、シングルペア距離関数のループとして実装されています。

Float32。カーネルレベルでのインパクトを測定するために、HNSWのような散在グラフの近傍検索をシミュレートするランダムアクセスパターンを用いて、1024次元float32ドキュメントベクトルの数を増やしながら単一のクエリのスコアを計算しました。3つのデータセットサイズ（32、625、32,500ベクトル）は、それぞれL1、L2、L3キャッシュを超えるように選択されています。

データがキャッシュに収まる場合、simdvecはどちらのプラットフォームでも最速ですが、カーネル演算が支配的であるため、マージンは控えめです。実際の分離は、ワーキングセットがL3を超えるにつれて現れます。x86では、simdvecのスコアは1ベクトルあたり95ナノ秒ですが、FAISSは165ナノ秒、jvectorは412ナノ秒です。ARM上でも同様の傾向が見られ、simdvecは162ナノ秒で安定しているのに対し、FAISSは347ナノ秒、jvectorは476ナノ秒に上昇します。simdvecのプリフェッチとクエリの償却により、シングルペアカーネル上の単純なループでは対応できない方法でメモリの待ち時間が隠され、メインメモリの奥深くで実際の検索ワークロードが動作する場所でその利点が広がります。

Int8。同じパターンは量子化された型にも当てはまります。int8ドット積の一括スコアリングを1024次元で測定し、データセットのサイズが同じL1、L2、L3キャッシュ境界を超えるように選択して、simdvecのバルクスコアリングをループ内のNumKongシングルペアスコアリングと比較しました。

x86では、simdvecは1.2倍～1.9倍高速で、これは明示的なプリフェッチとバッチ処理の組み合わせによってもたらされます。ARM環境では、すべてのデータセットサイズにおいて、simdvecが再び優位に立ちました（1.7倍から1.9倍高速）。その利点は、4つのベクトルを一度にバッチ処理することで、インターリーブアクセスパターンを介してメモリレベルの並列処理を実現することにあります。いずれの場合も、最も顕著な結果は最大のデータセットサイズで何が起こるかであり、それが最も重要な場所です。

結果は、二乗距離とコサインで同様のパターンを示し、ARMでは1.4倍から1.8倍、x86では1.3倍から3.0倍の速度向上が見られました（詳細はこちら）。

メモリが重要となる場合

本番環境のベクトルインデックスは通常、CPUキャッシュに収まりません。1024次元の10Mベクトルint8インデックスは10GBです。候補のスコアリングとは、DRAMからデータをストリーミングすることを意味し、そこでバルクスコアリングアーキテクチャが大きな違いを生むのです。

バルクスコアリング中のCPU内部で何が起こるかを測定するためにハードウェアパフォーマンスカウンターを使用し、メモリーレイテンシを隠すためには、アーキテクチャごとに根本的に異なる2つの戦略が必要であることを発見しました。

x86アーキテクチャでは、明示的なプリフェッチによってキャッシュミスが解消されます。バルクカーネルはベクトルを逐次的に処理し、次のベクトルを処理する前に1つのベクトルを完全に計算しながら、次のバッチのためのプリフェッチ命令を発行します。将来のデータはCPUが必要とする前にL1に取り込まれます。

ARMアーキテクチャでは、プリフェッチを使用しても、同じ逐次的なアプローチではパフォーマンスが低下しました。代わりに、バルクカーネルが4つのベクターからすべてのストライド位置でロードをインターリーブし、アウトオブオーダーエンジンに4つの独立したメモリストリームを提供します。CPUのデータの取得速度が速くなったわけではなく、メモリ要求の処理中に常に別の計算処理を行うことで、待ち時間を短縮しているのです。詳細な分析についてはこちらのGitHubイシューをご覧ください。

数字は2つの異なる物語を語っています。

x86アーキテクチャでは、プリフェッチによって139,000回のキャッシュミスが19,000回に減り、1サイクルあたりの命令実行数（IPC）が2倍以上になります。データセットのサイズが大きくなるにつれてプリフェッチによってコストのかかるDRAM往復処理が徐々に隠蔽されるため、データ量の増加によるメリットは大きくなり、L2レベルでは1.2倍、L3レベルを超えると2.8倍になります。
ARMではキャッシュミスはほとんど変わりません。変化するのは利用率です。インターリーブアクセスパターンによってパイプラインへの供給が維持されるため、バックエンドの停止時間が40%減少します。この利点は、データセットのサイズに関係なく一貫して1.8倍です。これは、データがキャッシュまたはDRAMから来ているかに関係なく、メモリレベルの並列処理が適用されるためです。

2つのアーキテクチャ、2つの戦略、結果は1つ：本番環境規模では、simdvecはベクトルがメインメモリ全体に分散している場合でも、CPUパイプラインを常にフル稼働させます。

Elasticsearchユーザーへの影響

これらのカーネルレベルの能力は相乗効果を発揮します。単一のベクトル検索クエリでは、HNSWグラフの走査、候補のスコアリング、再ランキングなど、数百万もの距離演算が計算される場合があります。数千回の同時クエリにおいて、1回の操作でナノ秒単位がクエリ遅延やクラスタスループットに直接変換されます。float32、int8、bfloat16、BBQのいずれを使用する場合でも、インデックスがメモリ上にあるかディスク上にあるかに関わらず、simdvecが基盤となるエンジンであり、これらのすべての操作は同じエンジンを通して実行され、ナノ秒単位まで最適化されています。

重要なポイントは、本番規模では、ベクトル検索のパフォーマンスは主に生のSIMDスループットによって決まるわけではないということです。システムのパフォーマンスは、数百万もの小さな演算処理において計算能力を維持しながら、メモリの遅延をいかに効率的に隠蔽できるかに大きく左右されます。

simdvecカーネルは、ほぼすべてのElasticsearchリリースで改善されています。新しい量子化タイプやハードウェアプラットフォームが登場すると、初日からチューニング済みのカーネルが提供されます。また、既に出荷されている実装を改良していくにつれて、既存の型もますます高速化していきます。

Jina embeddings v3がGeminiエンタープライズAgent Platform Model Gardenで利用可能になりました

Sa Zhang — Wed, 22 Apr 2026 00:00:00 GMT

本日、jina-embeddings-v3、Gemini Enterprise Agent Platform Model Gardenでセルフデプロイ可能なパートナーモデルとして利用できる最初のJina検索基盤モデルをリリースします。セルフデプロイとは、モデルがGoogle CloudプロジェクトおよびVirtual Private Cloud（VPC）内のGPUインスタンス上で実行されることを意味します。外部API呼び出しも、トークンごとの課金も、レート制限もありません。

この統合により、Elasticsearchユーザーは、データをセキュリティ境界内に保持し、予測可能なインフラストラクチャコストを実現し、Google Cloud上でネイティブに動作する、新たなデプロイメントオプションを利用できるようになります。同時に、より広範なGoogle Cloudエコシステムで、Jinaが専用に構築した最先端の検索および取得モデルを利用できるようになります。

これは、より広範な展開の第一段階です。次に登場するモデルと合わせると、このラインナップは完全な検索スタックを形成します。データの埋め込み、クエリの埋め込み、候補の検索と再ランク付け、マルチモーダル埋め込みによる画像への検索拡張など、すべてお客様が管理するインフラストラクチャー上で実現します。jina-embeddings-v3の利用は今日から開始できます。このモデルはすでにElastic Inference Service（EIS）を介してElasticsearchエコシステム全体の本番検索パイプラインを支えています。

モデル	タイプ	パラメーター	主要な機能	Model Garden上のステータス
`jina-embeddings-v3`	テキスト埋め込み	572M	実績のある多言語対応の主力モデル、8,000コンテキスト、1024次元の出力、32次元まで切り捨て可能	提供中
「jina-embeddings-v5-text-small」	テキスト埋め込み	677M	最先端のサブ1B多言語モデル、32,000コンテキスト、1024次元の出力、32次元まで切り捨て可能	まもなくリリース
`jina-embeddings-v5-text-nano`	テキスト埋め込み	2億3900万	クラス最高、5億パラメーター、8,000コンテキスト、768次元の出力、32次元まで切り捨て可能	まもなくリリース
`jina-reranker-v3`	リランカー	600M	リスト別リランキング、131,000コンテキスト、最大64件の文書	まもなくリリース
`jina-clip-v2`	マルチモーダル埋め込み	900M	共有スペースのテキスト+画像、89言語、8Kのテキストコンテキスト、512×512の画像	まもなくリリース

すべてのモデルは、Google Cloudで最もコスト効率の高いGPUティアである単一のNVIDIA L4（24 GB）で動作します。Google Cloud Model Gardenの他のほとんどの埋め込みモデルではA100 80 GBまたはH100が必要となり、トークンを計算する前から、インスタンスの1時間あたりのコストのおよそ3倍の費用がかかります。

Vertex AIを介してデプロイする場合、追加の商用ライセンスは必要ありません。

Model Gardenを使用する理由とは？

APIを利用するのではなく、Model Garden経由でデプロイする理由はコントロール、コスト、コンテキストの3点にあります。

データが外部に出ることは決してなし

多くの開発者にとっての最大の魅力は、セルフデプロイアーキテクチャーです。Model Gardenを通じてJinaモデルをデプロイすると、Google CloudプロジェクトとVPC内のGPUインスタンス上で加重が実行されます。これは、金融や医療など、データセキュリティに関する懸念を抱える業界で働くすべての人にとって、状況を一変させるものとなるでしょう。外部API呼び出しがないため、機密データはセキュリティ境界内に留まります。

予測によるスケーリング

文章を埋め込んだり、ドキュメントのランキングを変更したりするたびに料金を支払うのではなく、時間単位の固定料金を支払うことになります。また、Jinaのすべてのモデルは、Google Cloudで最も手頃なGPUティアである単一のNVIDIA L4で実行できるため、参入障壁は低いです。1,000件のリクエストを処理する場合でも、10億件を処理する場合でも、インフラストラクチャーの費用は予測可能なままです。これは、トラフィックの増加に対して課金するのではなく、むしろトラフィックの増加に対して報酬を提供する仕組みです。

すべてを一箇所で提供します

データがすでにGoogle Cloud、BigQuery、またはCloud Storage上のElasticsearchに保存されている場合は、推論エンジンをその近くに配置しておくのが理にかなっています。Model Gardenを通じてデプロイすることで、Jinaの検索基盤モデルは、アクセス制御のためのIDとアクセス管理（IAM）、既存のGoogle Cloud請求書での統一された請求、機械学習オペレーション（MLOps）ワークフローのためのVertex AIパイプラインに接続する機能など、すでに使用しているすべてのエンタープライズ機能を継承します。

Jina AI Cloud APIとElastic Cloudはトラフィックの急増や既存の検索ワークフローに対応する最速の手段を提供する一方、Model Gardenは、厳格なデータセキュリティと大規模な運用における予測可能なコストを必要とするエンタープライズアプリケーションに最適です。Elasticは、お客様の現状に合わせてサービスを提供したいと考えています。

Jina AIモデル

jina-embeddings-v3

5億7200万個のパラメーターと8000個のトークンコンテキストを備えた、実績のある多言語埋め込みモデル。Massive Text Embedding Benchmark（MTEB）英語で65.5点を獲得しました。5つのタスク固有の低ランク適応（LoRA）アダプター（検索クエリ/パッセージ、テキストマッチング、分類、クラスタリング）と、1024次元から64次元へのマトリョーシカ切り捨てをサポートします。すでにEISを通じてElasticsearchエコシステム全体で広く採用されています。

多くの本番システムが既にv3に依存しているため、当社はいち早くv3を導入しています。v3ベースのパイプラインをGoogle Cloudに移行する場合、埋め込みの次元を変更したり、インデックスを再作成したりすることなく、同じモデルをネイティブに実行できるようになりました。

jina-embeddings-v5-text（smallおよびnano）

2026年2月にリリースされた当社の第5世代テキスト埋め込みモデルは、数倍の規模のモデルに匹敵する最高レベルの性能を実現しています。

v5-text-small （677M）は、9つのタスクタイプの131個のタスクを含むMultilingual MTEB（MMTEB）ベンチマークスイートで67.0点、MTEB英語ベンチマークで71.7点を獲得しています。これは、MTEBリーダーボード上で、10億未満の言語を対象とした多言語埋め込みモデルの中で最も強力なモデルです。

v5-text-nano （239M）はMMTEBで65.5点を獲得しています。5億パラメータ以下の他のモデルでこのレベルに達するものはありません。ほとんどの同等モデルの半分以下のサイズであるため、エッジ環境やレイテンシに敏感な導入環境にとって最適な選択肢となります。

両モデルとも以下をサポートしています。

4つのタスク特化型LoRAアダプター：検索、テキストマッチング、分類、クラスタリング。推論時にtaskパラメーターを介して適切なアダプターを選択します。
マトリョーシカ次元切り捨て：埋め込み次元を1024（nanoの場合は768）から32に削減します。中程度の切り捨て（例えば256次元）では、品質の低下は最小限に抑えられます。次元を半分にすると、ストレージはおよそ半分になります。
バイナリ量子化：1024次元の埋め込みデータをバイナリ化によって2KBから128バイトに圧縮します。特別な訓練により、この圧縮による損失は最小限に抑えられます。
多言語対応：119言語（小型版）と93言語（ナノ版）。

jina-reranker-v3

最後ではあるが遅くない相互作用アーキテクチャーを使用して構築された、0.6Bパラメーターの多言語リスト別再ランカー。クエリと最大64件の候補一致が、131,000トークンの単一のコンテキストウィンドウに入力され、モデルはスコアリングを行う前に文書間の比較を実行します。Jina Reranker v3はBEIRで61.94 nDCG@10を達成し、サイズが6倍小さいモデルを凌駕しています。これは、各文書を個別にスコアリングするポイント別型リランカーとは根本的に異なり、特に単一文書からのパッセージ検索でより良い結果をもたらします。

jina-clip-v2

テキストと画像を共通の1024次元空間にマッピングする、0.9Bのマルチモーダル、多言語埋め込みモデル。以下をサポートします。

テキスト画像検索に対応する89の言語。
512×512の画像解像度。
8,000トークンのテキストインプット。
両方のモダリティにおいて、マトリョーシカ法による1024から64への次元削減を行います。

画像からテキストへのベンチマーク、特に多言語タスクにおける高い競争力。

はじめに

Jina Embeddings v3が本日、Model Gardenで利用可能になりました。実行する方法を説明します。

Vertex AI APIが有効で、少なくとも1つのg2-standard-8インスタンス（NVIDIA L4）に十分なGPU割り当てがあるGoogle Cloudプロジェクトが必要です。Google Cloudを初めて利用する場合はまずセットアップガイドをご覧ください。

Jina Embeddings v3のModel Gardenページでは、モデルのアップロード、エンドポイントの作成、マシンタイプの選択、デプロイといった一連の流れを詳しく説明しています。自分のプロジェクトでファイルを開き、表示される手順に従ってください。地域や割り当て量によっては、A100およびH100マシンも利用可能ですが、まずはL4で十分です。

クリックから最初の埋め込みまで、すべてのプロセスは数分で完了します。

今後の対応

Jina embeddings v3は出発点です。今後数週間以内に、Jinaの検索スタックの残りの部分、すなわちv5テキスト埋め込み（smallとnano）、jina-reranker-v3、マルチモーダル検索用のjina-clip-v2をModel Gardenに導入する予定です。すべては、同じセルフデプロイモデルで単一のL4 GPU上で実行されます。

Elastic Security、Observability、SearchがAIツールにインタラクティブなUIを提供

David Elgut, Graham Hudgins, Jesse Miller — Tue, 21 Apr 2026 00:00:00 GMT

AIエージェントの性能は、それらが返すサーフェスの質に依存します。テキストのみのツールの結果は、ダッシュボード、アラートリスト、調査グラフ、分散トレースなど、本来視覚的またはインタラクティブであるべき要素をすべてフラット化します。会話は、あなたが質問し、エージェントが答える場となりますが、作業が複雑になると、別のタブ、別の製品、別の認証境界へと移動することになります。

MCPアプリはその回答の形式を変えます。ツールはテキストによる要約に加えてインタラクティブなUIを返すことができるようになり、ホスト（Claude Desktop、Claude.ai、VS Code Copilot、Cursor）はそれを会話の中にインラインで表示します。モデルは推論のために簡潔なテキストを保持します。ユーザーはチャットのすぐ隣にライブでクリック可能なインターフェースを利用できます。

以下の3つの特性により、これは「URLを返すWebhook」とは異なる種類の統合となります。

コンテキストの保持。UIは会話の中に存在し、タブの切り替えも、引き継ぎも不要です。
双方向のデータフロー。UIはMCPサーバー上のツールを呼び出して最新のデータを取得でき、ホストはエージェントからの新しい結果をUIにプッシュできます。個別のAPIレイヤーや認証システムは不要です。
サンドボックス化された信頼境界。MCPアプリは、ホスト制御のiframeで実行されます。親ページにアクセスしたり、Cookieを読み取ったり、コンテナから脱出したりすることはできません。

セキュリティ運用は、トリアージ、調査グラフ、攻撃検出に基づいて行われ、AIエージェントが数百件のアラートを少数の攻撃チェーンに関連付けます。オブザーバビリティとは、分散型トレースと時系列データの詳細な分析を意味します。Kibanaで構築するということは、ダッシュボードグリッドを作成することを意味します。それらをすべてテキストに変換してしまうと、その有用性が失われてしまいます。当社はこれら3つすべてに対応するMCPアプリを開発し、まとめてオープンソース化しました。これにより、チャット画面から離れることなく、同じ会話をトリアージキューから依存関係グラフ、そしてライブダッシュボードへとスムーズに移行させることができます。

これら3つのリファレンスアプリはそれぞれ、複数の独立した製品の集合体ではなく、多数のインタラクティブなビューを提供する1つのMCPサーバーです。セキュリティアプリだけでも、同じサーバーシェル、同じツール可視化モデル、同じホストブリッジを共有する6つのダッシュボードが表示されます。パターンは小さいものの、表面積が大きいほど価値が積み重なります。

Elastic Security MCPアプリ

SOCにとってこれが重要な理由

エージェントがSOCアナリストに「ホスト-314に47件のアラートがあります、概要は以下の通りです」と伝えただけでは、何の作業も行われておらず、単に作業開始地点を示しているだけです。実際の作業は、アラートリスト、プロセスツリー、調査グラフ、ケースファイルにあり、テキストの一段落だけでは実行できません。

セキュリティMCPアプリはワークフロー自体を返します。アナリストはエージェントに指示を出し、エージェントはチャット内にインタラクティブなダッシュボードを返します。このダッシュボードでアナリストはアラートの詳細を調べ、脅威ハンティングを実行し、攻撃チェーンを相関付け、ケースを開くことができます。これらすべて会話の流れを失うことなく行えます。また、調査結果、クエリ、ケースはすべてElasticsearchに反映されるため、アナリストは会話が終了した後、同じ調査をKibanaで再開することができます。

6つのインタラクティブダッシュボード

Elastic Security MCPアプリは、主要なSOCワークフローごとに1つずつ、計6つのインタラクティブ要素を提供します。それぞれがReact UIであり、エージェントが対応するツールを呼び出すとインラインでレンダリングされます。

ツール	機能	インタラクティブなUI
アラートのトリアージ	セキュリティアラートの取得、フィルタリング、分類	深刻度のグループ化、AI判定カード、プロセスツリー、ネットワークイベント
攻撃の発見	オンデマンド生成を用いたAI相関攻撃連鎖分析	信頼度スコア、エンティティリスク、MITREマッピングを含むナラティブカードを表示します
ケースマネジメント	捜査ケースの作成、検索、管理	アラート、観測値、コメントタブ、AIアクションを含むケースリスト
検出ルール	検出ルールの閲覧、調整、管理	KQL検索、クエリ検証、ノイズルール分析を備えたルールブラウザ
脅威ハンティング	エンティティ調査付きES\|QLワークベンチ	クエリエディター、クリック可能なエンティティ、調査グラフ
サンプルデータ	一般的な攻撃シナリオに対応するECSセキュリティイベントを生成します	あらかじめ構築された4つの攻撃チェーンを備えたシナリオ選択ツール

各ツールは、アナリストが操作するインタラクティブなUIとともに、モデルが推論できるコンパクトなテキストの概要を返します。UIは、MCPホストブリッジを介してバックグラウンドで新しいデータを取得することもできます。完全なツールモデルとブリッジAPIはリポジトリのアーキテクチャドキュメントにあります。

また、アプリには Claude Desktopのスキルも付属しており、エージェントに各ツールの使い方をいつ、どのように使うかを教える SKILL.md ファイルが含まれています。最新リリースから、事前に構築されたスキルzipファイルをダウンロードしてください。

アラートからケースへ

4つのスキルがコアSOCループをカバーしています。それぞれがプロンプトを取得し、ツールを呼び出し、モデルが推論するテキストサマリーと共にインタラクティブなダッシュボードを返します。アナリストの一日は通常、アラートキューから始まります。

アラートのトリアージ。エージェントにホスト、ルール、ユーザー、またはタイムウィンドウごとにトリアージを依頼してください。アラートのトリアージスキルは、生のアラートリストの上にAIによる判定のダッシュボードを返します。各検出ルールごとに1つの判定が付き、そのルールの活動を「正常」「不審」「悪意あり」のいずれかとして分類し、それぞれに信頼度スコアと推奨アクションが付いています。任意のアラートをクリックすると、プロセスツリー、ネットワークイベント、関連アラート、MITRE ATT&CKタグを含む詳細ビューが開きます。AIの会話とKibana内のアラートダッシュボードのコンテキストを切り替える必要はありません。会話の中ですべてがリアルタイムで行われます。

脅威のハンティング。エージェントにインデックス全体を検索するよう依頼してください。脅威のハンティングスキルは、クエリがあらかじめ入力されて自動実行されるES|QLワークベンチを返します。結果内のすべてのエンティティをクリックして詳細を確認できます。このモデルは、表の下に、何が異常なのか、何が関連しているのか、何が詳しく調べる価値があるのかといった短い説明文を出力します。そして、次の選択肢として、脅威の特定をさらに深めるか、これまでの作業を補完する新しいスキルをMCPアプリ内で習得するかのどちらかが提示されます。これをうまく結びつけるには、Attack Discoveryを起動して、詳細に調査したアラートやこれまで追跡してきた脅威に関するより多くのコンテキストを収集することが有効です。

Attack Discoveryの実行。Attack Discoveryスキルは、Attack Discovery APIをトリガーし、ランク付けされた発見のリストを返します。各発見は、MITREの戦術、リスクスコア、信頼度ラベル、影響を受けるホストとユーザーを前面に押し出し、関連するアラートを1つの攻撃チェーンにまとめたものです。エージェントの要約は、調査結果と同じ順位で下に配置され、会話には、次のステップに進むために必要なすべての情報（調査クエリ、トリアージの決定、相関関係のある連鎖など）が揃います。

チャットを終了せずにケースを開く。調査結果を一括承認するか、担当者に特定の警告に関するケースを開くよう依頼してください。ケースマネジメントスキルは、承認された結果（ソースアラートが添付され、攻撃チェーンから継承されたMITRE戦術）ごとに1つのケースを作成し、ライブケースリストをインラインでレンダリングします。ケースをクリックすると詳細ビューが表示され、そこには「ケースの概要」「次のステップの提案」「IOCの抽出」「タイムラインの生成」といったAIアクションボタンが並んでいます。それぞれが構造化されたプロンプトをチャットに送り返すため、エージェントは再説明を必要とせずにケースのコンテキストを把握できます。エージェントの要約はケースリストの下に表示され、最近開始されたケースや、まだ調査が必要な以前の調査結果を含む、すべてのIRキューを網羅しています。

このウォークスルーの各ステップでは、同じループが実行されます。プロンプトが入力され、スキルがそれを拾い上げ、ツールがモデルが推論するためのコンパクトなテキストサマリーを返します。同時に、アナリストが操作する対話型UIも返されます。これらのスキルを組み合わせることで、エンドツーエンドのSOCフローが構築されます。つまり、問題の発見、トリアージ、相関分析、ケースの開設、そして次の方向転換の推進まで、すべてのステップでセッションのコンテキストがモデルに保持されます。どれか一つを単独で起動しても、指定したデータ領域を指す完全なダッシュボードが表示されます。いずれにしても、作業は会話の中で蓄積されていきます。タブの切り替え、コピー＆ペースト、引き継ぎは不要です。

さらに、このアプリには2つの機能が追加されています。1つは、ノイズの多いルールを調整するための検出ルールブラウザ、もう1つは、新しいクラスターに対して現実的なECSイベントを生成するためのサンプルデータジェネレータです。次回の記事では、調査グラフ、攻撃フローキャンバス、エンドツーエンドのウォークスルーという6つの要素すべてについて詳しく解説します。

「Elastic Security向けのMCPアプリは自動検出と手動ハンティングの間のギャップを埋める役割を果たします。Claude Desktop内の単一のインターフェースにセキュリティデータを直接統合することで、通常の警告は発せられないものの、即座の対応が必要な「潜在的な」脅威を1時間以内に発見することができました。アナリストにとって大きな戦力増強となります。」Mandy Andress：Elasticの最高情報セキュリティ責任者（CISO）

プログラム概要

各MCPアプリは、モデルの簡潔なテキストサマリーとホストがインラインでレンダリングするReact UIの両方を返す小さなNode.jsサーバーです。オープンなMCPアプリ仕様に基づいて構築されているため、同じサーバーが互換性のあるホスト上で実行されます。詳細はリポジトリのアーキテクチャドキュメントをご覧ください。

試してみる

セキュリティが有効になっているElasticsearch 9.x、ケース、ルール、攻撃検出用のKibanaが必要です。.mcpbバンドルの最速のパスは、最新リリースからのワンクリックです。Claude Desktopでダブルクリックすると、ElasticsearchのURLとAPIキーを入力するプロンプトが表示されます。Cursor、VS Code、Claude Code、Claude.ai、およびソースからのビルドのセットアップガイドはリポジトリにあります。

Watch video on Vidyard

Elastic Search MCPアプリ：会話から構築されたダッシュボード

すべてのKibanaユーザーは、作業中のものを離れ、Kibanaを開き、インデックスを選択し、フィールドを選択し、可視化を選択し、調整し、保存するというダッシュボードへの長いパスに慣れています。ここで、画面にチャートが表示されるまでに5回のコンテキスト切り替えが行われました。

新しいexample-mcp-dashbuilderリファレンスアプリは、それをプロンプトにまとめます。エージェントに「収益メトリクス、注文トレンド、カテゴリー内訳を含むダッシュボードを作成してください」と依頼すると、タブを切り替える必要なく会話内にダッシュボードが返ってきます。

そのプロンプトの背後で、エージェントはES|QLを使用してElasticsearchデータを探索し、データに合わせてチャートタイプを選択します。比較には棒グラフ、トレンドには折れ線グラフ、KPIにはメトリックカード、2次元パターンにはヒートマップを使用します。Elastic UI Borealisテーマを使用して、Kibanaの48列のグリッド上にパネルを配置します。完全にインタラクティブな結果が得られ、チャット内でパネルをドラッグ、サイズ変更、折りたたみ可能なセクションへのグループ化ができます。ダッシュボードが正しく表示されれば、1回のツール呼び出しでES|QLクエリとカスタムカラーを保持したまま、Kibanaにエクスポートされます。既存のKibanaダッシュボードをチャットにインポートして、AIによる編集を行うこともできます。

その原則は、Securityアプリの背後にあるものと同じです。アーティファクトが製品である場合、会話の中でそれを返すことで、欲しいものを説明することと、それを見ることの間のループが閉じられます。

内部構造では、同じMCPアプリパターンに従っています。Node.jsサーバーは、view_dashboardモデル対応ツールと、UIが直接呼び出すアプリ専用ツールのセット（データ取得、レイアウトの永続化、時間フィールドの検出、エクスポート/インポート）を登録します。ダッシュボードビュー自体は、vite-plugin-singlefile にバンドルされた単一の自己完結型HTMLファイルで、MCPアプリのリソースとして機能します。リポジトリをフォークするビルダーは、Securityアプリで見られるのと同じサーバーシェルとホストブリッジを、異なるジョブを指すように取得します。example-mcp-dashbuilder READMEには、完全なアーキテクチャーとチャートタイプのリファレンスがあります。

Watch video on Vidyard

Elastic Observability MCPアプリ

3つ目のリファレンスアプリであるElastic Observability MCPアプリは、SREにおける同様の問題に取り組んでいます。本番環境で何らかの障害が発生した場合、オンコールエンジニアが必要とするのはグラフではなく、Kubernetesのメトリクス、APMトポロジー、機械学習の異常、リスク評価などを統合した診断結果です。回答の形は、何が失敗したのか、なぜ失敗したのか、何がそれに依存しているのか、そして次に何をすべきか、といった因果関係を説明する物語です。

オブザーバビリティ調査のワークフローをサポートする6つのツール

ツール	依存関係	機能
observe	ユニバーサル	トランジェントES\|QL + ML-anomalyアクセスプリミティブ — クエリを一度実行し、メトリックをライブサンプリングするか、しきい値や異常が発生するまでブロックします。
アラート管理	ユニバーサル	Kibanaのカスタムしきい値アラートルールを作成、一覧表示、取得、削除します。読み取り専用で実行するには、KibanaのURLを省略してください。
ml-anomalies	MLジョブ	機械学習の異常レコードをクエリし、インラインの異常説明ビューを開きます。
apm-health-summary	Elastic APM	APMテレメトリからのクラスターレベルの健全性ロールアップ。利用可能な場合は、K8sおよびMLコンテキストのレイヤーも表示します。
apm-service-dependencies	Elastic APM	サービス依存関係グラフ — アップストリーム/ダウンストリーム、プロトコル、呼び出し量。
k8s-blast-radius	Kubernetesメトリック	Node-outage impact — 完全停止、劣化、影響なし、再スケジュールの実現可能性。

クラスターの状態のロールアップ

「壊れているのはどこ？」または「ステータスレポートをください」と尋ねると、全体的な健全性バッジ、理由付きの劣化サービス、上位ポッドのメモリ消費量、異常の深刻度の内訳、サービスのスループットなど、すべてを1つのインラインビューで一度に把握できます。これは、何かがおかしいと感じるものの、どこを調べればいいのか分からないときの出発点です。ビューは、導入がサポートする内容に応じて適応します。APMはサービスの健全性を提供します。Kubernetesメトリクスは、ポッドとノードのコンテキストを追加します。異常のMLジョブレイヤー。

サービス依存関係グラフ

「checkoutを呼び出しているのは何ですか？」または「トポロジーを表示」と尋ねて、レイヤー化された依存関係グラフ（上流の呼び出し元、下流の依存関係、プロトコル、エッジごとの呼び出し回数および遅延）を取得します。Claudeに「フロントエンドのサービス依存関係を見せて」と頼んでみます。

ズーム、パン、ホバー操作で、複雑なサービス間の関係性を理解するために必要な詳細情報をすべて確認できます。

爆発半径でリスクを評価

「k8sノードがダウンしたらどうなる？」と尋ねると、放射状の影響図が表示されます。中央にターゲットノードがあり、完全停止状態のデプロイメントは赤色、機能低下状態は琥珀色、影響を受けない状態は灰色で示されます。画面上に浮かぶサマリーカードには、リスクのあるポッドとスケジュール変更の実現可能性が表示されます。単一レプリカ構成は、単一障害点として認識されます。

監視

Elasticのエージェントの主要なアクセスプリミティブ — 1つのツール、3つの異なるニーズに対応する3つのモード。「CPUは現在何をしている？」と尋ねると、ES|QLクエリを一度実行してテーブルを返します。「今後60秒間のフロントエンドのレイテンシを表示して」と言うと、リアルタイムで指標をサンプリングし、グラフをその場で更新します。「メモリが80MBを下回ったら教えてください」または「今後10分間、異常がないか監視してください」と指定すると、条件が満たされるか、指定された期間が終了するまで処理が停止します。表示はモードに応じて変化します。ワンショットクエリの場合は結果テーブル、サンプリング条件としきい値条件の場合は現在値、ピーク値、ベースライン値を示すリアルタイムトレンドチャート、異常検知モードの場合は深刻度スコア付きのトリガーカードが表示されます。

プログラム概要

SecurityとSearchアプリと同じMCPアプリパターン：Node.jsサーバー、6つのモデル対応ツールが6つの単一ファイルビューリソースに接続されています。ツールは導入バックエンド（ユニバーサル、APM依存、K8s依存、ML依存）によってグループ化されているため、エージェントとユーザーの両方が、呼び出し時に機能ギャップを検出するのではなく、特定の導入に適用されるツールを事前に知ることができます。MCPアプリには、k8s-crashloop-investigation-otel というAgent Builderのワークフローの例も含まれています。これはKubernetesのアラートでトリガーされ、1つのダッシュボードを開く前に構造化された根本原因のサマリーを返すことができます。

Watch video on Vidyard

エージェンティック・スタック、インタラクティブ

このパターンに関して直接述べておく価値のある特性は3つあります。第一に、ツールの結果はもはや作業の終わりではなく、始まりです。会話は、行動を起こすための要約ではなく、行動を起こすことができるインターフェースを返します。第二に、同じエージェント、同じモデルコンテキスト、そして同じ会話スレッドが、会話を離れることなく、Security、Search、Observabilityのサーフェス間を移動できるようになりました。第三に、これはElasticsearchとKibanaがすでにAPIを公開しているからこそ機能します。MCPアプリは、当社が既に提供している製品機能の上に構築された、薄くインタラクティブなレイヤーです。

Attack Discoveryは、このアプリ内の相関する検出結果ビューをすでに提供しています。スタック内部では、同じエージェントパターンがさらに展開されます。Elastic Workflowsは決定論的なステップ（エンティティの強化、ケースの作成、ホストの分離）を自動化し、Agent Builderはデータに基づいて推論を行い、それらのワークフローをツールとして呼び出します。MCPアプリは、外部とのやり取りにおいても同様のセキュリティ機能を提供し、WorkflowsとAgent Builderは、スタック内部でそのセキュリティ機能をさらに強化します。エントリーポイントが異なっても、基盤となるElastic APIは同じです。

実際にお試しください

Security : example-mcp-app-security
Searchおよびダッシュボード : example-mcp-dashbuilder
Observability : example-mcp-observability

まだElasticsearchクラスターをお持ちではありませんか？Elastic Cloudの無料トライアルを開始しましょう。セキュリティアプリの基盤となるビルディングブロックの詳細については、Elastic WorkflowsとAgent Builder、Agent Skills、Attack Discoveryに関するSecurity Labsの関連記事をご覧ください。

Elastic Cloud ServerlessとElasticsearchの統合APIキーが登場

Alex Chalkias — Mon, 20 Apr 2026 00:00:00 GMT

あなたがサイト信頼性エンジニア（SRE）で、Elastic Cloud Serverlessプロジェクトの成長する製品群を担当していると想像してみてください。本番環境インフラのためのElastic Observability、セキュリティ運用センター（SOC）チームのためのElastic Security、そして顧客向けアプリケーションのためのElasticsearchです。各プロジェクトにそれぞれ固有のElasticsearch APIキーがあります。継続的インテグレーションと継続的デリバリー（CI/CD）パイプラインは、これらのプロジェクトをプロビジョニング・管理するために、別のCloud APIキーが必要です。四半期ごとにローテーションの日がやってきます。各プロジェクトを順番に確認し、新しいキーを作成し、Terraformの状態を更新し、パイプラインを再デプロイし、何も見落としがないことを祈ります。午前2時にインシデントが発生し、迅速にアクセス権を取り消す必要がある場合、どのキーがどのプロジェクト、どのサービスに属しているかを特定するために、認証情報が記載されたスプレッドシートを相互参照することになります。

今日では、こうした局面でもずっとシンプルになります。Elastic Cloud APIキーが、Elastic Cloud Serverless上でElasticsearchとKibana APIに対する直接認証に使用できるようになりました。単一の認証情報を使用して、組織のリソースを管理したり、 Elasticsearchクエリ言語（ES|QL）クエリ、データ取り込み、アラートなどのデータ操作を実行したりできるようになりました。

当社がこれを構築した理由、グローバルに分散されたIDレイヤーをどのように設計して実現した方法、そしてこれがクロスプロジェクト検索の基盤をどのように築くのかを見ていきましょう。

シークレット管理の負担

信頼性の高いCI/CDパイプライン、GitOpsワークフロー、またはTerraformの自動化をデータプラットフォームに構築する際には、隠れたコストが伴います。それは、シークレットの無秩序な拡散です。

以前のモデルでは、開発者は断片的な認証プロセスに直面していました。

コントロールプレーン（Elastic Cloud APIキー）： Elastic Cloud API経由でプロジェクトの作成、ユーザーの招待、課金管理などを行う際に使用する組織スコープのキー。
データプレーン（Elasticsearch APIキー）：特定のサーバーレスプロジェクト内で作成され、ElasticsearchおよびKibana APIとやり取りするために使用されるプロジェクトスコープのキー。

つまり、導入スクリプトがElastic Cloudに対して認証を行い、Serverlessプロジェクトをプロビジョニングし、その特定のプロジェクトから新しく作成されたElasticsearch APIキーを抽出し、その後、その2番目のキーを下流のアプリケーションまたは自動化ツールに注入する必要があったことになります。結果として複雑なパイプライン、断片化された監査ログ、認証情報漏洩のリスクの増加につながっていました。

Elastic Cloud Serverlessでの統合認証

このリリースにより、サーバーレスプロジェクトの分割はなくなりました。クラウド、Elasticsearch、Kibana APIsに対して明示的に認可されたElastic Cloud APIキーを作成できるようになりました。

以前：Elastic Cloud APIキーは、厳密にはコントロールプレーントークンでした。プロジェクトの作成、請求管理、ユーザー招待は可能だったが、プロジェクト内でElasticsearchやKibanaのAPIを呼び出せないという明確な制限がありました。データ操作には、常にプロジェクト固有の2つ目のキーが必要でした。
現在：Elastic Cloud APIキーを作成する際にCloud、Elasticsearch、Kibana APIへのアクセスを選択することで、Serverlessの境界が解除され、そのAPIキーが真に統一された認証情報となります。組織のインフラを管理する能力を維持しながら、同時に任意の認可されたサーバーレスプロジェクトでデータをクエリ、取り込み、分析するためのネイティブアクセスを獲得できます。

これを単一のElastic Cloud APIキーに統合することで、スコープ、監査、ローテーション、取り消しを1つのユニットとして行うことができる単一のIDが得られます。新しいプロジェクトのプロビジョニングであれ、ES|QLクエリの実行であれ、すべてのAPI呼び出しは監査ログに同じ認証情報で記録されるため、インシデント調査やコンプライアンスレビューの際に追跡できる単一の履歴が提供されます。認証情報のローテーションは、分離されたコントロールプレーンとデータプレーンのシークレット間での調整された更新ではなく、ワンステップの操作になります。また、役割の割り当てはプロジェクトごとに行われるため、1つのキーで複数のプロジェクトを横断的に管理でき、監視プロジェクトでのデータ取り込みを管理したり、セキュリティプロジェクトでクエリを実行したりすることが可能になり、プロジェクトごとに個別の認証情報を管理する手間が省けます。

重要なのは、統一されているということは決して全能であることを意味しない点です。role_assignments ペイロードを使用することで、統一されたキーを厳密に単一のプロジェクトと特定のロール（例: 読み取り専用）にスコープすることができ、認証情報が漏洩した場合でも、影響範囲を完全に制限することができます。開発者が退職した場合やアプリケーションが廃止された場合も、Elastic Cloudコンソールから単一のキーを取り消すことで、コントロールプレーンと関連するすべてのElasticsearchプロジェクトへのアクセスを即座に停止できます。

（注：Elastic Cloud Hosted/マネージド導入では、Cloud APIキーは依然としてコントロールプレーンのみを管理します。ホスト型スタックAPIへの対応は今後のリリースで予定されています。）

ワークフローの自動化

始めるのは簡単です。Elastic Cloudコンソールから完全に設定するか、Elastic Cloud APIを使って自動化できます。

UIの操作手順は変わりませんが、プロジェクトロールの割り当て時にCloud、Elasticsearch、Kibana APIへのアクセスを選択できるようになりました。

Elastic Cloud APIを使用してプログラムで統合キーを作成する方法を以下に示します。application_roles配列に注目してください。これが、Elasticsearch データプレーンへのキーのネイティブアクセスを許可します。

curl -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: ApiKey $EC_API_KEY" \
  "https://api.elastic-cloud.com/api/v1/users/auth/keys" \
  -d '{
    "description": "unified-automation-key",
    "expiration": "90d",
    "role_assignments": {
      "project": {
        "elasticsearch": [
          {
            "role_id": "elasticsearch-admin",
            "organization_id": "YOUR_ORG_ID",
            "all": false,
            "project_ids": ["YOUR_PROJECT_ID"],
            "application_roles": ["admin"]
          }
        ]
      }
    }
  }'

一度作成すると、このまったく同じキーをAuthorization: ApiKeyヘッダーでapi.elastic-cloud.comと特定のサーバーレスElasticsearchエンドポイントの両方に渡すだけです。

内部構造：分散型IDレイヤーの構築

Cloud APIキーをコントロールプレーンとデータプレーンの両方で使えるようにするのは、トークンを渡すほど単純ではありません。分散システムの根本的な課題を解決する必要があります。

歴史的に、Cloud APIキーは中央集権的なグローバルセキュリティクラスターに存在していました。これは、より高いレイテンシが許容されるコントロールプレーン操作には問題なく機能しますが、Elasticsearchのデータリクエストには超低レイテンシが求められます。すべての検索クエリやデータ取り込みリクエストを検証するために、地球を横断して中央コントロールプレーンまで往復する余裕はありません。

この問題を解決するため、グローバルに分散されたデータストアを基盤とする新しい認証アーキテクチャを導入しました。次のシーケンス図は、Elastic Cloud APIキーを使用してクライアントがElasticsearchクエリを送信する流れを示しています。グローバルコントロールプレーンへの往復なしに、認証がローカルリージョン内で完結することを示しています。Elasticsearchは認証を地域IAMサービスに委任します。このサービスはキーを検証し、グローバルに分散されたデータベースのローカルレプリカに照らしてロール割り当てを解決します。認可されると、Elasticsearchはクエリを実行し、結果をクライアントに返します。

グローバルに分散された永続性

Elastic Cloud APIキーとそれに関連付けられたロール定義は、中央集権型のセキュリティクラスターにのみ依存するのではなく、グローバルに分散された高可用性データベースに永続的に保存されるようになりました。このデータベースは、サーバーレスプロジェクトが実際に実行されるグローバルコントロールプレーンとリージョナルデータプレーン間で、アイデンティティおよびアクセス管理（IAM）データを同期します。

地域IAMによるローカル検証

クライアントがElastic Cloud APIキーを使用してElasticsearchにリクエストを送信した場合、そのリクエストはグローバルコントロールプレーンには返されません。代わりに、新しい地域IAMサービスにルーティングされます。ローカルデータベースのレプリカに対してキーを検証することで、認証がほぼゼロ遅延で行われ、グローバルなコントロールプレーンの障害から完全に隔離されることを保証します。

動的ロールマッピング

認証は戦いの半分に過ぎず、システムはリクエストを承認する必要もあります。地域IAMサービスは、クラウドレベルのロール割り当て（例：application_roles）をネイティブのElasticsearch権限に即座に変換します。Elasticsearch は、ローカルで.securityインデックスを必要とすることなく、ローカルでリクエストを承認し、実行することができます。

プロジェクト横断検索の基礎

この分散型IDアーキテクチャは、Elastic Platformの将来を支える基本的な構成要素です。

IDとアクセス権限が統一され、グローバルに同期されたことで、異なるプロジェクト間で安全に身元情報をやり取りするために必要なフレームワークが整いました。これにより、Serverless向けのプロジェクト横断検索（CPS）機能が有効になります。

CPSを使用すると、セキュリティとオブザーバビリティのワークロードを組み合わせるなど、複数のリモートServerlessプロジェクトにまたがるデータを、あたかも1つのデータセットであるかのように簡単にクエリできるようになります。統一されたAPIキーを利用することで、システムはすべてのプロジェクトにわたるユーザーの権限を同時に自動的に評価できます。対象プロジェクトごとに複雑な信頼関係、証明書、重複した認証情報を設定する必要はありません。

詳しくはこちら

スタックを簡素化する準備はできていますか？

スタックアクセスの割り当て方法についてはElastic Cloud APIキーのドキュメントをお読みください。
キー生成を自動化するには、「APIキーを作成する（Elastic Cloud API）」のリファレンスを参照してください。
Elasticプラットフォーム全体で使用されているキーの種類を包括的に比較するには、 Elastic APIキーに関するドキュメントを参照してください。

Elastic Cloudでの構築を今すぐ開始または継続しましょう。

免責事項

本記事に記述されているあらゆる機能ないし性能のリリースおよびタイミングは、Elasticの単独裁量に委ねられます。現時点で提供されていないあらゆる機能ないし性能は、すみやかに提供されない可能性、または一切の提供が行われない可能性があります。

Elasticsearch + Jina埋め込みによる教師なし文書クラスタリング

Matthew Adams — Fri, 10 Apr 2026 00:00:00 GMT

ベクターサーチはクエリから始まりますが、もしクエリがなければどうすればよいのでしょうか？

組織は大量のドキュメントコレクション（サポートチケット、法的書類、ニュースフィード、研究論文など）を蓄積しており、適切な質問をする前にその内容を理解する必要があります。ラベルやトレーニングデータがなければ、何千もの文書を手動で確認するのは非現実的です。何を検索すればいいかわからない場合、従来の検索は役に立ちません。

この投稿では、この検索の問題に対処するElasticsearchネイティブのアプローチによる教師なし文書クラスタリングと時間軸に沿ったストーリー追跡について説明します。最終的には、次のようにストーリーの文脈を日々にわたってたどることができるようになります。

読み取れる内容：

なぜクラスタリング埋め込み（検索埋め込みではない）が、クエリーなしでトピック発見を行いたい場合に重要なのか。
Elasticsearchのk-nearest-neighbor（kNN）とバッチ処理msearch を使用したトピックにより、密度探査型重心分類で文書をグループ化する方法。
significant_text がクラスターに自動ラベルを付けることで、モデルをトレーニングしなくてもテーマを読めるようにする方法。
テーマが日々どのように変化するかを示す上で、時間軸に沿ったストーリーチェーンが日々のクラスターをどのように結び付けるのか。

このパイプラインでは、2025年2月のBBCニュースとガーディアンの記事を約8,500件、テストコーパスとして使用しています。ニュースは明確な時間的推移を示すため便利ですが、このパターンは文書の発見が重要なあらゆる場面に適用されます：法的レビュー、コンプライアンスの監視、研究の統合、カスタマーサポートのトリアージ。

スタック：

Jina v5のクラスタリング埋め込み：トピックグループ化のためのタスク固有の低ランク適応（LoRA）アダプター。JinaはElasticに統合され、そのモデルはElastic Inference Service（EIS）を通じてネイティブで利用可能です。
Elasticsearch：拡張性のあるkNN、significant_textラベリング、ベクトルストレージ。
DiskBBQ：ディスクベースのベクトルインデックス形式で、 Better Binary Quantization（BBQ）と階層的なk-平均法による分割を組み合わせ、近似最近近接傍（ANN）加速を実現します。このインデックス分割はベクトル探索の内部で行われ、本投稿で用いる密度探査型クラスタリング・アルゴリズムとは別です。bbq_diskはディスクに量子化されたベクトルを格納し、ヒープにはパーティションメタデータのみを保持することで、bbq_hnswと比較してリソース要件を大幅に削減しながら、高い再現率を維持します。
グローバルクラスタリング + 日々の時間軸に沿ったリンク付け：発見とストーリーの進化。

以下が必要です：

Elasticsearchの導入（Elastic Cloud、Elasticsearchサーバーレス、またはElastic Self-Managed 8.18+/9.0+）：bbq_disk 8.18以降が必要です。オプションのdiversify retrieverセクションは9.3+またはサーバーレスが必要です。
Jina APIキー：無料プランには1000万トークンが含まれており、これはコアクラスタリング・パイプライン（約425万トークン）をカバーします。オプションの検索対クラスタリング比較は、2番目の埋め込みパスを使用します。
Guardian APIキー（無料）。

セットアップ

必要なパッケージをインストールしてください：

pip install elasticsearch pandas numpy plotly umap-learn python-dotenv pydantic-settings datasets requests

オプション（このリポジトリからスクレイピングヘルパーを実行する場合のみ）：

pip install beautifulsoup4

次に、プロジェクトのルートにある.envファイルでAPIキーを設定します。

ELASTIC_CLOUD_ID=your-cloud-id        # or ELASTIC_HOST=https://...
ELASTIC_API_KEY=your-api-key
JINA_API_KEY=your-jina-key
GUARDIAN_API_KEY=your-guardian-key

このノートブックは load_dotenv(override=True)を呼び出し、局所的な .env 値が優先されます。

Connected to Elasticsearch

パート1：ディスカバリークラスタリング - なぜ埋め込みをクラスタリングするのか？

ほとんどのベクター検索は、クエリを関連文書に一致させるようにトレーニングされた検索埋め込みを使用します。これは検索には最適ですが、発見には適していません。まったくクエリーせずにコーパスに存在するトピックを見つけたい場合は、類似した文書をグループ化する埋め込みが必要です。

Jina v5では、タスク固有の低ランク適応（LoRA）アダプタを使用してこの問題を解決します。LoRAは、ほとんどのベースモデルの重みを凍結したまま、ターゲットとなる内部層に小さな低ランクの更新を加えるため、完全な再トレーニングを行うことなく、モデルの挙動が特定のタスクにシフトします。同じベースモデルでも、taskパラメータによって異なる埋め込みが生成されます。

タスク	訓練の目的	ユースケース
retrieval.passage	クエリーと文書のマッチング	Search、Retrieval-Augmented Generation（RAG）
クラスタリング	トピックのグループ化（密度が高いクラスタリングの最適化）	発見、分類

クラスタリング・アダプターは、同じトピックに関する文書を埋め込み空間で近づけ、異なるトピックに関する文書を離すように訓練されています。下のビジュアル比較で、その違いが具体的にわかります。

検索とクラスタリング：視覚的な比較

違いを確認するために、両方のタスクタイプを含むサンプル文書を埋め込んでいます。クラスタリングは元の1024次元の埋め込み空間で実行されます。均一多様体近似と射影（UMAP）は、可視化のためそれらの埋め込みを2Dに投影する目的でのみ使用されます。東映UMAPは局所的な近傍構造を保持するため、クラスターの分離を比較する上で有用です。

以下では、同じ480件の文書のサンプルが両方のタスクタイプに埋め込まれ、UMAPで2Dに投影されています。クラスタリングパネルで、より密集していて、分離された色群を探します。

    Full dataset: 8,495 articles
    Sources: guardian: 5749, bbc: 2746
    Date range: 2025-02-01 to 2025-02-28


    Sample: 480 docs across 8 sections
    section
    Film              60
    World news        60
    Australia news    60
    Opinion           60
    Football          60
    US news           60
    Sport             60
    Business          60


    Clustering embeddings: 480
    Retrieval embeddings:  480


    UMAP projection complete

検索埋め込み（左）はトピックを広く分散させます。クラスタリング埋め込み（右）は、同じドキュメントからより緊密で分離されたグループを生成します。

クラスタリング埋め込みは、より緊密で視覚的に際立ったグループを生み出します。検索用の埋め込みはトピックをより均等に分散させ、（きめの細かい類似性で）検索する上で理想的です。しかし、発見のためには、緊密なトピッククラスターが重要です。

このため、このチュートリアルの残りの部分では task="clustering" が使用されています。

データセットの読み込み

次のコーパスは、2025年2月の2つのニュースソースを組み合わせています。

RealTimeData/bbc_news_alltime HuggingFaceデータセット経由のBBCニュース。
Guardian Open Platform API経由のThe Guardian。

複数のソースがあると、クラスタリングがトピックではなくソース固有のスタイルを見つけることを検証するのに役立ちます。

    Total articles:  8,495
    
    Source breakdown:
    source
    guardian    5749
    bbc         2746
    
    Date range: 2025-02-01 → 2025-02-28
    Days covered: 28
    
    Sample article:
      Source:  guardian
      Title:   Carbon monoxide poisoning ruled out in death of Gene Hackman and wife, police sa
      Section: Film
      Text:    Authorities have ruled out that Gene Hackman and his wife, Betsy Arakawa, died from carbon monoxide poisoning earlier this week in their home in Santa Fe, New Mexico. The Santa Fe county sheriff, Adan...

クラスタリングタスクによる埋め込み

Jina v5 APIはすべての文書に対してtask="clustering"で呼び出されます。埋め込みはディスクにキャッシュされるため、その後の実行ではAPIを完全にスキップします。

API呼び出しはシンプルです。taskパラメータが、典型的な埋め込み使用との主な違いです。

payload = {
    "model": "jina-embeddings-v5-text-small",
    "input": texts,
    "task": "clustering",  # ← This selects the clustering LoRA adapter
}

以下のタイミングはキャッシュヒットを反映しています。APIに対する最初の実行は、コーパスサイズによって時間がかかります。

    Embeddings ready: 8,495 vectors of dimension 1024
    Time: 0.6s

単一のElasticsearchインデックスへのインデキシング

発見クラスタリングでは、1か月間を1つのインデックス（docs-clustering-all）にまとめます。日々の分割は、時間軸に沿ったストーリーリンクのために後から行われます。

インデックスマッピングでは、ベクトルフィールドにbbq_diskを使用します。

{
  "embedding": {
    "type": "dense_vector",
    "dims": 1024,
    "index": true,
    "similarity": "cosine",
    "index_options": {
      "type": "bbq_disk"        // hierarchical k-means partitioning for ANN index lookup; separate from this post's clustering algorithm
    }
  }
}

1024次元のfloat32ベクトルは4KBです。bbq_disk は階層的k-means法を使用してベクトルを小さなクラスターに分割し、それらをバイナリ量子化し、再スコアリングのためにフルプレシジョンのベクトルをディスクに格納します。パーティションのメタデータのみがヒープに存在し、そのため大規模なコーパスでもメモリ要件は低く抑えられます。より多くのヒープを許容できるワークロードの場合、bbq_hnsw は、より高いリソースコストでより高速な検索を行うための階層的ナビゲーシブル・スモールワールド（HNSW）グラフを構築します。

dense_vectorフィールドタイプは複数の量子化戦略をサポートしています：bbq_diskとbbq_hnswは、ここで使用されている1024次元ベクトルのような高次元埋め込みに最適です。

    Indexed 8,495 documents into docs-clustering-all
    Time: 57.5s

クラスタリング：密度探査型重心分類

HDBSCANのような従来型のクラスタリングアルゴリズムでは、完全なn×dベクトル行列をメモリに保持し、フルパス更新を繰り返し実行できることを前提としています。8,495件のドキュメントを1024次元で扱う場合、処理可能（最大35MB）ではあるものの、このアプローチは追加のインフラストラクチャーなしでは数百万の文書にスケールすることはできません。

このアルゴリズムは、ボロノイ領域への割り当て割り当てとノイズフロアによるKMeans++法の初期化と概念的には似ていますが、ElasticsearchのkNN検索を計算プリミティブとして使用し、ほぼ全ての作業をサーバー側で行います。

文書の5%を密度プローブとしてサンプリングします（ランダムサンプル、最低50件）。
バッチ処理された　msearch　kNNによるプローブ密度。各プローブはkNNクエリを実行し、隣接プローブの平均類似度を記録します。平均類似度が高い＝埋め込み空間の密な領域。msearch は単一のHTTPコールで複数の検索リクエストを送信し、これは重要です。密度プローブは数百のkNNクエリを生成し、それらをバッチ処理することでリクエストごとのオーバーヘッドを回避します。
多様性を考慮した高密度シードの選択：中央値以上の密度を持つ候補は、密度の降順でソートされ、既存のすべてのシードとのコサイン類似度が分離閾値を下回る場合にのみ貪欲に受け入れられます。これがクライアント側での唯一の計算です（8,000件の文書で最大0.01秒）。
msearch kNNで全ての書類を重心に照らして分類します。各シードが重心として機能し、kNN検索は類似度しきい値を超える近接文書を取得します。各文書は、最も高いスコアを返した重心に割り当てられます。小さなクラスターはノイズとして処理されます。

Elasticsearchが面倒な処理を担当します：msearchは密度プローブ、msearchは分類、significant_textはラベル付けを担います。このコーパス（8,495件の文書）では、5％の密度プローブサンプルが425件のkNNプローブクエリを開始し、msearchが9つのHTTPコール（バッチサイズ50）にバッチ処理され、プローブごとに1つのリクエストを処理することによるオーバーヘッドを回避します。bbq_diskANNルックアップと組み合わせることで、クラスタリング段階を高速かつスケーラブルに保つことができます。kNNクエリは、クラスタリングパス中の速度のために最小のnum_candidates値を使用します。本番環境の検索クエリでは、レイテンシを犠牲にしてリコールを向上させるために、より高いnum_candidates値を使用する必要があります。

クラスターは各重心の周りの埋め込み空間の密度によって決定される実際的なサイズを持ち、厳格なkの上限によって決定されるものではありません。密なトピック領域はより大きなクラスターを生み出し、ニッチなトピックは小さなクラスターを生み出します。

KMeansやHDBSCANが実用的ではない理由

KMeans法は球状クラスターを想定しており、メモリに完全なn×d行列が必要です。メモリに収まるコーパスの場合、HDBSCANは強力な代替手段です。任意のクラスタ形状に対応でき、密度に関するセマンティクスも十分に理解されています。

密度探査型重心アプローチは、異なるニッチをターゲットとしています。ストレージ、検索、およびクラスタリングを1つのシステムで行いたい場合や、スケールがクライアント側の行列操作を実用的でなくするようなコーパスです。これは、Elasticsearch kNNを計算プリミティブとして使用し、任意のクラスターサイズを処理し、ほぼすべての計算をサーバー側で行います。

    Clustered global index in 31.6s
      Total clusters: 82
      Total noise:    2420 (28.5%)
      Density probes: 425 kNN queries via 9 _msearch HTTP calls

ノイズレートについて理解する

最大28%のノイズ率は設計によるもので、故障モードではありません。設定されたsimilarity_thresholdでどの高密度クラスターにも適合しない文書は、一致率が低いと強制的に判断されるのではなく、割り当てられずに残されます。これは品質ゲートの役割を果たします：意見を記したコラム、短い記事、そして一回限りのストーリーは、一貫したグループを定義する主題の密度が不足しているため、クラスタリングに抵抗する性質があります。

しきい値は調整可能です。similarity_thresholdを下げると、より積極的なクラスタリングが生成されます（より多くの文書が割り当てられますが、クラスターは緩くなります）。一方、これを上げると、クラスターが引き締まり、ノイズの割合が増加します。こうした様々なニュースコンテンツを含むコーパスにおいては、約30％のノイズは妥当な動作基点と言えます。本番環境での導入は、分野固有の品質基準に合わせてしきい値を調整することが推奨されます。

significant_textを使用した自動ラベル付け

各クラスターには人間が読みやすいラベルが必要です。Elasticsearchのsignificant_textアグリゲーションは、フォアグラウンドセット（クラスター）とバックグラウンドセット（完全なコーパス）を比較して、異常に頻繁に現れる用語を見つけます。

内部的には、絶対頻度の変動と相対頻度の変動のバランスを取る統計的ヒューリスティック（デフォルトではJLHスコア）を使用しており、機械学習や大規模言語モデル（LLM）の呼び出しは行っていません。英国の政治に関するクラスターでは、starmer、labour、downingのような用語が浮かび上がる可能性があります。これらの用語は、全体的なニュースコーパスと比較して、そのクラスターで不釣り合いに頻出しているためです。

このグローバルパスでは、ラベルはdocs-clustering-allに対して直接計算されるため、前景と背景の両方が月全体のデータから描画されます。パート2では、ラベル付けに日次インデックスパターン（docs-clustering-*）を使用します。これは、クエリで一致するすべてのインデックスを同時に対象にできるワイルドカードで、significant_textにより広い背景を与えてコントラストを高めます。

最小クエリー形状は次のようになります。

{
  "size": 0,
  "query": { "term": { "cluster_id": "72" } },
  "aggs": {
    "label_terms": {
      "significant_text": {
        "field": "text",
        "size": 5,
        "filter_duplicate_text": true
      }
    }
  }
}

significant_text また、品質ゲートの役割も果たします。有意な用語を生成しないクラスターには、特徴的な語彙がありません。これらはまとまりのないグループであり、誤解を招くようなラベルを付けるのではなく、ノイズとして分解する必要があります。

軽量で決定論的なクリーンアップステップで、ノイズの多いラベルの用語（数値トークン、一般的な単語）を削除し、必要に応じて代表的な見出しに切り替えます。これにより、ラベルをElasticsearchネイティブのまま維持しつつ、可読性を向上させます。

    Sample cluster labels:
      cluster   3  (200 docs)  arsenal | mikel | villa
      cluster   1  (198 docs)  volodymyr | ukrainian | kyiv
      cluster   0  (196 docs)  hostages | hamas | israeli
      cluster   4  (187 docs)  scrum | rugby | borthwick
      cluster  52  (185 docs)  fossil | renewable | renewables
      cluster  10  (156 docs)  labour | gwynne | mps
      cluster  40  (151 docs)  novel | novels | literary
      cluster  11  (149 docs)  mewis | sarina | wiegman
      cluster  44  (143 docs)  flooding | rainfall | rain
      cluster  13  (131 docs)  doge | musk | elon
      cluster  12  (128 docs)  murder | insp | knockholt
      cluster   5  (124 docs)  putin | backstop | starmer


    Reassigned 35 docs from incoherent clusters to noise
    Total docs: 8,495
    Clustered:  6,040 (71.1%)
    Noise:      2,455 (28.9%)

クラスターの可視化

以下の可視化は、グローバルクラスタリングパスが発見した内容を示しています：クラスター化された文書とノイズ文書の日付ごとの内訳、全月のUMAP投影、およびクラスターがソースではなくトピックを反映していることを確認するソースミックスチャート。

2025年2月におけるクラスター化された文書とノイズ文書の日次分布。

UMAPの色のついた島はそれぞれがクラスターを表しています。クラスターは、純粋に類似性を埋め込むことで発見された、同じトピックに関する記事の集合です。灰色のノイズポイントは、いずれのクラスターにもきれいに収まらなかった記事（多くの場合、短い記事、意見記事、または一回限りのストーリー）です。

情報源の内訳図を見ると、各クラスターにはBBCニュースとガーディアンの両方からの記事が含まれていることが確認できます。クラスタリングは、ソースではなくトピックを見つけ出すものであり、まさに教師なし学習から期待される結果です。

Diversify Retrieverによるクラスター幅の調査

通常のkNNは、クラスターの重心（密なコア）に最も類似した文書を返します。しかし、実際のクラスターはサブトピックも対象にします。The Diversify Retrieverは、Maximal Marginal Relevance（MMR）を使用して、重心に関連するだけでなく、互いに異なる文書を抽出します。

鍵となるパラメータは λ（ラムダ）です。

λ = 1.0 → 純粋な関連性（通常のkNNと同じ）。
λ = 0.0 → 純粋多様性（最大限に分散された結果）。
λ = 0.5 → バランスが取れている：トピックに関連しているが、異なる角度をカバーしている。

最小Retrieverリクエストの形状は次のようになります。

{
  "size": 8,
  "retriever": {
    "diversify": {
      "type": "mmr",
      "field": "embedding",
      "lambda": 0.5,
      "query_vector": "",
      "retriever": {
        "knn": {
          "field": "embedding",
          "query_vector": "",
          "k": 50,
          "num_candidates": 100
        }
      }
    }
  }
}

type、field、および query_vector パラメーターは、diversifyレベルで必要です。field はMMRに結果間の類似性に使用する dense_vector フィールドを指示し、query_vector は関連性スコアリングの参照点を提供します。

これにより、単に「その中心は何か？」という問いではなく、「このクラスターは実際に何を対象としているのか？」という問いに答えることができます。

    Exploring cluster 52 (185 docs)
    Label: fossil | renewable | renewables
    Centroid computed (dim=1024)


    ========================================================================
    Plain kNN (closest to centroid)
    ========================================================================
      1. [0.9738] Green campaigners fear ministers are poised to award billions of pounds in fresh subsidies to Drax power station, despite strong concerns...
      2. [0.9710] Thirteen more oil and gas licences could be cancelled as ministers decide new guidance for fossil fuel extraction after a landmark court...
      3. [0.9699] Experts have accused the fossil fuel industry of seeking special treatment after lobbyists argued greenhouse gas emissions from oilfields...
      4. [0.9681] Burning wood is a terrible way of producing electricity . Chopping down trees destroys habitats for wildlife, and growing new trees cannot...
      5. [0.9649] Keir Starmer will do huge damage to the global fight against climate change if he gives in to political pressure and allows the development...
      6. [0.9641] Labour will next week be confronted with stark policy choices that threaten to expose the fault lines between the Treasury and the...
      7. [0.9638] The Drax power station near Selby in north Yorkshire burns imported wood pellets  The government has agreed a new funding arrangement with...
      8. [0.9581] If you care about the world we are handing on to future generations, the news on Thursday morning was dramatic. This January was the...
    
    ========================================================================
    Diversify retriever (MMR, lambda=0.5)
    ========================================================================
      1. [0.9738] Green campaigners fear ministers are poised to award billions of pounds in fresh subsidies to Drax power station, despite strong concerns...
      2. [0.9434] Oil and gas interests have waged a coordinated campaign to kill pro-electrification policies that ban gas connections in new buildings ,...
      3. [0.9303] It was interesting to read that new licences for oil and gas production in the North Sea are being delayed by legal action ( Thirteen more...
      4. [0.9139] The US energy secretary, Chris Wright, has said he “would love to see Australia get in the game of supplying uranium and maybe going down...
      5. [0.9077] Rachel Reeves was facing criticism on Saturday night as it was confirmed that a report she cited as evidence that a third runway at...
      6. [0.8996] When Margaret Thatcher opened the Hadley Centre for Climate Change in 1990 journalists suggested she was attempting to appear to be doing...
      7. [0.8993] The vast majority of governments are likely to miss a looming deadline to file vital plans that will determine whether or not the world has...
      8. [0.8987] European imports of seaborne gas shipments fell by a fifth last year to their lowest level since the pandemic, according to a new report,...
    
    Overlap: 1/8 documents appear in both result sets
    
    Avg pairwise similarity (lower = more diverse):
      Plain kNN:          0.9057
      Diversify retriever: 0.6965

プレーンなkNNは、トピックの1つの角度、つまり中心点および互いに最も類似したドキュメントの周りにクラスターを形成します。Diversify Retrieverは、同じクラスターの異なるファセット、つまりサブトピック、異なるソース、多様な視点を提示します。

多様性指標はこれを定量的に裏付けます。Diversify Retrieverの結果では、平均ペアワイズ類似度が低く、これは返された文書がより広範囲をカバーしていることを意味します。

これは以下の用途に役立ちます。

クラスターが実際に対象としている内容を理解。その中心だけでなく端も含め理解します。
要約の生成。多様で代表的な文書は、LLMにより良い材料を提供します。
人によるレビューや下流工程でのラベリングのために、代表的な例を発見。
品質チェック。多様な結果が一貫性に欠けている場合、クラスターの分割が必要かもしれません。

パート2：時間軸に沿ったストーリーチェーン

日をまたいだデータストーリーの追跡

パート1では、トピック発見のために1か月全体をグローバルにクラスタリングしました。時間軸に沿ったフローでは、同じ密度プローブの重心分類が日次インデックスごとに1日単位で独立して実行され、その後、クラスターが隣接する日々にわたってリンクされます。注意：日々のクラスターはパート1のグローバルクラスターとは独立しており、それぞれの1日はその日のコンテンツに合わせて独自のクラスター割り当てとラベルを生成します。

ストーリーチェーンの構築

ストーリーチェーンとは、連日にわたって連続した一連のクラスターです。

個々のペアワイズリンクは、月曜日の「UK politics」クラスターが火曜日のクラスターにリンクしていることを示しています。チェーンはストーリー全体を明らかにします。月曜日に始まり、週を通して展開し、金曜日までに消えていくストーリーです。

チェーンは、kNN分数が0.4以上のリンクから貪欲に構築されます。これは、ソースクラスターからサンプリングされたドキュメントの少なくとも40％が単一のターゲットクラスターに到達したことを意味します。最も古いクラスターから開始し、アルゴリズムは常に最も強い発信リンクを追跡します。

    Strong links (kNN fraction >= 0.4): 244
    Story chains spanning 3+ days: 18
      Chain 1: 'ukrainian | kyiv | eastern' (19 days: Feb 3 → Feb 21)
      Chain 2: 'playing | opposition' (19 days: Feb 10 → Feb 28)
      Chain 3: 'tadhg | maro | cadan' (10 days: Feb 1 → Feb 10)
      Chain 4: 'invade | china | putin' (8 days: Feb 21 → Feb 28)
      Chain 5: 'elected | labour | leader' (7 days: Feb 12 → Feb 18)
      Chain 6: 'film | swift | awards' (6 days: Feb 2 → Feb 7)
      Chain 7: 'amendment | termination | reporting' (6 days: Feb 12 → Feb 17)
      Chain 8: 'officers | scene | police' (5 days: Feb 1 → Feb 5)

最も長いチェーンは、ウクライナとロシアに関する報道を19日間連続で追跡していますが、2025年2月の地政学的な緊張が持続していることを考えると、これは驚くべきことではありません。2番目に長いチェーンは、19日間にわたるプレミアリーグのサッカーを追跡するものです。より短いチェーンは、映画賞シーズン（6日間）、シックス・ネーションズラグビー（10日間）、英国の政治指導者に関する報道（7日間）を追跡しています。それぞれのチェーンは、アルゴリズムが日々のインデックス全体にわたる埋め込み類似性のみから発見したストーリー展開を表しています。

サンキー：ストーリーの流れを可視化する

サンキーダイアグラムは、リンクの幅がつながりの強さを表す流れの可視化です。ここでは、各垂直バンドが1日を表し、各ノードは日々のクラスター（ドキュメント数によってサイズが決まる）であり、各色のパスは時間の経過に沿って1つのストーリーチェーンを追跡します。リンク幅はkNNのオーバーラップ強度をエンコードします。リンクが太いほど、サンプリングされたドキュメントの数がより多くターゲットクラスターに到達したことになります。色はチェーンごとに分かれているので、左から右へ流れる1つのカラーパスで1つのストーリーの進行がわかります。

たとえば、ウクライナとロシアのチェーン（比較的長い経路の一つとして示されている）は、2月初旬から第3週まで途切れることなく続いており、一貫して太い線で結ばれていることから、日々の話題の連続性が強いことがわかります。

2025年2月に流れる時間軸に沿ったストーリーチェーン各色のパスは、複数日にわたって続くストーリーを表し、リンクの幅はkNNの重なりの強さを示します。

このアプローチがもたらすメリット

このウォークスルーでは、Elasticsearch上に構築された完全な教師なしドキュメントクラスタリング・パイプラインについて説明しました。

クラスタリング埋め込み：Jina v5のタスク固有のアダプターは、トピックのグループ化に最適化された埋め込みを生成し、単なるクエリと文書のマッチングだけではありません。
グローバルな発見クラスタリング：1つのインデックスで1か月間をクラスタリングすることで、日をまたいだトピックの発見を最大化します。
密度プローブによる重心分類：5％をサンプリングし、msearch kNNを介して密度をプローブし、多様な高密度シードを選択し、すべての文書を重心に対して分類します。Elasticsearchは負荷の高い計算を処理します。シード選択のみがクライアント側で実行されます（最大0.01秒）。
significant_textラベリング：有意性テストは、MLモデルや手動アノテーションなしで意味のあるクラスタラベルを生成します。有意な項を生み出さないクラスタは非整合となり、ノイズに格下げされます。これは内蔵された品質ゲートです。
時間軸に沿ったストーリーのリンク付け：日次インデックスとサンプルおよびクエリのクロスインデックスkNNは、ストーリーが時間とともにどのように進化するかを追跡します。

重要なポイント

埋め込みタスクの種類が重要です。クラスタリング埋め込みは、測定可能かつより緊密な話題のグループを生成します。
Elasticsearchはストレージ層およびクラスタリングエンジンの両方としてkNN検索を通じて機能します。
密度探査型重心分類は、ほぼすべての計算をサーバー側で行い、埋め込み空間の密度によって決定される合理的なサイズのクラスターを生成します。
significant_text 高速で解釈可能で、自動ラベリングと品質管理の両方に効果的です。

このアプローチは、以下の場合に有用です。

タイムスタンプ付きのテキストがあり、ラベル付きトレーニングデータを使用せずにトピックを発見したい場合があります。
ストレージ、ベクトル検索、ラベル付け、および時間軸に沿ったリンク付けのために、1つのスタックが必要な場合があります。

検討すべき拡張機能：

複数期間クラスタリング（週間、月間集計）。
リアルタイムのインジェストと段階的なクラスター割り当て。
LLM生成のクラスタサマリーは、significant_text項をシードとして用います。
より大規模なスケールでは、サンプリングされたKMeansの重心が密度ベースのクラスタリングのウォームスタートシードとして機能し、探査フェーズのコストを削減できます。

はじめましょう

タイムスタンプ付きの文書コーパスを差し替えます。日付のあるテキストのコレクションであれば、このパイプラインで利用可能です。完全なノートブックとサポートコードは、付属レポジトリで入手できます。

Elastic Cloudの無料トライアルを開始：bbq_diskサポート付きのマネージドクラスターを数分でご利用いただけます。
Elasticsearch Serverlessをお試しください：クラスターの管理は不要で、自動的にスケールし、このウォークスルーのすべてをサポートします。

eコマース検索にガバナンスが必要な理由

Alexander Marquardt, Honza Král, Taylor Roy — Thu, 09 Apr 2026 00:00:00 GMT

eコマース小売業者は、根本的に異なる様々な種類のクエリを同一システム内で処理する必要があります。「オレンジ」を検索している購入者は果物そのものを期待しているのであって、オレンジジュースやオレンジマーマレードなど、「オレンジ」という単語を含む商品や、意味的に関連する柑橘類製品を期待しているわけではありません。「甘いもの好きなおじいちゃんへのプレゼント」を探す購入者は、文字通りのキーワードマッチングではなく、意味的な発見を必要としています。

語彙検索（テキストのマッチング）、セマンティック検索（概念のマッチング）、ハイブリッド検索（語彙シグナルとセマンティックシグナルの組み合わせ）は、単独ではこれらの問題を解決できません。語彙検索は「オレンジ」という単語を含むあらゆるものを返す可能性がある一方で、「オレンジ」のような意図の強いクエリに対する純粋なセマンティック検索は、レモンやグレープフルーツなどの関連項目へと広がる可能性があります。ハイブリッド検索はこれらの語彙シグナルとセマンティックシグナルを組み合わせますが、それでもこのクエリをナビゲーションとして扱うべきか、どの制約を適用すべきか、あるいはどのビジネスポリシーを適用すべきかの判断は行いません。欠けているのは検索技術そのものではなく、これがどのような種類のクエリであるか、そして検索を開始する前にどの制約を適用すべきかを理解するガバナンスレイヤーです。

このブログでは、eコマースの検索ガバナンス、その重要性、そして制御レイヤーが予測可能で正確な検索結果をどのように保証するかについて探ります。

eコマース検索におけるガバナンスの意味

ガバナンスは、この文脈では、ユーザーのクエリと検索エンジンの間に意思決定レイヤーを導入することを意味します。このレイヤーは以下の機能を果たします。

クエリの意図を分類する：これはナビゲーション（「オレンジ」）か発見（「おじいちゃんへの贈り物」）か？
ビジネス上の制約を適用する：どのようなカテゴリー境界、資格要件、在庫状況の制約、または販売促進ポリシーが適用されるか？
適切な戦略への道筋：語彙検索、セマンティック検索、ハイブリッド検索のどれを使用すべきか？

ガバナンスレイヤーは、各クエリにどの検索アプローチを使用すべきか、どの制約を適用しなければならないか、また検索が始まる前にどのビジネスポリシーを適用すべきかを決定します。ガバナンスとハイブリッド検索は混同すべきではありません。ハイブリッド検索は語彙的シグナルと意味的シグナルを組み合わせた検索戦略の一つであり、ガバナンスは語彙、セマンティック、ハイブリッドのいずれを使用すべきかを決定する上流の意思決定レイヤーです。

現状：アプリケーションレイヤーの「スパゲッティ」型実装

現在、多くの小売業者は、アプリケーションレイヤーに直接ロジックを追加することでこの問題を解決しようとしています。これはしばしばスパゲッティコード（何千行ものハードコーディングされたif-then文、正規表現、複雑な検索テンプレート）を生み出します。

このアプローチは、上記に示したような望ましい検索結果をもたらすことができますが、運用上の大きな摩擦を生じさせます。

エンジニアリングへの依存：ビジネスユーザーやマーチャンダイザーは、エンジニアリングチケットの提出や数週間に及ぶ長い導入サイクルなしに検索動作を変更することができません。
断片化：検索ロジックはアプリケーションコードと検索テンプレートの間に散在し、説明や監査が困難になり、進化させるにはリスクが伴います。

チームがルーティングの必要性を認識したとしても、議論はしばしば間違った点、つまりどの取得方法を選択するかという点に集中してしまいます。

誤った選択：語彙検索、セマンティック検索、ハイブリッド検索のどれかを選ぶこと

検索チームはしばしば、この課題を検索戦略の選択として捉えています。この場合の選択肢は語彙/BM25、セマンティック/ベクトル、ハイブリッドの組み合わせです。その考え方は理解できます（検索方法は確かに重要です）が、実際の導入環境で最も一般的な失敗パターンを見落としています。それは、すべてのクエリに対して単一の検索方法を使用すると、最適とは言えない結果しか得られないということです。

コマース検索は、根本的に異なる意図が混在したものです。

決定論的で意図の高いナビゲーション（「オレンジ」、「牛乳」、「ピーナッツなしのチョコレート」、「安いオリーブオイル」）。
探求的な発見（「山でのハイキング用のジャケット」、「ロボット工学が好きな12歳の子供へのプレゼント」）。
運用上の制約（在庫状況、サイズ、価格、色）。
マーチャンダイジングおよびキャンペーン（ブースト、非表示、季節限定キャンペーン）。

システムがこれらすべてを同じ検索戦略を通じてルーティングした場合、運用モデルにガバナンスが欠如しているため、予測可能な方法で体系的に誤った結果が返されることが多くなります。チームがこれをガバナンスのギャップと認識していない場合、唯一の手段であるチューニングの強化で対応します。

「関連性のチューニング」が循環的になり得る理由

ルーティングレイヤーがなければ、「関連性」はしばしば終わりのないバックログに変わります。

なぜこのクエリでは主要製品よりも付属品が上位に表示されるのか？
なぜこのヘッドクエリは突然関連アイテムを表示し始めたのか？
同義語を追加したり、アナライザーを調整したり、ハイブリッドを有効にしたりした後に結果が変わった理由は？
なぜビジネスチームは単一のクエリを修正するのにエンジニアリングリリースが必要なのでしょうか?

チームは、同義語、ブースト、再ランキング実験、アプリケーションコードにおける例外処理などの追加といったさらなるチューニングで対応します。これはしばらくの間は機能するかもしれませんが、クエリの種類を決定し、取得前に適切な制約を適用するための明示的な決定レイヤーがシステムにまだないため、不安定な動作を引き起こすことがよくあります。

eコマースの意図の構造：ヘッドとテール

このセクションでは、eコマースにおける一般的なナビゲーションおよび探索クエリパターンの実用的な省略形として「ヘッド」と「テール」を使用します。現実世界では、多くのクエリには次の両方の側面が含まれています。

ヘッドクエリ（決定論的意図）

これらは、ユーザーが何を求めているかを正確に把握している、直接的なナビゲーションクエリです。

単一アイテムの意図（「オレンジ」、「牛乳」、「パン」）。
具体的なブランド名や製品ファミリー名（「iPhone 15 Pro」、「ダイエットコーク」）。
SKU、モデル番号、サイズ（「ABC123」、「air max 270」）。

これらのクエリに対して、語彙検索はトークンの対応関係（単語のマッチング）を処理できますが、ビジネス側は制約を尊重し、予測可能なランキングを返し、制御可能な結果を得ることも期待しています。マーチャンダイザーは、クエリが正しいカテゴリーの境界内で解決され、適格性を尊重し、特定のビジネス優先事項を明確にすることを確認する必要があります。

意図された解決を強制するためにはガバナンスが必要です。例えば、「オレンジ」は農産物カテゴリーに分類されるべきであり、オレンジジュース、オレンジマーマレード、オレンジソーダに分類されるべきではありません。

テールクエリ（探索的発見）

これらは、購入者が探している情報を含む、詳細で意図が豊富なクエリです。

「甘いもの好きなおじいちゃんへのプレゼント」
「山でのハイキング用のジャケット」
「一日中立っていられる靴」

語彙検索は、このような場合にしばしば困難に直面します。セマンティック検索は、文言が一致しなくてもクエリの概念を製品に結びつけることができる点で優れています。しかし、セマンティック検索だけで十分なことは稀です。実際のクエリでは、どの検索方法を用いるかにかかわらず、制約を適用する必要がある場合が多くなります。

制約条件は検索方法に直交

制約をセマンティック検索に適用することは、ハイブリッド検索を意味するものではなく、これらは直交する概念です。Elasticsearchのフィルターやブーストなどの制約は、語彙、セマンティック、ハイブリッドのいずれの検索にも適用できます。課題は、クエリをどのように解釈すべきか、どの制約を強制すべきか、どの検索戦略を使用すべきかを決定することです。

以下は、検索とハードな制約を組み合わせたクエリの例です。

オレンジ：「オレンジ」という語句に「果物」や「農産物」などのカテゴリー制約を加えた語彙検索を行い、オレンジマーマレード、オレンジジュース、オレンジソーダを除外。
ビタミンCが豊富な4ドル未満の果物：栄養に関する意図を理解し、結果を果物カテゴリーと4ドル未満の製品に制限するセマンティック検索。
履きやすい仕事向けの靴：コンテキスト上の意図に基づくセマンティック検索と、結果を靴に限定するカテゴリー制約。

これらのクエリは単一の方法では処理できません。

純粋な語彙検索では不十分です。なぜなら、「ビタミンCが豊富」や「履きやすい」といったフレーズは、きれいに構造化された属性として存在しない可能性があるからです。これらは、製品の説明、レビュー、または仕様から推測する必要があるかもしれません。
純粋なセマンティック検索だけでも十分ではありません。明示的な制約がない場合、「ビタミンCが豊富な果物」のようなクエリは、意図したカテゴリーや価格帯から外れたビタミンサプリメント、フルーツ風味の飲料、ビタミン含有量の多い野菜などにまで広がる可能性があるからです。

ガバナンスレイヤーは、クエリが語彙検索、意味的理解、制約の適用、またはこれらの組み合わせを必要とするかどうかを決定します。このレイヤーがなければ、eコマースチームは以下のような状況に陥る可能性があります。

制約過剰：意味的なリクエスト（例：「おじいちゃんへのプレゼント」）に対して語彙検索を使用すること。
制約不足：意図の明確なヘッドクエリ（「オレンジ」など）に対してセマンティッククエリを使用すること。

ガバナンスの課題は、各クエリのクラスに対して適切な判断を下せるシステムを構築することです。

ガバナンスがない場合に起こること

最も一般的な失敗パターンは単純明快です。チームがユーザーの生のクエリを受け取り、中間的なガバナンスレイヤーを介さずに、それを単一の検索戦略（語彙、セマンティック、またはハイブリッド）に直接渡してしまうのです。

語彙検索は意図した解決を見逃す

ユーザーが「オレンジ」を検索すると、語彙検索戦略では、そのトークンを含むあらゆるもの（オレンジジュース、オレンジマーマレード、オレンジソーダなど）が返される可能性があります。システムはその用語を正しく照合しましたが、ガバナンスがなければ、意図した買い物のコンテキスト（果物）を解決できない可能性があります。

セマンティック検索は意図された制約を超えて広がる

ユーザーが「オレンジ」を検索すると、セマンティックシステムは、関連する製品コンセプト全体から、概念的に関連するアイテムを検索する可能性があります。システムはより広い領域（果物や農産物）を正しく理解しているかもしれませんが、明確なガバナンスがなければ、ユーザーが意図した制約（特にオレンジ）を超えてしまう可能性があります。

ギャップはガバナンスです

必要なのは、クエリの意図を判断し、検索開始前に適切な制約を適用する上流の決定レイヤーです。これにより、以下のような問題が修正されます。

ユーザーが実際に求めていたものと類似または関連するアイテムが並べて表示される。
カテゴリーの境界線が曖昧になる（「飲料」対「農産物」）。
季節ごとのブーストやキャンペーンを実施できない。
予測不可能で説明のつかない結果。

意図の理解とルーティング：必要な制御プレーン

ガバナンスを擁する検索システムは、検索の前（Elasticsearchでクエリを実行する前）に軽量な制御プレーンを導入します。この制御機能については、このブログシリーズの第3部と第4部で詳しく説明します。ここでは、その機能についてのみ説明し、動作原理については触れません。

コントロールプレーンは、以下のように意図を検出し、ビジネスポリシーを適用し、適切な検索戦略を確保することができます。

1. 意図シグナルを検出

このクエリの目的はナビゲーションか、発見か？
これは既知のヘッドクエリ（牛乳、パン、バナナなど）か？
既知の製品、ブランド、またはカテゴリー解釈はあるか（「オレンジ」は果物と解釈されるべきなど）？
クエリはSKUのようなパターンですか？
その検索クエリは、現在実施中のキャンペーンや季節的なポリシー（例えば、クリスマス期間中に七面鳥関連の検索結果をブーストするなど）の対象となるか？
クエリは制約（カテゴリー、属性、除外、価格/サイズ/色）を示唆しているか？

2. ガバナンスおよびビジネスポリシーを適用

まず決定論的制約（カテゴリー/属性/否定/可用性）を強制します。
積極的なマーチャンダイジングポリシー（ブースト/非表示/ピン留め/上書き）を適用します。
優先順位ルールとの競合を解決します（キャンペーンによる上書きとグローバルポリシーなど）。

3. 適切な検索戦略へルーティング

ナビゲーションや意図の高いヘッドクエリには語彙的（高速かつ決定論的）な処理。
真の発見クエリにはセマンティック検索。
語彙と意味のシグナルを組み合わせて、明示的なビジネス制約の下で価値を加えるハイブリッド。

実際には、制御プレーンの出力は単に「ハイブリッドを使用」または「セマンティックを使用」というものではありません。これはガバナンスを備えた検索計画であり、購入者の意図、適用されるべき制約とポリシー、そして実行されるべき検索戦略の解釈です。いくつかの簡単な例を挙げると、これがより具体的に理解できるでしょう。

検索クエリ	ガバナンスを備えた解釈	検索計画の例
「ピーナッツなしのチョコレート」	ハード除外制約付きの製品指向クエリ	チョコレートの語彙検索とピーナッツを含む製品の除外フィルター
「安いオリーブオイル」	価格制約付きの製品/カテゴリー検索	オリーブオイルの語彙検索と小売業者の低価格基準で上限を設定した価格フィルター
「4ドル以下のビタミンCを多く含む果物」	セマンティックな理解と厳格な制約を必要とする検索クエリ	栄養に関する意図を意味的に検索し、果物カテゴリーに限定し、価格が4ドル以下の製品に絞り込み

制御プレーンは、各クエリに対して一貫して、予測可能かつスケールで適切なポリシーと検索戦略を選択します。これにより、意図に沿った制約が最初に適用され、ルーティングの決定が暗黙的ではなく明示的になるため、高度な検索方法が本番環境でより予測可能になります。

他のアプローチとの関連

一部のチームは、製品のセマンティクスをより正確に捉えるために改良された埋め込みモデルを使用しており、これによりセマンティック検索の品質を大幅に向上させることができます。その他には、検索後のエンゲージメントやビジネスシグナルに基づいて結果の順序を最適化するために、ランク学習（LTR）などの再ランキング手法を用いるものもあります。どちらも価値があり、多くの場合、互いに補完し合う関係にあります。より良い埋め込みは類似性マッチングを改善します。再ランク付けは取得した候補の順序を改善します。

ガバナンスは問題の別のレイヤーに対処するものであり、情報取得よりも上流に位置します。どの検索戦略（例えば、語彙、セマンティック、ハイブリッド）を使用するか、どのような決定論的制約が必要か、そしてどのクエリで複数のビジネスポリシーを組み合わせるべきかを決定します。

ガバナンスされたコントロールプレーンが可能にすること

一度ガバナンスレイヤーが設置されると、運用モデルは根本的に変わります。売上に直結するクエリは予測可能になり、ビジネスチームは、エンジニアリングリリースサイクルを待たずに検索動作を更新できます。また、セマンティック検索やハイブリッド検索といった高度な検索手法は、全体的なオン/オフスイッチとしてではなく、ルーティングやガードレールの背後で段階的に導入することができます。

このシリーズの次回の記事では、その運用モデルが実際にどのようなものなのか、そしてなぜそれが基盤となる検索技術と同じくらい重要なのかを探ります。

もしマーチャンダイザーがJiraチケットを開いて、売上に大きく影響するクエリを修正するためのデプロイを待たなければならないとしたら、ボトルネックはエンジンではなく、運用モデルにあります。現代のeコマース検索では、ビジネスの意図を迅速かつ安全に、管理可能で監査可能な検索動作に変換する方法が必要であり、同時に、測定可能な価値を付加する高度な検索機能も引き続き活用する必要があります。

このシリーズの次回作

ガバナンスを備えたeコマース検索を実践

エンタープライズ向けeコマースサービスにおけるエンジニアリング上のボトルネック、脆弱なアプリケーションレイヤーロジック、予測不可能な検索結果などは、Elastic Servicesが解決に役立つ問題です。本シリーズで解説するガバナンスを備えた制御プレーンアーキテクチャーは、Elastic Services Engineeringによって構築されました。

もし貴社のチームが商品企画に関する要望をコード変更に落とし込むためにエンジニアリングサイクルを費やしていたり、検索関連性に関する未解決の課題が一向に減らないようであれば、Elasticは現在のアーキテクチャーを評価し、ガバナンスを備え、ビジネス部門が編集可能な検索システムへの道筋を構築するお手伝いをいたします。Elastic Servicesにご連絡ください。

議論に参加

MastraとElasticsearchを使用してエージェント型AIアプリケーションを構築する方法

Enrico Zimuel — Wed, 08 Apr 2026 00:00:00 GMT

この記事では、Mastra TypeScriptフレームワークを使用して、Elasticsearchと連携するエージェント型アプリケーションを構築する方法をご紹介します。

最近、mastra-ai/mastraオープンソースプロジェクトに、ベクトルデータベースとしてのElasticsearchのサポートを追加しました。この新機能により、MastraでElasticsearchをネイティブに使用して埋め込みを保存できます。ベクターに加えて、Elasticsearchはコンテキストエンジニアリングの要件を満たすための高度な機能群を提供します（例：ハイブリッド検索と再ランク付け）。

この記事では、Elasticsearchを使用したRetrieval-Augmented Generation（RAG）アーキテクチャを実装するエージェントの作成について詳しく説明します。エージェント的なアプローチを使用して、Elasticsearchに保存されているSF映画データのコーパスを操作するデモプロジェクトを紹介します。このプロジェクトはelastic/mastra-elasticsearch-exampleで入手できます。

Mastra

Mastraは、エージェント型AIアプリケーションを作成するためのTypeScriptフレームワークです。

Mastraのプロジェクト構造は以下のようになります：

src/
├── mastra/
│   ├── agents/
│   │   └── weather-agent.ts
│   ├── tools/
│   │   └── weather-tool.ts
│   ├── workflows/
│   │   └── weather-workflow.ts
│   ├── scorers/
│   │   └── weather-scorer.ts
│   └── index.ts
├── .env.example
├── package.json
└── tsconfig.json

Mastraでは、エージェント、ツール、ワークフロー、スコアを作成できます。

エージェントは、インプットとしてメッセージを受け取り、アウトプットとして回答を生成するクラスです。エージェントは、ツール、大規模言語モデル（LLM）、およびメモリを使用できます（図1）。

エージェントのツールは、「外部の世界」と対話することを可能にします。たとえば、ウェブAPIと通信したり、Elasticsearchにクエリを実行するような内部操作を行ったりします。メモリコンポーネントは、過去の入力と出力を含む会話の履歴を格納するために非常に重要です。この格納されたコンテキストにより、エージェントは過去の対話を活用して、将来の質問に対してより情報に基づいた関連性の高い回答を提供できます。

ワークフローを使用すると、単一のエージェントの推論に頼るのではなく、明確で構造化されたステップを使用して複雑なタスクのシーケンスを定義できます（図2）。タスクをどのように分割し、データをどのように移動させ、何をいつ実行するかを網羅的に制御できます。ワークフローは、デフォルトで組み込みの実行エンジンを使用して実行されますが、ワークフローランナーにデプロイすることもできます。

Mastraでは、スコアを定義することもできます。スコアは、モデル評価、ルールベース、統計的な方法を用いてエージェントの出力を評価する自動テストです。スコアラーはスコアを返します。これは、出力が評価基準をどれだけ満たしているかを定量化する数値（通常0から1の間）です。これらのスコアにより、パフォーマンスを客観的に追跡し、さまざまなアプローチを比較し、AIシステムの改善すべき分野を特定することができます。スコアラーは、独自のプロンプトやスコアリング関数でカスタマイズできます。

Elasticsearch

デモプロジェクトを実行するには、Elasticsearchインスタンスを実行する必要があります。Elastic Cloudで無料トライアルを有効化するか、start-localスクリプトを使ってローカルにインストールできます。

curl -fsSL https://elastic.co/start-local | sh

これにより、ElasticsearchとKibanaがコンピュータにインストールされ、Mastraインテグレーションの設定に使用するAPIキーが生成されます。

APIキーは前のコマンドの出力として表示され、elastic-start-localフォルダー内の.envファイルに保存されます。

デモをインストールして設定

デモプロジェクトのソースコードを含む elastic/mastra-elasticsearch-example リポジトリを作成しました。リポジトリに記載されている例は、Elasticsearchからドキュメントを取得するためのRAGアーキテクチャを実装したエージェントをMastraで作成する方法を示しています。

SF映画のデモ用データセットを提供しました。Kaggle上のIMDbデータセットから500本の映画を抽出しました。

最初のステップは、次のコマンドを使用してnpmでプロジェクトの依存関係をインストールします：

npm install

次に、設定内容を格納する.envファイルを構成する必要があります。以下のコマンドを使用して、 .env.exampleファイルの構造をコピーすることで、このファイルを生成できます。

cp .env.example .env

これで、.envを編集できるようになりました。不足している情報を追加します：

OPENAI_API_KEY=
ELASTICSEARCH_URL=
ELASTICSEARCH_API_KEY=
ELASTICSEARCH_INDEX_NAME=scifi-movies

Elasticsearchインデックスの名称は scifi-moviesです。必要であれば、環境変数 ELASTICSEARCH_INDEX_NAMEを使って変更できます。

OpenAIを埋め込みサービスとして使用しました。これは、OPENAI_API_KEY環境変数にOpenAIのAPIキーを提供する必要があることを意味します。

例で使用されている埋め込みモデルは openai/text-embedding-3-small であり、埋め込み次元は1,536です。

最終的な答えを導き出すために、openai/gpt-5-nano モデルを使用してコストを削減しました。

RAGアーキテクチャでは、回答の妥当性を検証するという重労働は検索コンポーネント（この場合は Elasticsearch）が行うため、それほど強力ではない（そして一般的に安価な）最終的なLLMモデルを使用することができます。

小規模なLLMは主に2つのタスクを担当します：

クエリの言い換え/埋め込み：ユーザーの自然言語の質問をセマンティック検索用のベクトル埋め込みに変換します。
回答の合成：取得された関連性の高いコンテキストの断片（文書/動画）を取り出し、提示された指示に従って、首尾一貫した最終的な人間が読める回答に合成します。

RAGプロセスは回答に必要とされる正確な事実的文脈を提供するため、最終的なLLMは大規模または高度に複雑である必要はなく、必要な知識をすべて自らのパラメータ内に持つ必要もありません（それは大規模で高価なモデルが優れている領域です）。本質的には、本格的なナレッジベースとしてではなく、Elasticsearchが提供するコンテキストの洗練されたテキストサマライザーおよびフォーマッターとして機能します。これにより、コストやレイテンシーの最適化にgpt-5-nanoのようなモデルを活用できます。

.envファイルの設定後、次のコマンドで映画をElasticsearchに取り込むことができます。

npx tsx src/utility/store.ts

次のような出力が表示されるはずです。

🚀 Starting ingestion of 500 movies from 500_scifi_movies.jsonl...
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 1/500 (0%) | ok:1 | fail:0 | chunks:1 | eta:19m 33s | current:Capricorn One
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 2/500 (0%) | ok:2 | fail:0 | chunks:2 | eta:10m 32s | current:Doghouse
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 3/500 (1%) | ok:3 | fail:0 | chunks:3 | eta:7m 33s | current:Dinocroc
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 4/500 (1%) | ok:4 | fail:0 | chunks:7 | eta:6m 10s | current:Back to the Future           
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 5/500 (1%) | ok:5 | fail:0 | chunks:9 | eta:5m 14s | current:The Projected Man            
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 6/500 (1%) | ok:6 | fail:0 | chunks:11 | eta:4m 41s | current:I, Robot
...
✅ Ingestion complete in 1m 46s. Success: 500, Failed: 0, Chunks: 693.

scifi-moviesインデックスのマッピングには、次のフィールドが含まれています。

埋め込み、1536次元のdense_vector、コサイン類似度。
説明、映画の説明を含むテキスト。
監督、監督の名前を含むテキスト。
タイトル、映画のタイトルを含むテキスト。

タイトルとディスクリプションを使用して埋め込みを生成しました。タイトルとディスクリプションは2つの別個のフィールドであるため、両者を連結することで、結果として得られる埋め込みベクトルが、映画の具体的で独自の特徴（タイトル）と豊かな説明的コンテキスト（内容説明）の両方を捉えることができます。これにより、より正確で包括的なセマンティック検索結果が得られます。この結合されたインプットにより、埋め込みモデルは類似度マッチングに向けて、ドキュメントのコンテンツをより適切に単一のベクトル表現として捉えることができます。

デモを実行

次のコマンドでデモを実行できます：

npm run dev

このコマンドを実行するとlocalhost:4111でWebアプリケーションが起動し、Mastra Studioにアクセスできるようになります（図3）。

Mastra Studio はエージェントの構築とテストのためのインタラクティブなUIを提供し、さらにMastraアプリケーションをローカルサービスとして公開するREST APIも備えています。これにより、統合を気にせずにすぐに構築を始められます。

Elasticsearchを使ったセマンティック検索を実行するツールとして、MastraのcreateVectorQueryToolを使ったElasticsearch Agentを提供しました。このエージェントは、RAGアプローチを使用して関連文書（つまり映画）を検索し、ユーザーの質問に答えます。

このエージェントは以下のプロンプトを使用します：

You are a helpful assistant that answers questions based on the provided context.
Follow these steps for each response:

1. First, carefully analyze the retrieved context chunks and identify key information.
2. Break down your thinking process about how the retrieved information relates to the query.
3. Draw conclusions based only on the evidence in the retrieved context.
4. If the retrieved chunks don't contain enough information, explicitly state what's missing.

Format your response as:
THOUGHT PROCESS:
- Step 1: [Initial analysis of retrieved chunks]
- Step 2: [Reasoning based on chunks]

FINAL ANSWER:
[Your concise answer based on the retrieved context]

Important: When asked to answer a question, please base your answer only on the context provided in the tool. 
If the context doesn't contain enough information to fully answer the question, please state that explicitly and stop it.
Do not add more information than what is present in the retrieved chunks.
Remember: Explain how you're using the retrieved information to reach your conclusions.

Mastra Studio > AgentsメニューをクリックしてElasticsearch Agentを選択すると、チャットシステムを使用してエージェントをテストできます。たとえば、SF映画に関する情報を次のような質問で尋ねることができます。

UFOを題材にした映画またはテレビシリーズを5つ見つけてください。

エージェントがvectorQueryToolを実行することがわかります。起動したツールをクリックすると、入力と出力を確認できます。実行の最後に、LLMはElasticsearchのscifi-moviesインデックスから得られたコンテキストに基づいて、あなたの質問に回答します（図4）。

Mastraは内部で以下の手順を実行します：

ベクトル変換：ユーザーの質問「UFOに関する映画やテレビシリーズを5つ探して」は、OpenAIのopenai/text-embedding-3-smallモデルを使ってベクトル埋め込みに変換されます。
ベクトル検索：この埋め込みはその後、Elasticsearchに対してベクトル検索を用いてクエリを実行するために使用されます。
結果の取得：Elasticsearchは、クエリに非常に関連性の高い10本の映画（つまり、ユーザーのクエリベクトルに最も近いベクトルを持つ映画）を返します。
回答生成：取得された映画と元のユーザーの質問は、具体的にはopenai/gpt-5-nano LLM に送信されます。LLMはこの情報を処理し、最終的な回答を生成することで、ユーザーの5つの結果への要望を確実に満たします。

Elasticsearch エージェント

ここではElasticsearch Agentのソースコードを報告しました。

import { Agent } from "@mastra/core/agent";
import { ElasticSearchVector } from '@mastra/elasticsearch';
import { createVectorQueryTool } from '@mastra/rag';
import { ModelRouterEmbeddingModel } from "@mastra/core/llm";
import { Memory } from "@mastra/memory";

const es_url = process.env.ELASTICSEARCH_URL;
const es_apikey = process.env.ELASTICSEARCH_API_KEY;
const es_index_name = process.env.ELASTICSEARCH_INDEX_NAME;
const prompt = 'insert here the previous prompt';

const esVector = new ElasticSearchVector({
  id: 'elasticsearch-vector',
  url: es_url,
  auth: {
    apiKey : es_apikey
  }
});

const vectorQueryTool = createVectorQueryTool({
  vectorStore: esVector,
  indexName: es_index_name,
  model: new ModelRouterEmbeddingModel("openai/text-embedding-3-small")
});

export const elasticsearchAgent = new Agent({
  id: "elasticsearch-agent",
  name: "Elasticsearch Agent",
  instructions: prompt,
  model: 'openai/gpt-5-nano',
  tools: { vectorQueryTool },
  memory: new Memory(),
});

vectorQueryToolは、RAGの例における取得部分を実装するために呼び出されるツールです。MastraにElasticが提供したElasticSearchVector実装を使用しています。

エージェントは、vectorQueryTool、プロンプト、およびメモリを消費するエージェントクラスのオブジェクトです。ご覧のように、Elasticsearchをエージェントに接続するために必要なコードはごくわずかです。

まとめ

この記事では、ElasticsearchとMastraフレームワークを統合し、洗練されたエージェント型AIアプリケーションを構築することのシンプルさとパワーについて実証しました。具体的には、Elasticsearchでインデックス化されたSF映画データのコーパスに対してセマンティック検索を実行できるRAGエージェントの作成について説明しました。

重要なポイントは、ElasticがMastraのオープンソースプロジェクトに直接貢献し、ベクターストアとしてのElasticsearchをネイティブサポートしていることです。この統合により、導入時の障壁が大幅に低下します。これは、 Elasticsearch Agentのソースコードを見れば明らかです。ElasticSearchVectorとcreateVectorQueryToolを使用することで、Elasticsearchをエージェントに接続するための総合的なセットアップが、最小限の設定コード行数で済みます。

Elasticsearchは、結果の関連性を高めるためのいくつかの高度な機能を提供しています。例として、ハイブリッド検索は、語彙検索とベクトル検索を組み合わせることで、精度を大幅に向上させます。もう一つの興味深い機能は、ハイブリッド検索の最後に適用できる最新のJinaモデルを使用した再ランク付けです。これらの技術についてさらに詳しく知るには、Elasticsearch Labsの以下の記事を参照してください。

Elasticsearchのハイブリッド探索 by ヴァレンティン・クレっタス
Jinaモデル入門、その機能、Elasticsearchでの利用 by スコット・マーテンス

また、提供されている例を参考に、MastraとElasticsearchを使って独自のデータ駆動型エージェントを構築し始めることをお勧めします。Mastraについての詳細は、こちらのオフィシャルドキュメントをご覧ください。

Elastic Workflowsを使用したKibanaのダッシュボード表示の監視

Gustavo Llermaly — Fri, 03 Apr 2026 00:00:00 GMT

Kibanaは各ダッシュボードが何回閲覧されたかを追跡しますが、そのデータは組み込みのダッシュボードにはネイティブに公開されていません。この記事では、Elastic Workflowsを使って30分ごとにそのデータを自動収集し、Elasticsearchにインデックス化して、その上に独自の分析を構築します。

Elastic WorkflowsはKibana内部に組み込まれた自動化エンジンで、シンプルなYAML構成を使用して多段階プロセスを定義できます。各ワークフローはスケジュールやイベント、またはElastic Agent Builderのツールとしてトリガーでき、各ステップでKibana APIを呼び出し、Elasticsearchをクエリし、データを変換できます。

具体的な例としてダッシュボードのビュー数を使用しますが、同じパターンがKibanaの保存済みオブジェクトAPIを通じて提供されるすべてのメトリックにも当てはまります。

要件

Elastic Cloudまたはセルフマネージドクラスター（バージョン9.3を実行）
ワークフローが有効（詳細設定）

何かを作る前に、どんなデータがあるのかを理解しましょう。Kibanaはほとんどの設定やメタデータを専用の内部インデックスに保存済みオブジェクトとして保存しています。Kibanaがこの方法で追跡している項目の一つに、使用量カウンターと呼ばれる、特別な保存オブジェクトタイプを使ったダッシュボードの閲覧数があります。次のように、開発ツールから直接クエリできます。

GET kbn:/api/saved_objects/_find?type=usage-counter&filter=usage-counter.attributes.domainId:"dashboard"%20and%20usage-counter.attributes.counterType:"viewed"&per_page=10000

応答は下記のようになります。

{
  "page": 1,
  "per_page": 10000,
  "total": 1,
  "saved_objects": [
    {
      "type": "usage-counter",
      "id": "dashboard:346f3c64-ebca-484d-9d57-ec600067d596:viewed:server:20260310",
      "attributes": {
        "domainId": "dashboard",
        "counterName": "346f3c64-ebca-484d-9d57-ec600067d596",
        "counterType": "viewed",
        "source": "server",
        "count": 1
      },
      ...
    }
  ]

counterNameフィールドはダッシュボードIDであり、countはそのダッシュボードに対する当日中の累積閲覧数です。Kibanaは、1つのダッシュボードにつき1日に1つのカウンターオブジェクトを作成します。オブジェクトIDに日付サフィックス（...views:server:20260310）が表示されます。ユーザーがダッシュボードを開くにつれて、その数は一日を通して増加していきます。

この日常的なドキュメントモデルをインデックスで複製するのではなく、ワークフローの実行ごとに1つのドキュメントを作成します。各ドキュメントは、キャプチャの瞬間におけるその日のダッシュボードの累積ビュー数を記録します。

ステップ2：宛先インデックスの作成

ダッシュボードビューのスナップショットを格納するためのインデックスが必要です。次のコマンドは明示的なマッピングで作成し、後で集約や可視化ができるようにします。Dev Toolsで実行してください：

PUT dashboard-views
{
  "mappings": {
    "properties": {
      "captured_at": {
        "type": "date"
      },
      "dashboard_id": {
        "type": "keyword"
      },
      "dashboard_name": {
        "type": "keyword"
      },
      "view_count": {
        "type": "integer"
      }
    }
  }
}

IDと名前にkeywordマッピングを使用すると、アグリゲーションが可能になります。view_countのためにintegerを使用することは安全なデフォルト設定です。Kibanaはカウンターを毎日リセットするため、32ビットの制限（1日で20億回以上のビュー）に達することは現実的な懸念事項ではありません。数値演算も引き続きサポートしており、max、avg、minなどが含まれます。

ステップ3: ワークフローを作成する

Stack Management > Workflows > New Workflowに移動し、次のワークフローのYAML構成を貼り付けます。

name: dashboard-views-ingestion
triggers:
  - type: scheduled
    with:
      every: 30m

steps:
  - name: fetch_dashboard_views
    type: kibana.request
    with:
      method: GET
      path: >-
        /api/saved_objects/_find?type=usage-counter&per_page=10000&filter=usage-counter.attributes.domainId:"dashboard"%20and%20usage-counter.attributes.counterType:"viewed"

  - name: index_each_dashboard
    type: foreach
    foreach: "{{ steps.fetch_dashboard_views.output.saved_objects }}"
    steps:
      - name: fetch_dashboard_name
        type: kibana.request
        with:
          method: GET
          path: /api/saved_objects/dashboard/{{ foreach.item.attributes.counterName }}
        on-failure:
          continue: true

      - name: index_doc
        type: elasticsearch.request
        with:
          method: POST
          path: /dashboard-views/_doc
          body:
            dashboard_id: "{{ foreach.item.attributes.counterName }}"
            dashboard_name: "{{ steps.fetch_dashboard_name.output.attributes.title }}"
            view_count: "${{ foreach.item.attributes.count | plus: 0 }}"
            captured_at: "{{ execution.startedAt | date: '%Y-%m-%dT%H:%M:%SZ' }}"

次のセクションでは、ワークフローをステップごとに分解していきます。

ワークフローの仕組み

トリガー

ワークフローは30分ごとにスケジュールされたトリガーで実行されます。これにより、APIに負担をかけずに時系列データが得られます。

ダッシュボードビューを取得

kibana.requestを使ってKibanaの保存済みオブジェクトAPIを呼び出します。認証の設定は不要です。ワークフローエンジンは実行コンテキストに基づいて適切なヘッダーを自動的に添付します。

index_each_dashboard (foreach)

前のステップで返された saved_objects 配列を反復します。各反復の現在の項目は foreach.itemとして利用可能です。ループ内では、各ダッシュボードごとに2つの入れ子手順を実行します。

1. fetch_dashboard_name：

人間が読み取れるダッシュボードのタイトルを GET /api/saved_objects/dashboard/{id} を呼び出して解決します。on-failure: continue: true を追加することで、ダッシュボードが削除されてもビューカウンターが残っている場合、ループが継続して全体の実行が失敗しないようにします。

2. index_doc：

各ドキュメントをPOST /dashboard-views/_doc（明示的なIDなし）でインデックス化することで、Elasticsearchが自動でIDを生成します。これにより、毎回の実行時に新しいドキュメントが作成され、以前のスナップショットを上書きするのではなく、時間の経過とともにビューカウントの履歴が構築されます。

次の2点にご注意ください。

captured_atフィールドは日付フィルターを使ってタイムスタンプをISO 8601としてフォーマットします。それなしでは、値はJavaScriptの日付文字列として出力され（例：Tue Mar 10 2026 05:03:47 GMT+0000）、Elasticsearchは日付としてマップしません。
view_countは数値型を保持するために${{ }}構文を| plus: 0と共に用います。{{ }}を使うと文字列としてレンダリングされ、ダッシュボードでの計算操作ができなくなります。

UIでは、各ワークフローステップを快適にデバッグできます。

ステップ4：統計ダッシュボードを構築

ワークフローが数回実行されてデータが収集されたら、dashboard-views Data viewを使用してKibanaで新しいダッシュボードを作成します。

まずは以下のパネルから始めましょう：

トップのダッシュボード（閲覧数別）： X軸にdashboard_name、Y軸にlast_value(view_count)を持つ棒グラフを使用します。これはダッシュボードごとの現在の日次閲覧数を示しています。
時間経過に伴うビュー：X軸にcaptured_at、Y軸にlast_value(view_count)を用いた折れ線グラフを使用し、dashboard_nameで分類されます。各実行が新しいドキュメントを追加するため、重複を合計するのではなく、最後の値を使用して時間バケットごとのピークカウントを取得します。
現在のスナップショット：すべてのダッシュボードの最新のビュー数を表示するには、最新のcaptured_at を含むデータテーブルを使用します。

各ワークフローが新しいドキュメントを作成するため、時間範囲でフィルタリングして特定の期間のアクティビティを分析したり、週ごとの比較を行ったり、ダッシュボードのビューしきい値を下回ったときにアラートを設定したりすることができます。

まとめ

Elastic Workflowsは、ソース（Kibana API）と送信先（Elasticsearch）の両方がネイティブであるため、認証管理が全く必要なく、この種の定期的なデータ収集に適しています。ワークフローエンジンはkibana.requestとelasticsearch.requestのステップで認証を自動的に処理するため、記述するのはロジックだけです。

資料

TSDSとILMが出会うとき：遅延データを拒否しない時系列データストリームの設計

Bret Wortman — Thu, 02 Apr 2026 00:00:00 GMT

最近、ある顧客のメトリクス・クラスタを「すべてホットティアに格納する」構成からHot/Cold/Frozenアーキテクチャに移行しました。これまでに何十回も実施してきた変更でした。数分のうちに、Logstashはデータの転送を完全に停止しました。

Elasticsearchは、遅れて到着するメトリクスを拒否していました。これらの拒否により、パイプラインが遅延し、結果としてより多くの遅延データが発生し、さらに多くの拒否を引き起こしました。最終的にパイプラインは完全に停止しました。

復旧のためには、スナップショットからの復元、データの再インデックス作成、データ取り込みパイプラインの再設計が必要でした。

根本的な原因はインデックスライフサイクル管理（ILM）自体ではなく、時系列データストリーム（TSDS）と、それらが時間的制約のあるバッキングインデックスを強制する方法にありました。

TSDSは指標のストレージ要件を40〜70％削減できますが、TSDSを効率的にするアーキテクチャの変更により、時間の経過とともにインデックスの動作も変わります。これらの変更は、ILMポリシーを設計する時、またはインジェストパイプラインで遅れて到着するデータが生成される可能性がある場合に重要です。

TL;DR

TSDSを使用する場合：

バックアップインデックスは、特定の時間枠内でのみ文書を受け付けます。
遅延データがインデックスがColdまたはFrozen状態に移行した後に取り込まれた場合、Elasticsearchはそれらのドキュメントを拒否するか、設定されている場合は障害ストアにルーティングします。

デザインルール：

warm_min_age > rollover_max_age + maximum_expected_lateness

時系列データストリームとは何ですか？

時系列データストリーム（TSDS）は、メトリクスデータに最適化された特殊なデータストリームです。データは関連するドキュメントが同じシャード内に配置されるようにルーティングされ、クエリと検索のための最適化が行われます。Elasticsearchは以下の方法で行います：

各文書には以下が含まれます。

1つのタイムスタンプ。
時系列を識別するディメンションフィールド。
測定値を表すメトリックフィールド。

例：

ホストあたりのCPU使用率。
サービスごとのリクエスト遅延。
センサーごとの温度測定値。

ディメンションは測定したい対象を特定し、メトリクスは時間とともに変化する値を表します。

ディメンション

ディメンションは測定対象を表します。

例：

host.name
service.name
container.id

それらをマッピングで次のように定義します：

time_series_dimension: true

メトリクス

メトリクスは数値を表し、以下によって定義されます。

time_series_metric

一般的なメトリクスの種類：

ゲージ：増減する値。
カウンター：リセットされるまで増加する値。

Elastic Agentは主にメトリクスおよびログデータを収集するため、TSDSのインデックスを手動で有効にしていなくても、クラスター内に存在している場合があります。

_tsidフィールド

Elasticsearchは内部的にディメンションフィールドから _tsid 値を生成します。これにより、同一のディメンションを持つドキュメントを同じシャードにルーティングすることができ、以下が改善されます：

圧縮。
クエリのローカル環境。
アグリゲーションのパフォーマンス。

主な違い：時間制限付きバッキングインデックス

従来のデータストリームは常に最新のバッキングインデックス（書き込みインデックスと呼ばれる）に書き込みますが、TSDSは異なる動作をします。

各TSDSバッキングインデックスには定義された時間ウィンドウがあり、そのウィンドウ内に収まる@timestamp値を持つドキュメントのみを受け入れます：

GET _data_stream/my-metrics-data-stream


     "index_mode": "time_series",
     "time_series": {
       "temporal_ranges": [
         {
           "start": "2026-01-15T14:35:50.000Z",
           "end": "2026-03-16T11:34:40.000Z"
         }
       ]
     }

ドキュメントがインデックス化されると、Elasticsearchはそれをタイムスタンプに関わるバッキングインデックスにルーティングします。これは、従来のインデックスとは異なり、TSDSが複数のバッキングインデックスに同時に書き込む可能性があることを意味します。

例：

リアルタイムデータ → 最新のインデックス。
遅延データ → その期間をカバーする以前のインデックス。

遅延データに対応する設計方法

実際のインジェストパイプラインは、ほとんどの場合、完全に期限内に指標を届けるわけではありません。メトリクスは、ネットワークの停止、途中のバックログ、バッチのインジェスト、およびエッジデバイスの損失（これらのデバイスは再接続し、キャッチアップを始めます）によって遅延する可能性があります。

従来のインデックスは、静かにその遅延を吸収しますが、TSDSはしません。

ドキュメントのタイムスタンプが書き込み可能なバッキングインデックスの範囲外にある場合、Elasticsearchはそれを拒否します。これは、ILMポリシーが遅延データを考慮する必要があることを意味します。

重要な制約

バッキングインデックスは遅延データを受け入れられるだけの期間、書き込み可能な状態を維持する必要があります。

実際には、これは次のことを意味します。

time_until_readonly > maximum_expected_lateness

ILMはロールオーバーからの時間経過を測定するため、運用ルールは次のようになります。

warm_or_cold_min_age > rollover_max_age + maximum_expected_lateness

たとえば、メトリクスが最大6時間遅延する可能性がある場合、インデックスはロールオーバー後少なくとも6時間は書き込み可能な状態を維持する必要があります。

この制約を考慮しなかったことが、前述のインジェスト障害の正確な原因でした。遅れて到着したデータは、既にColdティアにあり、そのため書き込みがブロックされていた以前のインデックスに向けられていました。

拒否されたドキュメントの処理

TSDS がドキュメントを拒否すると、Elasticsearch は、タイムスタンプが書き込み可能なインデックスの範囲内にないことを示すエラーを返します。インジェストパイプラインがそのエラーをどのように処理するかによって、データを失うか、インジェストが停止するかが決まります。

拒否されたドキュメントを処理する主要なメカニズムは、障害ストアです。

障害ストア（Elasticsearch 9.1以降で推奨）

Elasticsearch 9.1では、拒否されたドキュメントを自動的に格納するfailure storeが導入されました。Elasticsearchは、クライアントにエラーを返す代わりに、失敗したドキュメントをデータストリーム内の専用の障害インデックスに書き込みます。

障害の調査には以下の方法があります。

GET metrics-myapp::failures/_search

障害ストアを使用することで、拒否エラーによるインジェストパイプラインの停止を防ぎつつ、障害データを分析または再インデックスのために保存します。

拒否される問題の監視

遅れて到着する問題は通常、最初にインジェスト異常として現れます。最初は、以下によって気付く場合があります：

インデキシングレートの突然の低下。
拒否されたドキュメントの急増。
障害ストアエントリ数の増加。
パイプラインの入力数と出力数の不一致。

これらの兆候に基づいて警告を発することで、オペレーターはパイプラインが停止する前に問題を検知することができます。ワークフロー、機械学習ジョブ、およびその他のメカニズムを使用して、検出と通知を自動化できます。

TSDS + ILMの移行チェックリスト

メトリクスクラスターをTSDSに移行する場合、ILM階層化を導入する場合、またはメトリクスがデフォルトでTSDSであるElasticsearchバージョンにアップグレードする場合は、まずこれらの項目を確認してください。

1. インジェストレイテンシの測定

ILMの方針を変更する前に、以下を決定してください。

通常のインジェスト遅延。
最悪の場合、インシデント時の遅延。
バッチパイプラインによる遅延。

ILM設計は、現実的な最大限の遅延に対応する必要があります。

2. インデックス付けの時間ウィンドウを検証する

TSDSのバッキングインデックスを調べます。

GET _data_stream/

以下について探します：

time_series.start_time
time_series.end_time

これらの制限が、どのインデックスがドキュメントを受け入れられるかを決定します。これらのウィンドウを理解することで、データがどのくらい遅れていても拒否されないのかを判断できます。

3. 遅延データを考慮してHotティアのサイズを調整する

遅延データに対しても、バッキングインデックスが書き込める状態を保ちます。

運用ルール：

warm_min_age > rollover_max_age + maximum_expected_lateness

メトリクスが6時間遅れて届く場合、インデックスは少なくとも6時間は書き込める状態を維持する必要があることに留意してください。

4. 拒否されたドキュメントの処理方法を決定する

TSDSを有効にする前に以下のストラテジーを選択します：

障害ストア（Elasticsearch 9.1以降で推奨）。
Logstashのデッドレターキュー。
到着が遅れた場合のフォールバックインデックス。
限定的なデータ損失を受け入れる。

5. インジェストの正常性を監視する

以下のアラートを追加します：

インデキシングの速度低下。
却下された書類。
ストアの拡大失敗。
パイプラインの入力と出力の不一致。

遅延データの問題は、多くの場合、インジェスト時の異常として最初に現れます。

まとめ

時系列データストリームは、メトリックワークロードに対して主要なストレージとパフォーマンスの改善を提供しますが、重要なアーキテクチャ上の変更も導入します。バッキングインデックスには時間的な制約があり、これがILMの動作に影響します。

TSDSを使用する場合：

インデックスは、遅延データを受け入れられるだけの期間、書き込み可能な状態を維持する必要があります。
インジェストパイプラインは、拒否されたドキュメントを安全に処理する必要があります。

留意する重要なルールは次の通りです：

warm_min_age > rollover_max_age + maximum_expected_lateness

その制約に基づいてILMポリシーを設計すると、TSDSはメトリクスのワークロードに非常に適しています。

無視した場合、インジェストパイプラインがその時間的制約によって機能不全に陥る可能性があります。

LINQ to Elasticsearch ES|QL：C#を記述してElasticsearchをクエリ

Florian Bernd, Martijn Laarman — Wed, 01 Apr 2026 00:00:00 GMT

v9.3.4およびv8.19.18以降のElasticsearch .NETクライアントには、実行時にC# LINQ式をElasticsearchクエリ言語（ES|QL）クエリに変換する Language Integrated Query（LINQ）プロバイダーが含まれています。ES|QL文字列を手作業で記述する代わりに、 Where、 Select、 OrderBy、 GroupByなどの標準演算子を使用してクエリを構成します。このプロバイダーは、結果セットのサイズに関係なくメモリ使用量を一定に保つ行ごとのストリーミングを含め、変換、パラメータ化、結果の逆シリアル化を処理します。

最初のクエリ

まず、Elasticsearchインデックスにマップする普通のCLRオブジェクト（POCO）を定義します。プロパティ名は、標準的なSystem.Text.Json属性（[JsonPropertyName]など）または設定されたJsonNamingPolicyを通じてES|QL列名に解決されます。クライアントの他の部分に適用されるソースシリアル化ルールは、ここでも同様に適用されます。

using System.Text.Json.Serialization;

public class Product
{
    [JsonPropertyName("product_id")]
    public string Id { get; set; }

    public string Name { get; set; }

    public string Brand { get; set; }

    [JsonPropertyName("price_usd")]
    public double Price { get; set; }

    [JsonPropertyName("in_stock")]
    public bool InStock { get; set; }
}

型を指定すると、クエリは次のようになります。

var minPrice = 100.0;
var brand = "TechCorp";

await foreach (var product in client.Esql.QueryAsync(q => q
    .From("products")
    .Where(p => p.InStock && p.Price >= minPrice && p.Brand == brand)
    .OrderByDescending(p => p.Price)
    .Take(10)))
{
    Console.WriteLine($"{product.Name}: ${product.Price}");
}

プロバイダーはこれを次のES|QLに変換します。

FROM products
| WHERE (in_stock == true AND price_usd >= ?minPrice AND brand == ?brand)
| SORT price_usd DESC
| LIMIT 10

いくつか注意すべき点があります。

プロパティ名の解決： p.Priceは[JsonPropertyName] 属性のためprice_usdになり、p.BrandはデフォルトのcamelCase命名規則に従って brandになります。
パラメーターのキャプチャ：C#変数 minPriceとbrandは、名前付きパラメーター（?minPrice、?brand）としてキャプチャされます。これらはJSONペイロード内のクエリ文字列とは別に送信されるため、インジェクション攻撃を防ぎ、サーバー側のクエリプランのキャッシュを可能にします。
ストリーミング：QueryAsyncはIAsyncEnumerableを返します。Elasticsearchからデータが到着すると、行は1つずつマテリアライズされます。

また、実行せずに生成されたクエリとそのパラメーターを検査することもできます。

var query = client.Esql.CreateQuery()
    .Where(p => p.InStock && p.Price >= minPrice && p.Brand == brand)
    .OrderByDescending(p => p.Price)
    .Take(10);

Console.WriteLine(query.ToEsqlString());
// FROM products | WHERE (in_stock == true AND price_usd >= 100) | SORT price_usd DESC | LIMIT 10

Console.WriteLine(query.ToEsqlString(inlineParameters: false));
// FROM products | WHERE (in_stock == true AND price_usd >= ?minPrice AND brand == ?brand) | SORT price_usd DESC | LIMIT 10

var parameters = query.GetParameters();
// { "minPrice": 100.0, "brand": "TechCorp" }

これはどのように機能するのでしょうか？LINQ の簡単なおさらい

LINQプロバイダーを可能にするメカニズムは、IEnumerableとIQueryableの区別にあります。

.Where(p => p.Price > 100) を IEnumerable 上で呼び出すと、ラムダは Func にコンパイルされます。これは、ランタイムがインプロセスで実行する通常のデリゲートです。これはLINQ-to-Objectsです。

同じメソッドを IQueryable で呼び出すと、C#コンパイラはラムダを Expression> でラップします。これは実行可能な形式ではなく、コードの構造を表すデータ構造です。式ツリーは実行時に検査、分析、および別の言語への変換を行うことができます。

// IEnumerable: the lambda is a compiled delegate
IEnumerable local = products.Where(p => p.Price > 100);

// IQueryable: the lambda is an expression tree, a data structure
IQueryable remote = queryable.Where(p => p.Price > 100);

IQueryProviderインターフェースは拡張ポイントです。どのプロバイダーでも、これらの式ツリーをターゲット言語に変換するために CreateQuery と Execute を実装できます。Entity FrameworkはSQLを発行するためにこれを使用します。LINQからES|QLへのプロバイダーはこれをES|QLの生成に使用します。

上記のクエリの式ツリーは次のようになります。

例のクエリに対する式ツリー。

ツリーは内側から外側にネストされています。Takeが OrderByDescendingをラップし、これがWhereをラップし、これがFrom, をルート定数EsqlQueryable をラップします。Where述語自体がBinaryExpressionノードのサブツリーであり、&&、>=、および==演算子に対してMemberExpressionリーフがプロパティアクセス用、minPriceおよびbrand変数用のクロージャキャプチャ用に存在します。これは、プロバイダーが最終的なES|QLを生成するために使用するデータ構造です。

内部構造：変換パイプライン

LINQ式からクエリ結果までの経路は、6段階のパイプラインをたどります。

データ変換パイプラインの概要。

1. 式ツリーのキャプチャ

.Where()、.OrderBy()、.Take()などの演算子をIQueryable に連鎖させると、標準のLINQインフラストラクチャーが式ツリーを構築します。EsqlQueryable はIQueryable を実装し、EsqlQueryProvider に委譲します。

2. 変換

クエリが実行されると（列挙、 ToList()の呼び出し、またはawait foreach)使用によって）、 EsqlExpressionVisitorは式ツリーを内側から外側へと走査します。各LINQメソッド呼び出しを専門のビジターに送信します。

ビジター	翻訳します	対象
WhereClauseVisitor	.Where(predicate)	WHERE 条件
SelectProjectionVisitor	.Select(selector)	EVAL + KEEP + RENAME
訪問者別にグループ化	.GroupBy().Select()	STATS ... BY
OrderByVisitor	.OrderBy() / .ThenBy()	SORTフィールド [ASC\\|DESC]
EsqlFunctionTranslator	EsqlFunctions.、Math.、文字列メソッド	80+ ES\|QL関数

翻訳中、式で参照されるC#変数は名前付きパラメーターとしてキャプチャされます。

3. クエリモデル

ビジターは直接文字列を生成しません。代わりに、QueryCommandオブジェクト、すなわち不変の中間表現を生成します。FromCommand、WhereCommand、SortCommand、およびLimitCommandの各々が、1つのES|QL処理コマンドを表しています。これらはEsqlQueryモデルに集められます。

クエリモデルとコマンドパターン。

この中間モデルは、式ツリーと出力形式の両方から切り離されています。フォーマット前に検査、傍受（IEsqlQueryInterceptor経由）、または修正が可能です。

4. フォーマット

EsqlFormatter 各QueryCommandを順番に訪問し、最終的なES|QL文字列を生成します。各コマンドは1行になり、ES|QLが処理コマンドを連鎖させるために使用するパイプ (|) 演算子で区切られます。特殊文字を含む識別子は自動的にバッククォートでエスケープされます。

5. 実行

フォーマットされたES|QL文字列とキャプチャされたパラメーターは、JSONペイロードとしてElasticsearchの/_queryエンドポイントに送信されます。IEsqlQueryExecutorインターフェースはトランスポートレイヤーを抽象化し、ここで階層型パッケージアーキテクチャが登場します。

6. マテリアライズ

EsqlResponseReader JSON応答をストリーム化し、結果セット全体をバッファリングせずに処理します。ColumnLayoutツリーは、1クエリにつき1回事前に計算され、フラットなES|QL列名（address.street、address.cityなど）をネストされたPOCOプロパティにマップします。各行はTインスタンスに組み立てられ、 IEnumerable または IAsyncEnumerableによって1行ずつ生成されます。

レイヤーアーキテクチャ

LINQ to ES|QL機能は、以下の3つのパッケージに分かれています。

パッケージアーキテクチャー。Elastic.Esql は純粋な変換エンジンです。HTTPへの依存関係は一切なく、式ビジター、クエリモデル、フォーマッター、レスポンスリーダーが含まれています。スタンドアロンで使用すると、Elasticsearch接続がなくてもES|QLクエリを構築および検査できます。これは、テスト、クエリロギング、または独自の実行レイヤーの構築に役立ちます。

// Translation-only: no Elasticsearch connection needed
var provider = new EsqlQueryProvider();
var query = new EsqlQueryable(provider)
    .From("products")
    .Where(p => p.InStock)
    .OrderByDescending(p => p.Price);

Console.WriteLine(query.ToEsqlString());
// FROM products | WHERE in_stock == true | SORT price_usd DESC

Elastic.Clients.Esql は軽量なスタンドアロンのES|QLクライアントです。Elastic.Transportを経由してElastic.Esql上にHTTP実行を追加します。もしアプリケーションが他のElasticsearch APIではなく、ES|QLのみを必要とする場合、これが最小限の依存関係オプションです。

Elastic.Clients.Elasticsearch は完全なElasticsearch .NETクライアントです。また、Elastic.Esql を基盤とし、client.Esql名前空間を通じてLINQプロバイダーを公開します。これはほとんどのアプリケーションで推奨されるエントリーポイントです。

どちらの実行層パッケージも、変換と転送をつなぐ戦略インターフェースであるIEsqlQueryExecutorの独自の実装を提供します。

これら3つのパッケージはすべて、ソース生成のJsonSerializerContextと併用する場合、ネイティブAOTと互換性があります。完全なクライアントについては、Native AOTのドキュメントをご覧ください。

基本を超えて

上記の例では、フィルタリング、ソート、ページネーションについて説明しています。このプロバイダーはより幅広い操作をサポートしています。

アグリゲーション

GroupBySelectの集約関数と組み合わせるとES|QL STATS ... BYに変換されます。

var stats = client.Esql.Query(q => q
    .GroupBy(p => p.Brand)
    .Select(g => new
    {
        Brand = g.Key,
        Count = g.Count(),
        AvgPrice = g.Average(p => p.Price),
        MaxPrice = g.Max(p => p.Price)
    }));

// -> FROM products | STATS COUNT(*), AVG(price_usd), MAX(price_usd) BY brand

予測

Select匿名型を持つと、 EVAL、 KEEP、 RENAME コマンドが生成されます。

var query = client.Esql.CreateQuery()
    .Select(p => new { ProductName = p.Name, p.Price, p.InStock });

// -> FROM products | KEEP name, price_usd, in_stock | RENAME name AS ProductName

豊富な関数ライブラリ

80以上のES|QL関数が EsqlFunctionsクラスを通じて利用可能で、日付/時間、文字列、数学、IP、パターンマッチング、スコアリングをカバーしています。標準的なMath.*およびstring.*メソッドも変換されています。

.Where(p => p.Name.Contains("Pro"))       // -> WHERE name LIKE "*Pro*"
.Where(p => EsqlFunctions.CidrMatch(      // -> WHERE CIDR_MATCH(ip, "10.0.0.0/8")
    p.IpAddress, "10.0.0.0/8"))

ルックアップ結合

クロスインデックス検索はES|QL LOOKUP JOINに変換されます。

var enriched = client.Esql.Query(q => q
    .LookupJoin(
        "category-lookup-index",
        product => product.Id,
        category => category.CategoryId,
        (product, category) => new { product.Name, category!.CategoryLabel }));

未加工のES|QLエスケープハッチ

LINQプロバイダーでまだサポートされていないES|QL機能については、生のフラグメントを追加できます。

var results = client.Esql.Query(q => q
    .Where(p => p.InStock)
    .RawEsql("| EVAL discounted = price_usd * 0.9"));

サーバー側の非同期クエリ

実行時間の長いクエリについては、サーバー上でバックグラウンド処理を行うように設定します。

await using var asyncQuery = await client.Esql.SubmitAsyncQueryAsync(
    q => q.Where(p => p.InStock),
    asyncQueryOptions: new EsqlAsyncQueryOptions
    {
        WaitForCompletionTimeout = TimeSpan.FromSeconds(5),
        KeepAlive = TimeSpan.FromMinutes(10)
    });

await asyncQuery.WaitForCompletionAsync();
await foreach (var product in asyncQuery.AsAsyncEnumerable())
    Console.WriteLine(product.Name);

サーバー側の非同期クエリは、通常のタイムアウトしきい値を超える可能性のある長時間実行される分析クエリや大規模データセットの処理、あるいはロードバランサー、APIゲートウェイ、プロキシなど、厳格なHTTPタイムアウトを強制するタイムアウトに敏感な環境で特に役立ちます。非同期クエリは、結果の取得から提出を切り離すことで接続切断を回避します。

はじめに

LINQ to ES|QLは次のバージョンから利用可能です。

Elastic.Clients.Elasticsearch v9.3.4 (9.x ブランチ)
Elastic.Clients.Elasticsearch v8.19.18（8.xブランチ）

NuGetからのインストール：

dotnet add package Elastic.Clients.Elasticsearch

エントリーポイントはclient.Esqlにあります。

メソッド	戻り値	ユースケース
Query(...)	IEnumerable	同期実行
QueryAsync(...)	IAsyncEnumerable	非同期ストリーミング
CreateQuery()	IEsqlQueryable	高度な構成と検査
SubmitAsyncQueryAsync(...)	EsqlAsyncQuery	長時間実行されるサーバー側クエリ

クエリオプション、複数フィールドへのアクセス、ネストされたオブジェクト、複数値フィールドの処理など、機能の詳細についてはLINQ to ES|QLのドキュメントを参照してください。

まとめ

LINQ to ES|QLは、C# LINQの完全な表現力をElasticsearchのES|QLクエリ言語にもたらし、クエリ文字列を手作業で作成することなく、厳密に型付けされた構成可能なクエリを書くことができます。自動パラメーターキャプチャ、ストリーミングマテリアライゼーション、スタンドアロン変換から完全なElasticsearchクライアントまで拡張できる階層型パッケージアーキテクチャーにより、あらゆる規模の.NETアプリケーションに自然に適合します。最新のクライアントをインストールし、LINQ式をインデックスに向け、残りはプロバイダーに任せましょう。

TypeScriptを使用したElasticsearch MCPサーバーの作成

Jeffrey Rengifo — Fri, 27 Mar 2026 00:00:00 GMT

Elasticsearchで大規模なナレッジベースを扱う場合、情報を見つけるだけでは片手落ちです。エンジニアは複数の文書から結果を統合し、要約を作成し、回答を情報源にたどる必要があることが多いです。モデルコンテキストプロトコル（MCP）は、Elasticsearchと大規模言語モデル（LLM）アプリケーションを接続するための標準化された方法を提供します。ElasticはElastic Agent Builder（MCPエンドポイントを機能の一つに含む）のような公式ソリューションを提供していますが、カスタムMCPサーバーを構築することで、検索ロジック、結果のフォーマット、取得したコンテンツをLLMに渡して合成、要約、引用を行う方法などを完全に制御できます。

この記事では、カスタムElasticsearch MCPサーバーを構築するメリットを探り、ElasticsearchをLLM対応アプリケーションに接続するサーバーをTypeScriptで作成する方法を紹介します。

カスタムのElasticsearch MCPサーバーを構築する理由

ElasticはMCPサーバーのいくつかの代替手段を提供しています。

MCPサーバーとElasticsearchの連携方法をより細かく制御したい場合は、独自のカスタムサーバーを構築することで、ニーズに合わせて柔軟にカスタマイズできます。例えば、Agent BuilderのMCPエンドポイントはElasticsearchクエリ言語（ES|QL）クエリに限定されていますが、カスタムサーバーでは完全なクエリDSLを使用できます。また、LLMに渡される前に結果をどのようにフォーマットするかを制御でき、このチュートリアルで実装するOpenAIを利用した要約など、追加の処理ステップを統合することもできます。

この記事を読み終える頃には、Elasticsearchインデックスに保存されている情報を検索し、要約し、引用を提供するTypeScriptで記述されたMCPサーバーが完成しているでしょう。Elasticsearchを使用して情報を検索し、OpenAIのgpt-4o-miniモデルを用いて要約と引用を生成し、Claude DesktopをMCPクライアントおよびUIとして活用してユーザーのクエリを受け取り、応答を提供します。最終的には、エンジニアが組織内の技術文書全体からベストプラクティスを発見し、統合するのに役立つ内部ナレッジアシスタントが完成します。

要件：

Node.js 20 +
Elasticsearch
OpenAI APIキー
Claude Desktop

MCPとは何ですか？

MCPはAnthropicによって作成されたオープンスタンダードで、LLMとElasticsearchのような外部システムとの間で安全かつ双方向の接続を提供します。MCP の現状についてはこの記事で詳しく読むことができます。

MCPの環境は日々進化しており、多様なユースケースに対応したサーバーが利用可能です。さらに、この記事でご紹介するように、独自のカスタムMCPサーバーを簡単に構築することもできます。

MCPクライアント

利用可能なMCPクライアントは多数あり、それぞれに特徴や制限があります。簡便性と普及度を考慮し、今回はMCPクライアントとしてClaude Desktopを使用します。これは、ユーザーが自然言語で質問できるチャットインターフェースとして機能し、MCPサーバーが公開しているツールを自動的に呼び出して、文書を検索し、要約を生成します。

Elasticsearch MCPサーバーの作成

TypeScript SDKを使えば、ユーザーのクエリ入力に基づいてElasticsearchデータのクエリ方法を理解するサーバーを簡単に作成できます。

この記事では、Elasticsearch MCPサーバーとClaude Desktopクライアントを統合するための手順を説明します。

Elasticsearch MCPサーバーを設定してください

まず、Nodeアプリケーションを初期化します。

npm init -y

これで package.jsonファイルが作成され、このアプリケーションに必要な依存関係のインストールを開始できます。

npm install @elastic/elasticsearch @modelcontextprotocol/sdk openai zod && npm install --save-dev ts-node @types/node typescript

@elastic/elasticsearch はElasticsearchのNode.jsライブラリにアクセスするためのものです。
@modelcontextprotocol/sdkは、MCPサーバーの作成と管理、ツールの登録、MCPクライアントとの通信処理を行うためのコアツールを提供します。
openaiは、OpenAIのモデルと対話し、要約や自然言語による対応を生成することができます。
zodは、各ツールの入出力データの構造化スキーマの定義と検証に役立ちます。

ts-node、@types/node、 typescriptは開発中にコードの入力やスクリプトのコンパイルに使用されます。

データセットを設定

Claude DesktopがMCPサーバーを使用してクエリできるデータを提供するために、内部の模擬ナレッジベースデータセットを使用します。このデータセットから作成される文書は以下のような形式になります。

{
    "id": 5,
    "title": "Logging Standards for Microservices",
    "content": "Consistent logging across microservices helps with debugging and tracing. Use structured JSON logs and include request IDs and timestamps. Avoid logging sensitive information. Centralize logs in Elasticsearch or a similar system. Configure log rotation to prevent storage issues and ensure logs are searchable for at least 30 days.",
    "tags": ["logging", "microservices", "standards"]
}

データを取り込むために、Elasticsearchにインデックスを作成し、そこにデータセットをロードするスクリプトを用意しました。こちらでご覧いただけます。

MCPサーバー

index.tsというファイルを作成し、依存関係をインポートして環境変数を処理するための以下のコードを追加します。

// index.ts
import { z } from "zod";
import { Client } from "@elastic/elasticsearch";
import { McpServer } from "@modelcontextprotocol/sdk/server/mcp.js";
import { StdioServerTransport } from "@modelcontextprotocol/sdk/server/stdio.js";
import OpenAI from "openai";

const ELASTICSEARCH_ENDPOINT =
  process.env.ELASTICSEARCH_ENDPOINT ?? "http://localhost:9200";
const ELASTICSEARCH_API_KEY = process.env.ELASTICSEARCH_API_KEY ?? "";
const OPENAI_API_KEY = process.env.OPENAI_API_KEY ?? "";
const INDEX = "documents";

また、ElasticsearchとOpenAIの呼び出しを処理するようにクライアントを初期化します。

const openai = new OpenAI({
  apiKey: OPENAI_API_KEY,
});

const _client = new Client({
  node: ELASTICSEARCH_ENDPOINT,
  auth: {
    apiKey: ELASTICSEARCH_API_KEY,
  },
});

実装をより堅牢にし、構造化された入出力を保証するために、 zodを使用してスキーマを定義します。これにより、ランタイムでデータを検証し、エラーを早期に捕捉し、ツールの対応をプログラムで処理しやすくすることができます。

const DocumentSchema = z.object({
  id: z.number(),
  title: z.string(),
  content: z.string(),
  tags: z.array(z.string()),
});

const SearchResultSchema = z.object({
  id: z.number(),
  title: z.string(),
  content: z.string(),
  tags: z.array(z.string()),
  score: z.number(),
});

type Document = z.infer;
type SearchResult = z.infer;

構造化出力の詳細については、こちらをご覧ください。

それでは、MCPサーバーを初期化しましょう。

const server = new McpServer({
  name: "Elasticsearch RAG MCP",
  description:
    "A RAG server using Elasticsearch. Provides tools for document search, result summarization, and source citation.",
  version: "1.0.0",
});

MCPツールの定義

すべての設定が完了したので、MCPサーバーによって公開されるツールの作成を開始できます。このサーバーは2つのツールを公開します。

search_docs：Elasticsearchで文書を全文検索で検索します。
summarize_and_cite：以前に取得した文書から情報を要約・統合し、ユーザーの質問に答えます。このツールは、出典となる文書を参照する引用も追加します。

これらのツールを組み合わせることで、シンプルな「検索してから要約」ワークフローが構築されます。一方のツールが関連文書を取得し、もう一方のツールがその文書を使用して要約と引用を含む回答を生成します。

ツールの応答形式

各ツールは任意の入力パラメータを受け入れることができますが、以下の構造で応答する必要があります。

Content： これは非構造化形式でのツールの応答です。このフィールドは通常、テキスト、画像、音声、リンク、または埋め込みを返すために使用されます。この用途では、ツールによって生成された情報を含む整形済みテキストを返すために使用されます。
structuredContent：これは、各ツールの結果を構造化された形式で提供するために使用されるオプションの戻り値です。これはプログラム上の目的に役立ちます。このMCPサーバーでは使用されていませんが、他のツールを開発したり、結果をプログラムで処理したりする場合に便利です。

その構造を念頭に置いて、各ツールについて詳しく見ていきましょう。

Search_docsツール

このツールは、Elasticsearchインデックスで全文検索を実行し、ユーザークエリに基づいて最も関連性の高いドキュメントを取得します。主要な一致をハイライトし、関連性スコアを素早くまとめてくれます。

server.registerTool(
  "search_docs",
  {
    title: "Search Documents",
    description:
      "Search for documents in Elasticsearch using full-text search. Returns the most relevant documents with their content, title, tags, and relevance score.",
    inputSchema: {
      query: z
        .string()
        .describe("The search query terms to find relevant documents"),
      max_results: z
        .number()
        .optional()
        .default(5)
        .describe("Maximum number of results to return"),
    },
    outputSchema: {
      results: z.array(SearchResultSchema),
      total: z.number(),
    },
  },
  async ({ query, max_results }) => {
    if (!query) {
      return {
        content: [
          {
            type: "text",
            text: "Query parameter is required",
          },
        ],
        isError: true,
      };
    }

    try {
      const response = await _client.search({
        index: INDEX,
        size: max_results,
        query: {
          bool: {
            must: [
              {
                multi_match: {
                  query: query,
                  fields: ["title^2", "content", "tags"],
                  fuzziness: "AUTO",
                },
              },
            ],
            should: [
              {
                match_phrase: {
                  title: {
                    query: query,
                    boost: 2,
                  },
                },
              },
            ],
          },
        },
        highlight: {
          fields: {
            title: {},
            content: {},
          },
        },
      });

      const results: SearchResult[] = response.hits.hits.map((hit: any) => {
        const source = hit._source as Document;

        return {
          id: source.id,
          title: source.title,
          content: source.content,
          tags: source.tags,
          score: hit._score ?? 0,
        };
      });

      const contentText = results
        .map(
          (r, i) =>
            `[${i + 1}] ${r.title} (score: ${r.score.toFixed(
              2,
            )})\n${r.content.substring(0, 200)}...`,
        )
        .join("\n\n");

      const totalHits =
        typeof response.hits.total === "number"
          ? response.hits.total
          : (response.hits.total?.value ?? 0);

      return {
        content: [
          {
            type: "text",
            text: `Found ${results.length} relevant documents:\n\n${contentText}`,
          },
        ],
        structuredContent: {
          results: results,
          total: totalHits,
        },
      };
    } catch (error: any) {
      console.log("Error during search:", error);

      return {
        content: [
          {
            type: "text",
            text: `Error searching documents: ${error.message}`,
          },
        ],
        isError: true,
      };
    }
  }
);

fuzziness: “AUTO” は 分析対象のトークンの長さに応じて誤字許容度を調整するように設定しています。また 、 タイトルフィールドで一致が発生したドキュメントのスコアを上げるtitle^2も設定しました。。

summarize_and_citeツール

このツールは、前回の検索で取得したドキュメントに基づいて要約を生成します。OpenAIの gpt-4o-miniモデルを使用して、ユーザーの質問に答えるために最も関連性の高い情報を統合し、検索結果に直接基づく回答を提供します。要約に加えて、使用したソースドキュメントの引用情報（メタデータ）も返します。

server.registerTool(
  "summarize_and_cite",
  {
    title: "Summarize and Cite",
    description:
      "Summarize the provided search results to answer a question and return citation metadata for the sources used.",
    inputSchema: {
      results: z
        .array(SearchResultSchema)
        .describe("Array of search results from search_docs"),
      question: z.string().describe("The question to answer"),
      max_length: z
        .number()
        .optional()
        .default(500)
        .describe("Maximum length of the summary in characters"),
      max_docs: z
        .number()
        .optional()
        .default(5)
        .describe("Maximum number of documents to include in the context"),
    },
    outputSchema: {
      summary: z.string(),
      sources_used: z.number(),
      citations: z.array(
        z.object({
          id: z.number(),
          title: z.string(),
          tags: z.array(z.string()),
          relevance_score: z.number(),
        })
      ),
    },
  },
  async ({ results, question, max_length, max_docs }) => {
    if (!results || results.length === 0 || !question) {
      return {
        content: [
          {
            type: "text",
            text: "Both results and question parameters are required, and results must not be empty",
          },
        ],
        isError: true,
      };
    }

    try {
      const used = results.slice(0, max_docs);

      const context = used
        .map(
          (r: SearchResult, i: number) =>
            `[Document ${i + 1}: ${r.title}]\\n${r.content}`
        )
        .join("\n\n---\n\n");

      // Generate summary with OpenAI
      const completion = await openai.chat.completions.create({
        model: "gpt-4o-mini",
        messages: [
          {
            role: "system",
            content:
              "You are a helpful assistant that answers questions based on provided documents. Synthesize information from the documents to answer the user's question accurately and concisely. If the documents don't contain relevant information, say so.",
          },
          {
            role: "user",
            content: `Question: ${question}\\n\\nRelevant Documents:\\n${context}`,
          },
        ],
        max_tokens: Math.min(Math.ceil(max_length / 4), 1000),
        temperature: 0.3,
      });

      const summaryText =
        completion.choices[0]?.message?.content ?? "No summary generated.";

      const citations = used.map((r: SearchResult) => ({
        id: r.id,
        title: r.title,
        tags: r.tags,
        relevance_score: r.score,
      }));

      const citationText = citations
        .map(
          (c: any, i: number) =>
            `[${i + 1}] ID: ${c.id}, Title: "${c.title}", Tags: ${c.tags.join(
              ", ",
            )}, Score: ${c.relevance_score.toFixed(2)}`,
        )
        .join("\n");

      const combinedText = `Summary:\\n\\n${summaryText}\\n\\nSources used (${citations.length}):\\n\\n${citationText}`;

      return {
        content: [
          {
            type: "text",
            text: combinedText,
          },
        ],
        structuredContent: {
          summary: summaryText,
          sources_used: citations.length,
          citations: citations,
        },
      };
    } catch (error: any) {
      return {
        content: [
          {
            type: "text",
            text: `Error generating summary and citations: ${error.message}`,
          },
        ],
        isError: true,
      };
    }
  }
);

最後に、stdioを使用してサーバーを起動する必要があります。つまり、MCPクライアントは、標準の入出力ストリームを読み書きすることでサーバーと通信します。stdioは最もシンプルな転送オプションで、クライアントによってサブプロセスとして立ち上げられるローカルMCPサーバーに適しています。ファイルの最後に以下のコードを追加します。

const transport = new StdioServerTransport();
server.connect(transport);

次に、以下のコマンドを使用してプロジェクトをコンパイルします。

npx tsc index.ts --target ES2022 --module node16 --moduleResolution node16 --outDir ./dist --strict --esModuleInterop

これによりdistフォルダが作成され、その中にindex.jsファイルが作成されます。

MCPサーバーをClaude Desktopにロード

Claude DesktopでMCPサーバーを設定するには、このガイドに従ってください。Claudeの設定ファイルでは、以下の値を設定する必要があります:

{
  "mcpServers": {
    "elasticsearch-rag-mcp": {
      "command": "node",
      "args": [   "/Users/user-name/app-dir/dist/index.js"
      ],
      "env": {
        "ELASTICSEARCH_ENDPOINT": "your-endpoint-here",
        "ELASTICSEARCH_API_KEY": "your-api-key-here",
        "OPENAI_API_KEY": "your-openai-key-here"
      }
    }
  }
}

args値は、 distフォルダ内のコンパイル済みファイルを指す必要があります。また、設定ファイル内の環境変数も、コード内で定義されているものと全く同じ名前で設定する必要があります。

試してみる

各ツールを実行する前に、「検索とツール」をクリックして、ツールが有効になっていることを確認します。ここでは、それぞれを有効または無効にすることもできます。

最後に、Claude DesktopのチャットからMCPサーバーをテストして、質問を始めましょう。

「認証方法とRBACに関する文書を検索する」という質問に対して、search_docs ツールが実行され、以下の結果が返されます。

Most Relevant Documents:
Access Control and Role Management (highest relevance) - This document covers role-based access control (RBAC) principles, including ensuring users only have necessary permissions, regular auditing of user roles, revoking inactive accounts, and implementing just-in-time access for sensitive operations.
User Authentication with OAuth 2.0 - This document explains OAuth 2.0 authentication, which enables secure delegated access without credential sharing. It covers configuring identity providers, token management with limited scope and lifetime, and secure storage of refresh tokens.
Container Security Guidelines - While primarily about container security, this document touches on access control aspects like running containers as non-root users and avoiding embedded credentials.
Incident Response Playbook - This mentions role assignment during incidents (incident commander, communications lead, etc.), which relates to access control in emergency scenarios.
Logging Standards for Microservices - This document includes guidance on avoiding logging sensitive information, which is relevant to authentication security.

回答は「素晴らしい！認証方法とロールベースのアクセス制御に関する関連文書を5件見つけました。見つかった内容は以下のとおりです。」

ツール呼び出しは、対応ペイロードの一部としてソース文書を返します。これらの文書は、後に引用を生成するために使用されます。

また、複数のツールを一度のインタラクションで連結することも可能です。この場合、Claude Desktopはユーザーの質問を分析し、まずsearch_docsを呼び出して関連文書を取得し、次にその結果をsummarize_and_citeに渡して最終的な回答を生成する必要があると判断します。これらすべては、ユーザーからの個別のプロンプトを必要とせずに実行されます。

この場合、「システム全体の認証とアクセス制御を改善するための主な推奨事項は何ですか？参考文献を含めてください。」というクエリに対して、以下の結果が得られました。

Based on the documentation, here are the main recommendations to improve authentication and access control across your systems:

Key Recommendations

1. Implement Role-Based Access Control (RBAC)
Ensure users have only the permissions necessary for their job functions. This principle of least privilege minimizes security risks by limiting access to what's truly needed. [1]

2. Regular Access Audits
Conduct regular audits of user roles and promptly revoke access for inactive accounts. This helps prevent unauthorized access from dormant or compromised accounts. [1]

3. Just-in-Time (JIT) Access
Implement just-in-time access for sensitive operations, where permissions are granted only when needed and for a limited duration. This reduces the attack surface by minimizing standing privileges. [1]

4. OAuth 2.0 for Secure Authentication
Use OAuth 2.0 to enable secure delegated access without sharing user credentials. This protocol allows third-party applications to access resources on behalf of users without exposing passwords. [2]

5. Token Security and Management
Configure your identity provider to issue tokens with limited scope and lifetime

Store refresh tokens securely
Validate access tokens consistently to maintain security [2]
References

Access Control and Role Management (Tags: security, access-control)
User Authentication with OAuth 2.0 (Tags: authentication, oauth)
These recommendations work together to create a defense-in-depth approach, where multiple security layers protect your systems from unauthorized access.

前のステップと同様に、この質問に対する各ツールの回答を確認できます。

注：各ツールの使用を承認するかを確認するサブメニューが表示された場合は、「常に許可」または「一度だけ許可」を選択します。

まとめ

MCPサーバーは、ローカルとリモートの両方のアプリケーションのLLMツールの標準化に向けた重要な一歩です。完全な互換性の実現にはまだ取り組んでいますが、その方向へ急速に進んでいます。

この記事では、ElasticsearchをLLM搭載アプリケーションに接続するカスタムMCPサーバーをTypeScriptで構築する方法を学びました。当サーバーは2つのツールを提供しています。1つはQuery DSLを使用して関連文書を取得するためのツールsearch_docs、もう1つはOpenAIモデルとクライアントUIとしてのClaude Desktopを使用して引用付きの要約を生成するためのツールsummarize_and_citeです。

異なるクライアントとサーバープロバイダー間の互換性の将来は有望に見えます。次のステップは、エージェントにより多くの機能と柔軟性を加えることです。実用的な記事で、検索テンプレートを使用してクエリをパラメーター化し、精度と柔軟性を得る方法を学ぶことができます。

Kibanaのダッシュボードに読み取り専用権限を追加

Fabio Busatto, Teresa Alvarez Soler — Thu, 26 Mar 2026 00:00:00 GMT

こんな経験はありませんか。ログを監視するための完璧なダッシュボードを作成するのに1時間ほど費やし、すべてのグラフ、すべてのフィルター、すべてのラベルを設定します。ダッシュボードをチームと共有します。数日後、開いてみると何かがおかしいようです。同僚がクエリを微調整したか、誰かが日付範囲を変えたのかもしれません。よかれと思ってのことかもしれませんが、加えられた修正をひとつひとつ調べることになり、すべての数値が怪しく思えてきます。実によくある話です。

そこで、Elasticは読み取り専用のダッシュボードを開発しました。求めていたコントロールが獲得でき、安心してダッシュボードを共有できます。編集アクセス権を持つ別の人が変更したり壊したりすることを心配する必要はありません。

注：読み取り専用の権限は、Elastic Cloud ServerlessおよびElastic Cloud Hosted、Elastic Self-Managedのバージョン9.3以降で利用可能です。

「すべてのユーザーが編集可能」権限が妨げになる場合

Kibanaにおいて、共有は通常、スペースレベルの権限を意味していました。誰かがスペースでダッシュボードを作成できる場合、他の人のダッシュボードも編集または削除できます。コラボレーションにとっては便利ですが、場合によってはそうとも言い切れません。たった一度の意図しない編集が、誤った判断、信頼の喪失、そして多大な後始末へと連鎖的に影響を及ぼす可能性があります。

ダッシュボード名に「read-only」と入れて皆が気づくことを期待するとか、タグを付けてうまくいくことを祈るといった回避策もあるにはありますが、期待と権限モデルはイコールではありません。必要なのは、スペースから全員を締め出すことなくダッシュボードをロックするための現実的な手段でした。

問題の実例

DebとKevinはどちらも、オペレーションスペース内のログ監視ダッシュボードへの編集権限を持っています。Kevinがチャートにいくつか変更を加えます。Debがダッシュボードに戻ると、数字は彼女が提示したものと一致しませんでした。彼女は（多くの場合記憶を頼りに）何が変更されたのかを突き止め、それを修正し、どれだけの報告書が誤ったデータで送信されたのかを考えなければならなくなります。

読み取り専用ダッシュボード：理にかなった所有権と制御

読み取り専用のダッシュボードでは、他のユーザーがダッシュボードを編集できるかどうかを管理できます。ダッシュボードを共有する際、編集（デフォルト：従来どおり）または閲覧を選択します。閲覧モードでは、あなた（とKibana管理者）のみが変更または削除できます。他のユーザーは開いて利用できますが、変更することはできません。

手に入るもの

ダッシュボードの整合性：閲覧モードでは、スペースで編集アクセス権を持つ他のユーザーはダッシュボードを変更または削除できません。操作を試みると、ロックされているというメッセージが表示されます。グラフとロジックは設定した状態のまま維持されます。
コントロールを維持：コントロールは所有者が維持し、いつでも編集、改良、更新が可能です。閲覧専用として共有しても、自分がアクセスできなくなるわけではありません。他の全員が表示できるバージョンが固定されるだけです。
柔軟なライフサイクル： ダッシュボードはいつでも「編集可能」に戻すことができます。また、Kibanaの管理者は引き続きすべてのダッシュボードを管理できます（所有者が退職した場合など）。行き止まりになることはありません。

最終決定済みの、業務上極めて重要なダッシュボードを広く共有しても、その一貫性が維持されることが保証されます。これは、Serverlessを含むすべてのElasticのティアとサービスで利用可能です。

役割と可能な操作

クイックリファレンス（役割別）：

ダッシュボードの所有者：作成者として、完全な編集権限があります。
Kibana管理者：すべてのダッシュボードを管理できます。
スペース編集権限を持つユーザー：ダッシュボードの作成と編集が可能ですが、閲覧専用のダッシュボードの編集や削除はできません。
スペース閲覧権限を持つユーザー：ダッシュボードの表示と一覧表示のみが可能です。

操作	ダッシュボード所有者	Kibana管理者	スペース編集権限を持つユーザー	スペース閲覧権限を持つユーザー
ダッシュボードの一覧表示と表示	✔	✔	✔	✔
新規ダッシュボードの作成	✔	✔	✔	✘
編集可能なダッシュボードの変更/削除	✔	✔	✔	✘
読み込み専用ダッシュボードの変更/削除	✔	✔	✘	✘

読み取り専用にする方法

新しいダッシュボードを保存する際、または後で共有メニューから「閲覧のみ」に設定できます。

新しいダッシュボードを保存する際

ダッシュボードを作成し、「保存」をクリックします。
「新しいダッシュボードとして保存」モーダルで、「権限」を探します。
「編集可能」から「閲覧可能」に変更します。
［保存］をクリックします。これで完了です。他のユーザーにとっては閲覧専用となります。

既に所有しているダッシュボードの場合

ダッシュボードを開いてください。
「ダッシュボードを共有」メニューを開きます。

共有モーダルで、「権限」を見つけて「閲覧可能」に切り替えます。変更はすぐに適用されます。そのスペースの他のユーザーは、編集や削除ができなくなります。

共有アクションにマウスを合わせると、特定のダッシュボードが持つ権限の種類を確認できます。

どのダッシュボードがロックされているかを確認する

メインのダッシュボードリストでは、編集または削除できないダッシュボードの選択用チェックボックスは無効化されています。これにより、閲覧専用の項目を簡単に見分けられます。

ダッシュボードでは、編集アクションも無効になっており、ツールチップが表示され、ダッシュボードが閲覧専用に設定されていることが説明されます。

試してみる

読み取り専用ダッシュボードが利用可能になりました。ダッシュボードを作成し、「閲覧可能」に切り替えて共有します。チームは信頼できる唯一の情報源を得ることができ、あなたは安心感を得られます。タイトルに「編集しないでください」という文言を入れる必要はもうありません。

読み取り専用ダッシュボードをどのように活用されているか、ぜひお聞かせください。コミュニティフォーラムでご意見をお聞かせください。

シェルツールはコンテキストエンジニアリングの万能薬ではありません

Leonie Monigatti — Wed, 25 Mar 2026 00:00:00 GMT

エージェントが備える最も重要なツールは、自前でコンテキストを構築するために使用できる検索ツールです。LlamaIndexとLangChainによる最近の投稿により、エージェントがコンテキストエンジニアリングに必要なのは、シェルツールとファイルシステムだけなのかという議論が巻き起こりました。残念ながら、この議論はすぐにファイルシステム対データベースという間違った方向に逸れてしまいました。

この投稿は、エージェントが独自のコンテキストを構築するために必要な、適切な検索インターフェースとは何かという問いに改めて焦点を当てるものです。まず、シェルツールと専用データベースツールのトレードオフについて論じます。それを基に、エージェントのニーズに合った適切なインターフェースを見つけるための実用的なフレームワークを提示します。

エージェントにとって「コンテキスト構築」が具体的に意味するもの

初期のRetrieval-Augmented Generation（RAG）パイプラインでは、開発者が肯定的な検索パイプラインを設計し、大規模言語モデル（LLM）はコンテキストを受動的に受け取るだけの存在でした。そしてこれが、根本的な制限となっていました。コンテキストは、必要かどうかにかかわらず、すべてのクエリで取得され、それが実際に役立つかどうかも確認されなかったのです。

エージェント型RAGへの移行により、エージェントは独自のコンテキストを構築するための一連の検索ツールを利用できるようになりました。たとえば、Claude Code [1]とCursor [2]は、タスクの必要に応じて、エージェントが異なる検索ツールを選択し、さらにはそれらを組み合わせてクエリーを連鎖的に実行することもできます。

コンテキストエンジニアリングに用いる検索インターフェースの種類

コンテキストは、ウェブ上、ローカルファイルシステム、データベースなど、さまざまな場所に存在します。エージェントは、これらのコンテキスト外の各データソースと、次のようなツールを通じてやり取りできます。

シェルツールはシェルコマンドを実行でき、ローカルファイルシステムにアクセスできます。組み込みシェルツールの例としては、Claude APIのbashツール、OpenClawのExecツール、LangChainのシェルツールがあります。
専用のデータベースツール、たとえばモデルコンテキストプロトコル（MCP）サーバー（例：Elastic Agent Builder MCPサーバー）やカスタムツール（例：run_esql(query)、db_list_index()）などは、データベースをクエリできます。
専用のファイル検索ツールは、ローカル（またはアップロードされた）ファイルを検索し、読み取ることができます（ただし、シェルに完全にアクセスする権限はありません）。組み込みファイル検索ツールの例としては、 Gemini APIのファイル検索ツールや OpenAIのファイル検索ツールがあります。
ウェブ検索ツールは、ウェブから情報を取得できます。
メモリツールは、長期記憶に保存し、長期記憶から呼び出します（保存方法は任意です）。

ご覧のとおり、シェルツールは用途が多彩で、以下のようなさまざまなデータソースからコンテキストを取得するために使用できます。

ファイルシステム：エージェントはディレクトリ構造を探索（ls、find）、関連コンテンツを検索（grep、cat）し、十分なコンテキストが構築されるまで繰り返します。
データベース：エージェントは、データベース用のコマンドラインインターフェース（CLI）ツール（例：elasticsearch-sql-cli）を使用したり、curl経由でのHTTP APIを呼び出たり、スクリプトを実行したりできます。これは、再利用可能な文書化した例をエージェントのコンテキストに挿入して、ツールを適切に使用できるようにするようなエージェントスキル（例：Elastic Agent Skills for Elasticsearch）と組み合わせると特に役立ちます。
ウェブ：エージェントは、検索プロバイダーのAPIを通じてcurlコマンドでウェブ検索を実行できます。

ただし、シェルツールはシステムに直接アクセスできるため、隔離されたサンドボックス環境での実行や、実行されたすべてのコマンドのログを取得するなどの安全対策が必要です。

いつ、どの検索インターフェースを使用すべきか

最適な検索インターフェースは、データ、クエリパターン、ユースケースによって異なります。このセクションは、実際に取りかかる際の出発点として役立ちます。

ファイルシステムによってデータベースが時代遅れになったわけではない

ファイルシステムかデータベースかという議論は、ストレージ層自体の話ではありません。たとえば、LangChainの説明によると、LangChainのメモリシステムでは、実のところファイルシステムにメモリを保存しているわけではありません。代わりに、メモリをデータベースに格納し、それをエージェントに対して一連のファイルとして提示します[3]。

ファイルシステムは、コーディングエージェントなど、ファイルを中心としたユースケースに最適です。また、一時的なスクラッチパッドや作業メモリとしても、同時実行が問題とならない単一ユーザーや単一エージェントのシナリオにも適しています。こうした場合、物理的なファイルシステム、またはデータをファイルシステムとして提示する方法により、目的に合わせてインターフェースを構築する前の段階において柔軟性を確保できます。

しかし、ファイルシステムストレージには、同時実行性、手動によるスキーマ適用、アトミックトランザクションなどの弱点があります。これらは、アプリケーションをスケールしたり、マルチエージェントシナリオに移行したりする必要がある場合に、いっそう顕著になります。これらの弱点を無視するならば、本番用データベースがすでに備えているような、トランザクションの安全性やアクセス制御を支える何十年もの技術的蓄積のない、劣化版のデータベースを苦労して再発明する羽目に陥ります。さらに、ほとんどのエンタープライズ環境では、データベースを使用するかどうかを選ぶ余地はありません。なぜなら、ビジネスクリティカルなデータを格納するデータベースはすでに存在しているからです。

シェルツール+ファイルシステム

ファイルシステム検索の出発点として、シェルツールは最適な選択肢です。現在、この分野において多くの発展を牽引しているのは、コーディングエージェントです。コーディングエージェントはローカルファイル内のコードを扱うため、必然的にファイル依存度の高いユースケースとなります。したがって、LLMはコーディングタスク用に、トレーニング後の段階で微調整されます。そのため、多くのLLMはコードを書くことだけでなく、シェルコマンドの使用やファイルシステム内の移動も得意です。

lsやgrepのような、組み込みCLIを備えたシェルツールでファイルを検索することは効果的です。grepでは「matplotlibをインポートしているすべてのファイルを検索」といったクエリを、高速かつ高精度に、しかも低コストで実行できます。しかし、エージェントが「アプリは失敗した認証をどのように処理しているか」といった概念的なクエリを処理する必要がある場合、grepによるパターンマッチングはすぐに限界に突き当たります。このギャップを埋めるために、jina-grepのような、コマンドラインにセマンティック検索機能をもたらす代替手段もいくつか登場しています。

ただしgrepと、その代替手段であるセマンティック検索の多くは、コーパス全体に対してO(n)で実行されます。コードベースを対象とするユースケースなら、これで問題ないかもしれません。しかし、データが増えるとレイテンシーが目立つようになります。この場合、パフォーマンスを維持するにはインデックス化されたデータストアが必要となります。

シェルツール+データベース

セマンティック検索やハイブリッド検索など、データに対する検索機能を追加する別の方法は、たとえばCursorのように、機能をデータベースに格納することです。さらに、データに複雑なリレーショナル結合や集計が必要な場合、データベースインターフェースは不可欠です。

データがファイルシステム上ではなくデータベース内にある場合、特定のユースケースでは、シェルツールを軽量なデータベースインターフェースとして利用できます。クエリがCLIやcurlコマンドで十分に実行できるほどシンプルな場合、専用のデータベースツールを使うとかえって不要な複雑さが増えることがあります。

このアプローチは、エージェントが実際にどのようなクエリパターンを生成するかまだわからない、初期の探索段階にも適しています。この場合、Agent Skillsは、目的に合わせて構築されたツールに頼ることなく、正しくクエリを実行するための十分な構造を提供できます。ただし、反復的なタスクについてデータベースへの適切なクエリを見つけ出すためにエージェントが何度も試行錯誤しなければならない場合、インターフェースとしてシェルツールを使うことによって生じる、トークンオーバーヘッドによるデメリットが、追加のツールを避けられるという単純性のメリットを上回ってしまいます。

専用のデータベースツール

特に、繰り返し現れるクエリパターンが構造化されていたり分析的なものであったりする場合は、専用のデータベースツールが必要になります。VercelとBraintrustのブログ記事では、カスタマーサポートチケットや営業電話の書き起こしなどの半構造化データに関する実際の検索タスクで、さまざまな検索ツールセットを持つエージェントを比較しました（「『セキュリティ』に言及している未解決の問題はいくつありますか？」や「バグが報告され、後に誰かがそれを修正したと主張するPRが提出された問題を検索してください」など）[4]。

その結果、専用のデータベースツールを使用するエージェントは、シェルツールとファイルシステムのみを使用するエージェントに比べて、トークンの使用数が少なく、処理速度が速く、ミスも少ないことが判明しました。ここから得られる教訓は、クエリが半構造化データに対する分析推論を必要とする場合、データベースを直接扱うツールが正しい選択肢であるということです。

検索インターフェースを組み合わせる

すべてのクエリを適切に処理できる単一の検索インターフェースはありません。たとえば、Cursorはシェルツール（grepによる検索用）とセマンティック検索ツールを組み合わせて、エージェントがユーザーのプロンプトに基づいて適切なツールを選択できるようにしています。Cursorによると、エージェントは特定のシンボルや文字列を照合するためにgrepを選択し、概念的または行動に関する質問にはセマンティック検索を選択し、探索的なタスクには両方を使用するとのことです。

Vercelの実験レポートでも同じ結果が報告されています。シェルツールと専用データベースツールの両方にアクセスできるハイブリッドエージェントが、まず専用のデータベースツールを使用し、次にファイルシステムをgrepで検索して結果を確認するという方法を用いることにより、テストした全エージェントの中で最高のパフォーマンスを達成しました。しかし、このアプローチでは、ツールの選択と検証について検討するためにより多くのトークンと時間がかかります。

どちらの例でもパターンは同じです。インターフェースを組み合わせればどんな単一のインターフェースにも勝りますが、コストと遅延の増加というトレードオフも伴うということです。

適切なツールセットを見つけるための実践的な推奨事項

適切な検索インターフェースの組み合わせとは、小さく、目的が明確で、エージェントの実際のクエリパターンに即したものです。現在のベストプラクティスは、エージェントが何百ものMCPツールを備えるのではなく、備えるツールの数を最低限に抑えるということです。これは、利用可能なすべてのツールを事前に開示すると、コンテキストウィンドウが肥大化し、エージェントが実際にどのツールを使用すべきか混乱してしまうからです。たとえば、Claude Codeが備えているツールは約20個にとどまると報告されています。

その代わりに、段階的開示の考え方では、最小限のツールセットから始め、必要になったときにのみエージェントが追加機能を探すようにします。Anthropic [5]とCursor [6]の研究によると、このアプローチで47%–85%のトークンを節約できます。たとえば、Claude Codeはこの方法を直接実装しているため、エージェントはLLMを呼び出すたびにコンテキストを消費することなく、APIやデータベースにクエリする方法を段階的に発見できます。

エージェントのクエリパターンを把握できたら、エージェントがデフォルトでアクセス可能な検索ツールセットを見直すと良いでしょう。採用すべきツールを決定するにあたり、のトレードオフを考えるのに便利なのが、「敷居を低く、限界を高く」という原則です。限界の高いツールはエージェントの可能性を制限しません。たとえば、汎用的なシェルツールを使用すると、エージェントは曖昧なものを含めて完全なデータベースクエリを作成できますが、推論オーバーヘッド、遅延の増加、そして信頼性の低下を伴います。

敷居の低いツールはその逆です。これは、特定のクエリをラップし、最小限の推論オーバーヘッドでエージェントに即座にアクセスできる専用のツールであり、低コストと高い信頼性を実現します。ただし、事前のエンジニアリングが必要で、あらゆるクエリをカバーできるわけではなく、エージェントが適切なツールを選びにくくなる可能性もあります。

それぞれのツールは一長一短です。敷居の低いツールは、エージェントが正しく使用するのは簡単ですが、適用範囲は限定的です。限界の高いツールは多用途ですが、使いこなすにはより多くの推論が必要となります。

ほとんどのエージェントは、さまざまな検索ツールを組み合わせる必要があります。ただし、どのツールも、追加するに見合うだけの価値が求められます。まずは汎用的な検索ツール（たとえば search_database()ツールやシェルツール）から始めることをお勧めします。そして、セキュリティ目的で既に保持しているコマンドログを活用して、ツールの呼び出し、再試行、およびユーザークエリごとの呼び出し回数などを含め、エージェントが実際に何をしているかを追跡しましょう。そして、あるクエリパターンが繰り返されたり失敗したりすることを把握できたなら、それが専用ツールを作るべき合図です。

まとめ

ファイルシステム対データベースという議論は、エンジニアが問うべき実際の問題から目をそらしています。「エージェントが独自のコンテキストを構築するために必要な、適切な検索インターフェースとは何か」という問いの答えはおそらく、「単一のものではない」でしょう。

シェルツールは、さまざまな文脈外の情報源とやり取りするための汎用性の高いツールであり、良い出発点となります。しかし、構造化された分析クエリを使用するユースケースでは、専用のデータベースツールほど効率的で正確ではありません。

目標は、エージェントの実際のクエリパターンをうまく処理できる最小限の検索ツールを見つけることです。まずはシェルツールから始めて、エージェントが実際に何をしているかをログに記録しましょう。繰り返している、または失敗しているクエリパターンを把握できたら、専用なツールを設計すべき時です。

参照資料

1. Thariq（Anthropic）。Lessons from Building Claude Code: Seeing like an Agen（2026年）。

2. Cursor：Documentation。セマンティック検索とエージェント検索（2026年）。

3. Harrison Chase (LangChain)。How we built Agent Builder’s memory system（2026年）。

4. Ankur Goyal（Braintrust）とAndrew Qu（Vercel）。Testing if "bash is all you need"（2026年）。

5. Anthropic。Introducing advanced tool use on the Claude Developer Platform（2025年）。

6. Cursor。動的コンテキスト検出（2026年）。

Serverlessにおける負荷分散のためのElasticsearchレプリカ

Andrei Dan — Tue, 24 Mar 2026 00:00:00 GMT

Elastic Cloud Serverlessは、検索負荷に基づいてインデックスのレプリカ数を自動的に調整し、手動設定なしで最適なクエリパフォーマンスを確保します。このブログでは、レプリカのスケーリング方法、システムがレプリカを追加または削除するタイミング、そしてこれがインデックスに与える影響について説明します。

パーティーは混雑してきています

ピザパーティーを開催する予定だとします。数人の友人が配膳を手伝ってくれていて、ピザは部屋のあちこちに配置されています。あなたは友人一人ひとりにピザを渡し、友人たちは到着する空腹の客にピザを一切れずつ配り始めます。

最初は順調です。数人の客がぽつぽつとやって来て、友達が一切れずつ配ってくれて、みんな幸せそうです。しかし、あなたのサワードウピザの評判が広まると、ドアベルが鳴り続け、ゲストが次々と押し寄せるようになります。すぐに、ペパロニピザを持っている友人の周りに人だかりができ始めます。どうやら皆がそのピザを欲しがっているようです。

ペパロニピザを持ったあなたの友人は、圧倒されています。ゲストは待たされて苛立ち、長い列ができています。一方、マルゲリータピザを持った友人は、誰にも興味を持たれず、ただ突っ立っているだけでした。

さて、どうすればよいでしょうか？

あなたはさらに数枚のペパロニピザを注文し、他の友人に渡します。1人ではなく3人の友人がペパロニピザを持つようになりました。ゲストが分散すれば、一度に3倍ものゲストに対応できるようになります。

パーティーを開催するうちに、いくつかのことが明らかになります。

すべてのピザが同じように人気なわけではない。需要が高いものもあれば、需要が少ないものもあります。人気のないものの「コピー」を余分に用意する必要はありません。行列ができているタイプのものを余分に用意する必要があります。
行列が長くなる前にピザを追加注文する。友人が完全に手に負えなくなり、ゲストが怒って帰ってしまうまで待つようでは、待ちすぎです。人だかりができているのを見たら、ピザを追加で注文するほうがよいでしょう。
ピザをすぐに捨ててはいけない。ペパロニピザの人だかりが5分ほどまばらになったからといって、混雑が終わったわけではありません。飲み物を補充しているだけかもしれませんし、あるいは単におしゃべりしているだけかもしれません（今でもそういうことがあるかは別にして）。予備のピザを用意しておいてください。しばらく静かな状態が続くようなら、よけておいても構いません。
手伝ってくれる友達の数だけピザを配れる。手伝ってくれる友達が4人しかいない場合は、ピザを10枚配っても結果は変わりません。一度に提供できるピザは4枚だけです。ピザの枚数と手伝いの人数を合わせてください。
友達が持ち場を離れるときは、その友達のピザの担当を代わる。友達の誰かが外出する必要があったら、すぐにその友達のピザを引き継ぎます。ピザを放置しておくことはできません。誰かに渡すか、しまっておきます。

ピザからレプリカへ

これをElasticsearchに当てはめて考えてみましょう。

この例えでは、ピザはレプリカ（インデックスシャードのコピー）、配膳を手伝ってくれる友人は検索ノード、お腹を空かせたゲストは検索クエリ、そして人だかりができている人気のピザは、検索負荷の高いホットインデックスに相当します。

特定のインデックスに対する検索トラフィックが増加すると、追加のレプリカを作成し、それらを検索ノード全体に分散させます。任意のレプリカは、そのインデックスに対して任意のクエリを処理できます。これは、ペパロニを持っている友人がペパロニの一切れを配るのと同じです。レプリカが多いほどスループットも高くなります。3つのレプリカは、1つのレプリカの3倍のクエリを処理できます。

空腹感の測定

ピザを何枚注文するかを決める前に、参加者の空腹度を把握する必要があります。

Elasticsearchはすべてのシャードの検索負荷を追跡します。これは、シャードが処理している検索アクティビティの量を示す指標です。検索需要全体を把握するために、インデックスのすべてのシャードにわたってこれを集計します。

最も重要なのは相対的な検索負荷です。これは、プロジェクトの総検索トラフィックのうち、各インデックスにどれだけの割合がヒットしているかを指します。あるインデックスが全検索の60％を受け取っている一方で、別のインデックスが5％を受け取っている場合、どこにキャパシティを追加すべきかがわかります。

ピザに隠された数学的な背景

最適なレプリカ数は次の式に従って計算します。

desired_replicas = min(ceil(L × N / (S × X)), N)

定義：

L = インデックスの相対的な検索負荷（0～1の間）。
N = プロジェクト内で必要な検索ノードの数。
S = インデックス内のシャード数。
X = ホットスポットを回避するためのしきい値（デフォルト値：0.5）。

例として、4つの検索ノード、1つのインデックス、2つのプライマリシャードが検索トラフィックの80％を受け取る場合、以下のようになります。

desired_replicas = min(ceil(0.8 × 4 / (2 × 0.5)), 4)
                 = min(4, 4)
                 = 4

このホットインデックスは検索ノードに分散された4つのレプリカを取得します。

しきい値X（デフォルト値は0.5）は重要です。レプリカシステムが完全に処理能力を超えるまで待つのではなく、半分の処理能力に達した時点で規模を拡大します。余ったピザは、客が帰り始めてからではなく、人だかりができ始めた時に配りましょう。

素早くスケールアップし、ゆっくりとスケールダウン

検索負荷が増えたら、すぐにレプリカを追加します。ユーザーを待たせる理由はありません。

検索負荷が落ちたら、少し待ってからアクションを取ります。レプリカを減らす前に、約30分間需要が安定して低い状態になることを確認する必要があります。（これは、交通量が急激に変動する状況に対処するためのもので、一時的に交通量が減ったからといって、パーティーが終わったわけではないからです。）

レプリカを追加するにはコストがかかるため、これは重要な点です。新しいレプリカは、クエリを効率的に処理する前に、データをコピーし、キャッシュを準備します。レプリカを性急に削除すると、トラフィックが自然に変動するたびに、この初期費用を継続的に支払うことになります。

トポロジー境界を尊重

レプリカは検索ノードの数を超えてはなりません。レプリカの数をノードの数より多くしても何のメリットもありません（ピザを配るのを手伝ってくれる友人の数だけしかピザを配ることができないからです）。

プロジェクトからノードが削除されたら、レプリカ数を即座に削減して一致させます。割り当てられていないレプリカは存在できないため、クールダウンを待つ必要はありません。友人が席を外した瞬間にそのピザを引き継ぎます。

サーバーレスの全体像

レプリカによる検索負荷分散は、他の自動スケーリングシステムと共に機能します。

検索自動スケーリングは検索ノードの数を調整します（協力する友人の数）。
検索負荷分散のためのレプリカは、インデックスごとのレプリカ数を調整することでトラフィックを分散します（各種のピザが何枚必要かを示すようなものです）。
データストリームの自動シャード化は書き込みのシャード数を最適化します（各ピザをどのようにカットするかについては前回の投稿をご覧ください）。

重要な設計原則：負荷分散のためのレプリカは、検索の自動スケーリングを直接トリガーしません。その代わりに、検索リクエストをより多くのレプリカに分散させることで、検索ノード全体のリソース利用率を高めることができます。利用率の上昇に伴い、必要に応じて既存の自動スケーリングロジックが作動し、容量が追加されます。負荷分散のためのレプリカを使用することで、自動スケーリングが本来の役割を果たせるようになり、他のノードがアイドル状態になっている間にすべてのトラフィックが単一のレプリカに集中するのではなく、検索ノードが実際に使用されるようになります。

防御側への示唆

どのインデックスが人気になるかを予測する必要はありません。トラフィックパターンが変わってもレプリカを手動で調整する必要はありません。最も取引量の多いインデックスが急激なアクセス集中で処理能力を超えたからといって、午前3時に起きる必要はありません。

システムは、行列ができる場所を監視し、それらのスポットではさらにピザを注文します。コールドインデックスは不要なレプリカにリソースを浪費しません。ホットインデックスは必要な容量を取得します。予算は重要なところに使われます。

まとめ

オートシャーディングに関する記事では、ピザを正しくカットする方法を説明しました。検索のロードバランシングのためのレプリカにより、空腹の群衆が到着した際に、適切な人に十分なピザが行き渡るようにできます。

Elastic Cloud Serverlessを試して、ピザの配送は当社にお任せください。

Elasticsearch Inference APIとHugging Faceモデルを組み合わせて使用

Jeffrey Rengifo — Mon, 23 Mar 2026 00:00:00 GMT

最近のアップデートで、ElasticsearchはHugging Face Inference Serviceでホストされているモデルに接続するためのネイティブ統合機能を導入しました。この記事では、この統合を構成し、大規模言語モデル（LLM）を使用して簡単なAPI呼び出しを通じて推論を実行する方法を探ります。リソース使用量と解答品質のバランスが取れた軽量汎用モデルであるSmolLM3-3Bを使用します。

要件

Elasticsearch 9.3またはElastic Cloud Serverless：これらの指示に従ってクラウド導入を作成することもできますし、start-localクイックスタートを使うこともできます。
Python 3.12：Pythonはこちらからダウンロードしてください。
Hugging Faceアクセストークン。

Hugging Face推論エンドポイントを使用したチャットの完了

まず、ElasticsearchをHugging Faceの推論エンドポイントに接続し、ブログ記事のコレクションからAIを活用したレコメンデーションを生成する実践的な例を作成します。アプリのナレッジベースには、会社のブログ記事のデータセットを使用します。これには価値のある情報が含まれていますが、多くの場合、見つけるのが困難です。

このエンドポイントでは、セマンティック検索が指定されたクエリに対して最も関連性の高い記事を取得し、Hugging Face LLMがそれらの結果に基づいて短いコンテキスト推奨を生成します。

これから構築する情報フローの概要を見ていきましょう。

この記事では、コンパクトなサイズと強力な多言語推論能力・ツール呼び出し能力を組み合わせたSmolLM3-3Bの性能を検証します。検索クエリに基づいて、一致するすべてのコンテンツ（英語とスペイン語）をLLMに送信し、検索クエリと結果に基づいたカスタムメイドの説明を含むおすすめ記事のリストを生成します。

AIによる推奨生成システムを備えた記事サイトのUIは次のようになります。

このアプリケーションの完全な実装は、リンク先のノートブックで確認できます。

Elasticsearch推論エンドポイントの構成

Elasticsearch Hugging Face推論エンドポイントを使用するには、2つの重要な要素（Hugging Face APIキーと実行中のHugging FaceエンドポイントURL）が必要です。下の画像のように表示されるはずです。

PUT _inference/chat_completions/hugging-face-smollm3-3b
{
    "service": "hugging_face",
    "service_settings": {
        "api_key": "hugging-face-access-token", 
        "url": "url-endpoint" 
    }
}

Hugging FaceのElasticsearchにおける推論エンドポイントは、 text_embedding, completion, chat_completion, と rerankの異なるタスクタイプをサポートしています。このブログ記事では、検索結果とシステムプロンプトに基づいて会話形式のレコメンデーションをモデルに生成させる必要があるため、chat_completion を使用します。このエンドポイントを使用すると、Elasticsearch APIを使用してElasticsearchから直接チャットの完了を簡単に実行できます。

POST _inference/chat_completion/hugging-face-smollm3-3b/_stream
{
  "messages": [
      { "role": "user", "content": "" }
  ]
}

これはアプリケーションのコアとして機能し、モデルを通過するプロンプトと検索結果を受け取ります。理論について説明したので、アプリケーションの実装を始めましょう。

Hugging Faceでの推論エンドポイントの設定

Hugging Faceモデルをデプロイするために、モデルのエンドポイントをデプロイするための簡単で高速なサービスHugging Faceワンクリック導入を使用します。これは有料サービスであり、利用には追加料金が発生する可能性があることにご注意ください。このステップでは、記事の推奨を生成するために使うモデルインスタンスが作成されます。

ワンクリックカタログからモデルを選択できます。

SmolLM3-3Bモデルを選択します。

ここから、Hugging FaceのエンドポイントURLを取得します。

Elasticsearch Hugging Faceの推論エンドポイントのドキュメントで述べられているように、テキスト生成にはOpenAI APIと互換性のあるモデルが必要です。そのため、/v1/chat/completionsのサブパスをHugging FaceのエンドポイントURLに追加する必要があります。最終的な結果は次のようになります。

https://j2g31h0futopfkli.us-east-1.aws.endpoints.huggingface.cloud/v1/chat/completions

これで準備が整いましたので、Pythonノートブックでコーディングを開始できます。

Hugging Face APIキーの生成

Hugging Faceアカウントを作成し、以下の指示に従ってAPIトークンを取得してください。トークンの種類は、fine-grained（本番環境に推奨。特定のリソースへのアクセスのみを提供）、read（読み取り専用アクセス用）、write（読み取りおよび書き込みアクセス用）の3つから選択できます。このチュートリアルでは、推論エンドポイントを呼び出すだけでよいので、readトークンで十分です。次のステップのために、このキーを保存しておいてください。

Elasticsearch推論エンドポイントの設定

まず、Elasticsearch Pythonクライアントを宣言します。

os.environ["ELASTICSEARCH_API_KEY"] = "your-elasticsearch-api-key"
os.environ["ELASTICSEARCH_URL"] = "https://xxxx.us-central1.gcp.cloud.es.io:443"

es_client = Elasticsearch(
    os.environ["ELASTICSEARCH_URL"], api_key=os.environ["ELASTICSEARCH_API_KEY"]
)

次に、Hugging Faceモデルを使用するElasticsearch推論エンドポイントを作成します。このエンドポイントを使用すると、ブログ記事とモデルに渡されたプロンプトに基づいて応答を生成できます。

INFERENCE_ENDPOINT_ID = "smollm3-3b-pnz"

os.environ["HUGGING_FACE_INFERENCE_ENDPOINT_URL"] = (
 "https://j2g31h0futopfkli.us-east-1.aws.endpoints.huggingface.cloud/v1/chat/completions"
)
os.environ["HUGGING_FACE_API_KEY"] = "hf_xxxxx"

resp = es_client.inference.put(
        task_type="chat_completion",
        inference_id=INFERENCE_ENDPOINT_ID,
        body={
            "service": "hugging_face",
            "service_settings": {
                "api_key": os.environ["HUGGING_FACE_API_KEY"],
                "url": os.environ["HUGGING_FACE_INFERENCE_ENDPOINT_URL"],
            },
        },
    )

データセット

このデータセットには、クエリの対象となるブログ記事が含まれており、ワークフロー全体で使用される多言語コンテンツセットを表しています。

// Articles dataset document example: 
{
    "id": "6",
    "title": "Complete guide to the new API: Endpoints and examples",
    "author": "Tomas Hernandez",
    "date": "2025-11-06",
    "category": "tutorial",
    "content": "This guide describes in detail all endpoints of the new API v2. It includes code examples in Python, JavaScript, and cURL for each endpoint. We cover authentication, resource creation, queries, updates, and deletion. We also explain error handling, rate limiting, and best practices. Complete documentation is available on our developer portal."
  }

Elasticsearch マッピング

データセットが定義されたので、ブログ記事の構造に適切にフィットするデータスキーマを作成する必要があります。Elasticsearchにデータを格納するために以下のインデックスマッピングが使用されます。

INDEX_NAME = "blog-posts"

mapping = {
    "mappings": {
        "properties": {
            "id": {"type": "keyword"},
            "title": {
                "type": "object",
                "properties": {
                    "original": {
                        "type": "text",
                        "copy_to": "semantic_field",
                        "fields": {"keyword": {"type": "keyword"}},
                    },
                    "translated_title": {
                        "type": "text",
                        "fields": {"keyword": {"type": "keyword"}},
                    },
                },
            },
            "author": {"type": "keyword", "copy_to": "semantic_field"},
            "category": {"type": "keyword", "copy_to": "semantic_field"},
            "content": {"type": "text", "copy_to": "semantic_field"},
            "date": {"type": "date"},
            "semantic_field": {"type": "semantic_text"},
        }
    }
}


es_client.indices.create(index=INDEX_NAME, body=mapping)

ここで、データがどのように構造化されているかをより明確に見ることができます。セマンティック検索を使用して自然言語に基づいて結果を取得し、copy_toプロパティを使用してフィールドの内容をsemantic_textフィールドにコピーします。さらに、titleフィールドには2つのサブフィールドが含まれています。originalサブフィールドは、記事の元の言語に応じて英語またはスペイン語でタイトルを格納し、translated_titleサブフィールドはスペイン語の記事にのみ存在し、元のタイトルの英語訳が含まれています。

データの取り込み

以下のコードスニペットはbulk APIを使用してブログ投稿データセットをElasticsearchに取り込みます。

def build_data(json_file, index_name):
    with open(json_file, "r") as f:
        data = json.load(f)

    for doc in data:
        action = {"_index": index_name, "_source": doc}
        yield action


try:
    success, failed = helpers.bulk(
        es_client,
        build_data("dataset.json", INDEX_NAME),
    )
    print(f"{success} documents indexed successfully")

    if failed:
        print(f"Errors: {failed}")
except Exception as e:
    print(f"Error: {str(e)}")

Elasticsearchに記事を取り込んだので、次にsemantic_textフィールドに対して検索できる関数を作成する必要があります:

def perform_semantic_search(query_text, index_name=INDEX_NAME, size=5):
    try:
        query = {
            "query": {
                "match": {
                    "semantic_field": {
                        "query": query_text,
                    }
                }
            },
            "size": size,
        }

        response = es_client.search(index=index_name, body=query)
        hits = response["hits"]["hits"]

        return hits
    except Exception as e:
        print(f"Semantic search error: {str(e)}")
        return []

推論エンドポイントを呼び出す関数も必要です。この場合、chat_completion タスクタイプを使用してエンドポイントを呼び出し、ストリーミング応答を取得します。

def stream_chat_completion(messages: list, inference_id: str = INFERENCE_ENDPOINT_ID):
    url = f"{ELASTICSEARCH_URL}/_inference/chat_completion/{inference_id}/_stream"
    payload = {"messages": messages}
    headers = {
        "Authorization": f"ApiKey {ELASTICSEARCH_API_KEY}",
        "Content-Type": "application/json",
    }

    try:
        response = requests.post(url, json=payload, headers=headers, stream=True)
        response.raise_for_status()

        for line in response.iter_lines(decode_unicode=True):
            if line:
                line = line.strip()

                if line.startswith("event:"):
                    continue

                if line.startswith("data: "):
                    data_content = line[6:]

                    if not data_content.strip() or data_content.strip() == "[DONE]":
                        continue

                    try:
                        chunk_data = json.loads(data_content)

                        if "choices" in chunk_data and len(chunk_data["choices"]) > 0:
                            choice = chunk_data["choices"][0]
                            if "delta" in choice and "content" in choice["delta"]:
                                content = choice["delta"]["content"]
                                if content:
                                    yield content

                    except json.JSONDecodeError as json_err:
                        print(f"\nJSON decode error: {json_err}")
                        print(f"Problematic data: {data_content}")
                        continue

    except requests.exceptions.RequestException as e:
        yield f"Error: {str(e)}"

ここで、 chat_completions 推論エンドポイントと推薦エンドポイントを合わせてセマンティック検索関数を呼び出し、カードに割り当てられるデータを生成する関数を書くことができます。

def recommend_articles(search_query, index_name=INDEX_NAME, max_articles=5):
    print(f"\n{'='*80}")
    print(f"🔍 Search Query: {search_query}")
    print(f"{'='*80}\n")

    articles = perform_semantic_search(search_query, index_name, size=max_articles)

    if not articles:
        print("❌ No relevant articles found.")
        return None, None

    print(f"✅ Found {len(articles)} relevant articles\n")

    # Build context with found articles
    context = "Available blog articles:\n\n"
    for i, article in enumerate(articles, 1):
        source = article.get("_source", article)
        context += f"Article {i}:\n"
        context += f"- Title: {source.get('title', 'N/A')}\n"
        context += f"- Author: {source.get('author', 'N/A')}\n"
        context += f"- Category: {source.get('category', 'N/A')}\n"
        context += f"- Date: {source.get('date', 'N/A')}\n"
        context += f"- Content: {source.get('content', 'N/A')}\n\n"

    system_prompt = """You are an expert content curator that recommends blog articles.

    Write recommendations in a conversational style starting with phrases like:
    - "If you're interested in [topic], this article..."
    - "This post complements your search with..."
    - "For those looking into [topic], this article provides..."


    FORMAT REQUIREMENTS:
    - Return ONLY a JSON array
    - Each element must have EXACTLY these three fields: "article_number", "title", "recommendation"
    - If the original title is in spanish, use the "translated_title" subfield in the "title" field

    Keep each recommendation concise (2-3 sentences max) and focused on VALUE to the reader.

    EXAMPLE OF CORRECT FORMAT:
    [
        {"article_number": 1, "title": "Article title in english", "recommendation": "If you are interested in [topic], this article provides..."},
        {"article_number": 2, "title": "Article title in english", "recommendation": " for those looking into [topic], this article provides..."}
    ]

    Return ONLY the JSON array following this exact structure."""

    user_prompt = f"""Search query: "{search_query}"

    Generate recommendations for the following articles: {context}
    """

    messages = [
        {"role": "system", "content": "/no_think"},
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt},
    ]

    # LLM generation
    print(f"{'='*80}")
    print("🤖 Generating personalized recommendations...\n")

    full_response = ""

    for chunk in stream_chat_completion(messages):
        print(chunk, end="", flush=True)
        full_response += chunk

    return context, articles, full_response

最後に、情報を抽出して出力できるようにフォーマットする必要があります。

def display_recommendation_cards(articles, recommendations_text):
    print("\n" + "=" * 100)
    print("📇 RECOMMENDED ARTICLES".center(100))
    print("=" * 100 + "\n")

    # Parse JSON recommendations - clean tags and extract JSON
    recommendations_list = []
    try:

        # Clean up  tags
        cleaned_text = re.sub(
            r".*?", "", recommendations_text, flags=re.DOTALL
        )
        # Remove markdown code blocks ( ... ``` or ``` ... ```)
        cleaned_text = re.sub(r"```(?:json)?", "", cleaned_text)
        cleaned_text = cleaned_text.strip()

        parsed = json.loads(cleaned_text)

        # Extract recommendations from list format
        for item in parsed:
            article_number = item.get("article_number")
            title = item.get("title", "")
            rec_text = item.get("recommendation", "")

            if article_number and rec_text:
                recommendations_list.append(
                    {
                        "article_number": article_number,
                        "title": title,
                        "recommendation": rec_text,
                    }
                )
    except json.JSONDecodeError as e:
        print(f"⚠️  Could not parse recommendations as JSON: {e}")
        return

    for i, article in enumerate(articles, 1):
        source = article.get("_source", article)

        # Card border
        print("┌" + "─" * 98 + "┐")

        # Find recommendation and title for this article number
        recommendation = None
        title = None
        for rec in recommendations_list:
            if rec.get("article_number") == i:
                recommendation = rec.get("recommendation")
                title = rec.get("title")
                break

        # Print title
        title_lines = textwrap.wrap(f"📌 {title}", width=94)
        for line in title_lines:
            print(f"│  {line}".ljust(99) + "│")

        # Card border
        print("├" + "─" * 98 + "┤")

        # Print recommendation
        if recommendation:
            recommendation_lines = textwrap.wrap(recommendation, width=94)
            for line in recommendation_lines:
                print(f"│  {line}".ljust(99) + "│")

        # Card bottom
        print("└" + "─" * 98 + "┘")

セキュリティブログの投稿について質問して、これをテストしてみましょう。

search_query = "Security and vulnerabilities"

context, articles, recommendations = recommend_articles(search_query)

print("\nElasticsearch context:\n", context)

# Display visual cards
display_recommendation_cards(articles, recommendations)

ここでは、ワークフローによって生成されたコンソール内のカードを確認できます。

すべてのヒットとLLMの対応を含む完全な結果をこのファイルでご覧いただけます。

「Security and vulnerabilities」に関連する記事をクエリしています。この質問は、Elasticsearchに保存されているドキュメントに対する検索クエリとして使用されます。取得された結果はモデルに渡され、モデルはその内容に基づいてレコメンデーションを生成します。ご覧の通り、このモデルは読者がクリックする動機付けとなる魅力的な短いテキストを非常にうまく生成しています。

まとめ

この例では、ElasticsearchとHugging Faceを組み合わせて、AIアプリケーション向けの高速で効率的な集中型システムを構築する方法を示します。Hugging Faceの豊富なモデルカタログにより、このアプローチでは手作業を削減し、柔軟性を確保できます。特にSmolLM3-3Bを使用すると、コンパクトな多言語モデルでも、セマンティック検索と組み合わせることで有意義な推論とコンテンツ生成を実現できることがわかります。これらのツールを組み合わせることで、インテリジェントなコンテンツ分析と多言語アプリケーションを構築するための、拡張性が高く効果的な基盤を提供できます。

高速性と精度の対比：量子化ベクトル探索の再現率の測定

Jeff Vestal — Fri, 20 Mar 2026 00:00:00 GMT

誰もがベクトル検索が瞬時に行われることを望んでいますが、高次元ベクトルではデータ量が膨大になります。1,024次元のfloat-32ベクトルは1つのメモリを大量に消費し、他の何百万ものベクトルと比較すると計算量が多くなります。

これを解決するために、Elasticsearchのような検索エンジンは主に2つの最適化戦略を使用します。

近似検索（Hierarchical Navigable Small World [HNSW]）：すべての文書をスキャンする代わりに、ナビゲーショングラフを構築して、回答の可能性が高い近傍に素早くジャンプします。
量子化：メモリ使用量を削減し、計算速度を向上させるために、ベクトルを圧縮します（例えば、32ビット浮動小数点数から8ビット整数、あるいは1ビットのバイナリ値へ）。

しかし、最適化にはしばしば精度という代償が伴います。

「データを圧縮し、検索中にショートカットを取ると、最高の結果を見逃すのではないか？」「この最適化は検索エンジンの関連性を低下させるのではないか？」といった恐れは正当です。

Elasticの量子化が結果を低下させないことを証明するために、DBpedia-14 データセットを使用して再現可能なテストハーネスを構築し、Elasticsearchのデフォルトの最適化を使用する際に、速度と引き換えにどれだけの精度（具体的には再現率）を犠牲にしているかを正確に計算しました。

要約すると、それはおそらく想定よりもずっと少ないでしょう。こちらのノートブックをチェックして、ぜひご自身でお試しください。

定義（非専門家向け）

コードを見る前に、いくつかの用語について確認しておきましょう。

関連性対再現率：関連性 は主観的で（良いものが見つかったか？）、再現率は数学的なものです。データベース内にクエリと完全に一致する文書が10件あり、検索エンジンがそのうち9件を見つけた場合、再現率は90%（または0.9）です。
完全一致検索（フラット）：総当たり法とも呼ばれ、検索エンジンはインデックス内のすべての文書をスキャンし、距離を計算します。
- 長所：100%完璧な再現率。
- 短所：計算コストが高く、スケール時の処理速度が遅くなる。
近似探索（HNSW）：いわゆる「ショートカット」の方法。検索エンジンは HNSW グラフを作成し、グラフを巡回して最も近い隣接点を探します。
- 長所：非常に高速で拡張性が高い。
- 短所：グラフの探索が早すぎて停止すると、近傍を見逃す可能性がある。

実験：完全一致と近似探索の比較

再現率をテストするために、テキスト分類モデルのトレーニングと評価によく使用される、14のオントロジークラスにわたるタイトルと要約の大規模なデータセットDBPedia-14データセットを使用しました。具体的には、「Film」カテゴリに焦点を当てます。最適化された生産設定を、数学的に完璧な真値と比較したいと考えました。

この実験では、テキスト表現の業界ベンチマークをリードする最先端の多言語モデルjina-embeddings-v5-text-smallモデルを使用しています。このモデルを選んだ理由は、高性能埋め込みの現在の標準となっているためです。Jina v5の優れた精度とElasticsearchのネイティブ量子化を組み合わせることで、計算効率が高く、検索品質にも妥協のない検索アーキテクチャを実証できます。

二重マッピングを使用したインデックスを設定し、同じテキストを同時に2つの異なるフィールドに取り込みました。

content.raw （タイプ: flat）。これにより、ElasticsearchはFloat32ベクトル全体の総当たりスキャンを実行することになります。これにより完全一致の結果が返され、ベースラインとして使用されます。
content （タイプ： semantic_text）。デフォルトではHNSW + Better Binary Quantization（BBQ）を使用しています。これは、近似一致のための標準的かつ最適化された生産設定です。

Recall@10 テスト

指標としては、Recall@10を使用しました。

50本のランダムな映画を選び、両方のフィールドに同じクエリを実行しました。

完全一致（フラット）検索で上位10個の近傍が ID [1, 2, 3... 10] であると示されている場合。
また、近似（HNSW）検索では、ID [1, 2, 3... 9, 99] が返されます。
上位10位のうち、9位を正しく特定できました。スコアは0.9です。

こちらが使用したマッピングです。

# The "Control Group": Forces exact brute-force scan
"raw": {
    "type": "semantic_text",
    "inference_id": ".jina-embeddings-v5-text-small",
    "index_options": {
        "dense_vector": {
            "type": "flat"
        }
    }
}

結果：成功の「横ばい線」

スケールテストを実行し、完全なデータセットを再読み込みし、1,000～40,000件の文書のインデックスサイズに対してテストしました。

再現率スコアに何が起こったかは以下のとおりです。

ドキュメント	Recall@10スコア
1,000	1.000 (100%)
5,000	0.998 (100%)
10,000	0.992 (99.4%)
20,000	0.999 (99.0％)
40,000	0.992 (98.8%)

結果は驚くほど安定していました。スケールアップしても、近似検索は総当たりの完全一致検索と99％超の確率で一致しました。

なぜこれほど上手くいったでしょう？

ベクトルをバイナリ値に圧縮すると、これよりも精度が低下すると考えられるかもしれません。その理由は、Elasticsearchが検索を処理する方法にあります。

今日のほとんどの埋め込みモデルは、大きなFloat32ベクトルを出力します。探索を効率的にするために、Elasticsearchは高次元ベクトルに対して量子化を使用します。具体的には、バージョン9.2以降、デフォルトでBBQを使用するようになりました。

BBQは再スコアリングメカニズムを採用しています。

トラバーサル：検索エンジンは圧縮された（量子化された）ベクトルを使ってHNSWグラフを高速に走査します。ベクトルが小さいため、効率的にオーバーサンプリングを行い、パフォーマンスを損なうことなく、より多くの候補リスト（例えば、類似性の高い上位100件の文書）を収集できます。
再スコアリング：候補が見つかったら、その数件の文書について完全精度の値を取得して、最終的な正確なランキングを計算します。

これにより、量子化による高速な処理と、最終的なソートにおける浮動小数点数の精度という、両方の利点を享受できます。

もっと良くできるでしょうか？

注目すべき点は、ここで確認している結果がデフォルト設定とデータのランダムサンプリングを使用していることです。これは高性能の出発点とお考えください。Jina v5は非常に優れていますが、これらの再現率スコアはすべてのデータセットに対して「万能な」保証ではありません。すべてのデータ収集には独自の特性があり、さらにパフォーマンスを向上させるために調整することは可能ですが、常に自分の特定のデータに対してベンチマーク設定を行い、どこまで性能を引き出せるかを確認する必要があります。

まとめ

これは非常に小規模なテストです。ただし、この演習の目的は埋め込みモデルやBBQを個別に測定することではありません。最小限のセットアップで、データセットの再現率を簡単に測定する方法を示すことです。

このテストを独自のデータで実行したい場合は、こちらのノートブックをチェックして試してみてください。

ElasticsearchのGemini CLI拡張機能（ツールとスキル付き）

Walter Rafelsberger, Enrico Zimuel — Tue, 17 Mar 2026 00:00:00 GMT

GoogleのGemini CLI用のElastic拡張機能のリリースを発表できることを嬉しく思います。これにより、ElasticsearchとElastic Agent Builderのパワーを、AI開発ワークフローに直接組み込むことができます。この拡張機能には、Elasticsearchを操作するための最近開発されたエージェントスキルもいくつか用意されています。

この拡張機能はオープンソースプロジェクトとしてこちらから利用できます。

Gemini CLIの概要とインストール方法

Gemini CLI は、GoogleのGeminiモデルを直接コマンドラインに取り込むオープンソースのAIエージェントです。ターミナルからAIと対話することで、コードの生成、ファイルの編集、シェルコマンドの実行、ウェブからの情報の取得などのタスクを実行できます。

一般的なチャットインターフェースとは異なり、Gemini CLIはローカル開発環境と統合されます。つまり、プロジェクトのコンテキストを理解し、ファイルを変更し、ビルドやテストを実行し、ワークフローをターミナル内で直接自動化することができます。開発者、サイト信頼性エンジニア（SRE）、コマンドラインのワークフローを離れることなくAI支援のコーディングと自動化を求めるエンジニアにとって役立ちます。

Gemini CLIは複数のパッケージマネージャーを使ってインストール可能です。最も一般的な方法はnpm経由です。

npm install -g @google/gemini-cli

その他のインストール方法については、公式のインストールページを参照してください。

インストール後、以下のコマンドを実行してCLIを起動します。

gemini

図1に示すような画面が表示されます。

Elasticsearchを構成

Elasticsearchインスタンスを実行する必要があります。モデルコンテキストプロトコル（MCP）サーバーを使用するには、Kibana 9.3以降もインストールする必要があります。Elasticsearchクエリ言語 (ES|QL) スキル (esql) を使用するためにKibanaは必要ありません。

Elastic Cloudで無料トライアルを有効化するか、start-localスクリプトを使ってローカルにインストールできます。

curl -fsSL https://elastic.co/start-local | sh

これにより、ElasticsearchとKibanaがコンピュータにインストールされ、Gemini CLIの設定に使用するAPIキーが生成されます。

APIキーは前のコマンドの出力として表示され、 elastic-start-localフォルダ内の.envファイルに保存されます。

オンプレミスのElasticsearchを使用している場合（例えば、start-local）、MCPでElastic Agent Builderを使用するには、大規模言語モデル（LLM）を接続する必要があります。さまざまなオプションを理解するには、このドキュメントページをご覧ください。

Elastic Cloud（またはサーバーレス）を使用している場合は、LLM接続が事前構築されています。

Elasticsearch拡張機能をインストールしてください

次のコマンドを使用して、Gemini CLI用のElasticsearch拡張機能をインストールできます。

gemini extensions install https://github.com/elastic/gemini-cli-elasticsearch

Geminiを開き、以下のコマンドを実行することで、拡張機能が正常にインストールされたことを確認できます。

/extensions list

Elasticsearch拡張機能が利用可能になっているはずです。

MCP統合を使用するには、Elasticsearch 9.3以降のバージョンがインストールされている必要があります。KibanaからMCPサーバーのURLを取得する必要があります。

MCPサーバーのURLは、[エージェント] > [すべてのツールを表示] > [MCPの管理] > [MCPサーバーのURLをコピー] から取得できます。
URLは次のようになります：https://your-kibana-instance/api/agent_builder/mcp

ElasticsearchエンドポイントのURLが必要です。これは通常、Kibana Elasticsearchページの最上部に表示されます。Elasticsearchをstart-localで実行している場合、 start-local .envファイルのES_LOCAL_URLキーにエンドポイントが既に存在します。

APIキーも必要です。Elasticsearchをstart-localで実行している場合、 start-local .envファイルには既にES_LOCAL_API_KEYが含まれています。それ以外の場合は、こちらに記載されているように、Kibanaインターフェースを使用してAPIキーを作成できます。

Kibanaでは、[スタック管理] > [セキュリティ] > [APIキー] > [APIキーの作成] の順に操作します。
API キーには読み取り権限のみを設定し、ここに記載されているようにfeature_agentBuilder.read権限を有効にすることをお勧めします。
エンコードされたAPIキーの値をコピーしてください。

シェルで必要な環境変数を設定してください。

export ELASTIC_URL="your-elasticsearch-url"
export ELASTIC_MCP_URL="your-elasticsearch-mcp-url"
export ELASTIC_API_KEY="your-encoded-api-key"

サンプルデータセットをインストールする

Kibanaから入手可能なeCommerce ordersデータをインストールできます。このデータベースには、eコマースWebサイトからの4,675件の注文に関する情報を含むkibana_sample_data_ecommerceという単一のインデックスが含まれています。各注文について、次の情報があります。

顧客情報（名前、ID、生年月日、メールなど）。
注文日。
注文ID。
商品（価格、数量、ID、カテゴリー、割引、その他の詳細を含む全商品のリスト）
SKU。
合計金額（税抜、税込）。
合計数量。
地理情報（都市、国、大陸、場所、地域）。

サンプルデータをインストールするには、Kibanaの統合ページを開き（検索トップバーで「Integration」を検索）、Sample Dataをインストールしてください。詳細については、こちらのドキュメントを参照してください。

この記事の目的は、Gemini CLIをElasticsearchに接続し、kibana_sample_data_ecommerceインデックスとやり取りするのがいかに簡単かを示すことです。

Elasticsearch MCPの使用方法

Geminiで以下のコマンドを使用して接続状況を確認できます。

/mcp list

図2に示すように、 elastic-agent-builderが有効になっているはずです。

Elasticsearchはデフォルトのツールセットを提供しています。詳細はこちらをご覧ください。

これらのツールを使用して、Elasticsearchと対話し、次のような質問をすることができます。

Give me the list of all the indexes available in Elasticsearch.
How many customers are based in the USA in the kibana_sample_data_ecommerce index of Elasticsearch?

質問に応じて、Geminiは利用可能なツールの一つ以上を使って回答を試みます。

/elasticコマンド

Gemini CLIのElasticsearch拡張機能では、さらに /elasticコマンドを追加しました。

/helpコマンドを実行すると、利用可能なすべての/elasticオプション（図3）が表示されます。

これらのコマンドは、elastic-agent-builder MCPサーバーの特定のツールを直接実行したい場合に便利です。例えば、以下のコマンドを使用すると、 kibana_sample_data_ecommerceのマッピングを取得できます。

/elastic:get-mapping kibana_sample_data_ecommerce

これらのコマンドは、どのツールを呼び出すかをGeminiモデルに頼るのではなく、基本的に特定のツールを実行するためのショートカットです。

Elasticsearchスキルの使用方法

この拡張機能には、Elasticsearchで利用可能なElasticsearchクエリ言語であるES|QL用のエージェントスキルも付属しています。エージェントスキルは、Gemini CLIのようなAIコーディングエージェントに特定のタスクに合わせたカスタム指示を提供するオープンフォーマットです。段階的開示と呼ばれる概念を採用しており、最初のシステムプロンプトにスキルの簡単な説明のみを追加します。エージェントにElasticsearchへのクエリなどのタスクを実行するように依頼すると、リクエストが関連するスキルと照合され、詳細な指示が動的に読み込まれます。これは、トークン予算を効率的に管理すると同時に、AIが必要とする正確なコンテキストを提供する方法です。

esqlスキルは、Gemini CLIがES|QLクエリを直接クラスターに対して書き込み、実行するように設計されています。ES|QLは強力なパイプクエリ言語で、データ調査、ログ分析、アグリゲーションを非常に直感的に行うことができます。このスキルを有効にすると、ES|QLの構文を調べる必要はなくなり、Gemini CLIにデータについて自然言語で質問するだけであとはエージェントが処理します。

実行は、ターミナルで実行されるシンプルなcurlコマンドを使用して行われます。これは、Elasticsearchが豊富なREST APIを提供し、システムをあらゆるアーキテクチャに容易に統合できるためです。

esqlスキルが提供するもの：

インデックスとスキーマの検出：エージェントは、スキルに搭載されたツールを使用して、利用可能なインデックスを一覧表示し、フィールドマッピングを取得できます。例えば、eCommerce データセットのクエリを書く前に、エージェントは kibana_sample_data_ecommerce でスキーマチェックを実行して、taxful_total_price や category のような利用可能なフィールドを理解することができます。
シームレスな自然言語翻訳：スキルはエージェントに単なるリファレンスマニュアルにとどまらず、ユーザーの意図を解釈するための具体的なガイドを提供します。「サービス別にグループ化された平均応答時間を表示して」といった自然言語によるリクエストを入力すると、エージェントはスキルのバンドルされたパターンマッチングを使用して、入力された言葉を即座に正しいES|QLアグリゲーション、フィルタ、コマンドに変換します。
自動修正： クエリが失敗した場合（例：タイプミスマッチや構文エラーなど）、スキルは生成されたクエリとElasticsearchのエラーを正確に返します。これにより、エージェントは即座にクエリを修正して再試行でき、介入する必要がありません。

esqlスキルはelastic-agent-builder MCPサーバーのツールとしても利用できるため、このサーバーを一時的に無効にする必要があります。以下のコマンドを使用して無効にすることができます。

/mcp disable elastic-agent-builder

そうすれば、Gemini CLIに次のようなプロンプトを入力するだけで済みます。

Find the top 5 product categories by total sales revenue in the kibana_sample_data_ecommerce index

エージェントは以下を実行します：

esql スキルの必要性を認識します。
kibana_sample_data_ecommerceのスキーマを確認してください。
FROM kibana_sample_data_ecommerce | STATS total_revenue = SUM(taxful_total_price) BY category.keyword | SORT total_revenue DESC | LIMIT 5 のようなES|QLクエリを構築します。
Elasticsearch APIに対してクエリを実行します。
最終的な答えを端末に直接表示します。

ここでは、前回の質問に対するGeminiからの回答例を報告します。

───────────────────────────────────────────────────────────
> Find the top 5 product categories by total sales revenue in the kibana_sample_data_ecommerce index   ───────────────────────────────────────────────────────────
✓  Activate Skill "esql": Interact with Elasticsearch using ES|QL and curl. Use when querying, managing indices,  …
Skill esql activated. Resources loaded from /home/user/.gemini/extensions/elasticsearch/skills/esql: 
Showing up to 200 items (files + folders).                                                                     /home/user/.gemini/extensions/elasticsearch/skills/esql/                                                            ├───SKILL.md 
└───references/
├───esql-reference.md 
├───generation-tips.md 
└───query-patterns.md

✦ I will start by exploring the mapping of the kibana_sample_data_ecommerce index to identify the fields for product category and sales revenue. Then, I will construct and execute an ES|QL query to determine the top 5 product categories by total sales revenue.

✓  Shell curl -s "${ELASTIC_URL%/}/kibana_sample_data_ecommerce/_mapping" -H "Authorization: ApiKey $(printenv ELAS…                                                                                                                       {  
   "kibana_sample_data_ecommerce": { 
     "mappings": { 
       "properties": {
         "category": { 
           "type": "text", 
           "fields": {
             "keyword": {
               "type": "keyword"
             }
           }
         }, 
         "currency": {
           "type": "keyword"
         }, 

✦ Okay, I have the mapping. The category is products.category.keyword and sales revenue is taxful_total_price. I'll now execute the ES|QL query to get the top 5 categories by revenue.

✓  Shell curl -s -X POST "${ELASTIC_URL%/}/_query" \  -H "Authorization: ApiKey $(printenv ELASTIC_API_KEY)" \  -H …
{ 
   "took": 62,
   "is_partial": false, 
   "completion_time_in_millis": 1772805644164,
   "documents_found": 4675,
   "values_loaded": 12084, 
   "start_time_in_millis": 1772805644102, 
   "expiration_time_in_millis": 1773237644087,  
   "columns": [ 
     { 
       "name": "total_revenue",    
       "type": "double"  
     }, 
     {   
       "name": "products.category.keyword",

✦ The query for top 5 product categories by revenue was successful. I'll format the returned JSON values into a   user-friendly list.

 ✓  Shell 
                             
 Top 5 product categories by total sales revenue: 
 1. Men's Clothing: 149393.91
 2. Women's Clothing: 135099.91
 3. Women's Shoes: 105479.17
 4. Men's Shoes: 91797.92
 5. Women's Accessories: 60830.31 

✦ I've found the answer; now I'll format it for clarity.

 ✓  Shell 

 Here are the top 5 product categories by total sales revenue:                                                        
                                                                      
 | Rank | Category              | Total Revenue | 
 |------|-----------------------|---------------| 
 | 1    | Men's Clothing        | 149,393.91    |
 | 2    | Women's Clothing      | 135,099.91    |
 | 3    | Women's Shoes         | 105,479.17    |
 | 4    | Men's Shoes           | 91,797.92     | 
 | 5    | Women's Accessories   | 60,830.31     | 

✦ I've formatted and presented the answer. I'm finished.
 ───────────────────────────────────────────────────────────

Geminiモデルが最終的な応答を生成する際にどのような手順を踏むかは非常に興味深い点です。ここでは、モデルの推論プロセスにおけるスキルの影響が明確に見て取れます。モデルがスキルを使用する必要がある、またはシェルコマンドを実行する必要があると初めて認識したとき、ヒューマン・イン・ザ・ループ方式を使用して許可を要求します。

スキーマの発見、クエリの生成、実行といった面倒な作業をesqlスキルが処理することで、回答を得るための仕組みではなく、回答そのものに集中できるようになります。必要なデータが、適切な形式でターミナルに直接表示されます。構文を記述したり、別のアプリケーションに切り替えたりする必要は一切ありません。

まとめ

この記事では、最近リリースしたGemini CLI用のElasticsearch拡張機能を紹介しました。この拡張機能を使用すると、GeminiおよびElastic Agent Builderが提供するElasticsearch MCPサーバー（バージョン 9.3.0 以降で利用可能）と/elasticコマンドを使用してElasticsearchインスタンスとやり取りできます。

さらに、この拡張機能には、ユーザーの自然言語からのリクエストをES|QLに変換する esqlスキルも含まれています。このスキルは、MCPサーバーが使用できない場合に特に役立ちます。なぜなら、基本的な通信はターミナルで実行されるシンプルなcurlコマンドによって行われるためです。Elasticsearchは、あらゆるプロジェクトに簡単に統合できる豊富なREST APIセットを提供します。これは特にエージェント型AIアプリケーションの開発時に有用です。

Gemini CLI拡張機能の詳細についてはこちらのプロジェクトリポジトリをご覧ください。

ElasticのAgent Skills：AIエージェントをElasticのエキスパートに変換

Graham Hudgins, Matt Ryan — Mon, 16 Mar 2026 00:00:00 GMT

専用プラットフォームでAIコーディングエージェントを使用しようとした開発者、サイト信頼性エンジニア（SRE）、アナリストは皆、同じ壁にぶつかっています。エージェントにクエリの作成、アラートの設定、または調査を依頼すると、惜しいところまではいくものの、正しくない結果になるのです。Elasticにはこの点で優位性があります。10年以上にわたるドキュメント、ブログ記事、コミュニティからの回答によって、AIエージェントは既にほとんどのデータプラットフォームよりもElasticをよく理解しているのです。しかし、その深みにはノイズが伴います。非推奨のAPIが現行のAPIと並んで表示され、古いパターンがベストプラクティスと同じくらい高い評価を受けます。エージェントは、3バージョン前にうまくいったアプローチを自信を持って再現します。なぜなら、そのトレーニングデータでは成功したからです。その結果、修正のコストが発生します。ユーザーは手動でドキュメントをコンテキストにフィードし、ハルシネーションによる構文を修正し、エージェントと一緒に作業するのではなく、エージェントを回避して作業するようになるのです。さらに悪いことに、高度な機能が全く使用されていません。これは、ユーザーがこうした機能を必要としていないからではなく、エージェントがその存在を認識していないためです。

だからこそ、当社は、Elasticsearch、Kibana、Elastic Observability、Elastic Securityといったプラットフォームに関するネイティブな専門知識であるElastic Agent Skillsをオープンソースとして提供しています。これらのスキルをすでに使用しているエージェントランタイムにドロップすることで、エージェントを多くの構文を推測する「ジェネラリスト」から、Elasticのエンジニアリングチームが使用する多くのアーキテクチャ標準を活用できる「スペシャリスト」へと改善します。この最初のテクニカルプレビューリリースではElastic Cloud Serverlessとの最大限の互換性を備えたスキルに焦点を当てていますが、古いスタックリリースのサポートを強化するなど、急速に進化させる予定です。

さらに、Elasticはこの問題を両面から解決しようとしています。Elastic Platform上のエージェント向けにElastic Agent Builder（現在一般公開中）を利用して、データのアクセス制御を継承し、搭載の検索・分析ツールを使用し、ダッシュボード、アラート、調査と共にコンテキストで作業するAIエージェントを作成し、チャットすることができます。Elastic Platformで素晴らしいエージェント体験を実現するために懸命に取り組んでいますが、すべてのエージェントがElasticの中に存在するわけではありません。すでにCursor、Claude Codeなどのランタイムを使用されていると思いますが、それらのエージェントでもElasticが正しく動作する必要があります。そこで役立つのがAgent Skillsです。

エージェントが専門プラットフォームで苦労する理由

大規模言語モデル（LLM）は、非常に有能なジェネラリストです。豊富な事例を含むトレーニングデータを持つため、Pythonを記述したり、Kubernetesのマニフェストを説明したり、Reactコンポーネントをリファクタリングしたりすることができます。しかし、独自のクエリ言語、高度なAPIサーフェス、ドメイン固有のベストプラクティスなどを伴うプラットフォーム固有の作業となると、予測可能な形で不十分さを示します。

Elasticsearchの場合、そのギャップは具体的に現れます。

Elasticsearchクエリ言語（ES|QL）は新しい領域です。LLMはSQLに関するトレーニングを重点的に受けていますが、ES|QLは構文、機能、セマンティクスが異なるパイプ型クエリ言語です。エージェントは、一見もっともらしく見えるものの、解析できないクエリを頻繁に作成します。彼WHERE を | WHEREと混同し、存在しない関数を発明し、パイプベースの合成モデルを完全に見落としています。
APIサーフェスは広く深いものです。Elasticsearch、Kibana、Elastic Securityは、検索、インジェスト、アラート、検出ルール、ケース管理、ダッシュボードなど、何百ものAPIを公開しています。エージェントは、一般的なトレーニングデータのみを武器に、どのエンドポイントを呼び出すか、リクエスト本文がどのようなものか、そして応答をどのように処理するかを推測しなければなりません。予測ミスが頻繁に起こるため、信頼が損われることになります。
ベストプラクティスはトレーニングデータには含まれません。semantic_textとカスタム埋め込みパイプラインは、それぞれどのような場合に使い分けるべきでしょうか？10GBのCSVの取り込みパイプラインはどのように構築すべきでしょうか？MITRE ATT&CK技術の適切な検出ルール構文はどれですか？汎用エージェントには、デフォルトで厳選され、信頼性の高い構造化されたElastic固有の知識がロードされていません。エージェントはそうした知識を探し出さなければならず、たとえ見つけたとしても、生の文書には熟練した専門家が持つ判断やベストプラクティスが必ずしも反映されているとは限りません。

その結果、開発者は自分でコードを書くよりも、エージェントの出力を修正することに多くの時間を費やすことになります。予測していた結果とは言えません。

Agent Skills：Platformの知識をエージェント向けにパッケージ化

Agent Skillsとは、エージェントランタイムが動的に読み込むことができる、指示、スクリプト、およ参照資料を含む自己完結型のディレクトリです。スキルがアクティブな時、エージェントは適切なタイミングで適切なコンテキストにアクセスできます。クエリ構文、APIパターン、検証ロジック、実践例などを活用し、一回の試行でタスクを正しく完了できます。

各スキルは、オープンなagentskills.io仕様に準拠しています。メタデータと構造化された手順を含むSKILL.mdファイルを含むフォルダです。独自のフォーマットもロックインもありません。スキルは、Cursor、Claude Code、GitHub Copilot、Windsurf、Gemini CLI、Cline、Codexなど、さまざまなエージェントランタイムで動作します。

初期バージョンv0.1.0に含まれる内容

最初のスキルセットは、Elastic Stackの5つの分野にまたがっています。

Elasticsearch APIとのやり取り（検索、インデキシング、クラスター管理）
ダッシュボード、アラート、コネクターなどのKibanaコンテンツの構築と管理
Elastic Observabilityの専門知識
Elastic Securityの専門知識
Agent Builderで効果的なエージェントを作成

スキルは組み合わせ可能です

スキルはモノリシックではなく、モジュール式の設計になっています。エージェントは、目の前のタスクに関連するスキルのみを読み込みます。ES|QLクエリを作成中なら、ES|QLスキルが発動します。その結果からダッシュボードを作る必要があるなら、ダッシュボードのスキルを習得します。アプリケーションの健全性を評価したいなら、サービス健全性スキルが対応します。セキュリティアラートの調査の場合は、トリアージスキルが調査が進むにつれてケース管理と対応スキルに連鎖します。

こうしたこの構成可能性のおかげで、すべてを網羅しようとする単一の巨大なプロンプトは必要なくなります。それぞれのスキルは、その分野に必要な文脈を正確に保持しており、それ以上でもそれ以下でもありません。

検索やAIアプリケーションを開発する開発者向け

Elasticsearchにデータをロードしたり、クエリを作成したり、インデックスを移行したりする際に、十分なスキルがあれば、コードを生成してエラーが発生し、その原因をドキュメントで調べるという繰り返しのサイクルを短縮できます。

エージェントにCSVファイルの読み込みを依頼すると、バックプレッシャーを処理し、データからマッピングを推測するストリーミングインジェストツールが使用されます。これは、最初の大きなファイルでメモリ不足になるような、手作業で作成した_bulkループではありません。ES|QLでクエリを実行するように依頼すると、実際のインデックス名とフィールドスキーマを検出し、その後、正しい構文、適切なアグリゲーション、バージョン対応の機能選択を備えた有効なパイプ付きクエリを作成します。これは、3回ものデバッグが必要なSQL風の推測ではなく、正確な処理です。クラスター間での再インデックスを指示すると、完全な運用ワークフローに従います。明示的なマッピングで送信先を作成し、スループットに合わせて設定を調整し、ジョブを非同期で実行し、完了時には本番環境の設定を復元します。これは、経験豊富なオペレーターが従う半分のステップをスキップする単なる_reindex呼び出しではありません。

修正が必須となるそれらしい出発点を示すエージェントの代わりに、出力が実際に機能するための運用規律を組み込んだエージェントが手に入ります。

Elastic Agent Skillsの使用によるインパクトの例

Eval	スキルによる変更内容
es-監査-クエリ-失敗したログイン	一般的な検索の代わりにスキルの監査ログクエリパターンを使用
es-authz-role-mapping-ldap	正しいロールマッピングAPI呼び出し構造を出力
esql-basic-query	ES\|QLパイプ構文をクエリDSL上に記述
esql-error-handling	フィールド名を推測する代わりにスキーマを先に設定
esql-schema-discovery	インデックス名を推測したことは一度もなし
es-ingest-csv-with-infer	--infer-mappingsのみを使用し、--source-format csvとの組み合わせは回避（組み合わせると空のインデックスがマッピングされるため）
es-ingest-json-file	大容量ファイルを処理できる堅牢なインジェスト方式を採用
es-reindex-local-async	まずレプリカ数0、更新間隔「-1」で宛先インデックスを作成し、その後非同期で再インデックスを実行、ベースラインはあらゆる準備をスキップ
es-security-403-privileges	一般的なアドバイスではなく、スキルの診断ワークフローに従って特権エラーを解決

セキュリティチーム向け

セキュリティチームは、アラートのトリアージ、検出ルールの調整、ケースの管理といった、同じ運用ワークフローを毎日繰り返しています。Agent Skillsは、AIエージェントがこれらのワークフローを正しく実行し、適切な順序で適切なフィールド名で適切なAPIを呼び出せるように、その手順知識をエンコードします。IDEを離れることなく、ゼロから完全に機能するElastic Security環境を構築するまでの手順を実際に確認するには、「AIエージェントからElastic Securityを使い始める」を参照してください。

オブザーバビリティおよび運用チーム向け

Elastic Observabilityのための新しいAgent Skillsは、複雑なシステムのインスツルメンテーション、SLOの管理、複雑なデータの選別、サービスの健全性の評価といった運用の手間を軽減します。ネイティブのElastic専門知識をAIエージェントに直接組み込むことで、チームはシンプルな自然言語を使用して複雑なオブザーバビリティワークフローを実行できます。これにより、SREと運用チームはインシデントをより迅速に解決し、信頼性の高いシステムをより簡単に保守できます。詳しくはこちらのブログ記事をご覧ください。

オープンソース、オープン仕様、コミュニティ主導

エージェントの知識はオープンであるべきだと当社は考えているため、Agent SkillsをApache 2.0ライセンスで公開しています。スキルが準拠するagentskills.ioの仕様はオープンスタンダードであり、Elastic独自のフォーマットではありません。スキルが閉鎖的な環境ではなく、コミュニティ全体の取り組みとなることを望んでいます。

より大きな全体像の一部

Agent Skillsは、Elasticsearchを最もエージェントにとって使いやすいデータプラットフォームにするための広範な取り組みの一環です。Elasticsearch Platform上で動作するエージェントの場合、Agent Builderは、データのアクセス制御と権限を継承し、検索と分析のための組み込みツールとカスタムツールを提供し、ユーザーがダッシュボード、アラート、調査と共にコンテキスト内でエージェントと対話できるようにすることで、さらに進化します。最後に、Agent Builderでのスキルのサポートが間もなく開始されます。これにより、開発者はElastic Agent Skillsやその他のソースのスキルを柔軟に活用して、Elasticsearchプラットフォームで安全でコンテキストが強化されたチャットと自動化を実現できます。

他の領域で動作するエージェントのために、以下のようにオープンエコシステムに投資しています。

モデルコンテキストプロトコル（MCP）サーバーの拡張：Agent BuilderのMCPエンドポイントを、現在の検索、ES|QL、インデックス操作以外のより多くのツールで拡張します。
認証機能の改善：エージェントが安全に接続しやすくすることで、APIキーの手動コピー＆ペーストを排除することを目指します。
LLMで読み取り可能なドキュメント：エージェントがElastic APIを独自に発見して理解できるように、 llms.txtファイルとAGENTS.mdファイルを公開します。
エージェントワークフロー用のコマンドラインインターフェース（CLI）：接続管理や一般的な操作をエージェントにとって使いやすいものにするコマンドラインツール。

スキルは本日からご利用いただけるレイヤーです。残りはこれから提供されます。

使用を開始

始める前に：AIコーディングエージェントは、実際の認証情報、実際のシェルアクセス、そして多くの場合、実行しているユーザーの完全な権限を使用して動作します。エージェントがセキュリティワークフローに向けられる場合、自動化されたシステムに検出ロジック、対応アクション、機密テレメトリへのアクセスを委ねることになり、リスクはより高くなります。すべての組織のリスクプロファイルは異なります。AIを活用したセキュリティワークフローを有効にする前に、エージェントがアクセスできるデータ、実行できるアクション、予期しない動作が発生した場合に何が起こるかを評価してください。

Elastic Agent Skillsをエージェントランタイムにインストールする：

npx skills add elastic/agent-skills

これにより、インストールされているエージェントランタイムが自動的に検出され、スキルが適切な構成ディレクトリに配置されます。そこからエージェントが自動的にそれらを拾います。

また、スキルカタログを直接ブラウズし、スキルフォルダをエージェントの設定ディレクトリにコピーして、個別に手動でスキルをインストールすることもできます。

まだElasticsearchクラスターをお持ちではありませんか？Elastic Cloudの無料トライアルを始めましょう。1分ほどで完全に構成された環境を構築できます。

プロジェクトを探索：

Elasticsearchによるエンティティ解決、パート4：究極のチャレンジ

Jessica Moszkowicz — Fri, 13 Mar 2026 00:00:00 GMT

これまでのインテリジェントなエンティティ解決は2つの方法で実装されてきました。いずれのアプローチも、エンティティの準備と抽出、そしてElasticsearchによる候補の取得という同じ方法で始まります。そこから、プロンプトベースのJSON生成または関数呼び出しのいずれかを通じて、大規模言語モデル（LLM）を使用して候補を評価し、モデルにその判断について透明性のある説明を提供することを要求します。

前回の記事で見たように、関数呼び出しによってもたらされる一貫性は、単に便利な最適化ではなく、不可欠なものです。構造的なエラーを評価ループから除去したところ、標準的なシナリオ（ティア4データセットなど）の結果が劇的に向上しました。

しかし、答えるべき明白な疑問はまだ残っています。

状況が本当に複雑になってきた場合でも、このアプローチは有効でしょうか？

現実世界におけるエンティティ解決が単純なケースで失敗することはめったにありませんが、名前が言語、文化、文字体系、時代、組織の境界を越える場合に失敗します。人が名前ではなく肩書きで言及されている場合、会社名が変更された場合、音訳が一貫していない場合、そして（スペルではなく）文脈だけが言及と現実世界の実体を結びつける唯一の要素である場合、この方法は失敗します。

そこで、このシリーズの最後の記事として、このシステムにいわば究極のチャレンジを課すこととしました。

なぜこれが究極の挑戦なのでしょうか？

以前の評価では、ますます複雑になるデータセットを用いてシステムをテストしました。前回の記事で触れた第4段階に到達する頃には、すでにニックネーム、称号、多言語名、意味的な参照などが混在する状況になっていました。これらのテストにより、アーキテクチャ自体は健全であることが示されましたが、信頼性の問題、特に不正な形式のJSONが原因で、リコールが抑制されていることがわかりました。

関数呼び出しの仕組みが整ったことで、ようやく安定した基盤ができました。そのおかげで、さらに興味深い質問をする機会が得られました。

1つの統一されたパイプラインで 多くの異なる種類のエンティティ解決問題を一度に処理することは可能でしょうか？

究極のチャレンジデータセットは、まさにその側面を徹底的に追求するために設計されました。

このデータセットは、（ニックネームや音訳といった）単一の困難に焦点を当てるのではなく、 50種類以上の異なる課題タイプを組み合わせています。

文化的な命名規則。
タイトルに基づく参照。
事業上の関係性と過去の社名変更。
多言語および異文字表記での言及。
上記のうち複数を組み合わせた複合的な課題。

重要なのは、この試みが特定の狭い用途向けに最適化することではなく、ルールがエンティティごとに変化した場合でも設計パターンが通用するかどうかをテストすることです。

データセットの概要

究極のチャレンジデータセットは以下で構成されます。

個人、組織、機関などの50のエンティティ。
構造と言語の複雑さが異なる約60本の記事。
大きく以下に分類される51種類の異なるチャレンジカテゴリー。
- 文化的な命名規則。
- 肩書きと職務上の背景。
- 事業と組織間の関係。
- 多言語および音訳の課題。
- 複合シナリオとエッジケースのシナリオ。

本シリーズの前半で、生成AIを用いてデータセットを作成することは諸刃の剣であることを確認しました。生成AIがなければ十分な規模と多様性を備えたテストデータを収集することは極めて困難になりますが、このモデルは放置すると、物事をあまりにも単純化しすぎる傾向があります。

例えば、初期世代の検証段階で、モデルに「ロシアの大統領」といったフレーズがウラジーミル・プーチンの明示的な別名として含まれていることが判明しました。それは今日では妥当に思えるかもしれませんが、文脈解決能力をテストするという目的を損なうことになります。記事が1990年代のロシアについて論じている場合はどうなるでしょうか？システムは、ハードコードされたエイリアスに頼るのではなく、文脈から正しいエンティティを推論するべきです。

そのため、このデータセットはショートカットが効かないように意図的に設計されています。システムが意味を推測することが想定されている場合、別名は明示的にリスト化されません。記述的なフレーズはエンティティにあらかじめリンクされていません。正確な一致は、単なるローカルテキストだけでなく、記事レベルの文脈によって決まることが多いです。

重要な注意点：本システムは多様なシナリオにおける機能を実証していますが、これはあくまで教育用プロトタイプです。実際の制裁対象組織の監視を扱う本番システムでは、追加の検証、コンプライアンスチェック、監査証跡、および機密性の高いユースケースに対する特別な処理が必要となります。

これらのシナリオが難しい理由

このシリーズの最初の投稿で、単純であいまいな例「新しいSwiftアップデートが登場しました！」を紹介しました。課題は、「Swift」という単語が、文脈によって複数の現実世界の実体として解釈される可能性があることです。この例はより広範な真実、つまり、自然言語は本質的に曖昧であるということを捉えています。

したがって、エンティティ解決は単なる文字列照合の問題ではありません。人間は日常的に、共通の知識、文化的規範、状況的文脈に頼って参照関係を解決していますが、私たちは自分がそうしていることにほとんど気づきません。

よくあるケースをいくつか考えてみましょう。

「大統領」という称号は地政学的・時間的な文脈なしには意味がありません。
会社名は、記事がいつ書かれたかによって、親会社、子会社、または以前のブランドを指す場合があります。
人名は、言語や文化によって、異なる順序、書体、または音訳で表記されることがあります。
同じフレーズでも、文脈によって異なる対象を指す場合があり、システムは一致を受け入れるのと同じくらい確信を持って一致を拒否できなければなりません。

これらすべてを適切に処理する単一のルールセットは存在しないため、このプロトタイプは懸念事項を非常に積極的に分離しています。

Elasticsearchは候補の範囲を効率的かつ分かりやすく絞り込みます。
LLMは、判断が必要で、それ自体を説明しなければならない場合にのみ使用されます。
検索と推論は別個のステップのままです。

課題の種類が多様化するにつれて、この区分けはさらに重要になります。

システムが特別なケースなしに多様性を処理する仕組み

この評価で最も興味深い結果の一つは、変更しなかった点にあります。

日本語名に関する特別なロジックは追加していません。
アラビア語の父称に関するカスタムルールは追加していません。
ハードコーディングされたマッピングを過去の会社名に追加していません。

その代わりに、このシステムはシリーズ前半で紹介したものと同じ主要要素に依存していました。

セマンティック検索のためにインデックス化されたコンテキスト強化エンティティ。
Elasticsearchでのハイブリッド検索（完全検索、エイリアス、セマンティック）。
少数の、明確に定義された一致候補セット。
関数呼び出しと最小スキーマによって制約されたLLM判断。

これは、システムの柔軟性が、増え続けるルールのコレクションからではなく、表現とアーキテクチャから生まれることを示唆しています。

システムが成功するのは、適切な候補が取得され、LLMが参照が特定のエンティティにマッピングされる（またはされない）理由を説明できる十分なコンテキストがある場合です。

結果：パフォーマンスの概要

究極のチャレンジデータセットにおいて、システムは以下のような全体的な結果を生み出しました。

精度：約91％
再現率：約86％
F1スコア：約89%
LLM合格率：約72％

チャレンジの種類ごとのパフォーマンス

チャレンジの種類ごとに結果を分解すると、強みと限界が明らかになります。

最も優れたパフォーマンス（F1スコア100%）が見られた分野は以下のとおりです。

文字体系間の照合（キリル文字、韓国語、中国語の企業名）。
ヘブライ語のシナリオ（父称、専門職称、宗教称号、音写）。
事業階層構造（航空宇宙、多角化製造業、多部門企業）。
職業上の肩書き（学術、軍事、政治、宗教）。
複数の文字体系を含む日本語シナリオの組み合わせ。

優れたパフォーマンス（F1スコア80～99％）には以下が含まれます。

国際的な政治家（98％）。
歴史的な名称変更（90%）。
複雑なビジネス階層（89％）。
日本の企業名（93％）。
異言語間の音訳（86％）。
アラビア語の父称（86％）。

より困難な分野には以下が含まれます。

高度な音訳（中国語、韓国語）：0% F1。
特定の日本語シナリオ（敬称、名前の順序、表記体系のバリエーション）：約67% F1。
一部のアラビア語のシナリオ（会社名、機関の参考文献）：約40％ F1。

ここで重要なのは、なぜシステムがこれらのケースで機能不全に陥ったのかという点です。失敗の原因は、全体的なアプローチが破綻したことではなく、特定のコンポーネントの限界、特に特定の多言語シナリオにおけるセマンティック検索に使用される高密度ベクトルモデルの限界にありました。

検索と判断が明確に分離されているため、パフォーマンスを向上させるためにシステムを書き換える必要はありません。より高性能な多言語埋め込みモデルの採用、エンティティコンテキストの強化、または検索戦略の洗練により、コアアーキテクチャを変更することなく、これらのカテゴリー全体で結果が向上します。

アーキテクチャーの観点から見ると、それが真の成功指標です。

この結果が設計について教えてくれること

シリーズを振り返ると、いくつかのパターンが際立っています。

準備は巧みなマッチングよりも重要です。 エンティティに事前にコンテキストを付加することで、後々の曖昧さを劇的に減らすことができます。
LLMは、レトリバーではなく、判断者として最も価値があります。したがって、検索を求めるよりも、なぜ一致が意味をなすかを説明するよう求めることの方がはるかに強力です。
信頼性が精度を実現します。関数呼び出しは、JSONを整理しただけでなく、取得ステップにすでに潜在していた想起を解放しました。
一般化は専門化に勝ります。厳選された少数の抽象化によって、独自のロジックを必要とせずに数十種類の課題に対応できました。

これが、プロトタイプが意図的にElasticsearchネイティブであり、LLMの使用方法が意図的に保守的である理由です。目標は検索を置き換えることではなく、意味が重要な状況において、検索を説明可能なものにすることです。

結びに

究極のチャレンジとは、完璧な指標を追い求めることではなく、より根本的な問いに答えることでした。

透明性が高く、検索優先で、LLMを活用したアーキテクチャは、ルールやブラックボックスに陥ることなく、現実世界のエンティティの曖昧さを処理できるでしょうか？

その回答は、この教育用プロトタイプに関しては「はい」ですが、本番環境での強化、コンプライアンス、監視、データの品質に関する明確な注意事項があります。エンティティの一致が行われた理由を正当化する必要のあるシステムを構築している場合、このパターンは真剣に検討する価値があります。このシリーズを通して、エンティティ解決は必ずしも難解なものではないということが伝われば幸いです。適切に関心事を分離することで、それは論理的に考え、測定し、改善できるものになります。

この研究はまた、より広範なアーキテクチャパターンを示唆しています。浮かび上がってくるのは、古典的な検索拡張生成（RAG）の、わずかではあるが重要な進化です。検索結果を直接生成に供給するのではなく、明示的な評価ステップを導入します。LLMはまず、取得された候補を評価し、妥当性を確認するために使用され、承認された結果のみが生成の強化に使用されます。これは、Generation-Augmented Retrieval-Augmented Generation with Evaluation、つまりGARAGEと名付けられるでしょう。うまい頭字語が嫌いな人なんていませんから。

このパターンは、他にどのような用途で活用できるでしょうか？信頼性、透明性、そして論理的な説明を必要とするシステムは、まさにうってつけの候補と言えます。この分野における今後の研究は、今回得られた成果と同様に説得力のあるものとなるはずであり、コミュニティが今後どのような展開を見せるのか、非常に楽しみです。

次のステップ：試してみましょう

究極のチャレンジが実際に動作する様子をご覧になりたいですか？実際の実装、詳細な説明、実践的な例を含む完全なウォークスルーについては、Ultimate Challenge notebookを参照してください。

完全なエンティティ解決パイプラインにより、本番での使用に必要なコアコンセプトとアーキテクチャが示されています。これを基盤に、透明性と説明可能性を維持しながら、ニュース記事を監視し、エンティティの言及を追跡し、どのエンティティがどの記事に登場するのかについての質問に回答するシステムを構築できます。

ElasticsearchにおけるHNSWの適応的早期終了

Tommaso Teofili — Mon, 02 Mar 2026 00:00:00 GMT

Elasticsearchは、Hierarchical Navigable Small World（HNSW）アルゴリズムを使用して、近接グラフ上でベクトル検索を実行します。HNSWは、k近傍法（KNN）の結果の品質と関連コストの間で適切なトレードオフを提供することが知られています。

HNSWでは、グラフ内の候補ノードを反復的に拡張し、これまでに発見された最も近い近傍の制限されたセットを維持することで検索が進行します。各拡張にはコスト（ベクトル演算、ディスクへのランダムシークなど）がかかり、そのコストに対する限界効用は検索が進むにつれて減少する傾向があります。

HNSWグラフのトラバーサルを最適化する1つの方法は、新しい真の近傍を見つける周辺尤度が増加しない場合に検索を停止することです。このため、Elasticsearch 9.2では、新しい早期終了メカニズムを導入しました。これは、グラフノードを訪問しても一定回数連続して十分な数の新しい最近傍が提供されない場合に、検索プロセスを停止するものです。

この記事では、HNSWの前述の早期終了メカニズムを改良して、さまざまなデータセットやデータ分布に適したものにする方法について説明します。

HNSWでの早期終了

HNSW では、近接グラフ内の候補ノードを反復的に拡張し、これまでに発見された最も近い近傍の制限されたセットを維持して、グラフ全体を訪問するか、早期終了基準を満たすまで、検索が続行されます。

したがって、早期終了は必ずしも最適化ではなく、検索アルゴリズム自体の一部です。停止を決定する瞬間が、効率性と再現率のバランスを決定します。Elasticsearchでは、HNSWのクエリを早期終了させる方法がすでにいくつか存在します。

固定された最大数のノードが訪問されます。
一定のタイムアウトに達した場合。

これらのルールは単純かつ予測可能ですが、検索が実際に何をしているかにはほとんど関係がありません。また、これらは主に、クエリがエンドユーザーにとって妥当な時間内に完了することを確認するために使用されます。

前回のブログ投稿ではHNSWにおける冗長性の概念を紹介しました。つまり、HNSWが新しい候補ノードを評価し続けても、さらに最も近い近傍が見つからない場合、冗長な計算が発生します。

忍耐度：努力ではなく進歩を測る

忍耐度という概念は、努力ではなく進歩を中心に早期終了を再構築します。

次のように尋ねる代わりに

「何ステップ進んだ？」

新たに次のように問いかけます。

「希望を失うまでに受け入れられる無駄な計算はどれだけかな？」

HNSW検索では、通常、初期の探索によっ上位k候補セットの最高の改善がもたらされます。HNSWグラフ探索の最初のステップでは、アルゴリズムがクエリベクトルにますます近い近傍を検出し続けるため、近傍のセットは継続的に更新されます。時間が経ち、検索が収束するにつれて、これらの改善はまれになります。忍耐度ベースの終了はこのパターンを監視し、改善が一定期間停止した時点で検索を終了します。

実際には、HNSWグラフを訪問する際、候補ノードをホップしながらキューの飽和比も計算します。これは、最新のグラフノードを訪問中に変更されなかった最も近い近傍の割合（または最後の反復中に導入された新しい近傍の数の逆数）を測定します。このような比率が連続した反復処理で大きくなりすぎると、グラフの訪問を停止します。

概念的には、忍耐度はHNSWの検索を収穫逓減プロセスとして扱います。リターンが平坦になると、グラフの調査を継続してもほとんど利益は得られません。

この枠組みは、終了を恣意的な固定された制限ではなく、観察可能な結果に直接結び付けるため、強力です。

このスマートな早期終了手法を使用する利点は、HNSWグラフ探索では、ほぼ完璧な相対再現率を維持しながら、より少数のグラフノードを訪問する傾向があることです。

これを視覚化するために、FinancialQAとQuoraという2つのデータセットと、JinaV3とE5-smallというモデルで、忍耐度に基づく早期終了（ et=staticとラベル付け）で取得した訪問ノードあたりの再現量を、デフォルトのHNSW動作（ et=noとラベル付け）と比較してプロットすることができます。

静的しきい値とHNSWのダイナミクス

実際には、Elasticsearchでは静的しきい値を使用してこれが実装されます。1つのしきい値は、飽和しきい値、つまり、最適ではないと判断される飽和度の比率を指します。もう1つのしきい値は、最適ではないキュー飽和を維持しながら連続して訪問できるグラフノードの数、つまり忍耐しきい値を指します。

Elasticsearch 9.2でこの早期終了戦略を導入したとき、レイテンシーとメモリ消費の面でメリットを得ながら再現率を可能な限り高められるように、保守的なデフォルトを選択することにしました。このため、KNNクエリでは飽和しきい値を100%に、忍耐しきい値を num_candidates の（有界の）30%に設定しています。

多くのシナリオでは、これらの設定はうまく機能しますが、同じ数の近傍を要求する2つのクエリでは、収束動作が根本的に異なる可能性があります。あるクエリは密集した局所的な近傍に遭遇し、すぐに飽和します。他のクエリは競争力のある候補を見つけるまでに、長くまばらな経路を通過しなければなりません。後者は、効果的に処理するのが最も困難であることが判明しました。

その結果、次のようなことに気付くことがありました。

簡単なクエリに対する過度の探索。
難しいクエリに対する時期尚早の終了。

したがって、固定されたしきい値は収束に関する全体的な仮定をエンコードしますが、HNSWをさまざまなダイナミクスに適応させることができると考えました。

HNSWの早期終了を適応的に

適応的早期終了は、この問題に異なる角度からアプローチします。事前に定義された停止しきい値を強制する代わりに、アルゴリズムが検索のダイナミクス自体からいつ停止するかを推測します。

したがって、2つの連続した候補間のキュー飽和比を比較する代わりに、即時平滑化発見率 $d_{q,i} $（クエリqの最後の訪問iで導入された新しい隣接ノードの数）と、グラフ訪問中のそのような発見率の移動平均$\mu_{q,i}$と標準偏差$\sigma_{q,i}$を導入することにしました（ウェルフォードのアルゴリズムを使用）。これらの発見率に関する統計はクエリごとに計算されるため、この情報をもとに各クエリの忍耐度を判断できます。

以前は静的であったしきい値は、発見率の統計に対して適応的になります。飽和しきい値はローリング平均と標準偏差の合計になり、一方で忍耐力は標準偏差に反比例して適応およびスケーリングされます。

早期終了ルールは変わらず、飽和は即時発見率が適応飽和しきい値より低い場合に発生します。適応的忍耐度よりも大きい連続候補訪問回数にわたって飽和が継続する場合、グラフ訪問は停止します。

こうすることで、KNNクエリの num_candidates パラメーターに依存しない動作（早期終了に関係なく、常に設定されるか、デフォルトのままになる場合がある）が得られ、各クエリとベクトル分布に動的に適応しやすくなります。

適応型戦略（ et=adaptiveとラベル付け）を使用したFinancialQAおよびQuoraでの訪問ノードあたりの再現率は、静的戦略（ et=static ）およびデフォルトのHNSW動作（ et=no ）と比較した場合、高くなっています。

適応的早期終了はElasticsearch 9.3ではHNSWの高密度ベクトルフィールドに対してデフォルトでオンになっています（最終的には同じインデックスレベルの設定でオフにすることができます）。

Common Expression Language（CEL）：CEL入力がElastic Agent統合におけるデータ収集を改善する方法

Chris Berkhout — Fri, 27 Feb 2026 00:00:00 GMT

Elastic Agent統合により、ユーザーは幅広いソースからデータをElasticsearchに取り込むことができます。コレクションロジック、取り込みパイプライン、ダッシュボード、その他のアーティファクトをパッケージにまとめ、Kibana Webインターフェースからインストールおよび管理できます。

統合では、データ収集を行うためにFilebeat入力を設定します。HTTP APIからデータを収集するために、私たちはしばしばHTTP JSON入力を使用してきました。しかし、基本的なリスティングAPIでさえ、細部において大きく異なることがあり、HTTP JSON入力のYAMLで構成された変換のモデルでは必要なコレクションロジックを表現するのが難しく、場合によっては不可能になることがあります。

Common Expression Language（CEL）入力は、HTTP APIとのより柔軟な相互作用を可能にするために導入されました。CELは、条件やデータ変換を高速、安全、かつ拡張性のある方法で表現するアプリケーションに組み込めるよう設計された言語です。CEL入力を使用すると、統合ビルダーは設定を読み取り、自身の状態を追跡し、リクエストを作成し、応答を処理し、最終的に取り込む準備が整ったイベントを返すことができる1つの式を記述できます。

この記事では、CELが他のプログラミング言語との違い、CEL入力用の拡張方法、そしてデータ収集ロジックを表現する上で提供するその柔軟性とパワーについて見ていきます。

CELと入力での動作の仕組み

CELは式言語で、ステートメントはありません。CELを記述する場合、ステートメントを記述して何を実行するかを指示するのではなく、式を記述してどのような値を生成するかを指示します。すべてのCEL式は値を生成し、小さな式を組み合わせて大きな式にすることで、より複雑なルールに従った結果を生成することができます。後ほど、他の言語のステートメントで記述できる内容に対して式を使用する方法について説明します。

CELは意図的に非チューリング完全言語であり、無限ループは許可されません。後ほど、マクロを使用してリストやマップを処理する方法を見ていきますが、無限ループを避けることで、この言語は個々の式に対して予測可能で制限された実行時間を保証します。

CEL入力は、CELプログラム（式）といくつかの初期状態で設定されます。状態はプログラムの入力として提供され、プログラムは出力状態を生成するために評価されます。出力状態にイベントのリストが含まれている場合、それらは削除されて公開されます。残りの出力状態は、次の評価の入力として使用されます。出力状態に1つ以上のイベントとフラグwant_more: trueが含まれている場合、次の評価はすぐに実行されます。それ以外の場合、設定された間隔の残りの時間スリープしてから続行します。以下は入力の制御フローの簡略的な図です。

各評価の出力は、入力が実行されている限り、次の評価への入力として順に渡されます。キー「cursor」下の出力データはディスクに永続化され、入力の再起動後に再ロードされますが、その他の状態は再起動をまたいで保存されません。

CEL言語自体は機能が制限されており、副作用を回避しますが、拡張可能です。cel-goの実装では、オプションの構文や型などの機能が追加されています。Mitoライブラリはcel-goを基盤とし、HTTPリクエストの機能を含むより多くの機能を追加しています。CEL入力はMito版のCELを使用しています。

Mitoの操作

CEL入力を使用して統合を構築またはデバッグする際、最も重要なことは、与えられた入力状態に対してCELプログラムがどのような出力状態を生成するかを理解することです。開発中は、完全なElasticスタックに囲まれた入力でCELプログラムを実行するのは面倒な場合があります。より高速なフィードバックループを実現する1つの方法は、Mitoのコマンドラインツールを使用することです。このツールを使用すると、CELプログラムを直接実行し、特定の入力に対して生成される出力を確認できます。

MitoはGoで記述されており、以下のようにインストールできます。

go install github.com/elastic/mito/cmd/mito@latest

MitoでCELプログラムを実行する場合、通常は2つのファイルを指定します。初期入力状態を含むJSONファイルと、CELプログラムのソースコードを含む別のファイルです。

mito -data state.json src.cel

コピー＆ペーストを容易にするため、この記事の例は、シェルが<(echo '...content...')で各ファイルの内容をラップして、その場で一時ファイルを作成する単一のコマンドとして記述されています。独自の開発では、実際のファイルを操作する方が簡単になります。

GitHubからイシューデータを取得

以下の例には、GitHub APIからイシューに関するデータを取得する完全なCELプログラムが含まれています。その初期入力状態には、APIエンドポイントのURLと、ページネーションをどのように処理すべきかについての情報が含まれています。CELプログラムは、入力状態のデータを使用してリクエストを生成します。対応をデコードし、そこからイベントを生成し、出力状態の一部として返します。

mito -data <(echo '
  {
    "url": "https://api.github.com/repos/elastic/integrations/issues",
    "per_page": 3,
    "max_pages": 3
  }
') <(echo '
  int(state.?cursor.page.orValue(1)).as(page,
    (
      state.url + "?" + {
        "state": ["all"],
        "sort": ["created"],
        "direction": ["asc"],
        "per_page": [string(state.per_page)],
        "page": [string(page)],
      }.format_query()
    ).as(full_url,
      request("GET", full_url).with({
        "Header": {
          "Accept": ["application/vnd.github+json"],
          "X-GitHub-Api-Version": ["2022-11-28"],
        }
      }).do_request().as(resp,
        resp.Body.decode_json().as(data,
          state.with({
            "events": data.map(i, {
              "html_url": i.html_url,
              "title": i.title,
              "created_at": i.created_at,
            }),
            "cursor": { "page": page + 1 },
            "want_more": size(data) == state.per_page && page < state.max_pages,
          })
        )
      )
    )
  )
')

その最初の評価は次の出力を生成します。

{
  "cursor": {
    "page": 2
  },
  "events": [
    {
      "created_at": "2018-09-14T09:47:35Z",
      "html_url": "https://github.com/elastic/integrations/issues/3250",
      "title": "Increase support of log formats in haproxy filebeat module"
    },
    {
      "created_at": "2019-02-06T12:37:37Z",
      "html_url": "https://github.com/elastic/integrations/issues/487",
      "title": "ETCD Metricbeat module needs polishing and grooming"
    },
    {
      "created_at": "2019-08-13T11:33:11Z",
      "html_url": "https://github.com/elastic/integrations/pull/1",
      "title": "Initial structure"
    }
  ],
  "max_pages": 3,
  "per_page": 3,
  "url": "https://api.github.com/repos/elastic/integrations/issues",
  "want_more": true
}

イベントは削除され、CEL入力で実行されると、インジェストのために公開されます。残りの出力は、次のCELプログラム評価に入力状態として提供されます。

そのCELプログラムの仕組みを理解するために、いくつかの小さなCELの例で、CEL入力の仕組みについて詳しく説明します。

CELの基本

CEL言語にはステートメントはなく、式のみが存在します。成功したすべてのCEL式は最終値まで評価されます。以下は、記述できる最も小さなCEL式の1つと、その出力です。

mito <(echo '
  "hello" + " " + "world"
')

"hello world"

シンプルな表現は通常、直感的です。数学演算は同じタイプの値でのみサポートされます（例：int と int など）。そのため、必要に応じてタイプを変換します（ここでは int から double へ）。

mito <(echo '
  double((1 + 2) * (3 + 4)) / 2.0
')

10.5

CEL言語には変数はありませんが、Mitoのasマクロを使用して、式に名前を付け、より大きな式で使用することができます。この例では、式(1 + 1)は値2に評価され、.as(n, ...)がその値に式"one plus one is "+string(n)で使用するための名前nを付けます。

mito <(echo '
  (1 + 1).as(n, "one plus one is "+string(n))
')

"one plus one is 2"

また、withを使用して示したように、マップに情報を蓄積し、それを後で式の中で使用することも可能です。

mito <(echo '
  { "key": "value" }.with({ "key2": "value2" }).as(data,
    {
      "data": data,
      "size": size(data),
    }
  )
')

{
  "data": {
    "key": "value",
    "key2": "value2"
  },
  "size": 2
}

その例をもう一度見てみましょう。ネストされた部分({ "data": data, "size": size(data), })が最終値の形状を示すことに注意してください。これは"data"と"size"をキーとするマップです。これらのキーの値はdataに依存し、式の外側部分によって定義されます。CEL式を内側から外側まで読み取ると、何が返されるかをすぐに把握できるようになります。

CELにはifのような制御フロー文はありませんが、条件分岐は三項演算子で実行可能です。

mito <(echo '
  1 + 1 < 12 ? "few" : "many"
')

"few"

CELはチューリング完全言語ではないため、無制限のループと再帰はサポートされていません。これにより、実行時間が予測可能になり、入力データのサイズと式の複雑さに比例するようになります。

個別のCEL式では無限ループはできませんが、mapのようなマクロを使ってリストやマップを処理できます。

mito <(echo '
  [1, 2, 3].map(x, x * 2)
')

[2, 4, 6]

このセクションでは、次の内容を説明しました。

文字列、数値、リスト、マップ。
文字列の連結。
数学演算。
タイプキャスティング。
条件文。
部分式の命名。
コレクションの処理。

次に、HTTPリクエストを行う方法を見ていきます。

リクエスト

MitoはCELを拡張してHTTPリクエストを行う機能を提供します。

mito <(echo '
  get("https://example.com").as(resp, string(resp.Body))
')

"Example Domain..."

リクエストは実行前に明示的に構築することができます。これにより、さまざまなHTTPメソッドを使用したり、ヘッダーや本文を追加したりできるようになります。

この例では、 format_queryを使用してURLを構築し、リクエストにヘッダーを追加し、 decode_jsonを使用してレスポンス本文を解析します。-log_requestsオプションを指定すると、Mitoは各リクエストと対応に関する詳細情報をJSON形式でログに記録します。

mito -log_requests <(echo '
  request("GET",
    "https://postman-echo.com/get?" + {
        "q": ["query value"]
     }.format_query()
  ).with({
    "Header": { "Accept": ["application/json"] }
  }).do_request().as(resp, {
    "status": resp.StatusCode,
    "data": resp.Body.decode_json(),
  })
')

{"time":"...","level":"INFO","msg":"HTTP request",...}
{"time":"...","level":"INFO","msg":"HTTP response",...}
{
  "data": {
    "args": {
      "q": "query value"
    },
    "headers": {
      "accept": "application/json",
      "accept-encoding": "gzip, br",
      "host": "postman-echo.com",
      "user-agent": "Go-http-client/2.0",
      "x-forwarded-proto": "https"
    },
    "url": "https://postman-echo.com/get?q=query+value"
  },
  "status": 200
}

状態と評価の管理

ここまで、リクエストの作成方法と、目的の出力状態を生成するために必要なCELの基本について説明しました。次は、出力状態に何を入れるべきか、そしてそれによって後続の処理をどのように指示できるかについて詳しく見ていきましょう。

統合のCELプログラムでは、その出力状態が次の評価の入力として使用するのに適していることを確認する必要があります。構成では初期状態を設定し、適切な変更を加えて出力でそれを繰り返す必要があります。簡単な方法は state.with({ ... }) を使って、状態マップをオーバーライドして繰り返し表示することです。小規模プログラムの一般的なパターンは、state.with()でプログラム全体をラップすることです。これにより、出力データを生成する各分岐（例えば、成功、エラー）で状態の伝播を繰り返す必要がなくなります。

初期入力状態にハードコードされているのではなく、評価によって初期化される状態値がある場合、プログラムは初期値を設定する前に既存の値を確認する必要があります。これにはオプションの構文と型のサポートが役立ちます。マップキーのフィールド名の前に疑問符を使用すると、アクセスはオプションになります。値に解決される場合とされない場合がありますが、さらにオプションのアクセスが可能であり、値が存在しない場合にデフォルトを簡単に提供できます。

mito -data <(echo '{}') <(echo '
  int(state.?counter.orValue(0)).as(counter,
    state.with({
      "counter": counter + 1,
      "want_more": counter + 1 < 3,
    })
  )
')

{ "counter": 1, "want_more": true }
{ "counter": 2, "want_more": true }
{ "counter": 3, "want_more": false }

その例では、状態から読み取られたカウンター値はintにキャストされます。これは、JSONとJavaScriptのNumber型によって確立された規則に従って、状態内のすべての数値が浮動小数点数としてシリアライズされるためです。また、"want_more": trueはここでMitoによって尊重されますが、CEL入力で実行される場合、出力にもイベントが含まれている場合にのみ評価が繰り返されます。

CEL入力によって実行されるCELプログラムでは、出力マップに"events"キーを返すことが要件となります。その値はイベントマップのリスト、空のリスト、または単一のイベントマップである場合があります。単一イベントケースは通常、エラーに使用されます。イベントは入力によって公開されますが、その値もログに記録されます。error.message値が設定されている場合、その値は統合のFleetのヘルスステータスを更新するために使用されます。プログラムが単一の非エラーイベントを生成する場合は、それをリストにラップするのが最適です。

先ほどのGitHubイシュープログラムの出力をもう一度見てみましょう。

{
  "url": "https://api.github.com/repos/elastic/integrations/issues",
  "per_page": 3,
  "max_pages": 3,
  "cursor": {
    "page": 2
  },
  "events": [
    { ... },
    { ... },
    { ... }
  ],
  "want_more": true
}

プログラムは次のようにして状態を効果的に管理しました。

url、per_page、max_pagesで初期状態値を繰り返します。
cursor.pageの再起動時に永続化されるべき状態を追加します。
eventsリストで公開する準備ができたイベントを返します。
want_more: trueで即時の再評価をリクエストしています。

オプションのアクセスと状態管理、CELの基本とHTTPリクエストを理解できたので、GitHubのイシュープログラム全体が読み取れるようになります。Mitoで実行し、いくつか変更を加えて実験してみてください。

レビューとリソース

この記事では、CEL言語とは何か、そしてそれがMitoライブラリでどのように拡張され、CEL入力で使用されるかを調べました。GitHub APIからイシュー情報を取得するサンプルプログラムでCELの柔軟性を確認し、初期状態での設定へのアクセス、HTTP APIとのやりとり、取り込むべきイベントのリターン、後のプログラム実行のための状態管理など、そのプログラムを理解するために必要なすべての詳細を説明しました。

CEL入力を使用してさらに学び、統合を構築ために役立つリソースは多数あります。

CEL入力を使用した統合を構築するための最も貴重なリソースは、GitHubで入手できる既存のElastic 統合のCELコードです。

cel.yml.hbs Elastic統合リポジトリ内のファイル - GitHub

ElasticsearchとLLMによるエンティティ解決（第2部）：LLM判定とセマンティック検索によるエンティティのマッチング

Jessica Moszkowicz — Thu, 26 Feb 2026 00:00:00 GMT

第1部では、ウォッチリストを作成し、エンティティの言及を抽出しました。これで、「言及が実際にどのエンティティを指しているのか」という難しい質問に答える準備ができました。このシリーズの最初のブログの例に戻りましょう。ここでは、エンティティ解決が必要な理由を説明しています。「新しいSwiftアップデートが登場しました！」この見出しにもう少し文脈が添えられていると想像してください。

新しいSwiftアップデートが登場しました！開発者たちは新しい機能を試したがっています。
新しいSwiftアップデートが登場しました！新しいアルバムは来月リリースされます。

この追加されたコンテキストにより、「Swift」という名前を正しいエンティティに解決できるはずです。

前回の投稿では、ウォッチリストを設定し、追加のコンテキストでエンティティを充実させました。上記の例を見ると、リストには少なくとも「Taylor Swift」と「Swift Programming Language」の2つのエンティティが必要です。また、テキストからエンティティの言及を抽出する方法も説明しました。これらの例はどちらも「Swift」を抽出します。これらの材料、強化された監視リスト、抽出されたエンティティが揃ったところで、いよいよショーの主役であるエンティティマッチングを紹介する準備が整いました。

注意：これは、エンティティマッチングの概念を教えるために設計された教育用プロトタイプです。本番システムは、異なる大規模言語モデル（LLM）、カスタムマッチングルール、特殊な判断パイプライン、または複数のマッチング戦略を組み合わせたアンサンブルアプローチを使用する可能性があります。

問題：マッチングが難しい理由

人間の言語とは驚くべきものです。その最も興味深い特性の1つは、その無限の創造性です。無限の数の新しい文を生成し、理解することができます。そうであるなら、エンティティ解決において正確な一致が稀なのも不思議ではありません。作家は可能な限り創造的であろうと努めます。エンティティが言及されるたびにフルネームを書いたり読んだりしなければならないとしたら、かなり面倒です。そのため、厳密な一致は簡単ですが、現実には、より洗練されたエンティティ解決アプローチが必要です。それは、人間の作者の無限の創造性に少なくとも部分的には対応できるほどに堅牢なアプローチであるべきです。そのため、私たちは問題を2つのステップに分けます。まずはElasticsearchを使用して大規模な候補を取得し、次にLLMを使用してそれらの候補が実際に同じ現実世界のエンティティを指しているかどうかを判断します。

解決策：透明性の高いLLM判断による3段階のマッチング

私たちはコンピューターの使い方におけるパラダイムシフトの真っ只中にあります。インターネットの台頭がローカルコンピューティングからグローバルに接続されたネットワークへと私たちを導いたように、生成AIはコンテンツ、コード、情報の作成方法を根本的に変えています。実際、このシリーズに付随する教育プロトタイプは、作者の慎重な指示のもと、LLMを使用してほぼ「バイブコーディング」のみで作成されました。これは、LLMが人間の言語に本来備わっている生産性を実現している、あるいは実現するだろうということと同義ではありませんが、エンティティ解決を支援する強力なリソースが手に入ったことを意味します。

生成AIでよく使うパターンは、Retrieval-Augmented Generation（RAG）です。ここにおいて、取得（retrieval）とは、エンティティ候補を取得すること（回答を生成することではない）を意味し、LLMは一致の評価と説明にのみ使用されます。エンドツーエンドのエンティティ解決についてLLMに支援を依頼することもできますが、これは時間と費用の両面でコストのかかるアプローチです。RAGは、より効率的な方法でLLMにコンテキストを提供することでLLMの作業を支援し、それによってLLMがエンティティ解決を効率的に支援できるようにします。

RAGの取得部分については、再びElasticsearchを利用します。まず、正確な一致、エイリアスとの一致、そしてキーワード検索とセマンティック検索を組み合わせたハイブリッド検索という組み合わせを使用して、潜在的な一致を検索します。一致する可能性のある項目が見つかったら、LLMに送信して判断を仰ぎます。LLMは最終的な一致評価者として機能します。また、LLMにその理由を説明させます。これは他のエンティティ解決システムとの重要な差別化要因です。これらの説明がなければ、エンティティ解決はブラックボックスになります。説明があれば、一致にどんな意味があるのか自分で確認できます。

主な概念：3段階マッチング、ハイブリッド検索、透過的なLLM判断

3段階マッチングとは？このプロジェクトの開始時に、セマンティック検索がシステムの重要な一部になるという仮説を立てましたが、すべての一致にこのような高度な検索が必要なわけではありません。効率的にマッチングを見つけるために、私たちは段階的なアプローチを取ります。まず、キーワード検索で正確な一致を確認します。そのような一致が見つかった場合、作業は完了し、先に進むことができます。完全一致が失敗した場合は、エイリアス一致を使用します。このプロトタイプでは、簡素化のために、キーワードとの完全一致によるエイリアスマッチングも行われています。本番環境では、正規化、翻字ルール、あいまい一致、またはキュレートされたエイリアステーブルを使用してこのステップを拡張する場合があります。それでも最初の2つのステップで一致する可能性のあるものが見つからない場合は、Elasticsearchの逆順位融合（RRF）を使用したハイブリッド検索によるセマンティック検索を導入します。

ハイブリッド検索とは？Elasticsearchでは、セマンティック検索を使用して、コンテキストを考慮した意味のある一致を見つけることができます。Elasticsearchは、ベクトル検索とハイブリッド検索に広く使用されています。セマンティック類似性は意味を理解する上で強力ですが、構造化されたフィルタリング（例えば、時間範囲、場所、または識別子による）の代替にはならず、正確な一致が利用可能な場合は多くの場合不必要です。Elasticsearchは語彙検索で名声を博しており、これはセマンティック検索が適さないタスクに最適です。両方のアプローチを最大限に活用するために、単一のハイブリッドクエリで語彙検索とセマンティック検索を併用します。次に、結果をマージして、RRFを使用して最も一致する可能性が高いものを見つけます。このプロトタイプでは、上位2つの結果が、LLM判定に送信できる潜在的な一致となります。

LLM判定を使用する理由とは？LLMの判断と説明により、システムは曖昧さとコンテキストを透過的に処理できます。これは「the president」のような場合において重要です。コンテキストによって複数のエンティティを指す可能性がありますが、システム内でニックネームや文化的なバリエーションをうまく機能させることもできます。最後に、制裁リストからエンティティを識別するなどのミッションクリティカルなタスクを検討する場合、システムを信頼するために、一致が受け入れられた理由を把握する必要があります。重要なのは、LLMはコーパス全体を検索せず、Elasticsearchによって返された少数の候補のみを評価するということです。

実際の結果：LLM推論によるマッチング

あらゆる自然言語処理タスクにおける大きな課題は、期待される結果が何であるかを示す「答えの鍵」となるゴールデンドキュメントを作成することです。これがなければ、システムがタスクをどの程度うまく実行するかを判断することはほぼ不可能ですが、そのようなドキュメントを作成するのは面倒なプロセスになる可能性があります。エンティティ解決のプロトタイプでは、テストに使用できるデータの設定に生成AIを再度利用しました。

まず、ニックネームや翻字などのいくつかのチャレンジタイプを定義し、次にLLMに、システムにとって徐々に大きく、より困難になる階層化されたデータセットコレクションを作成するように依頼しました。データセットの作成は期待していたほど簡単ではありませんでした。LLMでは、正解を得るのがあまりにも簡単すぎるため、「チート」が行われる傾向が強くなりました。例えば、あるチャレンジタイプは意味的なコンテキストに重点を置いています。このタイプには、「ロシアの作家」を「レフ・トルストイ」に解決することなどが含まれます。LLMは誤って「ロシアの作家」を「レフ・トルストイ」の別名として入力したため、一致を見つけるためのハイブリッド検索の必要性がなくなりました。

このような問題を修正するために何度かリファクタリングを行った結果、5つのデータセット層が使用できるようになりました。第1〜4層は徐々に規模が大きくなり、チャレンジの種類も増えました。第5層は「究極のチャレンジ」データセットで、すべてのチャレンジタイプから最も難しい例で構成されていました。すべてのテストデータは包括的な評価ディレクトリで利用可能です。

プロンプトベースのエンティティ解決アプローチを評価するため、私たちは第4層データセットに注目しました。重要な注意点は、エンティティの一致品質に焦点を当てることができるように、評価が制御された実験として実施されたことです。ウォッチリストデータは事前にコンテキストで強化されており、エンティティは事前に記事から抽出され、評価で抽出精度ではなくマッチングに重点が置かれることが保証されました。これにより、一致品質が分離されます。エンドツーエンドのパフォーマンスは、抽出リコールとエンリッチメント品質にも依存します。

評価データセット

第4層の評価データセットは、システムの機能の包括的なテストを提供します。[1]

監視リストのエンティティ：さまざまなタイプ（人、組織、場所）にわたる66個のエンティティ。
テスト記事：実際のエンティティ解決シナリオを網羅した69件の記事。
予想される一致数：すべての記事で206件のエンティティが一致すると予想。
チャレンジタイプ：エンティティ解決のさまざまな側面をテストする15種類のチャレンジタイプ。

データセットに含まれる課題の種類は以下の通りです。

ニックネーム： 「ボブ・スミス」→「ロバート・スミス」（7つの記事）。
称号と敬称：「Dr. Sarah Williams」→「Sarah Williams」（5つの記事）。
意味的文脈： 「ロシアの作家」→「レフ・トルストイ」（8 つの記事）。
多言語名：異なる文字での名前の取り扱い（6つの記事）。
事業体：会社名のバリエーション（7つの記事）。
役員紹介： 「Microsoft CEO」→「Satya Nadella」（5つの記事）。
政治指導者：タイトルベースの参考文献（5つの記事）。
イニシャル： 「J. Smith」→「John Smith」（3つの記事）。
名前の順序のバリエーション：さまざまな名前の順序付け規則（3つの記事）。
切り捨てられた名前：名前の一部一致（3つの記事）。
名前の分割：名前がテキストに分割（3つの記事）。
スペース/ハイフンの欠落：書式のバリエーション（2つの記事）。
翻字：文字間の名前の一致（2つの記事）。
複合チャレンジ：1つの記事に複数のチャレンジ（6つの記事）。
複雑なビジネス：階層的なビジネス関係（5つの記事）。

プロンプトベースのエンティティ解決がどのように機能したか見てみましょう。

全体的なパフォーマンス

結果は、LLMを活用したマッチ評価には大きな可能性があることを示していますが、重大な信頼性の問題も明らかにしています。各候補ペアはLLMによって評価される必要があるため、構造化された出力の失敗により、検索が適切に機能している場合でも受け入れと呼び出しが抑制される可能性があります。

メトリック	値
精度	83.8%
リコール	62.6％
F1スコア	71.7％
見つかった一致の合計	344
LLM合格率	44.8％
エラー率	30.2%

エラー率の問題

このプロトタイプで最初に行うステップは、Elasticsearchを使用して潜在的な一致ペアを作成することであることを思い出してください。これらの潜在的な一致はそれぞれ、LLMによって評価される必要があります。これらすべての一致を効率的に処理するために、LLM呼び出しをバッチ処理します。これにより、APIのコストと待ち時間が削減されますが、出力に不正な形式のJSONが表示されるリスクも高まります。バッチサイズが大きくなると、JSONはより長く複雑になり、LLMが無効なJSONを生成する可能性が高くなります。これがエラー率30%となる原因です。評価では、リクエストごとに5つの一致のバッチサイズを使用しました。この保守的なバッチサイズでも、JSON解析エラーが発生し、評価結果が大幅に歪んでいます。

次のステップ：LLM統合の最適化

セマンティック検索とLLMによる判断を用いてエンティティをマッチングしたことで、完全なエンティティ解決パイプラインが完成しました。ただし、このアプローチでは、モデルの判断は正しいものの、その出力が使用できない場合に、新たな障害モードが発生します。LLM統合を最適化することで、信頼性とコスト効率を向上させることができます。次の投稿では、エラーとコストを削減しながら構造と型の安全性を保証する構造化出力に関数呼び出しを使用する方法について説明します。

はじめましょう

エンティティマッチングの実際の動作を確認したいですか？実際の実装、詳細な説明、実践的な例を含む完全なウォークスルーについては、エンティティマッチングノートブックを参照してください。このノートブックでは、3段階の検索、RRFを使用したハイブリッド検索、LLMを利用した推論による判断を使用してエンティティを一致させる方法を正確に示します。

注意：これは、概念を教えるために設計された教育用プロトタイプです。本番システムを構築するときは、モデルの選択、コストの最適化、レイテンシ要件、品質検証、エラー処理、監視など、教育に重点を置いたこのプロトタイプではカバーされていない追加の要素を考慮してください。

メモ

これらのデータセットは合成されたもので教育用に設計されており、実際の課題に近似していますが、単一の本番ドメインを代表するものではありません。

Elasticsearchのベクトル検索はOpenSearchの最大8倍高速

Sachin Frayne — Wed, 25 Feb 2026 00:00:00 GMT

AIエージェントとコンテキストエンジニアリングにおいて検索速度が重要な理由

2,000万件の文書コーパスを用いたベンチマークテストの結果、Elasticsearchはフィルタリングされたベクトル検索においてOpenSearchよりも最大8倍高いスループットを実現し、テストしたすべての構成においてより高いRecall@100を達成しました。コンテキストエンジニアリングに必要な要素は高速ベクトル取得だけではありません。ワークフローの反復につれて、チームはハイブリッド検索やフィルタリングなどの強力な関連性制御、操作の簡便性、予測可能なパフォーマンスも必要とするようになります。しかし、エージェントはリクエストごとに取得、推論、取得のループを何度も実行することが多いため、取得の遅延が乗数効果となり、ここでの改善はエンドツーエンドの応答性の向上とコスト削減に直接つながります。

コンテキストエンジニアリングにおいて、取得は一度きりのステップではありません。エージェントとアプリケーションは、クエリを洗練させ、事実を検証し、根拠に基づいたコンテキストを構築し、タスクを完了するために、取得 → 推論 → 取得といったループを繰り返し実行します。このパターンは、エージェント型ワークフローや反復型検索拡張生成（RAG）においてよく見られます。検索はユーザーリクエストごとに何度も呼び出される可能性があるため、応答に遅延が生じ、インフラコストが増加します。

ベクトル検索のパフォーマンスが重要な理由

「15インチのノートパソコンが入る、防水性があり、金曜日までに届く60ドル以下の機内持ち込み用バックパックが必要です」という質問に、店員が答える場面を想像してみてください。

実際の運用環境では、アシスタントがベクトルクエリを1回発行して停止することはほとんどありません。適切なコンテキストを構築するために検索ループを実行し、各ステップは通常、在庫状況、地域、出荷約束、ブランドルール、ポリシー適格性などのフィルターによって制約されます。

ステップ1：意図を解釈し、制約に変換する。

エージェントはリクエストを構造化されたフィルタとセマンティッククエリに変換します。例えば、次のようなものです。

フィルター：在庫あり、ユーザーの郵便番号に配達可能、金曜日までに配達、価格60ドル未満、有効な出品
ベクトルクエリ：「機内持ち込み用バックパック 15インチノートパソコン対応防水」

ステップ2：候補を取得し、絞り込む。

適切な一致を見逃さないように、しばしばバリエーションを加えて検索を繰り返します。

「旅行用バックパック機内持ち込み可能ノートパソコン用スリーブ」
「防水通勤用バックパック 15インチ」
「軽量機内リュック」

各クエリは同じ適格性フィルターを使用します。なぜなら、無関係な項目や利用できない項目を取得することは、コンテキストの無駄になるからです。

ステップ3：詳細を確認し、リスクを軽減するために展開する。

エージェントは、最終的な回答に影響を与える主要な属性を再度確認するために取得を行います。

素材と耐水性に関する記述
寸法とノートパソコン収納部の適合性
返品ポリシーや保証の制約
在庫が少ない場合の代替オプション

これは、取得、推論、取得、組み立てという複数段階のコンテキストエンジニアリングです。

コンテキストエンジニアリングにおいてレイテンシと再現率が重要な理由

これらのやり取りには、ユーザーセッションごとに数十回のフィルタリングされたデータ取得呼び出しが含まれる場合があります。それにより、呼び出しごとのレイテンシがエンドツーエンドの応答時間に直接的な乗数となり、低い再現率は追加の再試行を強制したり、エージェントが対象アイテムを見逃す原因となり、回答の質を低下させます。

要点：コンテキストエンジニアリングされたシステムでは、フィルタリングされた近似最近傍法（ANN）は単一のルックアップではありません。これは制約下での反復処理であるため、大規模言語モデル（LLM）が最も目立つ要素である場合でも、ベクトル検索のパフォーマンスはレイテンシ、スループット、コストにすぐに現れます。

ベンチマーク

成果

グラフ2では、各点が1つのテスト構成を表しています。最も良い結果は左上に表示され、これは低いレイテンシで高い再現率が得られることを意味します。Elasticsearchの結果はOpenSearchよりも常に左上に近く、同じワークロード設定下でより優れた速度と精度を示しています。

いくつかの重要な洞察

s_n_r_value: size_numCandidates_rescoreOversampleの省略形（これらのテストではkとnumCandidatesはnumCandidatesと等しく設定されます）。例えば、 100_500_1 size=100、numCandidates=500、k=500、再スコアオーバーサンプル=1 を意味します。
再現率：その構成における測定Recall@100
平均レイテンシ（ミリ秒）：クエリごとの平均エンドツーエンドレイテンシ
スループット：1秒あたりのクエリ数
再現率（％）：ElasticsearchとOpenSearchの相対的な再現率向上率（Elasticsearch - OpenSearch）/OpenSearch
レイテンシXs：OpenSearchの平均レイテンシをElasticsearchの平均レイテンシで割った値
スループットX：Elasticsearchのスループットをオープンサーチのスループットで割った値

エンジン	`s_n_r_value`	リコール	平均レイテンシ（ミリ秒）	スループット	再現率（％）	レイテンシ Xs	スループット Xs
Elasticsearch	100_250_1	0.7704	25	534.75	9.70％	2.28	1.91
OpenSearch	100_250_1	0.7023	57.08	279.58
Elasticsearch	100_500_1	0.8577	25.42	524.14	7.20%	2.4	2
OpenSearch	100_500_1	0.8001	60.9	262.12
Elasticsearch	100_750_1	0.8947	29.67	528.09	5.72％	2.25	2.21
OpenSearch	100_750_1	0.8463	66.76	239.11
Elasticsearch	100_1000_1	0.9156	29.65	534.5	4.66％	2.46	2.44
OpenSearch	100_1000_1	0.8748	72.88	219.01
Elasticsearch	100_1500_1	0.9386	31.84	497.3	3.38％	2.71	2.68
OpenSearch	100_1500_1	0.9079	86.16	185.4
Elasticsearch	100_2000_1	0.9507	34.69	457.2	2.57%	2.98	2.96
OpenSearch	100_2000_1	0.9269	103.36	154.55
Elasticsearch	100_2500_1	0.9582	37.9	418.43	1.99％	3.28	3.26
OpenSearch	100_2500_1	0.9395	124.29	128.53
Elasticsearch	100_3000_1	0.9636	41.86	379.4	1.62％	3.46	3.44
OpenSearch	100_3000_1	0.9482	144.67	110.34
Elasticsearch	100_4000_1	0.9705	50.28	316.21	1.06%	3.87	3.85
OpenSearch	100_4000_1	0.9603	194.36	82.22
Elasticsearch	100_5000_1	0.9749	58.77	270.91	0.73%	4.43	4.41
OpenSearch	100_5000_1	0.9678	260.33	61.38
Elasticsearch	100_6000_1	0.9781	66.75	238.59	0.52%	4.91	4.89
OpenSearch	100_6000_1	0.973	327.44	48.81
Elasticsearch	100_7000_1	0.9804	74.64	213.49	0.38％	5.28	5.27
OpenSearch	100_7000_1	0.9767	394.24	40.53
Elasticsearch	100_8000_1	0.9823	82.28	193.59	0.27％	6.86	6.83
OpenSearch	100_8000_1	0.9797	564.14	28.33
Elasticsearch	100_9000_1	0.9837	90.08	176.96	0.16%	7.63	7.61
OpenSearch	100_9000_1	0.9821	687.25	23.25
Elasticsearch	100_10000_1	0.9848	97.64	163.31	0.08%	8.38	8.36
OpenSearch	100_10000_1	0.984	818.64	19.53

例えば、100_9000_1では、OpenSearchの平均取得時間687ミリ秒に対してElasticsearchは90ミリ秒であり、10ステップの取得ループでは約10×(687-90)=6秒の追加待機時間となります。

全ての結果をご覧ください。

調査手法

Pythonを使ってクエリを送信し、対応タイミングやその他の統計を追跡し、以下のクエリをエンジンに送信しました。ベクター検索エンジンのパフォーマンスは、そのコアパラメータ（考慮する候補の数、再スコアリングの積極性、返されるコンテキストの量など）をどのように調整するかによって決まることを覚えておいてください。これらの設定は、再現率（正解を見つける可能性）とレイテンシ（結果を得るまでの速さ）の両方に直接影響します。

ベンチマークでは、エージェント検索ループで通常調整するのと同じ候補、再スコア、結果サイズの設定を使用し、そのワークロード下でElasticsearchがどのように機能するかを測定しました。その後、同じ設定でOpenSearchをリファレンスとして実行しました。

OpenSearch

GET /_search
{
  "query": {
    "knn": {
      "": {
        "vector": [...],
        "k": ,
        "method_parameters": {
          "ef_search": 
        },
        "rescore": {
          "oversample_factor": 
        },
        "filter": {
          
        }
      }
    }
  },
  "size": ,
  "_source": {
    "excludes": [
      ""
    ]
  }
}

"size": : クライアントに返されたヒット数。このベンチマークでは、Recall@100を計算するために、結果のサイズは100です。
"k": : 最近傍候補の数。
"ef_search": : 検査するベクトルの数。
"oversample_factor": : 再スコアリングを行う前に取得される候補ベクトルの数。

Elasticsearch

GET /_search
{
  "query": {
    "knn": {
      "field": "",
      "query_vector": [...],
      "k": ,
      "num_candidates": ,
      "rescore_vector": {
        "oversample": 
      },
      "filter": {
        
      }
    }
  },
  "size": ,
  "_source": {
    "excludes": [
      ""
    ]
  }
}

"size": : クライアントに返されたヒット数。このベンチマークでは、Recall@100を計算するために、結果のサイズは100です。
"k": : 各シャードから返す最近傍の数。
"num_candidates": : knn検索を実行する際にシャードごとに考慮する最近傍候補の数。
"oversample": : 再スコアリングを行う前に取得される候補ベクトルの数。

例

Knn クエリ（ 100_500_1 ）は次のようになります。

OpenSearch

GET search_catalog_128/_search
{
  "query": {
    "knn": {
      "search_catalog_embedding": {
        "vector": [...],
        "k": 500,
        "method_parameters": {
          "ef_search": 500
        },
        "rescore": {
          "oversample_factor": 1
        },
        "filter": {
          "term": {
            "valid": true
          }
        }
      }
    }
  },
  "size": 100,
  "_source": {
    "excludes": [
      "search_catalog_embedding"
    ]
  }
}

Elasticsearch

GET search_catalog_128/_search
{
  "query": {
    "knn": {
      "field": "search_catalog_embedding",
      "query_vector": [...],
      "k": 500,
      "num_candidates": 500,
      "rescore_vector": {
        "oversample": 1
      },
      "filter": {
        "term": {
          "valid": true
        }
      }
    }
  },
  "size": 100,
  "_source": {
    "excludes": [
      "search_catalog_embedding"
    ]
  }
}

Terraformスクリプト、Kubernetesマニフェスト、ベンチマークコードとともに、完全な構成はこのリポジトリのes-9.3-vs-os-3.5-vector-searchフォルダで入手可能です。

クラスターの設定

私たちは、16 vCPUと64 GB RAMを備えた6台のe2-standard-16クラウドサーバーでテストを実行しました。各サーバーにおいて、検索エンジンノードを実行する各Kubernetesポッドに15個のvCPUと56GBのRAMを割り当て、そのうち28GBをJVMヒープ用に確保しました。

クラスターはElasticsearch 9.3.0とOpenSearch 3.5.0（Lucene 10.3.2）で実行しました。このベンチマークでは両方のシステムが同じLuceneバージョンを使用しているため、観測されたスループットとレイテンシの違いはLucene単独に起因するものではなく、各エンジンがフィルタリングされたk近傍法（kNN）による検索と再スコアリングをどのように統合し実行するかの違いを反映します。私たちは、3つのプライマリシャードと1つのレプリカ（合計6つのシャード、ノードごとに1つ）を持つ単一のインデックスを使用しました。

我々はまた、同じリージョン内の別のサーバーを使用してベンチマーククライアントを実行し、タイミング統計を収集しました。

データセット

このベンチマークでは、2,000万件のドキュメントを含む大規模なeコマーススタイルのカタログ埋め込みデータセットを使用しました。これは、実世界のフィルタリングされたベクトル検索を大規模なスケールで反映するように設計されています。

各ドキュメントはカタログ項目を表し、以下を含みます。

近似kNN検索に使用される128次元の密なベクトル埋め込み。
構造化されたメタデータフィールドを使用してフィルタリング（例：アイテムの有効性と可用性、およびその他のカタログ制約）を行うことで、適格なサブセット内でのみ最近傍を取得するという一般的な本番パターンを可能にします。

このデータセットを選んだ理由は、本番環境におけるエージェント型システムやRAG型システムで見られる主要なパフォーマンス上の課題を捉えているからです。つまり、ベクトル類似性だけでは不十分であり、検索はフィルタによって制約されることが多く、システムはこれらの制約の下で高い再現率を維持しながらレイテンシを低く抑える必要があるということです。より小規模なQAスタイルのデータセットと比較すると、2000万件の文書コーパスは、フィルタリングされたANNシステムが実際に直面する規模と候補数によるプレッシャーをより適切に反映しています。

まとめ

現代のAIアーキテクチャー、特にコンテキストエンジニアリングを中心としたアーキテクチャーにおいては、ベクトル探索の速度は些細な実装上の問題ではなく、乗数です。エージェントとワークフローが取得 → 推論 → 取得を繰り返す際、検索パフォーマンスはエンドツーエンドのレイテンシ、スループット、モデルに供給されるコンテキストの品質を直接形作ります。

当社のベンチマークでは、Elasticsearchは、OpenSearchと比べて、より低いレイテンシで一貫して高い再現率を達成しました。これは、類似ベクトルの取得だけでなく、正確性が「適切なドキュメントを取得できること」に左右されるシナリオで顕著でした。制御されたデータセットではその差は明確であり、本番環境では、大量の検索呼び出しを通じてそれらの利点が蓄積され、応答性が向上し、容量余裕が増加し、インフラストラクチャーコストが削減されます。

参考資料

jina-embeddings-v5-text：検索やインテリジェントアプリケーション向けのコンパクトで最先端のテキスト埋め込み

Scott Martens, Sofia Vasileva — Mon, 23 Feb 2026 00:00:00 GMT

Jina AIとElasticは、jina-embeddings-v5-textをリリースします。これは、すべての主要なタスクタイプにおいて、同等サイズのモデルの中で最先端のパフォーマンスを備えた、新しい高性能でコンパクトなテキスト埋め込みモデルのファミリーです。

このファミリーには2つのモデルが含まれます。

jina-embeddings-v5-text-small
jina-embeddings-v5-text-nano

これらのモデルは、埋め込みモデルの革新的な新しいトレーニングレシピの成果です。いずれも、同等サイズのモデルよりも何倍も優れたパフォーマンスを発揮し、メモリとコンピューティングリソースを節約し、リクエストへの応答を高速化します。

jina-embeddings-v5-text-smallモデルは6億7700万パラメーターを持ち、32768トークンのインプットコンテキストウィンドウをサポートし、デフォルトで1024次元の埋め込みを生成します。

jina-embeddings-v5-text-nano はその兄弟の約3分の1のサイズで、239Mのパラメーターと8192トークンのインプットコンテキストウィンドウを持ち、スリムな768次元の埋め込みを生成します。

モデル名	合計サイズ	インプットコンテキストウィンドウサイズ	埋め込みサイズ
jina-v5-text-small	677M パラメータ	32768トークン	1024次元
jina-v5-text-nano	2億3900万パラメーター	8192 トークン	768次元

これら2つのモデルは、MMTEB（Multilingual MTEB）ベンチマークの総合的なパフォーマンスにおいてクラス最高です。5億未満のパラメーターを持つモデルの中でjina-embeddings-v5-text-nanoはトップパフォーマーであり、2億5000万未満のパラメータを持ちながらも、7億5000万未満のパラメータを持つ多言語埋め込みモデルの中でjina-embeddings-v5-text-smallモデルがリーダーです。

これらのモデルは、Elastic Inference Service（EIS）やオンラインAPIを介して利用でき、ローカルホスティングでも利用できます。jina-embeddings-v5-textモデルにアクセスする方法については、以下の「はじめに」セクションを参照してください。

埋め込みモデルとセマンティックインデックスにより、検索アルゴリズムの精度が劇的に向上するだけでなく、以下のようなセマンティック類似性や意味抽出を伴うタスクにもさまざまな用途があります。

重複したテキストの検索。
言い換えや翻訳の認識。
トピックの発見。
推奨エンジン。
感情分析と意図分析。
スパムフィルタリング。
その他多数。

特徴

この新しいモデルファミリーには、関連性を高め、コストを削減するために設計された多くの特徴があります。

タスクの最適化

私たちは、jina-embeddings-v5-text のモデルを4つの幅広いタスクタイプに最適化しました。

タスク	ユースケースの例
検索	自然言語クエリを使用して検索し、ドキュメントのコレクション内で最も関連性の高い一致を取得。
テキストマッチング	意味的類似性、重複除去、言い換えや翻訳の整合性など。
クラスタリング	トピックの検出、ドキュメントコレクションの自動整理。
分類	ドキュメントの分類、感情と意図の検出、同様のタスク。

あるタスクを最適化するということは、通常、別のタスクを妥協する必要があることを意味します。そのため、ほとんどの埋め込みモデルは、1種類のタスクに対してのみ競争力のあるパフォーマンスを発揮します。しかし、jina-embeddings-v5-textモデルは、タスク固有のLow-Rank Adaptation（LoRA）アダプターをトレーニングすることで、妥協することなく4つのすべての分野に特化できます。

LoRAアダプターはAIモデルのプラグインの一種であり、全体のサイズをわずかに増やすだけでAIモデルの動作を劇的に変化させます。jina-embeddings-v5-text モデルファミリーでは、タスクごとにモデル全体を用意し、それぞれに何億ものパラメーターを持たせる代わりに、各タスクにコンパクトなLoRaアダプターを備えた1つのモデルだけを使用できます。これによりメモリ、ストレージ容量、推論コストを節約できます。

埋め込みの切り捨て

私たちは、 Matryoshka Representation Learningを使用してjina-embeddings-v5-textモデルをトレーニングしました。これにより、品質への影響を最小限に抑えながら、埋め込みを小さなサイズに削減できます。

デフォルトでは、jina-embeddings-v5-text-small は1024次元の埋め込みベクトルを生成し、各ベクトルは16ビットで表されます。大量のドキュメントコレクションの場合、格納するデータ量が多くなり、埋め込みで満たされたベクトルデータベースでの検索は、データベースのサイズと各格納されたベクトルが持つ次元の数に比例します。

しかし、埋め込みのサイズを半分に減らす（1024次元のうち512次元を切り捨てる）だけで、占有スペースを半分にしながら検索速度を2倍にすることができます。これはパフォーマンスに影響を与えます。情報を捨てると精度が低下しますが、下のグラフが示すように、埋め込みの半分を取り除いてもパフォーマンスはわずかしか低下しません。

埋め込みが少なくとも256次元であれば、精度の損失は比較的小さいはずです。しかし、そのレベルを下回ると、関連性と正確性はすぐに低下します。

このような埋め込みの切り捨てにより、ユーザーは精度と計算コストのバランスを自分で管理できるようになり、検索AIから大きな効率の向上と大幅なコスト削減を実現するツールを提供します。

堅牢な量子化

量子化は埋め込みのサイズを縮小するもう一つの方法です。量子化では、各埋め込みの一部を破棄するのではなく、埋め込み内の数値の精度を下げます。jina-embeddings-v5-text モデルは16ビット数値で埋め込みを生成しますが、これらの数値を四捨五入して精度と格納に必要なビット数を減らすことができます。最も極端な場合では、各数値を1ビット（0または1）に減らすことで、jina-embeddings-v5-textのデフォルトの1024次元の埋め込みを2キロバイトから128バイトに圧縮できます。これは、バイナリ量子化だけで94％の削減になります。切り捨ての場合と同様に、これによりメモリと計算コストが大幅に節約されますが、切り捨てと同様に、量子化によって埋め込みの精度は低下します。

jina-embeddings-v5-textモデルはElasticsearchのBetter Binary Quantizationに対応し、精度の損失を最小限に抑えるようにトレーニングされており、これらのモデルからの二値化埋め込みのベンチマークテストでは、非二値化モデルとほぼ同等の性能を示しています。二値化性能に関する詳細なアブレーション研究についてはテクニカルレポートをご参照ください。

多言語パフォーマンス

多くの埋め込みモデルは、多数の言語を含む素材でトレーニングされているため、多言語対応です。しかし、サポートされているすべての言語で、すべてが同じように優れたパフォーマンスを発揮するわけではありません。

MMTEBの多言語ベンチマークで211の言語を特定し、それらを分離して、言語ごとにモデルを類似のモデルと比較できるようにしました。下の画像は、私たちの結果をヒートマップとしてまとめたものです。各パッチは言語（ISO-639コードで識別）であり、緑色が濃くなるほど、類似モデルの平均と比較してモデルのパフォーマンスが優れていることを示します。

正確さは言語によって異なりますが、jina-embeddings-v5-text モデルは最先端か、世界のほとんどの言語でほぼ最新です。

詳細な多言語パフォーマンスについては、jina-embeddings-v5-textテクニカルレポートを参照してください。

ElasticにおけるJina：最先端のネイティブAIによる検索

jina-embeddings-v5-textモデルをEISで使用することで、Elasticsearchでネイティブに高パフォーマンスの多言語埋め込みモデルを実行できます。これは、完全に管理されたGPUアクセラレーションによる推論で、インフラを提供したりスケールする必要はありません。jina-embeddings-v5-text モデルは、最新のAI開発によって強化されたコンパクトで多言語対応のモデルで、成長するEISモデルカタログを拡張します。これらのモデルは、情報検索と標準データ分析ベンチマークにおいて最先端のパフォーマンスを発揮し、他に類を見ない世界規模の多言語サポートを提供します。

サイズが大きく異なる2つのモデルが用意されているため、ユーザーは用途や予算に応じてどちらが最適かを判断できます。さらに、より小さなサイズに切り詰められたり、より低い精度に量子化されたりしてもパフォーマンスを維持する堅牢な埋め込みにより、jina-embeddings-v5-text モデルはストレージと計算コストおよび処理遅延においてさらなる具体的な節約の機会を提供します。

jina-embeddings-v5-textファミリー、Jina Reranker、Elasticの高速ベクトルおよびBM25検索により、ユーザーはElasticのエンドツーエンドの最先端のハイブリッド検索にアクセスできるようになりました。最も関連性の高い結果が必要な場合、Retrieval-Augmented Generation（RAG）パイプライン、検索アプリケーション、またはデータ分析において、ElasticとJinaの検索AIモデルは、堅固で費用対効果の高い品質を提供します。

はじめに

jina-embeddings-v5-textモデルはEISに完全に統合されており、インデックス作成時にtype フィールドを semantic_textに設定し、inference_idフィールドでモデル（jina-embeddings-v5-text-smallまたはjina-embeddings-v5-text-nano）を指定することで使用できます（次の例を参照）

PUT multilingual-semantic-index
{
  "mappings": {
    "properties": {
      "content": {
        "type": "semantic_text",
        "inference_id": ".jina-embeddings-v5-text-small"
      }
    }
  }
}

# Ingest data about France
POST multilingual-semantic-index/_doc
{
  "content": "The capital of France is Paris"}

GET multilingual-semantic-index/_search
{
  "query": {
    "semantic": {
      "field": "content",
      "query": "What is the French capital?"
    }
  }
}

Elasticsearchはインデキシングおよび検索時に適切なLoRAアダプターを自動的に選択します。埋め込み次元（上記の「埋め込みの切り捨て」セクション参照）は、カスタム推論エンドポイントを作成する際に設定できます。

jina-embeddings-v5-textモデルの利用については Elasticsearchのドキュメントを参照してください。

詳細情報

jina-embeddings-v5-textモデルについて詳しくは、Jina AIブログのリリースノートとテクニカルレポートをお読みください。パフォーマンスとJina AIの革新的な新しいトレーニング手順に関するより詳細な技術情報が記載されています。これらのモデルのローカルダウンロードや運用については、Hugging Faceのjina-embeddings-v5-textコレクションページをご覧ください。

Jina AIモデルは CC-BY-NC-4.0ライセンスの下で利用可能ですので、自由にダウンロードして試すことができますが、商用利用の場合は Elastic Salesまでお問い合わせください。

最小スコアで意味的精度を確保

Mattias Brunnert — Fri, 20 Feb 2026 00:00:00 GMT

セマンティック検索は、検索の関連性を高めるための無限の機会をもたらしました。ELSER、E5、Jina Embedding v4などの高品質な高密度・低密度モデルは、キーワードの一致ではなく、単語の意味に基づいて関連性の高い結果を返します。ただし、セマンティック検索では、テールで無関係な結果が返されたり、インデックス内に関連する結果がないクエリに対して無関係な結果が返されることがあります。この低密度モデルと高密度モデルの特性により、ユーザーを混乱させたり、大規模言語モデル（LLM）の貴重なトークンを無駄にしたりする可能性があります。

この記事では、最小スコアパラメータを使用して、セマンティック検索結果の精度を高める方法を学びます。このブログ記事で示された例を試したい場合は関連するJupyterノートブックをご覧ください。

背景：精度と再現率

検索の関連性において、精度と再現率は重要な概念です。まだご存知でない読者の方は、これについて一読されることをおすすめします。以下は要約です。

精度：返される検索結果のうち、ユーザーに関連するものの割合。
再現率：コーパス内のすべての関連ドキュメントのうち、検索結果セットに含まれるドキュメントの割合。

つまり、言い換えれば、精度とは関連する結果のみを返すことであり、再現率はすべての関連する結果を返すことです。ご想像のとおり、これらは競合する要件であることが多いです。セマンティック検索は再現率が非常に高い傾向がありますが、精度に問題が生じる可能性があります。以下では、この特性について説明します。

最小スコアパラメーターの導入

「min_score」パラメーターを使用すると、最小スコアを設定して精度を向上させることができます。これにより、定義されたしきい値未満のスコアを持つ一致が削除され、結果セットが切り捨てられます。以下は簡単な例です。

GET search-movies/_search
{
  "retriever": {
    "linear": {
      "min_score": 4,
      "retrievers": [
        ...
      ]
    }
  }
}

スコアの正規化

最小スコアを設定するのは良いことですが、すべてのセマンティックモデルが静的しきい値に適したスコアを返すわけではありません。例えば、ELSERは無制限のスコアを返します。一部の高密度モデルのスコアは密集してクラスター化されており、特定のクエリのコンテキストでのみ意味を持ちます。

ほとんどのセマンティック検索では、「min_score」を適用する前に正規化アプローチを使用することをお勧めします。正規化により、ドキュメントのスコアが定義された範囲内に収まるようになります。Elasticsearchレトリバーは、「l2_norm」と「minmax」という2つの正規化機能を提供します。最もよく使用されるのは「minmax」です。これは理解しやすく、多くのシナリオでうまく機能するためです。「minmax」の主な特性は次のとおりです。

ドキュメントのスコアは0から1の間で配分されます。
最も高いスコアを持つドキュメントには常に1のスコアが付けられます。
最も低いスコアを持つドキュメントには常に0のスコアが付けられます。
- これにより、キーワード検索に適さなくなる可能性があります。詳細については「ハイブリッド検索」セクションをご覧ください。

以下は、 min_scoreを使用した正規化されたセマンティッククエリの例です。ランクウィンドウのサイズが500に増え、100から始まるより長い検索結果のリストを返すことができます。

GET search-movies/_search
{
  "size": 100,
  "_source": [
    "title", "overview"
  ],
  "retriever": {
    "linear": {
      "rank_window_size": 500,
      "min_score": 0.25,
      "retrievers": [
        {
          "normalizer": "minmax",
          "retriever": {
            "standard": {
              "query": {
                "semantic": {
                  "field": "overview_vector",
                  "query": "superhero movie"
                }
              }
            }
          }
        }
      ]
    }
  }
}

サイズは、通常の本番環境で見られるサイズよりも高い値に設定されています。これは、検索結果の品質を検査し、結果を調整できるようにするためです。

線形レトリバーを使用したハイブリッド検索

ハイブリッド検索の場合、最も簡単な方法は、すべてのスコアを正規化し、重みを割り当て、最小スコアを適用することです。合計が1になる重みを選択すると、合計スコアが0～1の範囲内に保たれることに注意してください。これにより、最終スコアの理解やmin_scoreのチューニングが容易になります。以下はその例です。

GET search-movies/_search
{
  "size": 100,
  "_source": ["title", "overview","keywords"],
  "retriever": {
    "linear": {
      "rank_window_size": 500,
      "min_score": 0.25,
      "retrievers": [
        {
          "weight": 0.6,
          "normalizer": "minmax",
          "retriever": {
            "standard": {
              "query": {
                "semantic": {
                  "field": "overview_vector",
                  "query": "superhero movie"
                }
              }
            }
          }
        },
        {
          "weight": 0.4,
          "normalizer": "minmax",
          "retriever": {
            "standard": {
              "query": {
                "multi_match": {
                  "query": "superhero movie",
                  "fields": ["overview","keywords", "title"],
                  "type": "cross_fields",
                  "minimum_should_match": "2"
                }
              }
            }
          }
        }
      ]
    }
  }
}

RRFを使用したハイブリッド検索

BM25では、多くの場合、 AND演算子やminimum_should_matchを使用するなど、他の手段で精度を制御します。さらに、単一で、正確で、まれな用語からなるクエリは、自然に検索結果の少ない検索結果を引き起こし、多くの場合、すべてが非常に関連性の高いものです。これにより、次のことが発生する可能性があります。

絶対的なBM25スコアが最大スコアのヒットに近い場合でも、結果内のさらに後ろの結果にはBM25レトリバーで低い正規化スコアが割り当てられます。
非常に低いBM25スコアをセマンティックスコアに追加すると、合計がセマンティックスコアとして近似されます。
BM25スコアの寄与が不足すると、ドキュメントがmin_score thresholdによって破棄される可能性があります。

解決策として、BM25とセマンティック結果を組み合わせるために、逆順位融合（RRF）を使用することができます。RRFは、各結果セット内の位置に焦点を当てることで、異なる検索アルゴリズムのスコアを比較するという課題を回避します。この場合、min_scoreはセマンティックレトリバーにのみ適用されます。

GET search-movies/_search
{
  "_source": ["title", "overview","keywords"],
  "retriever": {
    "rrf": {
      "rank_window_size": 500,
      "retrievers": [
        {
          "linear": {
            "rank_window_size": 500,
            "min_score": 0.25,
            "retrievers": [
              {
                "normalizer": "minmax",
                "retriever": {
                  "standard": {
                    "query": {
                      "semantic": {
                        "field": "overview_vector",
                        "query": "superhero movie"
                      }
                    }
                  }
                }
              }
            ]
          }
        },
        {
          "standard": {
            "query": {
              "multi_match": {
                "query": "superhero movie",
                "fields": ["overview", "keywords","title"],
                "type": "cross_fields",
                "minimum_should_match": "2"
              }
            }
          }
        }
      ]
    }
  }
}

まとめ

min_scoreを使用することで、セマンティック検索アルゴリズムの高い再現率によって引き起こされる結果セット内の誤検出の数を減らす方法を示しました。レトリバーの詳細については、こちらのブログ記事とElasticsearchのドキュメントをご覧ください。

Kubernetesでの依存関係管理

Nikos Fotiou — Thu, 19 Feb 2026 00:00:00 GMT

以下は、Kubernetes、Argo Workflows、Argo Events、Renovate CLIを使用して、更新を自動化し、Common Vulnerabilities and Exposures（CVE）に迅速に対処し、何千ものリポジトリ全体で新しいパッケージバージョンを効率的に伝播するセルフホスト型の依存関係管理プラットフォームを構築した方法です。

Elasticでの依存関係管理

Elasticでは、プライベートとパブリックの両方で、数百、数千ものリポジトリを管理する必要があります。重大なCVEが発見された場合、どのリポジトリが脆弱であるかを即座に回答して対処する必要があります。どれくらい早くパッチを当てられるでしょうか。セキュリティとは別に、生産性に関する質問も出てきます。手動のタスクにあまり時間をかけずに、新しいパッケージバージョンのリリースを、それに依存するすべてのリポジトリに迅速に広めるにはどうすればよいでしょうか。

依存関係管理の方法を探す最初のきっかけは、CVE削減のための自動更新を備えた安全な基盤を確立する必要性でした。依存関係管理に関するソリューションを慎重に検討した後、まずセルフホスト型のインフラストラクチャーの作業を開始しました。私たちは独自のKubernetesクラスターを使用して、Mend Renovate Community Self-Hostedを実行していました。ユーザーがセルフサービスでアクセスできる依存関係管理プラットフォームを提供するというアイデアがありました。

最初の実験が成功したため、より多くのチームが私たちのプラットフォームを導入し、日常のリポジトリのライフサイクルにおける更新やCVEパッチ適用に使用するようになりました。この展開は非常に速く、私たちはすぐにセルフマネージドインストールの限界に達しました。

課題：多数のリポジトリを持つ大規模な組織で依存関係管理プラットフォームを拡張するにはどうすればよいでしょうか。

当社の依存関係管理プラットフォームは、一度に1つのリポジトリを処理しており、シーケンシャルな処理モデルでは、当社の所有する多数のリポジトリに対応できませんでした。依存関係管理ツールの単一のインスタンスで拡大し続けるリポジトリのリストを処理するという概念に問題があることは、すでに認識していました。リポジトリはキュー内に留まり、場合によっては何時間も待機することがありました。リポジトリの50%以上は毎日処理されていませんでした。つまり、当社のリポジトリの50%以上がスキャン間でを24時間以上待っていたということです。

大規模なリポジトリでは、コードベースのサイズが大きく、PRが複数オープンしているため、ボトルネックが大きくなります。GitHub Webhookイベントによりこのシーケンスが中断されました。スキャンのタイミングが予測できないため、Automergeの信頼性が低下しました。スキャンの頻度についてはユーザーと約束していましたが、それを果たすことができませんでした。

社内で構築するという決定：Elastic独自のスケールとセキュリティのニーズに対応

商用オプション、具体的にはMendのRenovate Self-Hosted Enterprise Self-Hosted版も検討しましたが、Elastic社内ではいくつかの主要な取り組みが進行中でした。

社内プラットフォームを構築するという当社の決定は、Elastic の特定の譲れない要件を満たすには、徹底的にカスタマイズされたソリューションしかないという認識に基づいていました。

内部開発者プラットフォームへの投資：当時、私たちはすでに内部開発者プラットフォームに多額の投資を行っていました。それぞれのサービスをこれに適合させる方法について議論し、設計していました。つまり、依存関係管理プラットフォームの独自のルールと実践をテストドライブするというニーズがあり、それに加えて、新しいガイドラインが導入されることになり、イベントに先立ってプラットフォームを設計したいと考えていました。
ネイティブ統合とワークフローのカスタマイズ：社内ツールや社内プロセスとの簡単な統合が必要で、例えば、Service Catalog（Backstage）を使用して構成をコードとして一元管理したいと考えていました。Backstageの使用に関しては、特定のニーズがあり、当社のプラットフォームと互換性を持たせたいと考えていました。したがって、Renovate Self-Hosted APIをBackstageの自動化と併用することは可能ですが、これでは当社の内部プロセスを完全にカバーすることはできません。
Elastic特有の徹底したセキュリティ対策：当社の厳格なセキュリティコンプライアンスには、当社のエコシステムに合わせた特注のセキュリティメカニズムが必要でした。「非人間的アイデンティティ」の使用の強化に取り組んでいました。このアクセス強化の仕組みにより、GitHub への認証を行う非標準の手段は、この内部実装をサポートしていない市販のツールでは機能しなくなります。当社のワークフローには、親子ワークフローの秘密の暗号化パターンを実装し、一時的な使い捨てのGitHubトークンを使用することが含まれていました。社内で構築することが、これらの独自のセキュリティレイヤーを組み込み、複雑なマルチクラウド環境全体の攻撃対象領域を最小限に抑える唯一の実用的な方法でした。

解決策：依存関係管理のためのワークフローオーケストレーション

解決策の構築は、既に使用している依存関係管理ツールを基に構築し、それを置き換えたり他のソリューションを探したりするのではなく、その上に構築することから始まりました。その可能性の兆しはあり、その柔軟性は組織全体のさまざまなニーズにとって重要です。さまざまなソリューションを検討しましたが、最終的に決め手となったのは、カバーしなければならない大きくて時に特殊なニーズでした。私たちは、各リポジトリが独自に処理され、ボトルネックを解消して成長に備えられる、信頼性が高くスケーラブルな依存関係管理プラットフォームを構築することを決定しました。

プラットフォームは次の3つのコア原則に従って設計しました。

1. 並列処理

各リポジトリに独自の依存関係管理処理環境が与えられます。キューはなくなります。同時実行性は、消費するリソースの数によってのみ制限されます。また、GitHubでレート制限を受けないようにスマートな分散スケジューリングを適用しました。

2．セルフサービス可能

Service Catalog（Backstage）を使用して、新しいリポジトリを自動的にオンボードして管理します。独自のリソース定義を使用して、エンドユーザーにリポジトリの処理頻度を選択するオプション、スケジュールに割り当てるリソースの量、何らかの理由で処理をオンまたはオフにするオプションを提供します。ユーザーのニーズが進化し、新しいインストールに慣れてきたら、そのようにしてさらに多くのオプションを追加していく予定です。

3. シークレットのスコープと名前空間の分離の縮小

セキュリティを強化するために、各ワークフローの開始時に生成される一時的なGitHubトークンを依存関係管理ポッドに提供します。さらに、ワークロードを特定の名前空間に分離して、必要なシークレットのみが提供されるようにします。Kubernetes RBACを使用して、各依存関係管理ワークフローでアクセスできるシークレットを制御します。また、暗号化を使用して、親ワークフローから子ワークフローにGitHubトークンを伝播します。

Kubernetesを使用してプラットフォームを再構築し、Kubernetesのパワーを活用しました。Argo Workflowsはプロセスのロジックを強化し、Renovate CLIはリポジトリを一度に1つずつスキャンして処理するように設定されています。

ここで素晴らしい点は、実績のあるオープンソースプロジェクトを独自の方法で使用し、すべてのプロジェクトに新しい実用的な例を提供すると同時に、開発速度を増幅し、チームのCVE削減を強化していることです。

依存関係管理アーキテクチャー：4つのマイクロサービス

このプラットフォームは、次の4つのカスタムビルドコンポーネントで構成されています。

ワークフローオペレーター（Go/Kubebuilder）

3つのカスタムリソース定義（CRD）を通じてワークフローライフサイクルを管理するKubernetesオペレーター：

RepoConfig CRD：リポジトリ設定のための信頼できる唯一の情報源。

RepoConfigはオペレーターで次のように定義されています。

// RepoConfig is the Schema for the repoconfigs API
type RepoConfig struct {
	metav1.TypeMeta `json:",inline"`

	// metadata is a standard object metadata
	// +optional
	metav1.ObjectMeta `json:"metadata,omitempty,omitzero"`

	// spec defines the desired state of RepoConfig
	// +required
	Spec RepoConfigSpec `json:"spec"`

	// status defines the observed state of RepoConfig
	// +optional
	Status RepoConfigStatus `json:"status,omitempty,omitzero"`
}

RepoConfigのインスタンスは次のようになります。

apiVersion: workflows.elastic.co/v1
kind: RepoConfig
metadata:
  generation: 3
  name: elastic-test-repo
  namespace: dependency-management-operator
spec:
  owner: group:my-team
  renovate:
    config:
      resourceGroup: SMALL
      runFrequency: 4h
    enabled: true
  repository: elastic/test-repo

親CRD：スケジュールされたスキャンのCronWorkflowを管理します。

親コントローラの調整ループ内では、ワークフロー設定が作成され、最新の状態に保たれ、必要に応じて削除されることを確認します。

まず、ワークフローのグローバル設定を取得します。

func (r *ParentReconciler) reconcileSubResources(ctx context.Context, req ctrl.Request, parent *workflowsv1.Parent) error {
	logger := logf.FromContext(ctx)
	logger.Info("Reconcile SubResources for Parent", "name", req.NamespacedName)
	wfSet := workflowsettings.WorkflowSettings{
		RunFrequency:   parent.Spec.RunFrequency,
		ResourceGroups: "parent",
	}

mutexのconfigmapが最新であることを確認し、類似したワークフローが同時に動作しないようにします:

	cfMngr := resources.NewConfigMapManager(r.Client, r.Scheme, r.OperatorConfig.ParentNamespace)
	err := cfMngr.CreateOrUpdateSyncMutexConfigmap(ctx, fmt.Sprintf("%s%s", r.OperatorConfig.ResourcesPrefix, r.OperatorConfig.SyncMutexCfgMapName), strings.TrimPrefix(parent.Spec.Repository, "elastic/"), r.OperatorConfig.SemaphoreConcurrencyLimit)

そして、Cronワークフローとワークフローテンプレートを作成または更新する構造体であるワークフローマネージャーを作成します。

	wfMngr := resources.NewArgoWorkflowManager(r.Client,
		r.Scheme,
		curateResourceName(
			strings.ReplaceAll(parent.Spec.Repository, "/", "-"),
		),
		parent.Namespace,
		"parent-workflow",
		false).
		WithOrganization(r.OperatorConfig.GitHubOrg).
		WithRepoName(parent.Spec.Repository).
		Init(true, true).
		WithPrefix(r.OperatorConfig.ResourcesPrefix).
		WithWfTemplateName(r.OperatorConfig.ParentWorkflowTemplate).
		WithResources(wfSet.GetResourceCategory()).
		WithSchedule(wfSet.GetCronSchedule()).
		WithImagePullSecrets([]corev1.LocalObjectReference{{
			Name: r.OperatorConfig.WorkflowImagePullSecrets,
		}}).
		AddArgument(true, true, "extra_cli_args").
		SetArgument(true, false, "extra_cli_args", "none").
		AddTemplate(resources.NewParentDAGTemplateInstance()).
		AddTemplate(resources.NewWorkflowsTemplateInstance("check-child-workflows", r.OperatorConfig.WorkflowImagePullPolicy, r.OperatorConfig.WorkflowNodeSelector)).
		AddTemplate(resources.NewWorkflowsTemplateInstance("security", r.OperatorConfig.WorkflowImagePullPolicy, r.OperatorConfig.WorkflowNodeSelector)).
		AddTemplate(resources.NewWorkflowsTemplateInstance("submit-child-workflow", r.OperatorConfig.WorkflowImagePullPolicy, r.OperatorConfig.WorkflowNodeSelector))
	wfMngr.OverWriteCommand("submit-child-workflow", r.OperatorConfig.ChildNamespace)
	wfMngr.OverwriteWfTemplateName("parent-wftmpl")
	wfMngr.AddSynchronization(fmt.Sprintf("%s%s", r.OperatorConfig.ResourcesPrefix, r.OperatorConfig.SyncMutexCfgMapName), "{{workflow.parameters.repo_name}}")
	err = wfMngr.CreateOrUpdateCronWorkflow(ctx)
	if err != nil {
		return fmt.Errorf("failed to create or update cron workflow: %w", err)
	}
	err = wfMngr.CreateOrUpdateWorkflowTemplate(ctx)
	if err != nil {
		return fmt.Errorf("failed to create or update workflow template: %w", err)
	}
	return nil

子CRD：リポジトリごとのリソースを使用してWorkflowTemplatesを管理します。

子コントローラにーは親と同様の調整義務がありますが、今回は親ワークフローによってトリガーされる子名前空間内のワークフローテンプレートを担当します。

func (r *ChildReconciler) reconcileSubResources(ctx context.Context, req ctrl.Request, child *workflowsv1.Child) error {
	logger := logf.FromContext(ctx)
	logger.Info("Reconcile SubResources for Child", "name", req.NamespacedName)
	wfSet := workflowsettings.WorkflowSettings{
		ResourceGroups: child.Spec.ResourceCategory,
	}
	wfMngr := resources.NewArgoWorkflowManager(r.Client,
		r.Scheme,
		curateResourceName(
			strings.ReplaceAll(child.Spec.Repository, "/", "-"),
		),
		child.Namespace,
		"runner",
		true).
		Init(false, true). // only manage workflow template
		WithPrefix(r.OperatorConfig.ResourcesPrefix).
		WithSuffix("-child-wftmpl").
		WithRepoName(child.Spec.Repository).
		WithOrganization(r.OperatorConfig.GitHubOrg).
		WithResources(wfSet.GetResourceCategory()). // will override resources of presets if set
		WithImagePullSecrets([]corev1.LocalObjectReference{{
			Name: r.OperatorConfig.WorkflowImagePullSecrets,
		}}).
		AddTemplate(resources.NewWorkflowsTemplateInstance("runner", r.OperatorConfig.WorkflowImagePullPolicy, r.OperatorConfig.WorkflowNodeSelector)).
		AddArgument(false, true, "repo_full_name").
		AddArgument(false, true, "repo_name").
		AddArgument(false, true, "encrypted_token").
		AddArgument(false, true, "extra_cli_args")
	wfMngr.OverWriteCommand("runner", r.OperatorConfig.ChildNamespace)
	err := wfMngr.CreateOrUpdateWorkflowTemplate(ctx)
	if err != nil {
		return fmt.Errorf("failed to create or update workflow template: %w", err)
	}
	return nil
}

マルチコントローラーパターンでは明確な分離が実現されます。RepoConfigコントローラーはオンボーディング／オフボーディングを処理し、親コントローラーはスケジュールを管理し、子コントローラーは実行テンプレートを処理します。

GitHuイベントゲートウェイ（Go）

GitHubのwebhookを受信し、署名を検証し、組織／リポジトリでフィルタリングし、Argo Eventsにルーティングするセキュアなwebhookプロキシです。依存関係ダッシュボードのインタラクション、PRイベント、パッケージの更新に対応する10個の異なるセンサーを構築しました。

このゲートウェイは、以下の方法でGitHub Appsとの統合を可能にします。

セキュリティのため、受信したGitHub webhook署名を検証しています。
有効なイベントを、すべての関連ヘッダーと認証とともにArgo Events EventSourceに転送します。
また、EventSourceにAuthSecretを設定し、これを転送されるリクエストのBearerヘッダーとして提供します。
ログ、メトリクス、再試行ロジックを提供します。

各GitHubイベントリクエストに対して様々な検証を行います。

以下のHTTP属性が存在することを確認します。

// ValidateRequestMethod checks if the request method is POST.
func ValidateRequestMethod(r *http.Request) error {
	if r.Method != http.MethodPost {
		return fmt.Errorf("method not allowed, only POST is accepted")
	}
	return nil
}

// ValidateRequiredHeaders checks for required GitHub headers.
func ValidateRequiredHeaders(r *http.Request) error {
	eventType := r.Header.Get("X-GitHub-Event")
	deliveryID := r.Header.Get("X-GitHub-Delivery")
	signature := r.Header.Get("X-Hub-Signature-256")
	if eventType == "" || deliveryID == "" || signature == "" {
		return fmt.Errorf("missing required GitHub headers")
	}
	return nil
}

// ValidateUserAgent checks that the User-Agent header starts with GitHub-Hookshot/
func ValidateUserAgent(r *http.Request) error {
	userAgent := r.Header.Get("User-Agent")
	if !strings.HasPrefix(userAgent, "GitHub-Hookshot/") {
		return fmt.Errorf("invalid User-Agent")
	}
	return nil
}

また、各リクエストの署名とその構成も検証します。

// ValidateSignature verifies the GitHub webhook signature.
func ValidateSignature(r *http.Request, secret string) ([]byte, error) {
	payload, err := GitHub.ValidatePayload(r, []byte(secret))
	if err != nil {
		return nil, fmt.Errorf("invalid GitHub signature: %w", err)
	}
	return payload, nil
}

// ValidateAllowedOwner checks if the organization login is in the allowed organizations list.
func ValidateAllowedOwner(payload []byte, allowedGitHubOrganizations []string) (string, error) {
	var orgLogin string
	var payloadMap map[string]any
	if err := json.Unmarshal(payload, &payloadMap); err == nil {
		if orgObj, ok := payloadMap["organization"].(map[string]any); ok {
			if login, ok := orgObj["login"].(string); ok {
				orgLogin = login
			} else if name, ok := orgObj["name"].(string); ok {
				orgLogin = name
			}
		}
	}
	if !slices.Contains(allowedGitHubOrganizations, orgLogin) {
		return orgLogin, fmt.Errorf("organization login not allowed")
	}
	return orgLogin, nil
}

最後に、イベントの種類に基づいてArgo Eventsにルーティングします。

	// Map eventType to Argo `EventSource` path
	var endpoint string
	switch eventType {
	case "push":
		endpoint = "/push"
	case "issues":
		endpoint = "/issues"
	case "pull_request":
		endpoint = "/pull-requests"
	default:
		slog.Info("Ignoring unhandled event type", "event_type", eventType, "delivery_id", deliveryID)
		w.WriteHeader(http.StatusOK)
		_, _ = w.Write([]byte("ok"))
		return
	}
	forwardURL := h.config.ArgoEventSourceForwardURL + endpoint

Argo Events側では、10個のセンサーがArgo Events EventBusで新しいイベントを監視します。

apiVersion: argoproj.io/v1alpha1
kind: Sensor
metadata:
  name: {{ .Values.sensors.packageUpdateOnDefaultBranch.name }}
  namespace: {{ .Release.Namespace }}
spec:
  eventBusName: {{ .Values.eventBus.name }}

次に、スクリプトは各センサーのロジックを適用します。

script: |
          local e = event
          if not e or not e.body or not e.body.repository then
            return false
          end

          -- e.g., "refs/heads/main"
          local ref = e.body.ref
          local default_branch = e.body.repository.default_branch
          if not ref or not default_branch then
            return false
          end

          local expected = "refs/heads/" .. default_branch
          if ref ~= expected then
            return false
          end

        {{- if .Values.sensors.packageUpdateOnDefaultBranch.packageFiles }}
          patterns = { {{- range $i, $f := .Values.sensors.packageUpdateOnDefaultBranch.packageFiles }}{{ if $i }}, {{ end }}"{{ $f }}"{{- end }} }
        {{- end }}

          local function anyMatch(path)
            if type(path) ~= "string" then return false end
            for _, pat in ipairs(patterns) do
              -- match filename at repo root, or anywhere under subdirs
              if path:match(pat) or path:match(".+/" .. pat) then
                return true
              end
            end
            return false
          end

          local function filesContainPackage(paths)
            if type(paths) ~= "table" then return false end
            for _, p in ipairs(paths) do
              if anyMatch(p) then return true end
            end
            return false
          end

          -- Inspect all commits (GitHub includes added/modified/removed lists)
          local commits = e.body.commits
          if type(commits) ~= "table" then
            -- Fallback: some payloads include only head_commit
            commits = {}
            if type(e.body.head_commit) == "table" then
              table.insert(commits, e.body.head_commit)
            end
          end

          for _, c in ipairs(commits) do
            if filesContainPackage(c.added) or filesContainPackage(c.modified) or filesContainPackage(c.removed) then
              return true
            end
          end

          return false

Backstage Syncer（Go）

このプロセスでは、Service Catalog（Backstage）に対してRepository Real Resource Entitiesのポーリングを行い、それらをRepoConfig CRDに変換し、プラットフォームを設定変更と同期させます。変更は3分以内に適用されます。

repoMap := make(map[string]map[string]interface{})
			for i := range entities {
				entity := &entities[i]
				if entity.Spec.Type != "GitHub-repository" {
					continue
				}

				implRaw, err := json.Marshal(entity.Spec.Implementation)
				if err != nil {
					logger.Error("Failed to marshal implementation", "error", err)
					continue
				}

				var implMap map[string]interface{}
				err = json.Unmarshal(implRaw, &implMap)
				if err != nil {
					logger.Error("Failed to unmarshal implementation map", "error", err)
					continue
				}
				var repoName string
				if specMap, ok := implMap["spec"].(map[string]interface{}); ok {
					if repo, ok := specMap["repository"].(string); ok {
						repoName = repo
					}
				}
				if repoName == "" {
					continue
				}

				var workflowsRaw []byte
				if v, ok := implMap["spec"].(map[string]interface{}); ok {
					if r, ok := v["renovate"]; ok {
						workflowsRaw, _ = json.Marshal(r)
					} else {
						workflowsRaw = []byte(`{}`)
					}
				} else {
					workflowsRaw = []byte(`{}`)
				}

				var workflowsWithDefaults schema.WorkflowsMetadata
				err = json.Unmarshal(workflowsRaw, &rworkflowsWithDefaults)
				if err != nil {
					logger.Error("Failed to unmarshal workflows config", "error", err)
					continue
				}

				workflowsMap := map[string]interface{}{
					"enabled":        workflowsWithDefaults.Enabled,
					"require_pr":     workflowsWithDefaults.RequirePr,
					"resource_group": string(workflowsWithDefaults.ResourceGroup),
					"run_frequency":  string(workflowsWithDefaults.RunFrequency),
				}
				repoMap[repoName] = map[string]interface{}{
					"renovate": workflowsMap,
					"owner":    entity.Spec.Owner,
				}
			}
			logger.Info("Fetched GitHub Repository data from Backstage", "repository_count", len(repoMap), "status_code", resp.StatusCode)

最後に、そのデータをRepoConfigインスタンスに書き込みます。

ワークフローベース（混合：JavaScript、Go、Helm）

基盤レイヤーには、Helmチャート、JavaScript設定、暗号化サポート付きのRenovate CLI用のGoラッパー、Alpineパッケージ用のカスタムAPKインデクサーが含まれています。

セルフサービス構成

チームはBackstageを通じてリポジトリを宣言的に設定します。

spec:
  renovate:
    enabled: true
    config:
      resourceGroup: LARGE      # SMALL | MEDIUM | LARGE  
      runFrequency: "0 */4 * * *"  # Every 4 hours

リソースグループはリポジトリサイズに基づいてCPUとメモリを割り当てます。

SMALL: 500m CPU、1Giメモリ。
MEDIUM: 1000m CPU、2Giメモリ。
LARGE: 2000m CPU、4Giメモリ。

構成はバージョン管理され、監査可能で、自動的に適用されます。

親子パターン

実行モデルは親子ワークフローパターンを使用しています。

親ワークフロー：スケジュールに従って実行される軽量のCronワークフロー。シークレットを暗号化し、スキャンを実行するかどうかを決定し、子プロセスに構成を渡します。
子ワークフロー：Renovate CLIが実行される一時的なポッド。リソースを動的に割り当て、シークレットを単独で復号し、完了後に終了します。

この分離により、セキュリティ（親レベルで暗号化されたシークレット）、リソースの最適化（親は最小限のリソースを使用）、拡張性（子が並行して実行）が提供されます。

結果

パフォーマンスの変化

変更前：一度に1つのリポジトリで、一部のリポジトリは、おそらく1日以上、1日あたり1,000回未満のスキャンでも処理されませんでした。
変更後：100以上の同時スキャン、通常は8,000件のスキャンと1日あたり最大10,000件の記録スキャン。制限は、当社が費やすリソースの量とGitHubのレート制限の扱い方のみです。

費用対効果

奇妙に聞こえるかもしれませんが、1 日に8,000件のポッドを実行すると、同じ結果を達成するために 1 つの長時間実行ポッドを実行するよりもはるかに安価に同じ結果を得ることができます。

以前の設定では、単一のインスタンスを実行していて、調子が良い日には500～600回のスキャンを実行していました。同時に、異なる種類のリポジトリが同じポッドで実行されることから、最大のものに合わせてポッドのサイズを設定する必要がありました。そのサイズは、現在の8つのCPUと16GBのメモリを搭載する特大モデルよりもはるかに大きくなります。

現在の日次出力を満たすには、単一のポッドなら12日間実行する必要があります。それでは、12日間稼働する単一のポッドのコストを、毎日稼働する8,000個の「MEDIUM」サイズのポッドのコストと比較すると、新しい設計は同じスキャン出力に対してはるかに効率的です。

メトリック	シナリオ A（ワークフロー）	シナリオB（長時間実行される単一のポッド）
セットアップ	8,000ポッド（1 vCPU／2GB）	1 pod (8 vCPU / 16 GB)*
期間	それぞれ10分	12日間連続
総作業時間	1,333計算時間	288計算時間
総コスト	65.83ドル	$113.75

しかし、ワークロードのデフォルト設定が「SMALL」に設定されていることを考慮に入れましょう。大多数は0.5 CPUと1G RAMで正常に実行されており、規模を増やす変更する必要があるのはごく一部です。ワークロードの60％が「SMALL」で実行され、30％が「MEDIUM」で実行され、10％が「LARGE」で実行されている場合（これが実際に近い値です）に何が起こるかを見てみましょう。

メトリック	シナリオA（混合群）	シナリオB（長時間実行）
戦略	8,000ポッド（混合サイズ）	1 pod (8 vCPU / 16 GB)*
期間	それぞれ10分	12日間連続
総コスト	$52.66	$113.75
節約額	$61.09（54%安価）	—

同じ出力に対して、現在の設定ではるかに費用対効果に優れていることがわかります。

強化されたセキュリティ

一時的なGitHubトークン（数分間の公開と数日間の公開の比較）。
ロールベースアクセス制御（RBAC）境界による名前空間の分離。
親ワークフロー内の保存時のシークレットの暗号化。
直接のVaultアクセスを削除。

予測可能なパフォーマンス

スキャン頻度が保証されれば、最終的にサービスレベル目標（SLO）を設定できます。Automergeは確実に動作します。チームは、プラットフォームが約束どおりの成果をもたらすと信頼しています。

重要なアーキテクチャ上の決定

ここでは、プラットフォームの外観を形作る重要な設計上の決定事項をいくつか紹介します。

親子ワークフローが必要な理由

多層防御戦略を実施するためにこのパターンを採用しました。価値の高い認証情報（GitHubアプリのシークレットなど）を専用のロックダウンされた名前空間に制限することで、RBACを使用して、一時的な実行ポッドが機密データに恣意的にアクセスできないようにします。最近のサプライチェーンの脆弱性（例えば、"Shai Hulud"継続的インテグレーション/継続的デリバリー[CI/CD]攻撃）は、動的スクリプトを実行するランタイム環境を認証情報ストアから分離することの重要性を実証しています。

同時に、この分離により、きめ細かなリソースの最適化が可能になります。「親」ワークフローは軽量のオーケストレーターとして機能し、最小限のフットプリントで動作します。一方、「子」ワークフローは計算集約型の依存関係スキャンを処理します。この分離により、各レイヤーに個別の調整ロジックを適用し、スケジューリングとセキュリティインフラ（親）の管理制御を維持しながら、実行パラメータ（子）の制御をユーザーに許可することで、ライフサイクル管理を簡素化できます。

セルフサービス可能な理由

リポジトリ構成のボトルネックとなる当社のチームを排除することは重要な要件でした。私たちの使命は、多様なユースケースをサポートできるスケーラブルなセルフサービスプラットフォームを設計することでした。リポジトリの膨大な量を考慮すると、すべての構成変更のゲートキーパーとして機能することは持続不可能であると認識しました。代わりに、私たちは「レール」（インフラストラクチャとガードレール）を提供しながら、ユーザーが「列車」（実行とカスタマイズ）を運転できるようにするという支援の哲学を採用しました。こうしたチームの自律性へのシフトが、ユーザーがシステムをそれぞれの具体的な業務ニーズに合わせてカスタマイズできるようにすることで、生産性を大幅に向上させると信じています。

Kubernetes Operatorパターンを選択した理由

上記で述べたように、基本的な設計原則は、プラットフォームが完全にセルフサービス可能であることを確保することでした。ユーザーの意図（スキャンの切り替え、スケジューリング頻度の調整、ランタイムリソース制限の調整など）を捉え、それらの変更を基盤となるワークフローに瞬時に反映する自動化されたメカニズムが必要でした。将来の要件を予測し、システムは簡単に拡張可能である必要もありました。

これを実現するために、カスタムの依存関係管理Kubernetes Operatorを開発しました。設定のインターフェースとしてCRDを使用することで、Kubernetesネイティブな調整ループを確立しました。このオペレーターは、ユーザーが定義した望ましい状態を継続的に監視し、ワークフローインフラに必要な更新を自動的に管理します。これにより、イベント駆動型のシームレスな操作が保証され、プラットフォームのロジックが裏側ですべての複雑さを処理します。

GitHubイベントゲートウェイを設計する理由

プラットフォームの応答性を高めるために、イベントドリブンアーキテクチャー（EDA）の採用が不可欠でした。CronWorkflowsは信頼性の高いベースラインスケジュールを提供しましたが、ユーザーがダッシュボードから手動でスキャンをトリガーするなどアドホック実行を処理できる俊敏性が必要でした。これを達成するために、ペイロードの整合性を検証し、リクエストをインテリジェントにルーティングするための専用のインジェストゲートウェイが必要でした。

既存のソリューション、特にArgoのネイティブGitHub EventSourceを評価しましたが、 運用上のオーバーヘッドや厳格な GitHub APIクォータ（例：リポジトリごとのwebhook制限）に関する重大なリスクを特定しました。結果として、これらの制限からインフラを切り離すためにカスタムゲートウェイを構築しました。

重要なのは、このゲートウェイが移行中に戦略的なトラフィック制御ポイントとして機能したことです。これはスイッチとして機能し、レガシーシステムから新しいインフラストラクチャへの段階的かつ詳細なロールアウト（トラフィックの移行）を実行できるようになりました。これにより、数千のリポジトリのオンボーディングが「ビッグバン」的な切り替えではなく、制御されたリスクのないプロセスになることが保証されました。

教訓

私たちが学んだいくつかの教訓は Elasticソースコードと密接に関連しています。

顧客第一：プラットフォームはユーザーのために構築されます。したがって、ユーザーのニーズを最優先にすることが重要です。これにより、プラットフォームは、ユーザーとの摩擦を減らし、プラットフォームの拡張を簡素化し、導入を容易にする、効率的に設計されたインフラストラクチャとアプリケーションに形作られます。
空間と時間：時には、最も抵抗の少ない道が不安定な状況につながることがあります。当初、既存の順次処理モデルを最適化しようとしましたが、問題は解決されず、むしろ複雑さが増し、未解決の問題が増えただけでした。プラットフォームを並列処理で再構築するという大胆な決定には、多大な事前開発が必要でしたが、最終的には持続可能なプラットフォームの成長への道を切り開き、日々の面倒な管理業務を事実上排除しました。
ITと依存関係：プラットフォームは単独では動作できません。その成功は、より広範なエコシステムとどれだけうまく統合できるかによって決まります。当社の場合、シームレスなサービスオンボーディングのための信頼できる情報源となるため、Backstageとの統合は極めて重要でした。同様に、Artifactoryに接続することで、プライベートパッケージの更新を効率的に管理できるようになります。他にも重要な統合は多々あります。
進歩、シンプルな完璧さ：実装全体を通じて、当初の想定を継続的にプレッシャーテストし、新たな障壁が出現するたびにそれに適応しました。完璧主義に陥るのではなく、反復的なアプローチを採用し、課題に一つずつ取り組み、実際の状況に合わせて移行戦略を調整しました。

次のステップ

このプラットフォームの提供により、プラットフォームのUXと効率性の向上に役立つ、より有意義な作業が可能になります。いくつかの例を以下に示します。

自動マージの採用を増やし、ガードレールを設定

自動マージ機能により、面倒な手動タスクが排除され、チームの速度が大幅に向上します。しかし、この速度の向上が安全性を犠牲にすることのないよう、厳格なガードレールを確実に設置する必要があります。

エンドユーザーエクスペリエンスに関するオブザーバビリティの向上

私たちのロードマップにおける重要な優先事項は、プラットフォームレベルだけでなく、特にエンドユーザーの視点からオブザーバビリティを高めることです。インフラの指標を捉えるのは簡単ですが、実際のユーザー体験を理解するにはより深い洞察が必要です。コアユーザー中心の重要業績評価指標（KPI）を定義し、テレメトリがエスカレートする前の摩擦点やパフォーマンスの問題を検出できるように取り組んでいます。

より広範な採用を促進するための障壁の除去

将来を見据えた当社の優先事項は、プラットフォームの採用を妨げている障壁を特定して取り除くことです。新しい統合の開発や特定の機能セットの展開が必要な場合でも、当社はデータ主導の計画に取り組んでいます。当社は拡張性を重視したプラットフォームの構築に成功しました。今後は、その潜在能力を最大限に引き出すことに注力していきます。

全体像

依存関係管理ワークフロープロジェクトは、より広範な原則を示しています。つまり、デフォルトの導入モデルを超えてオープンソースツールをスケールする必要がある場合、Kubernetesネイティブパターンが前進する道を提供するということです。

以下を取り入れることで、

構成用のCRD
ライフサイクル管理のためのオペレーター
応答性を高めるイベント駆動型アーキテクチャ
導入用のGitOps

管理するリポジトリの数に関係なく拡張できるオーケストレーションを構築しました。1つのリポジトリをスキャンするパフォーマンスは、管理するリポジトリが100個でも1,000個でも同じです。

重要なCVEが発表されても、数時間ではなく数分で回答が得られます。それがボトルネックと競争優位の違いです。

謝辞

このプラットフォームは優れたオープンソースツールを基盤としています。

Kubebuilder：ワークフローをブートストラップして管理するKubernetes Operatorを起動するために使用したオープンソースフレームワーク。[1][2]
Backstage：Service Catalogを構築し、信頼できる情報源として使用するオープンソースフレームワーク。[1][2]
Argo WorkflowsとArgo Events：複雑なプロセスを調整し、イベントに基づいて動的な処理を追加するために使用したオープンソーススイート。[1][2][3][4]
Renovate CLI：リポジトリを処理するオープンソースの依存関係管理ツール。[1][2]

* AWS Fargateの料金モデルを単一ポッドのコストの基準として使用しました。ただし、当社のワークロードは必ずしもAWSで実行されているわけではなく、本格的なKubernetesクラスターで実行されています。

「best_compression」で検索パフォーマンスを向上

Sherry Ger, Ryan Eno — Fri, 23 Jan 2026 00:00:00 GMT

同時実行性の高いワークロード向けにElasticsearchをチューニングする場合の標準的なアプローチは、RAMを最大化してドキュメントのワーキングセットをメモリに保持し、検索レイテンシを低くすることです。結果として、best_compressionは検索ワークロードにはほとんど考慮されません。これは主に、ストレージ効率が優先されるElastic ObservabilityおよびElastic Securityのユースケースでのストレージ節約対策として見なされているためです。

このブログでは、データセットのサイズがOSページキャッシュを大幅に超える場合、best_compressionがI/Oボトルネックを軽減することで検索パフォーマンスとリソース効率を向上させることを示します。

セットアップ

ユースケースは、Elastic CloudのCPUに最適化されたインスタンス上で実行される高同時性検索アプリケーションです。

データ量：ドキュメント約5億件
インフラ：6つのElastic Cloud（Elasticsearch Service）インスタンス（各インスタンス：1.76 TBのストレージ | 60 GB RAM | 31.9 vCPU）
メモリとストレージの比率：総データセットの約5％がRAMに収まる

課題：高いレイテンシ

19:00頃に現在のリクエスト数が急増すると、検索のレイテンシが大幅に悪化することが確認されました。図1と図2に示すように、Elasticsearchインスタンスあたりのトラフィックはピーク時で毎分400リクエスト程度でしたが、平均クエリサービス時間は60ミリ秒以上に低下しました。

初期の接続処理後、CPU使用率は比較的低いままであり、コンピューティングがボトルネックではなかったことを示しています。

クエリボリュームとページフォールトの間の強い相関関係が明らかになりました。リクエストが増加するにつれて、ページフォールトも比例して増加し、ピークは約40万件/分に達しました。これは、アクティブなデータセットがページキャッシュに収まらなかったことを示しています。

同時に、JVMヒープの使用量は正常かつ健全であるように見えました。これにより、ガベージコレクションの問題が排除され、ボトルネックが I/O であることが確認されました。

診断：I/Oバウンド

システムはI/Oバウンド状態でした。Elasticsearchは、メモリからインデックスデータを提供するためにOSページキャッシュに依存します。インデックスがキャッシュに対して大きすぎる場合、クエリによってコストのかかるディスク読み取りがトリガーされます。一般的な解決策は水平方向に拡張すること（ノード/RAMの追加）ですが、まずは既存のリソースの効率改善を最大限に図りたいと考えました。

修正

デフォルトでは、ElasticsearchはインデックスセグメントにLZ4圧縮を使用し、速度とサイズのバランスをとります。best_compression （zstdを使用）に切り替えるとインデックスのサイズが小さくなるという仮説を立てました。フットプリントが小さいほど、ページキャッシュに収まるインデックスの割合が大きくなり、CPUのわずかな増加（解凍用）と引き換えにディスクI/Oが削減されます。

best_compressionを有効にするために、インデックス設定index.codec: best_compressionでデータを再インデックスしました。あるいは、インデックスを閉じ、インデックスコーデックをbest_compressionにリセットしてから、セグメントのマージを実行することで、同じ結果を得ることができます。

POST my-index/_close
PUT my-index/_settings
{
    "codec": "best_compression"
}
  
POST my-index/_open  
POST my-index/_forcemerge?max_num_segments=1

結果

結果は、ストレージ効率の向上は、CPU使用率の増加を伴わずに検索パフォーマンスの大幅な向上に直接つながるという私たちの仮説を裏付けました。

best_compressionを適用するとインデックスの大きさは約25％減少しました。反復ログデータで確認された削減よりは少ないものの、この25%の削減により、ページキャッシュ容量が同じだけ実質的に増加しました。

次のロードテスト（17:00から）では、トラフィックはさらに増加し、Elasticsearchノードあたり1分あたり500リクエストでピークに達しました。

負荷が高まったにもかかわらず、CPU使用率は前回の実行時よりも低くなりました。前のテストで使用率が高かったのは、過剰なページフォールト処理とディスクI/O管理のオーバーヘッドが原因である可能性があります。

重要なのは、ページフォールトが大幅に減少したことです。ベースラインテストの30万件超に比較して、より高いスループットでもフォールトは1 分あたり20万件未満に留まりました。

ページフォールトの結果はまだ最適とは言えませんでしたが、クエリサービス時間は約50％削減され、負荷が高まった場合でも30ミリ秒未満に留まりました。

結論：検索にはbest_compressionを

データ量が利用可能な物理メモリを超える検索ユースケースでは、 best_compressionは強力なパフォーマンス調整手段となります。

キャッシュミスに対する従来の解決策はスケールアウトしてRAMを増やすことですが、インデックスのフットプリントを削減することで、ページキャッシュ内のドキュメント数を最大化するという同じ目標を達成しました。次のステップは、インデックスの並べ替えを探求し、ストレージをさらに最適化し、既存のリソースからさらにパフォーマンスを引き出すことです。

Agent Builderが一般提供開始：コンテキスト駆動型エージェントを数分で出荷

Anish Mathur, Evan Castle — Thu, 22 Jan 2026 00:00:00 GMT

Elastic Cloud Serverlessおよび近日公開予定の9.3リリースで、Agent Builderが一般公開されることを発表できることを嬉しく思います。Agent Builderは、コンテキストエンジニアリングプラットフォームとしてElasticsearchの機能を活用し、コンテキストに基づいたデータ重視のAIエージェントを迅速に開発します。

エージェントは、効率性の向上と顧客体験の向上をもたらす可能性で注目を集めています。しかし実際には、乱雑で構造化されていないエンタープライズデータを扱う場合など、エージェントに適切なコンテキストを提供することは困難です。開発者は、ツール、プロンプト、状態、推論ロジック、モデルを管理し、ビジネスソースから関連するコンテキストを取得して正確な結果とアクションを提供する必要があります。Elastic Agent Builderは、これらのコアコンポーネントを提供して、安全で信頼性の高い、コンテキスト駆動型のエージェントを開発します。

Agent Builderのコア機能

Agent Builderは、検索の関連性とRetrieval-Augmented GenerationへのElasticの長期投資を活用し、Elasticsearchをコンテキストに応じたデータ重視のAIエージェントの開発を簡素化する最高のベクトルデータベースにすることを目指しています。

Agent Builderを使用すると、次のことが可能になります。

質問に答え、分析を実行し、Elasticsearch内のあらゆるデータに関する調査を推進できる組み込みの会話エージェントをすぐに使い始めることができます。
複雑な非構造化データから、設定ベースの開発エクスペリエンスを用いてカスタムエージェントへ迅速に移行します。
組み込みのES|QLまたはカスタムツールを通じてクラス最高のハイブリッド検索関連性を活用し、コンテキストの品質とエージェントの信頼性を向上させます。
複雑なワークフロー（プレビュー）を再利用可能なツールとして実行し、データを充実させ、レコードを更新し、メッセージを送信するなど、ルールベースの自動化を実現します。
ワークフローとMCPを使用してElasticsearch外のデータソースに接続し、エージェントのコンテキストを関連付けたり組み合わせたりします。
搭載のまたはカスタムツールをMCP経由で公開して、任意のエージェントまたはアプリケーションフレームワークと統合し、外部MCPに接続する機能（プレビュー）、A2Aのサポート、完全なAPIサポートを提供します。
LlamaIndexを使用した複雑な文書処理や、Arcade.devを使用した安全で構造化されたツールアクセスなどのサードパーティソリューションと統合して、Agent Builderの機能を拡張します。

Agent Builderの機能をさらに拡張するために、新しいルールベースの自動化機能であるElastic ワークフローを導入します。現在はテクニカルプレビュー段階です。組織のタスクでは、エージェントはルールベースのアクションの確実性と信頼性を必要とする場合があり、これは特定のビジネスロジックを実装するために不可欠となることがよくあります。Elastic Workflowsは、内部システムと外部システムを管理してアクションを実行し、データやコンテキストを収集して変換するためのシンプルで宣言的な方法をエージェントに提供します。ワークフローは完全にコンポーザブルで、イベント主導型かつ柔軟性があり、MCPを介してエージェントにツールとして公開できます。

わずか数分でデータからエージェントへ

エージェントの開発には、別々のデータストアを統合し、手動のパイプラインを構築し、クエリを調整し、複雑なオーケストレーションを管理するために、数週間の事前作業を要する場合があります。Agent Builderは、データストア、ベクトルデータベース、RAGパイプライン、検索レイヤー、クエリトランスレータ、ツールオーケストレータの必要性を排除することで、エージェントの開発時間を短縮し、エージェントのロジックとアプリケーションの提供に集中できるようにします。

Agent BuilderはElasticsearchプラットフォームのプリミティブをネイティブに統合して、エージェントの開発を迅速にします。

インデックス付けされたデータとすぐにチャットして推論できる組み込みの会話エージェントから始めましょう。
Kibana、API、またはMCPやA2Aを介したインタラクティブなアクセスにより、エージェントをアプリケーション、ダッシュボード、CI/CDシステムに統合します。
デフォルトのツールを使用してデータ構造を理解し、適切なインデックスを選択し、最適化されたハイブリッド、セマンティック、構造化クエリを生成し、自然言語プロンプトに基づいてES|QLを使用した設定可能な可視化を作成します。

さらに詳しく知りたい場合は、完全なハンズオンウォークスルーをお試しください。

コンテキストエンジニアリングのための完全なデータプラットフォームであるElasticsearch上に構築

AIエージェントにとって、コンテキストの品質は効果的な推論を提供し、ハルシネーションのリスクを軽減するために不可欠です。多くの企業のAIエージェントにとって、タスクを実行するために必要なビジネスデータは、最も重要なコンテキストです。拡張性に優れたデータ格納、ベクトルデータベース、そして関連性におけるリーダーとして、Elasticsearchはすでに多くの強力なコンテキストエンジニアリングプリミティブを提供しています。コンテキストエンジニアリングは、単なるRetrieval-Augmented Generationを超えて、データの取得、ランキング、フィルタリング、エージェントへの提示方法をカスタマイズ・スケールできるようにすることで、ノイズと曖昧さを減らすのに役立ちます。

Elasticsearchは、レキシカル検索、ベクトル検索、構造化フィルタリングを組み合わせたコンテキストエンジンを提供し、モデルが関連性のある正確なコンテキスト上で動作することを確実にすることで、LLMのパフォーマンスを大幅に向上させます。この機能は、エージェント検索、組み込みツール、適切なインデックスを自動的に選択し、自然言語をコンテキストに最適化されたクエリに変換する検索ロジックによってサポートされています。

Agent Builderでは、関連性とランキングを制御して、エージェントが最も役立つコンテキストを最初に受け取るようにして、スコアリング、ランキング、フィルタリングロジックを微調整できます。Elasticsearchを使用すると、不透明な検索動作に頼るのではなく、重要なこと、重要な理由、優先順位付け方法を制御できます。これらはすべて、テキスト、ベクトル、メタデータ、ログなどすべてのデータを1つのプラットフォームに保存・拡張できるスケーラブルなデータプラットフォームであるElasticsearchによって支えられており、エージェントのコンテキスト管理が容易になります。

複雑なワークフローを再利用可能なツールとして実行

AIエージェントは複雑なタスクの推論を可能にしますが、多くの自動化は、特定のビジネスロジックを強制するルールベースのアクションの確実な実行に依存しています。Elastic Workflowsは、内部および外部のシステムをオーケストレーションし、アクションを実行し、コンテキストやデータを収集し、エージェントの一部として統合するための、シンプルで宣言的な方法を提供します。YAMLで定義されているワークフローは完全にコンポーザブルで、ジョブに応じて単純にしたり複雑にしたりできます。これにより、エージェントはElasticsearchプラットフォームやソリューション、そしてサードパーティのアプリケーションに対して効率的にアクションを起こすことができます。

ワークフローをAgent Builderと統合するには、3つの手順を実行します（前提条件：ここに記載されている詳細を使用してワークフローを有効にします）

1. シンプルなYAMLベースのエディターを使用して、組み込みの自動入力とテスト機能付きで新しいワークフローを作成して保存します。

2. Agent Builderでタイプ「ワークフロー」の新しいツールを作成し、エージェントがワークフローツールをいつ使用するかを判断できるように説明を入力します。

3. ワークフローツールをカスタムエージェントに追加します。

4. 以上です！エージェントが会話内からワークフローを呼び出せるようになりました。

ニーズに合わせてエージェントを構築

Agent Builderは単一の開発パラダイムに限定されず、データ、関連性、モデル、相互運用性、セキュリティ、エージェント設計を完全に制御し、エージェントに対してオープンで柔軟な開発アプローチを可能にするように設計されています。

カスタムエージェント定義を使用すると、エージェントがアクセスできるツールを正確に選択したり、カスタムシステムプロンプトを埋め込んだり、エージェントの指示を調整したり、セキュリティ境界を定義したりできます。エージェントはモデルに依存しないため、単一のプロバイダーに縛られることなく、ネイティブとより広範なエコシステムの両方で、好みのLLMを柔軟に構成できます。

拡張可能なツールを構築し、ドメイン固有のロジック（例：特定のインデックスフィルター、ES|QL結合、分析パイプライン）をカプセル化し、それらを本番環境での安全な使用に制約します。APIの完全サポートで、モデルコンテキストプロトコル（MCP）のネイティブサポートにより、他のエージェントフレームワークとの相互運用が可能になります。A2A統合とは、Elastic Agentを他のフレームワークやサービス、クライアントアプリに公開し、同じデータやコンテキストエンジニアリングロジックを統合間で再利用できることを意味します。

Agent Builderは、柔軟でオープンな開発をサポートし、一般的なエージェントフレームワークやPlatformと簡単に統合できるように設計されています。これらの統合は効果的なエージェントを提供するために不可欠です。Arcade.devの共同創設者であるSam Partee氏は次のように述べています。

「今日のエージェントシステムが機能しないのは、AIをツールやデータに接続するのが難しいためです。Arcade.devのElastic Agent Builderは、エージェントがコンテキストを取得し、推論し、行動する方法を扱うための構造化されたセキュアな方法を開発者に提供します。」

Agent Builderは、複雑なデータを処理するためにElasticsearchの拡張性も活用します。LlamaIndexのCEOであるJerry Liu氏は次のように述べています。

「非構造化データソースから企業のコンテキストを解き放つことが、効果的なエージェントを構築する鍵となります。Elastic Agent BuilderとLlamaIndexの複雑なドキュメント処理を組み合わせることで、重要なコンテキストレイヤーが強化され、チームがデータを取得、処理、準備できるようになるため、エージェントはより正確に推論し、より良い結果を提供できるようになります。」

構築できるもの

Agent Builderはすでにさまざまなユースケースで使用されています。以下に、エージェントの使用を開始するためのいくつかの例とリファレンスアーキテクチャを示します。

インフラストラクチャーの自動化：サポートシナリオでは、エージェントは読み取り、思考、チャットに使用されてきましたが、これまでは、管理する必要があるインフラストラクチャにアクセスして操作することはできませんでした。Elasticのエンジニアリングチームは、ハッカソンの一環として自動インフラ管理エージェントを構築しました。このエージェントはアプリケーションインフラストラクチャの問題を積極的に調査し、自動アクションを実行します。インフラログをインテリジェントに理解し、ワークフローを使用して構成を最適化し、問題に対応し、リソースを拡張します。
セキュリティ脅威分析：Elastic Agent Builder、MCP、Elasticsearchを使用してセキュリティ脆弱性エージェントが開発されました。内部のセキュリティデータと外部の脅威インテリジェンスを相関させることにより、脅威分析を自動化します。エージェントは過去のインシデントと設定に対してセマンティック検索を実行し、結果をライブインターネットデータで強化し、LLMの推論を適用して環境の関連性を評価し、リスクを優先順位付けし、実行可能な修復策を生成します。リファレンスアーキテクチャを参照してください。
テクニカルカスタマーサポート：エージェントは、ケースの要約、問題の重複排除と作成、詳細な技術調査など、複数のサポートタスクを実行できます。Agent Builderを使用すると、多段階のハイブリッド検索が可能になり、最も関連性の高い問題、ソリューション、手順のみを見つけ、根本原因の仮説と改善計画を策定できます。Agent Builderは複雑なサポートシステムのアーキテクチャを簡素化し、提供までの時間を短縮できます。
製品とコンテンツの検出：Agent Builderは、会話型エクスペリエンスのための複雑な製品カタログを公開するプロセスを簡素化すると同時に、組織が独自のビジネスロジックと要件を組み込む柔軟性を維持できるようにします。
自分で構築：2026年1月22日から2月27日まで開催されるAgent Builder Hackathonに参加しましょう。コミュニティと協力して、検索、ワークフロー、ツール、推論を組み合わせた、コンテキスト駆動型のマルチステップAIエージェントを構築し、実世界のタスクを自動化できます。*

今すぐカスタムエージェントの構築を開始

まずはElastic Cloudトライアルから始めて、こちらのドキュメントをご覧ください。既存のお客様の場合、Agent BuilderはCloud Serverless、Elastic Cloud Hosted、セルフマネージドのエンタープライズティアでご利用いただけます。

* ハッカソンの利用規約と参加資格の詳細についてはこちらをクリックしてください。

Elastic Agent Builderで音声エージェントを構築

Kenneth Kreindler — Thu, 22 Jan 2026 00:00:00 GMT

AIはガラスの箱に閉じ込められています。コマンドを入力すると、テキストで応答が返されます。役には立ちますが、画面の向こうで誰かが動いているのを見ているような距離感があります。今年、2026年は、ビジネスがこのガラスの壁を打ち破り、AIエージェントを製品に導入し、真の価値を提供する年となるでしょう。

ガラスを砕く方法の1つは、人間の音声を認識し、コンピューター生成の音声を合成するAIエージェントである音声エージェントの採用によるものです。低遅延の文字起こし、高速な大規模言語モデル（LLM）、人間のように聞こえるテキスト読み上げモデルの登場により、これが可能になりました。

音声エージェントが真に価値あるものになるためには、ビジネスデータへのアクセスも必要です。このブログでは、音声エージェントの仕組みを学び、LiveKitとElastic Agent Builderを使って、架空のアウトドアスポーツ用品店であるElasticSport向けに音声エージェントを構築します。当社の音声エージェントはコンテキストを認識し、自前のデータを活用します。

プログラム概要

音声エージェントの世界には2つのパラダイムがあります。1つ目は音声合成（speech-to-speech）モデルを使用し、2つ目は音声テキスト変換、LLM、テキスト読み上げからなる音声パイプラインを使用します。音声合成には独自の利点がありますが、音声パイプラインは使用される技術やコンテキストの管理方法、エージェントの動作に対する制御をより柔軟にカスタマイズできます。ここでは音声パイプラインモデルに焦点を当てます。

主要コンポーネント

文字起こし（音声テキスト変換）

文字起こしは音声パイプラインの入口です。文字起こしコンポーネントは、生のオーディオフレームを入力として受け取り、音声をテキストに書き起こして、そのテキストを出力します。文字起こしされたテキストは、システムがユーザーの音声が終了したことを検出するまでバッファリングされます。その時点で、LLM生成が開始されます。さまざまなサードパーティプロバイダーが低遅延の文字起こしを提供しています。選択する際には、遅延と文字起こしの精度を考慮し、ストリーミング文字起こしをサポートしていることを確認してください。

サードパーティAPIの例：AssemblyAI、Deepgram、OpenAI、ElevenLabs

ターン検出

ターン検出は、話者が話し終わり、生成が開始されるべき時を検出するパイプラインのコンポーネントです。これを行う一般的な方法の一つは、Silero VADのような音声アクティビティ検出（VAD）モデルを利用することです。VADは、音声のエネルギーレベルを使用して、音声に発話が含まれるタイミングと発話が終了したタイミングを検出します。しかし、VADだけでは、一時停止と発話の終了の違いを識別することはできません。このため、中間トランスクリプトまたは生の音声に基づいて話者が話し終えたかどうかを予測する発話終了モデルと組み合わせられることがよくあります。

例 (Hugging Face): livekit/turn-detector, pipecat-ai/smart-turn-v3

エージェント

エージェントは音声パイプラインのコアです。意図を理解し、適切なコンテキストを収集し、テキスト形式で返信を作成する役割を担います。Elastic Agent Builderは、組み込まれた推論機能、ツールライブラリ、ワークフロー統合により、データ上で動作し、外部サービスとやり取りできるエージェントとなります。

LLM（テキストからテキスト）

Elastic Agent Builder用のLLMを選択する際には、主に、LLMの推論ベンチマークと、最初のトークンまでの時間（TTFT）の2つの特性を考慮する必要があります。

推論ベンチマークは、LLMがどの程度正しい応答を生成できるかを示します。検討すべきベンチマークは、MT-BenchやHumanity's Last Examデータセットなど、マルチターン会話の遵守とインテリジェンスベンチマークを評価するものです。

TTFTベンチマークは、モデルが最初の出力トークンを生成する速度を評価します。レイテンシのベンチマークには他にも種類がありますが、TTFTは音声エージェントにとって特に重要です。最初のトークンを受信するとすぐにオーディオ合成を開始できるため、ターン間のレイテンシが短縮され、自然な会話が実現します。

通常、高速モデルは推論ベンチマークでパフォーマンスが低下することが多いため、これら2つの特性は互いにトレードオフとなります。

例 (Hugging Face): openai/gpt-oss-20b, openai/gpt-oss-120b

合成（テキスト読み上げ）

パイプラインの最後の部分はテキスト読み上げモデルです。このコンポーネントは、LLMから出力されたテキストを可聴音声に変換する役割を担います。LLMと同様に、遅延はテキスト読み上げプロバイダーを選択する際に注意すべき特性です。テキスト読み上げの遅延は、最初のバイトまでの時間（TTFB）で測定されます。これは、最初のオーディオバイトが受信されるまでにかかる時間です。TTFBが低いほど、ターンの待ち時間も短縮されます。

例：ElevenLabs、Cartesia、Rime

音声パイプラインの構築

Elastic Agent Builderは、音声パイプラインに複数のレベルで統合できます。

Agent Builderツールのみ：音声テキスト変換 → LLM（Agent Builderツール使用）→ テキスト読み上げ
MCPとしてのAgent Builder：音声テキスト変換 → LLM（MCP 経由でAgent Builderにアクセス）→ テキスト読み上げ
Agent Builderをコアとして使用：音声テキスト変換 → Agent Builder →テキスト読み上げ

このプロジェクトでは、コアアプローチとしてAgent Builderを選択しました。このアプローチにより、Agent Builderとワークフローの全機能を使用できます。このプロジェクトでは、LiveKitを使用して音声テキスト変換、ターン検出、テキスト読み上げを管理する、Agent Builderと直接統合するカスタムLLMノードを実装しています。

Elasticサポート音声エージェント

ElasticSportという架空のスポーツショップ向けにカスタムサポート音声エージェントを構築します。顧客はヘルプラインに電話をかけ、製品の推奨を尋ねたり、製品の詳細を見つけたり、注文状況を確認したり、注文情報をテキストで送信してもらったりできるようになります。これを達成するために、まずカスタムエージェントを設定し、Elasticsearch Query Language（ES|QL）クエリとワークフローを実行するためのツールを作成する必要があります。

Watch video on Vidyard

エージェントの構成

プロンプト

プロンプトは、エージェントがどのような性格を持ち、どのように応答するかを指示します。重要なのは、応答が適切に音声に合成され、誤解が適切に修復されることを保証する音声固有のプロンプトがいくつかあることです。

You are a Sales Assistant at ElasticSport, an outdoor sport shop specialized in hiking and winter equipment. 

[Profile]
- name: Iva
- company: ElasticSport
- role: Sales Assistant
- language: en-GB
- description: ElasticSport virtual sales assistant

[Context]
- Ask clarifying questions to understand the context.
- Use available tools to answer the user's question.
- Use the knowledge base to retrieve general information

[Style]
- Be informative and comprehensive.
- Maintain a professional, friendly and polite tone.
- Mimic human behavior and speech patterns.
- Be concise. Do not over explain initially

[Response Guideline]
- Present dates in spelled-out month date format (e.g., January fifteenth, two thousand and twenty-four).
- Avoid the use of unpronounceable punctuation such as bullet points, tables, emojis.
- Respond in plain text, avoid any formatting.
- Spell out numbers as words for more natural-sounding speech.
- Respond in short and concise sentences. Responses should be 1 or 2 sentences long.

[ERROR RECOVERY]
### Misunderstanding Protocol
1. Acknowledge potential misunderstanding
2. Request specific clarification

ワークフロー

TwilioのメッセージングAPIを介してSMSを送信するための小さなワークフローを追加します。ワークフローはカスタムエージェントに対してツールとして公開され、エージェントが通話中に発信者にSMSを送信できるユーザーエクスペリエンスが実現されます。これにより、発信者は、「 Xについての詳細をテキストで送信できますか？」などと尋ねることができます。

name: send sms
enabled: true
triggers:
  - type: manual
inputs:
  - name: message
    type: string
    description: The message to send to the phone number.

  - name: phone_number
    type: string
    description: The phone number to send the message to.

consts:
  TWILIO_ACCOUNT: "****"
  BASIC_AUTH: "****"
  FROM_PHONE_NNUMBER: "****"
steps:
  - name: http_step
    type: http
    with:
      url: https://api.twilio.com/2010-04-01/Accounts/{{consts.TWILIO_ACCOUNT}}/Messages.json
      method: POST
      headers:
        Content-Type: application/x-www-form-urlencoded
        Authorization: Basic {{consts.BASIC_AUTH | base64_encode}}
      body: From={{consts.FROM_PHONE_NNUMBER}}&To={{inputs.phone_number}}&Body={{inputs.message}}
      timeout: 30s

ES|QLツール

次のツールを使用すると、エージェントは実際のデータに基づいた適切な応答を提供できます。サンプルリポジトリには、製品、注文、ナレッジベースのデータセットでKibanaを初期化するためのセットアップスクリプトが含まれています。

Product.search

製品データセットには65種類の架空の製品が含まれています。これはサンプルドキュメントです。

{
      "sku": "ort3M7k",
      "name": "Ortovox Free Rider 26 Backpack",
      "price": 189,
      "currency": "USD",
      "image": "https://via.placeholder.com/150",
      "description": "The Ortovox Free Rider 26 is a technical freeride backpack with a dedicated safety compartment and diagonal ski carry system. Perfect for backcountry missions.\n\nKey Features:\n- 26L capacity\n- Diagonal ski carry system\n- Safety equipment compartment\n- Helmet holder\n- Hydration system compatible",
      "category": "Accessories",
      "subCategory": "Backpacks",
      "brand": "Ortovox",
      "sizes": ["One Size"],
      "colors": ["Black", "Blue", "Orange"],
      "materials": ["Nylon", "Polyester"]
    }

名前と説明のフィールドは semantic_textとしてマップされており、LLMがES|QLを介してセマンティック検索を実行して関連製品を取得できるようになっています。ハイブリッド検索クエリは、両方のフィールド間でセマンティックマッチングを実行し、ブーストを使用して名前フィールドの一致によりわずかに高い重みを適用します。

クエリはまず、初期関連性スコアでランク付けされた上位20件の結果を取得します。これらの結果は、.rerank-v1-elasticsearch 推論モデルを使用して説明フィールドに基づいて再ランク付けされ、最後に最も関連性の高い上位 5 つの製品に絞り込まれます。

type: ES|QL
toolId: products.search
description: Use this tool to search through the product catalogue by keywords.
query: |
    FROM products
        METADATA _score
      | WHERE
          MATCH(name, ?query, {"boost": 0.6}) OR
            MATCH(description, ?query, {"boost": 0.4})
      | SORT _score DESC
      | LIMIT 20
      | RERANK ?query
            ON description
            WITH {"inference_id": ".rerank-v1-elasticsearch"}
      | LIMIT 5

parameters:
    query: space separated keywords to search for in catalogue

Knowledgebase.search

ナレッジベースのデータセットには、以下の形式のドキュメントが含まれており、タイトルとコンテンツのフィールドはセマンティックテキストとして格納されます。

{
        id: "8273645",
        createdAt: "2025-11-14",
        title: "International Orders",
        content: `International orders are processed through our international shipping partner. Below are the countries we ship to and average delivery times.
        Germany: 3-5 working days
        France: 3-5 working days
        Italy: 3-5 working days
        Spain: 3-5 working days
        United Kingdom: 3-5 working days
        United States: 3-5 working days
        Canada: 3-5 working days
        Australia: 3-5 working days
        New Zealand: 3-5 working days
        `
}

このツールは、 product.searchツールと同様のクエリを使用します。

type: "ES|QL"
toolId: knowledgebase.search
description: Use this tool to search the knowledgebase.
query: |
  FROM knowledge_base
    METADATA _score
  | WHERE
      MATCH(title, ?query, {"boost": 0.6}) OR
      MATCH(content, ?query, {"boost": 0.4})
  | SORT _score DESC
  | LIMIT 20
  | RERANK ?query
      ON content
      WITH {"inference_id": ".rerank-v1-elasticsearch"}
  | LIMIT 5

parameters:
  query: space separated keywords or natural language phrase to semantically search for in the knowledge base

Orders.search

最後に追加するツールは、 order_idによる注文を取得するために使用されるツールです。

type: "ES|QL"
toolId: order.search
description: Use this tool to retrieve an order by its ID.
query: |
  FROM orders
    METADATA _score
  | WHERE order_id == ?order_id
  | SORT _score DESC
  | LIMIT 1

parameters:
  order_id: "the ID of the order"

エージェントを設定し、これらのワークフローとES|QLツールをエージェントにアタッチした後、エージェントはKibana内でテストできます。

ElasticSportサポートエージェントの構築以外にも、エージェント、ワークフロー、ツールを、リード資格を審査する営業エージェント、住宅修理のサービスエージェント、レストランの予約、予約スケジュールエージェントなど、他のユースケースに合わせてカスタマイズできます。

最後の部分は、先ほど作成したエージェントをLiveKit、テキスト読み上げ、音声テキスト変換モデルと連携することです。このブログの最後にリンクされているリポジトリには、LiveKitで使用できるカスタムElastic Agent Builder LLMノードが含まれています。AGENT_IDを独自のものに置き換えて、Kibanaインスタンスにリンクするだけです。

はじめに

ここでコードをチェックして試してみてください。

チャットボックスを超えたエージェントビルダー：Augmented Infrastructureの導入

Alexander Wert, Bill Easton, Gil Raphaelli, Graham Hudgins, Norrie Taylor — Thu, 22 Jan 2026 00:00:00 GMT

これは机上の空論ではなく、私たちはすでに行動しています。

私たちは皆、AIエージェントの台頭を見てきました。テキストを要約したり、コードスニペットを書いたり、ドキュメントに基づいて質問に答えたりするのが得意です。しかし、DevOpsやサイト信頼性エンジニアリング（SRE）に携わる者にとっては、もどかしい制限がありました。ほとんどのエージェントは、コールセンターのパラダイムに囚われています。つまり、読んだり、考えたり、チャットしたりすることはできても、手を伸ばして本来管理すべきインフラに触れることはできないのです。

最新のハッカソンプロジェクトでは、その制限を打ち破ることを目指しました。

私たちは、インフラのコパイロットであるAugmented Infrastructureを開発しました。これは、アドバイスを提供するだけでなく、稼働中の環境の構築、デプロイ、監視、および修正も行います。

問題点：コピー、再フォーマット、貼り付け

標準的なエージェントは、密閉空間で活動しています。アプリがダウンして会社に500万ドルの損害をもたらした場合、標準的なエージェントは、修正方法についての手順書を読み上げることができます。しかし、その作業を行うのがあなたであることは変わりません。コードをコピーして、自分の環境に合わせてフォーマットし直し、ターミナルに貼り付ける作業が残っています。

私たちは、Kubernetesについて話すことと、Kubernetesを設定することの違いを理解するエージェントが欲しいと考えていました。

エンジン：Elastic Agent Builderとは？

これを構築するにあたって、私たちはゼロから始めたわけではありません。Elastic Agent Builderを基盤として構築しました。Elastic Agent Builderをご存知ない方のために説明すると、これはエージェントを迅速に開発するために設計されたフレームワークであり、大規模言語モデル（LLM）（今回のデモではGoogle Geminiを使用）とElasticsearchに保存されているプライベートデータとの間の橋渡し役を果たします。

Agent Builderは、ドキュメントやログなどの内部データを基盤として、会話型AIに活用できます。しかし、最も強力な機能はツールを割り当てる機能です。これらのツールにより、LLMはチャットインターフェースに留まらず、特定のタスクを実行できます。この機能を可能な限り活用すれば、Agent Builderを自動化の強力なツールに変えることができることに気付きました。

成功のために：初期バージョンの構築

プロジェクトを開始した当初から、エージェントが外の世界を変えられるようにしたいと考えていました。私たちはあるアイデアを思いつきました。エージェントがホスト上で考えられる任意のコマンドを実行する「ランナー」ソフトウェアを構築したらどうなるでしょうか？そして、ランナーであるElastic Agent Builderとユーザーが三者通話をしていたらどうなるでしょうか？

まず、Augmented Infrastructure RunnersというPythonプロジェクトを構築しました。これは本質的に、Elastic Agent Builderの会話APIを毎秒クエリし、当社が作成した特別な構文があるかどうかを確認するwhile(true)ループでした。

{
	"tool_name": "my_tool",
       "tool_arguments": "\{stringified json arguments\}"
}

次に、新しいツール呼び出し構文を認識させるために、プロンプトを更新しました。ビルはFastMCPのメンテナーです。FastMCPは、PythonでModel Context Protocol（MCP）サーバーを構築する目的において最も人気のあるフレームワークです。彼は、この新しいランナーソフトウェアとFastMCPクライアントを使用して、MCPサーバーをマウントし、ランナーがそのツールを利用できるようにするための作業に着手しました。エージェントがこれを確認するとツール呼び出しを実行し、結果をユーザーが送信したかのように会話に POST で返します。これがきっかけでLLMは結果に反応し、私たちの取り組みが加速したのです。

これは素晴らしい考えでしたが、主に2つの問題がありました。

エージェントは、このJSONすべてをユーザーとの会話に直接吐き出します。
メッセージが会話APIを通じて表示される最も早い時点は、会話ラウンドが完了したとき（つまり、LLMが応答したとき）でした。

そこで、これをバックグラウンドに移動させる方法を模索することにしました。

次に、エージェントに call_external_tool というツールを与え、tool_name と文字列化されたJSONツール引数の2つの引数を持たせるように変更しました。この外部ツール呼び出しは何も返しませんが、重要なのは会話APIへの GET リクエストで確認できることです。その後、ランナーにElasticsearchに直接ドキュメントを書き込む許可を与えました。Elastic Agent Builderのエージェントは必要に応じてそれを取得できました。エージェントは常にユーザーのメッセージに対応して動作しているため、結果を検索し、処理を続行するようにエージェントをユーザーのメッセージで起動させる必要があります。そこで、会話を再開するために、エージェントにチャットに短いメッセージを挿入させました。

これで、外部ツールの呼び出しが行われました。しかし、前述の2つ目の問題のため、最後のキックスタート部分を削除せざるを得ませんでした。それをしなければ、外部ツールを呼び出すたびに、結果を取得するためにもう一度会話をすべてやり直す必要があったためです。

優れたものにするために：ワークフローの導入

Elasticsearch Query Language（ES|QL）とインデックス検索ツールの呼び出しに加え、Agent BuilderエージェントはElasticのワークフローベースのツールを呼び出すことができます。Elasticのワークフローは、任意のアクションのシーケンスとロジックを実行するための柔軟で管理しやすい方法を提供します。私たちの目的では、ワークフローに必要なのは、Elasticsearchに外部ツールのリクエストを格納することと、結果をポーリングするためのIDを返すことだけです。これにより、以下の簡単なワークフロー定義が得られます。

name: ai-tool-call
enabled: true
triggers:
  - type: manual
inputs:
  - name: runner_id
    type: string
  - name: tool_calls
    type: string

steps:
  - name: store_request
    type: elasticsearch.create
    with:
      index: distributed-tool-requests
      id: "{{inputs.runner_id}}_{{ execution.id }}"
      document:
        request_id: "{{ execution.id }}"
        runner_id: "{{inputs.runner_id}}"
        tool_call: "{{inputs.tool_calls}}"
        status: "unhandled"

  - name: output_result
    type: console
    with:
      message: "Called tool, with execution id: {{ execution.id }}. Use this ID to poll the results."

それにより、会話に書き込まれるツール呼び出しリクエストに依存する代わりに、ランナーはElasticsearch distributed-tool-requestsインデックスをポーリングして新しい外部ツールリクエストを検索し、結果を指定されたexecution.idを使用して別のElasticsearchインデックスにレポートすることができます。

これにより、上記の2つの主な問題が解消されます。

会話履歴に外部ツール呼び出しのペイロードが散乱することはなくなりました。
ランナーは会話履歴ではなくElasticsearchインデックスをポーリングしているため、外部ツールのリクエストが表示されるようになるまで、会話のラウンドが完了するのを待つ必要がなく、ブロックされることはありません。

2つ目の点には、外部ツール呼び出しの処理が（会話ラウンドが完了した後ではなく）エージェントの思考フェーズ内で開始されるという大きな利点があります。これにより、システムプロンプトでLLMに外部ツールの結果が利用可能になるまでポーリングするように指示できレガシ、キックスタートメッセージが不要になります。全体として、これにより会話がより自然に感じられるという良い効果があります。LLMは（ツールリクエストごとに1回の会話ラウンドを必要とするのではなく）1回の会話ラウンドで複数の外部ツールリクエストを処理できるため、より複雑なユーザーリクエストを一度に達成できます。

すべてを集約

LLMとサーバーラックの間のギャップを埋めるために、Agent Builderのツール機能を使用してある特定のアーキテクチャを開発しました。

Augmented Infrastructureのランナー：ターゲット環境（サーバー、Kubernetesクラスター、クラウドアカウント）内に軽量ランナーをデプロイしました。これらのランナーは、各ランナーだけが利用できる安全なエンドポイントとシークレットを使用して、Elasticに直接接続されています。
ES|QL検索：コパイロットはElasticのES|QLを使用してハイブリッド検索を行います。単に知識を検索するだけではなく、機能を検索します。接続されたランナーに問い合わせて利用可能なツールを確認します（例：list_ec2_instances、install_helm_chart）。
ワークフローの実行：エージェントが行動方針を決定すると、構造化されたワークフローを作成します。
フィードバックループ：ランナーはローカルでコマンドを実行し、その結果をElasticsearchにレポートします。コパイロットはインデックスの結果を読み取り、次のステップを決定します。

デモ：停止からオブザーバビリティへ

Watch video on Vidyard

動画では、このアーキテクチャの影響力を示す2つの異なるシナリオを紹介しました。

シナリオ1：DevOpsの救出

私たちは、Kubernetesクラスター内の死角によって引き起こされた500万ドルの障害に関連してパニックに陥ったユーザーから取り組み始めました。

リクエスト：「このようなことが二度と起こらないようにするにはどうすればよいでしょうか？」
アクション：エージェントは単にチュートリアルを提供するだけではありませんでした。クラスターを識別し、必要な名前空間を作成し、Kubernetesシークレットを生成し、OpenTelemetry Operatorをインストールして、ライブAPMダッシュボードへのリンクを即座に提供しました。
結果：ユーザーがYAMLコードを一行も記述することなく、Kubernetesの網羅的なオブザーバビリティとアプリケーションの洞察を実現しました。

シナリオ2：セキュリティの引き継ぎ

インフラセキュリティの基本的なルールは、見えないものは守れないということです。DevOpsの救出を実行している際、エージェントは環境のセキュリティを向上させる機会を見出します。

前回のElastic Observability関連の調査から始まったアラートを受けて、セキュリティ担当者が自社のインフラストラクチャーと直接チャットする方法を示します。1つ目はクラウド環境内の資産とリソースを列挙すること、2つ目は環境のセキュリティを確保するために必要なツールをデプロイすることです。

発見：コパイロットはセキュリティ担当者のためにAWSリソースを列挙し、重要なギャップを特定しました。すなわち、Amazon Elastic Compute Cloud（EC2）インスタンスと、パブリックエンドポイントにエンドポイント保護がないAmazon Elastic Kubernetes Service（EKS）クラスターです。
対策：簡単な承認手続きで、コパイロットは脆弱な資産に対してElastic Securityの拡張検出および対応（XDR）とクラウド検出と対応（CDR）を展開し、環境をリアルタイムで保護しました。
結果：デプロイされたAWS資産とリソースを完全なランタイムセキュリティで保護します。

未来：あらゆるものが拡張される

このプロジェクトは、Elastic Agent Builderが分散運用の中心的な頭脳になり得ることを証明しています。インフラだけに留まらず、私たちのランナー技術は以下の影響力を発揮します。

拡張合成：グローバルランナー全体にわたるTLSエラーの診断。
拡張開発：プルリクエストの作成と、フロントエンドサービスへのCAPTCHAの実装。
拡張オペレーション：障害時にDNSリゾルバを自動的に再構成。

はじめましょう

私たちは、AIの未来は単なるチャットサポートだけではなく、拡張されたインフラストラクチャーにあると信じています。これは、ユーザーと共にデプロイ、修正、観察、そして保護できるパートナーを持つことです。

コードをご覧になり、GitHubの分散ランナーやElastic Cloud ServerlessのElastic Agent Builderをぜひ直接お試しください。

Elastic Cloudでサーバーレスプロジェクトを作成してください。
コードをランナーにデプロイしてください。
ランナーをセットアップしてください。
mcp.jsonを設定してください。
ランナーを起動すると、エージェントとそのツールが自動的に作成されます。
分散ランナーで推論、計画、およびアクションを実行できるエージェントとチャットしましょう。

チーム： アレックス、ビル、ギル、グラハム、ノーリー

スイススタイルのハッシュテーブルを使用したより高速なES|QL統計

Chris Hegarty, Matthew Alp, Nik Everet — Mon, 19 Jan 2026 00:00:00 GMT

最近、Elasticsearchのハッシュテーブル実装の重要な部分をスイススタイルの設計に置き換えたところ、均一でカーディナリティの高いワークロードでビルドと反復処理の時間が最大2～3倍高速化されることがわかりました。結果として、Elasticsearch Query Language (ES|QL) の統計と分析操作において、低いレイテンシ、より良いスループット、そしてより予測可能なパフォーマンスが得られます。

これが重要である理由

ほとんどの典型的な分析ワークフローは最終的にデータのグループ化に集約されます。ホストあたりの平均バイト数の計算、ユーザーごとのイベントのカウント、または次元全体でのメトリクスの集計など、コアとなる操作は同じです。キーをグループにマップし、実行中の集計を更新します。

小規模であれば、ほぼすべての適切なハッシュテーブルで問題なく動作します。大規模になると（数億のドキュメントと数百万の個別のグループなど）、詳細が重要になってきます。負荷係数、プローブ戦略、メモリレイアウト、キャッシュの動作によって、線形パフォーマンスとキャッシュミスの連続との間に違いが生じる可能性があります。

Elasticsearchは長年にわたってこれらのワークロードをサポートしてきましたが、コアアルゴリズムを最新化する機会を常に探しています。そのため、スイステーブルからヒントを得た新しいアプローチを評価し、それをES|QLが統計を計算する方法に適用しました。

スイステーブルとは？

スイステーブルは、GoogleのSwissTableによって普及し、後にAbseilやその他のライブラリに採用された最新のハッシュテーブルファミリーです。

従来のハッシュテーブルでは、ポインターの追跡やキーのロードに多くの時間を費やし、結局一致しないことが判明します。スイステーブルの特徴は、キーと値とは別に保存される制御バイトと呼ばれる小さなキャッシュ常駐配列構造を使用してほとんどのプローブを拒否し、メモリトラフィックを大幅に削減できることです。

各制御バイトは単一のスロットを表し、この場合、スロットが空かどうかと、ハッシュから導出された短いフィンガープリントの2つの項目をエンコードします。これらの制御バイトはメモリ上に連続的に配置され、通常16個のグループで構成されており、単一命令多重データ（SIMD）処理に理想的です。

スイステーブルは、一度に1つのスロットをプローブする代わりに、ベクトル命令を使用して制御バイトブロック全体をスキャンします。1回の操作で、CPUは入力キーのフィンガープリントを16個のスロットと比較し、空のエントリーを除外します。この高速パスを通過する少数の候補のみが、実際のキーのロードとの比較を必要とします。

この設計では、少量の追加メタデータと引き換えに、はるかに優れたキャッシュローカリティと大幅に少ないランダムロードを実現しています。テーブルが拡大し、プローブチェーンが長くなるにつれて、それらのプロパティはますます価値が高くなります。

中央にSIMDがあります

ここでの真の主役はSIMDです。

制御バイトは単にコンパクトであるだけでなく、ベクトル命令で処理されるように明示的に設計されています。1 回のSIMD比較で16個のフィンガープリントを一度にチェックできるため、通常はループとなる処理が複数の広範な操作に変わります。例：

実際には、これは次のことを意味します。

ブランチ数の低減。
プローブチェーンの短縮。
キーメモリや値メモリからのロードの減少。
CPU実行ユニットの利用率が大幅に向上。

ほとんどの検索は制御バイトのスキャンを通過することはありません。そうすれば、残りの作業は焦点が絞られ、予測可能になります。これはまさに、最新のCPUが得意とする種類のワークロードです。

SIMDの仕組み

仕組みを知りたい読者のために、テーブルに新しいキーを挿入すると何が起こるかを説明します。128ビットベクトルのPanama Vector APIを使用し、16の制御バイトを並列で処理します。

次のスニペットは、Intel Rocket LakeとAVX-512で生成されたコードを示しています。手順はその環境を反映していますが、設計はAVX-512に依存しません。同じ高レベルのベクトル操作が、同等の命令（AVX2、SSE、NEONなど）を使用して他のプラットフォームでも実行されます。

; Load 16 control bytes from the control block
vmovdqu xmm0, XMMWORD PTR [r9+r10*1+0x10]

; Broadcast the 7-bit fingerprint of the new key across the vector
vpbroadcastb xmm1, r11d

; Compare all 16 control bytes to the new fingerprint
vpcmpeqb k7, xmm0, xmm1
kmovq rbx, k7

; Check if any matches were found
test rbx, rbx
jne

各命令は挿入プロセスにおいて明確な役割を果たします。

vmovdqu：128ビットの xmm0レジスタに16個の連続制御バイトを読み込みます。
vpbroadcastb：新しいキーの7ビットのフィンガープリントをxmm1レジスタのすべてのレーンにわたって複製します。
vpcmpeqb: 各制御バイトをブロードキャストされたフィンガープリントと比較し、一致する可能性のあるマスクを生成します。
kmovq + test：マスクを汎用レジスタに移動し、一致が存在するかどうかをすばやく確認します。

最終的に、ベンチマークにより、レジスタの幅を広げて32バイトまたは64バイトに拡張しても測定可能なパフォーマンス上の利点が得られないことが示されたため、一度に16個の制御バイトのグループをプローブすることに決定しました。

ES|QLにおける統合

Elasticsearchでのスイススタイルのハッシュの採用は、単なる置き換えではありませんでした。ES|QLには、メモリアカウンティング、安全性、コンピューティングエンジンの他の部分との統合に関して厳しい要件があります。

新しいハッシュテーブルを、ページリサイクラーやサーキットブレーカーアカウンティングなどのElasticsearchのメモリ管理と緊密に統合し、割り当てが常に可視かつ制限された状態になるようにしました。Elasticsearchのアグリゲーションは密に格納され、グループIDでインデックス化されるため、メモリレイアウトはコンパクトで高速に保たれ、反復処理も高速になります。また、ランダムアクセスを許可することで特定のパフォーマンスを最適化できます。

可変長バイトキーの場合、グループIDと一緒に完全なハッシュをキャッシュします。これにより、プローブ中に高価なハッシュコードを再計算する必要がなくなり、関連するメタデータを近くに保持することでキャッシュの局所性が向上します。再ハッシュ中は、値自体を検査せずにキャッシュされたハッシュと制御バイトに依存できるため、サイズ変更のコストが低く抑えられます。

実装における重要な簡素化の一つは、エントリーが決して削除されないことです。これにより、トゥームストーン（以前占有されていたスロットを識別するためのマーカー）の必要性がなくなり、空のスロットは実際に空のままになるので、プローブの動作がさらに改善され、制御バイトスキャンが効率的に維持されます。

その結果、スイステーブルの魅力となるパフォーマンス特性を維持しながら、Elasticsearchの実行モデルに自然に適合する設計が実現しました。

パフォーマンス

カーディナリティが小さい場合、スイステーブルのパフォーマンスは既存の実装とほぼ同等になります。これは予想どおりです。テーブルが小さい場合、キャッシュの影響は少なくなり、最適化するための調査もほとんど行われません。

カーディナリティが増加するにつれて、状況は急速に変化します。

上記のヒートマップは、異なるキーサイズ（8、32、64、128バイト）に対する時間改善係数を、1,000から10,000,000グループまでの基数にわたってプロットしています。カーディナリティが増加するにつれて、改善係数は着実に増加し、均一分布の場合は2～3倍に達します。

この傾向はまさに設計が予測していることです。カーディナリティが高くなると、従来のハッシュテーブルではプローブチェーンが長くなりますが、スイススタイルのプローブでは、SIMD対応の制御バイトブロック内でほとんどの検索が引き続き解決されます。

キャッシュの挙動が物語るもの

速度の向上をよりよく理解するために、同じJMH benchmarks をLinuxperf で実行し、キャッシュとTLBの統計を取得しました。

元の実装と比較すると、スイスバージョンでは全体的にキャッシュ参照が約60%少なくなります。最終レベルのキャッシュのロードは4倍以上減少し、LLCロードミスは6倍以上減少します。LLCのミスはメインメモリアクセスに直接変換されることが多いので、この減少だけでエンドツーエンドの改善の大部分を説明できます。

CPUに近いほどL1データキャッシュミスが少なくなり、データTLBミスが約6倍少なくなります。これは、空間的局所性が高く、メモリアクセスパターンがより予測可能であることを示しています。

これがSIMD対応の制御バイトの実用的なメリットです。散在したメモリ位置からキーと値を繰り返しロードする代わりに、ほとんどのプローブは、コンパクトなキャッシュ常駐構造をスキャンすることによって解決されます。アクセスされるメモリが少なければミスも減り、ミスが少なければクエリも速くなります。

まとめ

スイススタイルのハッシュテーブル設計を採用し、SIMDフレンドリーなプロービングを積極的に活用することで、高カーディナリティのES|QL統計ワークロードで2〜3倍の速度向上を達成し、より安定的で予測可能なパフォーマンスを実現しました。

この研究は、現代のCPUに対応したデータ構造が、ハッシュテーブルのような十分に確立された問題においても、大きな性能向上を実現できることを示しています。ここでは、追加のプリミティブ型の特殊化や、結合などの他の高カーディナリティパスでの使用など、さらに検討する余地がありますが、これらはすべて、Elasticsearchの内部を継続的に近代化するための広範かつ継続的な取り組みの一部に過ぎません。

詳細に興味がある方や作業をフォローしたい方は、GitHubのプルリクエストとメタイシューの進捗追跡をチェックしてみてください。

ハッシュを活用しましょう！

Elasticsearchによるエージェントメモリの管理

Someshwaran Mohankumar — Fri, 16 Jan 2026 00:00:00 GMT

新興の分野であるコンテキストエンジニアリングでは、AIエージェントに適切なタイミングで適切な情報を提供することが極めて重要です。コンテキストエンジニアリングの最も重要な側面の1つは、AIのメモリを管理することです。人間と同じように、AIシステムは情報を思い出すために短期記憶と長期記憶の両方に依存しています。大規模言語モデル（LLM）エージェントに論理的な会話をさせたり、ユーザーの好みを覚えたり、以前の結果や対応に基づいて構築させたりしたい場合は、効果的な記憶メカニズムをエージェントに装備する必要があります。

結局のところ、コンテキスト内のすべてがAIの応答に影響を与えます。「ゴミを入れたらゴミが出てくる」は真実です。

この記事では、AIエージェントにとって短期記憶と長期記憶が何を意味するのか、具体的に紹介します。

短期記憶と長期記憶の違い。
Elasticsearchのようなベクトルデータベースを使用したRetrieval-Augmented Generation（RAG）手法との関係、そして慎重なメモリ管理が必要な理由。
コンテキストオーバーフローやコンテキストポイズニングなど、メモリを軽視することによるリスク。
エージェントのメモリを有用かつ安全に保つベストプラクティス（コンテキストのプルーニング、要約、関連するもののみの取得など）
最後に、Elasticsearchを使用してエージェントが混乱することなく協力できるように、マルチエージェントシステムでメモリを共有および伝播する方法について説明します。

AIエージェントにおける短期記憶と長期記憶の違い

AIエージェントの短期記憶は通常、直前の会話のコンテキストや状態を指します。本質的には、アクティブなセッションにおける現在のチャット履歴や最近のメッセージです。ユーザーの最新のクエリと最近のやり取りが含まれ、人が会話中に心に留めている情報と非常に似ています。

AIフレームワークは、エージェントの状態の一部としてこの一時的なメモリを保持することがよくあります（例えば、LangGraphのこの例のように、会話の状態を格納するためにチェックポインタを使用します）。短期記憶はセッション範囲に限定されます。つまり、短期記憶は単一の会話またはタスク内に存在し、明示的に他の場所に保存されない限り、そのセッションが終了するとリセットまたはクリアされます。セッションに縛られた短期記憶の例としては、ChatGPTで利用可能な一時的なチャットが挙げられます。

一方、長期記憶とは、会話やセッションを超えて持続する情報を指します。これは、エージェントが長期にわたって保持する知識、以前に学習した事実、ユーザーの選好、または永続的に覚えておくように指示されたデータです。

長期記憶は通常、ファイルやベクトルデータベースなどの即時コンテキストウィンドウの外部にある外部ソースに格納・取得することで実装されます。短期的なチャット履歴とは異なり、長期記憶はすべてのプロンプトに自動的に含まれるわけではありません。代わりに、特定のシナリオに基づいて、エージェントは関連するツールが呼び出されたときにそれを想起したり取得したりする必要があります。実際には、長期記憶にはユーザーのプロフィール情報、エージェントが生成した過去の回答や分析、またはエージェントがクエリを実行できるナレッジベースが含まれる可能性があります。

例えば、旅行プランナーエージェントの場合、短期メモリには現在の旅行の問い合わせの詳細（日付、目的地、予算）とそのチャットでのフォローアップの質問が格納され、長期メモリにはユーザーの一般的な旅行の好み、過去の旅程、および以前のセッションで共有されたその他の事実が格納されます。ユーザーが後で戻ってきたときに、エージェントはこの長期格納場所から情報を引き出すことができます（そのユーザーはビーチや山が好きで、平均予算はINR 100,000で、行きたい場所のリストがあり、子供向けのアトラクションよりも歴史や文化を体験することを好むなど）。そのため、エージェントは毎回ユーザーを白紙の状態として扱うことはありません。

短期記憶（チャット履歴）は即時のコンテキストと継続性を提供し、長期記憶はエージェントが必要なときに利用できるより広範なコンテキストを提供します。ほとんどの先進的なAIエージェントフレームワークは、その両方を可能にします。コンテキストを保守するために最近の対話を追跡し、かつより長期的なリポジトリに情報を検索または格納するメカニズムを提供します。短期記憶を管理することで、コンテキストウィンドウ内に留まることを確保し、長期記憶を管理することで、エージェントは過去のやり取りやペルソナに基づいて回答を裏付けることができます。

コンテキストエンジニアリングにおけるメモリとRAG

実際にAIエージェントに有用な長期記憶を与えるにはどうすればよいでしょうか？

長期記憶のための一つの顕著なアプローチはセマンティック記憶であり、しばしば検索拡張生成（RAG）を介して実装されます。これには、LLMを外部のナレッジストアやElasticsearchなどのベクトル対応データストアと結合することが含まれます。LLMは、プロンプトや組み込みのトレーニングの内容以外の情報を必要とする場合、Elasticsearchに対してセマンティック検索を実行し、最も関連性の高い結果をコンテキストとしてプロンプトに注入します。このように、モデルの効果的なコンテキストには、最近の会話（短期記憶）だけでなく、その場で得られた関連する長期的事実も含まれます。その後、LLMは、独自の推論と取得した情報の両方に基づいて回答を決定し、短期記憶と長期記憶を効果的に組み合わせて、より正確でコンテキストを意識した応答を生成します。

ElasticsearchはAIエージェントの長期記憶実装にも利用できます。長期記憶のためにElasticsearchからコンテキストを取得する方法の高次的な例を示します。

このように、エージェントはさまざまなリスクにつながる限られたプロンプト内にすべてを格納するのではなく、関連するデータを検索することによって「思い出し」ます。

RAGをElasticsearchや任意のベクトルストアで使用することで、多くの利点が得られます。

第一に、モデルのトレーニングのカットオフを超えて知識を拡張できます。エージェントは、LLMが知らない可能性のある最新の情報やドメイン固有のデータを取得できます。これは最近の出来事や専門的なトピックに関する質問に非常に重要です。

第二に、オンデマンドでコンテキストを取得することで、ハルシネーションを減らすことができます。特に、LLMはニッチなユースケースに関連する独自データや高度に専門化されたデータでトレーニングされていないため、ハルシネーションが発生する可能性が非常に高いです。LLMが評価によって推測や新しい情報を作り出すのではなく、最近のOpenAIの論文（Why Language Models Hallucinate）で指摘されているように、このモデルはElasticsearchの事実に基づく参照に基づいています。当然ながら、LLMはベクトルストアのデータの信頼性に依存しており、誤情報を確実に防御するために、コアの関連性指標に基づいて関連データが取得されます。

第三に、RAGを使用すると、エージェントはプロンプトに収めることができるものよりもはるかに大きなナレッジベースを扱うことができます。長い研究論文や政策文書のように、文書全体をコンテキストウィンドウに押し込んで過剰負荷や無関係な情報コンテキストがモデルの推論を損なうコンテキストポイズニングを招くことなく、RAGはチャンク化に依存します。大きな文書は意味的に意味のある小さな部分に分割され、システムはクエリに最も関連性の高い少数のチャンクのみを取得します。この方法では、モデルが知識豊富であることを示すために100万トークンのコンテキストを必要とせず、はるかに大規模なコーパスの適切なチャンクにアクセスするだけで済みます。

注目すべきは、LLMのコンテキストウィンドウが拡大し（一部のモデルは現在、数十万または数百万のトークンをサポート）、RAGの「終焉」についての議論が起きたことです。なぜすべてのデータをプロンプトに押し込まないのでしょうか。同じようにお考えなら、同僚のJeffrey RengifoとEduard Martinによるこの素晴らしい記事「コンテキストは長ければよいわけではない：RAGが引き続き重要な理由」を参照してください。これにより、「ゴミを入れればゴミが出てくる」問題を回避できます。LLMは、ノイズを処理するのではなく、重要な少数のチャンクに焦点を合わせ続けます。

とはいえ、Elasticsearchやその他のベクトルストアをAIエージェントのアーキテクチャに統合することで、長期記憶が可能になります。エージェントは知識を外部に格納し、必要に応じてメモリコンテキストとして取り込みます。これは、各ユーザークエリの後、エージェントがElasticsearchで関連情報を検索し、LLMを呼び出す前にプロンプトに上位の結果を追加するアーキテクチャとして実装することができます。応答に新しい有用な情報が含まれている場合、その応答は長期保存されることもあります（学習のフィードバックループが作成されます）。そのような検索ベースのメモリを使用することで、エージェントは、コンテキストウィンドウが100万トークンをサポートしている場合であっても、常に情報を得て最新の状態を保ちながら、すべての知識をすべてのプロンプトに詰め込む必要がなくなります。この技術は、情報検索と生成AIの強みを組み合わせたコンテキストエンジニアリングの基礎となるものです。

これは、セッション中の短期記憶にLangGraphのチェックポイントシステムを使用して管理されたメモリ内会話状態の例です。（当社のコンテキストエンジニアリングをサポートするアプリを参照してください。）

# Initialize chat memory (Note: This is in-memory only, not persistent)
memory = MemorySaver()

# Create a LangGraph agent
langgraph_agent = create_react_agent(model=llm, tools=tools, checkpointer=memory)

...
...
# Only process and display checkpoints if verbose mode is enabled
if args.verbose:
    # List all checkpoints that match a given configuration
    checkpoints = memory.list({"configurable": {"thread_id": "1"}})
    # Process the checkpoints
    process_checkpoints(checkpoints)

checkpointの格納方法は以下の通りです。

Checkpoint:
Timestamp: 2025-12-30T09:19:41.691087+00:00
Checkpoint ID: 1f0e560a-c2fa-69ec-8001-14ee5373f9cf
User: Hi I'm Som, how are you? (Message ID: ad0a8415-5392-4a58-85ad-84154875bbf2)
Agent: Hi Som! I'm doing well, thank you! How about you? (Message ID: 
56d31efb-14e3-4148-806e-24a839799ece)
Agent:  (Message ID: lc_run--019b6e8e-553f-7b52-8796-a8b1fbb206a4-0)

Checkpoint:
Timestamp: 2025-12-30T09:19:40.350507+00:00
Checkpoint ID: 1f0e560a-b631-6a08-8000-7796d108109a
User: Hi I'm Som, how are you? (Message ID: ad0a8415-5392-4a58-85ad-84154875bbf2)
Agent: Hi Som! I'm doing well, thank you! How about you? (Message ID: 
56d31efb-14e3-4148-806e-24a839799ece)

Checkpoint:
Timestamp: 2025-12-30T09:19:40.349027+00:00
Checkpoint ID: 1f0e560a-b62e-6010-bfff-cbebe1d865f6

長期記憶については、Elasticsearchでセマンティック検索を実行し、チェックポイントを要約して Elasticsearchにインデックス付けした後、ベクトル埋め込みを使用して関連する以前の会話を取得する方法を次に示します。

Functions: 
retrieve_from_elasticsearch() 

# Enhanced Elasticsearch retrieval with rank_window and verbose display
def retrieve_from_elasticsearch(query: str, k: int = 5, rank_window: int = None) -> tuple[List[Dict[str, Any]], str]:
    """
    Retrieve context from Elasticsearch with score-based ranking
    
    Args:
        query: Search query
        k: Number of results to return
        rank_window: Number of candidates to retrieve before ranking (default: args.rank_window)
        
    Returns:
        Tuple of (retrieved_documents, formatted_context_string)
    """
    if not es_client or not es_index_name:
        return [], "Elasticsearch is not available. Cannot search long-term memory."
    
    if rank_window is None:
        rank_window = args.rank_window
    
    try:
        # Check if index exists and has documents
        if not es_client.indices.exists(index=es_index_name):
            return [], "No previous conversations stored in long-term memory yet."
        
        # Get document count
        try:
            doc_count = es_client.count(index=es_index_name)["count"]
            if doc_count == 0:
                return [], "Long-term memory is empty. No previous conversations to search."
        except Exception as e:
            return [], f"Error checking memory: {str(e)}"
        
        # Generate embedding for the query
        try:
            query_embedding = embeddings.embed_query(query)
        except Exception as e:
            return [], f"Error generating embedding: {str(e)}"
        
        # Perform semantic search using kNN with rank_window
        try:
            search_body = {
                "knn": {
                    "field": "vector",
                    "query_vector": query_embedding,
                    "k": k,
                    "num_candidates": rank_window  # Retrieve more candidates, then rank top k
                },
                "_source": ["text", "content", "message_type", "timestamp", "thread_id"],
                "size": k
            }
            
            response = es_client.search(index=es_index_name, body=search_body)
            
            if not response.get("hits") or len(response["hits"]["hits"]) == 0:
                return [], "No relevant previous conversations found in long-term memory."
            
            # Extract documents with scores
            retrieved_docs = []
            for hit in response["hits"]["hits"]:
                source = hit["_source"]
                score = hit["_score"]
                retrieved_docs.append({
                    "content": source.get("content", source.get("text", "")),
                    "message_type": source.get("message_type", "unknown"),
                    "timestamp": source.get("timestamp", "unknown"),
                    "thread_id": source.get("thread_id", "unknown"),
                    "score": score
                })
            
            # Format context string
            context_parts = []
            for i, doc in enumerate(retrieved_docs, 1):
                context_parts.append(doc["content"])
            
            context_string = "\n\n".join(context_parts)
            
            # Verbose display
            if args.verbose:
                rich.print(f"\n[bold yellow]🔍 RETRIEVAL ANALYSIS[/bold yellow]")
                rich.print("="*80)
                rich.print(f"[blue]Query:[/blue] {query}")
                rich.print(f"[blue]Retrieved:[/blue] {len(retrieved_docs)} documents (from {rank_window} candidates)")
                rich.print(f"[blue]Total context length:[/blue] {len(context_string)} characters\n")
                
                for i, doc in enumerate(retrieved_docs, 1):
                    rich.print(f"[cyan]📄 Document {i} | Score: {doc['score']:.4f} | Type: {doc['message_type']}[/cyan]")
                    rich.print(f"[cyan]   Timestamp: {doc['timestamp']} | Thread: {doc['thread_id']}[/cyan]")
                    content_preview = doc['content'][:200] + "..." if len(doc['content']) > 200 else doc['content']
                    rich.print(f"[cyan]   Content: {content_preview}[/cyan]")
                    rich.print("-" * 80)
            
            return retrieved_docs, context_string
            
        except Exception as e:
            return [], f"Error searching memory: {str(e)}"
            
    except Exception as e:
        return [], f"Error accessing long-term memory: {str(e)}"

ElasticsearchのLangGraphのチェックポイントを使用して、短期記憶と長期記憶がどのようにインデックス化され、取得されるかを調べてきました。さて、少し時間を取って、会話全体をインデキシングしてダンプすることがなぜ危険なのかを理解しましょう。

コンテキストメモリを管理しないことのリスク

コンテキストエンジニアリング、短期記憶、長期記憶について詳しく説明しているので、エージェントのメモリとコンテキストを適切に管理しないと何が起こるかを理解しましょう。

残念ながら、AIのコンテキストが非常に長くなったり、悪い情報が含まれたりすると、多くの問題が発生する可能性があります。コンテキストウィンドウが大きくなるにつれて、次のような新しい障害モードが発生します。

コンテキストポイズニング
コンテキストの逸脱
コンテキストの混乱
コンテキストの衝突
コンテキスト漏洩と知識対立
ハルシネーションと誤情報

これらの問題や、不適切なコンテキスト管理から生じるその他のリスクを分解して見ていきましょう。

コンテキストポイズニング

コンテキストポイズニングとは、不正確または有害な情報がコンテキストに入り込み、モデルのその後の出力を「汚染」してしまうことを指します。よくある例としては、モデルによるハルシネーションが事実として扱われ、会話履歴に挿入されることがあります。モデルはその後、そのエラーを元に対応を構築し、誤りを複合化させることがあります。反復的なエージェントループでは、共有コンテキスト（エージェントの作業メモの要約など）に誤った情報が入ると、その情報が何度も強化されることがあります。

DeepMindの研究者は、Gemini 2.5レポート（概略はここをチェック）のリリース時に長年ポケモンをプレイしているエージェントでこれを観察しました。エージェントが間違ったゲーム状態のハルシネーションを起こし、それがそのコンテキスト（ゴールの記憶）に記録された場合、エージェントは不可能な目標に関する無意味な戦略を立て、行き詰まってしまいます。言い換えれば、汚染された記憶はエージェントを永久に誤った道へと導く可能性があるのです。

コンテキストポイズニングは、無意識のうちに（誤って）発生する可能性があるだけでなく、悪意を伴ってを発生する可能性もあります。例えば、プロンプトインジェクション攻撃では、ユーザーや第三者が隠れた指示や虚偽の事実を忍び込ませ、エージェントがそれを記憶し、従うようにします。

推奨される対策：

Wiz、Zerlo、Anthropicからの洞察に基づき、コンテキストポイズニングの対策は、LLMのプロンプト、コンテキストウィンドウ、検索パイプラインに悪い情報や誤解を招く情報が入らないようにすることに重点を置いています。主な手順は次のとおりです。

常にコンテキストを確認する：開始プロンプトだけでなく、不審な点や有害な点がないか、会話や検索されたテキストを監視します。
信頼できるソースを使用する：信頼性に基づいて文書にスコアを付けたりラベルを付けたりすることで、システムは信頼性の高い情報を優先し、スコアの低いデータを無視します。
異常なデータを見つける：奇妙なもの、場違いなもの、または操作されたコンテンツを検出するツールを使用し、モデルが使用する前に削除します。
入力と出力をフィルターする: 有害または誤解を招くテキストがシステムに簡単に入力されたり、モデルによって繰り返されたりしないようにガードレールを追加します。
モデルをクリーンなデータで最新の状態に保つ：検証済みの情報で定期的にシステムを更新して、流出してしまった不良データに対処します。
人間が関与する：重要な出力を人間が確認したり、既知の信頼できるソースと比較したりします。

長いチャットをリセットし、関連情報のみを共有し、複雑なタスクを小さなステップに分割し、モデル外で明確なメモを維持するなど、使用時のシンプルな習慣も役立ちます。

これらの対策を組み合わせることで、コンテキストポイズニングからLLMを保護し、出力の正確性と信頼性を維持する階層化された防御が実現します。

ここに記載されている対策を講じないと、エージェントは以前のガイドラインや攻撃者が挿入した些細な事実を無視するなどの指示を覚えてしまい、有害な出力につながることがあります。

コンテキストの逸脱

コンテキストの逸脱とは、コンテキストが長くなりすぎて、モデルがコンテキストに過度に集中し、トレーニング中に学習した内容を無視してしまうことです。極端な場合、これは壊滅的な忘却のようになります。この場合、モデルは基本的な知識を「忘れ」、目の前にある情報に過度に依存するようになります。過去の研究では、プロンプトが非常に長いとLLMが焦点を失うことが多いことが示されています。

例えば、Gemini 2.5エージェントは100万トークンのウィンドウをサポートしていましたが、そのコンテキストが特定のポイント（実験では約10万トークン）を超えると、新しいソリューションを思いつく代わりに、過去の行動を繰り返すことに固執し始めました。ある意味、エージェントはその長い歴史の囚人となったのです。基礎となるトレーニング知識を活用して斬新な戦略を考案するのではなく、以前の動作の長いログ（コンテキスト）を見てそれを真似し続けました。

これでは逆効果です。私たちは、モデルが思考能力を無効にするのではなく、推論を助けるために関連コンテキストを使用することを望んでいます。注目すべきは、巨大なウィンドウを持つモデルでさえ、トークンが追加されるにつれて、パフォーマンスが不均一に低下するというコンテキスト腐敗を示すことです。ここには注意予算が見られるようです。つまり、人間の作業記憶が限られているように、LLMがトークンに注意を払う能力も有限であり、その予算が限界に達すると、その精度と焦点が低下します。

緩和策として、チャンキング、適切な情報のエンジニアリング、定期的なコンテキストの要約、応答の正確性を測定するための評価とモニタリング技術を使用して、コンテキストの逸脱を防止できます。

これらの方法により、モデルは関連するコンテキストとその基礎となるトレーニングの両方に基盤を置くようになり、逸脱のリスクが軽減され、全体的な推論品質が向上します。

コンテキストの混乱

コンテキストの混乱とは、コンテキスト内の余分なコンテンツがモデルによって使用され、低品質の対応が生成されることです。代表的な例としては、エージェントが使用する可能性のある大量のツールやAPI定義をエージェントに提供することが挙げられます。それらのツールの多くが現在のタスクと無関係であっても、モデルはコンテキスト内に存在するという理由だけで、それらを不適切に使用しようとする可能性があります。実験によると、必要でないツールやドキュメントを多く提供すると、パフォーマンスが低下することがわかっています。エージェントは、間違った関数を呼び出したり、無関係なテキストを参照したりするなどの間違いを犯し始めます。

あるケースでは、小型のLlama 3.1 8Bモデルは、検討すべきツールが46個与えられたときにはタスクに失敗しましたが、19個のツールしか与えられなかったときには成功しました。コンテキストが長さ制限内であったにもかかわらず、追加のツールによって混乱が生じました。根本的な問題は、プロンプト内のすべての情報がモデルに処理されることです。何かを無視するべきことを認識していない場合、その何かが望ましくない方法で出力に影響を及ぼす可能性があります。無関係な部分がモデルの注意の一部を「奪い」、誤った方向に導くことがあります（無関係な文書によってエージェントが尋ねられた質問とは異なる質問に答えるなど）。コンテキストの混乱は、しばしばモデルが無関係なコンテキストを統合した低品質の応答を生成することとして現れます。研究論文「Less is More: Optimizing Function Calling for LLM Execution on Edge Devices.」を参照してください。

これは、特に関連性を重視して厳選されていない場合、コンテキストが多ければ多いほど良いとは限らないことを想起させます。

コンテキストの衝突

コンテキストの衝突は、コンテキストの部分が互いに矛盾し、モデルの推論を脱線させる内部不整合が発生するときに起こります。エージェントが矛盾する複数の情報を蓄積すると、衝突が発生することがあります。

例えば、あるエージェントが2つのソースからデータを取得したとします。1つは午後5時にA便が出発するというもので、もう1つは午後6時にA便が出発するというものです。両方の事実がコンテキスト内に存在する場合、貧弱なモデルではどちらが正しいのかを判断できず、混乱したり、不正確な回答や類似しない回答を生成したりする可能性があります。

コンテキストの衝突は、モデルの過去の回答の試みが、その後の洗練された情報とともにコンテキスト内に残っている、マルチターンの会話でも頻繁に発生します。

MicrosoftとSalesforceの研究によると、複雑なクエリを複数のチャットボットターンに分割して詳細を徐々に追加すると、単一のプロンプトですべての詳細を伝える場合と比べて、最終的な精度が大幅に低下することが示されています。なぜでしょうか。初期のターンにモデルからの部分的なまたは不正確な中間回答が含まれており、それらはコンテキスト内に残るためです。モデルが後ですべての情報を使用して回答しようとすると、そのメモリにはまだそれらの誤った試行が含まれており、修正された情報と矛盾して軌道から外れてしまいます。本質的に、会話のコンテキストが自己衝突しているのです。このモデルは、新しい情報が追加された後には適用されない古いコンテキスト（以前のターンからの）を誤って使用してしまう可能性があります。

エージェントが異なるツールやサブエージェントからの出力を組み合わせる可能性があるエージェントシステムでは、コンテキストの衝突は特に危険です。これらの出力が一致しない場合、集約された文脈は一貫性がありません。すると、エージェントは行き詰まったり、矛盾を調整しようとして無意味な結果を生成する可能性があります。コンテキストの衝突を防ぐには、コンテキストが新鮮で一貫していること、例えば、古い情報をクリアまたは更新し、一貫性がないソースを混ぜないことが重要です。

コンテキスト漏洩と知識対立

システムで複数のエージェントやユーザーがメモリストアを共有する場合、コンテキスト間で情報が漏れるリスクがあります。

例えば、適切なアクセス制御がないまま、2人の異なるユーザーのデータ埋め込みが同じベクトルデータベースに存在する場合、ユーザーAのクエリに応答するエージェントが、誤ってユーザーBのメモリの一部を取得する可能性があります。この クロスコンテキスト漏洩 は、個人情報を漏洩させたり、対応に混乱を生じさせたりする可能性があります。

OWASP Top 10 for LLM Applicationsによれば、マルチテナントベクトルデータベースは次のような漏洩を防ぐ必要があります。

LLM08:2025 Vector and Embedding Weaknessesによると、一般的なリスクの1つはコンテキストの漏洩です。

マルチテナント環境では、複数のクラスのユーザーやアプリケーションが同じベクトルデータベースを共有するため、ユーザーやクエリ間でコンテキストが漏洩するリスクがあります。データフェデレーション知識の矛盾エラーは、複数のソースからのデータが矛盾し合う場合に発生します。これは、LLMがトレーニング中に学習した古い知識を検索拡張からの新しいデータで置き換えることができない場合にも発生する可能性があります。

もう一つの側面は、LLMがメモリからの新しい情報で組み込まれた知識を上書きするのに苦労する可能性があることです。モデルが何らかの事実に基づいてトレーニングされていて、取得したコンテキストが逆の場合、モデルはどちらを信頼すべきか混乱する可能性があります。適切な設計がないと、エージェントがコンテキストを混同したり、古い知識を新しい証拠で更新できなかったりして、古くなった回答や間違った回答につながる可能性があります。

ハルシネーションと誤情報

ハルシネーション（LLM がもっともらしく聞こえるが誤った情報を生成すること）は、コンテキストが長くなくても既知の問題ですが、メモリ管理が不十分だと増幅される可能性があります。

エージェントのメモリに重要な事実が欠けている場合、モデルは単にその空白を推測で埋める可能性があり、その推測がコンテキストに入り込む（汚染）と、エラーが持続します。

OWASPのLLMセキュリティレポート（LLM09:2025 Misinformation）では、誤情報が主な脆弱性として強調されています。LLMは自信を持って虚偽の回答を生成する可能性があり、ユーザーはそれらを過度に信頼する可能性があります。長期記憶が不良または古くなっているエージェントは、その記憶が最新の状態に保たれていない限り、昨年は真実であったが現在は間違っていることを自信を持って引用する可能性があります。

（ループ内のユーザーまたはエージェント自体による）AIの出力への過度の依存は、この問題を悪化させる可能性があります。誰もメモリの情報を確認しなければ、エージェントは虚偽を蓄積してしまう可能性があります。RAGがハルシネーションを抑えるためによく使われるのはこのためです。信頼できる情報源を検索することで、モデルは事実を捏造する必要がなくなります。しかし、検索によって間違った文書（誤った情報が含まれている文書など）が取得されたり、初期のハルシネーションが除去されなかったりすると、システムはその誤った情報をその動作全体に伝播してしまう可能性があります。

肝心なことは、メモリの管理に失敗すると、不正確で誤解を招く出力につながる可能性があり、特にリスクが高い場合（金融や医療分野での誤ったアドバイスなど）には損害を与える可能性があります。エージェントには、コンテキスト内のあらゆるものを無条件に信頼するだけでなく、メモリの内容を検証または修正するためのメカニズムが必要です。

まとめると、成功の秘訣は、AIエージェントに無限に長いメモリを与えたり、ありとあらゆるものをそのコンテキストに放り込んだりすることではありません。

LLMアプリケーションにおけるメモリ管理のベストプラクティス

上記の陥穽を避けるために、開発者と研究者はAIシステムでコンテキストとメモリを管理するためのベストプラクティスをいくつか考案しました。これらのプラクティスは、AIの動作コンテキストを無駄なく、関連性があり、最新の状態に保つことを目的としています。ここでは、いくつかの重要な戦略と、それがどのように役立つかの例を示します。

RAG：ターゲットを絞ったコンテキストを使用する

RAGの大部分についてはすでに前のセクションで説明しましたので、このセクションは実用的な注意事項を簡潔にまとめたものです。

ターゲットを絞った検索を使用し、一括読み込みは避ける：全文書や会話の履歴全体をプロンプトにプッシュするのではなく、最も関連性の高い部分のみを取得します。
RAGをジャストインタイムのメモリ呼び出しとして扱う：ターンを超えてすべてを転送するのではなく、必要なときにのみコンテキストを取得します。
関連性に注意した検索戦略を優先する：トップkセマンティック検索、逆順位融合、ツールロードアウトフィルタリングなどのアプローチは、ノイズを減らし、グラウンディングを改善するのに役立ちます。
コンテキストウィンドウが大きくなってもRAGは必要：2つの非常に関連性の高い段落は、20の緩く関連したページよりもほとんど常に効果的です。

つまり、RAGではコンテキストを増やすことではなく、適切なコンテキストを追加することが重要なのです。

ツールのロードアウト

ツールのロードアウトとは、モデルにタスクに実際に必要なツールのみを与えることです。この用語はゲームに由来し、状況に合った装備を選ぶというものです。ツールが多すぎると作業が遅くなり、間違ったツールを使用すると失敗の原因になります。研究論文「Less is more」によると、LLMも同様に動作します。ツールが30個を超えると、説明が重複し始め、モデルが混乱します。ツールの数が約100個を超えると、失敗はほぼ確実です。これはコンテキストウィンドウの問題ではなく、コンテキストの混乱です。

シンプルで効果的な解決策となるのがRAG-MCPです。すべてのツールをプロンプトにダンプする代わりに、ツールの説明はベクトルデータベースに保存され、リクエストごとに最も関連性の高いものだけが取得されます。実際には、これにより、ロードアウトが小さく集中したものになり、プロンプトが大幅に短縮され、ツール選択の精度が最大3倍向上します。

小型モデルでは、この壁にぶつかるのがさらに早くなります。調査によると、8Bモデルは数十個のツールでは失敗しますが、ロードアウトを調整すると成功します。場合によっては最初にLLMを使用して、必要と思われるツールを動的に選択すると、パフォーマンスが44%向上し、電力使用量とレイテンシも削減されます。重要な点は、ほとんどのエージェントはわずかなツールしか必要としないものの、システムが成長するにつれて、ツールのロードアウトとRAG-MCPが第一の設計上の決定事項になるということです。

コンテキストのプルーニング：チャット履歴の長さを制限する

会話が何ターンも続くと、蓄積されたチャット履歴が大きすぎて収まらなくなり、コンテキストがオーバーフローしたり、モデルの注意が散漫になったりします。

トリミングとは、会話が長くなるにつれて、重要度の低い部分をプログラムで削除または短縮することを指します。単純な形式としては、一定の制限に達したときに会話の最も古いターンを削除し、最新のN件のメッセージのみを保持する方法があります。より高度なプルーニングにより、無関係な余談や不要になった以前の指示を削除することもあります。目標は、コンテキストウィンドウが古いニュースで煩雑にならないようにすることです。

例えば、エージェントが10ターン前にサブ問題を解決し、その後先に進んだ場合、コンテキストから履歴のその部分を（それ以上必要ないという前提で）削除することがあります。多くのチャットベースの実装では、最近のメッセージのローリングウィンドウを維持することでこれを実行します。

トリミングは、会話の最初の部分を、要約したり、無関係だと判断したりした後に「忘れる」という単純な作業である場合もあります。そうすることで、コンテキストオーバーフローエラーのリスクが軽減され、コンテキストの逸脱も軽減されるため、モデルが古いコンテンツやトピック外のコンテンツを見つけて脇道に逸れることがなくなります。このアプローチは、人間が1時間の講演のすべての単語を覚えているわけではないものの、重要な部分は覚えているということと非常によく似ています。

作者のDrew Breunigがここで強調しているように、コンテキストプルーニングについて混乱している場合は、質問応答用の軽量（1.75 GB）、効率的で正確なコンテキストプルーナーであるProvence（`naver/provence-reranker-debertav3-v1`）モデルを使用すると違いが出る可能性があります。大きな文書を特定のクエリに最も関連性の高いテキストだけに絞り、特定の間隔で呼び出すことができます。

コード内で`provence-reranker`モデルを呼び出してコンテキストをプルーニングする方法は次のとおりです。

# Context pruning with Provence
def prune_with_provence(query: str, context: str, threshold: Optional[float] = None) -> str:
    """
    Prune context using Provence reranker model
    
    Args:
        query: User's query/question
        context: Original context to prune
        threshold: Relevance threshold (0-1) for Provence reranker.
                   If None, uses args.pruning_threshold.
                   0.1 = conservative (recommended, no performance drop)
                   0.3-0.5 = moderate to aggressive pruning
    
    Returns:
        Pruned context with only relevant sentences
    """
    if provence_model is None:
        return context
    
    if threshold is None:
        threshold = args.pruning_threshold
    
    try:
        # Use Provence's process method
        provence_output = provence_model.process(
            question=query,
            context=context,
            threshold=threshold,
            always_select_title=False,
            enable_warnings=False
        )
        
        # Extract pruned context from output
        pruned_context = provence_output.get('pruned_context', context)
        reranking_score = provence_output.get('reranking_score', 0.0)
        
        # Log statistics
        original_length = len(context)
        pruned_length = len(pruned_context)
        reduction_pct = ((original_length - pruned_length) / original_length * 100) if original_length > 0 else 0
        
        if args.verbose:
            rich.print(f"[cyan]📊 Pruning stats: {pruned_length}/{original_length} chars ({reduction_pct:.1f}% reduction, threshold={threshold:.2f}, rerank_score={reranking_score:.3f})[/cyan]")
        
        return pruned_context if pruned_context else context
        
    except Exception as e:
        rich.print(f"[yellow]⚠️ Error in Provence pruning: {str(e)}[/yellow]")
        rich.print(f"[yellow]⚠️ Falling back to original context[/yellow]")
        return context

文の関連性のスコア付けにはProvenceリランカーモデル（`naver/provence-reranker-debertav3-v1`）を使用します。しきい値ベースのフィルタリングにより、関連性しきい値を超える文が保持されます。また、プルーニングが失敗した場合に元のコンテキストに戻るフォールバックメカニズムも導入します。最後に、統計ログが詳細モードで削減率を追跡します。

コンテキストの要約：古い情報を完全に削除するのではなく、要約する

要約はトリミングの相棒です。履歴やナレッジベースが大きくなりすぎた場合は、LLMを使用して重要なポイントの簡単な要約を作成し、上記のコードで実行したように、今後のコンテンツ全体の代わりにその要約を使用できます。

例えば、AIアシスタントが50ターンの会話を行った場合、51ターン目に50ターンすべてをモデルに送信するのではなく（おそらく収まりません）、システムは1ターン目から40ターン目までを取得し、モデルにそれらを段落に要約させてから、次のプロンプトでその要約と最後の10ターンのみを提供する可能性があります。こうすることで、モデルはすべての詳細を必要とせずに議論内容を把握できます。初期のチャットボットのユーザーは、「これまでの話を要約してくれますか？」と尋ね、要約した内容を新しいセッションで継続することで、これを手動で行っていました。今ではこれを自動化できます。要約はコンテキストウィンドウのスペースを節約するだけでなく、余分な詳細を削除して重要な事実だけを保持することでコンテキストの逸脱や混乱を減らすこともできます。

OpenAIのモデル（どんなLLMでも使用可能）を使って、すべての関連情報を保持しながらコンテキストを凝縮し、冗長性や重複を排除する方法を紹介します。

# Context summarization
def summarize_context(query: str, context: str) -> str:
    """
    Summarize context using LLM to reduce duplication and focus on relevant information
    
    Args:
        query: User's query/question
        context: Context to summarize
        
    Returns:
        Summarized context
    """
    try:
        summary_prompt = f"""You are an expert at summarizing conversation context.

Your task: Analyze the provided conversation context and produce a condensed summary that fully answers or supports the user's specific question.

The summary must:
1. Preserve every fact, detail, and information that directly relates to the question
2. Eliminate redundancy and duplicate information
3. Maintain chronological flow when relevant
4. Focus on information that helps answer: "{query}"

Context to summarize:
{context}

Provide a concise summary that preserves all relevant information:"""

        summary = llm.invoke(summary_prompt).content
        
        if args.verbose:
            original_length = len(context)
            summary_length = len(summary)
            reduction_pct = ((original_length - summary_length) / original_length * 100) if original_length > 0 else 0
            rich.print(f"[cyan]📝 Summarization stats: {summary_length}/{original_length} chars ({reduction_pct:.1f}% reduction)[/cyan]")
        
        return summary
        
    except Exception as e:
        rich.print(f"[yellow]⚠️ Error in context summarization: {str(e)}[/yellow]")
        rich.print(f"[yellow]⚠️ Falling back to original context[/yellow]")
        return context

重要なのは、コンテキストを要約すると、モデルが些細な詳細や過去のエラーに圧倒されにくくなることです（要約が正確であれば）。

しかし、要約は慎重に行わなければなりません。悪い要約は重要な部分を省略したり、エラーを生じさせたりすることがあります。これは本質的にはモデルに対する別のプロンプト（「これを要約してください」）なので、ハルシネーションを起こしたり、ニュアンスが失われたりする可能性があります。ベストプラクティスとしては、段階的に要約し、一部の標準的な事実は要約しないままにしておくことが挙げられます。

それでも非常に有用であることが証明されています。Geminiエージェントのシナリオでは、約10万トークンごとにコンテキストを要約することが、モデルの繰り返し傾向に対抗する方法でした。要約は会話やデータの圧縮された記憶のように機能します。開発者としては、エージェントに会話履歴や長いドキュメントの要約機能（おそらく小さなLLMまたは専用ルーティン）を定期的に呼び出させることでこれを実装できます。結果の要約はプロンプト内の元のコンテンツに置き換えられます。この戦術は、コンテキストを制限内に保ち、情報を精査するために広く使用されています。

コンテキストの隔離：可能な限りコンテキストを隔離する

これは複雑なエージェントシステムや多段階のワークフローでより重要です。コンテキストセグメンテーションの考え方は、大きなタスクを、それぞれ独自のコンテキストを持つ小さな独立したタスクに分割し、すべてが含まれる1つの巨大なコンテキストが蓄積されないようにすることです。各サブエージェントまたはサブタスクは、焦点を絞ったコンテキストで問題の一部に取り組み、その後、上位レベルのエージェント、スーパーバイザー、またはコーディネーターが結果を統合します。

Anthropicの研究戦略はそれぞれが異なる質問の側面を調査し、それぞれのコンテキストウィンドウを持つ複数のサブエージェントと、そのサブエージェントから抽出された結果を読み取るリードエージェントを用います。この並列のモジュール方式のアプローチにより、単一のコンテキストウィンドウが肥大化することはありません。また、無関係な情報が混ざる可能性も減り、各スレッドはトピックに沿って進み（コンテキストの混乱がなく）、特定のサブ質問に答えるときに不必要な負担がかかりません。ある意味、それは思考プロセス全体ではなく、結果だけを共有する別々の思考スレッドを実行するようなものです。

マルチエージェントシステムでは、このアプローチは不可欠です。エージェントAがタスクAを処理し、エージェントBがタスクBを処理する場合、本当に必要な場合を除き、どちらのエージェントも他方のエージェントの完全なコンテキストを使用する理由はありません。代わりに、エージェントは必要な情報だけを交換できます。例えば、エージェントAは、その調査結果の統合された要約をスーパーバイザーエージェントを介してエージェントBに渡すことができますが、各サブエージェントは独自の専用コンテキストスレッドを維持します。この設定では、人間による介入は必要ありません。最小限かつ制御されたコンテキスト共有を備えたツールが有効になっているスーパーバイザーエージェントに依存します。

にもかかわらず、エージェントやツールが最小限の必要なコンテキストオーバーラップで動作するようにシステムを設計することで、明確さとパフォーマンスを大幅に向上させることができます。これをAI用のマイクロサービスと考えると、各コンポーネントがそれぞれのコンテキストを処理し、1 つのモノリシックなコンテキストではなく、制御された方法でコンポーネント間でメッセージを渡すことができます。これらのベストプラクティスは、多くの場合、組み合わせて使用されます。また、これにより、些細な履歴をトリミングしたり、重要な古いメッセージや会話を要約したり、長期的なコンテキストのために詳細なログをElasticsearchにオフロードしたり、必要なときに関連するものを取得して戻したりする柔軟性が得られます。

ここで述べたように、コンテキストは限られた貴重なリソースであるというのが基本原則です。プロンプト内のすべてのトークンがその価値を生むようにし、出力の品質に貢献させる必要があります。メモリ内の何かが役に立たない場合（さらに悪いことに、積極的に混乱を引き起こしている場合も）、そのメモリは削除、要約、削除する必要があります。

開発者として、現在の私たちは、コードをプログラムするのと同じようにコンテキストをプログラムし、含める情報、そのフォーマット方法、および省略または更新するタイミングを決定できます。これらのプラクティスに従うことで、LLMエージェントに、前述の障害モードの被害に遭うことなくタスクを実行するために必要なコンテキストを提供できます。その結果、エージェントは必要なことを記憶し、不要なことを忘れ、必要な情報を必要なタイミングで取得できるようになります。

まとめ

メモリはエージェントに追加するものではなく、設計するものです。短期メモリはエージェントの一時的な作業領域であり、長期メモリはその永続的な知識格納場所です。RAGは2つの間の架け橋であり、Elasticsearchのようなパッシブデータストアを、出力を接地してエージェントを最新の状態に保つことができるアクティブリコールメカニズムに変えます。

しかし、メモリは両刃の剣です。コンテキストを制御せずに放置すると、ポイズニング、逸脱、混乱、衝突を引き起こし、共有システムではデータ漏洩さえも招く可能性があります。だからこそ、メモリに関する最も重要な作業は「より多くを格納する」のではなく、「よりよくキュレーションする」ことです。選択的に取り出し、積極的にプルーニングし、慎重に要約し、タスクが真に要求する場合を除いて、無関係なコンテキストを混ぜ合わせることを避けます。

実際には、優れたコンテキストエンジニアリングは、優れたシステム設計のように見えます。具体的には、コンテキストが小さく十分であり、コンポーネント間のインターフェイスが制御され、モデルに実際に表示したい生の状態と精製された状態が明確に区別された状態です。適切に実行すれば、すべてを記憶するエージェントではなく、適切な理由で適切なタイミングで適切なことを記憶するエージェントが得られます。

高いスループットと低いレイテンシ：AWS上のElastic Cloud Serverlessがパフォーマンスを大幅に向上

Pete Galeotti, Yuvraj Gupta, Rachel Forshee — Wed, 14 Jan 2026 00:00:00 GMT

Elastic Cloud Serverlessは、インフラを管理する運用上の負担なしに、効率的な検索・AIアプリケーションを構築したい開発者にとって、すでに決定的なソリューションとなっています。現在、私たちはサーバーレスプロジェクトのパフォーマンスをまったく新しいレベルに引き上げています。

AWSで稼働するすべてのElastic Cloud Serverlessプロジェクトに対して、主要なインフラのアップグレードを完了し、より新しく高速なハードウェアへの移行を行いました。この変更は、すべてのサーバーレスプロジェクトに自動的に適用されました。AWS上のElasticsearch、Elastic Observability、Elastic Securityのサーバーレスプロジェクトにおいて、より高いスループットと低いレイテンシを実現します。

開発者にとっての主なパフォーマンス上のメリット

新しいAWSハードウェアインフラは、Elastic Cloud Serverlessで行われるすべての作業の基盤となり、アプリケーションの速度と応答性に目に見えるメリットをもたらします。

クエリのレイテンシの短縮…スループットの向上

ハードウェアの改良によりコンピューティングリソースの速度が劇的に向上し、検索クエリがこれまで以上に高速に処理されるようになります。

検索とベクトル検索：従来の全文クエリを実行している場合でも、最先端のベクトル検索を使用して生成AIと検索拡張生成（RAG）アプリケーションを実行している場合でも、レイテンシが大幅に減少します。内部ベンチマーキングでは、検索レイテンシが平均35%減少したことが示されました。
より高速なインデキシング：データのインジェスト速度が最適化されているため、膨大なデータ量や複雑なドキュメントのインデキシングがスループット向上とともに可能になります。これは、ほぼリアルタイムのデータ可視性を必要とするアプリケーションにとって非常に重要です。内部ベンチマークではインデキシングスループットの平均26%増加が示されました。

負荷下でも安定したパフォーマンス

Elastic Cloud Serverlessは、ワークロードに関係なく、需要に合わせてリアルタイムで動的に自動スケーリングし、レイテンシを最小限に抑えるように設計されています。このハードウェアのアップグレードにより、スケーリングのパフォーマンスと応答性が向上しました。

スパイクを容易に処理：ユーザートラフィックの突然の急増や大量のバッチデータ取り込みに直面している場合でも、新しいインフラにより、検索とインデキシングのリソースがより効率的にスケールアップし、一貫して低いレイテンシが維持されます。
最適化されたコンピューティングとストレージの分離：サーバーレスアーキテクチャはコンピューティングとストレージを分離し、ワークロードを個別にスケールして、最適なパフォーマンスとコスト効率を実現します。より高速なハードウェアによりコンピューティング層が強化され、この分離設計の効率が最大化されます。

舞台裏：内部のベンチマーク結果

AWSインフラのアップグレードの影響を定量化するため、Elasticのエンジニアリングチームは、さまざまなサーバーレスワークロードに対して包括的な社内ベンチマークを実施しました。これらのワークロードは、ユースケースに関係なく、アプリケーション全体で期待できるパフォーマンスの改善に関する実証的な証拠を提供しました。

ベンチマーキングのアプローチ

私たちは、開発者エクスペリエンスとアプリケーションの応答性に直接影響する主要なメトリクス、応答時間（つまり、レイテンシ）と検索およびインデキシング操作のスループットにテストを集中させました。

テスト対象のワークロード：テストには、ユーザー向けアプリケーションに典型的な高同時検索操作、複雑なベクトル検索クエリ、オブザーバビリティとセキュリティのユースケースのための大量データのインジェスト/インデキシングが含まれていました。特に、私たちのテスト手法では、ElasticのベンチマーキングツールであるRallyの公開データセットを使用しました。
- wikipedia: 汎用テキスト検索のパフォーマンスを測定するためにWikipediaのテキストコンテンツのスナップショットから生成されたデータセット。
- MSMARCO-Passage-Ranking：低密度ベクトルフィールドの検索パフォーマンスを測定するためのMicrosoftのMachine Reading Comprehension (MS MARCO) から派生したデータセット。
- OpenAI_Vector：高密度ベクトルフィールドの検索パフォーマンスを測定するための、BEIRのNQから派生し、OpenAIのtext-embedding-ada-002モデルによって生成された埋め込みで強化されたデータセット。
測定：旧インフラと新インフラのパフォーマンスを比較し、最悪ケースのテールレイテンシを99パーセンタイル（P99）で測定し、操作回数を1秒あたりで計測しました。結果の一貫性を確保するために、各トラックはハードウェアプロファイルごとに5回実行されました。
目標：私たちの目的は、インフラストラクチャーが、急速な自動スケーリングの期間中でも、一貫してより速く、より予測可能なパフォーマンスを提供する能力を検証することでした。

パフォーマンスデータの概要

結果では、効率と速度が大幅に向上したことが確認されました。これらの利点は、ユーザーの応答時間の短縮や、より少ないコンピュートリソースで同じ量の作業を完了できることによる運用コストの削減に直結します。

以下の表は、定量的な改善点の詳細です。スループット値は高いほど好ましく、レイテンシは値が低いほど好ましいです。

検索ベンチマーク結果：

ベンチマーク	比較	旧インフラ	新しいインフラ	差
`wikipedia`（プレーンテキスト）	検索操作のスループット（ops/s）	729	1107	＋52％
`wikipedia`（プレーンテキスト）	検索操作のレイテンシ（p99、ミリ秒）	56	35	-37%
`MSMARCO-Passage-Ranking`（低密度ベクトル）	検索操作のスループット（ops/s）	22	31	+40％
`MSMARCO-Passage-Ranking`（低密度ベクトル）	検索操作のレイテンシ（p99、ミリ秒）	108	67	-38%
`OpenAI_Vector`（高密度ベクトル）	検索操作のスループット（ops/s）	475	624	+31%
`OpenAI_Vector`（高密度ベクトル）	検索操作のレイテンシ（p99、ミリ秒）	35	22	-37%

インデキシングベンチマークの結果：

ベンチマーク	比較	旧インフラ	新しいインフラ	差
`wikipedia`（プレーンテキスト）	検索操作のスループット（ops/s）	2845	3220	+13%
`wikipedia`（プレーンテキスト）	検索操作のレイテンシ（p99、ミリ秒）	1769	1120	-37%
`MSMARCO-Passage-Ranking`（低密度ベクトル）	検索操作のスループット（ops/s）	7087	8900	+26%
`MSMARCO-Passage-Ranking`（低密度ベクトル）	検索操作のレイテンシ（p99、ミリ秒）	824	677	-18%
`OpenAI_Vector`（高密度ベクトル）	検索操作のスループット（ops/s）	2972	3187	+7%
`OpenAI_Vector`（高密度ベクトル）	検索操作のレイテンシ（p99、ミリ秒）	2946	2944	0%

追加のボーナス：コスト削減

私たちは低レイテンシのパフォーマンスを提供することに重点を置いていますが、新しいハードウェアの効率性もElasticsearchプロジェクトのコストに直接的なプラスの影響を与えます。

Elasticsearch Serverlessの価格設定は使用量ベースで、消費した取り込みと検索リソースに対してのみ料金が発生します。新しく高速なハードウェアはより効率的であるため、ワークロードはより少ないリソースを使用してタスクを完了することが多くなり、ほとんどのプロジェクトで本質的なコスト削減につながります。高額な費用をかけずに、最高のパフォーマンス向上を実現できます。まさに効率の最適化です。

開発者にとっての意義

このインフラストラクチャーのアップグレードはElasticによって完全に管理されるため、移行や構成の変更を行う必要はありません。改善は、AWSベースのすべてのサーバーレスプロジェクトで即座かつ自動的に行われます。

このアップグレードにより、次のことが可能になります。

より高速なアプリケーションを構築：基盤となる検索プラットフォームがユーザーが求める速度を提供していることを認識しながら、機能の速度に重点を置けます。
自信を持ってイノベーションを実現：プラットフォームが最高のパフォーマンスで負荷を処理できることを保証しながら、ベクトル検索や関連性ランキングなどの複雑なAI機能を含む新しい検索、オブザーバビリティ、セキュリティの機能をデプロイします。
スタックを簡素化：インフラ管理、容量計画、スケーリングを処理する完全に管理されたサービスを使用することで、コードとデータに集中できます。

Jinaモデル、その機能とElasticsearchでの使用方法の紹介

Scott Martens — Thu, 01 Jan 2026 00:00:00 GMT

Jina by Elasticは、アプリケーションとビジネスプロセスの自動化のための検索基盤モデルを提供します。これらのモデルは、Elasticsearchアプリケーションや革新的なAIプロジェクトにAIを導入するためのコア機能を提供します。

Jinaモデルは、情報処理、整理、検索をサポートするように設計された大きく3つのカテゴリーに分類されます。

セマンティック埋め込みモデル
リランキングモデル
小規模な生成言語モデル

セマンティック埋め込みモデル

セマンティック埋め込みの背後にある考え方は、AIモデルがインプットの意味的側面を高次元空間の幾何学の観点から表現することを学習できるというものです。

セマンティック埋め込みは、高次元空間内の点（技術的にはベクトル）と考えることができます。埋め込みモデルは、ニューラルネットワークの一種で、デジタルデータ（テキストや画像など、あらゆるものが入力となりえますが、最も一般的なのはテキストや画像）を入力として受け取り、対応する高次元点の位置を一連の数値座標として出力します。モデルが適切に機能している場合、2つのセマンティック埋め込み間の距離は、対応するデジタルオブジェクトがどの程度同じ意味を持つかに比例します。

これが検索アプリケーションにとっていかに重要であるかを理解するには、「dog」という単語の埋め込みと「cat」という単語の埋め込みを空間上の点として想像してみましょう。

優れた埋め込みモデルは、「feline」という単語に対して「dog」よりも「cat」にずっと近い埋め込みを生成し、「canine」は「cat」よりも「dog」にずっと近い埋め込みを生成するはずです。なぜなら、これらの単語はほぼ同じ意味だからです。

モデルが多言語対応であれば、「cat」と「dog」の翻訳でも同じ結果が期待できます。

埋め込みモデルは、物事間の意味の類似性や不一致を埋め込み間の空間的関係に翻訳します。上の図は2次元のみであるため、画面上で確認できますが、埋め込みモデルでは数十から数千の次元のベクトルが生成されます。これにより、数千語以上を含む文書に対して、何百または何千もの次元を持つ空間上の点を割り当てることで、全体のテキストの意味の微妙なニュアンスをエンコードすることが可能になります。

マルチモーダル埋め込み

マルチモーダルモデルは、セマンティック埋め込みの概念をテキスト以外のもの、特に画像にも拡張します。画像の埋め込みは、その画像の忠実な記述の埋め込みに近いものとなることが期待されます。

セマンティック埋め込みには多くの用途があります。とりわけ、効率的な分類器の構築、データのクラスタリング、データの重複排除やデータの多様性の調査などのさまざまなタスクの実行に使用できます。いずれも、手作業では管理できないほど大量のデータを扱うビッグデータアプリケーションにとって重要です。

埋め込みの最大の直接的な利用は情報検索です。Elasticsearchでは、埋め込みを含む検索オブジェクトをキーとして格納できます。クエリは埋め込みベクトルに変換され、検索によって埋め込みに最も近いキーを持つ格納オブジェクトが返されます。

従来のベクトルベースの検索（低密度ベクトル検索とも呼称）が、ドキュメントやクエリの単語やメタデータに基づくベクトルを使用するのに対し、埋め込みベースの検索（高密度ベクトル検索とも呼称）は、単語ではなくAIによって評価された意味を使用します。これにより、一般に従来の検索方法よりもはるかに柔軟かつ正確になります。

マトリョーシカ表現学習

埋め込みの次元数や数値の精度はパフォーマンスに大きな影響を与えます。空間が非常に高次元で数値が非常に高精度な場合、非常に詳細で複雑な情報を表すことができますが、トレーニングと実行に費用がかかる、より大規模なAIモデルが必要となります。生成されるベクトルはより多くのストレージ容量を必要とし、距離を計算するのにより多くの計算サイクルが必要です。セマンティック埋め込みモデルを使用するには、精度とリソース消費の間で重要なトレードオフを行う必要があります。

ユーザーの柔軟性を最大化するために、Jinaモデルはマトリョーシカ表現学習と呼ばれる技術で訓練されています。これにより、モデルは最も重要な意味的区別を埋め込みベクトルの最初の次元に前もってロードするため、より高い次元を切り捨てても良好なパフォーマンスを得ることができます。

実際には、これはJinaモデルのユーザーが埋め込みの次元数を選択できることを意味します。次元を少なく選択すると精度は低下しますが、パフォーマンスの低下は軽微です。ほとんどのタスクで、Jinaモデルのパフォーマンス指標は、埋め込みサイズを50％縮小するたびに1〜2％低下し、サイズが約95％小さくなります。

非対称検索

意味的類似性は通常、対称的に測定されます。「cat」と「dog」を比較したときに得られる値は、「dog」と「cat」を比較したときに得られる値と同じです。しかし、情報検索に埋め込みを使用する場合、対称性を破り、検索オブジェクトをエンコードする方法とは異なる方法でクエリをエンコードすると、埋め込みがより効果的に機能します。

これは、埋め込みモデルをトレーニングする方法によるものです。トレーニングデータには、単語のような同じ要素が多くの異なるコンテキストでインスタンスとして含まれており、モデルは要素間のコンテキスト上の類似点と相違点を比較することで意味論を学習します。

例えば、「animal」という単語は、「cat」や「dog」と同じ文脈にはあまり出てこないので、「animal」の埋め込みは「cat」や「dog」に特に近いわけではない可能性があります。

これにより、「animal」のクエリで猫や犬に関するドキュメントが検索される可能性が低くなります。これは目標とは逆の結果となります。そのため、代わりに、クエリの場合と検索のターゲットの場合で「animal」を異なる方法でエンコードします。

非対称検索とは、クエリに異なるモデルを使用したり、埋め込みモデルを特別に訓練して、検索のために格納する際に一方向にエンコードし、クエリを別の方向にエンコードすることを意味します。

マルチベクトル埋め込み

単一の埋め込みは、インデックス付きデータベースの基本的なフレームワークに適合するため、情報検索に適しています。検索キーとして単一の埋め込みベクトルを使用して、検索用のオブジェクトを格納します。ユーザーがドキュメントストアをクエリする際、そのクエリは埋め込みベクトルに変換され、そのキーが（高次元の埋め込み空間において）クエリ埋め込みに最も近いドキュメントが一致候補として取得されます。

マルチベクトル埋め込みの動作は少し異なります。クエリと格納されたオブジェクト全体を示す固定長のベクトルを生成する代わりに、それらの小さな部分を表す埋め込みのシーケンスを生成します。これらの部分は通常、テキストの場合はトークンまたは単語、視覚データの場合は画像タイルです。これらの埋め込みは、その文脈における部分の意味を反映しています。

例えば、次の文を考えてみましょう。

She had a heart of gold（彼女は心優しい人でした）.
She had a change of heart（彼女は心変わりしたのです）.
彼女は心臓発作を起こしました。

表面的には非常によく似ているように見えますが、マルチベクトルモデルでは「heart」の各インスタンスに対して非常に異なる埋め込みが生成され、文全体の文脈の中でそれぞれが別の意味を持つことが示されます。

2つのオブジェクトのマルチベクトル埋め込みを比較する場合、多くの場合、面取り距離の測定が必要になります。つまり、1 つのマルチベクトル埋め込みの各部分を別のマルチベクトル埋め込みの各部分と比較し、それらの間の最小距離を合計します。以下に説明するJinaリランカーを含む他のシステムでは、類似性を評価するために特別にトレーニングされたAIモデルにそれらを入力します。マルチベクトル埋め込みには単一ベクトル埋め込みよりもはるかに詳細な情報が含まれているため、通常、両方のアプローチは単一ベクトル埋め込みを単純に比較するよりも精度が高くなります。

しかし、マルチベクトル埋め込みはインデキシングにはあまり適していません。次のセクションのjina-colbert-v2モデルで説明するように、これらはタスクのリランキングによく使用されます。

Jina埋め込みモデル

Jina埋め込みv4

jina-embeddings-v4は、広く使用されているさまざまな言語の画像とテキストをサポートする、38億（3.8x10⁹）パラメーターの多言語およびマルチモーダル埋め込みモデルです。視覚的知識と言語的知識を活用する新しいアーキテクチャを使用して両方のタスクのパフォーマンスを向上させ、画像検索、特に視覚的ドキュメント検索で優れた性能を発揮します。これは、チャート、スライド、マップ、スクリーンショット、ページスキャン、ダイアグラムなどの画像を処理することを意味します。これらは一般的な種類の画像で、しばしば重要な埋め込まれたテキストが含まれており、実世界のシーンの画像で訓練されたコンピュータービジョンモデルの範囲外にあります。

コンパクトなLow-Rank Adaptation（LoRA）アダプターを使って、このモデルを複数の異なるタスクに最適化しました。これにより、メモリや処理の追加コストを最小限に抑えながら、いずれのタスクでもパフォーマンスを犠牲にすることなく、単一のモデルを複数のタスクに特化させることができます。

主な機能には以下のようなものがあります。

ビジュアルドキュメント検索における最先端のパフォーマンス、および大規模モデルをはるかに凌駕する多言語テキストと通常の画像のパフォーマンス。
大きなインプットコンテキストサイズのサポート：32,768トークンは約80ページのダブルスペースの英語テキストに相当し、20メガピクセルは4,500 x 4,500ピクセルの画像に相当します。
最大2048次元から128次元まで、ユーザーが選択した埋め込みサイズ。経験的に、そのしきい線を下回るとパフォーマンスが劇的に低下することがわかりました。
単一埋め込みとマルチベクトル埋め込みの両方をサポートします。テキストの場合、マルチベクトル出力は、インプットトークンごとに1つの128次元埋め込みで構成されます。画像の場合、28x28ピクセルタイルごとに1つの128次元埋め込みを生成します。
目的のために特別に訓練された2つのLoRAアダプターによる非対称検索最適化。
意味的類似度計算に最適化されたLoRAアダプター。
プログラミング言語とITフレームワークへの特別なサポート。LoRAアダプターを介してのサポートも提供します。

私たちは、幅広い一般的な検索、自然言語理解、AI分析タスクのための汎用的な多目的ツールとしてjina-embeddings-v4を開発しました。機能を考えると比較的小規模なモデルですが、導入には依然としてかなりのリソースが必要であり、クラウドAPI経由または高ボリューム環境での使用に最適です。

Jina embeddings v3

jina-embeddings-v3は、6億未満のパラメーターを持つ、コンパクトで高性能な多言語のテキストのみの埋め込みモデルです。最大8192トークンのテキストインプットをサポートし、デフォルトの1024次元から64次元まで、ユーザーが選択したサイズの単一ベクトル埋め込みを出力します。

私たちは、情報検索や意味的類似性だけでなく、感情分析やコンテンツモデレーションなどの分類タスク、ニュースの集約や推奨などのクラスタリングタスクなど、さまざまなテキストタスク向けにjina-embeddings-v3をトレーニングしてきました。jina-embeddings-v4と同様に、このモデルは次の使用カテゴリーに特化したLoRAアダプターを提供します。

非対称検索
意味的類似性
分類
クラスタリング

jina-embeddings-v3 は jina-embeddings-v4よりもはるかに小さいモデルであり、インプットコンテキストのサイズが大幅に削減されていますが、操作にかかるコストは少なくなります。それにもかかわらず、テキストに関しては非常に競争力のあるパフォーマンスを有し、多くのユースケースにとってより良い選択肢です。

Jinaコード埋め込み

Jinaの専門的なコード埋め込みモデルであるjina-code-embeddings（0.5bおよび1.5b）は、15プログラミング方式とフレームワーク、さらにコンピューティングや情報技術に関連する英語のテキストをサポートしています。これらは、それぞれ5億（0.5x10⁹）と15億（1.5x10⁹）のパラメーターを持つコンパクトなモデルです。どちらのモデルも、最大32,768トークンのインプットコンテキストサイズをサポートしており、ユーザーは出力の埋め込みサイズを選択（小さいモデルでは896から64次元、大きいモデルでは1536から128次元）できます。

これらのモデルは、LoRAアダプターではなくプレフィックスチューニングを使用して、5つのタスク固有の特殊化のための非対称検索をサポートしています。

コードからコードへ。さまざまなプログラミング言語で同様のコードを取得できます。コードの調整、コードの重複排除、移植とリファクタリングのサポートに使用されます。
自然言語からコードへ。自然言語クエリ、コメント、説明、ドキュメントに合わせたコードを取得します。
コードから自然言語へ。コードをドキュメントまたはその他の自然言語テキストと一致させます。
コード間の補完。既存のコードを完成させたり強化したりするために、関連するコードを提案します。
技術的な内容のQ＆A。情報技術に関する質問に対する自然言語による回答を特定します。テクニカルサポートのユースケースに最適です。

これらのモデルは、比較的小さい計算コストで、コンピューターのドキュメント作成やプログラミング資料に関連するタスクに優れたパフォーマンスを提供します。開発環境やコードアシスタントに統合するのに適しています。

Jina ColBERT v2

jina-colbert-v2は、5億6000万のパラメーターを持つマルチベクトルテキスト埋め込みモデルです。多言語対応で、89言語の素材を使用してトレーニングされており、可変の埋め込みサイズと非対称検索をサポートしています。

前述のように、マルチベクトル埋め込みはインデックス作成にはあまり適していませんが、他の検索戦略の結果の精度を高めるのに非常に役立ちます。jina-colbert-v2を使用すると、マルチベクトル埋め込みを事前に計算し、それを使用してクエリ時に検索候補をリランキングすることができます。このアプローチは、次のセクションのリランキングモデルの1つを使用するほど正確ではありませんが、クエリや候補の一致ごとにAIモデル全体を呼び出すのではなく、格納されているマルチベクター埋め込みを比較するだけなので、はるかに効率的です。これは、リランキングモデルを使用する際の遅延や計算オーバーヘッドが大きすぎる、または比較する候補の数が多すぎるユースケースに最適です。

このモデルは、インプットトークンごとに埋め込みのシーケンスを出力し、ユーザーは128次元、96次元、または64次元の埋め込みのトークンを選択できます。候補テキストの一致は8,192トークンに制限されます。クエリは非対称にエンコードされるため、ユーザーはテキストがクエリか候補一致かを指定する必要があり、クエリは32トークンに制限する必要があります。

Jina CLIP v2

jina-clip-v2は、9億パラメーターのマルチモーダル埋め込みモデルであり、テキストが画像のコンテンツを説明する場合に、テキストと画像が近い埋め込みを生成するようにトレーニングされています。その主な用途は、テクスチャクエリに基づいて画像を取得することですが、テキストからテキストへの検索とテキストから画像への検索に別々のモデルを必要としないため、高性能のテキストのみのモデルでもあり、ユーザーのコスト削減に役立ちます。

このモデルは8,192トークンのテキストインプットコンテキストをサポートし、画像は埋め込みを生成する前に512x512ピクセルに拡大されます。

対照言語画像事前トレーニング（CLIP）アーキテクチャは、トレーニングと操作が簡単で、非常にコンパクトなモデルを作成できますが、基本的な制限がいくつかあります。あるメディアの知識を別のメディアでのパフォーマンスの向上に活用することはできません。あるメディアを利用して別のメディアのパフォーマンスを向上させることはできません。そのため、「dog」と「cat」という単語の意味はどちらも「car」よりも近いことはわかっていても、犬の写真と猫の写真はどちらも車の写真よりも関連性が高いことは必ずしもわかっていません。

また、これらはモダリティギャップと呼ばれる問題も抱えています。これはつまり、犬に関するテキストの埋め込みは、犬の画像の埋め込みよりも、猫に関するテキストの埋め込みに近い可能性が高いということです。この制限のため、CLIPはテキストから画像への検索モデルとして、またはテキストのみのモデルとして使用し、1つのクエリ内でこれら2つを混在させないことをお勧めします。

リランキングモデル

リランキングモデルは、1つまたは複数の候補一致と、クエリをモデルへのインプットとして取り、それらを直接比較して、はるかに高い精度の一致を生成します。

原理的には、各クエリを保存されている各ドキュメントと比較することで、情報検索にリランキングを直接使用できますが、これは計算コストが非常に高く、最小のコレクション以外では実用的ではありません。そのため、リランカーは、埋め込みベースの検索やその他の検索アルゴリズムなど、他の手段によって見つかった候補一致の比較的短いリストを評価するために使用される傾向があります。リランキングモデルは、検索を実行するとクエリが異なるデータセットを持つ個別の検索システムに送信され、それぞれが異なる結果を返す可能性があるハイブリッド検索スキームやフェデレーション検索スキームに最適です。多様な結果を1つの高品質な結果に統合する場合に非常に効果的です。

埋め込みベースの検索は、保存されているすべてのデータの再インデックスや、結果に対するユーザーの期待の変更など、大きな負担を伴う可能性があります。既存の検索スキームにリランカーを追加することで、検索ソリューション全体を再構築することなく、AIの利点の多くを追加することができます。

Jinaリランカーモデル

Jinaリランカーm0

jina-reranker-m0は、24億（2.4x10⁹）パラメーターのマルチモーダルリランカーで、テキストクエリとテキストや画像からなる候補一致をサポートします。これはビジュアルドキュメント検索の主要モデルであり、PDF、テキストのスキャン、スクリーンショット、テキストなど半構造化情報を含むコンピュータ生成または修正された画像、加えてテキストドキュメントと画像からなる混合データの格納に理想的なソリューションです。

このモデルは、単一のクエリと候補一致を受け取り、スコアを返します。同じクエリを異なる候補で使用すると、スコアは比較可能となり、それらのランク付けに使用できます。クエリテキストや候補テキストや画像を含む最大10,240トークンのインプットサイズをサポートします。画像をカバーするために必要な28x28ピクセルのタイルはすべて、入力サイズを計算するためのトークンとしてカウントされます。

Jinaリランカーv3

jina-reranker-v3は、同等のサイズのモデルに対して最先端のパフォーマンスを備えた6億パラメーターのテキストリランカーです。jina-reranker-m0とは異なり、1つのクエリと最大64件の一致候補のリストを受け取り、ランキング順を返します。クエリとすべてのテキスト候補を含む131,000トークンの入力コンテキストがあります。

Jinaリランカーv2

jina-reranker-v2-base-multilingualは非常にコンパクトで汎用的なリランカーで、関数呼び出しやSQLクエリをサポートする追加の機能を備えています。3億弱のパラメーターで、高速、効率的、正確な多言語テキストリランキングを提供し、テキストクエリにマッチするSQLテーブルと外部関数を選択するための追加サポートもあり、エージェント的なユースケースに適しています。

小規模な生成言語モデル

生成言語モデルは、OpenAIのChatGPT、Google Gemini、AnthropicのClaudeのように、テキストまたはマルチメディアのインプットを受け取り、テキスト出力で応答するモデルです。大規模言語モデル（LLM）と小規模言語モデル（SLM）を明確に区別する境界はありませんが、最先端のLLMを開発、運用、使用する際の実用的な問題はよく知られています。最もよく知られているものは一般公開されていないため、そのサイズを推定することしかできませんが、ChatGPT、Gemini、Claudeは1～3兆（1～3x10¹²）のパラメーター範囲にあると予想されます。

これらのモデルを実行することは、たとえ公開されたものであっても、従来のハードウェアの範囲をはるかに超えており、広大な並列アレイに配置された最先端のチップを必要とします。有料のAPIを使ってLLMにアクセスすることもできますが、これには大きなコストがかかり、レイテンシーも大きく、データ保護、デジタル主権、クラウドの本国送還などの要求と整合させるのは困難です。さらに、その規模のモデルのトレーニングとカスタマイズに関連するコストはかなりの額になる可能性があります。

その結果、最大規模のLLMのすべての機能は備えていないものの、特定の種類のタスクを低コストで同様に実行できる小規模モデルの開発に多大な研究が行われてきました。一般的に、企業は特定の問題に対処するためにソフトウェアをデプロイしますが、AIソフトウェアも同様で、LLMよりもSLMベースのソリューションの方が望ましい場合が多いのです。これらは通常、一般的なハードウェア上で実行でき、実行速度が速く、消費電力が少なく、カスタマイズがはるかに簡単です。

JinaのSLMサービスは、AIを実用的な検索ソリューションに最も効果的に組み込む方法に重点を置いて拡大しています。

Jina SLM

ReaderLM v2

ReaderLM-v2は、ユーザーが提供したJSONスキーマや自然言語命令に基づいて、HTMLをMarkdownまたはJSONに変換する生成言語モデルです。

データの前処理と正規化はデジタルデータの優れた検索ソリューションを開発する上で不可欠な部分ですが、現実世界のデータ、特にウェブから得られる情報は混沌としていることが多く、単純な変換戦略では非常に脆弱になることがよくあります。代わりに、ReaderLM-v2 はウェブページのDOMツリーダンプの混沌を理解し、有用な要素を堅牢に識別できるインテリジェントなAIモデルソリューションを提供します。

15億（1.5x10⁹）パラメーターを持つこのシステムは最先端のLLMよりも3桁コンパクトですが、この1つの狭義のタスクにおいては最先端のLLMと同等のパフォーマンスを発揮します。

Jina VLM

JINA-VLMは、画像に関する自然言語の質問に答えるために訓練された24億（2.4×10⁹）パラメーターの生成言語モデルです。視覚的ドキュメント分析、つまりスキャン、スクリーンショット、スライド、図表、類似の非自然画像データに関する質問に回答する機能を非常に強力にサポートしています。

例：

画像内のテキストの読み取りにも非常に優れています。

しかし、jina-vlmの真に優れた点は、情報収集や人工画像の内容を理解することです。

または：

jina-vlm 自動キャプション生成、製品の説明、画像の代替テキスト、視覚障害者向けのアクセシビリティ用途に最適です。また、検索拡張生成（RAG）システムが視覚情報を使用したり、AIエージェントが人間の助けを借りずに画像を処理したりする可能性も生まれます。

Elastic Agent BuilderとStrands Agents SDKの使用を開始

Jonathan Simon — Mon, 15 Dec 2025 00:00:00 GMT

AIエージェントのアイデアをお持ちですか？おそらく、データを使って何かを行うことが関係しているでしょう。エージェントが有用なアクションを開始するには、決定を下す必要があり、正しい決定を下すには正しいデータが必要だからです。

Elastic Agent Builderは、データ接続型AIエージェントを簡単に構築できるようにします。このブログ記事でその方法を説明します。まず、Elasticに格納されているデータにアクセスするMCPツールを使ってエージェントを作成するのに必要なすべてのステップを見ていきましょう。次に、Strands Agents SDKとそのAgent2Agent（A2A）機能を使用してエージェントを操作します。Strands Agents SDKは、望む結果を得るために十分なコードでエージェント向けアプリを構築するマルチエージェントAI開発プラットフォームです。

AIエージェントを構築しましょう。このエージェントは、RPS+というゲームをプレイします。これは古典的な「じゃんけん」に追加のひねりを加えたもので、プレイヤーにいくつかの追加の選択肢を与えます。

要件

こちらのブログ記事の手順に従うために必要なものは次のとおりです。

ローカルコンピューターで実行されているテキストエディター
- このブログ記事の例ではVisual Studio Codeを使用します。
ローカルコンピューターで実行されているPython 3.10以上

Serverlessプロジェクトを作成する

最初に必要なのは、Elastic Agentビルダーを含むElasticsearch Serverlessプロジェクトです。

cloud.elastic.coに移動して新しいElasticsearch Serverlessプロジェクトを作成します。

インデックスを作成してデータを追加する

次に、Elasticsearchプロジェクトにデータを追加します。開発者ツールを開き、コマンドを実行して新しいインデックスを作成し、そこにデータを挿入します。トップレベルのナビゲーションメニューから「開発者向けツール」を選択します。

コピーして、以下のPUTコマンドを開発者向けツールコンソールのリクエストインプットエリアに貼り付けてください。この文は「game-docs」という名前のElasticsearchインデックスを作成します。

PUT /game-docs
{
  "mappings": {
    "properties": {
      "title": { "type": "text" },
      "content": { 
        "type": "text"
      },
      "filename": { "type": "keyword" },
      "last_modified": { "type": "date" }
    }
  }
}

開発者ツールのステートメントの右側に表示される [リクエストの送信] ボタンをクリックします。開発者向けツールの対応エリアにgame-docsインデックスが作成されたことを確認する通知が表示されるはずです。

game-docsという名前のインデックスは、作成中のゲームのデータを保存するのに最適な場所です。ゲームに必要なすべてのデータを含むこのインデックスに、rps+-mdという名前のドキュメントを配置しましょう。次のPUTコマンドをコピーして、開発者向けツールコンソールに貼り付けます。

PUT /game-docs/_doc/rps+-md
{
  "title": "Rock Paper Scissors +",
  "content": "
# Game Name
RPS+

# Starting Prompt
Let's play RPS+ !
---
What do you choose?

# Game Objects
1. Rock 🪨 👊
2. Paper 📜 🖐
3. Scissors ✄ ✌️
4. Light ☼ 👍
5. Dark Energy ☄ 🫱

# Judgement of Victory
* Rock beats Scissors
  * because rocks break scissors
* Paper beats Rock
  * because paper covers rock
* Scissors beat Paper
  * because scissors cut paper
* Rock beats Light
  * because you can build a rock structure to block out light
* Paper beats Light
  * because knowledge stored in files and paper books helps us understand light
* Light beats Dark Energy
  * because light enables humans to lighten up and laugh in the face of dark energy as it causes the eventual heat death of the universe
* Light beats Scissors
  * because light is needed to use scissors safely
* Dark Energy beats Rock
  * because dark energy rocks more than rocks. It rocks rocks and everything else in its expansion of the universe
* Dark Energy beats Paper
  * because humans, with their knowledge stored in files and paper books, can't explain dark energy 
* Scissors beat Dark Energy
  * because a human running with scissors is darker than dark energy

# Invalid Input
I was hoping for an worthy opponent
  - but alas it appears that time has past
  - but alas there's little time for your todo list when [todo:fix this] is so vast

# Cancel Game
The future belongs to the bold. Goodbye..
",
  "filename": "RPS+.md",
  "last_modified": "2025-11-25T12:00:00Z"
}

ステートメントの横にある [リクエストの送信] ボタンをクリックして実行し、rps+-mdドキュメントをgame-docsのインデックスに追加してください。

クエリを実行するためのデータが用意されているはずです。Agent Builderを使用すると、クエリはこれまで以上に簡単になります。

トップレベルのナビゲーションメニューから [エージェント] を選択します。

あとは、デフォルトのElastic AI Agentに「どんなデータがありますか？」と聞くだけです。

Elastic AI Agentはデータを評価し、保有するデータの簡潔な説明を返します。

ツールを作成する

さて、Elasticにデータがいくつか入ったので、それを活用してみましょう。Agent Builderには、エージェントが必要なデータにアクセスし、タスクに適したコンテキストを得られるようにMCPツールを作成するための組み込みサポートが含まれています。ゲームデータを取得できるシンプルなツールを作りましょう。

Agent Builderのアクションメニューをクリックします。

メニューオプションから [すべてのツールを表示] を選択します。

[+ 新しいツール] をクリックします。

ツール作成フォームでES|QLを選択します。ツールタイプとして次の値を入力します。

ツールIDについて：

example.get_game_docs

説明について：

Get RPS+ doc from Elasticsearch game-docs index.

構成については、以下のクエリをES|QLクエリテキスト領域にします。

FROM game-docs | WHERE filename == "RPS+.md"

完了したツール作成フォームは次のようになります。ツールを作成するには、 [保存] をクリックします。

ツールラックに新しいツールが追加されました。ツールはラックに掛けておけばよいというものではなく、有効に活用されるべきものです。新しいカスタムツールを使用できるエージェントを作成しましょう。

エージェントを作成し、ツールを割り当てます。

Agent Builderを使えば、エージェントの作成は驚くほど簡単です。いくつかの詳細を記載したエージェントの指示を入力するだけで十分です。それではエージェントを作成しましょう。

[エージェントを管理] をクリックします。

[+ 新しいエージェント] をクリックします。

新しいエージェントフォームに次の情報を入力します。

エージェントIDには以下のテキストを入力します。

rps_plus_agent

カスタム指示テキスト領域には次の指示を入力します。

When prompted, if the prompt contains an integer, then select the corresponding numbered item in the list of "Game Objects" from your documents. Otherwise select a random game object. This is your chosen game object for a single round of the game.

# General Game Rules
* 2 players
    - the user: the person playing the game
    - you: the agent playing the game and serving as the game master
* Each player chooses a game object which will be compared and cause them to tie, win or lose.

# Start the game
1. This is the way each new game always starts. You make the first line of your response only the name of your chosen game object. 

2. The remainder of your response should be the "Starting Prompt" text from your documents and generate a list of "Game Objects" for the person playing the game to choose a game object from.  

# End of Game: The game ends in one of the following three outcomes:
1. Invalid Input: If the player responds with an invalid game object choice, respond with variations of the "Invalid Input" text from your documents and then end the game.

2. Tie: The game ends in a tie if the user chooses the same game object as your game object choice.

3. Win or Lose: The game winner is decided based on the "Judgement of Victory" conditions from your documents. Compare the user's game object choice and your game object choice and determine who chose the winning game object.

# Game conclusion
Respond with a declaration of the winner of the game by outputting the corresponding text in the "Judgement of Victory" section of your documents.

表示名には以下のテキストを入力します。

RPS+ Agent

表示の説明には以下のテキストを入力します。

An agent that plays the game RPS+

[ツール] タブをクリックして、以前に作成したカスタムツールをエージェントに提供します。

先ほど作成したexample.get_game_docsツールのみを選択します。

[保存] をクリックして新しいエージェントを作成します。

新しいエージェントをテストしてみましょう。エージェントのリストから任意のエージェントとチャットを開始するための便利なリンクがあります。

「start game」と入力すると、ゲームが始まります。うまくいきました！

エージェントが応答の上部にゲームオブジェクトの選択を表示することがわかります。これは、エージェントの選択を確認し、ゲームが期待どおりに機能していることを確認できる点で便利です。しかし、自分が選択する前に相手の選択がわかっていると、じゃんけんゲームはあまり楽しくありません。ゲームを最終形に磨き上げるために、コードでエージェントを制御できるエージェントオーケストレーションプラットフォームを使用できます。

Strands Agents SDKがチャットに参加します。

Strands Agents SDK

新しいエージェント開発フレームワークを試してみたい場合は、Strands Agents SDKがおすすめです。Strands Agents SDKはAWSから2025年5月にオープンソースのPython実装としてリリースされ、現在はTypescript版もあります。

PythonでStrands Agents SDKの使用を開始

コーディングエンジンを起動して、Strandsエージェントを使用してA2Aプロトコル経由でRPS+エージェントを制御するサンプルアプリのクローン作成と実行のプロセスを早速実行してみましょう。RPS+ゲームの微調整バージョンを作成し、エージェントの選択がプレイヤーの選択後に明らかになるようにしてみましょう。結局のところ、じゃんけんのようなゲームを楽しいものにするのは推測と驚きの結果だからです。

ローカルコンピューターでVisual Studio Codeを開き、新しいターミナルを開きます。

新しく開いたターミナルで、以下のコマンドを実行してElasticsearch Labsリポジトリをクローンします。

git clone https://github.com/elastic/elasticsearch-labs

次のcdコマンドを実行して、ディレクトリをelasticsearch-labsディレクトリに変更します。

cd elasticsearch-labs

次に、次のコマンドを実行して、Visual Studio Codeでリポジトリを開きます。

code .

Visual Studio File Explorerで、supporting-blog-contentフォルダーとagent-builder-a2a-strands-agentsフォルダーを展開し、elastic_agent_builder_a2a_rps+.pyファイルを開きます。Visual Studio Codeで開いたファイルは次のようになります。

テキストエディターに表示されるelastic_agent_builder_a2a_rps+.pyの内容は次のとおりです。

import asyncio
from dotenv import load_dotenv
from uuid import uuid4
import httpx
import os
import random
from a2a.client import A2ACardResolver, ClientConfig, ClientFactory
from a2a.types import Message, Part, Role, TextPart

DEFAULT_TIMEOUT = 60  # set request timeout to 1 minute


def create_message(*, role: Role = Role.user, text: str, context_id=None) -> Message:
    return Message(
        kind="message",
        role="user",
        parts=[Part(TextPart(kind="text", text=text))],
        message_id=uuid4().hex,
        context_id=context_id,
    )


async def main():
    load_dotenv()
    a2a_agent_host = os.getenv("ES_AGENT_URL")
    a2a_agent_key = os.getenv("ES_API_KEY")
    custom_headers = {"Authorization": f"ApiKey {a2a_agent_key}"}

    async with httpx.AsyncClient(
        timeout=DEFAULT_TIMEOUT, headers=custom_headers
    ) as httpx_client:
        # Get agent card
        resolver = A2ACardResolver(httpx_client=httpx_client, base_url=a2a_agent_host)
        agent_card = await resolver.get_agent_card(
            relative_card_path="/rps_plus_agent.json"
        )
        # Create client using factory
        config = ClientConfig(
            httpx_client=httpx_client,
            streaming=True,
        )
        factory = ClientFactory(config)
        client = factory.create(agent_card)
        # Use the client to communicate with the agent
        print("\nSending 'start game' message to Elastic A2A agent...")
        random_game_object = random.randint(1, 5)
        msg = create_message(text=f"start with game object {random_game_object}")
        async for event in client.send_message(msg):
            if isinstance(event, Message):
                context_id = event.context_id
                response_complete = event.parts[0].root.text
                # Get agent choice from the first line of the response
                parsed_response = response_complete.split("\n", 1)
                agent_choice = parsed_response[0]
                print(parsed_response[1])
        # User choice sent for game results from the agent
        prompt = input("Your Choice  : ")
        msg = create_message(text=prompt, context_id=context_id)
        async for event in client.send_message(msg):
            if isinstance(event, Message):
                print(f"Agent Choice : {agent_choice}")
                print(event.parts[0].root.text)


if __name__ == "__main__":
    asyncio.run(main())

このコードで何が起きているのか見てみましょう。main()メソッドから始めて、コードはエージェントのURLとAPIキーの環境変数にアクセスすることから始まります。その値を用いてエージェントカードを取得するためのhttpx clientを作成します。次に、クライアントはエージェントカードの詳細を使用して、「start game」リクエストをエージェントに送信します。ここで注目すべき興味深い点は、 "start game"リクエストの一部としてrandom_game_object値が含まれていることです。この値は、Python の標準ライブラリのrandomモジュールで生成された乱数です。これを行う理由は、（AIエージェントを可能にする）強力なLLMがランダム性に関してはそれほど優れていないことが判明したためです。Pythonが助けてくれますので問題ありません。

コードの続きですが、エージェントが「start game」リクエストに応答すると、コードはエージェントのゲームオブジェクトセレクションを取り除き、agent_choice変数に保存します。対応の残りの部分は、エンドユーザーに対してテキストとして表示されます。次に、ユーザーはゲームオブジェクトの選択を入力するように求められ、それがエージェントに送信されます。次に、コードはエージェントのゲームオブジェクトの選択と、エージェントの最終的なゲーム結果の決定を表示します。

エージェントのURLとAPIキーを環境変数として設定する

サンプルアプリはローカルコンピュータ上で実行されるため、Agent Builderエージェントと通信するためには、Strands Agents SDKにエージェントのA2A URLとAPI Keyを提供する必要があります。この例のアプリは`.env`というファイルを使用してこれらの値を格納します。

env.exampleファイルのコピーを作成し、新しいファイル名を.envとします。

Elastic Agent Builderに戻りましょう。ここで必要な両方の値を取得できます。

ページの右上にあるAgent Builderアクションメニューから [すべてのツールを表示] を選択します。

ツールページ上部のMCPサーバードロップダウンをクリックし、[MCPサーバーURLをコピー] を選択してください。

MCPサーバーのURLを.envに貼り付けます。プレースホルダー値の代わりにファイルを使用します。ここで、URLを1箇所更新する必要があります。つまり、末尾のテキスト「mcp」を「a2a」に置き換えます。これは、Agent Strands SDKがElastic Agent Builderで実行されているエージェントと通信するために使用するプロトコルがA2Aプロトコルであるためです。

編集したURLは次のようになるはずです。

https://rps-game-project-12345a.kb.us-east-1.aws.elastic.cloud/api/agent_builder/a2a

Elastic Cloudで取得する必要があるもう1つの値は、APIキーです。最上位ナビゲーションでElasticsearchをクリックします。

[APIキーをコピー] ボタンをクリックして、APIキーをコピーします。

次に、Visual Studio Codeに戻り、.envファイルにAPIキーを貼り付けて、プレースホルダーテキストを置き換えます。.envファイルは次のようになります。

サンプルアプリを実行してください

Visual Studio Codeで新しいターミナルを開いてください。

まず、ターミナルで次のcdコマンドを実行します。

cd elasticsearch-labs/supporting-blog-content/agent-builder-a2a-strands-agents

次のコマンドを実行して、Python仮想環境を作成します。

python -m venv .venv

お使いのローカルコンピューターのオペレーティングシステムに応じて、以下のコマンドを実行して仮想環境を有効にしてください。

MacOS/Linux

source .venv/bin/activate

Windows

.venv\Scripts\activate

サンプルアプリはStrands Agents SDKを使用するため、このチュートリアルではこれをインストールする必要があります。以下のコマンドを実行して、Strands Agents SDKとその必要なPythonライブラリの依存関係をインストールします。

pip install -r requirements.txt

発射台を片付けてカウントダウンを開始する時間です。アプリを起動する準備ができました。後ろに下がってください。次のコマンドを使用して実行しましょう：

python elastic_agent_builder_a2a_rps+.py

RPS+のゲームに挑戦してみましょう。幸運を祈ります！

Google MCP Toolbox for DatabasesにElasticsearchサポートを導入

Enrico Zimuel, Laurent Saint-Félix — Fri, 12 Dec 2025 00:00:00 GMT

この記事では、Google MCP ToolboxとElasticsearchを併用し、Elasticsearchインデックスから情報を抽出する簡単なツールを構築する方法を解説します。

当社は最近、Google MCP Toolbox for Databasesのオープンソースプロジェクトに貢献し、Elasticsearchをデータベースとしてサポートしました。

この新しい機能により、Google MCP Toolboxを使用してElasticsearchに接続し、データと直接「会話」できるようになりました。

Elasticsearch

Elasticsearchインスタンスを実行する必要があります。Elastic Cloudで無料トライアルを有効化するか、start-localスクリプトを使ってローカルにインストールできます。

curl -fsSL https://elastic.co/start-local | sh

これにより、ElasticsearchとKibanaがコンピュータにインストールされ、Google MCP Toolboxの設定に使用するAPIキーが生成されます。

APIキーは前のコマンドの出力として表示され、elastic-start-localフォルダー内の.envファイルに保存されます。

サンプルデータセットをインストールする

インストール後、ユーザー名elasticとstart-localスクリプトによって生成されたパスワード（.envファイルに保存）を使用してKibanaにログインできます。

Kibanaから入手可能なeCommerce ordersデータをインストールできます。このデータベースには、eコマースWebサイトからの4,675件の注文に関する情報を含むkibana_sample_data_ecommerceという単一のインデックスが含まれています。各注文について、次の情報があります。

顧客情報（氏名、ID、生年月日、メールアドレスなど）
注文日
注文ID
商品（価格、数量、ID、カテゴリー、割引などを含む全商品のリスト）
SKU
合計金額（税抜、税込）
合計数量
地理情報（都市、国、大陸、場所、地域）

サンプルデータをインストールするには、Kibanaの統合ページを開き（検索トップバーで「Integration」を検索）、「Sample Data」をインストールしてください。詳細については、ドキュメントhttps://www.elastic.co/docs/explore-analyze/#gs-get-data-into-kibanaを参照してください。

この記事の目的は、Google MCP ToolboxがElasticsearchに接続し、自然言語でkibana_sample_data_ecommerceインデックスとやり取りするのがいかに簡単かを示すことです。

Google MCP Toolbox

Google MCP ToolboxはオープンソースのMCPサーバーで、アプリケーションやAIエージェントが安全かつ効率的にデータベースとやり取りできるように設計されています。以前は「GenAI Toolbox for Databases」と呼ばれていたこのプロジェクトは、モデルコンテキストプロトコル（MCP）との完全な互換性を採用した後に改名されました。その目的は、エージェントをデータベースに接続する際に従来必要とされていた接続プーリング、認証、オブザーバビリティ、その他の運用上の懸念をバックエンドで処理することで、重労働を排除することです。

Toolboxの本質は、開発者がデータベースのやり取りをカプセル化する再利用可能な高レベルのツールを定義できるようにすることです。これらのツールは、AIエージェントなどのMCP互換クライアントならどれでも起動できます。クライアントが低レベルのSQLクエリを実装したり、データベース接続を管理したりする必要はありません。このアプローチにより、データベース対応エージェントの構築に必要な定型コードの量が大幅に削減され、わずか数行のアプリケーションロジックに高度なデータ操作を統合できるようになります。ツールが定義されると、複数のエージェント、フレームワーク、言語間で共有できます（図1）。

Toolboxを使用する大きな利点は、組み込まれたセキュリティモデルです。OAuth2やOIDCなどの認証フローはネイティブにサポートされているため、開発者はデータベースの機密認証情報をエージェントで処理したり格納したりする必要がありません。このプラットフォームは、デバッグ、監視、本番環境への導入に不可欠な、OpenTelemetryによる指標やトレースなどの観測機能も提供します。全体として、MCP Toolboxは、あらゆるMCP対応システムのデータを操作するための、統一された安全で拡張可能なインターフェースとして機能します。

MCP Toolboxのインストール方法

MCP ToolboxサーバーをLinuxにインストールするには、次のコマンドを使用します。

export VERSION=0.21.0
curl -L -o toolbox https://storage.googleapis.com/genai-toolbox/v$VERSION/linux/amd64/toolbox
chmod +x toolbox

macOSまたはWindowsにインストールする場合は、ここに記載されている手順に従ってください。

Elasticsearch向けにToolboxを構成する

Elasticsearch向けにMCP Toolboxを構成するには、次のようにtools.yamlファイルを作成する必要があります。

sources:
  my-cluster:
    kind: elasticsearch
    addresses:
      - http://localhost:9200
    apikey: 

tools:
  customer-orders:
    kind: elasticsearch-esql
    source: my-cluster
    description: Get the orders made by a customer identified by name.
    query: |
    	FROM kibana_sample_data_ecommerce | WHERE MATCH(customer_full_name, ?name, {"operator": "AND"})
    parameters:
      - name: name
        type: string
        description: The customer name.

toolsets:
  elasticsearch-tools:
    - customer-orders

値を有効なElasticsearch APIキーに置き換える必要があります。start-localを使用してElasticsearchをローカルで実行している場合は、start-localによって生成された.envファイルのES_LOCAL_API_KEY変数の下にAPIキーがあります。Elastic Cloudを使用している場合はここで説明した手順に従うことでAPIキーを生成できます。

前のツールには、Elasticsearch用の次のES|QLクエリが含まれています。

FROM kibana_sample_data_ecommerce | WHERE MATCH(customer_full_name, ?name)

ES|QLに慣れていない方のために説明すると、ES|QLはSQLと同様にElasticが開発したクエリ言語で、1つ以上のインデックスを検索するために使用できます。ES|QLの詳細についてはこちらの公式ドキュメントをご覧ください。

上記のクエリは、kibana_sample_data_ecommerceインデックスに格納されている指定顧客名を含むすべての注文を?nameパラメーター（疑問符はパラメーターを示します）を用いて検索します。

顧客名は、以前のYAML設定で文字列型と「顧客名」という記述で定義されています。

このツールを使用すると、顧客の注文に関する質問に答えることができます。たとえば、「顧客Fooは2025年10月に何件の注文をしましたか？」

ツールとそのパラメーターの説明は、ユーザーの自然言語リクエストから関連情報を抽出するために不可欠です。この抽出は、大規模言語モデル（LLM）の関数呼び出し機能を使用して実行されます。実際には、LLMは、必要な情報を取得するためにどの機能（ツール）を実行する必要があるかを判断し、その機能に適したパラメーターも取得できます。

詳細については、Elasticsearchを使用したOpenAIの関数呼び出しに関するAshish Tiwariの記事を読むことをお勧めします。

Toolboxサーバーを実行する

次のコマンドで、以前のtools.yamlファイルを使用してMCPツールボックスを実行できます。

./toolbox --tools-file tools.yaml --ui

–uiパラメーターはhttp://127.0.0.1:5000/uiのウェブアプリケーションを実行します（図2）。

[ツール] > [customer-orders] を選択し、パラメータ名に顧客名（例：Gwen Sanders）を挿入して [ツールを実行] ボタンをクリックします。図3に示すように、JSON応答が表示されます。

セットアップが完了すると、MCP Toolboxはcustomer-ordersツールを実行してElasticsearchと通信し、ES|QLクエリを実行できるようになります。

Gemini CLIでのMCP Toolboxの使用

任意のMCPクライアントを使用して、MCP Toolbox for Databasesと通信できます。例えば、Gemini CLIというコマンドラインツールを使ってGeminiを使うことができます。Gemini CLIのインストールは、こちらの手順に従って行うことができます。

Gemini CLIは、MCP Toolbox用の事前設定された拡張機能を提供しており、gemini-cli-extensions/mcp-toolboxで入手できます。この拡張機能は次のコマンドを実行してインストールできます。

gemini extensions install https://github.com/gemini-cli-extensions/mcp-toolbox

インストール後、MCP Toolbox用のtools.yaml設定ファイルを格納したディレクトリに移動し、以下のようにGemini CLIを実行する必要があります（この手順は、Gemini CLIをMCP Toolboxで自動的に設定するために必要です）。

gemini

図4に示すように出力広告が表示されます。

次のコマンドを使用して、MCP Toolboxが接続されているかどうかを確認できます。

/mcp list

mcp_toolboxとcustomer-orders ツールが一覧に表示されているはずです（図5）。

MCP ToolboxがGemini CLI に接続されている場合は、「顧客Gwen Sandersの注文を教えてください」などの質問をいくつか試すことができます。Gemini CLIは、mcp_toolboxサーバーからcustomer-ordersツールを実行する許可を要求します（図6を参照）。

確認後、Gemini CLIはMCP Toolboxへのリクエストを実行し、結果としてJSON応答を取得し、それを使用して応答をフォーマットします（図7）。

Gemini CLIからの応答で、Gwen Sandersが2つの製品を1回の注文で、合計132ユーロの価格で購入したことがレポートされます。

MCP Toolbox SDKs

Google MCP Toolboxは、Go、Python、Javascriptで書かれたプログラムからすべての機能にアクセスするためのSDKも提供しています。

例えば、Python SDKはGithubの次のページhttps://github.com/googleapis/mcp-toolbox-sdk-pythonで入手可能です。

MCP Toolboxに接続するための簡単なエージェントを作成する必要があります。次のパッケージをインストールする必要があります。

pip install toolbox-core
pip install google-adk

次のコマンドを使用して、新しいエージェントプロジェクトを作成します。

adk create my_agent

これにより、ファイルagent.pyを持つ新しいディレクトリがmy_agentとして作成されます。

Toolboxに接続するには、次の内容でmy_agent/agent.pyを更新します。

from google.adk import Agent
from google.adk.apps import App
from toolbox_core import ToolboxSyncClient

client = ToolboxSyncClient("http://127.0.0.1:5000")

root_agent = Agent(
    name='root_agent',
    model='gemini-2.5-flash',
    instruction="You are a helpful AI assistant designed to search information about a dataset of ecommerce orders.",
    tools=client.load_toolset(),
)

app = App(root_agent=root_agent, name="my_agent")

Google APIキーを使用して.envファイルを作成します。

echo 'GOOGLE_API_KEY="YOUR_API_KEY"' > my_agent/.env

最後に、エージェントを実行して結果を確認します。エージェントを実行するには、次のコマンドを実行します。

adk run my_agent

または、Webインターフェース経由で提供することもできます。

adk web --port 8000

両方の場合において、Q&Aインターフェースを使用してMCP Toolboxと対話することができます。たとえば、先程の質問「顧客Gwen Sandersの注文を教えてください」をすることができます。

さまざまなSDKの詳細については、このドキュメントページをご参照ください。

まとめ

この記事では、Google MCP Toolbox for DatabasesのElasticsearch統合について説明しました。シンプルなYAML設定ファイルを使用して、自然言語の質問をES|QL言語を使用してElasticsearchクエリに変換する一連のツールを定義できます。

eコマースWebサイトからの注文を含むkibana_sample_data_ecommerceデータセットとの対話方法を示しました。この設定ファイルを使用すると、MCP Toolboxサーバーを簡単に実行し、任意のMCPクライアントから接続できます。

最後に、Gemini CLIをクライアントとして使用してMCP Toolbox for Databasesに接続し、Elasticsearchに保存されているeコマースデータをクエリする方法を示しました。特定の顧客の名前で識別された注文情報を取得するために自然言語クエリを実行しました。

MCPエコシステムが成長し続けるにつれて、このパターン（安全で本番環境ですぐに使えるインフラストラクチャーに裏打ちされた軽量なツール定義）は、最小限の労力で、ますます有能でデータを認識するエージェントを構築する新しい機会を生み出します。MCP Toolboxは、Elasticのサンプルデータセットを使ってローカルで実験する場合でも、大規模なアプリケーションに検索機能を統合する場合でも、自然言語を使ってElasticsearchのデータを操作するための、信頼性と拡張性に優れた基盤を提供します。

エージェントAIアプリケーションの開発の詳細については、Anish MathurとDana Juratoniによる記事「Elasticsearchを使用したAI エージェントワークフローの構築」をお読みください。

Google MCP Toolboxの詳細については、https://googleapis.github.io/genai-toolbox/getting-started/introduction/をご覧ください。

判断リストによる検索クエリの関連性の評価

Jhon Guzmán — Thu, 11 Dec 2025 00:00:00 GMT

検索エンジンに取り組んでいる開発者は、同じ問題によく遭遇します。それは、検索結果の上位に表示されると予想していたドキュメントが結果リストの3番目か4番目に表示されるため、ビジネスチームが特定の検索に満足してくれないという問題です。

ただし、この 1 つの問題を修正すると、すべてのケースを手動でテストすることができないため、他のクエリが誤って壊れてしまいます。しかし、1つのクエリの変更が他のクエリに波及効果をもたらすかどうかを、開発者やQAチームはどのようにテストできるでしょうか。さらに重要なのは、変更によってクエリが実際に改善されたことをどうやって確認できるかということです。

体系的な評価に向けて

ここで役に立つのが判断リストです。変更を加えるたびに手動の主観的なテストに頼るのではなく、ビジネスケースに関連するクエリの固定セットと、関連する結果を定義できます。

このセットが基準となります。変更を実装するたびに、それを使用して検索が実際に改善されたかどうかを評価します。

このアプローチの価値は、次の点にあります。

不確実性の排除：変更が他のクエリに影響を与えるかどうかを心配する必要はなくなり、データが教えてくれます。
手動テストの停止：判断セットが記録されると、テストは自動化されます。
変更を支援：変更のメリットを裏付ける明確な指標を示すことができます。

判断リストの作成方法

最も簡単な方法の1つは、代表的なクエリを取得して、関連するドキュメントを手動で選択することです。このリストを作成するには2つの方法があります。

バイナリ判定：クエリに関連付けられた各ドキュメントに関連（通常「1」のスコア）とと非関連（「0」）のシンプルなタグが付けられます。
段階的な判断：ここでは、各ドキュメントに異なるレベルのスコアが付けられます。例えば、0から4の尺度を設定します。これはライカート尺度に似ており、0は「全く関連しない」、4は「完全に関連する」を意味し、「関連する」、「やや関連する」などのバリエーションがあります。

検索意図に明確な制限がある場合、つまり「このドキュメントは結果に含まれるべきかどうか」という場合には、バイナリ判断がうまく機能します。

段階的な判断は、グレーゾーンがある場合により役立ちます。一部の結果は他の結果よりも優れているため、「非常に良い」、「良い」、「役に立たない」という結果を取得し、結果の順序とユーザーのフィードバックを評価する指標を使用できます。ただし、段階的な評価尺度には欠点もあります。評価者によってスコアリングレベルの使い方が異なり、判断の一貫性が失われることがある点です。また、評価基準では高得点により重み付けされるため、小さな変更（評価を4ではなく3にするなど）でも、レビュー担当者の意図よりもはるかに大きな変化が評価基準に生じる可能性があります。この主観性が加わることで、段階的な判断はノイズが多くなり、時間の経過とともに管理が難しくなります。

書類を自分で分類する必要がありますか？

必ずしもそうとは限りません。なぜなら、判断リストを作成する方法はいくつかあり、それぞれに利点と欠点があるからです。

明示的な判断：ここでは、SMEが各クエリやドキュメントに目を通し、関連性があるかどうか（あるいはどの程度関連性があるか）を手動で判断します。これにより品質と管理は提供されますが、拡張性は低くなります。
暗黙的な判断：この方法では、クリック、直帰率、購入などの実際のユーザーの行動に基づいて関連するドキュメントを推測します。このアプローチにより、データを自動的に収集できますが、バイアスがかかる可能性があります。例えば、ユーザーは関連性がなくても上位の結果をクリックする傾向があります。
AI生成の判断：この最後のオプションでは、モデル（LLMなど）を使用してクエリとドキュメントを自動的に評価します。これは、LLM審査員とも呼ばれます。スケーリングは高速かつ簡単ですが、データの品質は、使用しているモデルの品質と、LLMトレーニングデータがビジネス上の利益とどの程度一致しているかによって異なります。人間の採点者と同様に、LLM審査員も独自のバイアスや不整合を導入する可能性があるため、信頼できる判断の小さなセットに対してその出力を検証することが重要です。LLMモデルは本質的に確率的であるため、温度パラメータを0に設定しても同じ結果に対して異なる評価を与えるLLMモデルがよく見られます。

判断セットを作成するための最適な方法を選択するための推奨事項を以下に示します。

ユーザーのみが適切に判断できる特徴（価格、ブランド、言語、スタイル、製品詳細など）の重要性を決定します。これらが重要な場合は、判断リストの少なくとも一部について明示的な判断が必要です。
検索エンジンにすでに十分なトラフィックがある場合は、暗黙的な判断を使用して、クリック、コンバージョン、滞在時間の指標を使用して使用傾向を検出できます。これらの結果は人間が注意深く解釈し、明示的な判断セットと対比させて、バイアスを防御する必要があります（例：ユーザーは、たとえ低いランクの結果がより関連性が高くても、上位にランクされた結果をクリックする傾向があります）。

これに対処するために、位置バイアス除去技術はクリックデータを調整または再重み付けして、実際のユーザーの関心をより適切に反映します。アプローチには以下のようなものがあります。

結果のシャッフル：一部のユーザーの検索結果の順序を変更し、位置がクリックにどのように影響するかを推定します。
クリックモデルにはダイナミックベイジアンネットワーク（DBN）、ユーザーブラウジングモデル（UBM）が含まれます。これらの統計モデルは、スクロール、滞在時間、クリックシーケンス、結果ページへの戻りなどのパターンを使用して、クリックが単なる位置ではなく実際の関心を反映している可能性を推定します。

例：映画評価アプリ

要件

この例を実行するには、稼働しているElasticsearch 8.xクラスター、ローカルまたはElastic Cloud（HostedまたはServerless）、REST APIまたはKibanaへのアクセスが必要です。

ユーザーが映画についての意見をアップロードしたり、見たい映画を検索したりできるアプリを考えてみてください。ユーザー自身がテキストを書くため、タイプミスや表現の多様性がある可能性があります。そのため、検索エンジンがその多様性を解釈し、ユーザーにとって有益な結果を提供できることが不可欠です。

全体的な検索動作に影響を与えずにクエリを反復処理できるようにするために、会社のビジネスチームは、最も頻繁に実行される検索に基づいて、次のバイナリ判定セットを作成しました。

クエリ	DocID	テキスト
ディカプリオの演技	doc1	『レヴェナント：蘇えりし者』でのディカプリオの演技は息を呑むほど素晴らしかった。
ディカプリオの演技	doc2	『インセプション』ではレオナルド・ディカプリオが最も象徴的な役柄の一つを演じています。
ディカプリオの演技	doc3	ブラッド・ピットはこの犯罪スリラーで堅実な演技を見せています。
ディカプリオの演技	doc4	見事な視覚効果を備えたアクション満載の冒険。
泣ける悲しい映画	doc5	何時間も泣いてしまった、愛と喪失の悲痛な物語。
泣ける悲しい映画	doc6	史上最も悲しい映画の1つです。ティッシュが必須。
泣ける悲しい映画	doc7	笑える軽快なコメディ
泣ける悲しい映画	doc8	アクションと興奮に満ちたSF大作。

インデックスの作成：

PUT movies
{
  "mappings": {
    "properties": {
      "text": {
        "type": "text"
      }
    }
  }
}

一括リクエスト：

POST /movies/_bulk
{ "index": { "_id": "doc1" } }
{ "text": "DiCaprio performance in The Revenant was breathtaking." }
{ "index": { "_id": "doc2" } }
{ "text": "Inception shows Leonardo DiCaprio in one of his most iconic roles." }
{ "index": { "_id": "doc3" } }
{ "text": "Brad Pitt delivers a solid performance in this crime thriller." }
{ "index": { "_id": "doc4" } }
{ "text": "An action-packed adventure with stunning visual effects." }
{ "index": { "_id": "doc5" } }
{ "text": "A heartbreaking story of love and loss that made me cry for hours." }
{ "index": { "_id": "doc6" } }
{ "text": "One of the saddest movies ever made -- bring tissues!" }
{ "index": { "_id": "doc7" } }
{ "text": "A lighthearted comedy that will make you laugh." }
{ "index": { "_id": "doc8" } }
{ "text": "A science-fiction epic full of action and excitement." }

以下は、このアプリが使用しているElasticsearchクエリです。

GET movies/_search
{
 "query": {
   "match": {
     "text": {
       "query": "DiCaprio performance",
       "minimum_should_match": "100%"
     }
   }
 }
}

判断から指標へ

判断リスト自体は、多くの情報を提供しません。これは、クエリから得られる結果の期待値にすぎません。これらが真価を発揮するのは、検索パフォーマンスを測定するための客観的な指標の計算に使用するときです。

現在、人気の指標のほとんどには以下が含まれます。

精度：すべての検索結果の中で本当に関連性の高い結果の割合を測定します。
リコール：検索エンジンがx件の結果の中で見つけた関連する結果の割合を測定します。
割引累積利得（DCG）：最も関連性の高い結果が上位にあるべきであることを考慮して、結果のランキングの品質を測定します。
平均逆順位（MRR）：最初の関連結果の位置を測定します。リストの上位にあるほど、スコアも高くなります。

同じ映画評価アプリを例に使い、リコール指標を計算して、クエリに抜け落ちている情報がないかを確認します。

Elasticsearchでは、Ranking Evaluation APIを通じて判断リストを使って指標を計算できます。このAPIは、判断リスト、クエリ、および評価する指標をインプットとして受け取り、クエリ結果と判断リストを比較した値を返します。

次の2つのクエリの判断リストを実行してみましょう。

POST /movies/_rank_eval
{
 "requests": [
   {
     "id": "dicaprio-performance",
     "request": {
       "query": {
         "match": {
           "text": {
             "query": "DiCaprio performance",
             "minimum_should_match": "100%"
           }
         }
       }
     },
     "ratings": [
       {
         "_index": "movies",
         "_id": "doc1",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc2",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc3",
         "rating": 0
       },
       {
         "_index": "movies",
         "_id": "doc4",
         "rating": 0
       }
     ]
   },
   {
     "id": "sad-movies",
     "request": {
       "query": {
         "match": {
           "text": {
             "query": "sad movies that make you cry",
             "minimum_should_match": "100%"
           }
         }
       }
     },
     "ratings": [
       {
         "_index": "movies",
         "_id": "doc5",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc6",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc7",
         "rating": 0
       },
       {
         "_index": "movies",
         "_id": "doc8",
         "rating": 0
       }
     ]
   }
 ],
 "metric": {
   "recall": {
     "k": 10,
     "relevant_rating_threshold": 1
     }
 }
}

_rank_evalには 2 つのリクエストを使用します。1つはディカプリオクエリ用、もう1つは悲しい映画用です。各リクエストには、クエリと判断リスト（評価）が含まれています。評価に含まれていない文書は判断対象外とみなされるため、すべての文書に等級を付ける必要はありません。計算を行うために、リコールは評価において関連性があると見なされるドキュメントである「関連セット」のみを考慮します。

この場合、ディカプリオのクエリのリコールは1ですが、悲しい映画のリコールは0です。つまり、最初のクエリでは関連する結果をすべて取得できましたが、2 番目のクエリでは何も取得できませんでした。したがって、平均リコールは0.5です。

{
 "metric_score": 0.5,
 "details": {
   "dicaprio-performance": {
     "metric_score": 1,
     "unrated_docs": [],
     "hits": [
       {
         "hit": {
           "_index": "movies",
           "_id": "doc1",
           "_score": 2.4826927
         },
         "rating": 1
       },
       {
         "hit": {
           "_index": "movies",
           "_id": "doc2",
           "_score": 2.0780432
         },
         "rating": 1
       }
     ],
     "metric_details": {
       "recall": {
         "relevant_docs_retrieved": 2,
         "relevant_docs": 2
       }
     }
   },
   "sad-movies": {
     "metric_score": 0,
     "unrated_docs": [],
     "hits": [],
     "metric_details": {
       "recall": {
         "relevant_docs_retrieved": 0,
         "relevant_docs": 2
       }
     }
   }
 },
 "failures": {}
}

クエリ内の単語の100%がドキュメント内で見つかることを要求することで、おそらく関連する結果が除外されるため、minimum_should_matchパラメータを厳しすぎるのかもしれません。minimum_should_matchパラメーターを削除して、クエリで1つの単語しか見つかっていない文書が関連性があると見なされるようにしましょう。

POST /movies/_rank_eval
{
 "requests": [
   {
     "id": "dicaprio-performance",
     "request": {
       "query": {
         "match": {
           "text": {
             "query": "DiCaprio performance"
           }
         }
       }
     },
     "ratings": [
       {
         "_index": "movies",
         "_id": "doc1",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc2",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc3",
         "rating": 0
       },
       {
         "_index": "movies",
         "_id": "doc4",
         "rating": 0
       }
     ]
   },
   {
     "id": "sad-movies",
     "request": {
       "query": {
         "match": {
           "text": {
             "query": "sad movies that make you cry"
           }
         }
       }
     },
     "ratings": [
       {
         "_index": "movies",
         "_id": "doc5",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc6",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc7",
         "rating": 0
       },
       {
         "_index": "movies",
         "_id": "doc8",
         "rating": 0
       }
     ]
   }
 ],
 "metric": {
   "recall": {
     "k": 10,
     "relevant_rating_threshold": 1
     }
 }
}

ご覧のように、2つのクエリのうちの1つでminimum_should_matchパラメーターを削除すると、両方のクエリの平均リコール率は1になります。

{
  "metric_score": 1,
  "details": {
    "dicaprio-performance": {
      "metric_score": 1,
      "unrated_docs": [],
      "hits": [
        {
          "hit": {
            "_index": "movies",
            "_id": "doc1",
            "_score": 2.0661702
          },
          "rating": 1
        },
        {
          "hit": {
            "_index": "movies",
            "_id": "doc3",
            "_score": 0.732218
          },
          "rating": 0
        },
        {
          "hit": {
            "_index": "movies",
            "_id": "doc2",
            "_score": 0.6271719
          },
          "rating": 1
        }
      ],
      "metric_details": {
        "recall": {
          "relevant_docs_retrieved": 2,
          "relevant_docs": 2
        }
      }
    },
    "sad-movies": {
      "metric_score": 1,
      "unrated_docs": [],
      "hits": [
        {
          "hit": {
            "_index": "movies",
            "_id": "doc7",
            "_score": 2.1307156
          },
          "rating": 0
        },
        {
          "hit": {
            "_index": "movies",
            "_id": "doc5",
            "_score": 1.3160692
          },
          "rating": 1
        },
        {
          "hit": {
            "_index": "movies",
            "_id": "doc6",
            "_score": 1.190063
          },
          "rating": 1
        }
      ],
      "metric_details": {
        "recall": {
          "relevant_docs_retrieved": 2,
          "relevant_docs": 2
        }
      }
    }
  },
  "failures": {}
}

要約すると、minimum_should_match: 100%句を削除すると、両方のクエリで完璧なリコールが得られます。

これで完了でしょうか？

安心するのはまだ早いです。

リコールを改善することで、より幅広い結果を得る道が開かれます。ただし、それぞれの調整にはトレードオフが伴います。だからこそ、完全なテストケースを定義し、異なる指標を使って変更を評価することが重要です。

判断リストと指標を使用すると、変更をバックアップするデータが得られるため、変更を行うときに盲目的に変更を行うことがなくなります。検証は手動で繰り返し行う必要がなくなり、変更を1つのユースケースだけでなく複数のユースケースでテストできるようになります。さらに、A/Bテストでは、どの構成がユーザーやビジネスケースに最適かをライブでテストできるため、技術的な指標と実際の指標から完全に把握できます。

判断リストの使用に関する最終的な推奨事項

判断リストを扱うことは、単に測定することだけでなく、自信を持って反復作業を行うためのフレームワークを作ることでもあります。これを実現するには、次の推奨事項に従ってください。

規模にこだわらずとにかく始める。それぞれ50個の判断リストを持つ10,000個のクエリを用意する必要はありません。ビジネスケースの最も重要な5〜10個のクエリを特定し、結果の冒頭にどの文書が表示されたいかを定義するだけで十分です。これですでに基礎が整いました。通常は、上位クエリと結果なしのクエリから始めるのが望ましいです。また、精度のような設定が簡単な指標でテストを開始し、複雑さを上げていくこともできます。
ユーザーとともに検証する。本番環境でのA/Bテストで数値を補完します。こうすることで、指標で良さそうに見える変更が実際に効果を生んでいるかどうかを知ることができます。
リストをアクティブに保つ。ビジネスケースは進化し、重要な問い合わせも進化していきます。新たなニーズを反映するために、定期的に判断を更新してください。
フローの一部に組み込む。判断リストを開発パイプラインに統合しましょう。各構成の変更、同義語、またはテキスト分析が基本リストに対して自動的に検証されることを確認します。
技術的な知識と戦略を結び付ける。精度やリコールなどの技術的な指標の測定にとどまらず、評価結果をビジネスの成果に役立てましょう。

LangGraph.jsとElasticsearchを使用して金融AI検索ワークフローを構築

Jeffrey Rengifo — Fri, 05 Dec 2025 00:00:00 GMT

AI検索アプリケーションの構築では、多くの場合、複数のタスク、データ取得、データ抽出をシームレスなワークフローに調整する必要があります。LangGraphは、開発者がnodeベースの構造を使用してAIエージェントを管理することで、このプロセスを簡素化します。この記事では、LangGraph.jsを使用して金融ソリューションを構築します。

LangGraphの概要

LangGraphは、AIエージェントを構築し、ワークフロー内で管理してAI支援アプリケーションを作成するためのフレームワークです。LangGraphには、タスクを表す関数を宣言し、それらをワークフローのノードとして割り当てることができるノードアーキテクチャがあります。複数のノードが相互作用した結果がグラフになります。LangGraphは、モジュール式かつ構成可能なAIシステムを構築するためのツールを提供する、より広範なLangChainエコシステムの一部です。

LangGraphが有用である理由をより深く理解するために、LangGraphを使用して問題のある状況を解決してみましょう。

ソリューションの概要

ベンチャーキャピタル企業では、投資家は多くのフィルタリングオプションを備えた大規模なデータベースにアクセスできますが、基準を組み合わせたい場合には困難で時間がかかります。これにより、関連するスタートアップの一部が投資対象として見つからない可能性があります。その結果、最適な候補を見つけるために多くの時間を費やしたり、機会を逃したりすることになります。

LangGraphとElasticsearchを使用することで、自然言語を用いてフィルターで検索することが可能となり、ユーザーが手動で複雑なリクエストを何十ものフィルターで構築する必要がなくなります。柔軟性を高めるために、ワークフローはユーザーの入力に基づいて2つのクエリタイプを自動的に決定します。

投資に焦点を当てたクエリ：スタートアップ企業の財務および資金調達の側面を対象としており、資金調達ラウンド、バリュエーション、収益を含みます。例：「シリーズAまたはシリーズBの資金調達額が800万ドル～2,500万ドルで、月間収益が50万ドルを超えるスタートアップを探してください。」
市場重視のクエリ：業界分野、地理的市場、ビジネスモデルに重点を置き、特定のセクターまたは地域での機会の特定に役立ちます。例：「サンフランシスコ、ニューヨーク、ボストンのフィンテックおよびヘルスケアのスタートアップ企業を探してください」

クエリを強固に保つため、LLMに検索テンプレートを構築させ、完全なDSLクエリの代わりとします。このようにすれば、必要なクエリを常に取得でき、LLMは空白を埋めるだけで済み、毎回必要なクエリを構築する責任を負う必要がなくなります。

始めるために必要なもの

Elasticsearch APIキー
OpenAPI APIキー
Node 18以降

ステップ別のガイド

このセクションでは、アプリがどのように見えるかを見てみましょう。TypeScriptはJavaScriptのスーパーセットで、静的な型を追加することでコードの信頼性を高め、保守性を向上させ、エラーを早期に発見して安全性を高めます。既存のJavaScriptとの完全な互換性を保ちながら、これを実現します。

ノードのフローは次のようになります。

上記の画像はLangGraphによって生成されたもので、ノード間の実行順序と条件付きロジックを定義するワークフローを表しています。

decideStrategy：LLMを用いてユーザーのクエリを分析し、投資重視か市場重視の2つの専門的な検索戦略のどちらかを判断します。
prepareInvestmentSearch：クエリからフィルター値を抽出し、財務および資金調達関連のパラメータを強調した定義済みテンプレートを構築します。
prepareMarketSearch : フィルター値も抽出しますが、市場、業界、地理的コンテキストを重視したパラメータを動的に構築します。
executeSearch：検索テンプレートを使用して構築されたクエリをElasticsearchに送信し、一致するスタートアップドキュメントを取得します。
visualizeResults：最終結果を、資金、業界、収益などの主要なスタートアップ属性を示す明確で読みやすい要約にフォーマットします。

このフローには「if」ステートメントとして機能する条件分岐が含まれており、ユーザーの入力に基づいて投資検索パスを使用するか、市場検索パスを使用するかを決定します。LLMにより駆動されるこの意思決定ロジックにより、ワークフローは適応的でコンテキストに応じたものになります。このメカニズムについては次のセクションで詳しく説明します。

LangGraphの状態

各ノードを個別に見る前に、ノードがどのように通信し、データを共有するかを理解する必要があります。そのために、LangGraphではワークフローの状態を定義することができます。これはノード間で共有される状態を定義します。

状態は、ワークフロー全体の中間データを保存する共有コンテナとして機能します。ユーザーの自然言語クエリから始まり、選択された検索戦略、Elasticsearch用に準備されたパラメータ、取得された検索結果、最後にフォーマットされた出力が保持されます。

この構造により、すべてのノードが状態を読み取って更新できるようになり、ユーザー入力から最終的な視覚化までの一貫した情報の流れが保証されます。

const VCState = Annotation.Root({
  input: Annotation(), // User's natural language query
  searchStrategy: Annotation(), // Search strategy chosen by LLM
  searchParams: Annotation(), // Prepared search parameters
  results: Annotation(), // Search results
  final: Annotation(), // Final formatted response
});

アプリケーションをセットアップする

このセクションのすべてのコードはelasticsearch-labsリポジトリで見つけることができます。

アプリが置かれるフォルダーでターミナルを開き、以下のコマンドで Node.js アプリケーションを初期化します。

npm init -y

これで、このプロジェクトに必要な依存関係をインストールできます。

npm install @elastic/elasticsearch @langchain/langgraph @langchain/openai @langchain/core dotenv zod && npm install --save-dev @types/node tsx typescript

@elastic/elasticsearch: Elasticsearchのデータインジェストや検索などのリクエストを処理するのに役立ちます。
@langchain/langgraph: すべてのLangGraphツールを提供するためのJS依存関係。
@langchain/openai: LangChain用のOpenAI LLMクライアント。
@langchain/core：プロンプトテンプレートなど、LangChainアプリのコアとなる基本的な構成要素を提供します。
dotenv:JavaScriptで環境変数を使用するために必要な依存関係。
zod：型データへの依存関係。

@types/node tsx typescript により、TypeScriptコードを記述して実行できるようになります。

次に、以下のファイルを作成します。

elasticsearchSetup.ts: Elasticsearchのマッピングを作成し、JSONファイルからデータを取り込み、Elasticsearchにデータを取り込みます。
main.ts: LangGraphアプリケーションが含まれます。
.env：環境変数を格納するファイル

.envファイルに以下の環境変数を追加します。

ELASTICSEARCH_ENDPOINT="your-endpoint-here"
ELASTICSEARCH_API_KEY="your-key-here"
OPENAI_API_KEY="your-key-here"

OpenAPI APIKeyはコード上で直接使用されることはなく、ライブラリ@langchain/openaiによって内部的に使用されます。

マッピングの作成、検索テンプレートの作成、データセットのインジェストに関するすべてのロジックは、elasticsearchSetup.tsファイルにあります。次のステップでは、main.tsファイルに焦点を当てていきます。また、データセットをチェックして、 dataset.jsonでデータがどのように表示されるかをよりよく理解することもできます。

LangGraphアプリ

main.tsファイルで、LangGraphアプリを統合するために必要な依存関係をいくつかインポートしましょう。このファイルには、ノード関数と状態宣言も含める必要があります。グラフの宣言は、次のステップで main メソッドで行われます。elasticsearchSetup.tsファイルには、以降のステップでノード内で使用する Elasticsearch ヘルパーが含まれます。

import { writeFileSync } from "node:fs";
import { StateGraph, Annotation, START, END } from "@langchain/langgraph";
import { ChatOpenAI } from "@langchain/openai";
import { z } from "zod";
import {
  esClient,
  ingestDocuments,
  createSearchTemplates,
  INDEX_NAME,
  INVESTMENT_FOCUSED_TEMPLATE,
  MARKET_FOCUSED_TEMPLATE,
  createIndex,
} from "./elasticsearchSetup.js";

const llm = new ChatOpenAI({ model: "gpt-4o-mini" });

前述のように、LLMクライアントは、ユーザーの質問に基づいてElasticsearch検索テンプレートパラメーターを生成するために使用されます。

async function saveGraphImage(app: any): Promise {
  try {
    const drawableGraph = app.getGraph();
    const image = await drawableGraph.drawMermaidPng();
    const arrayBuffer = await image.arrayBuffer();

    const filePath = "./workflow_graph.png";
    writeFileSync(filePath, new Uint8Array(arrayBuffer));
    console.log(`📊 Workflow graph saved as: ${filePath}`);
  } catch (error: any) {
    console.log("⚠️  Could not save graph image:", error.message);
  }
}

上記の方法はグラフ画像をpng形式で生成し、裏でMermaid.INK APIを利用しています。これは、スタイル設定された視覚化を使用してアプリノードがどのように相互作用するかを確認する場合に便利です。

LangGraphノード

次に、各ノードの詳細を見てみましょう。

decideSearchStrategyノード

decideSearchStrategyノードはユーザー入力を分析し、投資重視の検索を実行するか、市場重視の検索を実行するかを決定します。構造化された出力スキーマ（Zodで定義）を持つLLMを使用してクエリタイプを分類します。決定を下す前に、集計を使用してインデックスから利用可能なフィルターを取得し、モデルが業界、場所、資金調達データに関する最新のコンテキストを持っていることを確認します。

フィルタの可能な値を抽出してLLMに送信するために、集計クエリを使ってElasticsearchインデックスから直接値を取得してみましょう。このロジックはgetAvailableFiltersというメソッドに割り当てられます。

async function getAvailableFilters() {
  try {
    const response = await esClient.search({
      index: INDEX_NAME,
      size: 0,
      aggs: {
        industries: {
          terms: { field: "industry", size: 100 },
        },
        locations: {
          terms: { field: "location", size: 100 },
        },
        funding_stages: {
          terms: { field: "funding_stage", size: 20 },
        },
        business_models: {
          terms: { field: "business_model", size: 10 },
        },
        lead_investors: {
          terms: { field: "lead_investor", size: 100 },
        },
        funding_amount_stats: {
          stats: { field: "funding_amount" },
        },
      },
    });

    return response.aggregations;
  } catch (error) {
    console.error("❌ Error getting available filters:", error);
    return {};
  }
}

上記の集約クエリを用いると、以下の結果が得られます。

{
  "industries": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
      {
        "key": "logistics",
        "doc_count": 5
      },
      ...
    ]
  },
  "locations": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
      {
        "key": "San Francisco, CA",
        "doc_count": 4
      },
      {
        "key": "New York, NY",
        "doc_count": 3
      },
      ...
    ]
  },
  "funding_stages": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
      {
        "key": "Series A",
        "doc_count": 8
      },
      ...
    ]
  },
  "business_models": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
      {
        "key": "B2B",
        "doc_count": 13
      },
      ...
    ]
  },
  "lead_investors": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
      {
        "key": "Battery Ventures",
        "doc_count": 1
      },
      {
        "key": "Benchmark Capital",
        "doc_count": 1
      },
      ...
    ]
  },
  "funding_amount_stats": {
    "count": 20,
    "min": 4500000,
    "max": 35000000,
    "avg": 14075000,
    "sum": 281500000
  }
}

すべての結果はこちらでご覧いただけます。

両方の戦略において、ハイブリッド検索を行うことにより、質問の構造化された部分（フィルター）とより主観的な部分（セマンティック）の両方を検出します。以下は検索テンプレートを使用した両方のクエリの例です。

await esClient.putScript({
      id: INVESTMENT_FOCUSED_TEMPLATE,
      script: {
        lang: "mustache",
        source: `{
          "size": 5,
          "retriever": {
            "rrf": {
              "retrievers": [
                {
                  "standard": {
                    "query": {
                      "semantic": {
                        "field": "semantic_field",
                        "query": "{{query_text}}"
                      }
                    }
                  }
                },
                {
                  "standard": {
                    "query": {
                      "bool": {
                        "filter": [
                          {"terms": {"funding_stage": {{#join}}{{#toJson}}funding_stage{{/toJson}}{{/join}}}},
                          {"range": {"funding_amount": {"gte": {{funding_amount_gte}}{{#funding_amount_lte}},"lte": {{funding_amount_lte}}{{/funding_amount_lte}}}}},
                          {"terms": {"lead_investor": {{#join}}{{#toJson}}lead_investor{{/toJson}}{{/join}}}},
                          {"range": {"monthly_revenue": {"gte": {{monthly_revenue_gte}}{{#monthly_revenue_lte}},"lte": {{monthly_revenue_lte}}{{/monthly_revenue_lte}}}}}
                        ]
                      }
                    }
                  }
                }
              ],
              "rank_window_size": 100,
              "rank_constant": 20
            }
          }
        }`,
      },
    });

elasticsearchSetup.tsファイルに詳細が記載されているクエリを確認します。次のノードでは、2つのクエリのどちらを使用するかが決定されます。

// Node 1: Decide search strategy using LLM
async function decideSearchStrategy(state: typeof VCState.State) {
  // Zod schema for specialized search strategy decision
  const SearchDecisionSchema = z.object({
    search_type: z
      .enum(["investment_focused", "market_focused"])
      .describe("Type of specialized search strategy to use"),
    reasoning: z
      .string()
      .describe("Brief explanation of why this search strategy was chosen"),
  });

  const decisionLLM = llm.withStructuredOutput(SearchDecisionSchema);

  // Get dynamic filters from Elasticsearch
  const availableFilters = await getAvailableFilters();

  const prompt = `Query: "${state.input}"
    Available filters: ${JSON.stringify(availableFilters, null, 2)}

    Choose between two specialized search strategies:
    
    - investment_focused: For queries about funding stages, funding amounts, monthly revenue, lead investors, financial performance
    
    - market_focused: For queries about industries, locations, business models, market segments, geographic markets
    
    Analyze the query intent and choose the most appropriate strategy.
  `;

  try {
    const result = await decisionLLM.invoke(prompt);
    console.log(
      `🤔 Search strategy: ${result.search_type} - ${result.reasoning}`
    );

    return {
      searchStrategy: result.search_type,
    };
  } catch (error: any) {
    console.error("❌ Error in decideSearchStrategy:", error.message);
    return {
      searchStrategy: "investment_focused",
    };
  }
}

prepareInvestmentSearchノードとprepareMarketSearchノード

どちらのノードも共有ヘルパー関数extractFilterValuesを使用します。この関数はLLMを活用して、業界、場所、資金調達段階、ビジネスモデルなど、ユーザーの入力に記載されている関連フィルターを識別します。このスキーマを使用して検索テンプレートを構築します。

// Extract all possible filter values from user input
async function extractFilterValues(input: string) {
  const FilterValuesSchema = z.object({
    // Investment-focused filters
    funding_stage: z
      .array(z.string())
      .default([])
      .describe("Funding stage values mentioned in query"),
    funding_amount_gte: z
      .number()
      .default(0)
      .describe("Minimum funding amount in USD"),
    funding_amount_lte: z
      .number()
      .default(100000000)
      .describe("Maximum funding amount in USD"),
    lead_investor: z
      .array(z.string())
      .default([])
      .describe("Lead investor values mentioned in query"),
    monthly_revenue_gte: z
      .number()
      .default(0)
      .describe("Minimum monthly revenue in USD"),
    monthly_revenue_lte: z
      .number()
      .default(10000000)
      .describe("Maximum monthly revenue in USD"),
    industry: z
      .array(z.string())
      .default([])
      .describe("Industry values mentioned in query"),
    location: z
      .array(z.string())
      .default([])
      .describe("Location values mentioned in query"),
    business_model: z
      .array(z.string())
      .default([])
      .describe("Business model values mentioned in query"),
  });

  const extractorLLM = llm.withStructuredOutput(FilterValuesSchema);
  const availableFilters = await getAvailableFilters();

  const extractPrompt = `Extract ALL relevant filter values from: "${input}"
    Available options: ${JSON.stringify(availableFilters, null, 2)}
    Extract only values explicitly mentioned in the query. Leave fields empty if not mentioned.`;

  return await extractorLLM.invoke(extractPrompt);
}

検出された意図に応じて、ワークフローは2つのパスのいずれかを選択します。

prepareInvestmentSearch：資金調達段階、資金調達額、投資家、更新情報などの財務指向の検索パラメータを構築します。クエリテンプレート全体はelasticsearchSetup.tsファイルで確認できます。

// Node 2A: Prepare Investment-Focused Search Parameters 
async function prepareInvestmentSearch(state: typeof VCState.State) {
  console.log(
    "💰 Preparing INVESTMENT-FOCUSED search parameters with financial emphasis..."
  );

  try {
    // Extract all filter values from input
    const values = await extractFilterValues(state.input);

    let searchParams: any = {
      template_id: INVESTMENT_FOCUSED_TEMPLATE,
      query_text: state.input,
      ...values,
    };

    return { searchParams };
  } catch (error) {
    console.error("❌ Error preparing investment-focused params:", error);
    return {
      searchParams: {},
    };
  }
}

prepareMarketSearch：業界、地域、ビジネスモデルに重点を置いた市場主導のパラメータを作成します。クエリ全文はelasticsearchSetup.tsファイルをご覧ください。

// Node 2B: Prepare Market-Focused Search Parameters
async function prepareMarketSearch(state: typeof VCState.State) {
  console.log(
    "🔍 Preparing MARKET-FOCUSED search parameters with market emphasis..."
  );

  try {
    // Extract all filter values from input
    const values = await extractFilterValues(state.input);

    let searchParams: any = {
      template_id: MARKET_FOCUSED_TEMPLATE,
      query_text: state.input,
      ...values,
    };

    return { searchParams };
  } catch (error) {
    console.error("❌ Error preparing market-focused params:", error);
    return {};
  }
}

executeSearchノード

このノードは、生成された検索パラメータを状態から取得し、最初にElasticsearchに送信します。次に、_render APIを使用してデバッグの目的でクエリを視覚化し、次に結果を取得するためのリクエストを送信します。

// Node 3: Execute Search
async function executeSearch(state: typeof VCState.State) {
  const { searchParams } = state;

  try {
    // getting formed query from template for debugging
    const renderedTemplate = await esClient.renderSearchTemplate({
      id: searchParams.template_id,
      params: searchParams,
    });

    console.log(
      "📋 Complete query:",
      JSON.stringify(renderedTemplate.template_output, null, 2)
    );

    const results = await esClient.searchTemplate({
      index: INDEX_NAME,
      id: searchParams.template_id,
      params: searchParams,
    });

    return {
      results: results.hits.hits.map((hit: any) => hit._source),
    };
  } catch (error: any) {
    console.error(`❌ ${state.searchParams.search_type} search error:`, error);
    return { results: [] };
  }
}

visualizeResultsノード

最後に、このnodeはElasticsearchの結果を表示します。

// Node 4: Visualize results
async function visualizeResults(state: typeof VCState.State) {
  const results = state.results || [];

  let formattedResults = `🎯 Found ${results.length} startups matching your criteria:\n\n`;

  results.forEach((startup: any, index: number) => {
    formattedResults += `${index + 1}. **${startup.company_name}**\n`;
    formattedResults += `   📍 ${startup.location} | 🏢 ${startup.industry} | 💼 ${startup.business_model}\n`;
    formattedResults += `   💰 ${startup.funding_stage} - $${(
      startup.funding_amount / 1000000
    ).toFixed(1)}M\n`;
    formattedResults += `   👥 ${startup.employee_count} employees | 📈 $${(
      startup.monthly_revenue / 1000
    ).toFixed(0)}K MRR\n`;
    formattedResults += `   🏦 Lead: ${startup.lead_investor}\n`;
    formattedResults += `   📝 ${startup.description}\n\n`;
  });

  return {
    final: formattedResults,
  };
}

プログラム的には、グラフ全体は次のようになります。

  const workflow = new StateGraph(VCState)
    // Register nodes - these are the processing functions
    .addNode("decideStrategy", decideSearchStrategy)
    .addNode("prepareInvestment", prepareInvestmentSearch)
    .addNode("prepareMarket", prepareMarketSearch)
    .addNode("executeSearch", executeSearch)
    .addNode("visualizeResults", visualizeResults)
    // Define execution flow with conditional branching
    .addEdge(START, "decideStrategy") // Start with strategy decision
    .addConditionalEdges(
      "decideStrategy",
      (state: typeof VCState.State) => state.searchStrategy, // Conditional function
      {
        investment_focused: "prepareInvestment", // If investment focused -> RRF template preparation
        market_focused: "prepareMarket", // If market focused -> dynamic query preparation
      }
    )
    .addEdge("prepareInvestment", "executeSearch") // Investment prep -> execute
    .addEdge("prepareMarket", "executeSearch") // Market prep -> execute
    .addEdge("executeSearch", "visualizeResults") // Execute -> visualize
    .addEdge("visualizeResults", END); // End workflow

ご覧のとおり、アプリが次にどの「パス」またはノードを実行するかを決定する条件付きエッジがあります。この特徴は、ワークフローに分岐ロジックが必要な場合、例えば複数のツールから選択する場合や、人間が関与するステップを含む場合に有用です。

LangGraph のコア機能を理解したら、コードが実行されるアプリケーションをセットアップできます。

すべてをmainメソッドで組み合わせ、ここではすべての要素をワークフロー変数下のグラフとして宣言します。

async function main() {
  await createIndex();
  await createSearchTemplates();
  await ingestDocuments();

  // Create the workflow graph with shared state
  const workflow = new StateGraph(VCState)
    // Register nodes - these are the processing functions
    .addNode("decideStrategy", decideSearchStrategy)
    .addNode("prepareInvestment", prepareInvestmentSearch)
    .addNode("prepareMarket", prepareMarketSearch)
    .addNode("executeSearch", executeSearch)
    .addNode("visualizeResults", visualizeResults)
    // Define execution flow with conditional branching
    .addEdge(START, "decideStrategy") // Start with strategy decision
    .addConditionalEdges(
      "decideStrategy",
      (state: typeof VCState.State) => state.searchStrategy, // Conditional function
      {
        investment_focused: "prepareInvestment", // If investment focused -> RRF template preparation
        market_focused: "prepareMarket", // If market focused -> dynamic query preparation
      }
    )
    .addEdge("prepareInvestment", "executeSearch") // Investment prep -> execute
    .addEdge("prepareMarket", "executeSearch") // Market prep -> execute
    .addEdge("executeSearch", "visualizeResults") // Execute -> visualize
    .addEdge("visualizeResults", END); // End workflow


  const app = workflow.compile();

  await saveGraphImage(app);

  const query =
    "Find startups with Series A or Series B funding between $8M-$25M and monthly revenue above $500K";

  const marketResult = await app.invoke({ input: query });
  console.log(marketResult.final);
}

クエリ変数は、仮想の検索バーに入力されたユーザー入力をシミュレートします。

「シリーズAまたはシリーズBの資金調達額が800万ドル～2,500万ドルで、月間収益が50万ドルを超えるスタートアップを探してください。」という自然言語フレーズから、すべてのフィルターが抽出されます。

最後にmainメソッドを呼び出します。

main().catch(console.error);

成果

🔍 Checking if index exists...
🏗️ Creating index...
✅ Index created successfully!
Ingesting documents...
✅ Documents ingested successfully!
✅ Investment-focused template created successfully!
✅ Market-focused template created successfully!

📊 Workflow graph saved as: ./workflow_graph.png

🔍 Query: "Find startups with Series A or Series B funding between $8M-$25M and monthly revenue above $500K"

🤔 Search strategy: investment_focused - The query specifically seeks profitable fintech startups with defined funding amounts and high monthly revenue, which aligns closely with financial performance metrics and investment-related criteria.

💰 Preparing INVESTMENT-FOCUSED search parameters with financial emphasis...

📋 Complete query: {
  "size": 5,
  "retriever": {
    "rrf": {
      "retrievers": [
        {
          "standard": {
            "query": {
              "semantic": {
                "field": "semantic_field",
                "query": "Find startups with Series A or Series B funding between $8M-$25M and monthly revenue above $500K"
              }
            }
          }
        },
        {
          "standard": {
            "query": {
              "bool": {
                "filter": [
                  {
                    "terms": {
                      "funding_stage": [
                        "Series A",
                        "Series B"
                      ]
                    }
                  },
                  {
                    "range": {
                      "funding_amount": {
                        "gte": 8000000,
                        "lte": 25000000
                      }
                    }
                  },
                  {
                    "terms": {
                      "lead_investor": []
                    }
                  },
                  {
                    "range": {
                      "monthly_revenue": {
                        "gte": 500000,
                        "lte": 0
                      }
                    }
                  }
                ]
              }
            }
          }
        }
      ],
      "rank_window_size": 100,
      "rank_constant": 20
    }
  }
}
🎯 Found 5 startups matching your criteria:

1. **TechFlow**
   📍 San Francisco, CA | 🏢 logistics | 💼 B2B
   💰 Series A - $8.0M
   👥 45 employees | 📈 $500K MRR
   🏦 Lead: Sequoia Capital
   📝 TechFlow optimizes supply chain operations using AI-powered route optimization and real-time tracking. Founded in 2023, shows remarkable growth with $500K monthly revenue.

2. **DataViz**
   📍 New York, NY | 🏢 enterprise software | 💼 B2B
   💰 Series A - $10.0M
   👥 42 employees | 📈 $450K MRR
   🏦 Lead: Battery Ventures
   📝 DataViz creates intuitive data visualization tools for enterprise customers. No-code platform allows business users to create dashboards without technical expertise.

3. **FinanceAI**
   📍 San Francisco, CA | 🏢 fintech | 💼 B2C
   💰 Series C - $25.0M
   👥 120 employees | 📈 $1200K MRR
   🏦 Lead: Tiger Global Management
   📝 FinanceAI provides AI-powered investment advisory services to retail investors. Uses machine learning to analyze market trends with over 100,000 active users.

4. **UrbanMobility**
   📍 New York, NY | 🏢 logistics | 💼 B2B2C
   💰 Series B - $15.0M
   👥 78 employees | 📈 $750K MRR
   🏦 Lead: Kleiner Perkins
   📝 UrbanMobility revolutionizes urban transportation through autonomous delivery drones and smart logistics hubs. Partners with major retailers for same-day delivery across Manhattan and Brooklyn.

5. **HealthTech Solutions**
   📍 Boston, MA | 🏢 healthcare | 💼 B2B
   💰 Series B - $18.0M
   👥 95 employees | 📈 $900K MRR
   🏦 Lead: General Catalyst
   📝 HealthTech Solutions develops medical devices and software for remote patient monitoring. Comprehensive telehealth platform reducing hospital readmissions by 30%.

✨  Done in 18.80s.

送信された入力に対して、アプリケーションは投資に重点を置いたパスを選択し、その結果、ユーザー入力から値と範囲を抽出するLangGraphワークフローによって生成されたElasticsearchクエリを確認できます。また、抽出された値が適用された状態でElasticsearchに送信されたクエリと、最後にvisualizeResultsノードによって結果がフォーマットされた結果も確認できます。

次に、市場重視のノードを、クエリ「サンフランシスコ、ニューヨーク、ボストンのフィンテックおよびヘルスケアのスタートアップ企業を探してください」を使用してテストしてみましょう。

...

🔍 Query: Find fintech and healthcare startups in San Francisco, New York, or Boston

🤔 Search strategy: market_focused - The query is focused on finding fintech startups in San Francisco that are disrupting traditional banking and payment systems, which pertains to specific industries (fintech) and locations (San Francisco). Thus, a market-focused strategy is more appropriate.

🔍 Preparing MARKET-FOCUSED search parameters with market emphasis...

📋 Complete query: {
  "size": 5,
  "retriever": {
    "rrf": {
      "retrievers": [
        {
          "standard": {
            "query": {
              "semantic": {
                "field": "semantic_field",
                "query": "Find fintech and healthcare startups in San Francisco, New York, or Boston"
              }
            }
          }
        },
        {
          "standard": {
            "query": {
              "bool": {
                "filter": [
                  {
                    "terms": {
                      "industry": [
                        "fintech",
                        "healthcare"
                      ]
                    }
                  },
                  {
                    "terms": {
                      "location": [
                        "San Francisco, CA",
                        "New York, NY",
                        "Boston, MA"
                      ]
                    }
                  },
                  {
                    "terms": {
                      "business_model": []
                    }
                  }
                ]
              }
            }
          }
        }
      ],
      "rank_window_size": 50,
      "rank_constant": 10
    }
  }
}
🎯 Found 5 startups matching your criteria:

1. **FinanceAI**
   📍 San Francisco, CA | 🏢 fintech | 💼 B2C
   💰 Series C - $25.0M
   👥 120 employees | 📈 $1200K MRR
   🏦 Lead: Tiger Global Management
   📝 FinanceAI provides AI-powered investment advisory services to retail investors. Uses machine learning to analyze market trends with over 100,000 active users.

2. **CryptoWallet**
   📍 Miami, FL | 🏢 fintech | 💼 B2C
   💰 Series B - $16.0M
   👥 73 employees | 📈 $820K MRR
   🏦 Lead: Coinbase Ventures
   📝 CryptoWallet provides secure digital wallet solutions for cryptocurrency trading and storage. Multi-chain support with enterprise-grade security features.

...

✨  Done in 7.41s.

学び

執筆の過程で次のことを学びました。

LLMにフィルターの正確な値を表示する必要があります。そうしないと、ユーザーが正確な値を入力することになります。カーディナリティが低い場合はこのアプローチで問題ありませんが、カーディナリティが高い場合は結果をフィルタリングする何らかのメカニズムが必要です。
検索テンプレートを使用すると、LLMにElasticsearchクエリを記述させるよりも結果の一貫性が大幅に向上し、速度も速くなります。
条件付きエッジは、複数のバリアントと分岐パスを持つアプリケーションを構築するための強力なメカニズムです。
構造化された出力は、予測可能でタイプセーフな応答を強制するため、LLMを使用して情報を生成する場合に非常に役立ちます。これにより、信頼性が向上し、プロンプトの誤解が減少します。

ハイブリッド検索を通じてセマンティック検索と構造化検索を組み合わせることで、精度とコンテキスト理解のバランスを保ちながら、より適切で関連性の高い結果が生成されます。

まとめ

この例では、LangGraph.jsとElasticsearchを組み合わせて、自然言語クエリをElasticsearchで検索し、金融と市場のいずれかワークフローを焦点を当てた検索戦略をワークフローで決定できる動的なワークフローを作成します。このアプローチにより、手動クエリ作成の複雑さが軽減され、ベンチャーキャピタルアナリストの柔軟性と精度が向上します。

変数コントロールによるKibanaダッシュボードのインタラクション性の向上

Teresa Alvarez Soler — Thu, 04 Dec 2025 00:00:00 GMT

バージョン8.18以降および9.xシリーズすべてのKibanaダッシュボードで変数コントロールが利用できるようになりました。ダッシュボードユーザーから最も継続的にリクエストされていた追加機能の1つがついに導入されました 🎉 過去数か月間、変数コントロールの拡張と改良を続けてきたため、変数コントロール専用のブログ投稿を作成するのに絶好のタイミングとなりました。

変数コントロールとは何ですか？

Kibanaのダッシュボードを使用したことがある方なら、クラシックなダッシュボードコントロール（データの値を表示する便利なドロップダウン）をご存知でしょう。これにより、数回のクリックでフィルタリングできます。

変数コントロールは表面上では似ていますが、巧妙な工夫が施されています。ダッシュボード上のすべてのパネルを自動的にフィルター処理するのではなく、個々の可視化内の ES|QLクエリに直接プラグインすることができます。

つまり、各コントロールを適用する場所をユーザーが決定できるということです。さらに、時間間隔の調整、内訳フィールドの切り替え、可視化パラメーターの即時変更など、さまざまなクリエイティブなトリックに使用できます。基本的に、ダッシュボードに真のインタラクティブな体験を提供し、より速く、より簡単に洞察を得られるようにしています。

変数コントロールのユースケース

変数コントロールは便利そうですが、実際に何ができるのでしょうか？ダッシュボードをレベルアップさせる例をいくつかご紹介します。

選択された可視化をフィルター

一部の可視化をフィルターし、他の可視化はそのままにしておきたい場合は、変数コントロールがまさに最適です。必要なパネルを選択して、可視化の背後にあるES|QLクエリでそれらを接続できます。

異なる時間間隔を選択

ユーザーが「5分」、「1時間」、「1日」など、適切な時間枠を切り替えることができるようにします。事前定義された間隔で変数コントロールを構築し、それを時系列クエリに接続します。

機能を変更

各操作ごとに複数のチャートを作成する代わりに、ダッシュボードユーザーが最大値、平均値、異なるパーセンタイル、またはその他のアグリゲーターを選択できるようにします。

異なるフィールドでグループ化

調査中に、データをさまざまな次元で分類する必要がある場合があります。変数コントロールを使用すると、複数の「グループ化」フィールドを定義し、ダッシュボードユーザーが分析情報を明らかにするのに役立つフィールドを選択できるようにすることができます。

作成方法

変数コントロールを作成する最も簡単な（そしておそらく最も楽しい）方法は、可視化のES|QLクエリエディタから直接作成することです。クエリを入力し始め、オートコンプリートメニューを使用すれば、Kibanaが役立つコントロールを自動的に作成します。

ただし、変数自体から開始したい場合は「パネルを追加」→「コントロール」→「変数コントロール」に進み、コントロールを作成した後で変数を可視化に追加することもできます。

例1：複数値選択によるフィルタリングコントロール

1. ES|QLクエリを利用した可視化を選択し、WHERE句内の「コントロールを作成」をクリックします。

2. 自動的に変数作成のポップアップにリダイレクトされます。ここでは「クエリからの値」タイプが自動で選択され、変数の名前も既に入力されています。可視化クエリで動作するよう、コントロールの名前は常に「?...」で始める必要があります。

通常、フィールドから値を取得し、ダッシュボードで選択した時間範囲に応じて値を更新するには、次のようなクエリが必要になります。

FROM 
| WHERE @timestamp <=?_tend and @timestamp >?_tstart
| STATS BY

3. コントロールを保存すると、それがダッシュボードのトップに表示され、可視化クエリが変数コントロール名で更新されます。

4. コントロールに多重選択を追加したい場合は、ステップ2でクエリ内の MV_CONTAINS 関数を使用し、「複数選択を許可」を選択する必要があります（9.3以降で利用可能）。

例 2: 時間間隔制御

時系列を構築する場合は、日付ヒストグラム間隔に変数コントロールを簡単に追加できます。

1. 時系列のES|QLクエリを記述するときは、「コントロールを作成」をクリックします。変数を間隔用に作成する際は、BUCKET の代わりに TBUCKET を使用する方が良いです。これにより、「1 hour」、「1 day」などの見やすい間隔を受け入れることができます。TBUCKETには、時間範囲に自動的に適応できる自動オプションも近日中に導入される予定です。

2. ドロップダウンメニューでオプションを入力する間隔を定義します。

3. ドロップダウンメニューで異なる間隔を選択し、可視化がどのように変化するかを確認します。

例3：関数の変数

「静的値」タイプのコントロールを使用して変数を作成し、ドロップダウン値に関数名を追加します。関数を置き換えるには、「??...」で始まる変数名を使用することが重要です。

2. ES|QLクエリに変数名を含めます。

例4：フィールドの変数

「静的値」タイプのコントロールを使用して、必要なフィールドの名前を書き留めることができます。フィールドで機能させるためには「??...」で始まる変数名を使用することが重要です。

2. 可視化クエリで任意の場所に変数を参照します。

Discoverの変数コントロール

変数コントロールは単なるダッシュボードの特徴ではなく、DiscoverのES|QLエディターでも直接利用可能です。Discoverでより高速なデータ探索エクスペリエンスを実現するコントロールを構築し、それをダッシュボードに表示したり、その逆を行ったりすることができます。

技術的な詳細

ここまでで、変数コントロールには、クエリのどの部分を参照できるか、使用すべき命名プレフィックス（値の場合は「?...」、フィールドまたは関数の場合は「??...」）などのいくつかのルールがあることに気付かれたでしょう。これは、変数がクライアント上で行われる単純な文字列置換ではなく、実際にはクエリ言語自体の第一級オブジェクトであるためです（ES|QL ではパラメーターと呼ばれます）。

この設計にはいくつかの大きな利点があります。1つは、Kibanaが各変数のコンテキストを理解できるため、設定を自動的に生成して事前入力できることです。また、この言語が変数の入力を厳密に検証し、悪意のある挿入を防ぎ、何かおかしい点があれば適切にエラーを出力するため、安全性もはるかに高くなります。さらに、複雑な検証とエラー処理をクライアントではなくサーバー側に移動することで、パフォーマンスと安定性が向上します。パフォーマンスに関する注意点として、ベストプラクティスは、高速クエリを含む変数を構築することです。これにより、ダッシュボードよりも先に読み込まれ、遅いクエリがダッシュボード全体のパフォーマンスに影響を与えることを防ぎます。

もちろん、このアーキテクチャーにも（現時点では）いくつかの制限があります。変数はまだフィルタリング用の「任意」オプションをサポートしておらず、現在、LIKE やFROM（データソースの切り替え用）のような特定の演算子では使用できません。幸い、当社はこれらの機能を追加するために積極的に取り組んでいます。

コントロールの今後

この機能はまだ完成ではありません。以下のような改善を予定しています。

✨ ダッシュボードのどこにでもコントロールを配置できる機能

✨ コントロールの連鎖（一つのコントロールの出力が次のコントロールのインプットになるよう）

✨ 変数の「任意」選択のようなより良い選択オプション

✨ 新しいコントロールタイプ（検索するタイプのコントロールとデータソースの変数）

✨ さらに、ユーザーの皆様のご要望に応え、通常コントロールの事前フィルタリングなどの操作性の改善

アイデアやご意見があれば、ぜひお聞かせください。

NVIDIA cuVSでElasticsearchのベクトルインデキシングを最大12倍高速化：GPUアクセラレーション第2章

Wed, 03 Dec 2025 00:00:00 GMT

今年の初め、ElasticはNVIDIAとの協業を発表し、ElasticsearchにGPUアクセラレーションをもたらすためにNVIDIA cuVSと統合しました。これはNVIDIA GTCのセッションやさまざまなブログで詳しく説明されています。この投稿は、NVIDIAのベクトル検索チームとの共同エンジニアリング作業の最新情報です。

要約

まず、現状をお伝えしましょう。Elasticsearchは、強力なベクトルデータベースとして確立され、大規模な類似性検索に対して豊富な特徴と強力なパフォーマンスを提供しています。スカラー量子化、Better Binary Quantization（BBQ）、SIMDベクトル演算、DiskBBQのようなよりディスク効率の高いアルゴリズムなどの機能により、すでにベクトルワークロードの管理に効率的かつ柔軟な選択肢を提供しています。

NVIDIA cuVSをベクトル検索タスク用の呼び出し可能なモジュールとして統合することで、ベクトルインデキシングのパフォーマンスと効率を大幅に向上させ、大規模なベクトルワークロードをより良くサポートすることを目指しています。

課題

高性能ベクトルデータベースを構築する上で最も困難な課題の一つは、ベクトルインデックス（HNSWグラフ）を構築することです。インデックス構築は、すべてのベクトルが他の多数のベクトルと比較されるため、すぐに数百万、あるいは数十億の算術演算によって支配されるようになります。さらに、インデックスのライフサイクル操作、例えば圧縮やマージなどは、インデキシングの全体的な計算オーバーヘッドをさらに増加させる可能性があります。データ量と関連するベクトル埋め込みが指数関数的に増加するにつれ、大規模な並列処理と高スループットの数学演算用に構築された高速コンピューティングGPUは、これらのワークロードを処理するのに理想的な位置にあります。

Elasticsearch-GPUプラグインの登場

NVIDIA cuVSは、GPUによるベクトル検索とデータクラスタリングのためのオープンソースCUDA-Xライブラリであり、AIおよび推奨ワークロード向けの高速インデックス構築と埋め込み検索を可能にします。

ElasticsearchはcuVSをcuvs-javaを通じて使用しています。cuvs-javaはコミュニティが開発し、NVIDIAが保守するオープンソースライブラリです。cuvs-javaライブラリは軽量で、cuVS C APIをベースにPanama Foreign Functionを使用して、cuVSの特徴をJavaらしい方法で公開しつつ、モダンな高性能を維持しています。

cuvs-javaライブラリは新しいElasticsearchプラグインに統合されています。そのため、GPU上でのインデキシングを同じElasticsearchノードとプロセスで実行でき、外部のコードやハードウェアを提供する必要はありません。CUVsライブラリがインストールされていて、GPUが存在して構成されている場合、インデキシング中にElasticsearchはGPUを使用してベクターインデキシング処理を高速化します。ベクトルはGPUに提供され、GPUはCAGRAグラフを構築します。その後、このグラフはHNSW形式に変換され、CPU上でのベクトル検索にすぐに利用可能になります。構築されたグラフの最終的な形式は、CPU上に構築されるものと同じです。これによりElasticsearchは、基盤となるハードウェアがサポートしている場合、GPUを活用して高スループットのベクトルインデックスを作成し、CPUのパワーを他のタスク（同時検索やデータ処理など）に解放することができます。

インデックス構築の加速

ElasticsearchにGPUアクセラレーションを統合する一環として、cuvs-javaにいくつかの機能強化が行われ、効率的なデータのインプット/出力と関数呼び出しに焦点が当てられました。主要な機能強化は、cuVSMatrixを使用して、Javaヒープ、オフヒープ、またはGPUメモリに存在するベクトルを透過的にモデル化することです。これにより、データをメモリとGPU間で効率的に移動でき、潜在的に数十億のベクトルの不要なコピーを回避できます。

この基礎となるゼロコピー抽象化のおかげで、GPUメモリへの転送とグラフの取得の両方が直接実行できます。インデキシング中、ベクトルは最初にJavaヒープ上のメモリにバッファリングされ、その後GPUに送られてCagraグラフを構築します。その後、グラフはGPUから取得され、HNSW形式に変換され、ディスクに保存されます。

マージ時には、ベクトルはすでにディスクに格納されており、Javaヒープを完全にバイパスします。インデックスファイルはメモリマップされ、データは直接GPUメモリに転送されます。この設計は、float32やint8などのさまざまなビット幅にも簡単に対応し、他の量子化スキームにも自然に拡張できます。

実際のパフォーマンス

数字を見てみる前に、少し背景を説明しておきましょう。Elasticsearchのセグメントマージは通常、インデキシング中にバックグラウンドで自動的に実行されるため、分離してベンチマークをとることが難しくなります。再現可能な結果を得るために、制御された実験でforce-mergeを使用してセグメントのマージを明示的にトリガーしました。force-mergeはバックグラウンドマージと同じ基礎となるマージ操作を実行するので、実際のインデキシングワークロードでは正確な効果が異なる場合でも、そのパフォーマンスは期待される改善を示す有用な指標となります。

さて、数字を見てみましょう。

最初のベンチマーク結果は非常に有望です。ベンチマークは、ローカルに接続されたNVMeストレージを持つAWS g6.4xlargeインスタンスで実行しました。Elasticsearchのシングルノードは、デフォルトの最適なインデキシングスレッド数（各物理コアに1つずつの計8つ）を使用し、マージスロットリング（高速NVMeディスクではあまり適用されません）を無効にするように設定しました。

データセットにはOpenAI Rallyベクトルトラックから取得した1,536次元のベクトル260万個をbase64文字列としてエンコードし、float32 hnswとしてインデックスして使用しました。すべてのシナリオにおいて、構築されたグラフは最大95%のリコールレベルを達成します。結果は以下となりました。

インデキシングのスループット：メモリ内バッファのフラッシュ中にグラフ構築を GPU に移動することで、スループットが約 12 倍向上します。
強制マージ：インデキシングが完了した後、GPUはセグメントのマージを加速し続け、強制マージフェーズを約7倍高速化します。

CPU使用率：グラフ構築をGPUにオフロードすると、平均およびピーク時のCPU使用率が大幅に削減されます。以下のグラフは、インデキシングとマージ中のCPU使用率を示しており、これらの操作をGPUで実行すると使用率がどれだけ低くなるかを強調しています。GPUインデキシング中のCPU使用率が低下すると、CPUサイクルが解放され、検索パフォーマンスの向上に向けることができます。

リコール：CPU実行とGPU実行の精度は実質的に同じですが、GPUで構築されたグラフのリコールはわずかに高くなります。

別の次元での比較：価格

先ほどの比較では、意図的に同一のハードウェアが使用されており、唯一の違いはインデキシング中にGPUが使用されたかどうかでした。この設定は、生のコンピューティング効果を分離するのに役立ちますが、コストの観点から比較することもできます。

GPUアクセラレーション構成とほぼ同じ時間単価で、同等のCPUおよびメモリリソースの約2倍（32個のvCPU（AMD EPYC）と64GBのRAM）を備えたCPUのみのセットアップをプロビジョニングでき、インデキシングスレッドの数を2倍の16に増やすことができます。

比較を公平かつ一貫性のあるものにするために、このCPUのみの実験をAWS g6.8xlargeインスタンスで実行しました。GPUは明示的に無効になっています。これにより、GPUアクセラレーションとCPUのみのインデキシングのコストパフォーマンスのトレードオフを評価する際、他のすべてのハードウェア特性を一定に保つことができました。

予想どおり、より強力なCPUインスタンスでは、上記のセクションのベンチマークと比較してパフォーマンスが向上しています。しかし、このより強力なCPUインスタンスを元のGPUアクセラレーション結果と比較すると、GPUは、リコールレベル最大95%に達するグラフを構築しながら最大5倍のインデキシングスループット向上、最大6倍のフォースマージと、依然として大幅なパフォーマンス向上を提供します。

結論

エンドツーエンドのシナリオでは、NVIDIA cuVSによるGPUアクセラレーションにより、インデキシングのスループットが約12倍向上し、force-mergeのレイテンシが7倍減少し、CPU使用率が大幅に低下します。これは、ベクトルインデキシングとマージワークロードがGPUアクセラレーションから大きな恩恵を受けることを示しています。コスト調整後の比較では、GPUアクセラレーションは引き続き大幅なパフォーマンス向上をもたらし、インデキシングのスループットは約5倍、force-merge操作は6倍高速化されます。

GPUアクセラレーションによるベクトルインデキシングは、現在Elasticsearch 9.3の技術プレビューで計画されており、2026年初頭にリリース予定です。

続報をお楽しみに。

ES|QL 9.2：スマートになったLookup Joinと時系列サポート

Tyler Perkins, Kostas Krikellas, Julian Kiryakov — Tue, 02 Dec 2025 00:00:00 GMT

10月にリリースされたElasticsearch 9.2には、データの分析をこれまで以上に高速化、柔軟化、アクセスしやすくするための大きな進化が詰まっています。このリリースの中心となるのは、パイプクエリ言語であるES|QLの重要な機能強化で、エンドユーザーに直接さらに多くの価値をもたらすように設計されています。

ES|QLを使用してデータ分析ワークフローを変革するElasticsearch 9.2の特徴を見てみましょう。

データ相関の革命：よりスマート高速、柔軟になったLookup Join

ES|QLのLOOKUP JOINコマンドはElasticsearch 9.2で大幅に変更され、効率性と汎用性が飛躍的に向上しました。LOOKUP JOINは、ES|QLクエリ結果テーブルのデータを、指定されたルックアップモードインデックスの一致するレコードと結合します。結合フィールド内の一致する値に基づいて、ルックアップインデックスのフィールドが新しい列として結果テーブルに追加されます。以前は、データの結合は単一のフィールドと単純な等式に制限されていましたが、これが改善されました。これらの機能強化により、複雑なデータ相関シナリオに簡単に対処できるようになります。

Lookup Joinの主な機能強化は次のとおりです。

複数フィールド結合：複数のフィールドを簡単に結合できます。例えば、application_logs を service_name、environment の service_registry と結合する場合 version:

FROM application_logs
| LOOKUP JOIN service_registry ON service_name, environment, version

式を使用して複雑なjoin述語を活用（テクニカルプレビュー）：

もはや、単純な等式に制限されることはありません。LOOKUP JOINでは、複数の条件を相関に指定し、==、!=、、<=、>= を含む 二項演算子の範囲を組み込むことができます。つまり、非常に微妙な結合条件を作成できるようになり、データに対してより高度な質問をすることができるようになります。

例1：サービスごとのSLAしきい値を使用したアプリケーションメトリクスの検索

FROM application_metrics
| LOOKUP JOIN sla_thresholds
      ON service_name == sla_service AND response_time > sla_response_time

例2：このクエリは、時間とともに変化する地域の価格ポリシーに基づいて支払われるべき金額を計算します。複雑な日付範囲と等しい条件に基づく3つのデータセットを統合し、最終的に due_amountを算出します。2番目のルックアップ結合では、 meter_readingsインデックスのmeasurement_dateフィールドとcustomersインデックスのregion_idフィールドを使用してpricing_policiesインデックスに結合し、特定のregionとmeasurement_dateの正しい価格設定ポリシーを検索します。

FROM meter_readings
| LOOKUP JOIN customers
      ON meter_id
| LOOKUP JOIN pricing_policies
      ON
        region_id == region AND
          measurement_date >= policy_begin_date AND
          measurement_date < policy_end_date
| EVAL due_amount = (kwh_consumed * rate_per_kwh + base_charge) * (1 + tax_rate)
| EVAL period = policy_name
| KEEP customer_name, period, due_amount, measurement_date, kwh_consumed,
    rate_per_kwh, base_charge, tax_rate
| SORT measurement_date

フィルターされた結合のパフォーマンスが大幅に向上：

ルックアップテーブル条件を使用してフィルター処理される「拡張結合」のパフォーマンスが向上しました。拡張結合では、入力行ごとに複数の一致が生成され、大きな中間結果セットが作成されることがあります。これらの行の多くが後続のフィルターによって破棄されると、状況はさらに悪化します。9.2では、ルックアップデータにフィルターを適用するときに不要な行を除外することでこれらの結合を最適化し、破棄される行の処理を回避します。シナリオによっては、これらの結合は最大1000倍高速化される可能性があります。

この最適化は、ルックアップによって最初に多くの潜在的な一致が生成される可能性がある「拡張結合」を処理する場合に重要です。フィルターをインテリジェントにプッシュダウンすることで、関連するデータのみが処理され、クエリ実行時間が大幅に短縮され、膨大なデータセットでのリアルタイム分析が可能になります。つまり、非常に大規模または複雑な結合操作の場合でも、はるかに速く洞察を得ることができます。

Lookup Joinクラスター横断検索（CCS）の互換性：

8.19および9.1でLookup Joinが一般公開となった際、クロスクラスター検索（CCS）のサポートはありませんでした。複数のクラスターにまたがって運用している組織のため、LOOKUP JOINは9.2でCCSとシームレスに統合されるようになりました。ルックアップインデックスを結合したいすべてのリモートクラスターに配置するだけで、ES|QLは自動的にこれらのリモートルックアップインデックスを活用して、リモートデータと結合します。これにより、分散データ分析が簡素化され、Elasticsearch展開全体で一貫したエンリッチメントが保証されます。

これらの改善により、多様なデータセットを前例のない精度、速度、そして容易さで関連付けることができ、複雑な回避策や前処理のステップなしに、より深く、実用的な洞察を明らかにすることができます。

データを簡単に充実化：ルックアップインデックスのためのKibana Discoverユーザーエクスペリエンス

データのエンリッチメントはハードルではなく、シンプルであるべきです。KibanaのDiscoverに、ルックアップインデックスの作成と管理のための素晴らしい新しいユーザーエクスペリエンスを導入しました。

直感的なワークフロー：Discoverの包括的なオートコンプリートがES|QLエディターでルックアップインデックスや結合フィールドを提案するため、アップロードされたデータを既存のインデックスと驚くほど簡単に結びつけることができます。存在しないルックアップインデックスの名前を入力し、ワンクリックでルックアップエディターに直接アクセスしてインデックスを作成できます。既存の検索インデックスの名前を入力すると、編集オプションを提案します。

インライン管理（CRUD）： Discoverで直接、参照データセットをインライン編集機能（作成、読み取り、更新、削除）で最新の状態に保ちます。

簡単なファイルアップロード：CSVなどのファイルをDiscover内で直接アップロードし、 LOOKUP JOINですぐに使用できるようになりました。Kibanaのさまざまなエリアにジャンプしてコンテキストを切り替える必要はもうありません！

ユーザーIDを名前にマッピングしたり、ビジネスメタデータを追加したり、静的参照ファイルを結合したりする際、この特徴はデータのエンリッチメントを民主化し、結合のパワーをすべてのユーザーの手元に直接、迅速かつシンプルに、そして一箇所で提供します。

コンテキストの保持：INLINE STATSのご紹介（テクニカルプレビュー）

データの集約は重要ですが、時には集約を元のデータと並べて見る必要があることもあります。INLINE STATSをテクニカルプレビュー機能としてご紹介できることを嬉しく思います。

入力フィールドを集約された出力に置き換えるSTATSコマンドとは異なり、 INLINE STATS元の入力フィールドをすべて保持し、新しい集約されたフィールドを追加します。これにより、集計後に元の入力フィールドに対してさらに操作を実行できるようになり、より継続的で柔軟な分析ワークフローが実現します。

例えば、個々のフライトの行を保持しながら平均飛行距離を計算する場合：

FROM kibana_sample_data_flights
 | KEEP Carrier, Dest, DistanceMiles
 | INLINE STATS avgDist = ROUND(AVG(DistanceMiles))
       BY Dest
 | WHERE DistanceMiles > avgDist

このクエリでは、avgDistが各行に対応するDest(ination)と共に追加され、さらに、フライト情報の列が残っているため、平均を超える距離のフライトに結果をフィルタリングできます。

ES|QL における時系列サポート (技術プレビュー)

Elasticsearchは、メトリックを格納するために時系列データストリームを使用します。TSソースコマンドを通じて、ES|QLの時系列集計のサポートを追加しています。これは、Elastic Cloud Serverlessと9.2 basicでテクニカルプレビューとして利用できます。

時系列分析は主に、1つ以上のフィルタリングディメンションでスライスされた時間バケット全体のメトリック値を要約する集計クエリに基づいています。ほとんどの集計クエリは、(a) 時系列ごとに値を集計する内部集計関数と、(b) 時系列全体で (a) の結果を結合する外部集計関数という2段階の処理に依存しています。

TSソースコマンドをSTATSと組み合わせると、時系列にわたるこのようなクエリを簡潔かつ効果的に表現できるようになります。より具体的には、ホストおよび時間あたりのリクエストの合計レートを計算する次の例を考えてみましょう。

TS my_metrics
| WHERE @timestamp > NOW() - 1 day
| STATS SUM(RATE(requests))
      BY host, TBUCKET(1h)

この場合、時系列アグリゲーション関数 RATE はまず時系列と時間ごとに評価されます。生成された部分集計は、 SUMを使用して結合され、ホストおよび時間ごとの最終的な集計値が計算されます。

利用可能な時系列集計関数のリストはこちらで確認できます。カウンターを処理するための最も重要な集計関数のcounterレートがサポートされるようになりました。

TSソースコマンドはSTATSと組み合わせて使用するように設計されており、時系列集計を効率的にサポートするように実行が調整されています。例えば、データはSTATSに入る前にソートされます。処理コマンド（FORKやINLINE STATSなど）によって時系列データを強化または変更したり、その順序を変更したりすることは、現在TSとSTATSの間で許可されていません。この制限は将来解除される可能性があります。

STATS表形式の出力は、適用可能なコマンドを使用してさらに処理できます。例えば、以下のクエリは、ホストごとの平均の cpu_usage と時間の比率とホストごとの最大値の比率を計算します。

TS my_metrics
| STATS avg_usage = AVG(AVG_OVER_TIME(cpu_usage))
      BY host, time_bucket = TBUCKET(1h)
| INLINE STATS max_avg_usage = MAX(avg_usage)
      BY host
| EVAL ratio = avg_usage / max_avg_usage
| KEEP host, time_bucket, ratio
| SORT host, time_bucket DESC

時系列データは、Luceneドキュメント値を利用した基盤となる列指向ストレージエンジンに保存されます。TSコマンドは、ES|QLコンピュートエンジンを介してベクトル化されたクエリの実行を追加します。クエリパフォーマンスは、同等のDSLクエリと比較して、しばしば1桁以上の向上が見られ、確立されたメトリクス固有のシステムと同等になります。今後、詳細なアーキテクチャおよびパフォーマンス分析も提供する予定ですので、どうぞご期待ください。

ツールキットの拡張：新しい ES|QL関数

文字列操作：INCLUDES、MV_CONTAINS、URL_ENCODE、 URL_ENCODE_COMPONENT、URL_DECODEが追加され、より堅牢なテキストおよびURL処理を実現します。

時系列と地理空間:柔軟な時間バケツ処理のためのTBUCKET 、ベクトル演算のための TO_DENSE_VECTOR、高度な位置ベースの分析のためのST_GEOHASH 、 ST_GEOTILE 、 ST_GEOHEX 、 TO_GEOHASH 、 TO_GEOTILE 、 TO_GEOHEXなどの包括的な地理空間関数のセット。

日付のフォーマット：DAY_NAME、MONTH_NAMEは、より読みやすい日付表現のために使用されます。

これらの関数には、ES|QL内で直接データを操作および分析するための豊富なツールセットが用意されています。

内部の改善：パフォーマンスと効率性の向上

注目の機能以外にも、Elasticsearch 9.2にはES|QL全体にわたる数多くのパフォーマンス最適化が含まれています。関数が複数の類似したRLIKEクエリを置き換える場合に、プッシュダウンを使用してRLIKE (LIST) を高速化しました。RLIKE (LIST) を使用すると、これらのクエリを1つのオートマトンに結合し、複数ではなく1つのオートマトンを適用できます。また、インデックスの並べ替えによるキーワードフィールドの読み込みが高速化され、クエリ全般が最適化されました。これらの改善により、ES|QLクエリがこれまで以上に効率的に実行されるようになります。

今すぐ始めましょう！

Elasticsearch 9.2は、ES|QLを大きく飛躍させ、データ分析ワークフローにかつてないパワーと柔軟性をもたらします。ぜひこれらの新機能を試して、その違いを体験してください。

Elasticsearch 9.2のすべての変更点と機能強化の包括的なリストについては、公式リリースノートを参照してください。楽しいクエリングを!

GitHubのイシューをElasticsearchでクエリするChatGPTコネクターの構築

Tomás Murúa — Mon, 01 Dec 2025 00:00:00 GMT

最近、OpenAIはPro/Business/EnterpriseおよびEduプラン向けにChatGPT向けのカスタムコネクター機能を発表しました。これは、Gmail、GitHub、Dropboxなどのデータを活用するためのすぐに使えるコネクターへの追加となります。MCPサーバーを使用してカスタムコネクターを作成できます。

カスタムコネクターを使用すると、既存のChatGPTコネクターをElasticsearchなどの追加のデータソースと組み合わせて、包括的な回答を得ることができます。

この記事では、内部のGitHubの課題とプルリクエストに関する情報を含むElasticsearchインデックスにChatGPTを接続するMCPサーバーを構築します。これにより、Elasticsearchデータを使用して自然言語クエリに回答できるようになります。

Google ColabのFastMCPとngrokを使ってMCPサーバーをデプロイし、ChatGPTが接続できる公開URLを取得し、複雑なインフラ構築の必要性を排除します。

MCPとそのエコシステムの包括的な概要については、MCPの現在の状態をご参照ください。

要件

始める前に必要なものは次のとおりです。

Elasticsearchクラスター（8.X以降）
インデックスへの読み取りアクセス権を持つ Elasticsearch APIキー
Googleアカウント（Google Colab用）
Ngrokアカウント（無料プランでも可）
Pro/Enterprise/BusinessまたはEduプランのChatGPTアカウント

ChatGPT MCPコネクターの要件を理解する

ChatGPT MCPコネクターには、searchとfetchの2つのツールを実装する必要があります。詳細については、OpenAIドキュメントをご覧ください。

検索ツール

ユーザークエリに基づいて、Elasticsearchインデックスから関連する結果のリストを返します。

受け取るもの：

ユーザーの自然言語クエリを含む単一の文字列。
例：「Elasticsearch移行に関連するイシューを見つけて」

返されるもの：

結果オブジェクトの配列を含むresultキーを持つオブジェクト。各結果には以下が含まれます。
- id - 一意の文書識別子
- title - イシューまたはPRタイトル
- url - イシュー/PRへのリンク

実装内容：

return {
    "results": [
        {
            "id": "PR-612",
            "title": "Fix memory leak in WebSocket notification service",
            "url": "https://internal-git.techcorp.com/pulls/612"
        },
        # ... more results
    ]
}

フェッチ・ツール

特定の文書の完全な内容を取得します。

受け取るもの：

検索結果からElasticsearch文書IDを入力する単一の文字列
例：「PR-578の詳細を教えてください。」

返されるもの：

以下を含む完全な文書オブジェクト：
- id - 一意の文書識別子
- title - イシューまたはPRタイトル
- text - 完全なイシュー・PRの説明と詳細
- url - イシュー/PRへのリンク
- type - 文書の種類（issue, pull_request）
- status - 現在のステータス（open, in_progress, resolved）
- priority - 優先度レベル（low, medium, high, critical）
- assignee - イシュー/PRの担当者
- created_date - 作成された時期
- resolved_date - 解決された時期（該当する場合）
- labels 文書に関連するタグ
- related_pr - 関連するプルリクエストID

return {
    "id": "PR-578",
    "title": "Security hotfix: Patch SQL injection vulnerabilities",
    "text": "Description: CRITICAL SECURITY FIX for ISSUE-1889. Patches SQL...",
    "url": "https://internal-git.techcorp.com/pulls/578",
    "type": "pull_request",
    "status": "closed",
    "priority": "critical",
    "assignee": "sarah_dev",
    "created_date": "2025-09-19",
    "resolved_date": "2025-09-19",
    "labels": "security, hotfix, sql",
    "related_pr": null
}

注：この例では、すべてのフィールドがルートレベルにあるフラット構造を使用しています。OpenAIの要件は柔軟で、ネストされたメタデータオブジェクトもサポートしています。

GitHubのデータセットとプルリクエストデータセット

このチュートリアルでは、イシューとプルリクエストを含む内部GitHubデータセットを使用します。これは、ChatGPTを通じてプライベートな内部データをクエリするシナリオを表しています。

データセットはこちらからご覧いただけます。そして、Bulk APIを使ってデータのインデックスを更新します。

このデータセットには以下が含まれます。

説明、ステータス、優先順位、担当者に関する問題
コード変更、レビュー、導入情報を含むプルリクエスト
イシューとPRの関係（例：PR-578がISSUE-1889を修正）
ラベル、日付、その他のメタデータ

インデックスマッピング

インデックスは、ELSERとのハイブリッド検索をサポートするために以下のマッピングを使用します。text_semanticはセマンティック検索に使用され、他のフィールドはキーワード検索を可能にします。

{
  "mappings": {
    "properties": {
      "id": {
        "type": "keyword"
      },
      "title": {
        "type": "text"
      },
      "text": {
        "type": "text"
      },
      "text_semantic": {
        "type": "semantic_text",
        "inference_id": ".elser-2-elasticsearch"
      },
      "url": {
        "type": "keyword"
      },
      "type": {
        "type": "keyword"
      },
      "status": {
        "type": "keyword"
      },
      "priority": {
        "type": "keyword"
      },
      "assignee": {
        "type": "keyword"
      },
      "created_date": {
        "type": "date",
        "format": "iso8601"
      },
      "resolved_date": {
        "type": "date",
        "format": "iso8601"
      },
      "labels": {
        "type": "keyword"
      },
      "related_pr": {
        "type": "keyword"
      }
    }
  }
}

MCPサーバーを構築する

当社のMCPサーバーは、OpenAI仕様に従って2つのツールを実装しています。ハイブリッド検索を使用してセマンティックマッチングとテキストマッチングを組み合わせることで、より良い結果が得られます。

検索ツール

RRF（相互ランク融合）を用いたハイブリッド検索を使用し、セマンティック検索とテキストマッチングを組み合わせています。

@mcp.tool()
    async def search(query: str) -> Dict[str, List[Dict[str, Any]]]:
        """
        Search for internal issues and PRs using hybrid search (semantic + text with RRF).
        Returns list with id, title, and url per OpenAI spec.
        """
        if not query or not query.strip():
            return {"results": []}

        logger.info(f"Searching for: '{query}'")

        try:
            # Hybrid search with RRF (Reciprocal Rank Fusion)
            response = es_client.search(
                index=ELASTICSEARCH_INDEX,
                size=10,
                source=["id", "title", "url", "type", "priority"],
                retriever={
                    "rrf": {
                        "retrievers": [
                            {
                                # Semantic search with ELSER
                                "standard": {
                                    "query": {
                                        "semantic": {
                                            "field": "text_semantic",
                                            "query": query
                                        }
                                    }
                                }
                            },
                            {
                                # Text search (BM25) for keyword matching
                                "standard": {
                                    "query": {
                                        "multi_match": {
                                            "query": query,
                                            "fields": [
                                                "title^3",
                                                "text^2",
                                                "assignee^2",
                                                "type",
                                                "labels",
                                                "priority"
                                            ],
                                            "type": "best_fields",
                                            "fuzziness": "AUTO"
                                        }
                                    }
                                }
                            }
                        ],
                        "rank_window_size": 50,
                        "rank_constant": 60
                    }
                }
            )

            results = []
            if response and 'hits' in response:
                for hit in response['hits']['hits']:
                    source = hit['_source']
                    results.append({
                        "id": source.get('id', hit['_id']),
                        "title": source.get('title', 'Unknown'),
                        "url": source.get('url', '')
                    })

            logger.info(f"Found {len(results)} results")
            return {"results": results}

        except Exception as e:
            logger.error(f"Search error: {e}")
            raise ValueError(f"Search failed: {str(e)}")

主なポイント：

RRFを用いたハイブリッド検索： より良い結果を得るために、セマンティック検索（ELSER）とテキスト検索（BM25）を組み合わせます。
複数一致クエリ：ブースティングを使用して複数のフィールドを検索します（title^3, text^2, assignee^2）。キャレット記号（^）は関連性スコアを乗算し、コンテンツよりもタイトルの一致を優先します。
あいまい一致： fuzziness: AUTO は近似一致を許可することでタイプミスやスペルミスを処理します。
RRFのパラメーター調整：
- rank_window_size: 50 - マージする前に、各リトリーバー（セマンティックとテキスト）からの上位結果をいくつ考慮するかを指定します。
- rank_constant: 60 - この値は、個々の結果セット内の文書が最終的なランク付け結果にどの程度影響を与えるかを決定します。
必須フィールドのみを返す： id、title、urlはOpenAIの仕様に従い、追加のフィールドを不必要に公開しないようにします。

フェッチ・ツール

文書IDが存在する場合は、そのIDで文書の詳細を取得します。

@mcp.tool()
    async def fetch(id: str) -> Dict[str, Any]:
        """
        Retrieve complete issue/PR details by ID.
        Returns id, title, text, url.
        """
        if not id:
            raise ValueError("ID is required")

        logger.info(f"Fetching: {id}")

        try:
            # Search by the 'id' field (not _id) since IDs are stored as a field
            response = es_client.search(
                index=ELASTICSEARCH_INDEX,
                body={
                    "query": {
                        "term": {
                            "id": id  # Search by your custom 'id' field
                        }
                    },
                    "size": 1
                }
            )

            if not response or not response['hits']['hits']:
                raise ValueError(f"Document with id '{id}' not found")

            hit = response['hits']['hits'][0]
            source = hit['_source']

            result = {
                "id": source.get('id', id),
                "title": source.get('title', 'Unknown'),
                "text": source.get('text', ''),
                "url": source.get('url', ''),
                "type": source.get('type', ''),
                "status": source.get('status', ''),
                "priority": source.get('priority', ''),
                "assignee": source.get('assignee', ''),
                "created_date": source.get('created_date', ''),
                "resolved_date": source.get('resolved_date', ''),
                "labels": source.get('labels', ''),
                "related_pr": source.get('related_pr', '')
            }

            logger.info(f"Fetched: {result['title']}")
            return result

        except Exception as e:
            logger.error(f"Fetch error: {e}")
            raise ValueError(f"Failed to fetch '{id}': {str(e)}")

主なポイント：

文書IDのフィールドで検索：カスタム idフィールドに用語クエリを使用します
完全な文書を返す： すべてのコンテンツを含む完全なtextフィールドが含まれます
フラットな構造：すべてのフィールドがルートレベルにあり、Elasticsearchのドキュメント構造に一致します。

Google Colabにデプロイする

Google Colabを使用してMCPサーバーを実行し、ngrokで公開することで、ChatGPTが接続できるようにします。

ステップ1：Google Colabノートブックを開く

事前設定されたノートブックElasticsearch MCP for ChatGPTにアクセスします。

ステップ2：認証情報を設定する

次の3つの情報が必要になります。

Elasticsearch URL：お客様のElasticsearchクラスタリングURL。
Elasticsearch API キー：インデックスへの読み取りアクセス権を持つAPIキー。
Ngrok認証トークン：ngrokからの無料トークン。ngrokを使ってMCPのURLをインターネットに公開し、ChatGPTが接続できるようにします。

ngrokトークンの取得

ngrokで無料アカウントに登録します。
ngrokダッシュボードにアクセスします。
認証トークンをコピーします。

Google Colabにシークレットを追加する

Google Colabノートブック内で：

左側のサイドバーにあるキーアイコンをクリックして、シークレットを開きます。
次の3つのシークレットを追加します。

ELASTICSEARCH_URL=https://your-cluster.elastic.com:443
ELASTICSEARCH_API_KEY=your-api-key
NGROK_TOKEN=your-ngrok-token

3. 各シークレットのノートブックアクセスを有効にします。

ステップ3：ノートブックを実行する

ランタイムをクリックし、次にすべて実行をクリックして、すべてのセルを実行します。
サーバーの起動を待ちます（約30秒）。
公開ngrok URLを示す出力を探します。

4. 出力は次のようになります。

ChatGPTに接続する

次に、MCPサーバーをあなたのChatGPTアカウントに接続します。

ChatGPTを開き、設定に移動します。
コネクターに移動します。Proアカウントを使用している場合は、コネクタで開発者モードをオンにする必要があります。

ChatGPT EnterpriseまたはBusinessを使用している場合は、コネクターを職場に公開する必要があります。

3. 作成をクリックします。

注：Business、Enterprise、Eduワークスペースでは、ワークスペースの所有者、管理者、およびそれぞれの設定が有効になっているユーザー（Enterprise/Eduの場合）のみがカスタムコネクターを追加できます。通常のメンバーロールのユーザーには、自分でカスタムコネクターを追加する権限がありません。

コネクターが所有者または管理者ユーザーによって追加され有効化されると、ワークスペースのすべてのメンバーが使用できるようになります。

4. 必要な情報と、/sse/で終わるngrokのURLを入力します。「sse」の後の「/」に注意してください。これがない場合、動作しません。

Name: Elasticsearch MCP
Description: GitHubの内部情報を検索および取得するためのカスタムMCP。

5. 作成を押してカスタムMCPを保存します。

サーバーが稼働していれば、接続は瞬時に完了します。追加の認証は不要で、Elasticsearch APIキーはサーバー上で設定されています。

MCPサーバーをテストする

質問する前に、ChatGPTが使用するコネクターを選択する必要があります。

プロンプト1：イシューを検索する

「Elasticsearchの移行に関連するイシューを見つけて」と質問し、アクションツールの呼び出しを確認します。

ChatGPT はクエリを使用してsearchツールを呼び出します。利用可能なツールを検索し、Elasticsearchツールを呼び出す準備をし、ツールに対して何らかのアクションを実行する前にユーザーに確認していることがわかります。

ツール呼び出しリクエスト：

{
  "query": "Elasticsearch migration issues"
}

ツールの応答：

{
  "results": [
    {
      "id": "PR-598",
      "title": "Elasticsearch 8.x migration - Application code changes",
      "url": "https://internal-git.techcorp.com/pulls/598"
    },
    {
      "id": "ISSUE-1712",
      "title": "Migrate from Elasticsearch 7.x to 8.x",
      "url": "https://internal-git.techcorp.com/issues/1712"
    },
    {
      "id": "RFC-045",
      "title": "Design Proposal: Microservices Migration Architecture",
      "url": "https://internal-git.techcorp.com/rfcs/045"
    }
    // ... 7 more results
  ]
}

ChatGPTは結果を処理し、自然で会話的な形式で提示します。

仕組み

プロンプト：「Elasticsearch移行に関連するイシューを見つけて」

1. ChatGPTの呼び出し search(“Elasticsearch migration”)

2. Elasticsearchがハイブリッド検索を実行する

セマンティック検索は「アップグレード」や「バージョン互換性」などの概念を理解します。
テキスト検索で「Elasticsearch」と「migration」の完全一致を見つけます。
RRFは両方のアプローチの結果を組み合わせてランク付けします。

3. id、titleを含むトップ10のマッチングイベントを返します。 url

4. ChatGPTは「ISSUE-1712: migrate from Elasticsearch 7.x to 8.x」を最も関連性の高い結果として特定します。

プロンプト2：完全な詳細を取得する

質問：「ISSUE-1889の詳細を教えて」

ChatGPTは、あなたが特定のイシューに関する詳細な情報を求めていることを認識し、fetchツールを呼び出し、ツールに対して何らかのアクションを起こす前にユーザーに確認します。

ツール呼び出しリクエスト：

{
  "id": "ISSUE-1889"
}

ツールの応答：

{
  "id": "ISSUE-1889",
  "title": "SQL injection vulnerability in search endpoint",
  "text": "Description: Security audit identified SQL injection vulnerability in /api/v1/search endpoint. User input from query parameter is not properly sanitized before being used in raw SQL query. Severity: HIGH - Immediate action required Affected Code: - File: services/search/query_builder.py - Line: 145-152 - Issue: String concatenation used instead of parameterized queries Investigation: - @security_team_alice: Confirmed exploitable with UNION-based injection - @sarah_dev: Checking all other endpoints for similar patterns - @john_backend: Found 3 more instances in legacy codebase Remediation: - Rewrite using SQLAlchemy ORM or parameterized queries - Add input validation and sanitization - Implement WAF rules as additional layer - Security regression tests Comments: - @tech_lead_mike: Stop all other work, this is P0 - @sarah_dev: PR-578 ready with fixes for all 4 vulnerable endpoints - @alex_devops: Deployed hotfix to production 2025-09-19 at 14:30 UTC - @security_team_alice: Verified fix, conducting full pentest next week Resolution: All vulnerable endpoints patched. Added pre-commit hooks to catch raw SQL queries. Security training scheduled for team.",
  "url": "https://internal-git.techcorp.com/issues/1889",
  "type": "issue",
  "status": "closed",
  "priority": "critical",
  "assignee": "sarah_dev",
  "created_date": "2025-09-18",
  "resolved_date": "2025-09-19",
  "labels": "security, vulnerability, bug, sql",
  "related_pr": "PR-578"
}

ChatGPTは情報を統合し、明確に提示します。

仕組み

プロンプト：「ISSUE-1889の詳細を教えて」

ChatGPT呼び出し fetch(“ISSUE-1889”)
Elasticsearchが完全な文書を取得する
すべてのフィールドがルートレベルにある完全な文書を返す
ChatGPTは情報を統合し、適切な引用で回答する

まとめ

この記事では、専用の検索およびフェッチMCPツールを使用してChatGPTをElasticsearchに接続するカスタムMCPサーバーを構築し、プライベートデータに対する自然言語クエリを可能にしました。

このMCPパターンは、自然言語を使用してクエリしたい任意のElasticsearchインデックス、ドキュメント、製品、ログ、またはその他のデータで機能します。

LangChainとElasticsearchを使用したエージェントRAGアシスタントの開発

Kirti Sodhi — Fri, 28 Nov 2025 00:00:00 GMT

このブログ記事では、エージェント RAG ワークフローについて詳しく説明し、その主な機能と一般的な設計パターンについて説明します。さらに、Elasticsearch をベクターストアとして使用し、LangChain を使用してエージェント RAG フレームワークを構築する実践的な例を通じて、これらのワークフローを実装する方法を示します。最後に、この記事では、このようなアーキテクチャの設計と実装に関連するベストプラクティスと課題について簡単に説明します。このJupyter ノートブックに従って、シンプルなエージェント RAG パイプラインを作成できます。

エージェントRAGの紹介

検索拡張生成 ( RAG ) は LLM ベースのアプリケーションの基礎となり、モデルがユーザーのクエリに基づいて関連するコンテキストを取得することで最適な回答を提供できるようになりました。RAG システムは、事前にトレーニングされた LLM 知識に限定されるのではなく、API またはデータストアからの外部情報を利用することで、LLM 応答の精度とコンテキストを強化します。一方、AI エージェントは自律的に動作し、指定された目的を達成するために意思決定とアクションを実行します。

Agentic RAG は、検索強化生成とエージェント推論の両方の長所を統合したフレームワークです。RAG をエージェントの意思決定プロセスに統合することで、システムはデータソースを動的に選択し、クエリを改良してコンテキスト検索を改善し、より正確な応答を生成し、フィードバックループを適用して出力品質を継続的に向上できるようになります。

エージェントRAGの主な特徴

エージェント RAG フレームワークは、従来の RAG システムに比べて大きな進歩を遂げています。固定された検索プロセスに従うのではなく、結果をリアルタイムで計画、実行、最適化できる動的エージェントを活用します。

エージェント RAG パイプラインを区別する主な機能のいくつかを見てみましょう。

動的な意思決定: Agentic RAG は推論メカニズムを使用してユーザーの意図を理解し、各クエリを最も関連性の高いデータソースにルーティングして、正確でコンテキストに応じた応答を生成します。
包括的なクエリ分析: Agentic RAG は、サブ質問とその全体的な意図を含むユーザークエリを詳細に分析します。クエリの複雑さを評価し、最も関連性の高いデータソースを動的に選択して情報を取得し、正確で完全な応答を保証します。
多段階コラボレーション: このフレームワークは、専門エージェントのネットワークを通じて多段階コラボレーションを可能にします。各エージェントは、より大きな目標の特定の部分を担当し、一貫した結果を達成するために順次または同時に作業します。
自己評価メカニズム: エージェント RAG パイプラインは、自己反映を使用して、取得したドキュメントと生成された応答を評価します。取得した情報がクエリに完全に対応しているかどうかを確認し、出力の正確性、完全性、事実の一貫性を確認できます。
外部ツールとの統合: このワークフローは、外部 API、データベース、リアルタイム情報ソースと対話して、最新の情報を取り込み、進化するデータに動的に適応できます。

エージェントRAGのワークフローパターン

ワークフローパターンは、エージェント AI が LLM ベースのアプリケーションを信頼性と効率性をもって構築、管理、調整する方法を定義します。LangChain 、 LangGraph 、 CrewAI 、 LlamaIndexなどのいくつかのフレームワークとプラットフォームを使用して、これらのエージェントワークフローを実装できます。

順次取得チェーン: 順次ワークフローは、複雑なタスクを単純な順序付けられたステップに分割します。各ステップで次のステップの入力が改善され、より良い結果が得られます。たとえば、顧客プロファイルを作成する場合、1 人のエージェントが CRM から基本的な詳細を取得し、別のエージェントがトランザクションデータベースから購入履歴を取得し、最後のエージェントがこの情報を組み合わせて推奨事項やレポート用の完全なプロファイルを生成します。
ルーティング取得チェーン: このワークフローパターンでは、ルーターエージェントが入力を分析し、最も適切なプロセスまたはデータソースに送信します。このアプローチは、重複が最小限で複数の異なるデータソースが存在する場合に特に効果的です。たとえば、顧客サービスシステムでは、ルータエージェントが技術的な問題、払い戻し、苦情などの受信リクエストを分類し、適切な部門にルーティングして効率的に処理します。
並列検索チェーン: このワークフローパターンでは、複数の独立したサブタスクが同時に実行され、それらの出力が後で集約されて最終的な応答が生成されます。このアプローチにより、処理時間が大幅に短縮され、ワークフローの効率が向上します。たとえば、顧客サービスの並列ワークフローでは、1 人のエージェントが過去の同様のリクエストを取得し、別のエージェントが関連するナレッジベースの記事を参照します。アグリゲータはこれらの出力を組み合わせて包括的な解決策を生成します。
オーケストレーターワーカーチェーン: このワークフローは、独立したサブタスクを利用するため、並列化と類似点があります。ただし、重要な違いはオーケストレーターエージェントの統合にあります。このエージェントは、ユーザークエリを分析し、実行時にそれらをサブタスクに動的に分割し、正確な応答を作成するために必要な適切なプロセスまたはツールを識別する役割を担います。

エージェントRAGパイプラインをゼロから構築する

エージェント RAG の原理を説明するために、LangChain と Elasticsearch を使用してワークフローを設計してみましょう。このワークフローはルーティングベースのアーキテクチャを採用しており、複数のエージェントが連携してクエリを分析し、関連情報を取得し、結果を評価し、一貫した応答を生成します。この例に従うには、このJupyter ノートブックを参照してください。

ワークフローはルータエージェントから開始され、ルータエージェントはユーザーのクエリを分析して最適な取得方法 ( vectorstore 、 websearch 、またはcompositeのいずれかのアプローチ) を選択します。ベクターストアは従来の RAG ベースのドキュメント検索を処理し、Web 検索はベクターストアに保存されていない最新の情報を取得し、複合アプローチは複数のソースからの情報が必要な場合に両方を組み合わせます。

ドキュメントが適切であると判断された場合、要約エージェントは明確で文脈に適した応答を生成します。ただし、ドキュメントが不十分または無関係な場合、クエリ書き換えエージェントはクエリを再作成して検索を改善します。この修正されたクエリによりルーティングプロセスが再開され、システムは検索を絞り込み、最終出力を強化できるようになります。

要件

このワークフローは、例を効果的に実行するために次のコアコンポーネントに依存しています。

Python 3.10
Jupyterノートブック
Azure OpenAI
Elasticsearch
LangChain

続行する前に、この例に必要な次の環境変数のセットを構成するように求められます。

AZURE_OPENAI_ENDPOINT="Add your azure openai endpoint"
AZURE_OPENAI_KEY="Add your azure openai key"
AZURE_OPENAI_DEPLOYMENT="gpt-4.1"
AZURE_OPENAI_API_VERSION="Add your azure openai api version"

ES_ENDPOINT = "Add your Elasticsearch ENDPOINT"
ES_API_KEY = "Add your Elasticsearch API KEY"

データソース

このワークフローは、AG ニュースデータセットのサブセットを使用して説明されています。このデータセットは、国際、スポーツ、ビジネス、科学技術など、さまざまなカテゴリのニュース記事で構成されています。

dataset = load_dataset("ag_news", split="train[:1000]")
docs = [
    Document(
        page_content=sample["text"],
        metadata={"category": sample["label"]}
    )
    for sample in dataset
]

ElasticsearchStore モジュールは、 langchain_elasticsearchからベクターストアとして利用されます。検索には、Elastic 独自の埋め込みモデルであるELSERを採用した SparseVectorStrategy を実装します。ベクターストアを開始する前に、ELSER モデルが Elasticsearch 環境に正しくインストールされ、デプロイされていることを確認することが重要です。

elastic_vectorstore = ElasticsearchStore.from_documents(
    docs,
    es_url=ES_ENDPOINT,
    es_api_key=ES_API_KEY,
    index_name=index_name,
    strategy=SparseVectorStrategy(model_id=".elser_model_2"),
)

elastic_vectorstore.client.indices.refresh(index=index_name)

Web 検索機能は、LangChain コミュニティツールのDuckDuckGoSearchRunを使用して実装されており、これによりシステムは Web からライブ情報を効率的に取得できます。より関連性の高い結果を提供できる他の検索 API の使用も検討できます。このツールは、API キーを必要とせずに検索できるため選択されました。

duckduckgo = DuckDuckGoSearchRun(description= "A custom DuckDuckGo search tool for finding latest news stories.", verbose=True)
def websearch_retriever(query):
    results = duckduckgo.run(f"{query}")
    return results

複合リトリーバーは、ソースの組み合わせを必要とするクエリ用に設計されています。これは、Web からリアルタイムデータを取得すると同時に、ベクターストアから過去のニュースを参照することで、包括的かつ文脈的に正確な応答を提供するために使用されます。

def composite_retriever(query):
    related_docs = vectorstore_retriever(query)
    related_docs += websearch_retriever(query)
    return related_docs

エージェントの設定

次のステップでは、このワークフロー内で推論および意思決定機能を提供する LLM エージェントが定義されます。作成する LLM チェーンには、 router_chain 、 grade_docs_chain 、 rewrite_query_chain 、 summary_chainが含まれます。

ルータエージェントは LLM アシスタントを使用して、実行時に特定のクエリに最適なデータソースを決定します。グレーディングエージェントは、取得したドキュメントの関連性を評価します。ドキュメントが関連していると判断された場合、それらは要約エージェントに渡され、要約が生成されます。それ以外の場合、書き換えクエリエージェントはクエリを再作成し、別の取得を試行するためにルーティングプロセスに送り返します。すべてのエージェントの手順は、ノートブックの LLM チェーンセクションに記載されています。

class RouteQuery(BaseModel):
    datasource: Literal["vectorstore", "websearch", "composite"] = Field(
        ...,
        description="Choose to route the query to web search, vectorstore or composite."
    )

router_prompt = ChatPromptTemplate.from_template("""You are an assistant that decides the best data source for questions based on news articles.
Choose one of the following options:
- 'vectorstore': for general, background, or historical news articles.
- 'websearch': for recent discoveries, 'latest', 'current', or '2025' type queries.
- 'composite': when the question needs both historical and current knowledge on news articles.

Question: {query}

Return one word: 'vectorstore', 'websearch', or 'composite'.
""")
router_structured = llm.with_structured_output(RouteQuery)
router_chain: RunnableSequence = router_prompt | router_structured

llm.with_structured_outputは、モデルの出力をRouteQueryクラスの BaseModel によって定義された定義済みスキーマに従うように制限し、結果の一貫性を保証します。2 行目は、 router_promptとrouter_structuredを接続してRunnableSequenceを構成し、入力プロンプトが言語モデルによって処理され、構造化されたスキーマ準拠の結果が生成されるパイプラインを形成します。

グラフノードを定義する

この部分では、システムのさまざまなコンポーネント間を流れるデータを表すグラフの状態を定義します。これらの状態を明確に指定することで、ワークフロー内の各ノードがアクセスおよび更新できる情報を確実に認識できるようになります。

class RAGState(TypedDict):
    query: str
    docs: List[Document]
    router: str
    summary: str
    self_reflection: bool
    retry_count: int = 0

状態が定義されたら、次のステップはグラフのノードを定義することです。ノードは、データに対して特定の操作を実行するグラフの機能単位のようなものです。パイプラインには 7 つの異なるノードがあります。

def router(state: RAGState):
   router = router_chain.invoke({'query': state["query"]})
   logger.info(f"Router selected the datasource: {router.datasource}")
   logger.info(f"User query: {state['query']}")
   return {"router": router.datasource}

def vectorstore(state: RAGState):
   return {"docs": vectorstore_retriever(state["query"])}

def websearch(state: RAGState):
   return {"docs": websearch_retriever(state["query"])}

def composite(state: RAGState):
   return {"docs": composite_retriever(state["query"])}

def self_reflection(state: RAGState):
   evaluation = grade_docs_chain.invoke(
       {"query": state["query"], "docs": state["docs"]}
   )
   if evaluation.binary_score:
       logger.info(f"Self-reflection passed -- binary_score={evaluation.binary_score}")
   else:
       logger.info(f"Self-reflection failed -- binary_score={evaluation.binary_score}")

   return {
       "self_reflection": evaluation.binary_score,
   }

def query_rewriter(state: RAGState):
   retry_count = state.get("retry_count", 0) + 1
   new_query = rewrite_query_chain.invoke({"query": state["query"]})
   logger.info(f"Query rewritten: {new_query}, retry_count: {retry_count}")
   return {
       "query": new_query,
       "retry_count": retry_count,
   }

def summarize(state: RAGState):
   summary = summarize_chain.run(
       query=state["query"],
       docs=state["docs"],
   )
   return {"summary": summary}

query_rewriterノードはワークフロー内で 2 つの目的を果たします。まず、自己反省エージェントによって評価された文書が不十分または無関係であると判断された場合に、 rewrite_query_chainを使用してユーザークエリを書き換え、検索を改善します。2 番目に、クエリが書き換えられた回数を追跡するカウンターとして機能します。

ノードが呼び出されるたびに、ワークフロー状態に格納されているretry_countが増加します。このメカニズムにより、ワークフローが無限ループに陥るのを防ぎます。retry_countが事前定義されたしきい値を超えた場合、システムはエラー状態、デフォルトの応答、または選択したその他の定義済み条件にフォールバックできます。

グラフのコンパイル

最後のステップは、グラフのエッジを定義し、コンパイルする前に必要な条件を追加することです。すべてのグラフは、ワークフローのエントリポイントとして機能する指定された開始ノードから開始する必要があります。グラフ内のエッジはノード間のデータの流れを表し、次の 2 つのタイプがあります。

直線エッジ: 1 つのノードから別のノードへの直接的で無条件のフローを定義します。最初のノードがタスクを完了すると、ワークフローは直線に沿って次のノードに自動的に進みます。
条件付きエッジ: これにより、現在の状態またはノードの計算結果に基づいてワークフローを分岐できます。次のノードは、評価結果、ルーティングの決定、再試行回数などの条件に応じて動的に選択されます。

graph.add_edge(START, "router")

def after_router(state: RAGState):
   route = state.get("router", None)
   if route == "vectorstore":
       return "vectorstore"
   elif route == "websearch":
       return "websearch"
   else:
       return "composite"

def after_self_reflection(state: RAGState):
   if state["self_reflection"]:
           return "summarize"
   return "query_rewriter"

def after_query_rewriter(state: RAGState):
   while state['retry_count'] <= 3:
           return "router"
   raise RuntimeError("Maximum retries (3) reached -- evaluation failed.")

graph.add_conditional_edges(
   "router",
   after_router,
   {
       "vectorstore": "vectorstore",
       "websearch": "websearch",
       "composite": "composite"
   }
)

graph.add_edge("vectorstore", "self_reflection")
graph.add_edge("websearch", "self_reflection")
graph.add_edge("composite", "self_reflection")
graph.add_conditional_edges(
   "self_reflection",
   after_self_reflection,
   {
       "summarize": "summarize",
       "query_rewriter": "query_rewriter"
   }
)
graph.add_conditional_edges("query_rewriter", after_query_rewriter, {"router": "router"})
graph.add_edge("summarize", END)
agent=graph.compile()

これで、最初のエージェント RAG パイプラインの準備が整い、コンパイルされたエージェントを使用してテストできるようになります。

result = agent.invoke({"query": query1})
logger.info(f"\nFinal Summary:\n: {result['summary']}")

エージェントRAGパイプラインのテスト

次に、以下の 3 つの異なるタイプのクエリを使用してこのパイプラインをテストします。結果は異なる場合があり、以下に示す例は潜在的な結果の 1 つを示しているにすぎないことに注意してください。

query1="What are the latest AI models released this month?"
query2="What technological innovations are discussed in Sci/Tech news?"
query3="Compare a Sci/Tech article from the dataset with a current web article about AI trends."

最初のクエリでは、ルータはデータソースとしてwebsearchを選択します。クエリは自己反映評価に失敗し、出力に示されているように、その後クエリ書き換えステージにリダイレクトされます。

INFO     | __main__:router:11 - Router selected the datasource: websearch
INFO     | __main__:router:12 - User query: What are the latest AI models released this month?
Latest Singapore news, including the city state's relationships with Malaysia and Mahathir, China and Xi Jinping, and the rest of Southeast Asia. 3 days ago · The latest military news, insights and analysis from China. All the latest news, opinions and analysis on Hong Kong, China, Asia and around the world Latest news, in-depth features and opinion on Malaysia, covering politics, economy, society and the Asean member-nation's relationships with China, Singapore, and other Southeast Asian ... Oct 12, 2025 · Brics (an acronym for Brazil, Russia, India, China and South Africa) refers to an association of 10 leading emerging markets. The other member states are Egypt, Ethiopia, ...
INFO     | __main__:self_reflection:31 - Self-reflection failed -- binary_score=False
INFO     | __main__:query_rewriter:40 - Query rewritten: query='Which AI models have been officially released in June 2024?', retry_count: 1
INFO     | __main__:router:11 - Router selected the datasource: websearch
INFO     | __main__:router:12 - User query: query='Which AI models have been officially released in June 2024?'
Dream Machine is a text-to-video model created by Luma Labs and launched in June 2024 . It generates video output based on user prompts or still images. Dream Machine has been noted for its ability to realistically capture motion... Released in June 2023. In June 2024 , Baidu announced Ernie 4.0 Turbo. In April 2025, Ernie 4.5 Turbo and X1 Turbo were released . These models are optimized for faster response times and lower operational costs.[28][29]. The meaning of QUERY is question, inquiry. How to use query in a sentence. Synonym Discussion of Query. QUERY definition: 1. a question, often expressing doubt about something or looking for an answer from an authority.... Learn more. Query definition: a question; an inquiry.. See examples of QUERY used in a sentence.
INFO     | __main__:self_reflection:29 - Self-reflection passed -- binary_score=True
INFO     | __main__::2 - 
Final Summary:
: In June 2024, two AI models were officially released: Dream Machine, a text-to-video model launched by Luma Labs, and Ernie 4.0 Turbo, announced by Baidu, which is optimized for faster response times and lower operational costs.

次に、2 番目のクエリで示されているように、 vectorstore検索が使用される例を調べます。

INFO     | __main__:router:11 - Router selected the datasource: vectorstore
INFO     | __main__:router:12 - User query: What technological innovations are discussed in Sci/Tech news?
INFO     | __main__:self_reflection:29 - Self-reflection passed -- binary_score=True
INFO     | __main__::2 - 
Final Summary:
: Recent Sci/Tech news highlights several technological innovations: NASA is collaborating with Silicon Valley firms to build a powerful Linux-based supercomputer to support theoretical research and shuttle engineering; new chromatin transfer techniques have enabled the cloning of cats; cybersecurity advancements are being discussed in relation to protecting personal technology; Princeton University scientists assert that existing technologies can be used immediately to stabilize global warming; and a set of GameBoy micro-games has been recognized for innovation in game design.

最後のクエリは、ベクターストアと Web 検索の両方を活用する複合検索に向けられます。

INFO     | __main__:router:11 - Router selected the datasource: composite
INFO     | __main__:router:12 - User query: Compare a Sci/Tech article from the dataset with a current web article about AI trends.
Atlas currently only available on macOS, built on Chromium with planned features like ad-blocking still in development. OpenAI's Atlas browser launched with bold promises of AI -powered web browsing, but early real-world testing reveals a different story. Career-long data are updated to end-of-2024 and single recent year data pertain to citations received during calendar year 2024. The selection is based on the top 100,000 scientists by c-score (with and without self-citations) or a percentile rank of 2% or above in the sub-field. In this article I list 45 AI tools across 21 different categories. After exploring all the available options in each category, I've carefully selected the best tools based on my personal experience. Reading a complex technical article ? Simply highlight confusing terminology and ask "what's this?" to receive instant explanations. compare browsers. Comparison showing traditional browser navigation versus OpenAI Atlas AI -powered workflows. After putting Gemini, ChatGPT, Grok, and DeepSeek through rigorous testing in October 2025, it's clear that there isn't one AI that reigns supreme across all categories.
INFO     | __main__:self_reflection:29 - Self-reflection passed -- binary_score=True
INFO     | __main__::2 - 
Final Summary:
: A Sci/Tech article from the dataset highlights NASA's development of robust artificial intelligence software for planetary rovers, aiming to make them more self-reliant and capable of decision-making during missions. In contrast, a current web article about AI trends focuses on the proliferation of AI-powered tools across various categories, including browsers like OpenAI Atlas, and compares leading models such as Gemini, ChatGPT, Grok, and DeepSeek, noting that no single AI currently excels in all areas. While the NASA article emphasizes specialized AI applications for autonomous robotics in space exploration, the current trends article showcases the broadening impact of AI across consumer and professional technologies, with ongoing competition and rapid innovation among major AI platforms.

上記のワークフローでは、エージェント RAG は、ユーザークエリの情報を取得するときに使用するデータソースをインテリジェントに決定し、応答の精度と関連性を向上させます。追加の例を作成してエージェントをテストし、出力を確認して興味深い結果が得られるかどうかを確認できます。

エージェント型 RAG ワークフローを構築するためのベストプラクティス

エージェント RAG の仕組みがわかったので、次にこれらのワークフローを構築するためのベストプラクティスをいくつか見てみましょう。これらのガイドラインに従うことで、システムを効率的に維持し、保守を容易にすることができます。

フォールバックの準備: ワークフローのいずれかのステップが失敗するシナリオに備えて、事前にフォールバック戦略を計画します。これらには、デフォルトの回答を返すこと、エラー状態をトリガーすること、代替ツールを使用することなどが含まれます。これにより、全体的なワークフローを中断することなく、システムが障害を適切に処理できるようになります。
包括的なログ記録を実装する: 再試行、生成された出力、ルーティングの選択、クエリの書き換えなど、ワークフローの各段階でログ記録を実装してみます。これらのログは、透明性の向上、デバッグの容易化、プロンプト、エージェントの動作、および取得戦略の継続的な改善に役立ちます。
適切なワークフローパターンを選択する: ユースケースを調べて、ニーズに最適なワークフローパターンを選択します。ステップごとの推論には順次ワークフローを使用し、独立したデータソースには並列ワークフローを使用し、複数のツールや複雑なクエリにはオーケストレーターワーカーパターンを使用します。
評価戦略を組み込む: ワークフローのさまざまな段階で評価メカニズムを統合します。これらには、自己反省エージェント、取得したドキュメントの採点、自動品質チェックなどが含まれます。評価は、取得されたドキュメントが関連性があり、応答が正確であり、複雑なクエリのすべての部分が処理されていることを確認するのに役立ちます。

課題

エージェント RAG システムは、適応性、精度、動的推論の点で大きな利点を提供しますが、設計および実装の段階で対処する必要がある特定の課題も伴います。主な課題は次のとおりです。

複雑なワークフロー: エージェントと決定ポイントが追加されるにつれて、全体的なワークフローはますます複雑になります。これにより、実行時にエラーや障害が発生する可能性が高くなります。可能な限り、冗長なエージェントと不要な意思決定ポイントを排除して、合理化されたワークフローを優先します。
スケーラビリティ: 大規模なデータセットと大量のクエリを処理するためにエージェント RAG システムを拡張するのは難しい場合があります。効率的なインデックス作成、キャッシュ、分散処理戦略を組み込んで、大規模なパフォーマンスを維持します。
オーケストレーションと計算オーバーヘッド: 複数のエージェントによるワークフローの実行には、高度なオーケストレーションが必要です。これには、ボトルネックや競合を防ぐための慎重なスケジュール設定、依存関係の管理、エージェントの調整が含まれますが、これらはすべてシステム全体の複雑さを増大させます。
評価の複雑さ: これらのワークフローの評価には、各段階で異なる評価戦略が必要になるため、固有の課題が伴います。たとえば、RAG ステージでは、取得したドキュメントの関連性と完全性を評価する必要があり、生成された要約については品質と正確性をチェックする必要があります。同様に、クエリの再定式化の有効性には、書き換えられたクエリによって検索結果が改善されるかどうかを判断するための別の評価ロジックが必要です。

まとめ

このブログ投稿では、エージェント RAG の概念を紹介し、エージェント AI の自律機能を組み込むことで従来の RAG フレームワークをどのように強化するかについて説明しました。私たちは、エージェント RAG のコア機能を探り、Elasticsearch をベクターストアとして使用し、LangChain を使用してエージェントフレームワークを作成するニュースアシスタントを構築するという実践的な例を通じて、これらの機能を実演しました。

さらに、エージェント RAG パイプラインを設計および実装する際に考慮すべきベストプラクティスと主な課題についても説明しました。これらの洞察は、検索、推論、意思決定を効果的に組み合わせた、堅牢でスケーラブルかつ効率的なエージェントシステムを開発者が作成できるようにするためのものです。

次のステップ

私たちが構築したワークフローはシンプルで、改善と実験の余地が十分にあります。さまざまな埋め込みモデルを試し、検索戦略を改良することで、これを強化できます。さらに、検索されたドキュメントに優先順位を付ける再ランク付けエージェントを統合すると有益となる可能性があります。もう一つの調査領域は、エージェントフレームワークの評価戦略の開発、具体的にはさまざまな種類のフレームワークに適用可能な共通かつ再利用可能なアプローチの特定です。最後に、これらのフレームワークを大規模でより複雑なデータセットで実験します。

その間、同様の実験を共有していただける場合は、ぜひお聞かせください。お気軽にフィードバックをお寄せください。また、コミュニティの Slack チャンネルやディスカッションフォーラムを通じてご連絡いただくこともできます。

各種資料

面倒な手間を省いたハイブリッド検索：リトリーバーによるハイブリッド検索の簡素化

Mike Pellegrini — Thu, 27 Nov 2025 00:00:00 GMT

ハイブリッド検索は、語彙検索の精度と速度とセマンティック検索の自然言語機能を組み合わせた強力な検索アプローチとして広く認識されています。ただし、実際に適用するのは難しい場合があり、インデックスに関する深い知識と、単純ではない構成での詳細なクエリの構築が必要になることがよくあります。このブログでは、リニアリトリーバーと RRF リトリーバーのマルチフィールドクエリ形式によってハイブリッド検索がよりシンプルで使いやすくなり、よくある問題点が解消され、より簡単にその全機能を活用できるようになる方法について説明します。また、マルチフィールドクエリ形式を使用すると、インデックスに関する事前の知識がなくてもハイブリッド検索クエリを実行できる方法についても説明します。

スコア範囲の問題

まず最初に、ハイブリッド検索が困難になる主な理由の 1 つである、スコア範囲の多様性について確認しましょう。私たちの古い友人BM25は無制限のスコアを生成します。言い換えれば、BM25 は 0 に近い値から (理論的には) 無限大までの範囲のスコアを生成できます。対照的に、 dense_vectorフィールドに対するクエリでは、0 から 1 の範囲のスコアが生成されます。この問題をさらに悪化させるのは、 semantic_text埋め込みのインデックス作成に使用されるフィールドタイプが難読化されるため、インデックスと推論エンドポイントの構成に関する詳細な知識がない限り、クエリのスコアの範囲がどうなるかを判断するのが難しい場合があることです。これは、語彙検索結果と意味検索結果をインターリーブしようとするときに、意味検索結果の関連性が高い場合でも、語彙検索結果が意味検索結果よりも優先される可能性があるため、問題が発生します。この問題に対する一般的に受け入れられている解決策は、結果をインターリーブする前にスコアを正規化することです。Elasticsearch には、これを実行するためのツールとして、線形リトリーバーとRRFリトリーバーの 2 つがあります。

RRFリトリーバーは、ドキュメントのランクを関連性の尺度として使用し、スコアを破棄して、 RRF アルゴリズムを適用します。スコアは考慮されないため、スコア範囲の不一致は問題になりません。

線形リトリーバーは線形結合を使用してドキュメントの最終スコアを決定します。これには、ドキュメントの各コンポーネントクエリのスコアを取得し、それを正規化し、合計して合計スコアを生成することが含まれます。数学的には、この操作は次のように表現できます。

Total Score = 𝚺(N(Sx))

ここで、 Nは正規化関数であり、SX はクエリ X のスコアです。ここで重要なのは正規化関数です。正規化関数は各クエリのスコアを同じ範囲を使用するように変換します。リニアリトリーバーの詳細については、こちらをご覧ください。

詳しく見てみる

ユーザーはこれらのツールを使用して効果的なハイブリッド検索を実装できますが、インデックスに関するある程度の知識が必要です。線形リトリーバーを使用して、2 つのフィールドを持つインデックスをクエリする例を見てみましょう。

PUT linear_retriever_example
{
  "mappings": {
    "properties": {
      "semantic_text_field": { <1>
        "type": "semantic_text",
        "inference_id": ".multilingual-e5-small-elasticsearch"
      },
      "text_field": { <2>
        "type": "text"
      }
    }
  }
}

1. semantic_text_fieldは、テキスト埋め込みモデルであるE5を使用するsemantic_textフィールドです。

2. text_fieldは標準のtextフィールドです

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "retrievers": [
        {
          "retriever": {
            "standard": {
              "query": {
                "match": { <1>
                  "semantic_text_field": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        },
        {
          "retriever": {
            "standard": {
              "query": {
                "match": {
                  "text_field": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        }
      ]
    }
  }
}

1. Elasticsearch 8.18/9.0でサポートされたsemantic_textフィールドでmatchクエリを使用します。

クエリを構築するときは、 semantic_text_fieldテキスト埋め込みモデルを使用するため、このクエリでは 0 から 1 の間のスコアが生成されることに留意する必要があります。また、 text_fieldは標準のtextフィールドであるため、これに対するクエリによって無制限のスコアが生成されることも知っておく必要があります。適切な関連性を持つ結果セットを作成するには、クエリスコアを結合する前に正規化するリトリーバーを使用する必要があります。この例では、 minmax正規化を備えた線形リトリーバーを使用して、各クエリのスコアを 0 から 1 の間の値に正規化します。

この例のクエリ構築は、関係するフィールドが 2 つだけなので、非常に簡単です。ただし、さまざまなタイプのフィールドが追加されると、すぐに複雑になる可能性があります。これは、効果的なハイブリッド検索クエリを記述するには、クエリ対象のインデックスに関するより深い知識が必要になることが多く、組み合わせる前にコンポーネントクエリスコアが適切に正規化される必要があることを示しています。これは、ハイブリッド検索のより広範な導入の障害となります。

クエリのグループ化

例を拡張してみましょう。1 つのtextフィールドと 2 つのsemantic_textフィールドをクエリしたい場合はどうなるでしょうか。次のようなクエリを作成できます。

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "retrievers": [
        {
          "retriever": {
            "standard": {
              "query": {
                "semantic": {
                  "field": "semantic_text_field_1",
                  "query": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        },
        {
          "retriever": {
            "standard": {
              "query": {
                "semantic": {
                  "field": "semantic_text_field_2",
                  "query": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        },
        {
          "retriever": {
            "standard": {
              "query": {
                "match": {
                  "text_field": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        }
      ]
    }
  }
}

表面的には良さそうですが、潜在的な問題があります。これで、 semantic_textフィールドの一致が合計スコアの 2/3 を占めることになります。

Total Score = N(semantic_text_field_1 score) + N(semantic_text_field_2 score) + N(text_field score)

これは、不均衡なスコアを作成するため、おそらく望ましい結果ではありません。この例のようにフィールドが 3 つしかない場合、影響はそれほど顕著ではないかもしれませんが、より多くのフィールドをクエリすると問題が生じます。例えば、ほとんどの索引には意味フィールド（つまりdense_vector 、 sparse_vector 、またはsemantic_text )。上記のパターンを使用して、9 つの語彙フィールドと 1 つの意味フィールドを持つインデックスをクエリするとどうなるでしょうか?語彙の一致がスコアの 90% を占めることになり、意味検索の有効性が鈍ってしまいます。

これに対処する一般的な方法は、クエリを語彙と意味のカテゴリにグループ化し、その 2 つに均等に重み付けすることです。これにより、どちらかのカテゴリーが合計スコアを支配することが防止されます。

それを実践してみましょう。この例では、線形リトリーバーを使用する場合、グループ化されたクエリのアプローチはどのようになるでしょうか?

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "retrievers": [
        {
          "retriever": {
            "linear": {
              "retrievers": [
                {
                  "retriever": {
                    "standard": {
                      "query": {
                        "semantic": {
                          "field": "semantic_text_field_1",
                          "query": "foo"
                        }
                      }
                    }
                  },
                  "normalizer": "minmax"
                },
                {
                  "retriever": {
                    "standard": {
                      "query": {
                        "semantic": {
                          "field": "semantic_text_field_2",
                          "query": "foo"
                        }
                      }
                    }
                  },
                  "normalizer": "minmax"
                }
              ]
            }
          },
          "normalizer": "minmax"
        },
        {
          "retriever": {
            "standard": {
              "query": {
                "match": {
                  "text_field": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        }
      ]
    }
  }
}

うわー、これは冗長になってきましたね!クエリ全体を確認するには、上下に何度もスクロールする必要があったかもしれません。ここでは、2 つのレベルの正規化を使用してクエリグループを作成します。数学的には次のように表現できます。

Total Score = N(N(semantic_text_field_1 score) + N(semantic_text_field_2 score)) + N(text_field score)

この 2 番目のレベルの正規化により、 semantic_textフィールドとtextフィールドに対するクエリが均等に重み付けされるようになります。この例では、語彙フィールドが 1 つしかないため、 text_fieldの 2 番目のレベルの正規化を省略し、冗長性をさらに軽減していることに注意してください。

このクエリ構造はすでに扱いにくく、クエリするフィールドは 3 つだけです。より多くのフィールドをクエリするにつれて、熟練した検索実践者にとっても管理がますます困難になります。

複数フィールドのクエリ形式

これらすべてを簡素化するために、Elasticsearch 8.19、9.1、サーバーレスの線形および RRF リトリーバーにマルチフィールドクエリ形式を追加しました。次のようにするだけで、上記と同じクエリを実行できます。

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "fields": [ "semantic_text_field_1", "semantic_text_field_2", "text_field" ],
      "query": "foo",
      "normalizer": "minmax"
    }
  }
}

これにより、クエリが 55 行から 9 行に短縮されます。Elasticsearch はインデックスマッピングを自動的に使用して次の処理を実行します。

クエリされた各フィールドのタイプを決定する
各フィールドを語彙または意味のカテゴリにグループ化します
最終スコアでは各カテゴリーを均等に重み付けする

これにより、使用されるインデックスや推論エンドポイントの詳細を知らなくても、誰でも効果的なハイブリッド検索クエリを実行できるようになります。

RRF を使用する場合、ランクは関連性の代理として使用されるため、 normalizerを省略できます。

GET rrf_retriever_example/_search
{
  "retriever": {
    "rrf": {
      "fields": [ "semantic_text_field_1", "semantic_text_field_2", "text_field" ],
      "query": "foo"
    }
  }
}

フィールドごとのブースティング

リニアリトリーバーを使用する場合、フィールドごとにブーストを適用して、特定のフィールドでの一致の重要度を調整できます。たとえば、2 つのsemantic_textフィールドと 2 つのtextフィールドの 4 つのフィールドをクエリするとします。

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "fields": [ "semantic_text_field_1", "semantic_text_field_2", "text_field_1", "text_field_2" ],
      "query": "foo",
      "normalizer": "minmax"
    }
  }
}

デフォルトでは、各フィールドはグループ内（語彙または意味）で均等に重み付けされます。スコアの内訳は次のようになります。

つまり、各フィールドは合計スコアの 25% を占めます。

field^boost構文を使用して、任意のフィールドにフィールドごとのブーストを追加できます。semantic_text_field_1とtext_field_1に2のブーストを適用してみましょう。

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "fields": [ "semantic_text_field_1^2", "semantic_text_field_2", "text_field_1^2", "text_field_2" ]
      "query": "foo",
      "normalizer": "minmax"
    }
  }
}

スコアの内訳は次のようになります。

各クエリグループの重みは均等ですが、グループ内のフィールドの重みは次のように変更されました。

semantic_text_field_1 セマンティッククエリグループスコアの66％、合計スコアの33％
text_field_1 語彙質問グループスコアの66％、総スコアの33％

ℹ️ フィールドごとのブーストを適用しても、合計スコアの範囲は変更されないことに注意してください。これはスコア正規化の意図された副作用であり、語彙クエリスコアと意味クエリスコアが互いに直接比較可能のままになることを保証します。

ℹ️ フィールドごとのブースティングは、Elasticsearch 9.2 以降の RRF リトリーバーでも使用できます。

ワイルドカード解決

複数のフィールドを一致させるには、 fieldsパラメータで*ワイルドカードを使用できます。上記の例を続けると、このクエリは機能的にはemantic_text_field_1 、 semantic_text_field_2 、 text_field_1明示的にクエリすることと同等です。

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "fields": [ "semantic_text_field_*", "*_field_1" ],
      "query": "foo",
      "normalizer": "minmax"
    }
  }
}

興味深いことに、 *_field_1パターンはtext_field_1とsemantic_text_field_1の両方に一致します。これは自動的に処理され、各フィールドが明示的にクエリされたかのようにクエリが実行されます。semantic_text_field_1が両方のパターンに一致することも問題ありません。すべてのフィールド名の一致は、クエリの実行前に重複が排除されます。

ワイルドカードはさまざまな方法で使用できます。

プレフィックス一致（例： *_text_field ）
インラインマッチング（例： semantic_*_field ）
サフィックス一致（例： semantic_text_field_* ）

*_text_field_*のように、複数のワイルドカードを使用して上記の組み合わせを適用することもできます。

デフォルトのクエリフィールド

マルチフィールドクエリ形式を使用すると、何も知らないインデックスをクエリすることもできます。fieldsパラメータを省略すると、 index.query.default_field インデックス設定で指定されたすべてのフィールドがクエリされます。

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "query": "foo",
      "normalizer": "minmax"
    }
  }
}

デフォルトでは、 index.query.default_fieldは*に設定されています。このワイルドカードは、用語クエリをサポートするインデックス内のすべてのフィールドタイプ (ほとんど) に解決されます。例外は次のとおりです:

dense_vector フィールド
rank_vector フィールド
ジオメトリフィールド: geo_point 、 shape

この機能は、サードパーティが提供するインデックスに対してハイブリッド検索クエリを実行する場合に特に便利です。マルチフィールドクエリ形式を使用すると、適切なクエリを簡単な方法で実行できます。fieldsパラメータを除外するだけで、該当するすべてのフィールドが照会されます。

まとめ

スコア範囲の問題により、特にクエリ対象のインデックスや使用中の推論エンドポイントに関する情報が限られている場合、効果的なハイブリッド検索の実装が困難になる可能性があります。リニアリトリーバーと RRF リトリーバーのマルチフィールドクエリ形式では、自動化されたクエリグループ化ベースのハイブリッド検索アプローチをシンプルで使いやすい API にパッケージ化することで、この煩わしさを軽減します。フィールドごとのブースト、ワイルドカード解決、デフォルトのクエリフィールドなどの追加機能により、機能が拡張され、多くのユースケースをカバーできます。

今すぐマルチフィールドクエリ形式をお試しください

無料トライアルでは、完全に管理された Elasticsearch Serverless プロジェクトで、マルチフィールドクエリ形式を使用した線形リトリーバーと RRF リトリーバーを試すことができます。8.19 および 9.1 以降のスタックバージョンでも利用できます。

1 つのコマンドでローカル環境で数分以内に開始できます。

curl -fsSL https://elastic.co/start-local | sh

Elastic Agent Builder と GPT-OSS を使用した HR 向け AI エージェントの構築

Tomás Murúa — Wed, 26 Nov 2025 00:00:00 GMT

はじめに

この記事では、GPT-OSSと Elastic Agent Builder を使用して HR 向けの AI エージェントを構築する方法を説明します。エージェントは、OpenAI、Anthropic、その他の外部サービスにデータを送信せずに質問に答えることができます。

LM Studio を使用して GPT-OSS をローカルで提供し、Elastic Agent Builder に接続します。

この記事を読み終える頃には、情報とモデルを完全に制御しながら、従業員データに関する自然言語の質問に答えることができるカスタム AI エージェントが完成しているはずです。

要件

この記事には以下が必要です:

Elastic Cloudホスト 9.2、サーバーレスまたはローカル展開
32GB RAM搭載マシンを推奨（GPT-OSS 20Bの場合は最低16GB）
LM Studioがインストール済み
Dockerデスクトップがインストール済み

GPT-OSS を使用する理由は何ですか?

ローカル LLM を使用すると、独自のインフラストラクチャに LLM を展開し、独自のニーズに合わせて微調整することができます。モデルと共有するデータの制御を維持しながら、これらすべてを実行できます。もちろん、外部プロバイダーにライセンス料を支払う必要はありません。

OpenAI は、オープンモデルエコシステムへの取り組みの一環として、2025 年 8 月 5 日にGPT-OSS をリリースしました。

20B パラメータモデルは以下を提供します。

ツール使用能力
効率的な推論
OpenAI SDK対応
エージェントワークフローと互換性あり

ベンチマーク比較:

ソリューションアーキテクチャ

アーキテクチャは完全にローカルマシン上で実行されます。Elastic (Docker で実行) は LM Studio を介してローカル LLM と直接通信し、Elastic Agent Builder はこの接続を使用して従業員データを照会できるカスタム AI エージェントを作成します。

詳細については、こちらのドキュメントを参照してください。

HR向けAIエージェントの構築：手順

実装は 5 つのステップに分けられます。

ローカルモデルでLMスタジオを構成する
DockerでローカルElasticをデプロイする
ElasticでOpenAIコネクタを作成する
従業員データをElasticsearchにアップロードする
AIエージェントを構築してテストする

ステップ1：LM StudioをGPT-OSS 20Bで構成する

LM Studio は、大規模な言語モデルをコンピュータ上でローカルに実行できるユーザーフレンドリーなアプリケーションです。OpenAI 互換の API サーバーを提供するため、複雑なセットアッププロセスなしで Elastic などのツールと簡単に統合できます。詳細については、 LM Studio ドキュメントを参照してください。

まず、公式サイトからLM Studioをダウンロードしてインストールします。インストールしたら、アプリケーションを開きます。

LM Studio インターフェースの場合:

検索タブに移動して「GPT-OSS」を検索します。
OpenAIからopenai/gpt-oss-20bを選択してください
ダウンロードをクリック

このモデルのサイズは約12.10 GBになります。インターネット接続によっては、ダウンロードに数分かかる場合があります。

モデルをダウンロードしたら:

ローカルサーバータブに移動します
openai/gpt-oss-20bを選択します
デフォルトのポート1234を使用する
右側のパネルで、 「ロード」に移動し、コンテキストの長さを40K以上に設定します。

5. サーバーの開始をクリック

サーバーが実行中の場合はこれが表示されます。

[LM STUDIO SERVER] Success! HTTP server listening on port 1234
[LM STUDIO SERVER] Supported endpoints:
[LM STUDIO SERVER] ->	GET  http://localhost:1234/v1/models
[LM STUDIO SERVER] ->	POST http://localhost:1234/v1/responses
[LM STUDIO SERVER] ->	POST http://localhost:1234/v1/chat/completions
[LM STUDIO SERVER] ->	POST http://localhost:1234/v1/completions
[LM STUDIO SERVER] ->	POST http://localhost:1234/v1/embeddings
Server started.

ステップ2: DockerでローカルElasticをデプロイする

ここで、Docker を使用して Elasticsearch と Kibana をローカルにセットアップします。Elastic は、セットアッププロセス全体を処理する便利なスクリプトを提供します。詳細については、公式ドキュメントを参照してください。

start-local スクリプトを実行する

ターミナルで次のコマンドを実行します。

curl -fsSL https://elastic.co/start-local | sh

このスクリプトは次のことを行います。

ElasticsearchとKibanaをダウンロードして設定する
Docker Composeを使用して両方のサービスを開始します
30日間のプラチナトライアルライセンスを自動的に有効化

期待される出力

次のメッセージが表示されるまで待ち、表示されるパスワードと API キーを保存します。これらは Kibana にアクセスするために必要になります。

🎉 Congrats, Elasticsearch and Kibana are installed and running in Docker!
🌐 Open your browser at http://localhost:5601
   Username: elastic
   Password: KSUlOMNr
🔌 Elasticsearch API endpoint: http://localhost:9200
🔑 API key: cnJGX0pwb0JhOG00cmNJVklUNXg6cnNJdXZWMnM4bncwMllpQlFlUTlWdw==
Learn more at https://github.com/elastic/start-local

Kibanaにアクセスする

ブラウザを開いて次の場所に移動します:

http://localhost:5601

ターミナル出力で取得した資格情報を使用してログインします。

エージェントビルダーを有効にする

Kibana にログインしたら、 [Management] > [AI] > [Agent Builder]に移動して、Agent Builder をアクティブ化します。

ステップ3: ElasticでOpenAIコネクタを作成する

ここで、ローカル LLM を使用するように Elastic を構成します。

アクセスコネクタ

キバナで
プロジェクト設定>管理に移動します
アラートとインサイトの下で、コネクタを選択します。
コネクタの作成をクリック

コネクタを構成する

コネクタのリストからOpenAI を選択します。LM Studio は OpenAI SDK を使用しているため、互換性があります。

次の値をフィールドに入力します。

コネクタ名: LM Studio - GPT-OSS 20B
OpenAIプロバイダーを選択:その他 (OpenAI互換サービス)
URL: http://host.docker.internal:1234/v1/chat/completions
デフォルトモデル: openai/gpt-oss-20b
API キー: testkey-123 (LM Studio Server では認証が不要なので、任意のテキストを使用できます。)

設定を完了するには、 「保存してテスト」をクリックします。

重要: 「ネイティブ関数の呼び出しを有効にする」をオンにします。これは、Agent Builder が正しく動作するために必要です。これを有効にしないと、 No tool calls found in the responseエラーが発生します。

接続をテストする

Elastic は自動的に接続をテストするはずです。すべてが正しく構成されている場合、次のような成功メッセージが表示されます。

対応：

{
  "status": "ok",
  "data": {
    "id": "chatcmpl-flj9h0hy4wcx4bfson00an",
    "object": "chat.completion",
    "created": 1761189456,
    "model": "openai/gpt-oss-20b",
    "choices": [
      {
        "index": 0,
        "message": {
          "role": "assistant",
          "content": "Hello! 👋 How can I assist you today?",
          "reasoning": "Just greet.",
          "tool_calls": []
        },
        "logprobs": null,
        "finish_reason": "stop"
      }
    ],
    "usage": {
      "prompt_tokens": 69,
      "completion_tokens": 23,
      "total_tokens": 92
    },
    "stats": {},
    "system_fingerprint": "openai/gpt-oss-20b"
  },
  "actionId": "ee1c3aaf-bad0-4ada-8149-118f52dad757"
}

ステップ4: 従業員データをElasticsearchにアップロードする

ここで、 HR 従業員データセットをアップロードして、エージェントが機密データをどのように処理するかを説明します。私はこの構造を持つ架空のデータセットを生成しました。

データセットの構造

{
  "employee_id": "0f4dce68-2a09-4cb1-b2af-6bcb4821539b",
  "full_name": "Daffi Stiebler",
  "email": "lscutchings0@huffingtonpost.com",
  "date_of_birth": "1975-06-20T15:39:36Z",
  "hire_date": "2025-07-28T00:10:45Z",
  "job_title": "Physical Therapy Assistant",
  "department": "HR",
  "salary": "108455",
  "performance_rating": "Needs Improvement",
  "years_of_experience": 2,
  "skills": "Java",
  "education_level": "Master's Degree",
  "manager": "Carl MacGibbon",
  "emergency_contact": "Leigha Scutchings",
  "home_address": "5571 6th Park"
}

マッピングを使用してインデックスを作成する

まず、適切なマッピングを使用してインデックスを作成します。一部のキーフィールドにsemantic_textフィールドを使用していることに注意してください。これにより、インデックスのセマンティック検索機能が有効になります。

PUT hr-employees
{
  "mappings": {
    "properties": {
      "@timestamp": {
        "type": "date"
      },
      "employee_id": {
        "type": "keyword"
      },
      "full_name": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "email": {
        "type": "keyword"
      },
      "date_of_birth": {
        "type": "date",
        "format": "iso8601"
      },
      "hire_date": {
        "type": "date",
        "format": "iso8601"
      },
      "job_title": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "department": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "salary": {
        "type": "double"
      },
      "performance_rating": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "years_of_experience": {
        "type": "long"
      },
      "skills": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "education_level": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "manager": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "emergency_contact": {
        "type": "keyword"
      },
      "home_address": {
        "type": "keyword"
      },
      "employee_semantic": {
        "type": "semantic_text"
      }
    }
  }
}

Bulk APIを使用したインデックス

データセットをコピーして Kibana の開発ツールに貼り付け、実行します。

POST hr-employees/_bulk
{"index": {}}
{"employee_id": "57728b91-e5d7-4fa8-954a-2384040d3886", "full_name": "Filide Gane", "email": "vhallahan1@booking.com", "job_title": "Business Systems Development Analyst", "department": "Marketing", "salary": "$52330.27", "performance_rating": "Meets Expectations", "years_of_experience": 12, "skills": "Java", "education_level": "Bachelor's Degree", "date_of_birth": "2000-02-07T16:49:32Z", "hire_date": "2023-11-07T13:03:16Z", "manager": "Freedman Kings", "emergency_contact": "Vilhelmina Hallahan", "home_address": "75 Dennis Junction"}
{"index": {}}
{"employee_id": "...", ...}

データを検証する

クエリを実行して確認します。

GET hr-employees/_search

ステップ5: AIエージェントを構築してテストする

すべての設定が完了したら、Elastic Agent Builder を使用してカスタム AI エージェントを構築します。詳細については、 Elastic のドキュメントを参照してください。

コネクタを追加する

新しいエージェントを作成する前に、デフォルトのコネクタはElastic Managed LLMであるため、 LM Studio - GPT-OSS 20Bというカスタムコネクタを使用するようにエージェントビルダーを設定する必要があります。そのためには、 「プロジェクト設定」 > 「管理」 > 「GenAI 設定」に移動し、作成した設定を選択して「保存」をクリックします。

アクセスエージェントビルダー

エージェントへ
「新しいエージェントを作成」をクリックします

エージェントを構成する

新しいエージェントを作成するには、エージェント ID 、表示名、および表示手順が必須フィールドです。

ただし、システムプロンプトに似ていますが、カスタムエージェント用の、エージェントの動作やツールとの対話方法をガイドするカスタムインストラクションなど、さらに多くのカスタマイズオプションがあります。ラベルは、エージェント、アバターの色、アバターシンボルを整理するのに役立ちます。

データセットに基づいてエージェント用に選択したものは次のとおりです。

エージェントID: hr_assistant

カスタム指示:

You are an HR Analytics Assistant that helps answer questions about employee data.
When responding to queries:
- Provide clear, concise answers
- Include relevant employee details (name, department, salary, skills)
- Format monetary values with currency symbols
- Be professional and maintain data confidentiality

ラベル: Human Resourcesおよび GPT-OSS

表示名： HR Analytics Assistant

表示の説明:

A specialized AI assistant for Human Resources that helps analyze employee data, compensation, performance metrics, and talent management. Ask questions about employees, departments, salaries, or performance analytics.

すべてのデータが入力されたら、新しいエージェントの「保存」をクリックします。

エージェントをテストする

従業員データについて自然言語で質問できるようになり、GPT-OSS 20B が意図を理解して適切な応答を生成します。

プロンプト：

Which employee is the one with the highest salary in the hr-employees index?

答え：

エージェントのプロセスは次のとおりです。

1. GPT-OSSコネクタを使用して質問を理解する

2. 適切なElasticsearchクエリを生成する（組み込みツールまたはカスタムES|QLを使用）

3. 一致する従業員レコードを取得する

4. 適切なフォーマットで自然言語で結果を提示する

従来の語彙検索とは異なり、GPT-OSS を搭載したエージェントは意図とコンテキストを理解するため、正確なフィールド名やクエリ構文を知らなくても情報を簡単に見つけることができます。エージェントの思考プロセスの詳細については、こちらの記事を参照してください。

まとめ

この記事では、Elastic の Agent Builder を使用してカスタム AI エージェントを構築し、ローカルで実行されている OpenAI GPT-OSS モデルに接続しました。このアーキテクチャでは、Elastic と LLM の両方をローカルマシンにデプロイすることで、外部サービスに情報を送信することなく、データに対する完全な制御を維持しながら生成 AI 機能を活用できます。

実験としてはGPT-OSS 20Bを使用しましたが、Elastic Agent Builderの公式推奨モデルはこちらを参考にしています。より高度な推論機能が必要な場合は、複雑なシナリオでより優れたパフォーマンスを発揮する120B パラメータバリアントもありますが、ローカルで実行するにはより高性能なマシンが必要です。詳細については、 OpenAI の公式ドキュメントを参照してください。

Cal Hacks 12.0 で取り上げた Elastic Agent Builder のトッププロジェクトと学習内容

JD Armada — Tue, 25 Nov 2025 00:00:00 GMT

Watch video on YouTube

数週間前、私たちは、世界中から 2,000 人を超える参加者が集まる最大規模の対面ハッカソンの 1 つであるCal Hacks 12.0 をスポンサーするという素晴らしい機会を得ました。Elastic Agent Builder on Serverless の最も優れた活用方法に専用の賞品トラックを設けましたが、反響は驚くほど大きかったです。わずか 36 時間で、山火事インテリジェンスツールの構築から StackOverflow バリデーターまで、Agent Builder を独創的な方法で使用した 29 件の応募を受け取りました。

Cal Hacks 12.0 での経験は、印象的なプロジェクト以外にも、同様に貴重なものをもたらしてくれました。それは、初めて当社のスタックに遭遇した開発者からの、迅速でフィルターされていないフィードバックです。ハッカソンは、厳しい期限、事前の知識ゼロ、そして予測不可能な障害（悪名高い WiFi の停止など）を伴う、ユニークなプレッシャーテストです。開発者エクスペリエンスが優れている点と、まだ改善が必要な点が正確に明らかになります。開発者が LLM 主導のワークフローを通じて新しい方法で Elastic Stack を操作することが増えているため、これは現在さらに重要になっています。このブログ投稿では、参加者が Agent Builder を使用して構築したものと、そのプロセスで学んだことについてさらに詳しく説明します。

受賞プロジェクト

1位: AgentOverflow

LLM およびエージェント時代に合わせて再構築された Stack Overflow。

AgentOverflow の詳細については、こちらをご覧ください。

AgentOverflow は、ほとんどの AI 開発者が遭遇する問題、つまり LLM が幻覚を起こし、チャット履歴が消え、開発者が同じ問題を再度解決するのに時間を無駄にする問題に対処します。

AgentOverflow は実際の問題と解決策のペアをキャプチャ、検証、再表示するため、開発者は幻覚スパイラルを打破し、より早く製品を出荷できます。

仕組み：

1. JSON（「ソリューションスキーマ」）を共有します。

Claude の共有から 1 回クリックすると、次の内容を含む構造化形式である Share Solution JSON がスクレイピング、抽出、組み立てられます。

問題
コンテクスト
コード
タグ
検証済みの解決手順。

バリデーター (LAVA) が構造をチェックして強制し、ユーザーが追加のコンテキストの行を追加すると、Elasticsearch 内に保存されてインデックスが作成されます。

2. 解決策を見つける

行き詰まったら、 Find Solutionをクリックすると、AgentOverflow が現在の会話をスクレイピングし、それを使用してクエリを作成し、ハイブリッド Elasticsearch 検索を実行して次の内容を表示します。

ランク付けされたコミュニティ検証済みの修正
当初問題を解決した正確なプロンプト

これにより、開発者は現在のセッションをすばやくコピー、貼り付け、ブロック解除できます。

3. MCP - LLMのコンテキスト注入

MCP (モデルコンテキストプロトコル) を介して Elasticsearch 内に保存された構造化ソリューションに接続することにより、LLM には実行時に余分なノイズなしで高度な信号コンテキスト (コード、ログ、構成、以前の修正) が供給されます。

AgentOverflow は、関連するコンテキストを LLM に挿入する構造化メモリレイヤーとして、Elasticsearch を備えた Agent Builder を使用します。これにより、受動的なチャットボットからコンテキストを認識した問題解決者へと変化します。

準優勝：マーケットマインド

6 つの Elastic Agent を活用した、市場エネルギーのリアルタイムの解釈可能なビュー。

MarketMindの詳細については、こちらをご覧ください。

MarketMind は、初心者トレーダーに、断片化された市場データを明確でリアルタイムなシグナルに変換するプラットフォームを提供することで、その地位を獲得しました。MarketMind は、さまざまなツール間で価格変動、ファンダメンタルズ、センチメント、ボラティリティを調整する代わりに、これらすべての情報を 1 つのプラットフォームに統合し、トレーダーが実用的な洞察を得られるよう支援します。このプロジェクトでは、エージェントの構築時に複雑な ES|QL クエリも使用しました。

仕組み：

1. リアルタイムの市場データを収集する

MarketMind は、Yahoo Finance から価格動向、ファンダメンタルズ、センチメント、ボラティリティ、リスク指標を取得します。このデータは複数の Elasticsearch インデックスに取り込まれ、整理されます。

2. 6人の専門エージェントが市場を分析

Agent Builder で構築された各エージェントは、市場の異なる層に焦点を当てています。これらは Elasticsearch インデックスから読み取り、独自のドメイン固有のメトリックを計算し、スコアと推論を含む標準化された JSON 出力を生成します。

3. シグナルを統合した「市場エネルギー」モデルに集約する

組み合わせた出力は各株の周囲に光るパルスとして表示され、勢いが高まっているのか、リスクが高まっているのか、感情が変化しているのかを示します。

4. 洞察を視覚化する

フロントエンドは、TypeScript、SVG 物理ベースのビジュアル、ライブローソク足チャート用の Chart.js を使用して、React と Next.js で構築されました。これにより、生の分析がリアルタイムで実用的なフィードバックに変換されます。

その他の興味深いプロジェクト:

スタックのさまざまな部分で Elastic を使用した他の有力な候補を次に示します。

私たちのトラックに提出されたプロジェクトの完全なリストは、こちらでご覧ください。

開発者から学んだこと

Agent Builder はユーザーフレンドリーです:

ほとんどのチームはこれまで Elastic を使用したことがありませんでしたが、それでもほとんどサポートなしでエージェントを迅速に構築できました。さらに詳しい指導が必要な人向けにワークショップを開催しましたが、ほとんどの人はデータを取り込み、そのデータに基づいてアクションを実行するエージェントを構築することができました。

LLM はkNNクエリに優れていますが、ES|QL の生成には依然としてガイダンスが必要です。

ChatGPT-5 に ES|QL クエリの生成を依頼すると、ES|QL と SQL が混在するなど、誤った情報が返されることがよくありました。LLM にマークダウンファイルでドキュメントを供給することは、実行可能な修正であるように思われました。

スナップショット専用の ES|QL 関数がドキュメントに漏洩しました:

今後登場するFIRSTおよびLAST集計関数が、意図せず ES|QL ドキュメントに紛れ込んでしまいました。これらのドキュメントを ChatGPT に渡したため、Serverless ではまだ利用できないにもかかわらず、モデルはこれらの関数を忠実に使用しました。グループからのフィードバックのおかげで、エンジニアリングはすぐに修正を公開し、マージして、公開されたドキュメントから関数を削除しました ( PR #137341 )。

サーバーレス固有のガイダンスが不足しています:

チームは、ルックアップモードで作成されなかったインデックスでLOOKUP JOIN有効にしようとしました。エラーメッセージにより、Serverless に存在しないコマンドが追跡されました。私たちはこれを製品チームに伝え、製品チームはすぐに Serverless 固有の実用的なメッセージの修正を開始しました。長期的には、再インデックスの複雑さを完全に隠すことがビジョンです (問題 #4838 )。

対面イベントの価値:

オンラインハッカソンは素晴らしいですが、ビルダーと肩を並べてデバッグしているときに得られる迅速なフィードバックループに匹敵するものはありません。私たちは、チームがさまざまなユースケースにわたって Agent Builder を統合する様子を観察し、ES|QL を使用した開発者エクスペリエンスを改善できる部分を見つけ、非同期チャネルで解決するよりもはるかに迅速に問題を修正しました。

まとめ

Cal Hacks 12.0 では、素晴らしいデモを週末にわたって披露するだけでなく、新しい開発者が Elastic Stack とどのように関わっているかについても理解することができました。わずか 36 時間で、チームは Agent Builder を導入し、Elasticsearch にデータを取り込み、マルチエージェントシステムを設計し、さまざまな方法で機能をテストするようになりました。このイベントは、対面イベントがなぜ重要なのかを私たちに思い出させてくれました。迅速なフィードバックループ、実際の会話、実践的なデバッグにより、現在の開発者のニーズを理解することができました。私たちが学んだことをエンジニアリングチームに還元できることを嬉しく思います。次回のハッカソンでお会いしましょう。

Elasticsearch で A2A プロトコルと MCP を使用して LLM エージェントニュースルームを作成する: パート II

Justin Castilla — Mon, 24 Nov 2025 00:00:00 GMT

A2AとMCP：コードの動作

これは、記事「Elasticsearch で A2A プロトコルと MCP を使用して LLM エージェントニュースルームを作成する」の補足記事です。この記事では、同じエージェント内に A2A と MCP の両方のアーキテクチャを実装して、両方のフレームワークの独自のメリットを最大限に活用するメリットについて説明しました。自分でデモを実行したい場合、リポジトリが利用可能です。

ニュースルームのエージェントが A2A と MCP の両方を使用して協力し、ニュース記事を作成する方法を見ていきましょう。エージェントの動作を確認するための付属リポジトリは、ここにあります。

ステップ1：ストーリーの割り当て

ニュースチーフ（クライアントとして行動）がストーリーを割り当てます。

{
  "message_type": "task_request",
  "sender": "news_chief",
  "receiver": "reporter_agent",
  "payload": {
    "task_id": "story_renewable_energy_2024",
    "assignment": {
      "topic": "Renewable Energy Adoption in Europe",
      "angle": "Policy changes driving solar and wind expansion",
      "target_length": 1200,
      "deadline": "2025-09-30T18:00:00Z"
    }
  }
}

ステップ2: 記者が調査を依頼する

レポーターエージェントは背景情報が必要であることを認識し、A2A を介してリサーチャーエージェントに委任します。

{
  "message_type": "task_request",
  "sender": "reporter_agent",
  "receiver": "researcher_agent",
  "payload": {
    "task_id": "research_eu_renewable_2024",
    "parent_task_id": "story_renewable_energy_2024",
    "capability": "fact_gathering",
    "parameters": {
      "queries": [
        "EU renewable energy capacity 2024",
        "Solar installations growth Europe",
        "Wind energy policy changes 2024"
      ],
      "depth": "comprehensive"
    }
  }
}

ステップ3: 報告者がアーカイブエージェントに歴史的背景をリクエストする

レポーターエージェントは、歴史的背景が記事の内容を強めることを認識しています。A2A 経由でアーカイブエージェント( Elastic の A2A エージェントを搭載) に委任し、ニュースルームの Elasticsearch 搭載記事アーカイブを検索します。

{
  "message_type": "task_request",
  "sender": "reporter_agent",
  "receiver": "archive_agent",
  "payload": {
    "task_id": "archive_search_renewable_2024",
    "parent_task_id": "story_renewable_energy_2024",
    "capability": "search_archive",
    "parameters": {
      "query": "European renewable energy policy changes and adoption trends over past 5 years",
      "focus_areas": ["solar", "wind", "policy", "Germany", "France"],
      "time_range": "2019-2024",
      "result_count": 10
    }
  }
}

ステップ4: アーカイブエージェントはMCPでElastic A2Aエージェントを使用する

アーカイブエージェントはElastic の A2A エージェントを使用し、A2A エージェントは MCP を使用して Elasticsearch ツールにアクセスします。これは、A2A がエージェントのコラボレーションを可能にし、MCP がツールアクセスを提供するハイブリッドアーキテクチャを示しています。

# Archive Agent using Elastic A2A Agent
async def search_historical_articles(self, query_params):
    # The Archive Agent sends a request to Elastic's A2A Agent
    elastic_response = await self.a2a_client.send_request(
        agent="elastic_agent",
        capability="search_and_analyze",
        parameters={
            "natural_language_query": query_params["query"],
            "index_pattern": "newsroom-articles-*",
            "filters": {
                "topics": query_params["focus_areas"],
                "date_range": query_params["time_range"]
            },
            "analysis_type": "trend_analysis"
        }
    )
    
    # Elastic's A2A Agent internally uses MCP tools:
    # - platform.core.search (to find relevant articles)
    # - platform.core.generate_esql (to analyze trends)
    # - platform.core.index_explorer (to identify relevant indices)
    
    return elastic_response

アーカイブエージェントはElastic の A2A エージェントから包括的な履歴データを受信し、それをレポーターに返します。

{
  "message_type": "task_response",
  "sender": "archive_agent",
  "receiver": "reporter_agent",
  "payload": {
    "task_id": "archive_search_renewable_2024",
    "status": "completed",
    "archive_data": {
      "historical_articles": [
        {
          "title": "Germany's Energiewende: Five Years of Solar Growth",
          "published": "2022-06-15",
          "key_points": [
            "Germany added 7 GW annually 2020-2022",
            "Policy subsidies drove 60% of growth"
          ],
          "relevance_score": 0.94
        },
        {
          "title": "France Balances Nuclear and Renewables",
          "published": "2023-03-20",
          "key_points": [
            "France increased renewable target to 40% by 2030",
            "Solar capacity doubled 2021-2023"
          ],
          "relevance_score": 0.89
        }
      ],
      "trend_analysis": {
        "coverage_frequency": "EU renewable stories increased 150% since 2019",
        "emerging_themes": ["policy incentives", "grid modernization", "battery storage"],
        "coverage_gaps": ["Small member states", "offshore wind permitting"]
      },
      "total_articles_found": 47,
      "search_confidence": 0.91
    }
  }
}

このステップでは、Elastic の A2A エージェントがニュースルームのワークフローにどのように統合されるかを示します。Archive Agent（ニュースルーム固有のエージェント）は、Elastic の A2A Agent（サードパーティの専門家）と連携して、Elasticsearch の強力な検索および分析機能を活用します。Elastic のエージェントは内部的に MCP を使用して Elasticsearch ツールにアクセスし、エージェント調整 (A2A) とツールアクセス (MCP) を明確に分離します。

ステップ5: 研究者はMCPサーバーを使用する

研究者エージェントは複数の MCP サーバーにアクセスして情報を収集します。

# Researcher Agent using MCP to access tools
async def gather_facts(self, queries):
    results = []
    
    # Use News API MCP Server
    news_data = await self.mcp_client.invoke_tool(
        server="news_api_mcp",
        tool="search_articles",
        parameters={
            "query": queries[0],
            "date_range": "2024-01-01 to 2024-09-30",
            "sources": ["reuters", "bloomberg", "euractiv"]
        }
    )
    
    # Use Statistics MCP Server
    stats_data = await self.mcp_client.invoke_tool(
        server="eurostat_mcp",
        tool="get_energy_statistics",
        parameters={
            "metrics": ["solar_capacity_mw", "wind_capacity_mw"],
            "countries": ["EU27"],
            "year": 2024
        }
    )
    
    # Use Fact-Checking MCP Server
    verified_facts = await self.mcp_client.invoke_tool(
        server="factcheck_mcp",
        tool="verify_claims",
        parameters={
            "claims": [
                "EU solar capacity increased 40% in 2024",
                "Germany leads in wind installations"
            ]
        }
    )
    
    return self._synthesize_research(news_data, stats_data, verified_facts)

ステップ6: 研究者が報告者にデータを返す

研究者エージェントは、包括的な研究を A2A 経由で返送します。

{
  "message_type": "task_response",
  "sender": "researcher_agent",
  "receiver": "reporter_agent",
  "payload": {
    "task_id": "research_eu_renewable_2024",
    "status": "completed",
    "research_data": {
      "key_facts": [
        {
          "claim": "EU solar capacity reached 260 GW in 2024",
          "source": "Eurostat Q3 2024 Report",
          "confidence": 0.95,
          "verified": true
        },
        {
          "claim": "Germany installed 12 GW of wind capacity in 2024",
          "source": "German Federal Network Agency",
          "confidence": 0.92,
          "verified": true
        }
      ],
      "statistics": {
        "solar_growth_rate": "35%",
        "wind_growth_rate": "28%"
      },
      "sources_count": 15
    }
  }
}

ステップ7：記者が記事を書く

Reporter Agent は、調査データと独自の LLM 機能を使用して記事を作成します。書き込み中、Reporter はスタイルとテンプレートに MCP サーバーを使用します。

# Reporter Agent writing with MCP assistance
async def write_article(self, research_data, assignment):
    # Get style guidelines via MCP
    style_guide = await self.mcp_client.get_resource(
        server="newsroom_mcp",
        resource="style://editorial/ap_style_guide"
    )
    
    # Get article template via MCP
    template = await self.mcp_client.get_resource(
        server="newsroom_mcp",
        resource="template://articles/news_story"
    )
    
    # Generate article using LLM + research + style
    draft = await self.llm.generate(
        prompt=f"""
        Write a news article following these guidelines:
        {style_guide}
        
        Using this template:
        {template}
        
        Based on this research:
        {research_data}
        
        Assignment: {assignment}
        """
    )
    
    # Self-evaluate confidence in claims
    confidence_check = await self._evaluate_confidence(draft)
    
    return draft, confidence_check

ステップ8：自信が低い場合は再調査を促します

レポーターエージェントは下書きを評価し、1 つの主張の信頼性が低いことを発見しました。研究者エージェントに別のリクエストを送信します:

{
  "message_type": "collaboration_request",
  "sender": "reporter_agent",
  "receiver": "researcher_agent",
  "payload": {
    "request_type": "fact_verification",
    "claims": [
      {
        "text": "France's nuclear phase-down contributed to 15% increase in renewable capacity",
        "context": "Discussing policy drivers for renewable growth",
        "current_confidence": 0.45,
        "required_confidence": 0.80
      }
    ],
    "urgency": "high"
  }
}

研究者はファクトチェックMCPサーバーを使用して主張を検証し、更新された情報を返します。

{
  "message_type": "collaboration_response",
  "sender": "researcher_agent",
  "receiver": "reporter_agent",
  "payload": {
    "verified_claims": [
      {
        "original_claim": "France's nuclear phase-down contributed to 15% increase...",
        "verified_claim": "France's renewable capacity increased 18% in 2024, partially offsetting reduced nuclear output",
        "confidence": 0.88,
        "corrections": "Percentage was 18%, not 15%; nuclear phase-down is gradual, not primary driver",
        "sources": ["RTE France", "French Energy Ministry Report 2024"]
      }
    ]
  }
}

ステップ9: 記者が修正して編集者に提出する

記者は検証された事実を組み込み、完成した原稿を A2A 経由で編集者エージェントに送信します。

{
  "message_type": "task_request",
  "sender": "reporter_agent",
  "receiver": "editor_agent",
  "payload": {
    "task_id": "edit_renewable_story",
    "parent_task_id": "story_renewable_energy_2024",
    "content": {
      "headline": "Europe's Renewable Revolution: Solar and Wind Surge 30% in 2024",
      "body": "[Full article text...]",
      "word_count": 1185,
      "sources": [/* array of sources */]
    },
    "editing_requirements": {
      "check_style": true,
      "check_facts": true,
      "check_seo": true
    }
  }
}

ステップ10: MCPツールを使用した編集者のレビュー

エディターエージェントは複数の MCP サーバーを使用して記事をレビューします。

# Editor Agent using MCP for quality checks
async def review_article(self, content):
    # Grammar and style check
    grammar_issues = await self.mcp_client.invoke_tool(
        server="grammarly_mcp",
        tool="check_document",
        parameters={"text": content["body"]}
    )
    
    # SEO optimization check
    seo_analysis = await self.mcp_client.invoke_tool(
        server="seo_mcp",
        tool="analyze_content",
        parameters={
            "headline": content["headline"],
            "body": content["body"],
            "target_keywords": ["renewable energy", "Europe", "solar", "wind"]
        }
    )
    
    # Plagiarism check
    originality = await self.mcp_client.invoke_tool(
        server="plagiarism_mcp",
        tool="check_originality",
        parameters={"text": content["body"]}
    )
    
    # Generate editorial feedback
    feedback = await self._generate_feedback(
        grammar_issues, 
        seo_analysis, 
        originality
    )
    
    return feedback

編集者は記事を承認し、送信します。

{
  "message_type": "task_response",
  "sender": "editor_agent",
  "receiver": "reporter_agent",
  "payload": {
    "status": "approved",
    "quality_score": 9.2,
    "minor_edits": [
      "Changed 'surge' to 'increased' in paragraph 3 for AP style consistency",
      "Added Oxford comma in list of countries"
    ],
    "approved_content": "[Final edited article]"
  }
}

ステップ11: パブリッシャーがCI/CD経由でパブリッシュする

最後に、プリンターエージェントは、CMS および CI/CD パイプラインの MCP サーバーを使用して承認された記事を公開します。

# Publisher Agent publishing via MCP
async def publish_article(self, content, metadata):
    # Upload to CMS via MCP
    cms_result = await self.mcp_client.invoke_tool(
        server="wordpress_mcp",
        tool="create_post",
        parameters={
            "title": content["headline"],
            "body": content["body"],
            "status": "draft",
            "categories": metadata["categories"],
            "tags": metadata["tags"],
            "featured_image_url": metadata["image_url"]
        }
    )
    
    post_id = cms_result["post_id"]
    
    # Trigger CI/CD deployment via MCP
    deploy_result = await self.mcp_client.invoke_tool(
        server="cicd_mcp",
        tool="trigger_deployment",
        parameters={
            "pipeline": "publish_article",
            "environment": "production",
            "post_id": post_id,
            "schedule": "immediate"
        }
    )
    
    # Track analytics
    await self.mcp_client.invoke_tool(
        server="analytics_mcp",
        tool="register_publication",
        parameters={
            "post_id": post_id,
            "publish_time": datetime.now().isoformat(),
            "story_id": metadata["story_id"]
        }
    )
    
    return {
        "status": "published",
        "post_id": post_id,
        "url": f"https://newsroom.example.com/articles/{post_id}",
        "deployment_id": deploy_result["deployment_id"]
    }

出版社はA2Aを通じて出版を確認します。

{
  "message_type": "task_complete",
  "sender": "printer_agent",
  "receiver": "news_chief",
  "payload": {
    "task_id": "story_renewable_energy_2024",
    "status": "published",
    "publication": {
      "url": "https://newsroom.example.com/articles/renewable-europe-2024",
      "published_at": "2025-09-30T17:45:00Z",
      "post_id": "12345"
    },
    "workflow_metrics": {
      "total_time_minutes": 45,
      "agents_involved": ["reporter", "researcher", "archive", "editor", "printer"],
      "iterations": 2,
      "mcp_calls": 12
    }
  }
}

以下は、上記と同じエージェントを使用した付属のリポジトリ内の A2A ワークフローの完全なシーケンスです。

#	から	に	アクション	プロトコル	説明
1	ユーザー	ニュースチーフ	ストーリーの割り当て	HTTP ポスト	ユーザーがストーリーのトピックと角度を提出する
2	ニュースチーフ	内部	ストーリーを作成する	-	固有のIDを持つストーリーレコードを作成します
3	ニュースチーフ	記者	委任の割り当て	A2A	A2Aプロトコル経由でストーリー割り当てを送信します
4	記者	内部	割り当てを受け入れる	-	割り当てを内部に保存する
5	記者	MCP サーバー	アウトラインを生成	MCP/HTTP	記事のアウトラインと研究の質問を作成します
6a	記者	研究者	調査依頼	A2A	質問を送信します（6bと並行）
6b	記者	アーキビスト	アーカイブを検索	A2A JSONRPC	歴史的な記事を検索します（6aと並行）
7	研究者	MCP サーバー	研究上の質問	MCP/HTTP	MCP経由でAnthropicを使用して質問に答えます
8	研究者	記者	リターンリサーチ	A2A	調査の回答を返す
9	アーキビスト	Elasticsearch	検索インデックス	ES REST API	news_archiveインデックスをクエリ
10	アーキビスト	記者	アーカイブに戻る	A2A JSONRPC	過去の検索結果を返します
11	記者	MCP サーバー	記事を生成する	MCP/HTTP	研究/アーカイブの文脈で記事を作成する
12	記者	内部	ストアドラフト	-	下書きを内部に保存
13	記者	ニュースチーフ	下書きを送信	A2A	完成した草稿を提出する
14	ニュースチーフ	内部	ストーリーを更新	-	下書きを保存し、ステータスを「draft_submitted」に更新します
15	ニュースチーフ	エディタ	レビュー草稿	A2A	レビューのために編集者に自動ルーティング
16	エディタ	MCP サーバー	総説	MCP/HTTP	MCP経由でAnthropicを使用してコンテンツを分析します
17	エディタ	ニュースチーフ	返品レビュー	A2A	編集上のフィードバックと提案を送信します
18	ニュースチーフ	内部	ストアレビュー	-	編集者のフィードバックを保存
19	ニュースチーフ	記者	編集を適用	A2A	レビューのフィードバックをレポーターに転送する
20	記者	MCP サーバー	編集を適用	MCP/HTTP	フィードバックに基づいて記事を修正する
21	記者	内部	下書きの更新	-	修正を加えて下書きを更新する
22	記者	ニュースチーフ	返品修正	A2A	修正された記事を返す
23	ニュースチーフ	内部	ストーリーを更新	-	修正した下書きを保存し、ステータスを「修正済み」にする
24	ニュースチーフ	出版社	記事を公開する	A2A	パブリッシャーへの自動ルーティング
25	出版社	MCP サーバー	タグを生成する	MCP/HTTP	タグとカテゴリを作成する
26	出版社	Elasticsearch	インデックス記事	ES REST API	記事をnews_archiveインデックスにインデックスします
27	出版社	ファイルシステム	マークダウンを保存	ファイルI/O	記事を.mdとして保存します/articles内のファイル
28	出版社	ニュースチーフ	公開の確認	A2A	成功ステータスを返します
29	ニュースチーフ	内部	ストーリーを更新	-	ストーリーのステータスを「公開済み」に更新します

まとめ

A2A と MCP はどちらも、現代の拡張 LLM インフラストラクチャパラダイムにおいて重要な役割を果たします。A2A は複雑なマルチエージェントシステムに柔軟性を提供しますが、移植性が低くなり、運用が複雑になる可能性があります。MCP は、マルチエージェントオーケストレーションを処理するようには設計されていませんが、実装と保守がより簡単なツール統合のための標準化されたアプローチを提供します。

選択は二者択一ではありません。私たちのニュースルームの例で示されているように、最も洗練され効果的な LLM 対応システムは、多くの場合、両方のアプローチを組み合わせています。つまり、エージェントは A2A プロトコルを通じて調整と専門化を行いながら、MCP サーバーを通じてツールやリソースにアクセスします。このハイブリッドアーキテクチャは、MCP の標準化とエコシステムの利点に加えて、マルチエージェントシステムの組織上の利点も提供します。これは、選択する必要が全くないかもしれないことを示唆している。単に両方を標準的なアプローチとして使うだけでよい。

開発者またはアーキテクトとして、両方のソリューションの最適な組み合わせをテストして決定し、特定のユースケースに適した結果を生み出すのはあなた次第です。それぞれのアプローチの長所、制限、適切な適用を理解することで、より効果的で保守性と拡張性に優れた AI システムを構築できるようになります。

デジタルニュースルーム、顧客サービスプラットフォーム、リサーチアシスタント、またはその他の LLM を利用したアプリケーションを構築する場合でも、調整ニーズ (A2A) とツールアクセス要件 (MCP) を慎重に検討することで、成功への道が開かれます。

参考資料

Elasticsearch エージェントビルダー: https://www.elastic.co/docs/solutions/search/elastic-agent-builder
A2A仕様: https://a2a-protocol.org/latest/specification/
A2A と MCP の統合: https://a2a-protocol.org/latest/topics/a2a-and-mcp/
モデルコンテキストプロトコル: https://modelcontextprotocol.io

コンテキストエンジニアリングにおけるハイブリッド検索の威力 - パート3

Woody Walton — Thu, 20 Nov 2025 00:00:00 GMT

ハイブリッド検索 (パート I ) とコンテキストエンジニアリング (パート II ) の両方について説明しました。次に、RAG およびエージェント AI 操作にターゲットを絞ったコンテキストを提供する上で、これらがどのように連携して最大の効果を発揮するかについて詳しく見ていきましょう。

検索は死んでいない、ただ移動しただけだ

そのため、主にテキストボックスでコンテキストを検索し、返された情報 (コンテキスト) を使用して自分で回答を構築するという方法から、自然言語を使用してエージェントに必要なものを伝え、エージェントが自動的に回答を調査してまとめる方法へと移行しました。テクノロジー業界の多くの人々は、この変化を指摘し、「検索は死んだ」と主張しています（まあ、SEO とアドワーズの世界は確実に変化しています。GEOはどうですか？）。しかし、検索は依然として代理店の業務にとって絶対に不可欠です。ただ、現在では主にツールを介して目に見えない形で実行されているだけです。

以前は、主観的な関連性の主な判断者は人間でした。各ユーザーには検索を実行する独自の理由があり、個人的な経験が結果の相対的な正確性に影響を与えていました。エージェントが私たちと同じ（あるいはそれ以上の）結論に達することができると信頼するには、エージェントがアクセスできるコンテキスト情報が私たちの主観的な意図に可能な限り近いことを保証する必要があります。私たちはその目標に向けて、LLM に提供するコンテキストを設計する必要があります。

ハイブリッド検索によるコンテキストの生成

パート I でもう一度お伝えしましたが、Elastic のハイブリッド検索は、従来のキーワードベースの検索の強み (構文の柔軟性、キーワードの精度、関連性のスコアリング) とベクトル類似性検索の意味理解を組み合わせ、複数の再ランキング手法を提供します。この相乗効果（この言葉のより正確な使い方はこれまで見つかりませんでした！）クエリによってコンテンツをターゲットする方法がより細かく指定できるため、関連性の高い結果を得ることができます。主観的関連性を検索段階の1 つとして適用できるというだけでなく、実際には、第 1 段階の検索に関連性スコアリングを他のすべてのモードとともに一度に含めることができるのです。

優れた精度と効率

分散検索、取得、再ランク付け機能を備えたデータプラットフォームを主要なコンテキスト検索エンジンとして使用することは、非常に理にかなっています。高度なクエリ構文を使用して、主観的な意図の欠落したコンポーネントを追加し、返されるコンテキスト情報の価値を損なったり不明瞭にしたりする可能性のあるコンテンツを除外できます。利用可能な個々の構文オプションから選択することも、モダリティを単一の検索に組み合わせて、各データの種類を最もよく理解できる方法でターゲットにし、それらを再ランク付けして組み合わせたり並べ替えたりすることもできます。不要なデータを除外し、必要なフィールド/値のみが含まれるように応答をフィルタリングできます。エージェントにとって、このターゲティングの柔軟性により、コンテキストを非常に正確に取得できるツールを構築できます。

コンテキストの洗練（集約と非コンテンツシグナル）

集約は、ツールがコンテキストウィンドウに配信するコンテンツを形成する際に特に役立ちます。集計により、返されるコンテキストデータの形状に関する数値ベースの事実が自然に提供されるため、LLM による推論がより容易かつ正確になります。集計は階層的にネストできるため、LLM に複数レベルの詳細を追加して、より微妙な理解を深めることが簡単にできます。集計はコンテキストウィンドウのサイズの管理にも役立ちます。10 万件のドキュメントのクエリ結果を、集約された分析情報の数百トークンに簡単に減らすことができます。

非コンテンツシグナルは、データに内在する指標であり、見ているものの全体像を示します。つまり、人気、鮮度、地理的位置、カテゴリ、ホストの多様性、価格帯など、結果の追加特性です。これらの情報は、エージェントが受け取ったコンテキストの重要性をどのように評価するかをエージェントに通知するのに役立ちます。これを最もよく説明するために、いくつかの簡単な例を挙げます。

最近公開されたコンテンツや人気コンテンツの強化- 記事のナレッジベースがあると想像してください。ユーザーのクエリに関連する記事を見つけたいが、最近の記事であり、他のユーザーに役立つと判断された記事（「いいね」の数が多いなど）を優先したいとします。このシナリオでは、ハイブリッド検索を使用して関連する記事を見つけ、公開日と人気度の組み合わせに基づいて記事を再ランク付けすることができます。
売上と在庫調整を伴う電子商取引の検索- 電子商取引の設定では、検索語に一致する製品を顧客に表示したいだけでなく、売れ行きがよく在庫がある製品を宣伝したいとも考えます。顧客の不満を避けるために、在庫が少ない商品のランクを下げることもできます。
バグトラッカーで重大度の高い問題を優先する- ソフトウェア開発チームにとって、問題を検索する際には、重大度が高く、優先度が高く、最近更新された問題を最初に表示することが重要です。「重要度」や「最も議論されている」などの非シグナルを使用して、さまざまな要素を個別に評価し、最も重要で活発に議論されている問題が最上位に表示されるようにすることができます。

これらのサンプルクエリおよびその他の詳細は、付属の Elasticsearch Labsコンテンツページにあります。

セキュリティ強化

コンテキストエンジニアリングに Elastic のような検索を活用したスピードレイヤーを活用する重要な利点は、セキュリティフレームワークが組み込まれていることです。Elastic のプラットフォームは、きめ細かなロールベースのアクセス制御 (RBAC) と属性ベースのアクセス制御 (ABAC) を通じて、エージェントおよび生成 AI オペレーションに提供されるコンテキストが機密性の高い非公開情報を尊重して保護することを保証します。これは、クエリが効率的に処理されるだけでなく、エージェントまたはリクエストを開始したユーザーの特定の権限に応じて結果がフィルタリングされることを意味します。

エージェントは認証されたユーザーとして実行されるため、プラットフォームに組み込まれたセキュリティ機能を通じてセキュリティが暗黙的に適用されます。

きめ細かな権限:ドキュメント、フィールド、さらには用語レベルでアクセスを定義し、AI エージェントが表示を許可されているデータのみを受信するようにします。
ロールベースのアクセス制御 (RBAC):エージェントまたはユーザーにロールを割り当て、定義された責任に基づいて特定のデータセットまたは機能へのアクセスを許可します。
属性ベースのアクセス制御 (ABAC):データ、ユーザー、または環境の属性に基づいて動的なアクセスポリシーを実装し、適応性の高いコンテキスト認識型のセキュリティを実現します。
ドキュメントレベルのセキュリティ (DLS) とフィールドレベルのセキュリティ (FLS):これらの機能により、取得したドキュメント内でも許可された部分のみが表示されるようになり、機密情報の漏洩を防止できます。
エンタープライズセキュリティとの統合:既存の ID 管理システム (LDAP、SAML、OIDC など) とシームレスに統合し、組織全体で一貫したセキュリティポリシーを適用します。

これらのセキュリティ対策をコンテキスト取得メカニズムに直接統合することで、Elastic は安全なゲートキーパーとして機能し、AI エージェントが定義されたデータ境界内で動作し、不正なデータ公開を防ぎ、データプライバシー規制へのコンプライアンスを維持できるようにします。これは、機密情報や独自情報を扱うエージェント AI システムへの信頼を構築する上で非常に重要です。

追加のボーナスとして、エンタープライズデータソース上で統合されたデータスピードレイヤーを使用することで、エージェントツールによって作成されるリポジトリでの予期しないアドホッククエリ負荷を軽減できます。ほぼリアルタイムであらゆるものを検索できる単一の場所と、セキュリティとガバナンスの制御を適用できる単一の場所が提供されます。

ハイブリッド検索ベースのツール

Elastic プラットフォームには、コンテキストエンジニアリングの追求を加速させるコア機能がいくつかあります (今後もさらに増える予定です)。ここで重要なのは、このプラットフォームが、AI エコシステムの進化に合わせて方法を適応、変更、拡張できる柔軟性を備え、さまざまな達成方法を提供していることです。

エージェントビルダーの紹介

Elastic Agent Builder は、Elastic にすでに保存されているデータと対話するために構築されたエージェント AI ツールの領域への最初の進出です。Agent Builder は、ユーザーが Kibana 内で独自のエージェントとツールを作成および管理できるようにするチャットインターフェースを提供します。組み込みの MCP および A2A サーバー、プログラム API、Elasticsearch インデックスのクエリと探索、および自然言語からの ES|QL クエリの生成用の一連の構築済みシステムツールが付属しています。Agent Builder を使用すると、表現力豊かなES|QLクエリ構文を通じてエージェントに返されるコンテキストデータをターゲットにして整形するカスタムツールを作成できます。

ES|QL はハイブリッド検索をどのように実行するのでしょうか?コア機能は、 semantic_textフィールドタイプとFORK / FUSEコマンドの組み合わせによって実現されます (FUSE はデフォルトでRRFを使用して各フォークの結果をマージします)。架空の製品検索の簡単な例を次に示します。

FROM products
| FORK
  (MATCH description "high performance gaming laptop" | EVAL search_type = "bm25"),
  (MATCH description_semantic "high performance gaming laptop" | EVAL search_type = "semantic")
| FUSE 
| LIMIT 20
| KEEP product_name, description, _score, search_type

上記の例の各 FORK ブランチに含まれるEVAL句は厳密には必須ではありません。これは、特定の結果がどの検索モダリティから返されたかを追跡する方法を示すためだけに含まれています。

検索テンプレート

独自の外部エージェントツールを Elastic デプロイメントにポイントするとします。また、ES|QL の代わりに、マルチステージリトリーバーを使用したり、開発した既存の DSL 構文を再利用したり、クエリが受け入れる入力、検索を実行するために使用される構文、および出力で返されるフィールドを制御できるようにしたいと考えています。検索テンプレートを使用すると、ユーザーは一般的な検索パターンの定義済み構造を定義できるため、データ取得の効率と一貫性が向上します。これは、定型コードの標準化と検索ロジックの高速な反復処理を可能にするため、検索 API と対話するエージェントツールにとって特に有益です。そして、これらの要素のいずれかを調整する必要がある場合は、検索テンプレートを更新するだけで、変更が実装されます。エージェントツールで実際に実行される検索テンプレートの例を探している場合は、Elasticsearch Labs のブログ「 MCP for intelligent search 」をご覧ください。このブログでは、外部 MCP サーバーからのツール呼び出しの背後で検索テンプレートが使用されています。

統合ワークフロー (最高!)

新しいエージェント AI の世界で最も扱いにくいことの 1 つは、半自律型で自己指向的な「推論」エージェントの非決定論的な性質です。コンテキストエンジニアリングは、エージェント AI にとって非常に重要な分野です。これは、エージェントが生成できる可能性のある結論を、私たちが知っている事実に絞り込むのに役立つ手法です。非常に正確で関連性の高いコンテキストウィンドウがあっても、(数値的事実の領域から外れると) エージェントの応答が完全に再現可能で信頼できるという安心感がまだ少し欠けています。

エージェントに対して同じリクエストを複数回実行すると、応答にわずかな違いがあるだけ で、回答は基本的に同じになる可能性があります。これは通常、単純なクエリでは問題なく、ほとんど気づかれない程度で、コンテキストエンジニアリング手法を使用して出力を調整することができます。しかし、エージェントに要求するタスクが複雑になるにつれて、1 つ以上のサブタスクによって差異が生じ、最終結果がわずかに変わる可能性が高くなります。エージェント間のコミュニケーションにさらに依存するようになると、状況はさらに悪化し、差異が累積していくでしょう。これは、エージェントが対話するツールは、コンテキストデータを正確にターゲットにするために非常に柔軟かつ調整可能である必要があり、予期される出力形式で応答する必要があるという考えを再び示しています。また、多くのユースケースでは、エージェントとツールのやり取りを誘導する必要があることも示しています。ここでワークフローが登場します。

Elastic ではまもなく、プラットフォームの中核に完全にカスタマイズ可能なワークフローが組み込まれる予定です。これらのワークフローはエージェントやツールと双方向に操作できるため、ワークフローはエージェントやツールを呼び出すことができ、エージェントやツールはワークフローを呼び出すことができます。これらの機能が、すべてのデータが存在する同じ検索 AI プラットフォームに完全に統合されることで、ワークフローの可能性は大きく変化します。もうすぐ、もうすぐ登場です！

統合メモリバンクとしてのElastic

Elastic は、ほぼリアルタイムの検索向けに作られた分散データプラットフォームであるため、エージェント AI システムの長期メモリ機能を自然に実行します。組み込みの Agent Builder チャットエクスペリエンスにより、短期記憶とチャット履歴の追跡と管理も行えます。また、プラットフォーム全体が API ファーストであるため、エージェントのコンテキストウィンドウを圧倒する可能性のあるツールのコンテキスト出力を永続化するためのプラットフォームとして Elastic を利用する（そして後で参照できるようにする）ことは非常に簡単です。この手法は、コンテキストエンジニアリングの分野では「メモを取る」と呼ばれることもあります。

同じ検索プラットフォームに短期記憶と長期記憶の両方を持つことで、多くの本質的なメリットが生まれます。チャット履歴と永続的なコンテキスト応答を、将来のチャットのやり取りに対する意味的影響要因の一部として使用したり、脅威分析を実行したり、頻繁に繰り返されるツール呼び出しから自動的に生成される永続的なデータ製品を作成したりできるようになることを想像してみてください。可能性は無限です。

まとめ

大規模言語モデルの出現により、コンテンツを一致させる方法や、データを調査するために使用する手法が変化しました。私たちは、人間が自らの疑問に答えるために調査、状況の考慮、論理的推論を行う現在の世界から、それらのステップがエージェント AI によって大部分が自動化される世界へと急速に移行しつつあります。生成された回答を信頼するには、エージェントが応答を生成する際に 最も関連性の高い 情報（主観的関連性の要素を含む）をすべて考慮したという保証が必要です。エージェント AI を信頼できるものにするための主な方法は、RAG とコンテキストエンジニアリング技術を通じて追加のコンテキストを取得するツールを基盤化することですが、それらのツールが最初の取得をどのように実行するかが応答の精度に非常に重要になる場合があります。

Elastic Search AI プラットフォームは、ハイブリッド検索の柔軟性と利点に加えて、エージェント AI の精度、パフォーマンス、スケーラビリティを向上させるいくつかの組み込み機能を提供します。つまり、Elastic はコンテキストエンジニアリングのさまざまな側面に対応する素晴らしいプラットフォームを実現します。検索プラットフォームを介したコンテキスト検索の標準化により、エージェントツールの操作がいくつかの面で簡素化されます。「速度を落としてスピードを上げる」という矛盾した表現と同様に、コンテキスト生成レイヤーの簡素化は、より高速で信頼性の高いエージェントAIを意味します。

コンテキストのためのYou Know - パートII：エージェントAIとコンテキストエンジニアリングの必要性

Woody Walton — Tue, 18 Nov 2025 00:00:00 GMT

LLM が情報検索の基本的なプロセスをどのように変えてきたかについての (かなり広範囲にわたる)背景を踏まえて、LLM がデータのクエリ方法をどのように変えてきたかを見てみましょう。

データと対話する新しい方法

ジェネレーティブ (genAI) AI とエージェント AI は、従来の検索とは異なる処理を行います。かつて私たちが情報を調べ始める方法は検索（「グーグルで検索してみます…」）でしたが、gen AI とエージェントの両方にとって、開始アクションは通常、チャットインターフェースに入力された自然言語を通じて行われます。チャットインターフェースは、意味理解を使用して質問を簡潔な回答、つまりあらゆる種類の情報に関する幅広い知識を持つ予言者から出されたような要約された応答に変換する LLM とのディスカッションです。本当に売れているのは、LLM が表面化した知識の断片をつなぎ合わせて首尾一貫した思慮深い文章を生成する能力です。たとえそれが不正確であったり完全に幻覚的であったりしても、そこには真実味があります。

私たちが使い慣れている古い検索バーは、私たち自身が推論エージェントであったときに使用した RAG エンジンと考えることができます。現在では、インターネット検索エンジンでさえ、使い古された「ハント・アンド・ペック」という語彙検索エクスペリエンスを、クエリに対する結果の要約で答える AI 主導の概要へと変えつつあり、ユーザーがクリックして個々の結果を自分で評価する必要がないようにしています。

生成AIとRAG

生成 AI は、世界の意味理解を活用してチャットリクエストを通じて表明された主観的な意図を解析し、推論能力を使用して専門的な回答を即座に作成します。生成 AI インタラクションにはいくつかの部分があります。ユーザーの入力/クエリから始まり、チャットセッションでの以前の会話が追加のコンテキストとして使用でき、LLM に推論方法と応答の構築手順を指示する指示プロンプトがあります。プロンプトは、「5 歳児に説明するように説明してください」という単純なタイプのガイダンスから、リクエストを処理する方法の完全な詳細へと進化しました。これらの内訳には、AI のペルソナ/役割、生成前の推論/内部思考プロセス、客観的な基準、制約、出力形式、対象者、および期待される結果を示すのに役立つ例の詳細を説明する個別のセクションが含まれることがよくあります。

ユーザーのクエリとシステムプロンプトに加えて、検索拡張生成 (RAG) は、「コンテキストウィンドウ」と呼ばれる追加のコンテキスト情報を提供します。RAG はアーキテクチャへの重要な追加機能であり、世界の意味理解において欠落している部分を LLM に通知するために使用します。

コンテキストウィンドウは、何を、どこに、どれだけ与えるかという点では、かなり細かい指定が必要になる場合があります。もちろん、どのコンテキストが選択されるかは非常に重要ですが、提供されたコンテキストの信号対雑音比やウィンドウの長さも重要です。

情報が少なすぎる

クエリ、プロンプト、またはコンテキストウィンドウに提供される情報が少なすぎると、LLM が応答を生成するための正しいセマンティックコンテキストを正確に判断できないため、幻覚が発生する可能性があります。また、ドキュメントチャンクサイズのベクトル類似性にも問題があります。つまり、短くて単純な質問は、ベクトル化された知識ベースにある豊富で詳細なドキュメントと意味的に一致しない可能性があります。Hypothetical Document Embeddings (HyDE)などのクエリ拡張手法が開発され、LLM を使用して、短いクエリよりも豊富で表現力豊かな仮説的な回答を生成します。もちろん、ここでの危険は、仮説文書自体が LLM を正しい文脈からさらに逸脱させる幻覚であるということです。

情報が多すぎる

私たち人間と同じように、コンテキストウィンドウに情報が多すぎると、LLM は重要な部分が何であるのかについて混乱し、圧倒されてしまう可能性があります。コンテキストオーバーフロー (または「コンテキストロット」) は、生成 AI 操作の品質とパフォーマンスに影響します。LLM の「注意予算」(作業メモリ) に大きな影響を与え、競合する多くのトークン間の関連性を薄めます。「コンテキスト腐敗」の概念には、LLM が位置の偏りを持つ傾向があるという観察も含まれます。つまり、LLM はコンテキストウィンドウの中央セクションのコンテンツよりも、コンテキストウィンドウの先頭または末尾のコンテンツを優先します。

気が散ったり矛盾したりする情報

コンテキストウィンドウが大きくなるほど、LLM が正しいコンテキストを選択して処理する妨げとなる余分な情報や矛盾した情報が含まれる可能性が高くなります。ある意味、これは「ガベージイン/ガベージアウト」の問題になります。つまり、ドキュメント結果セットをコンテキストウィンドウにダンプするだけで、LLM に処理すべき大量の情報が提供されます (多すぎる可能性があります)。ただし、コンテキストの選択方法によっては、矛盾した情報や無関係な情報が入り込む可能性が高くなります。

エージェント型AI

カバーすべき内容がたくさんあると言いましたが、ついにエージェント AI のトピックについて話すことができました。エージェント AI は、LLM チャットインターフェイスの非常にエキサイティングな新しい使用法であり、独自の知識とユーザーが提供するコンテキスト情報に基づいて応答を合成する生成 AI (すでに「レガシー」と呼んでもいいでしょうか?) の機能を拡張します。生成 AI が成熟するにつれて、当初は人間が簡単に確認/検証できる、面倒でリスクの低いアクティビティに限定されていた、一定レベルのタスク処理と自動化を LLM に実行させることができることに気付きました。短期間で、当初のスコープは拡大しました。LLM チャットウィンドウは、AI エージェントが自律的に計画、実行し、指定された目標を達成するためにその計画を反復的に評価および適応させるきっかけとなることができるようになりました。エージェントは、LLM 自身の推論、チャット履歴、思考メモリ (現状のまま) にアクセスでき、その目標達成に向けて活用できる特定のツールも利用できます。また、トップレベルのエージェントが、それぞれ独自のロジックチェーン、命令セット、コンテキスト、ツールを持つ複数のサブエージェントのオーケストレーターとして機能することを可能にするアーキテクチャも登場しています。

エージェントは、ほぼ自動化されたワークフローへのエントリポイントです。エージェントは自己主導型であり、ユーザーとチャットしてから「ロジック」を使用して、ユーザーの質問に答えるために使用できるツールを決定します。ツールは通常、エージェントに比べて受動的であると考えられており、1 種類のタスクを実行するために構築されています。ツールが実行できるタスクの種類はほぼ無限です (これは本当に素晴らしいことです!) が、ツールが実行する主なタスクは、エージェントがワークフローを実行する際に考慮するコンテキスト情報を収集することです。

技術としては、エージェント AI はまだ初期段階にあり、注意欠陥障害に相当する LLM になりがちです。つまり、指示されたことをすぐに忘れてしまい、指示にまったく含まれていない他の作業に走り出してしまうことがよくあります。一見魔法のように見えますが、LLM の「推論」機能は、シーケンス内で次に最も可能性の高いトークンを予測することに基づいています。推論（あるいは将来的には、汎用人工知能（AGI））が信頼できるものになるためには、正確で最新の情報が与えられたときに、私たちが期待する通りに推論してくれるか（そしておそらく、私たち自身では考えつかなかったようなちょっとした追加情報を提供してくれるか）を検証できなければなりません。これを実現するには、エージェントアーキテクチャに、明確に通信する機能 (プロトコル)、指定されたワークフローと制約を順守する機能 (ガードレール)、タスク内の位置を記憶する機能 (状態)、使用可能なメモリ領域を管理する機能、応答が正確でありタスクの基準を満たしていることを検証する機能が必要になります。

私に理解できる言語で話してください

新しい開発分野ではよくあることですが (特に LLM の世界ではそうです)、当初はエージェントとツール間の通信にはかなり多くのアプローチがありましたが、すぐにモデルコンテキストプロトコル (MCP) が事実上の標準として採用されました。モデルコンテキストプロトコルの定義はまさにその名前の通りで、 モデルがコンテキスト 情報を要求および受信するために使用する プロトコル です。MCP は、LLM エージェントが外部ツールやデータソースに接続するためのユニバーサルアダプタとして機能し、さまざまな LLM フレームワークやツールが簡単に相互運用できるように API を簡素化および標準化します。そのため、MCP は、エージェントが目的を達成するために自律的に実行するために与えられるオーケストレーションロジックとシステムプロンプトと、より分離された形式 (少なくとも開始エージェントに関しては分離された形式) で実行するためにツールに送信される操作との間の、一種のピボットポイントになります。

このエコシステムは非常に新しいため、あらゆる方向への拡大が新たなフロンティアのように感じられます。エージェント間のインタラクション（もちろんAgent2Agent (A2A) ）用の類似プロトコルのほか、エージェントの推論メモリを改善するプロジェクト（ ReasoningBank ）、手元のジョブに最適な MCP サーバーを選択するプロジェクト（ RAG-MCP ）、ゼロショット分類や入力と出力のパターン検出などのセマンティック分析をガードレールとして使用してエージェントが操作できる内容を制御するプロジェクトもあります。

これらの各プロジェクトの根本的な目的は、エージェント/genAI コンテキストウィンドウに返される情報の品質と制御を向上させることであることにお気づきでしょうか。エージェント AI エコシステムは、コンテキスト情報をより適切に処理する (制御、管理、操作する) 能力の開発を継続していますが、エージェントが処理するための最も関連性の高いコンテキスト情報を取得する必要性は常に存在します。

コンテキストエンジニアリングへようこそ!

生成 AI の用語に詳しい方なら、おそらく「プロンプトエンジニアリング」という言葉を聞いたことがあるでしょう。現時点では、プロンプトエンジニアリングはそれ自体がほぼ疑似科学となっています。プロンプトエンジニアリングは、LLM が応答を生成する際に使用する動作を積極的に記述するための最良かつ最も効率的な方法を見つけるために使用されます。「コンテキストエンジニアリング」は、「プロンプトエンジニアリング」の手法をエージェント側を超えて拡張し、MCP プロトコルのツール側で利用可能なコンテキストソースとシステムもカバーし、コンテキストの管理、処理、生成という幅広いトピックを扱います。

コンテキスト管理- 長時間実行される、またはより複雑なエージェントワークフロー全体で状態とコンテキストの効率を維持することに関連します。エージェントの目標を達成するために、タスクとツールの呼び出しを繰り返し計画、追跡、オーケストレーションします。エージェントが動作しなければならない「注意予算」は限られているため、コンテキスト管理は主に、コンテキストウィンドウを絞り込んでコンテキストの最大限の範囲と最も重要な部分 (精度と再現率) の両方をキャプチャするのに役立つ手法に関係しています。技術には、圧縮、要約、前のステップまたはツール呼び出しからのコンテキストを永続化して、後続のステップで追加のコンテキストのために作業メモリ内にスペースを確保することが含まれます。
コンテキスト処理- エージェントがすべてのコンテキストをある程度統一された方法で推論できるように、異なるソースから取得したコンテキストを統合、正規化、または調整するための論理的かつできればほとんどプログラム的な手順。基本的な作業は、すべてのソース (プロンプト、RAG、メモリなど) からのコンテキストを、エージェントが可能な限り効率的に使用できるようにすることです。
コンテキスト生成- コンテキスト処理が、取得したコンテキストをエージェントが使用できるようにすることであるならば、コンテキスト生成は、追加のコンテキスト情報を自由に、しかし制約付きで要求して受け取るための範囲をエージェントに提供します。

LLM チャットアプリケーションのさまざまな一時的な機能は、コンテキストエンジニアリングの高レベル機能に直接 (場合によっては重複して) マッピングされます。

指示 / システムプロンプト- プロンプトは、生成的 (またはエージェント的) AI アクティビティがユーザーの目標を達成するためにどのように思考を導くかを示す足場です。プロンプトはそれ自体がコンテキストです。単なる音声による指示ではなく、回答がユーザーの要求に完全に応えているかどうかを確認するために、応答する前に「段階的に考える」や「深呼吸する」などのタスク実行ロジックやルールも含まれることがよくあります。最近のテストでは、マークアップ言語はプロンプトのさまざまな部分を組み立てるのに非常に効果的であることが示されていますが、指示を曖昧になりすぎず、具体的になりすぎないように注意して調整する必要があります。LLM が適切なコンテキストを見つけるのに十分な指示を与える必要がありますが、予期しない洞察を見逃すほど規範的であってはなりません。
短期記憶(状態/履歴) - 短期記憶は、基本的にユーザーと LLM 間のチャットセッションのやり取りです。これらはライブセッションのコンテキストを絞り込むのに役立ち、将来の取得や続行のために保存できます。
長期記憶- 長期記憶は、複数のセッションにわたって役立つ情報で構成されている必要があります。また、RAG を通じてアクセスされるのはドメイン固有の知識ベースだけではありません。最近の研究では、以前のエージェント/生成 AI 要求の結果を使用して、現在のエージェントのやり取り内で学習および参照を行っています。長期記憶領域における最も興味深い革新のいくつかは、エージェントが中断したところから再開できるように、状態がどのように保存され、リンクされるかを調整することに関係しています。
構造化された出力- 認知には努力が必要なので、推論能力があっても、LLM が (人間と同じように) 考えるときにあまり努力を費やしたくないのは当然です。また、定義された API やプロトコルがない場合、ツール呼び出しから返されたデータを読み取る方法のマップ (スキーマ) を持つことは非常に役立ちます。構造化出力をエージェントフレームワークの一部として組み込むと、思考主導の解析の必要性が減り、マシン間のやり取りがより高速かつ信頼性が高くなるようになります。
利用可能なツール- ツールは、追加情報の収集 (エンタープライズデータリポジトリへの RAG クエリの発行、またはオンライン API 経由の RAG クエリの発行など) から、エージェントに代わって自動アクションを実行すること (エージェントからのリクエストの基準に基づいてホテルの部屋を予約するなど) まで、さまざまな処理を実行できます。ツールは、独自のエージェント処理チェーンを持つサブエージェントになることもできます。
検索拡張生成 (RAG) - RAG の「動的な知識統合」という説明がとても気に入っています。前述のように、RAG は LLM がトレーニング時にアクセスできなかった追加情報を提供するための手法であり、主観的なクエリに最も関連性の高い正しい答えを得るために最も重要だと考えられるアイデアを繰り返し述べたものです。

驚異的な宇宙のパワー、小さな居住空間！

エージェント AI には、探索すべき魅力的でエキサイティングな新しい領域が数多くあります。解決すべき従来のデータ検索および処理の問題はまだたくさんありますが、LLM の新時代に初めて日の目を見るようになったまったく新しい種類の課題もあります。私たちが現在取り組んでいる差し迫った問題の多くは、コンテキストエンジニアリング、つまり、LLM の限られた作業メモリ空間を圧迫することなく、必要な追加のコンテキスト情報を取得することに関係しています。

さまざまなツール (および他のエージェント) にアクセスできる半自律エージェントの柔軟性により、AI を実装するための非常に多くの新しいアイデアが生まれ、さまざまな方法でそれらを組み合わせることができるのかを推測するのは困難です。現在の研究のほとんどはコンテキストエンジニアリングの分野に属し、大量のコンテキストを処理および追跡できるメモリ管理構造の構築に重点を置いています。これは、LLM に解決してほしい深い思考の問題には、記憶することが極めて重要となる、複雑さが増し、実行時間が長く、多段階の思考ステップが含まれるためです。

この分野で現在行われている多くの実験では、エージェントの口を満たすための最適なタスク管理とツール構成を見つけようとしています。エージェントの推論チェーンにおける各ツール呼び出しは、そのツールの機能を実行するための計算と、制限されたコンテキストウィンドウへの影響の両方の点で累積的なコストを発生させます。LLM エージェントのコンテキストを管理する最新の技術の一部は、長時間実行されるタスクの蓄積されたコンテキストを圧縮/要約すると損失が 大きくなりすぎる「 コンテキストの崩壊」などの意図しない連鎖効果を引き起こしています。望ましい結果は、貴重なコンテキストウィンドウのメモリ領域に余分な情報が漏れることなく、簡潔で正確なコンテキストを返すツールです。

可能性が多すぎる

私たちはツール/コンポーネントを再利用するための柔軟性を備えた職務の分離を望んでいるため、特定のデータソースに接続するための専用のエージェントツールを作成することは完全に理にかなっています。各ツールは、1 つのタイプのリポジトリ、1 つのタイプのデータストリーム、または 1 つのユースケースのクエリに特化できます。しかし、注意してください。時間や費用を節約し、何かが可能であると証明しようとすると、LLM をフェデレーションツールとして使用する強い誘惑に駆られるでしょう... やめてください。私たちは以前にもその道を歩んだことがあります。フェデレーションクエリは、受信したクエリをリモートリポジトリが理解できる構文に変換する「ユニバーサルトランスレータ」のように機能し、その後、複数のソースからの結果を何らかの方法で合理化して一貫した応答を生成する必要があります。技術としてのフェデレーションは小規模では 問題なく機能しますが、大規模で、特にデータがマルチモーダルである場合、フェデレーションは大きすぎるギャップを埋めようとします。

エージェントの世界では、エージェントがフェデレーターとなり、ツール (MCP 経由) がさまざまなリソースへの手動で定義された接続となります。専用のツールを使用して接続されていないデータソースにアクセスすることは、クエリごとにさまざまなデータストリームを動的に統合する強力な新しい方法のように思えるかもしれませんが、ツールを使用して複数のソースに同じ質問をすると、解決するよりも多くの問題が発生する可能性があります。これらのデータソースはそれぞれ、その下にある異なるタイプのリポジトリである可能性があり、それぞれが内部のデータを取得、ランク付け、保護するための独自の機能を備えています。もちろん、リポジトリ間のこうした差異、つまり「インピーダンスの不一致」により、処理負荷が増加します。また、矛盾する情報やシグナルが生じる可能性があり、スコアの不一致のように一見無害に見えるものでも、返されたコンテキストの重要性が大きく損なわれ、最終的に生成された応答の関連性に影響する可能性があります。

コンテキストスイッチはコンピュータにとっても難しい

エージェントを任務に送り出す場合、多くの場合、最初の任務はエージェントがアクセスできるすべての関連データを見つけることです。人間の場合と同様に、エージェントが接続する各データソースが類似していない分散した応答を返すと、取得したコンテンツから重要なコンテキストビットを抽出することに関連する認知負荷 (まったく同じ種類ではありませんが) が発生します。これには時間と計算がかかり、エージェントのロジックチェーンでは少しずつ蓄積されていきます。このことから、 MCPについて議論されているように、ほとんどのエージェントツールは、API (既知の入力と出力を持つ分離された関数で、さまざまな種類のエージェントのニーズをサポートするように調整された) のように動作する必要があるという結論に至ります。実際、 LLM にはコンテキストのためのコンテキストが必要であることにも気づき始めています。特に、自然言語を構造化構文に翻訳するようなタスクでは、参照できるスキーマがあれば、LLM は意味の点と点を結びつけるのがはるかに上手です (まさに RTFM!)。

7回裏ストレッチ！

ここでは、 LLM がデータの取得とクエリに与えた影響と、チャットウィンドウがエージェント AI エクスペリエンスへとどのように成熟しているかについて説明しました。これら 2 つのトピックを組み合わせて、最新の検索機能と取得機能を使用してコンテキストエンジニアリングの結果を改善する方法を見てみましょう。パート III へ進みます: コンテキストエンジニアリングにおけるハイブリッド検索の威力!

Azure AKS Automatic に Elasticsearch をデプロイする方法

Eduard Martin — Fri, 14 Nov 2025 00:00:00 GMT

この記事は、さまざまなインフラストラクチャを使用して Elasticsearch をインストールする方法を説明するシリーズの一部です。

ECK はマーケットプレイスベースの Elastic Cloud ソリューションよりも大幅に多くの労力を必要としますが、Kubernetes オペレーターがシステムオーケストレーションとノードのスケーリングを処理するため、VM を自分でデプロイするよりも自動化されています。

今回は、Automatic を使用して Azure Kubernetes Service (AKS) を操作します。他の記事では、 Azure VMとAzure Marketplace の使用方法について学習します。

AKS Automatic とは何ですか?

Azure Kubernetes Service (AKS) は、クラスターのセットアップを自動的に管理し、リソースを動的に割り当て、Kubernetes の柔軟性を維持しながらセキュリティのベストプラクティスを統合するため、開発者はコンテナーイメージからデプロイされたアプリケーションまでを数分以内に実行できます。

AKS Automatic は、クラスター管理のオーバーヘッドの大部分を排除し、シンプルさと柔軟性のバランスを適切にとります。適切な選択はユースケースによって異なりますが、次のことを計画すると決定が容易になります。

テスト環境をデプロイする:デプロイは高速かつ簡単なので、簡単な実験や短期間のクラスターに最適です。
厳密な VM、ストレージ、またはネットワーク要件なしで作業: AKS Automatic では定義済みのデフォルトが提供されるため、それがニーズに合えば、追加の構成を行う必要がなくなります。
Kubernetes を初めて使用する場合: AKS Automatic はクラスターのセットアップの大部分を処理するため、学習曲線が短縮され、チームはアプリケーションに集中できるようになります。

Elasticsearch では、Elastic Stack の Kubernetes デプロイメントオーケストレーションを簡素化する公式 Elastic Kubernetes オペレーターであるElastic Cloud on Kubernetes (ECK) を使用します。

AKS Automaticの設定方法

1. Microsoft Azure ポータルにログインします。

2.右上の Cloud Shellボタンをクリックし、コンソールにアクセスしてそこから AKS クラスターをデプロイします。あるいは、 Azure Cloud Shell を使用することもできます。

チュートリアル中にプロジェクト ID を自分のものに更新することを忘れないでください。

AKS を開くと、上のスクリーンショットのようになります。

3. aks-preview Azure CLI 拡張機能をインストールします。このプレビューバージョンでは、クラスターの作成時に--sku automaticを選択できるようになり、AKS Automatic 機能が有効になります。

az extension add --name aks-preview

このメッセージが表示された場合、AKS 拡張機能が正しくインストールされたことを意味します。

4. az feature registerコマンドを使用して機能フラグを登録する

az feature register --namespace Microsoft.ContainerService --name AutomaticSKUPreview

作成した機能サブスクリプションの詳細が表示されます。

登録ステータスが「登録中」から「登録済み」に変わるまで確認します。登録が完了するまでに数分かかる場合があります。

az feature show --namespace Microsoft.ContainerService --name AutomaticSKUPreview

変更を伝播するにはaz provider registerを実行します。

az provider register --namespace Microsoft.ContainerService

5. リソースグループを作成する

リソースグループは、管理およびデプロイされる Azure リソースの論理グループです。

az group create --name elastic-resource --location eastus

6. Autopilot クラスターを作成します。これをmyAKSAutomaticCluster に名前を付け、先ほど作成したリソースグループを使用します。AKS がリソースを割り当てるには、 Standard_D4pds_v5 、 Standard_D4lds_v5 、 Standard_D4ads_v5 、 Standard_D4ds_v5 、 Standard_D4d_v5 、 Standard_D4d_v4 、 Standard_DS3_v2 、 Standard_DS12_v2 のいずれかの VM サイズで 16 個の vCPU が使用可能であることを確認してください。

az aks create \
    --resource-group elastic-resource \
    --name myAKSAutomaticCluster \
    --sku automatic \
    --generate-ssh-keys

* MissingSubscriptionRegistrationエラーが発生した場合は、不足しているサブスクリプションを使用して手順4に戻ってください。たとえば、 The subscription is not registered to use namespace ' microsoft.insights '実行中のサブスクリプションが必要です。az provider register --namespace Microsoft.Insights.

対話型ログインに従ってください:

「az login」の実行を求めるメッセージが表示されます。そのコマンドを実行してから待つ必要があります。

7. 準備ができるまで待ちます。作成には約10分かかります。

8. kubectl コマンドラインアクセスを構成します。

az aks get-credentials --resource-group elastic-resource --name myAKSAutomaticCluster

インストールした拡張機能によって AKS Automatic が有効になっていることに注意してください。

9. ノードがデプロイされたことを確認します。

kubectl get nodes

禁止エラーメッセージが表示されます。エラーからユーザー ID をコピーします。

10. ユーザーを AKS アクセス制御に追加します。

AKS ID を取得します。コマンドからの出力をコピーします。

az aks show --resource-group elastic-resource  --name myAKSAutomaticCluster --query id --output tsv

AKS ID とユーザーのプリンシパル ID を使用してロールの割り当てを作成します。

az role assignment create --role "Azure Kubernetes Service RBAC Cluster Admin" --assignee  --scope

11. ノードが再度デプロイされたことを確認します。

kubectl get nodes

12. Kubernetes (ECK) オペレーターに Elastic Cloud をインストールします。

# Install ECK Custom Resource Definitions
kubectl create -f https://download.elastic.co/downloads/eck/2.16.1/crds.yaml

# Install the ECK operator
kubectl apply -f https://download.elastic.co/downloads/eck/2.16.1/operator.yaml

13. デフォルト値を使用して、単一ノードの Elasticsearch インスタンスを作成しましょう。

cat <

デフォルトの AKS マシンのvm.max_map_count値が低すぎるため、 nmapを無効にしました。本番環境では無効にすることは推奨されませんが、 vm.max_map_countの値を増やすことは推奨されます。これを行う方法の詳細については、ここを参照してください。

14. Kibana シングルノードクラスターもデプロイしましょう。Kibana の場合は、ロードバランサーを追加します。これにより、デバイスから Kibana にアクセスするために使用できる外部 IP が提供されます。

cat <

デフォルトでは、AKS Automatic はロードバランサーをパブリックとして構成します。メタデータアノテーションを設定することで動作を変更できます。

service.beta.kubernetes.io/azure-load-balancer-internal: "true"

15. ポッドが実行中であることを確認します。

kubectl get pods

16.Elasticsearch のバージョン、ノード、健全性などのより具体的な統計情報を取得するには、 kubectl get elasticsearchとkubectl get kibanaを実行することもできます。

17. サービスにアクセスします。

kubectl get svc

これにより、EXTERNAL-IP の下に Kibana の外部 URLが表示されます。ロードバランサーのプロビジョニングには数分かかる場合があります。EXTERNAL-IP の値をコピーします。

18. 'elastic' ユーザーの Elasticsearch パスワードを取得します。

kubectl get secret quickstart-es-elastic-user -o=jsonpath='{.data.elastic}' | base64 --decode

19. ブラウザからKibana にアクセスします。

a. URL: https://:5601

b. ユーザー名:elastic

c. パスワード:c44A295CaEt44D6xIzN6Zs5m (前の手順から)

20.ブラウザから Elastic Cloud にアクセスすると、ようこそ画面が表示されます。

ノードの変更やサイズ変更など、Elasticsearch クラスターの仕様を変更する場合は、新しい設定で YML マニフェストを再度適用できます。

cat <

この例では、さらに 1 つのノードを追加し、RAM と CPU を変更します。ご覧のとおり、 kubectl get elasticsearchには 2 つのノードが表示されています。

Kibana にも同じことが当てはまります。

cat <

コンテナのCPU/RAMとNode.jsのメモリ使用量（ max-old-space-size ）を調整できます。

既存のボリュームクレームを縮小することはできないことに留意してください。アップデートを適用した後、オペレーターは最小限の中断時間で変更を加えます。

不要なコストを避けるために、テストが完了したらクラスターを忘れずに削除してください。

az aks delete --name myAKSAutomaticCluster --resource-group elastic-resource

`まとめ`

Azure AKS Automatic を ECK と併用すると、Elasticsearch と Kibana をデプロイするためのバランスの取れたソリューションが提供されます。これにより、運用の複雑さが軽減され、スケーリングと更新が自動化され、Kubernetes の柔軟性が活用されます。このアプローチは、インフラストラクチャの詳細をすべて手動で管理することなく、信頼性が高く、繰り返し可能で、保守可能なデプロイメントプロセスを求めるチームに最適であり、テスト環境と本番環境の両方にとって実用的な選択肢となります。

`今後の見通し`

Kubernetes について詳しく知りたい場合は、次の公式ドキュメントをご覧ください。



Elasticsearch で A2A プロトコルと MCP を使用して LLM エージェント ニュースルームを作成する: パート I
Justin Castilla — Thu, 13 Nov 2025 00:00:00 GMT
はじめに
現在の LLM 対応システムは、単一モデルのアプリケーションから、専門のエージェントが連携して、現代のコンピューティングではこれまで不可能と思われていたタスクを達成する複雑なネットワークへと急速に進化しています。これらのシステムの複雑さが増すにつれて、エージェントの通信とツールへのアクセスを可能にするインフラストラクチャが開発の主な焦点になります。これらのニーズに対応するために、マルチエージェント調整用のAgent2Agent (A2A)プロトコルと、標準化されたツールおよびリソース アクセス用のModel Context Protocol (MCP) という2 つの補完的なアプローチが登場しました。
それぞれの機能をいつ、またいつ単独で、調和して使用するかを理解することは、アプリケーションのスケーラビリティ、保守性、および有効性に大きな影響を与える可能性があります。この記事では、専門の LLM エージェントが協力してニュース記事の調査、執筆、編集、公開を行うデジタル ニュースルームの実際の例を通して、 A2Aの概念と実装について説明します。
付属のリポジトリはここにあります。セクション 5 の最後の方で、A2A の実際の動作の具体的な例を検討します。
要件
リポジトリは、A2A エージェントの Python ベースの実装で構成されています。Flask には API サーバーが用意されているほか、ログ記録や UI 更新のメッセージをルーティングする Event Hub というカスタム Python メッセージング サービスも用意されています。最後に、ニュースルームの機能をスタンドアロンで使用するための React UI が提供されます。実装を容易にするために、すべてが Docker イメージ内に含まれています。マシンで直接サービスを実行する場合は、次のテクノロジがインストールされていることを確認してください。
言語とランタイム
Python 13.12 - コアバックエンド言語
Node.js 18+ - オプションのReact UI
コアフレームワークと SDK:
A2A SDK 0.3.8 - エージェントの調整と通信
Anthropic SDK - AI生成のためのClaude統合
Uvicorn - エージェントを実行するためのASGIサーバー
FastMCP 2.12.5+ - MCP サーバーの実装
React 18.2 - フロントエンドUIフレームワーク
データと検索
Elasticsearch 9.1.1 以上- 記事のインデックス作成と検索
Docker のデプロイメント (オプションですが推奨)
Docker 28.5.1 以上
セクション 1: Agent2Agent (A2A) とは何ですか?
定義とコアコンセプト
Unknown block type "block", specify a component for it in the `components.types` option
公式仕様: https://a2a-protocol.org/latest/specification/
起源と進化
エージェント間通信、つまりマルチエージェント システムの概念は、数十年前に遡る分散システム、マイクロサービス、およびマルチエージェントの研究に根ざしています。分散型人工知能の初期の研究は、交渉、調整、共同作業ができるエージェントの基盤を築きました。これらの初期のシステムは、大規模な社会シミュレーション、学術研究、電力網管理に特化していました。
LLM が利用可能になり、運用コストが削減されたことで、Google や AI 研究コミュニティ全体の支援を受けて、マルチエージェント システムが「プロシューマー」市場で利用可能になりました。現在 Agent2Agent システムとして知られている A2A プロトコルの追加により、複数の大規模言語モデルが取り組みとタスクを調整する時代に合わせて特別に設計された最新の標準へと進化しました。
A2A プロトコルは、LLM が接続して通信するインタラクション ポイントに一貫した標準と原則を適用することで、エージェント間のシームレスな通信と調整を保証します。この標準化により、異なる開発者のエージェントが、異なる基盤モデルを使用して、効果的に連携できるようになります。
通信プロトコルは新しいものではなく、インターネット上で行われるほぼすべてのデジタル取引に広く定着しています。https://www.elastic.co/search-labsと入力した場合この記事にアクセスするためにブラウザにログインすると、TCP/IP、HTTP トランスポート、DNS ルックアップ プロトコルがすべて実行され、一貫したブラウジング エクスペリエンスが保証される可能性が高くなります。
主な特徴
A2A システムは、スムーズな通信を確保するためにいくつかの基本原則に基づいて構築されています。これらの原則に基づいて構築することで、異なる LLM、フレームワーク、プログラミング言語に基づくさまざまなエージェントがすべてシームレスに対話できるようになります。
主な原則は次の 4 つです。
メッセージパッシング: エージェントは、明確に定義されたプロパティとフォーマットを持つ構造化されたメッセージを通じて通信します。
調整: エージェントは、他のエージェントをブロックすることなく、タスクを互いに委任し、依存関係を管理することで、複雑なワークフローを調整します。
専門分野: 各エージェントは特定のドメインまたは機能に焦点を合わせ、その分野の専門家となり、そのスキルセットに基づいてタスクの完了を提供します。
分散状態: 状態と知識は集中化されるのではなくエージェント間に分散され、エージェントはタスクの状態と部分的な戻り値(成果物)の進捗状況を相互に更新する機能を持ちます。
ニュースルーム：実例
ジャーナリズムのさまざまな側面に特化した AI エージェントによって駆動されるデジタル ニュースルームを想像してみてください。
ニュースチーフ（コーディネーター/クライアント）：ストーリーを割り当て、ワークフローを監督する
記者エージェント：調査やインタビューに基づいて記事を書く
研究エージェント: 事実、統計、背景情報を収集します
アーカイブエージェント: Elasticsearchを使用して過去の記事を検索し、傾向を特定します
エディターエージェント: 記事の品質、スタイル、SEO最適化をレビューします
パブリッシャーエージェント: 承認された記事をCI/CD経由でブログプラットフォームに公開します。
これらのエージェントは単独では機能しません。ニュースチーフが再生可能エネルギーの導入についての記事を割り当てる場合、記者は統計を収集する研究者、草稿を確認する編集者、そして最終記事を公開する発行者を必要とします。この調整は A2A プロトコルを通じて行われます。
セクション2: A2Aアーキテクチャの理解
クライアントエージェントとリモートエージェントの役割
A2A アーキテクチャでは、エージェントは主に 2 つの役割を担います。クライアント エージェントは、タスクを策定し、システム内の他のエージェントに伝達する役割を担います。リモート エージェントとその機能を識別し、この情報を使用してタスクの委任について十分な情報に基づいた決定を下します。クライアント エージェントはワークフロー全体を調整し、タスクが適切に分散され、システムが目標に向かって進行することを保証します。
対照的に、リモート エージェントは、クライアントによって委任されたタスクを実行します。リクエストに応じて情報を提供したり特定のアクションを実行したりしますが、独自にアクションを開始することはありません。リモート エージェントは、割り当てられた責任を果たすために必要に応じて他のリモート エージェントと通信し、特殊な機能の共同ネットワークを作成することもできます。
私たちのニュースルームでは、ニュースチーフがクライアントエージェントとして機能し、レポーター、リサーチャー、エディター、パブリッシャーはリクエストに応答し、互いに調整するリモートエージェントとして機能します。
コアA2A機能
A2A プロトコルは、マルチエージェントのコラボレーションを可能にするいくつかの機能を定義します。
1. 発見
A2A サーバーは、クライアントが特定のタスクにいつどのようにサーバーを利用できるかがわかるように、その機能をアナウンスする必要があります。これは、エージェントの能力、入力、出力を記述する JSON ドキュメントであるエージェント カードを通じて実現されます。エージェント カードは、一貫性のあるよく知られたエンドポイント (推奨される/.well-known/agent-card.jsonエンドポイントなど) で利用できるようになり、クライアントはコラボレーションを開始する前にエージェントの機能を検出して照会できるようになります。
以下は、Elastic のカスタム アーカイブ エージェント「Archie Archivist」のエージェント カードの例です。Elastic などのソフトウェア プロバイダーは A2A エージェントをホストし、アクセス用の URL を提供していることに注意してください。
{
  "name": "Archie Archivist",
  "description": "Helps find historical news documents in the Elasticsearch Index of archived news articles and content.",
  "url": "https://xxxxxxxxxxxxx-abc123.kb.us-central1.gcp.elastic.cloud/api/agent_builder/a2a/archive-agent",
  "provider": {
    "organization": "Elastic",
    "url": "https://elastic.co"
  },
  "version": "0.1.0",
  "protocolVersion": "0.3.0",
  "preferred_transport": "JSONRPC",
  "documentationURL": "https://www.elastic.co/docs/solutions/search/agent-builder/a2a-server"
  "capabilities": {
    "streaming": false,
    "pushNotifications": false,
    "stateTransitionHistory": false
  },
  "skills": [
    {
      "id": "platform.core.search",
      "name": "platform.core.search",
      "description": "A powerful tool for searching and analyzing data within your Elasticsearch cluster.",
      "inputModes": ["text/plain", "application/json"],
      "outputModes": ["text/plain", "application/json"]
    },
    {
      "id": "platform.core.index_explorer",
      "name": "platform.core.index_explorer",
      "description": "List relevant indices, aliases and datastreams based on a natural language query.",
      "inputModes": ["text/plain", "application/json"],
      "outputModes": ["text/plain", "application/json"]
    }
  ],
  "defaultInputModes": ["text/plain"],
  "defaultOutputModes": ["text/plain"]
}
このエージェント カードでは、Elastic のアーカイブ エージェントのいくつかの重要な側面について説明します。エージェントは自身を「Archie Archivist」と名乗り、Elasticsearch インデックス内の過去のニュース文書の検索を支援するという目的を明確に述べています。カードはプロバイダー (Elastic) とプロトコル バージョン (0.3.0) を指定し、他の A2A 準拠エージェントとの互換性を確保します。最も重要なのは、 skills配列が、強力な検索機能やインテリジェントなインデックス探索など、このエージェントが提供する特定の機能を列挙していることです。各スキルはサポートする入力モードと出力モードを定義し、クライアントがこのエージェントと通信する方法を正確に理解できるようにします。このエージェントは Elastic の Agent Builder サービスから派生したもので、データ ストアからデータを取得するだけでなく、データ ストアと対話するためのネイティブ LLM 対応ツールと API エンドポイントのスイートを提供します。Elasticsearch の A2A エージェントへのアクセスについては、こちらをご覧ください。
2. 交渉
クライアントとエージェントは、適切なユーザー インタラクションとデータ交換を確保するために、コミュニケーション方法 (インタラクションがテキスト、フォーム、iframe、またはオーディオ/ビデオを介して行われるかどうか) について合意する必要があります。このネゴシエーションはエージェントのコラボレーションの開始時に行われ、ワークフロー全体にわたるエージェントの相互作用を管理するプロトコルを確立します。たとえば、音声ベースのカスタマー サービス エージェントはオーディオ ストリーム経由での通信をネゴシエートする可能性がありますが、データ分析エージェントは構造化された JSON を好む可能性があります。交渉プロセスにより、両当事者がそれぞれの能力と現在のタスクの要件に適した形式で情報を効果的に交換できるようになります。
上記の JSON スニペットにリストされている機能にはすべて入力スキーマと出力スキーマがあり、これらによって、他のエージェントからこのエージェントと対話する方法の期待値が設定されます。
3. タスクと状態の管理
クライアントとエージェントには、タスク実行全体を通じてタスクのステータス、変更、依存関係を通信するためのメカニズムが必要です。これには、タスクの作成と割り当てから進捗状況の更新とステータスの変更までのタスクのライフサイクル全体の管理が含まれます。一般的なステータスには、保留中、進行中、完了、失敗などの状態が含まれます。また、システムは、依存タスクが開始する前に前提条件となる作業が完了していることを確認するために、タスク間の依存関係を追跡する必要があります。エラー処理と再試行ロジックも重要なコンポーネントであり、システムが障害から正常に回復し、主な目標に向かって前進し続けることを可能にします。
タスクメッセージの例:
{
  "message_id": "msg_789xyz",
  "message_type": "task_request",
  "sender": "news_chief",
  "receiver": "researcher_agent",
  "timestamp": "2025-09-30T10:15:00Z",
  "payload": {
    "task_id": "task_456abc",
    "capability": "fact_gathering",
    "parameters": {
      "query": "renewable energy adoption rates in Europe 2024",
      "sources": ["eurostat", "iea", "ember"],
      "depth": "comprehensive"
    },
    "context": {
      "story_id": "story_123",
      "deadline": "2025-09-30T18:00:00Z",
      "priority": "high"
    }
  }
}
このサンプル タスク メッセージは、A2A 通信のいくつかの重要な側面を示しています。
メッセージ構造には、一意のメッセージ識別子、送信されるメッセージの種類、送信者と受信者の識別、追跡およびデバッグ用のタイムスタンプなどのメタデータが含まれます。
ペイロードには実際のタスク情報が含まれており、リモート エージェントで呼び出される機能を指定し、その機能を実行するために必要なパラメータを提供します。
コンテキストセクションでは、受信側エージェントが広範なワークフローを理解するのに役立つ追加情報が提供されます。これには、エージェントがリソースを割り当てて作業をスケジュールする方法を示す期限や優先度レベルなどが含まれます。
4. コラボレーション
クライアントとエージェントは、動的かつ構造化されたインタラクションをサポートし、エージェントがクライアント、他のエージェント、またはユーザーに説明、情報、またはサブアクションを要求できるようにする必要があります。これにより、エージェントが最初の指示が曖昧な場合にフォローアップの質問をしたり、より適切な決定を下すために追加のコンテキストを要求したり、より適切な専門知識を持つ他のエージェントにサブタスクを委任したり、完全なタスクに進む前にフィードバック用の中間結果を提供したりできる共同作業環境が作成されます。この多方向のコミュニケーションにより、エージェントは孤立して作業するのではなく、継続的な対話に参加してより良い結果を得ることができます。
分散型ピアツーピア通信
A2A は、エージェントが異なる組織によってホストされ、一部のエージェントが社内で管理され、他のエージェントがサードパーティのサービスによって提供される分散通信を可能にします。これらのエージェントは、複数のクラウド プロバイダーまたはオンプレミスのデータ センターにまたがる可能性のある、さまざまなインフラストラクチャで実行できます。エージェントによっては、GPT モデルを活用したエージェント、Claude を活用したエージェント、オープンソースの代替手段を活用したエージェントなど、基盤となる LLM が異なる場合があります。エージェントは、データ主権の要件に準拠したり、待ち時間を削減したりするために、異なる地理的領域にまたがって動作する場合もあります。この多様性にもかかわらず、すべてのエージェントは情報を交換するための共通の通信プロトコルに同意し、実装の詳細に関係なく相互運用性を保証します。この分散アーキテクチャにより、システムの構築と展開に柔軟性が提供され、組織は特定のニーズに合わせて最適なエージェントとインフラストラクチャを組み合わせることができます。
これはニュースルーム アプリケーションの最終的なアーキテクチャです。
セクション3: モデルコンテキストプロトコル (MCP)
定義と目的
モデル コンテキスト プロトコル (MCP) は、Anthropic によって開発された標準化されたプロトコルであり、ユーザー定義のツール、リソース、プロンプト、その他の補足的なコードベースの追加機能を使用して個々の LLM を強化および強化します。MCP は、言語モデルと、タスクを効果的に完了するために必要な外部リソースとの間のユニバーサル インターフェイスを提供します。この記事では、ユースケース、新たなトレンド、Elastic 独自の実装の例を挙げて、MCP の現状を概説します。
MCPのコアコンセプト
MCP は、次の 3 つの主要コンポーネントを持つクライアント サーバー アーキテクチャで動作します。
クライアント: MCP サーバーに接続してその機能にアクセスするアプリケーション (Claude Desktop やカスタム AI アプリケーションなど)。
サーバー: 言語モデルにリソース、ツール、プロンプトを公開するアプリケーション。各サーバーは、特定の機能またはデータ ソースへのアクセスを提供することに特化しています。ツール: モデルがデータベースの検索、外部APIの呼び出し、データに対する変換の実行などのアクションを実行するために呼び出すことができるユーザー定義関数
リソース:モデルが読み取り可能なデータ ソース。動的または静的データが提供され、URI パターン (REST ルートに類似) 経由でアクセスされます。
プロンプト:特定のタスクを実行するためにモデルをガイドする変数を含む再利用可能なプロンプト テンプレート。
リクエスト・レスポンスパターン
MCP は、REST API に似た、使い慣れた要求と応答の相互作用パターンに従います。クライアント (LLM) がリソースを要求するかツールを呼び出すと、MCP サーバーが要求を処理して結果を返します。LLM はこれを使用してタスクを続行します。周辺サーバーを備えたこの集中型モデルは、ピアツーピアのエージェント通信に比べて、よりシンプルな統合パターンを提供します。
ニュースルームのMCP
私たちのニュースルームの例では、個々のエージェントが MCP サーバーを使用して必要なツールとデータにアクセスします。
研究者エージェントは以下を使用します:ニュース API MCP サーバー (ニュース データベースへのアクセス)
ファクトチェックMCPサーバー（信頼できる情報源との照合による主張の検証）
学術データベース MCP サーバー (学術論文と研究)
レポーターエージェントは以下を使用します:スタイルガイド MCP サーバー (ニュースルームの執筆基準)
テンプレート MCP サーバー (記事テンプレートとフォーマット)
画像ライブラリ MCP サーバー (ストック写真とグラフィック)
エディターエージェントは以下を使用します:文法チェッカーMCPサーバー（言語品質ツール）
盗作検出MCPサーバー（独創性検証）
SEO分析MCPサーバー（見出しとキーワードの最適化）
Publisher Agent は以下を使用します:CMS MCP サーバー (コンテンツ管理システム API)
CI/CD MCP サーバー (デプロイメント パイプライン)
Analytics MCP サーバー (追跡と監視)

セクション4: アーキテクチャの比較
A2Aを使用する場合
A2A アーキテクチャは、真のマルチエージェントコラボレーションを必要とするシナリオに優れています。調整を必要とする複数ステップのワークフローでは、特にタスクに複数の順次または並列ステップが含まれる場合、反復と改良が必要なワークフロー、およびチェックポイントと検証のニーズがあるプロセスの場合に、A2A から大きなメリットが得られます。私たちのニュースルームの例では、ストーリーのワークフローでは記者が記事を書く必要がありますが、特定の事実に対する信頼性が低い場合は研究者に繰り返し報告し、その後編集者に進み、最終的に発行者に渡す必要がある場合があります。
複数の領域にわたるドメイン固有の特化は、A2A のもう 1 つの強力な使用例です。より大きなタスクを達成するためにさまざまな分野の複数の専門家が必要であり、各エージェントがさまざまな側面に関する深いドメイン知識と専門的な推論機能を提供する場合、A2A はそれらの接続を行うために必要な調整フレームワークを提供します。ニュースルームはこれを完璧に例証しています。リサーチャーは情報収集、レポーターは執筆、編集者は品質管理を専門としており、それぞれが異なる専門知識を持っています。
自律的なエージェントの動作の必要性により、A2A は特に価値が高まります。独立した意思決定を行い、変化する状況に基づいて積極的な行動を示し、ワークフロー要件に動的に適応できるエージェントは、A2A アーキテクチャで成功します。特化された機能の水平スケーリングも重要な利点の 1 つです。単一の万能エージェントではなく、複数の特化エージェントが連携して動作し、同じエージェントの複数のインスタンスがサブタスクを非同期的に処理できます。たとえば、ニュースルームでニュース速報を取材しているとき、複数の記者エージェントが同時に同じニュースのさまざまな角度から取材することがあります。
最後に、真のマルチエージェントコラボレーションを必要とするタスクは A2A に最適です。これには、陪審員としての LLM 評価メカニズム、合意形成および投票システム、および最善の結果に到達するために複数の視点が必要となる共同問題解決が含まれます。
MCPを使用する場合
モデル コンテキスト プロトコルは、単一の AI モデルの機能を拡張する場合に最適です。単一の AI モデルが複数のツールやデータ ソースにアクセスする必要がある場合、MCP は、集中型の推論と分散ツール、および簡単なツール統合を組み合わせた完璧なソリューションを提供します。私たちのニュースルームの例では、研究者エージェント (1 つのモデル) は、ニュース API、ファクトチェック サービス、学術データベースなど、標準化された MCP サーバーを介してアクセスされる複数のデータ ソースにアクセスする必要があります。
ツール統合の広範な共有と再利用性が重要になる場合は、標準化されたツール統合が優先されます。MCP は、一般的な統合の開発時間を大幅に短縮する、事前に構築された MCP サーバーのエコシステムを備えているため、この点で優れています。シンプルさと保守性が求められる場合、MCP の要求応答パターンは開発者に馴染みがあり、分散システムよりも理解やデバッグが容易で、運用上の複雑さも少なくなります。
最後に、MCP は、システムとのリモート通信を容易にするためにソフトウェア プロバイダーによって提供されることがよくあります。プロバイダーが提供するこれらの MCP サーバーは、独自のシステムへの標準化されたインターフェースを提供しながら、オンボーディングと開発時間を大幅に短縮し、カスタム API 開発よりも統合をはるかに簡単にします。
両方を使用する場合 (A2A ❤️ の MCP)
MCP 統合に関する A2A ドキュメントに記載されているように、多くの高度なシステムは A2A と MCP を組み合わせることでメリットを得られます。調整と標準化の両方を必要とするシステムは、ハイブリッド アプローチに最適です。A2A はエージェントの調整とワークフロー オーケストレーションを処理し、MCP は個々のエージェントにツール アクセスを提供します。私たちのニュースルームの例では、エージェントは A2A を介して調整し、ワークフローは記者から研究者、編集者、そして発行者へと移行します。ただし、各エージェントは専用のツール用に MCP サーバーを使用するため、アーキテクチャが明確に分離されます。
ツール アクセスにそれぞれ MCP を使用する複数の特殊エージェントは、A2A によって処理されるエージェント調整レイヤーと、MCP によって管理されるツール アクセス レイヤーがある一般的なパターンを表します。このように関心事を明確に分離することで、システムの理解と保守が容易になります。
両方のアプローチを組み合わせることによる利点は非常に大きいです。特殊化、自律性、並列処理などのマルチエージェント システムの組織的な利点が得られると同時に、ツールの統合やリソース アクセスなどの MCP の標準化とエコシステムの利点も享受できます。エージェント調整 (A2A) とリソース アクセス (MCP) は明確に区別されており、重要なのは、API アクセスなどの小規模なタスクのみには A2A は必要ないことです。MCP は、マルチエージェント オーケストレーションのオーバーヘッドなしで、これらのタスクを効率的に処理します。
FAQ: A2A vs. MCP - ユースケース
            
              
                
                    
                      機能 エージェント2エージェント（A2A） モデルコンテキストプロトコル（MCP） ハイブリッド（A2A + MCP）
                    
                    
                      主な目標 マルチエージェント調整: 専門エージェントのチームが、複雑な複数ステップのワークフローで連携できるようにします。 単一エージェントの拡張: 外部ツール、リソース、およびデータを使用して、単一の LLM/エージェントの機能を拡張します。 組み合わせた強み: A2A がチームのワークフローを処理し、MCP が各チーム メンバーにツールを提供します。
                    
                    
                      ニュースルームチームの例 ワークフロー チェーン: ニュース チーフ → レポーター → リサーチャー → 編集者 → 発行者。これは調整レイヤーです。 個々のエージェントのツール: スタイル ガイド サーバーとテンプレート サーバーにアクセスする Reporter Agent (MCP 経由)。これはツール アクセス レイヤーです。 完全なシステム: 記者は編集者 (A2A) と連携し、画像ライブラリ MCP サーバーを使用して記事のグラフィックを検索します。
                    
                    
                      いつどれを使うか 真のコラボレーション、反復、改良、または専門知識を複数のエージェントに分割する必要がある場合。 1 つのエージェントが複数のツールやデータ ソースにアクセスする必要がある場合、または独自のシステムとの標準化された統合が必要な場合。 マルチエージェント システムの組織的利点と、MCP の標準化およびエコシステムの利点が必要な場合。
                    
                    
                      コアベネフィット 自律性とスケーリング: エージェントは独立して決定を下すことができ、システムは特殊な機能の水平スケーリングを可能にします。 シンプルさと標準化: 集中化された推論によりデバッグと保守が容易になり、リソースに対する汎用的なインターフェースが提供されます。 関心事の明確な分離: システムを理解しやすくなります: A2A = チームワーク、MCP = ツール アクセス。
                    
              
            
          まとめ
これは、データとツールへのサポートと外部アクセスを提供するために MCP サーバーで強化された A2A ベースのエージェントの実装を扱った 2 部構成の最初のセクションです。次の部分では、実際のコードを調べて、オンライン ニュースルームのアクティビティをエミュレートするためにそれらが連携して動作する様子を示します。どちらのフレームワークも、それ自体で非常に有能で柔軟性に優れていますが、連携して動作することで、どれだけ互いを補完し合うかがわかります。


コンテキストのためのYou Know - パート1：ハイブリッド検索とコンテキストエンジニアリングの進化
Woody Walton — Wed, 12 Nov 2025 00:00:00 GMT
私たちの新しいエージェントAIの世界
私たちの多くと同じように、私も AI の能力が進化している速さに興奮すると同時に驚いています。大規模言語モデル (LLM) とベクトル検索によって、キーワードで検索する必要がなくなったセマンティック革命が初めて実現しました。その後、LLM は、チャット インターフェースを使用して自然言語によるリクエストを応答に変換し、膨大な知識ベースから簡単に利用できる要約を抽出するなど、データと対話する新しい方法を教えてくれました。私たちは今（すでに！）「エージェント AI」ワークフローの形で自動化された LLM 駆動型ロジックが始まります。このワークフローは、受信したリクエストを意味的に理解し、実行する手順を推論し、利用可能なツールから選択してアクションを反復的に実行し、目標を達成します。
エージェント AI の可能性により、私たちは、主に「プロンプト エンジニアリング」を使用して生成 AI のインタラクションを形成することから、エージェント ツールが LLM が応答を生成する際に考慮する必要がある最も関連性の高い効率的な追加情報を取得できるようにする方法に重点を置くように進化することを余儀なくされています。つまり、「コンテキスト エンジニアリング」が次のフロンティアです。ハイブリッド検索は、関連するコンテキストを明らかにするための最も強力で柔軟な手段であり、Elastic の Search AI プラットフォームは、コンテキストエンジニアリングに役立つデータを活用するまったく新しい方法を実現します。この記事では、LLM が情報検索の世界をどのように変えたかを 2 つの角度から説明し、さらに、LLM がどのように連携してより優れた成果を上げることができるかについて説明します。カバーすべき領域はかなり広いです…
パート1: LLMが検索に与えた影響
まず、LLM が情報にアクセスし取得する方法をどのように変えたかという観点から始めましょう。
私たちの語彙の遺産
私たちは皆、長い間、ある程度制限された語彙検索の世界で（できるだけうまく）生きてきました。検索は、調査をしたり新しいプロジェクトを開始したりするときに最初に使用するツールであり、最近まで、語彙検索エンジンが理解できる方法でクエリを言い表すのは私たち次第でした。語彙検索は、コンテンツが構造化されているか非構造化されているかに関係なく、何らかの形式のクエリ用語をドキュメント コーパスで見つかったキーワードと一致させることに依存します。語彙検索で文書がヒットとして返されるためには、そのキーワードに一致している必要があります (または、概念的なつながりを作るために同義語リストや辞書などの制御された語彙が必要です)。
POST my-index/_search
{
  "size": 10,
  "query": {
    "semantic": {
      "query": "machine learning applications",
      "field": "semantic-content-field"
    }
  }
}
語彙の 複数一致 クエリの 例
少なくとも検索エンジンには、関連性スコア付きのヒットを返す機能があります。検索エンジンは、インデックスされたデータを効果的にターゲットするための豊富なクエリ構文オプションと、ユーザーのクエリ構文の意図に応じて結果をスコア付けする組み込みの関連性アルゴリズムを提供します。検索エンジンは、関連性ランキング アルゴリズムの数十年にわたる進歩の恩恵を受けており、クエリとの関連性に基づいてスコア付けされ、並べ替えられた結果を提供できる効率的なデータ検索プラットフォームとなっています。データを取得する主な方法として SQL を使用するデータベースやその他のシステムは、ここでは不利です。データベース クエリには関連性の概念がなく、せいぜいアルファベット順または数字順に結果を並べ替えることしかできないからです。良いニュースとしては、これらのキーワードでヒットするものがすべて得られる (リコール) ことですが、それらは必ずしも、検索を求めた理由に対して役立つ順序 (精度) になっているわけではありません。これは重要なポイントです。すぐにわかります…
（意味論的）ドラゴンの登場
キーワード検索の代替として情報のベクトル表現の可能性は、かなり長い間研究されてきました。ベクトルは、キーワードのみのコンテンツ一致モードから抜け出すことができるため、大きな可能性を秘めています。ベクトルは用語と重みの数値表現であるため、トレーニング領域で用語が互いにどのように関連しているかについての言語モデルの理解に基づいて、概念を数学的に近づけることができます。汎用ベクトル検索の長い遅延は、モデルが主に特定のドメインに限定されていたためであり、異なるコンテキスト内で用語が表す可能性のあるさまざまな概念を十分に理解できるほどモデルが大きくなかったのです。
ベクトル検索が実用的になったのは、数年前に大規模言語モデル (LLM) が登場し、トランスフォーマーとアテンションを使用してはるかに大量のデータをトレーニングできるようになったときでした。LLM のサイズと深さにより、ベクトルは最終的に十分なニュアンスを保存できるようになり、実際に意味を捉えることができるようになりました。理解の深さが突然増加したことにより、LLM は、以前はロックされていた多数の自然言語処理 (NLP) 機能を提供できるようになり、おそらく最も影響力があるのは、これまでのシーケンスの内容に基づいて、シーケンス内で最も可能性の高い次の用語を推測する機能です。推論は、生成 AI に人間に近いテキスト生成能力を与えるプロセスです。AI によって生成されたテキストは、LLM がトレーニング データ内で用語がどのように関連しているかを理解した上で生成され、また、リクエストのフレーズを使用して、用語が出現する可能性のあるさまざまなコンテキスト間の曖昧さを解消します。
生成 AI は魔法のようですが、LLM には品質と精度のエラー (一般に幻覚と呼ばれる) を引き起こす制限があります。幻覚は、LLM が真実に基づいた回答をするための情報にアクセスできない (または正しいコンテキストに誘導されない) 場合に発生します。そのため、LLM は役に立とうとして、代わりに自信に満ちたもっともらしい応答をでっち上げで生成します。原因の一部は、LLM が多様な情報の大規模な領域内で言語の使用法を学習する一方で、ある時点でトレーニングを停止する必要があるため、理解に適時性の要素があることです。つまり、モデルはトレーニングを停止した時点までの正確さしか認識できないということです。幻覚を引き起こすもう 1 つの要因は、モデルが非公開データ (パブリック インターネットで利用できないデータ) を認識しないことです。これは、データに特定の用語や命名法が含まれている場合に特に重要です。
ベクターデータベース
LLM は、テキスト埋め込みと呼ばれる手法を使用してコンテンツをモデル空間にベクトル化します。テキスト埋め込みとは、受信したトレーニングに基づいて、モデルの世界観内にコンテンツの意味を埋め込む、つまりマッピングすることを指します。埋め込み用のコンテンツを準備して処理するには、チャンク化とトークン化（およびサブワードトークン化）など、いくつかの手順が必要です。結果は通常、ベクトル空間内でのコンテンツ チャンクの意味に関するモデルの理解を表す密なベクトルのセットになります。チャンキングは、埋め込みを生成するためのモデルの処理制約の制限内にコンテンツを収めることを目的とした不正確なプロセスであり、文や段落のインジケーターなどのセマンティック構造を使用して関連するテキストをチャンクにグループ化しようとします。
チャンク化の必要性により、埋め込まれたドキュメントでは、個々のチャンクが同じドキュメントの他のチャンクと完全に関連付けられていないため、多少の意味的損失が生じる可能性があります。ニューラル ネットワークの本質的な不透明性により、この損失が悪化する可能性があります。LLM はまさに「ブラック ボックス」であり、トレーニング中に作成された用語と概念間の接続は非決定論的であり、人間が解釈することはできません。これにより、説明可能性、再現性、無意識の偏見に関する問題が発生し、信頼性と正確性が失われる可能性があります。それでも、クエリ時に特定のキーワードに縛られずにアイデアを意味的に結び付ける機能は非常に強力です。
POST my-index/_search 
{
  "size": 10, 
  "query": {
    "semantic": {
      "query": "machine learning applications",
      "field": "semantic-content-field"
    }
  }
} 
セマンティック クエリの 例
ベクター データベースに関して考慮すべきもう 1 つの問題があります。ベクター データベースは検索エンジンではなく、データベースなのです。ベクトル類似性検索を実行すると、クエリ用語がエンコードされ、モデルのベクトル空間内の一連の (埋め込み) 座標が検索されます。これらの座標は、ブルズアイとして使用され、ブルズアイに「最も近い」近傍にあるドキュメントが検索されます。つまり、ドキュメントのランク (または結果の配置) は、クエリの座標からのそのドキュメントの座標の計算された類似距離によって決まります。ランキングはどの方向を優先すべきでしょうか、考えられるコンテキストのうちどれがユーザーの意図に最も近いでしょうか?私がこれを例えると、映画「スターゲイト」のワンシーンになります。そのシーンでは、交差する 6 つの座標点が目的地 (的) を示しますが、ユーザーの主観的な意図を表す出発点の座標である「7 番目のシンボル」を知らないとそこに到達できません。したがって、ベクトルの相対的なランキングが常に拡大し区別のない類似性の領域に基づくのではなく、表現構文と関連性スコアリングを通じてクエリの主観的な意図を考慮することによって、段階的な主観的関連性の円筒に似たものを得ることができます。
LLM の推論機能は、クエリに対して最も可能性の高いコンテキストを識別するのに役立つ可能性がありますが、問題は、支援がなければ、着信クエリの座標はモデルが最初にトレーニングされた方法によってのみ決定できることです。
ある意味、ベクトル類似性は厳密なキーワード一致とは正反対の極限にあると言えます。その強みは用語の不一致の問題を克服する能力にありますが、それはほとんど欠点でもあります。LLM は関連する概念を区別するのではなく、統合する傾向があります。ベクトル類似性により、コンテンツを意味的に一致させる能力は向上しますが、モデルによって十分に明確にされていない正確なキーワードや具体的な詳細を見落とす可能性があるため、精度は保証されません。ベクトル類似性検索はそれ自体強力ですが、ベクトル データベースから取得した結果と他の取得方法の結果を相関させる方法が必要です。
再ランキング手法
ここで、結果セットを統一されたランク順に再スコアリングまたは正規化する、再ランク付けと呼ばれる一般的な手法について説明するのが良いでしょう。再ランク付けが必要になるのは、複数のソースからの結果や、ランク付け/スコアリング メカニズムが異なる (または SQL の場合はまったくメカニズムがない) 検索方法による場合です。また、非セマンティック ソースからの結果をユーザーのクエリに意味的に合わせるために再ランク付けを使用する場合もあります。再ランキングは第2段階の操作であり、何らかの初期検索方法（つまり、その後、検索クエリ (SQL、語彙検索、ベクトル検索) は、異なるスコアリング方法で並べ替えられます。
利用可能なアプローチはいくつかありますが、その中にはLearning-To-Rank (LTR)やReciprocal Rank Fusion (RRF)などがあります。LTR は、検索結果の特徴 (いいね、評価、クリックなど) をキャプチャし、それらを使用して結果にスコアを付けたり、結果をブーストしたり、バイアスをかけたりするのに役立ちます。RRFは、異なるクエリモダリティから返された結果をマージするのに最適です（例：語彙データベース検索とベクトルデータベース検索を 1 つの結果リストにまとめます。Elastic は、線形再ランキング方式を使用してスコアを調整する柔軟性も提供します。
ただし、最も効果的な再ランキング手法の 1 つは、セマンティック再ランキングです。これは、LLM のセマンティック理解を使用して、クエリと結果の両方のベクトル埋め込みを分析し、関連性スコアリング/再スコアリングを適用して最終的な順序を決定します。もちろん、セマンティック再ランク付けには再ランク付けモデルへの接続が必要です 。Elasticsearch は、組み込みモデル ( Elastic Rerank )、 インポートされた サードパーティモデル、または Cohere や Google Vertex AI などの外部でホストされるサービスを活用する 再ランク付け エンドポイントを作成できる推論 API を提供します。次に、リトリーバークエリ抽象化構文を使用して再ランク付けを実行できます。
POST my-index/_search 
{
  "size": 10,
  "retriever": {
    "text_similarity_reranker": {
      "retriever": {
        "rrf": {
          "retrievers": [
            {
              "standard": {
                "query": {
                  "multi_match": {
                    "query": "machine learning applications",
                    "fields": ["title", "content"]
                  }
                }
              }
            },
            {
              "knn": {
                "field": "semantic-content-field",
                "k": 10,
                "num_candidates": 100,
                "query_vector_builder": {
                  "text_embedding": {
                    "model_id": "my-text-embedding-model",
                    "model_text": "machine learning applications"
                  }
                }
              }
            }
          ],
          "rank_window_size": 50,
          "rank_constant": 20
        }
      }
    },
    "field": "content",
    "inference_id": "my-reranker",
    "inference_text": "machine learning applications",
    "rank_window_size": 20
  }
}
多段階リトリーバー再ランキング操作の例
素晴らしいですね。さまざまなソースからの結果の再ランキングを実行し、あらゆる種類のコンテンツの意味的理解に近づくことができます。意味的再ランキングは、計算コストと必要な処理時間の両方でコストがかかる可能性があり、そのため、意味的再ランキングは限られた数の結果に対してのみ実行できます。つまり、最初の結果をどのように取得するかが重要になります。
文脈検索方法が重要
主観的な意図は、結果の正確性を判断し、関連性を評価する上で重要な要素です。クエリを実行するユーザーの意図（柔軟な構文または第 2 段階の再ランク付けによって表現される）を考慮する機能がなければ、モデル空間内にすでにエンコードされている既存のコンテキストから選択することしかできません。このコンテキストの欠如に対処する一般的な方法は、検索拡張生成 (RAG)などの手法を使用することです。RAG の仕組みは、文脈的に関連するデータの事前クエリから返された追加の関連用語を含めることで、クエリの座標を効果的にシフトすることです。そのため、追加のコンテキストを提供するエンジンと、検索を実行するための初期方法が、コンテキストの正確さにとってさらに重要になります。
さまざまなコンテキスト取得方法と、それが RAG 操作にどのように役立つか、または悪影響を与えるかを確認しましょう。
検索エンジンを使用しないハイブリッド検索では、依然として主観的な関連性が欠けています。RAG を提供するプラットフォームが主に SQL ベースである場合 (ほとんどの「データ レイク」プラットフォームが含まれます)、最初の検索段階で関連性スコアリングが欠如しています。多くのデータ レイク プラットフォームは、独自のハイブリッド検索 (検索ではない) を提供しており、通常は SQL ベースの検索とベクター データベースの結果にセマンティック リランキングや RRF などの再ランキング手法を組み合わせています。単純なソートは主観的なランキング付けには明らかに不十分ですが、第 2 段階のセマンティック リランキング操作の基礎として使用した場合でも、第 1 段階の検索としての SQL では、セマンティック リランキングが「上位 k」のヒットに対してのみ実行される場合に問題が生じます。検索時に結果にスコアを付ける方法がなければ、最善の結果が実際に上位の結果にあるという保証はありません。
ベクトルの類似性だけでは RAG には不十分です。これは実際には、一連の問題が複合的に絡み合った結果です。つまり、埋め込みの損失、単純なチャンク化方法、類似性の計算方法、そして主観的な意図という重要な要素が欠落しているという問題です。RAG の主な目標の 1 つは、生成 AI のインタラクションを客観的な真実に基づいて確立することです。これにより、幻覚を防ぐと同時に、トレーニング中に認識されなかったプライベート情報を LLM に通知します。RAG を通じて提供される追加のコンテキストを使用して、手近の質問に答えるために最も重要であることがわかっている接続と詳細を考慮するように LLM を制限および指示できます。そのためには、意味論的アプローチと語彙的アプローチの両方を使用する必要があります。
ファイルベースの grep/regex RAG。エージェント AI の世界では、外部の検索プラットフォームではなく、RAG の grep と regex を介してローカル ファイルにアクセスする、大幅に拡大されたコンテキスト ウィンドウの使用を指摘する声も上がっています。その考え方は、はるかに大きなコンテキスト ウィンドウを利用できることで、LLM が、関連情報を収集するために断片的な情報や複数の検索方法/プラットフォームに頼るのではなく、独自の思考空間内で概念的なつながりを構築できるようになるというものです。理論上は、文書全体があれば文書セグメントよりも完全な画像が得られるというのは本当ですが、これは小さなデータドメインでのみ機能します (または、たとえば、 vibecodingにファイルを提供する場合)。また、その場合でも、最初の検索方法は、キーワードのみが一致するすべての文書をスキャンすることです。
検索は単なる回収以上のもの
検索エンジンは、クエリを可能な限り高速かつ柔軟に実行することを目的として構築されています。内部的には、さまざまな種類のデータをそれらのデータ型に適した方法で保存および取得するための特殊なデータ構造を利用します。Elasticsearchは、非構造化/全文語彙検索（一致、フレーズ、近接、複数一致）、高速キーワード（完全一致）マッチングとフィルタリング、数値範囲、日付、IPアドレスなど、基本的にすべてのタイプのデータの最適化された保存とクエリを提供し、ドキュメント構造（例：ネストされたドキュメントやフラット化されたドキュメントなど)。Elasticsearch は、スパース ベクトル タイプと密ベクトル タイプの両方を保存およびクエリできるネイティブ ベクトル データベースでもあり、ベクトル化されたコンテンツに関連する速度、スケーラビリティ、コストを改善しながら検索の忠実度を維持するための革新的な方法 ( Better Binary Quantization (BBQ)やDiskBBQなど) を継続的に模索しています。Elasticsearch プラットフォームには、組み込みのデータ回復力と高可用性も備わっており、検索可能なスナップショットなどのデータライフサイクル管理機能も含まれています。検索可能なスナップショットを使用すると、アクセス頻度の低いデータや長期保存データをコスト効率の高いオブジェクトストレージに保存しながらも、完全に検索可能です。
ハイブリッド検索はあらゆる面で最高です
ハイブリッド検索(単なるハイブリッド取得ではありません!)従来の語彙検索の長所と、LLM の意味理解およびベクトル類似性検索を組み合わせます。この相乗効果により、検索エンジンが提供する柔軟なクエリ構文オプション（意図主導型の構文オプションと関連性スコアリング、マルチモーダル データ検索、フィルタリング、集約、バイアスなど）を通じて、検索段階で関連性の高い結果をターゲットにすることができます。ES|QLやマルチステージリトリーバーなどの検索構文を使用すると、従来の検索とセマンティック検索、フィルター、複数の再ランキング手法をすべて 1 つのリクエストで柔軟に組み合わせることができます。
ハイブリッド検索の最大の利点の 1 つは、クエリで複数の異なるデータ タイプに同時に特殊な構文を使用できることです。これらのさまざまなクエリ構文は、結果の検索だけでなく、結果のフィルターや集計としても使用できます。たとえば、他の構文と頻繁に組み合わせられる最も一般的なクエリ タイプの 1 つは、地理空間分析です。特定のポイントから指定された距離内の地理座標を持つ結果をクエリしたり、地域別に結果の集計を要求したり、ゾーンへの出入りの動きを追跡してアラートを発する集計を実行したりできます。ハイブリッド検索を使用すると、構文を柔軟に組み合わせて、最も正確な方法で結果をターゲットにし、コンテキストに最も近いコンテンツを取得できます。
休憩
この最初の部分では、ベクトル検索によってデータの取得方法がどのように変化したかを説明し、LLM がデータの操作に使用するクエリ メカニズムにもたらした変化の基礎を説明します。LLM がコンテキストを失うことなく理解できるように、これを複数の部分に分割する必要があったと仮定します... ;-)これがなぜ重要なのかについては、パート II: エージェント AI とコンテキスト エンジニアリングの必要性で詳しく説明し、パート III ではハイブリッド検索について再び説明します。


Elasticsearch で構造化ドキュメントの再帰チャンクを構成する
Daniel Rubinstein — Tue, 11 Nov 2025 00:00:00 GMT
8.16 以降、ユーザーは長いドキュメントをセマンティック テキスト フィールドに取り込むときに使用するチャンキング戦略を構成できるようになりました。9.1 / 8.19 では、正規表現のリストを使用してドキュメントをチャンク化する、新しい構成可能な再帰チャンク化戦略を導入しました。チャンク化の目的は、長いドキュメントを関連するコンテンツをカプセル化するセクションに分割することです。既存の戦略では、テキストを単語/文の粒度で分割しますが、構造化された形式 (例:Markdown では、区切り文字列で定義されたセクション内に関連コンテンツが含まれることがよくあります (例:ヘッダー)。このような種類のドキュメントでは、構造化ドキュメントの形式を活用してより適切なチャンクを作成するための再帰チャンキング戦略を導入しています。
再帰チャンキングとは何ですか?
再帰チャンク化では、指定されたセクション分離パターンのリストを反復処理して、必要な最大チャンク サイズを満たすまで、ドキュメントを段階的に小さなセグメントに分割します。
再帰チャンクを構成するにはどうすればよいですか?
以下は、再帰チャンク化に対してユーザーが指定できる構成可能な値です。
(必須) max_chunk_size : チャンク内の最大単語数。
次のいずれか:separators: ドキュメントをチャンクに分割するために使用される正規表現文字列パターンのリスト。
separator_group: 特定の種類のドキュメントに使用するために Elastic によって定義された区切り文字のデフォルト リストにマップされる文字列。現在、 markdownとplaintextが利用可能です。
再帰チャンキングはどのように機能しますか?
入力ドキュメント、 max_chunk_size (単語単位で測定)、および区切り文字列のリストが与えられた場合の再帰チャンク化のプロセスは次のとおりです。
入力ドキュメントがすでに最大チャンク サイズ内である場合は、入力全体にわたる単一のチャンクを返します。
区切り文字の出現に基づいてテキストを潜在的なチャンクに分割します。潜在的なチャンクごとに:潜在的なチャンクが最大チャンク サイズ内である場合は、ユーザーに返すチャンクのリストに追加します。
それ以外の場合は、潜在的なチャンクのテキストのみを使用して、リスト内の次のセパレーターを使用して分割し、手順 2 から繰り返します。試す区切り文字がもう残っていない場合は、文ベースのチャンクに戻ります。
再帰チャンクの設定例
チャンク サイズとは別に、再帰チャンク化の主な構成は、ドキュメントを分割するために使用するセパレーターを選択することです。どこから始めればよいかわからない場合は、Elasticsearch では一般的なユースケースに使用できるデフォルトのセパレーター グループがいくつか用意されています。
セパレーターグループの活用
セパレーター グループを利用するには、チャンク設定を構成するときに使用するグループの名前を指定するだけです。例えば：
"chunking_settings": {
    "strategy": "recursive",
    "max_chunk_size": 25,
    "separator_group": "plaintext"
}
これにより、区切りリスト["(?を利用する再帰的なチャンク化戦略が提供されます。これは、2 つの改行文字とそれに続く 1 つの改行文字で分割する、一般的なプレーン テキスト アプリケーションに適しています。
セパレーターリストを利用するセパレーターグループmarkdownも提供しています。
[
"\n# ",
       "\n## ",
       "\n### ",
       "\n#### ",
       "\n##### ",
       "\n###### ",
       "\n^(?!\\s*$).*\\n-{1,}\\n",
       "\n^(?!\\s*$).*\\n={1,}\\n"
]
この区切りリストは、6 つの見出しレベルとセクション区切り文字のそれぞれに分割する一般的なマークダウンの使用例に適しています。
リソース (推論エンドポイント/セマンティック テキスト フィールド) を作成すると、その時点のセパレーター グループに対応するセパレーターのリストが構成に保存されます。セパレーター グループが後日更新されても、既に作成されたリソースの動作は変更されません。
カスタム区切りリストの利用
定義済みの区切り文字グループのいずれかが使用ケースに適していない場合は、ニーズに合った区切り文字のカスタム リストを定義できます。区切りリスト内に正規表現を指定できることに注意してください。以下は、カスタムセパレーターを使用して構成されたチャンク設定の例です。
"chunking_settings": {
    "strategy": "recursive",
    "max_chunk_size": 25,
    "separators": ["\n\n", "\n", ""]
}
上記のチャンク化戦略では、 2 つの改行文字、続いて 1 つの改行文字、最後に文字列“”で分割されます。
再帰チャンキングの実際の例
再帰チャンキングの実際の例を見てみましょう。この例では、上位 2 つのヘッダー レベルを使用してマークダウン ドキュメントを分割するセパレーターのカスタム リストとともに、次のチャンク設定を使用します。
"chunking_settings": {
    "strategy": "recursive",
    "max_chunk_size": 25,
    "separators": ["\n# ", "\n## "]
}
単純なチャンクなしの Markdown ドキュメントを見てみましょう。
ここで、上で定義したチャンク設定を使用してドキュメントをチャンク化してみましょう。
注: 各チャンク (チャンク 3 を除く) の末尾の改行は強調表示されませんが、実際のチャンク境界内に含まれます。
今すぐ再帰チャンキングを始めましょう!
この機能の利用方法の詳細については、チャンク設定の構成に関するドキュメントを参照してください。



Kibana に Elasticsearch クエリルール UI を導入
Jhon Guzmán — Fri, 07 Nov 2025 00:00:00 GMT
検索エンジンの役割は、関連性のある結果を返すことです。ただし、セールの強調、季節商品の優先、スポンサー商品の展示など、それ以上のビジネスニーズがあり、開発者は検索クエリでこれを常に実行できるとは限りません。
さらに、これらのユースケースは通常、時間に敏感であり、一般的な開発段階 (コード ブランチを作成してから新しいリリースを待つ) を実行するのは時間のかかるプロセスです。
では、このプロセス全体を API 呼び出しだけで、あるいは Kibana で数回クリックするだけで実行できたらどうなるでしょうか?
クエリルールUI
Elasticsearch 8.10 では、クエリ ルールとルール リトリーバーが導入されました。これらは、ルールに基づいてオーガニック検索結果のランキングに影響を与えずに、ピン留めされた結果をクエリに挿入するように設計されたツールです。宣言的かつシンプルな方法で、結果の上にビジネス ロジックを追加するだけです。
クエリ ルールの一般的な使用例は次のとおりです。
プロモーション対象商品やセール品の強調表示: セール中の商品やスポンサー商品を上部に表示します。
コンテキストまたは地理位置情報による除外: 地域の規制により表示が許可されていない場合は、特定のアイテムを非表示にします。
主要な結果を優先する: オーガニックランキングに関係なく、人気のある検索や固定検索が常に上位に表示されるようにします。
インターフェースにアクセスしてこれらのツールを操作するには、Kibana サイドメニューをクリックし、関連性の下にあるクエリルールに移動する必要があります。
クエリ ルール メニューが表示されたら、最初のルール セットの作成をクリックします。
次に、ルールセットに名前を付ける必要があります。
各ルールを定義するフォームには、次の 3 つの主要コンポーネントがあります。
基準: ルールを適用するために満たす必要がある条件。たとえば、「query_string フィールドに値Christmasが含まれている場合」や「country フィールドにCO の場合」などです。
アクション: これは、条件が満たされたときに発生する動作です。ピン留め（ドキュメントを上位の結果に固定する）したり、除外（ドキュメントを非表示にする）したりできます。
メタデータ: これらはクエリの実行時にクエリに付随するフィールドです。これらには、ユーザーの情報 (場所や言語など) や検索データ (query_string) を含めることができます。これらは、ルールを適用するかどうかを決定するための基準で使用される値です。
例: 人気商品
さまざまな商品を扱う電子商取引サイトがあると想像してみましょう。指標をチェックすると、コンソール カテゴリで最も売れているアイテムの 1 つが「DualShock 4 ワイヤレス コントローラー」であることがわかります。特に、ユーザーが「PS4」または「PlayStation 4」というキーワードを検索した場合に多く見られます。そこで、ユーザーがこれらのキーワードを検索するたびに、この製品を結果の最上位に表示することにしました。
まず、Bulk API リクエストを使用して各アイテムのドキュメントをインデックス化します。
POST _bulk
{ "index": { "_index": "products", "_id": "1" } }
{ "id": "1", "name": "PlayStation 4 Slim 1TB", "category": "console", "brand": "Sony", "price": 1200 }
{ "index": { "_index": "products", "_id": "2" } }
{ "id": "2", "name": "DualShock 4 Wireless Controller", "category": "accessory", "brand": "Sony", "price": 250 }
{ "index": { "_index": "products", "_id": "3" } }
{ "id": "3", "name": "PlayStation 4 Camera", "category": "accessory", "brand": "Sony", "price": 200 }
{ "index": { "_index": "products", "_id": "4" } }
{ "id": "4", "name": "PlayStation 4 VR Headset", "category": "accessory", "brand": "Sony", "price": 900 }
{ "index": { "_index": "products", "_id": "5" } }
{ "id": "5", "name": "Charging Station for DualShock 4", "category": "accessory", "brand": "Sony", "price": 80 }
クエリに介入しない場合、アイテムは通常 4 番目の場所に表示されます。クエリは次のとおりです。
GET products/_search
{
 "query": {
   "match": {
     "name": "PlayStation 4"
   }
 }
}
そして結果はこちらです
{
 "took": 1,
 "timed_out": false,
 "_shards": {
   "total": 1,
   "successful": 1,
   "skipped": 0,
   "failed": 0
 },
 "hits": {
   "total": {
     "value": 5,
     "relation": "eq"
   },
   "max_score": 0.6973252,
   "hits": [
     {
       "_index": "products",
       "_id": "3",
       "_score": 0.6973252,
       "_source": {
         "id": "3",
         "name": "PlayStation 4 Camera",
         "category": "accessory",
         "brand": "Sony",
         "price": 200
       }
     },
     {
       "_index": "products",
       "_id": "1",
       "_score": 0.6260078,
       "_source": {
         "id": "1",
         "name": "PlayStation 4 Slim 1TB",
         "category": "console",
         "brand": "Sony",
         "price": 1200
       }
     },
     {
       "_index": "products",
       "_id": "4",
       "_score": 0.6260078,
       "_source": {
         "id": "4",
         "name": "PlayStation 4 VR Headset",
         "category": "accessory",
         "brand": "Sony",
         "price": 900
       }
     },
     {
       "_index": "products",
       "_id": "2",
       "_score": 0.08701137,
       "_source": {
         "id": "2",
         "name": "DualShock 4 Wireless Controller",
         "category": "accessory",
         "brand": "Sony",
         "price": 250
       }
     },
     {
       "_index": "products",
       "_id": "5",
       "_score": 0.07893815,
       "_source": {
         "id": "5",
         "name": "Charging Station for DualShock 4",
         "category": "accessory",
         "brand": "Sony",
         "price": 80
       }
     }
   ]
 }
}
これを変更するためのクエリ ルールを作成しましょう。まず、次のようにルールセットに追加しましょう。
または同等のAPI リクエスト:
PUT _query_rules/my-rules
{
  "rules": [
    {
      "rule_id": "rule-1232",
      "type": "pinned",
      "criteria": [
        {
          "type": "exact",
          "metadata": "query_string",
          "values": [
            "PS4",
            "PlayStation 4"
          ]
        }
      ],
      "actions": {
        "docs": [
          {
            "_index": "products",
            "_id": "2"
          }
        ]
      }
    }
  ]
}
クエリでルールセットを使用するには、クエリ ルール タイプを使用する必要があります。この種のクエリは、主に次の 2 つの部分で構成されます。
GET /products/_search
{
 "retriever": {
   "rule": {
     "retriever": {
       "standard": {
         "query": {
           "match": { "name": "PlayStation 4" }
         }
       }
     },
     "match_criteria": {
       "query_string": "PlayStation 4"
     },
     "ruleset_ids": ["my-rules"]
   }
 }
}
match_criteria : ユーザーのクエリと比較するために使用されるメタデータです。この例では、query_string フィールドの値が「PlayStation 4」の場合にルールセットがアクティブになります。
query : 検索してオーガニック検索結果を取得するために使用される実際のクエリ。
この方法では、最初にオーガニッククエリを実行し、次に Elasticsearch がルールセットのルールを適用します。
{
 "took": 17,
 "timed_out": false,
 "_shards": {
   "total": 1,
   "successful": 1,
   "skipped": 0,
   "failed": 0
 },
 "hits": {
   "total": {
     "value": 5,
     "relation": "eq"
   },
   "max_score": 1.7014122e+38,
   "hits": [
     {
       "_index": "products",
       "_id": "2",
       "_score": 1.7014122e+38,
       "_source": {
         "id": "2",
         "name": "DualShock 4 Wireless Controller",
         "category": "accessory",
         "brand": "Sony",
         "price": 250
       }
     },
     {
       "_index": "products",
       "_id": "3",
       "_score": 0.6973252,
       "_source": {
         "id": "3",
         "name": "PlayStation 4 Camera",
         "category": "accessory",
         "brand": "Sony",
         "price": 200
       }
     },
     {
       "_index": "products",
       "_id": "1",
       "_score": 0.6260078,
       "_source": {
         "id": "1",
         "name": "PlayStation 4 Slim 1TB",
         "category": "console",
         "brand": "Sony",
         "price": 1200
       }
     },
     {
       "_index": "products",
       "_id": "4",
       "_score": 0.6260078,
       "_source": {
         "id": "4",
         "name": "PlayStation 4 VR Headset",
         "category": "accessory",
         "brand": "Sony",
         "price": 900
       }
     },
     {
       "_index": "products",
       "_id": "5",
       "_score": 0.07893815,
       "_source": {
         "id": "5",
         "name": "Charging Station for DualShock 4",
         "category": "accessory",
         "brand": "Sony",
         "price": 80
       }
     }
   ]
 }
}
例: ユーザーベースのメタデータ
クエリ ルールのもう 1 つの興味深い応用は、メタデータを使用して、ユーザーまたは Web ページからのコンテキスト情報に基づいて特定のドキュメントを表示することです。
たとえば、数値として表されるユーザーのロイヤルティ レベルに基づいて、アイテムやカスタマイズされたセールを強調表示したいとします。
これを実現するには、このメタデータをクエリに直接取り込んで、その値が特定の基準を満たしたときにルールがアクティブになるようにします。
まず、ロイヤルティ レベルの高いユーザーだけが閲覧できるドキュメントをインデックスします。
POST _bulk
{ "index": { "_index": "products", "_id": "6" } }
{ "id": "6", "name": "PlayStation Plus Deluxe Card - 12 months", "category": "membership", "brand": "Sony", "price": 300 }
ここで、同じルールセット内に新しいルールを作成し、loyalty_level が 80 以上の場合にアイテムが結果の上部に表示されるようにします。
ルールとルールセットを保存します。
同等の REST リクエストは次のとおりです。
PUT _query_rules/my-rules
{
  "rules": [
    {
      "rule_id": "pin-premiun-user",
      "type": "pinned",
      "criteria": [
        {
          "type": "gte",
          "metadata": "loyalty_level",
          "values": [
            80
          ]
        }
      ],
      "actions": {
        "docs": [
          {
            "_index": "products",
            "_id": "6"
          }
        ]
      }
    }
  ]
}
ここで、クエリを実行するときに、メタデータに新しいパラメータroyality_levelを含める必要があります。ルールの条件が満たされると、新しいドキュメントが結果の上部に表示されます。
たとえば、loyalty_level が 80 のクエリを送信する場合:
POST /products/_search
{
  "retriever": {
    "rule": {
      "retriever": {
        "standard": {
          "query": {
            "match": {
              "name": "PlayStation"
            }
          }
        }
      },
      "match_criteria": {
        "query_string": "PlayStation",
        "loyalty_level": 80
      },
      "ruleset_ids": ["my-rules"]
    }
  }
}
結果の上部にロイヤルティ ドキュメントが表示されます。
{
  "took": 31,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 4,
      "relation": "eq"
    },
    "max_score": 1.7014122e+38,
    "hits": [
      {
        "_index": "products",
        "_id": "6",
        "_score": 1.7014122e+38,
        "_source": {
          "id": "6",
          "name": "PlayStation Plus Deluxe Card - 12 months",
          "category": "membership",
          "brand": "Sony",
          "price": 300
        }
      },
      {
        "_index": "products",
        "_id": "3",
        "_score": 0.5054567,
        "_source": {
          "id": "3",
          "name": "PlayStation 4 Camera",
          "category": "accessory",
          "brand": "Sony",
          "price": 200
        }
      },
      {
        "_index": "products",
        "_id": "1",
        "_score": 0.45618832,
        "_source": {
          "id": "1",
          "name": "PlayStation 4 Slim 1TB",
          "category": "console",
          "brand": "Sony",
          "price": 1200
        }
      },
      {
        "_index": "products",
        "_id": "4",
        "_score": 0.45618832,
        "_source": {
          "id": "4",
          "name": "PlayStation 4 VR Headset",
          "category": "accessory",
          "brand": "Sony",
          "price": 900
        }
      }
    ]
  }
}
以下の場合、ロイヤルティ レベルが 70 であるため、ルールは満たされず、アイテムは上部に表示されません。
POST /products/_search
{
  "retriever": {
    "rule": {
      "retriever": {
        "standard": {
          "query": {
            "match": {
              "name": "PlayStation"
            }
          }
        }
      },
      "match_criteria": {
        "query_string": "PlayStation",
        "loyalty_level": 70
      },
      "ruleset_ids": ["my-rules"]
    }
  }
}
結果は次のとおりです。
{
  "took": 7,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 4,
      "relation": "eq"
    },
    "max_score": 0.5054567,
    "hits": [
      {
        "_index": "products",
        "_id": "3",
        "_score": 0.5054567,
        "_source": {
          "id": "3",
          "name": "PlayStation 4 Camera",
          "category": "accessory",
          "brand": "Sony",
          "price": 200
        }
      },
      {
        "_index": "products",
        "_id": "1",
        "_score": 0.45618832,
        "_source": {
          "id": "1",
          "name": "PlayStation 4 Slim 1TB",
          "category": "console",
          "brand": "Sony",
          "price": 1200
        }
      },
      {
        "_index": "products",
        "_id": "4",
        "_score": 0.45618832,
        "_source": {
          "id": "4",
          "name": "PlayStation 4 VR Headset",
          "category": "accessory",
          "brand": "Sony",
          "price": 900
        }
      },
      {
        "_index": "products",
        "_id": "6",
        "_score": 0.3817649,
        "_source": {
          "id": "6",
          "name": "PlayStation Plus Deluxe Card - 12 months",
          "category": "membership",
          "brand": "Sony",
          "price": 300
        }
      }
    ]
  }
}
例: 即時除外
DualShock 4 ワイヤレス コントローラー (ID 2)が一時的に入手できず、販売できないとします。そのため、ビジネス チームは、ドキュメントを手動で削除したり、何らかのデータ処理が開始されるのを待ったりする代わりに、当面は検索結果からドキュメントを削除することにしました。
先ほど人気アイテムに適用したのと同様のプロセスを使用しますが、今回は[Pinned]ではなく[Exclude]を選択します。このルールは一種のブラックリストとして機能します。クエリが実行されるたびに除外が機能するように、条件を「常時」に変更します。
ルールは次のようになります。
変更を適用するには、ルールとルールセットを保存します。同等の REST リクエストは次のとおりです。
PUT _query_rules/my-rules
{
  "rules": [
    {
      "rule_id": "rule-6358",
      "type": "pinned",
      "criteria": [
        {
          "type": "always"
        }
      ],
      "actions": {
        "docs": [
          {
            "_index": "products",
            "_id": "2"
          }
        ]
      }
    }
  ]
}
ここで、クエリを再度実行すると、以前のルールではアイテムをピン留めするはずだったにもかかわらず、アイテムが結果に表示されなくなっていることがわかります。これは、除外がピン留め結果よりも優先されるためです。
{
 "took": 6,
 "timed_out": false,
 "_shards": {
   "total": 1,
   "successful": 1,
   "skipped": 0,
   "failed": 0
 },
 "hits": {
   "total": {
     "value": 4,
     "relation": "eq"
   },
   "max_score": 2.205655,
   "hits": [
     {
       "_index": "products",
       "_id": "3",
       "_score": 2.205655,
       "_source": {
         "id": "3",
         "name": "PlayStation 4 Camera",
         "category": "accessory",
         "brand": "Sony",
         "price": 200
       }
     },
     {
       "_index": "products",
       "_id": "1",
       "_score": 1.9738505,
       "_source": {
         "id": "1",
         "name": "PlayStation 4 Slim 1TB",
         "category": "console",
         "brand": "Sony",
         "price": 1200
       }
     },
     {
       "_index": "products",
       "_id": "4",
       "_score": 1.9738505,
       "_source": {
         "id": "4",
         "name": "PlayStation 4 VR Headset",
         "category": "accessory",
         "brand": "Sony",
         "price": 900
       }
     },
     {
       "_index": "products",
       "_id": "5",
       "_score": 0.69247496,
       "_source": {
         "id": "5",
         "name": "Charging Station for DualShock 4",
         "category": "accessory",
         "brand": "Sony",
         "price": 80
       }
     }
   ]
 }
}
まとめ
クエリ ルールを使用すると、コードを変更することなく関連性を簡単に調整できます。新しいKibana UIでは、 これらの変更を数秒で行うことができるため、お客様とビジネス チームは検索結果をより細かく制御できるようになります。
クエリ ルールは、電子商取引以外にも、サポート ポータルでトラブルシューティング ガイドを強調表示したり、ナレッジ ベースで重要な社内ドキュメントを表示したり、ニュース サイトで最新ニュースを宣伝したり、期限切れの求人やコンテンツの一覧を除外したりするなど、さまざまなシナリオで活用できます。ユーザーの役割や地域によって制限されたコンテンツを非表示にするなど、コンプライアンス ルールを適用することもできます。


MastraとElasticsearchを使用してセマンティックリコールを備えた知識エージェントを構築する
JD Armada — Thu, 06 Nov 2025 00:00:00 GMT
コンテキスト エンジニアリングは、信頼性の高い AI エージェントとアーキテクチャの構築においてますます重要になっています。モデルがどんどん良くなるにつれて、その有効性と信頼性はトレーニングされたデータに依存するのではなく、適切なコンテキストにどれだけ適切に基づいているかに依存するようになります。最も関連性の高い情報を適切なタイミングで取得して適用できるエージェントは、正確で信頼できる出力を生成する可能性がはるかに高くなります。
このブログでは、 Mastraを使用して、Elasticsearch をメモリおよび検索バックエンドとして使用し、ユーザーの発言を記憶し、後で関連情報を思い出すことができるナレッジ エージェントを構築します。これと同じ概念を実際のユースケースに簡単に拡張できます。サポート エージェントが過去の会話や解決策を記憶し、特定のユーザーへの応答をカスタマイズしたり、以前のコンテキストに基づいてより迅速に解決策を提示したりできると考えてください。
ここから手順に従って、ステップごとに構築する方法を確認してください。迷ってしまったり、完成した例を実行したいだけの場合は、ここにあるリポジトリを確認してください。
マストラとは何ですか？
Mastra は、推論、メモリ、ツールの交換可能なパーツを備えた AI エージェントを構築するためのオープンソースの TypeScript フレームワークです。セマンティック リコール機能により、エージェントはメッセージをベクター データベースに埋め込みとして保存することで、過去のやり取りを記憶して取り出すことができます。これにより、エージェントは長期的な会話のコンテキストと継続性を維持できます。Elasticsearch は効率的な高密度ベクトル検索をサポートしているため、この機能を有効にするのに最適なベクトル ストアです。セマンティックリコールがトリガーされると、エージェントは関連する過去のメッセージをモデルのコンテキストウィンドウに引き出し、モデルが取得したコンテキストを推論と応答の基礎として使用できるようにします。
始めるために必要なもの
ノード v18+
Elasticsearch（バージョン8.15以降）
Elasticsearch APIキー
OpenAI APIキー
注: デモでは OpenAI プロバイダーを使用するため、これが必要になりますが、Mastra は他の AI SDK とコミュニティ モデル プロバイダーをサポートしているため、設定に応じて簡単に交換できます。
Mastraプロジェクトの構築
プロジェクトの足場を提供するために、Mastra の組み込み CLI を使用します。次のコマンドを実行します。
npm create mastra@latest
次のような一連のプロンプトが表示されます。
1. プロジェクトに名前を付けます。
2. このデフォルト設定を維持することもできますし、空白のままにしておくこともできます。
3. このプロジェクトでは、OpenAI が提供するモデルを使用します。
4. すべての環境変数を、後のステップで設定する `.env` ファイルに保存するため、「今はスキップ」オプションを選択します。
5. このオプションをスキップすることもできます。
初期化が完了したら、次のステップに進むことができます。
依存関係のインストール
次に、いくつかの依存関係をインストールする必要があります。
npm install ai @ai-sdk/openai @elastic/elasticsearch dotenv
ai - JavaScript/TypeScript で AI モデル、プロンプト、ワークフローを管理するためのツールを提供するコア AI SDK パッケージ。Mastra は Vercel のAI SDK上に構築されているため、エージェントとのモデルのインタラクションを有効にするにはこの依存関係が必要です。
@ai-sdk/openai - AI SDK を OpenAI モデル (GPT-4、GPT-4o など) に接続し、OpenAI API キーを使用した API 呼び出しを可能にするプラグイン。
@elastic/elasticsearch - Node.js 用の公式 Elasticsearch クライアント、インデックス作成、検索、ベクター操作のために Elastic Cloud またはローカル クラスターに接続するために使用されます。
dotenv - .envから環境変数を読み込みますファイルをprocess.envにコピーし、API キーや Elasticsearch エンドポイントなどの資格情報を安全に挿入できるようになります。
環境変数の設定
プロジェクトのルート ディレクトリに.envファイルが存在しない場合は作成します。あるいは、リポジトリに提供されている例.envをコピーして名前を変更することもできます。このファイルでは、次の変数を追加できます。
ELASTICSEARCH_ENDPOINT="your-endpoint-here"
ELASTICSEARCH_API_KEY="your-key-here"
OPENAI_API_KEY="your-key-here"
これで基本的な設定は完了です。ここから、エージェントの構築とオーケストレーションを開始できます。さらに一歩進んで、Elasticsearch をストアおよびベクター検索レイヤーとして追加します。
ベクターストアとしてElasticsearchを追加する
storesという新しいフォルダーを作成し、その中にこのファイルを追加します。Mastra と Elastic が公式の Elasticsearch ベクター ストア統合を出荷する前に、 Abhi Aiyer (Mastra CTO) がElasticVectorと呼ばれるこの初期のプロトタイプ クラスを共有しました。簡単に言えば、Mastra のメモリ抽象化を Elasticsearch の高密度ベクトル機能に接続することで、開発者はエージェントのベクトル データベースとして Elasticsearch を導入できるようになります。
統合の重要な部分を詳しく見てみましょう。
Elasticsearchクライアントの取り込み
このセクションでは、 ElasticVectorクラスを定義し、標準デプロイメントとサーバーレスデプロイメントの両方をサポートする Elasticsearch クライアント接続を設定します。
export interface ElasticVectorConfig extends ClientOptions {
    /**
     * Explicitly specify if connecting to Elasticsearch Serverless.
     * If not provided, will be auto-detected on first use.
     */
    isServerless?: boolean;
    
    /**
     * Maximum documents to count accurately when describing indices.
     * Higher values provide accurate counts but may impact performance on large indices.
     * 
     * @default 10000
     */
    maxCountAccuracy?: number;
}

export class ElasticVector extends MastraVector {
    private client: Client;
    private isServerless: boolean | undefined;
    private deploymentChecked: boolean = false;
    private readonly maxCountAccuracy: number;

    constructor(config: ElasticVectorConfig) {
        super();
        this.client = new Client(config);
        this.isServerless = config.isServerless;
        this.maxCountAccuracy = config.maxCountAccuracy ?? 10000;
    }
}
ElasticVectorConfig extends ClientOptions: これにより、すべての Elasticsearch クライアント オプション ( node 、 auth 、 requestTimeoutなど) を継承し、カスタム プロパティを追加する新しい構成インターフェースが作成されます。つまり、ユーザーは、サーバーレス固有のオプションとともに、有効な Elasticsearch 構成を渡すことができるということです。
extends MastraVector: これにより、 ElasticVector 、すべてのベクター ストア統合が準拠する共通インターフェースである Mastra の基本MastraVectorクラスから継承できるようになります。これにより、エージェントの観点から見ると、Elasticsearch は他の Mastra ベクター バックエンドと同じように動作するようになります。
private client: Client: これは、Elasticsearch JavaScript クライアントのインスタンスを保持するプライベート プロパティです。これにより、クラスはクラスターと直接通信できるようになります。
isServerless およびdeploymentChecked : これらのプロパティは連携して、サーバーレスまたは標準の Elasticsearch デプロイメントに接続されているかどうかを検出し、キャッシュします。この検出は最初の使用時に自動的に行われますが、明示的に構成することもできます。
constructor(config: ClientOptions): このコンストラクターは、構成オブジェクト (Elasticsearch の資格情報とオプションのサーバーレス設定を含む) を受け取り、それを使用してthis.client = new Client(config)行でクライアントを初期化します。
super(): これは Mastra の基本コンストラクターを呼び出すため、ログ記録、検証ヘルパー、およびその他の内部フックを継承します。
この時点で、Mastraは新しいベクターストアがあることを知っています。 ElasticVector
展開タイプの検出
インデックスを作成する前に、アダプターは標準の Elasticsearch を使用しているか Elasticsearch Serverless を使用しているかを自動的に検出します。サーバーレス デプロイメントでは手動でのシャード構成が許可されないため、これは重要です。
private async detectServerless(): Promise {
    // Return cached result if already detected
    if (this.deploymentChecked) {
        return this.isServerless ?? false;
    }

    // Use explicit configuration if provided
    if (this.isServerless !== undefined) {
        this.deploymentChecked = true;
        this.logger?.info(
            `Using explicit deployment type: ${this.isServerless ? 'Serverless' : 'Standard'}`
        );
        return this.isServerless;
    }

    try {
        const info = await this.client.info();
        
        // Primary detection: build flavor (most reliable)
        const isBuildFlavorServerless = info.version?.build_flavor === 'serverless';
        
        // Secondary detection: tagline (fallback)
        const isTaglineServerless = info.tagline?.toLowerCase().includes('serverless') ?? false;
        
        this.isServerless = isBuildFlavorServerless || isTaglineServerless;
        this.deploymentChecked = true;
        
        this.logger?.info(
            `Auto-detected ${this.isServerless ? 'Serverless' : 'Standard'} Elasticsearch deployment`,
            { 
                buildFlavor: info.version?.build_flavor, 
                version: info.version?.number,
                detectionMethod: isBuildFlavorServerless ? 'build_flavor' : 'tagline'
            }
        );
        
        return this.isServerless;
    } catch (error) {
        this.logger?.warn(
            'Could not auto-detect deployment type, assuming Standard Elasticsearch. ' +
            'Set isServerless: true explicitly in config if using Serverless.',
            { error: error instanceof Error ? error.message : String(error) }
        );
        this.isServerless = false;
        this.deploymentChecked = true;
        return false;
    }
}
何が起こっていますか：
まず、構成で明示的にisServerlessが設定されているかどうかを確認します (自動検出をスキップします)
Elasticsearch のinfo() API を呼び出してクラスター情報を取得します
build_flavor fieldをチェックします (サーバーレス デプロイメントはserverlessを返します)
ビルドフレーバーが利用できない場合はタグラインをチェックする
結果をキャッシュして、API 呼び出しの繰り返しを回避します。
検出に失敗した場合は標準展開をデフォルトとする
 使用例:
// Option 1: Auto-detect (recommended)
const vector = new ElasticVector({
    node: 'https://your-cluster.es.cloud',
    auth: { apiKey: 'your-api-key' }
});
// Detection happens automatically on first index operation

// Option 2: Explicit configuration (faster startup)
const vector = new ElasticVector({
    node: 'https://your-serverless.es.cloud',
    auth: { apiKey: 'your-api-key' },
    isServerless: true  // Skips auto-detection
});
Elasticsearchに「メモリ」ストアを作成する
以下の関数は、埋め込みを保存するための Elasticsearch インデックスを設定します。インデックスがすでに存在するかどうかを確認します。そうでない場合は、埋め込みとカスタム類似度メトリックを格納するためのdense_vectorフィールドを含む以下のマッピングを使用して作成します。
注意すべき点:
dimensionパラメータは各埋め込みベクトルの長さであり、使用している埋め込みモデルによって異なります。私たちの場合、サイズ1536のベクトルを出力する OpenAI のtext-embedding-3-smallモデルを使用して埋め込みを生成します。これをデフォルト値として使用します。
以下のマッピングで使用されるsimilarity変数は、ヘルパー関数 c onst similarity = this.mapMetricToSimilarity(metric)から定義されます。この関数は、 metricパラメータの値を受け取り、選択された距離メトリックの Elasticsearch 互換キーワードに変換します。たとえば、Mastra では、ベクトルの類似性を表すためにcosine 、 euclidean 、 dotproductなどの一般的な用語を使用します。メトリックeuclidean Elasticsearch マッピングに直接渡すと、Elasticsearch はキーワードl2_normがユークリッド距離を表すと想定するため、エラーが発生します。
サーバーレス互換性: サーバーレスデプロイメントのシャードとレプリカの設定は Elasticsearch Serverless によって自動的に管理されるため、コードでは自動的に省略されます。
async createIndex(params: CreateIndexParams): Promise {
    const { indexName, dimension = 1536, metric = 'cosine' } = params;

    try {
        const exists = await this.client.indices.exists({ index: indexName });

        if (exists) {
            try {
                await this.validateExistingIndex(indexName, dimension, metric);
                this.logger?.info(`Index "${indexName}" already exists and is valid`);
                return;
            } catch (validationError) {
                throw new Error(
                    `Index "${indexName}" exists but does not match the required configuration: ${
                        validationError instanceof Error ? validationError.message : String(validationError)
                    }`
                );
            }
        }

        const isServerless = await this.detectServerless();
        const similarity = this.mapMetricToSimilarity(metric);

        const indexConfig: any = {
            index: indexName,
            mappings: {
                properties: {
                    vector: {
                        type: 'dense_vector',
                        dims: dimension,
                        index: true,
                        similarity: similarity,
                    },
                    metadata: {
                        type: 'object',
                        enabled: true,
                        dynamic: true, // Allows flexible metadata structures
                    },
                },
            },
        };

        // Only configure shards/replicas for non-serverless deployments
        // Serverless manages infrastructure automatically
        if (!isServerless) {
            indexConfig.settings = {
                number_of_shards: 1,
                number_of_replicas: 0, // Increase for production HA deployments
            };
        }

        await this.client.indices.create(indexConfig);

        this.logger?.info(
            `Created ${isServerless ? 'Serverless' : 'Standard'} Elasticsearch index "${indexName}"`,
            { dimension, metric, similarity }
        );
    } catch (error) {
        const errorMessage = error instanceof Error ? error.message : String(error);
        this.logger?.error(`Failed to create index "${indexName}": ${errorMessage}`);
        throw new Error(`Failed to create index "${indexName}": ${errorMessage}`);
    }
}
やりとりの後に新しい記憶やメモを保存する
この関数は、各インタラクションの後に生成された新しい埋め込みをメタデータとともに取得し、Elastic のbulk API を使用してそれらをインデックスに挿入または更新します。bulk API は複数の書き込み操作を 1 つのリクエストにグループ化します。このインデックス作成パフォーマンスの向上により、エージェントのメモリが増加し続けても更新の効率が維持されます。
async upsert(params: UpsertVectorParams): Promise {
    const { indexName, vectors, metadata = [], ids } = params;

    try {
        // Generate unique IDs if not provided
        const vectorIds = ids || vectors.map((_, i) => 
            `vec_${Date.now()}_${i}_${Math.random().toString(36).substr(2, 9)}`
        );

        const operations = vectors.flatMap((vec, index) => [
            { index: { _index: indexName, _id: vectorIds[index] } },
            {
                vector: vec,
                metadata: metadata[index] || {},
            },
        ]);

        const response = await this.client.bulk({
            refresh: true,
            operations,
        });

        if (response.errors) {
            const erroredItems = response.items.filter((item: any) => item.index?.error);
            const erroredIds = erroredItems.map((item: any) => item.index?._id);
            const errorDetails = erroredItems.slice(0, 3).map((item: any) => ({
                id: item.index?._id,
                error: item.index?.error?.reason || item.index?.error,
                type: item.index?.error?.type
            }));
            
            const errorMessage = `Failed to upsert ${erroredIds.length}/${vectors.length} vectors`;
            console.error(`${errorMessage}. Sample errors:`, JSON.stringify(errorDetails, null, 2));
            this.logger?.error(errorMessage, { 
                failedCount: erroredIds.length, 
                totalCount: vectors.length,
                sampleErrors: errorDetails 
            });
            
            // Still return successfully inserted IDs
            const successfulIds = vectorIds.filter((id, idx) => 
                !erroredIds.includes(id)
            );
            
            if (successfulIds.length === 0) {
                throw new Error(`${errorMessage}. All operations failed. See logs for details.`);
            }
            
            return successfulIds;
        }

        this.logger?.info(`Successfully upserted ${vectors.length} vectors to "${indexName}"`);
        return vectorIds;
    } catch (error) {
        const errorMessage = error instanceof Error ? error.message : String(error);
        this.logger?.error(`Failed to upsert vectors to "${indexName}": ${errorMessage}`);
        throw new Error(`Failed to upsert vectors to "${indexName}": ${errorMessage}`);
    }
}
意味的想起のための類似ベクトルのクエリ
この機能は、セマンティック リコール機能の中核です。エージェントはベクトル検索を使用して、インデックス内に保存されている類似の埋め込みを見つけます。
async query(params: QueryVectorParams): Promise {
    const { indexName, queryVector, topK = 10, filter, includeVector = false } = params;

    try {
        const knnQuery: any = {
            field: 'vector',
            query_vector: queryVector,
            k: topK,
            num_candidates: Math.max(topK * 10, 100), // Search more candidates for better recall
        };

        // Apply metadata filters if provided
        if (filter) {
            knnQuery.filter = this.buildElasticFilter(filter);
        }

        const sourceFields = ['metadata'];
        if (includeVector) {
            sourceFields.push('vector');
        }

        const response = await this.client.search({
            index: indexName,
            knn: knnQuery,
            size: topK,
            _source: sourceFields,
        });

        const results = response.hits.hits.map((hit: any) => ({
            id: hit._id,
            score: hit._score || 0,
            metadata: hit._source?.metadata || {},
            vector: includeVector ? hit._source?.vector : undefined,
        }));

        this.logger?.debug(`Query returned ${results.length} results from "${indexName}"`);
        return results;
    } catch (error) {
        const errorMessage = error instanceof Error ? error.message : String(error);
        this.logger?.error(`Failed to query vectors from "${indexName}": ${errorMessage}`);
        throw new Error(`Failed to query vectors from "${indexName}": ${errorMessage}`);
    }
}
内部構造:
Elasticsearch のknn API を使用してkNN (k 近傍法) クエリを実行します。
入力クエリ ベクトルに類似する上位 K 個のベクトルを取得します。
オプションでメタデータ フィルターを適用して結果を絞り込む (例: 特定のカテゴリまたは時間範囲内のみを検索する)
ドキュメント ID、類似度スコア、保存されたメタデータを含む構造化された結果を返します。
知識エージェントの作成
ElasticVector統合を通じて Mastra と Elasticsearch の接続を確認したので、次は Knowledge Agent 自体を作成しましょう。
フォルダーagents内に、 knowledge-agent.tsというファイルを作成します。まず、環境変数を接続し、Elasticsearch クライアントを初期化します。
import { Agent } from '@mastra/core/agent';
import { Memory } from '@mastra/memory';
import { openai } from '@ai-sdk/openai';
import { Client } from '@elastic/elasticsearch';
import { ElasticVector } from '../stores/elastic-store';
import dotenv from "dotenv";

dotenv.config();

const ELASTICSEARCH_ENDPOINT = process.env.ELASTICSEARCH_ENDPOINT;
const ELASTICSEARCH_API_KEY = process.env.ELASTICSEARCH_API_KEY;

//Error check for undefined credentials
if (!ELASTICSEARCH_ENDPOINT || !ELASTICSEARCH_API_KEY) {
  throw new Error('Missing Elasticsearch credentials');
}

//Check to see if a connection can be established
const testClient = new Client({
  node: ELASTICSEARCH_ENDPOINT,
  auth: { 
    apiKey: ELASTICSEARCH_API_KEY 
  },
});

try {
  await testClient.ping();
  console.log('Connected to Elasticsearch successfully');
} catch (error: unknown) {
  if (error instanceof Error) {
    console.error('Failed to connect to Elasticsearch:', error.message);
  } else {
    console.error('Failed to connect to Elasticsearch:', error);
  }
  process.exit(1);
}
//Initialize the Elasticsearch vector store
const vectorStore = new ElasticVector({
  node: ELASTICSEARCH_ENDPOINT,
  auth: {
    apiKey: ELASTICSEARCH_API_KEY,
  },
//Optional: Explicitly set to true if using Elasticsearch Serverless to skip auto-detection and improve startup time
//isServerless: true,
});
ここでは、次の操作を行います。
dotenvを使用して、 .envファイルから変数を読み込みます。
Elasticsearch の資格情報が正しく挿入されているかどうかを確認し、クライアントへの接続を正常に確立できるかどうかを確認します。
Elasticsearch エンドポイントと API キーをElasticVectorコンストラクターに渡して、先ほど定義したベクター ストアのインスタンスを作成します。
Elasticsearch Serverless を使用している場合は、オプションでisServerless: trueを指定します。これにより、自動検出手順がスキップされ、起動時間が短縮されます。省略した場合、アダプタは最初の使用時にデプロイメント タイプを自動的に検出します。
次に、Mastra のAgentクラスを使用してエージェントを定義します。
export const knowledgeAgent = new Agent({
    name: 'KnowledgeAgent',
    instructions: 'You are a helpful knowledge assistant.',
    model: openai('gpt-4o'),
    memory: new Memory({

        vector: vectorStore,

        //embedder used to create embeddings for each message
        embedder: 'openai/text-embedding-3-small',

        //set semantic recall options
        options: {
            semanticRecall: {
                topK: 3, // retrieve 3 similar messages
                messageRange: 2, // include 2 messages before/after each match
                scope: 'resource',
            },
        },
    }),
});
定義できるフィールドは次のとおりです。
name そしてinstructions : アイデンティティと主な機能を与えます。
model: @ai-sdk/openaiパッケージを通じて OpenAI のgpt-4oを使用しています。
memory:vector: Elasticsearch ストアを指すので、埋め込みはそこから保存され、取得されます。
embedder: 埋め込みを生成するためにどのモデルを使用するか
semanticRecall オプションによってリコールの動作が決まります。topK: 意味的に類似したメッセージを取得する数。
messageRange: 各マッチにどの程度の会話を含めるか。
scope: メモリの境界を定義します。
もうすぐ終わりです。新しく作成したエージェントを Mastra 構成に追加するだけです。index.tsというファイルで、ナレッジ エージェントをインポートし、 agentsフィールドに挿入します。
export const mastra = new Mastra({
  agents: { knowledgeAgent },
  storage: new LibSQLStore({
    // stores observability, scores, ... into memory storage, if it needs to persist, change to file:../mastra.db
    url: ":memory:",
  }),
  logger: new PinoLogger({
    name: 'Mastra',
    level: 'info',
  }),
  telemetry: {
    // Telemetry is deprecated and will be removed in the Nov 4th release
    enabled: false, 
  },
  observability: {
    // Enables DefaultExporter and CloudExporter for AI tracing
    default: { enabled: true }, 
  },
});
その他のフィールドには以下が含まれます。
storage: これは、実行履歴、観測性メトリック、スコア、キャッシュのための Mastra の内部データ ストアです。Mastra ストレージの詳細については、こちらをご覧ください。
logger: Mastra は、軽量の構造化 JSON ロガーであるPinoを使用します。エージェントの開始と停止、ツールの呼び出しと結果、エラー、LLM 応答時間などのイベントをキャプチャします。
observability: エージェントの AI トレースおよび実行の可視性を制御します。追跡対象:各推論ステップの開始/終了。
使用されたモデルまたはツール。
入力と出力。
スコアと評価
Mastra Studioでエージェントをテストする
おめでとうございます！ここまで到達したら、このエージェントを実行し、そのセマンティックリコール能力をテストする準備が整いました。幸いなことに、Mastra には組み込みのチャット UI が用意されているため、独自に構築する必要はありません。
Mastra 開発サーバーを起動するには、ターミナルを開いて次のコマンドを実行します。
npm run dev
サーバーの初期バンドルと起動が完了すると、Playground のアドレスが提供されるはずです。
このアドレスをブラウザに貼り付けると、Mastra Studio が表示されます。
knowledgeAgentのオプションを選択してチャットを開始してください。
すべてが正しく接続されているかどうかを確認するための簡単なテストでは、次のような情報を入力します。「チームは、主にエンタープライズ契約の更新により、10 月の売上実績が 12% 増加したと発表しました。次のステップは、中規模市場の顧客へのリーチを拡大することです。」次に、新しいチャットを開始して、「次に重点を置く必要があると言った顧客セグメントはどれですか?」などの質問をします。ナレッジエージェントは、最初のチャットで提供した情報を思い出せるはずです。次のような応答が表示されます。
このような応答が表示された場合、エージェントが以前のメッセージを Elasticsearch に埋め込みとして正常に保存し、後でベクトル検索を使用して取得したことを意味します。
エージェントの長期記憶ストアの検査
Mastra Studio のエージェント構成のmemoryタブに移動します。これにより、エージェントが時間の経過とともに何を学習したかを確認できます。Elasticsearch に埋め込まれて保存されるすべてのメッセージ、応答、およびやり取りは、この長期メモリの一部になります。過去のやり取りを意味的に検索して、エージェントが以前に学習した思い出の情報やコンテキストをすぐに見つけることができます。これは本質的には、エージェントがセマンティックリコール中に使用するメカニズムと同じものですが、ここではそれを直接検査できます。以下の例では、「sales」という用語を検索し、sales に関連する内容を含むすべてのインタラクションを取得しています。
まとめ
Mastra と Elasticsearch を接続することで、コンテキスト エンジニアリングの重要なレイヤーであるメモリをエージェントに付与できます。セマンティックリコールを使用すると、エージェントは時間の経過とともにコンテキストを構築し、学習した内容に基づいて応答することができます。つまり、より正確で信頼性が高く、自然なやりとりが可能になります。
この早期の統合は単なる出発点にすぎません。ここで同じパターンを使用すると、過去のチケットを記憶しているサポートエージェント、関連ドキュメントを取得する内部ボット、会話の途中で顧客の詳細を思い出すことができる AI アシスタントなどが可能になります。当社は公式の Mastra 統合にも取り組んでおり、近い将来この組み合わせがさらにシームレスになる予定です。
次に何を構築するのか楽しみにしています。ぜひ試してみて、 Mastraとそのメモリ機能を調べ、発見したことをコミュニティと自由に共有してください。


Elasticsearch と SigLIP-2 による山頂のマルチモーダル探索 
Navneet Kumar — Tue, 04 Nov 2025 00:00:00 GMT
写真アルバムを意味で検索したいと思ったことはありませんか?「青いジャケットを着てベンチに座っている写真を見せてください」「エベレストの写真を見せてください」「日本酒と寿司」などのクエリを試してみてください。コーヒー（またはお好みの飲み物）を飲みながら、読み続けてください。このブログでは、マルチモーダル ハイブリッド検索アプリケーションの構築方法を紹介します。マルチモーダルとは、アプリが単語だけでなく、テキスト、画像、音声などさまざまな種類の入力を理解して検索できることを意味します。ハイブリッドとは、キーワード マッチング、kNN ベクトル検索、ジオフェンシングなどの技術を組み合わせて、より鮮明な結果を提供することを意味します。
これを実現するために、Google の SigLIP-2 を使用して画像とテキストの両方のベクトル埋め込みを生成し、Elasticsearch ベクトル データベースに保存します。クエリ時に、検索入力、テキストまたは画像を埋め込みに変換し、高速 kNN ベクトル検索を実行して結果を取得します。この設定により、効率的なテキストから画像への検索、画像から画像への検索が可能になります。Streamlit UI は、テキストベースの検索を行ってアルバムから一致する写真を検索して表示するだけでなく、アップロードされた画像から山頂を識別し、フォトアルバムでその山の他の写真を表示できるフロントエンドを提供することで、このプロジェクトを実現します。また、検索精度を向上させるために実行した手順や、実用的なヒントやコツについても説明します。さらに詳しく調べるために、 GitHub リポジトリとColab ノートブックを提供しています。
始まり
このブログ投稿は、エベレストベースキャンプトレッキングで撮ったアマダブラム山の写真を全部見せてほしいと私に頼んだ10歳の子供からインスピレーションを受けたものです。写真アルバムを精査しながら、私は他のいくつかの山頂を特定するよう求められましたが、そのうちのいくつかは名前がわかりませんでした。
それで、これは楽しいコンピューター ビジョン プロジェクトになるかもしれないというアイデアが浮かびました。私たちが達成したかったこと:
山頂の写真を名前で検索する
画像から山頂の名前を推測し、写真アルバムで似たような山頂を見つける
概念クエリを機能させる（人、川、祈りの旗など）
ドリームチームを結成: SigLIP-2、Elasticsearch、Streamlit
これを機能させるには、テキスト (「Ama Dablam」) と画像 (私のアルバムの写真) の両方を、意味のある比較が可能なベクトル、つまり同じベクトル空間に変換する必要があることがすぐに明らかになりました。これを実行すると、検索は単に「最も近いものを見つける」だけになります。
Unknown block type "block", specify a component for it in the `components.types` option
最近 Google がリリースしたSigLIP-2はここによく当てはまります。タスク固有のトレーニング (ゼロショット設定) なしで埋め込みを生成でき、ラベルのない写真や異なる名前と言語を持つピークなど、私たちのユースケースに適しています。テキストと画像のマッチングがトレーニングされているため、クエリ言語やスペルが異なっていても、トレッキング中の山の写真と短いテキストプロンプトは埋め込みとして近いものになります。
SigLIP-2 は、品質と速度のバランスが優れており、複数の入力解像度をサポートし、CPU と GPU の両方で実行されます。SigLIP-2 は、オリジナルの CLIP などの以前のモデルと比較して、屋外での写真撮影に対してより堅牢になるように設計されています。私たちのテストでは、SigLIP-2 は一貫して信頼できる結果を生成しました。また、サポートも非常に充実しており、このプロジェクトに最適な選択肢となっています。
次に、埋め込みとパワー検索を保存するためのベクトル データベースが必要です。画像埋め込みに対するコサイン kNN 検索をサポートするだけでなく、単一のクエリでジオフェンスとテキスト フィルターを適用することもサポートする必要があります。Elasticsearch はここで最適です。ベクトル (dense_vector フィールドの HNSW kNN) を非常に適切に処理し、テキスト、ベクトル、地理クエリを組み合わせたハイブリッド検索をサポートし、フィルタリングと並べ替えをすぐに使用できます。また、水平方向にも拡張できるため、数枚の写真から数千枚の写真まで簡単に拡張できます。公式のElasticsearch Python クライアントは、配管をシンプルに保ち、プロジェクトときれいに統合します。最後に、検索クエリを入力して結果を表示できる軽量のフロントエンドが必要です。簡単な Python ベースのデモには、Streamlit が最適です。ファイルのアップロード、レスポンシブな画像グリッド、並べ替えとジオフェンシングのためのドロップダウン メニューなど、必要な基本的な機能を提供します。簡単にクローンを作成してローカルで実行でき、Colab ノートブックでも動作します。
実装
Elasticsearchのインデックス設計とインデックス戦略
このプロジェクトでは、 peaks_catalogとphotosの 2 つのインデックスを使用します。
Peaks_catalogインデックス
この索引は、エベレストベースキャンプトレッキング中に見える主要な山頂のコンパクトなカタログとして機能します。このインデックス内の各ドキュメントは、エベレスト山などの単一の山頂に対応しています。各山頂ドキュメントには、名前/エイリアス、オプションの緯度経度座標、および SigLIP-2 テキストプロンプト (+ オプションの参照画像) を組み合わせて構築された単一のプロトタイプ ベクトルが保存されます。
インデックスマッピング:
            
              
                
                    
                      分野 タイプ 例 目的/注意事項 ベクトル/インデックス
                    
                    
                      id キーワード アマ・ダブラム 安定したスラッグ/ID —
                    
                    
                      名前 テキスト + キーワードサブフィールド ["アマ・ダブラム"、"アマダブラム"] エイリアス/多言語名; 正確なフィルターのためのnames.raw —
                    
                    
                      ラトロン ジオポイント {"lat":27.8617,"lon":86.8614} 緯度/経度の組み合わせによるピーク GPS 座標 (オプション) —
                    
                    
                      高度m 整数 6812 標高（オプション） —
                    
                    
                      テキスト埋め込み dense_vector 768 このピークのブレンドプロトタイプ（プロンプトとオプションで1～3枚の参照画像） index:true、類似度:"cosine"、index_options: {type:"hnsw", m:16, ef_construction:128}
                    
              
            
          このインデックスは主に、画像から山頂を識別するなど、画像間の検索に使用されます。このインデックスは、テキストから画像への検索結果を強化するためにも使用されます。
要約すると、 peaks_catalogは「これは何の山ですか？」という質問を焦点を絞った最近傍問題に変換し、概念的理解を画像データの複雑さから効果的に分離します。
peaks_catalog インデックスのインデックス戦略: EBC トレッキング中に見える最も目立つ山頂のリストを作成することから始めます。各山頂の地理的位置、名前、同義語、標高をyaml ファイルに保存します。次のステップは、各ピークの埋め込みを生成し、それをtext_embedフィールドに保存することです。堅牢な埋め込みを生成するために、次の手法を使用します。
以下を使用してテキスト プロトタイプを作成します。山の名前
プロンプト アンサンブル(複数の異なるプロンプトを使用して同じ質問に答える)、例:「ネパール、ヒマラヤ山脈の山頂{name}の自然写真」
「クンブ地域の{name}マーク的な山頂、高山の風景」
「 {name}山頂、雪、岩だらけの尾根」
オプションの反概念（SigLIP-2 に一致しないものを指示する）: 「絵画、イラスト、ポスター、地図、ロゴ」の小さなベクトルを減算して、実際の写真に偏向させます。
ピークの参照画像が提供されている場合は、オプションで画像プロトタイプを作成します。
次に、テキストと画像のプロトタイプをブレンドして、最終的な埋め込みを生成します。最後に、ドキュメントはすべての必須フィールドでインデックス化されます。
def l2norm(v: np.ndarray) -> np.ndarray:
    return v / (np.linalg.norm(v) + 1e-12)
def compute_blended_peak_vec(
        emb: Siglip2,
        names: List[str],
        peak_id: str,
        peaks_images_root: str,
        alpha_text: float = 0.5,
        max_images: int = 3,
) -> Tuple[np.ndarray, int, int, List[str]]:
    """
    Build blended vector for a single peak.

    Returns:
      vec           : np.ndarray (L2-normalized)
      found_count   : number of reference images discovered
      used_count    : number of references used (<= max_images)
      used_filenames: list of filenames used (for logging)
    """
    # 1) TEXT vector
    tv = embed_text_blend(emb, names)

    # 2) IMAGE refs: prefer folder by id; fallback to slug of the primary name
    root = Path(peaks_images_root)
    candidates = [root / peak_id]
    if names:
        candidates.append(root / slugify(names[0]))

    all_refs: List[Path] = []
    for c in candidates:
        if c.exists() and c.is_dir():
            all_refs = list_ref_images(c)
            if all_refs:
                break

    found = len(all_refs)
    used_list = all_refs[:max_images] if (max_images and found > max_images) else all_refs
    used = len(used_list)

    img_v = embed_image_mean(emb, used_list) if used_list else None

    # 3) Blend TEXT and IMAGE vectors, clamp alpha to [0,1]
    a = max(0.0, min(1.0, float(alpha_text)))
    vec = l2norm(tv if img_v is None else (a * tv + (1.0 - a) * img_v)).astype("float32")
    return vec, found, used, [p.name for p in used_list]
peaks_catalogインデックスからのサンプル ドキュメント:
写真インデックス
このプライマリ インデックスには、アルバム内のすべての写真に関する詳細情報が保存されます。各ドキュメントは 1 枚の写真を表し、次の情報が含まれています。
フォトアルバム内の写真への相対パス。これを使用して、一致する画像を表示したり、検索 UI に画像を読み込んだりできます。
写真のGPSと時間情報。
SigLIP-2 によって生成された画像エンコーディング用の密なベクトル。
predicted_peaks ピーク名でフィルタリングできます。インデックスマッピング
            
              
                
                    
                      分野 タイプ 例 目的/注意事項 ベクター / インデックス
                    
                    
                      パス キーワード データ/画像/IMG_1234.HEIC UI でサムネイル/フル画像を開く方法 —
                    
                    
                      クリップ画像 dense_vector 768 SigLIP-2画像埋め込み index:true、類似度:"cosine"、index_options: {type:"hnsw", m:16, ef_construction:128}
                    
                    
                      予測ピーク キーワード ["ama-dablam","pumori"] インデックス時の上位Kの推測（安価なUXフィルター/ファセット） —
                    
                    
                      GPS ジオポイント {"lat":27.96,"lon":86.83} 地理フィルターを有効にする —
                    
                    
                      ショット時間 date 2023年10月18日09:41:00Z 撮影時間: 並べ替え/フィルター —
                    
              
            
          写真インデックスのインデックス戦略:アルバム内の写真ごとに、次の操作を実行します。
画像メタデータから画像shot_timeとgps情報を抽出します。
SigLIP-2 画像埋め込み: 画像をモデルに渡し、ベクトルを L2 正規化します。埋め込みをclip_imageフィールドに保存します。
ピークを予測し、 predicted_peaksフィールドに保存します。これを行うには、まず前の手順で生成された写真の画像ベクトルを取得し、次にpeaks_catalogインデックスの text_embed フィールドに対して簡単な kNN 検索を実行します。上位 3 ～ 4 つのピークを保持し、残りは無視します。
画像名とパスのハッシュを実行して_idフィールドを計算します。これにより、複数回実行した後に重複が発生しなくなります。
写真のすべてのフィールドを決定したら、一括インデックスを使用して写真ドキュメントを一括でインデックスします。
def bulk_index_photos(
        es: Elasticsearch,
        images_root: str,
        photos_index: str = "photos",
        peaks_index: str = "peaks_catalog",
        topk_predicted: int = 5,
        batch_size: int = 200,
        refresh: str = "false",
) -> None:
    """Walk a folder of images, embed + enrich, and bulk index to Elasticsearch."""
    root = Path(images_root)
    if not root.exists():
        raise SystemExit(f"Images root not found: {images_root}")

    emb = Siglip2()
    batch: List[Dict[str, Any]] = []
    n_indexed = 0

    for p in iter_images(root):
        rel = relpath_within(root, p)
        _id = id_for_path(rel)

        # 1) Image embedding (and reuse it for predicted_peaks)
        try:
            with Image.open(p) as im:
                ivec = emb.image_vec(im.convert("RGB")).astype("float32")
        except (UnidentifiedImageError, OSError) as e:
            print(f"[skip] {rel} — cannot embed: {e}")
            continue

        # 2) Predict top-k peak names
        try:
            top_names = predict_peaks(es, ivec.tolist(), peaks_index=peaks_index, k=topk_predicted)
        except Exception as e:
            print(f"[warn] predict_peaks failed for {rel}: {e}")
            top_names = []

        # 3) EXIF enrichment (safe)
        gps = get_gps_decimal(str(p))
        shot = get_shot_time(str(p))

        # 4) Build doc and stage for bulk
        doc = {"path": rel, "clip_image": ivec.tolist(), "predicted_peaks": top_names}
        if gps:
            doc["gps"] = gps
        if shot:
            doc["shot_time"] = shot

        batch.append(
            {"_op_type": "index", "_index": photos_index, "_id": _id, "_source": doc}
        )

        # 5) Periodic flush
        if len(batch) >= batch_size:
            helpers.bulk(es, batch, refresh=refresh)
            n_indexed += len(batch)
            print(f"[photos] indexed {n_indexed} (last: {rel})")
            batch.clear()

    # Final flush
    if batch:
        helpers.bulk(es, batch, refresh=refresh)
        n_indexed += len(batch)
        print(f"[photos] indexed {n_indexed} total.")

    print("[done] photos indexing")
写真インデックスからのサンプルドキュメント:
要約すると、写真のインデックスは、アルバム内のすべての写真を格納する、高速でフィルタリング可能な kNN 対応のストアです。マッピングは意図的に最小限に抑えられており、すばやく取得し、きれいに表示し、結果を空間と時間で分割するのに十分な構造になっています。このインデックスは、両方の検索ユースケースに対応します。両方のインデックスを作成するための Python スクリプトはここにあります。
以下の Kibana マップの視覚化では、写真アルバムのドキュメントが緑のドットで表示され、 peaks_catalogインデックスの山頂が赤い三角形で表示されています。緑のドットはエベレスト ベース キャンプのトレッキング トレイルとぴったり一致しています。
検索ユースケース
名前による検索（テキストから画像へ）：この機能により、ユーザーはテキスト クエリを使用して山頂の写真（さらには「祈りの旗」のような抽象的な概念）を見つけることができます。これを実現するために、テキスト入力は SigLIP-2 を使用してテキスト ベクトルに変換されます。堅牢なテキストベクトル生成のために、 インデックスでテキスト埋め込みを作成するために使用したのと同じ戦略を採用しています。つまり、テキスト入力を小さなpeaks_catalog プロンプトアンサンブル と 組み合わせ 、小さな 反概念ベクトル を減算し、 L2正規化 を適用して最終的なクエリベクトルを生成します。次に、 photos.clip_imageフィールドで kNNクエリを実行し、コサイン類似度に基づいて一致する上位のピークを取得して、最も近い画像を見つけます。オプションとして、クエリの一部として地理および日付フィルター、および/またはphotos.predicted_peaks用語フィルターを適用することで、検索結果の関連性を高めることができます (以下のクエリ例を参照)。これにより、トレッキング中に実際には見えていない、似たような山頂を除外することができます。
ジオフィルターを使用した Elasticsearch クエリ:
POST photos/_search
{
  "knn": {
    "field": "clip_image",
    "query_vector": [ ... ],
    "k": 60,
    "num_candidates": 2000
  },
  "query": {
    "bool": {
      "filter": [
        { "geo_bounding_box": { "gps": { "top_left": "...", "bottom_right": "..." } } }
      ]
    }
  },
  "_source": ["path","predicted_peaks","gps","shot_time"]
}

Response (first two documents):
{
 "hits": {
   "total": {
     "value": 56,
     "relation": "eq"
   },
   "max_score": 0.5779596,
   "hits": [
     {
       "_index": "photos",
       "_id": "d01da3a1141981486c3493f6053c79e92a788463",
       "_score": 0.5779596,
       "_source": {
         "path": "IMG_2738.HEIC",
         "predicted_peaks": [
           "Pumori",
           "Kyajo Ri",
           "Khumbila",
           "Nangkartshang",
           "Kongde Ri"
         ],
         "gps": {
           "lat": 27.97116388888889,
           "lon": 86.82331111111111
         },
         "shot_time": "2023-11-03T08:07:13"
       }
     },
     {
       "_index": "photos",
       "_id": "c79d251f07adc5efaedc53561110a7fd78e23914",
       "_score": 0.5766071,
       "_source": {
         "path": "IMG_2761.HEIC",
         "predicted_peaks": [
           "Kyajo Ri",
           "Makalu",
           "Baruntse",
           "Cho Oyu",
           "Khumbila"
         ],
         "gps": {
           "lat": 27.975558333333332,
           "lon": 86.82515
         },
         "shot_time": "2023-11-03T08:51:08"
       }
     }
}
画像による検索 (画像間):この機能を使用すると、写真内の山を識別し、写真アルバム内で同じ山の他の画像を見つけることができます。画像がアップロードされると、SigLIP-2 画像エンコーダーによって処理され、画像ベクトルが生成されます。次に、 peaks_catalog.text_embedフィールドでkNN 検索を実行し、最も一致するピーク名を特定します。次に、これらの一致するピーク名からテキスト ベクトルが生成され、写真インデックスに対して別のkNN 検索が実行され、対応する写真が検索されます。
Elasticsearchクエリ:
ステップ1: 一致するピーク名を見つける
GET peaks_catalog/_search
{
 "knn": {
   "field": "text_embed",
   "query_vector": [...image-vector... ],
   "k": 3,
   "num_candidates": 500
 },
 "_source": [
   "id",
   "names",
   "latlon",
   "text_embed"
 ]
}


Response (first two documents):
{
 "took": 2,
 "timed_out": false,
 "_shards": {
   "total": 1,
   "successful": 1,
   "skipped": 0,
   "failed": 0
 },
 "hits": {
   "total": {
     "value": 3,
     "relation": "eq"
   },
   "max_score": 0.58039916,
   "hits": [
     {
       "_index": "peaks_catalog",
       "_id": "pumori",
       "_score": 0.58039916,
       "_source": {
         "id": "pumori",
         "names": [
           "Pumori",
           "Pumo Ri"
         ],
         "latlon": {
           "lat": 28.01472,
           "lon": 86.82806
         },
         "text_embed": [
                  ... embeddings...
         ]
       }
     },
     {
       "_index": "peaks_catalog",
       "_id": "kyajo-ri",
       "_score": 0.57942784,
       "_source": {
         "id": "kyajo-ri",
         "names": [
           "Kyajo Ri",
           "Kyazo Ri"
         ],
         "latlon": {
           "lat": 27.909167,
           "lon": 86.673611
         },
         "text_embed": [
           ... embeddings...
         ]
       }
     }
   ]
 }
}
ステップ 2: photosインデックスで検索を実行し、一致する画像を見つけます (テキストから画像への検索ユース ケースに示されているのと同じクエリ)。
POST photos/_search
{
 "knn": {
   "field": "clip_image",
   "query_vector": [ ...image-vector... ],
   "k": 30,
   "num_candidates": 2000
 },
 "_source": [
   "path",
   "gps",
   "shot_time",
   "predicted_peaks",
   "clip_image"
 ],
 "query": {
   "bool": {
     "filter": [
       {
         "term": {
           "predicted_peaks": "Pumori"
         }
       }
     ]
   }
 }
}


Response (first two documents):
{
 "hits": {
   "total": {
     "value": 56,
     "relation": "eq"
   },
   "max_score": 0.5779596,
   "hits": [
     {
       "_index": "photos",
       "_id": "d01da3a1141981486c3493f6053c79e92a788463",
       "_score": 0.5779596,
       "_source": {
         "path": "IMG_2738.HEIC",
         "predicted_peaks": [
           "Pumori",
           "Kyajo Ri",
           "Khumbila",
           "Nangkartshang",
           "Kongde Ri"
         ],
         "gps": {
           "lat": 27.97116388888889,
           "lon": 86.82331111111111
         },
         "shot_time": "2023-11-03T08:07:13"
       }
     },
     {
       "_index": "photos",
       "_id": "c79d251f07adc5efaedc53561110a7fd78e23914",
       "_score": 0.5766071,
       "_source": {
         "path": "IMG_2761.HEIC",
         "predicted_peaks": [
           "Kyajo Ri",
           "Makalu",
           "Baruntse",
           "Cho Oyu",
           "Khumbila"
         ],
         "gps": {
           "lat": 27.975558333333332,
           "lon": 86.82515
         },
         "shot_time": "2023-11-03T08:51:08"
       }
     }
}
流線型のUI
すべてをまとめるために、両方の検索ユースケースを実行できるシンプルな Streamlit UI を作成しました。左側のレールには、チェックボックスとミニマップ/ジオフィルターが付いた、スクロール可能なピークのリスト（ photos.predicted_peaksから集約）が表示されます。上部には、名前による検索ボックスと写真アップロードからの識別ボタンがあります。中央のペインには、kNN スコア、予測ピーク バッジ、キャプチャ時間を表示するレスポンシブなサムネイル グリッドがあります。各画像には、フル解像度のプレビューを表示するための画像表示ボタンが含まれています。
画像をアップロードして検索:ピークを予測し、写真アルバムから一致するピークを見つけます。
テキスト検索: アルバム内の一致するピークをテキストから検索します
まとめ
アマ・ダブラムの 写真 だけ見せてもらえませんか ？ というところから始まりました。小規模で実用的なマルチモーダル検索システムになりました。私たちは生のトレッキング写真を撮影し、それをSigLIP-2 埋め込みに変換し、 Elasticsearchを使用してベクトルに対して高速kNN を実行し、さらに単純な地理/時間フィルターを使用して意味によって適切な画像を浮かび上がらせました。途中で、私たちは 2 つのインデックス、つまり混合プロトタイプの小さなpeaks_catalog (識別用) と、画像ベクトルと EXIF のスケーラブルなphotosインデックス (検索用) で関心を分離しました。実用的かつ再現性があり、拡張も簡単です。
調整したい場合は、いくつかの設定を試すことができます。
クエリ時間の設定: k (返す近隣の数) とnum_candidates (最終スコアリングの前に検索する範囲)。これらの設定については、こちらのブログで説明されています。
インデックス時間の設定: m (グラフの接続性) およびef_construction (ビルド時間の精度とメモリ)。クエリの場合は、 ef_searchも試してください。値が大きいほど、通常は、レイテンシを多少トレードオフして、リコール率が向上します。これらの設定の詳細については、このブログを参照してください。
今後、マルチモーダルおよび多言語検索用のネイティブモデル/リランカーがElasticエコシステムにまもなく導入される予定です。これにより、画像/テキスト検索とハイブリッドランキングがさらに強化されるはずです。ir.elastic.co+1
これを自分で試してみたい場合は:
GitHub リポジトリ: https://github.com/navneet83/multimodal-mountain-peak-search
Colab クイックスタート: https://github.com/navneet83/multimodal-mountain-peak-search/blob/main/notebooks/multimodal_mountain_peak_search.ipynb
これで私たちの旅は終わり、帰る時間になりました。これが役に立つことを願っています。これを壊した場合（または改善した場合）、何を変更したかをお聞かせください。


ハイブリッド検索再ランキングによる多言語埋め込みモデルの関連性の向上
Quynh Nguyen — Mon, 03 Nov 2025 00:00:00 GMT
はじめに
このシリーズの最後の部分では、Elastic の事前トレーニング済み E5 モデル (および Hugging Face の他の多言語テキスト埋め込みモデル) のデプロイについて説明し、Elasticsearch と Kibana を使用してテキスト データから高密度のベクトル埋め込みを生成する方法について詳しく説明しました。このブログでは、これらの埋め込みの結果を調べ、多言語モデルを活用することの大きな利点を強調します。
インデックスcoco_multilingualが作成されたので、検索を実行すると、参照用の「en」フィールドを含む複数の言語のドキュメントが表示されます。
# GET coco_multilingual/_search
    {
       "_index": "coco_multilingual",
       "_id": "WAiXQJYBgf6odR9bLohZ",
       "_score": 1,
       "_source": {
         "description": "Ein Parkmeßgerät auf einer Straße mit Autos",
         "en": "A row of parked cars sitting next to parking meters.",
         "language": "de",
         "vector_description": {...}
       }
     },
     . . .
英語で検索する
英語で検索を実行して、どれくらいうまくいくか確認してみましょう。
GET coco_multi/_search
{
"size": 10,
"_source": [
  "description", "language", "en"
],
"knn": {
  "field": "vector_description.predicted_value",
  "k": 10,
  "num_candidates": 100,
  "query_vector_builder": {
    "text_embedding": {
      "model_id": ".multilingual-e5-small_linux-x86_64_search",
      "model_text": "query: kitty"
    }
  }
}
}
{
       "_index": "coco_multi",
       "_id": "JQiXQJYBgf6odR9b6Yz0",
       "_score": 0.9334303,
       "_source": {
         "description": "Eine Katze, die in einem kleinen, gepackten Koffer sitzt.",
         "en": "A brown and white cat is in a suitcase.",
         "language": "de"
       }
     },
      {
       "_index": "coco_multi",
       "_id": "3AiXQJYBgf6odR9bFod6",
       "_score": 0.9281012,
       "_source": {
         "description": "Una bambina che tiene un gattino vicino a una recinzione blu.",
         "en": "A little girl holding a kitten next to a blue fence.",
         "language": "it"
       }
     },
     . . .
ここでは、クエリは一見単純に見えますが、内部的にはすべての言語のすべてのドキュメントにわたって「kitty」という単語の数値埋め込みを検索しています。また、ベクトル検索を実行しているため、「kitty」に関連する可能性のあるすべての単語を意味的に検索できます。「cat」、「kitten」、「feline」、「gatto」（イタリア語）、「mèo」（ベトナム語）、고양이（韓国語）、猫（中国語）などです。その結果、クエリが英語であっても、他のすべての言語でコンテンツを検索できるようになります。たとえば、「a kitty l ying on somethingを検索すると、イタリア語、オランダ語、ベトナム語のドキュメントも返されます。効率について話しましょう!
他の言語でコンテンツを検索する
GET coco_multi/_search
{  
 "size": 100,
 "_source": [
   "description", "language", "en"
 ],
 "knn": {
   "field": "vector_description.predicted_value",
   "k": 50,
   "num_candidates": 1000,
   "query_vector_builder": {
     "text_embedding": {
       "model_id": ".multilingual-e5-small_linux-x86_64_search",
       "model_text": "query: kitty lying on something"
     }
   }
 }
}
{
 "description": "A black kitten lays on her side beside remote controls.",
 "en": "A black kitten lays on her side beside remote controls.",
 "language": "en"
},
{
 "description": "un gattino sdraiato su un letto accanto ad alcuni telefoni ",
 "en": "A black kitten lays on her side beside remote controls.",
 "language": "it"
},
{
 "description": "eine Katze legt sich auf ein ausgestopftes Tier",
 "en": "a cat lays down on a stuffed animal",
 "language": "de"
},
{
 "description": "Một chú mèo con màu đen nằm nghiêng bên cạnh điều khiển từ xa.",
 "en": "A black kitten lays on her side beside remote controls.",
 "language": "vi"
}
. . .
同様に、韓国語で「cat」（「고양이」）のキーワード検索を実行しても、意味のある結果が返されます。驚くべきことに、このインデックスには韓国語の文書がまったくありません。
GET coco_multi/_search
{
 "size": 100,
 "_source": [
   "description", "language", "en"
 ],
 "knn": {
   "field": "vector_description.predicted_value",
   "k": 50,
   "num_candidates": 1000,
   "query_vector_builder": {
     "text_embedding": {
       "model_id": ".multilingual-e5-small_linux-x86_64_search",
       "model_text": "query: 고양이"
     }
   }
 }
}
 {
       {
         "description": "eine Katze legt sich auf ein ausgestopftes Tier",
         "en": "a cat lays down on a stuffed animal",
         "language": "de"
       }
     },
     {
       {
         "description": "Một con chó và con mèo đang ngủ với nhau trên một chiếc ghế dài màu cam.",
         "en": "A dog and cat lying  together on an orange couch. ",
         "language": "vi"
       }
     },
これが機能するのは、埋め込みモデルが意味を共有セマンティック空間で表現し、インデックス付けされたキャプションとは異なる言語でのクエリでも関連する画像を取得できるためです。
ハイブリッド検索と再ランキングによる関連性の高い検索結果の向上
関連する結果が期待どおりに表示されたことを嬉しく思います。しかし、現実の世界では、たとえば、最も関連性の高い上位 5 ～ 10 件の結果に絞り込む必要がある e コマースや RAG アプリケーションでは、再ランク付けモデルを使用して最も関連性の高い結果を優先することができます。
ここで、ベトナム語で「猫の色は何色ですか？」と尋ねるクエリを実行すると、多くの結果が表示されますが、上位 1 つまたは 2 つが最も関連性が高いとは限りません。
GET coco_multi/_search
{
 "size": 20,
 "_source": [
   "description",
   "language",
   "en"
 ],
 "knn": {
   "field": "vector_description.predicted_value",
   "k": 20,
   "num_candidates": 1000,
   "query_vector_builder": {
     "text_embedding": {
       "model_id": ".multilingual-e5-small_linux-x86_64_search",
       "model_text": "query: con mèo màu gì?"
     }
   }
 }
}
結果にはすべて「猫」または何らかの形の色が言及されています。
では、それを改善しましょう!Cohereの多言語再ランク付けモデルを統合して、質問に対応する推論を改善しましょう。
PUT _inference/rerank/cohere_rerank
{
 "service": "cohere",
 "service_settings": {
   "api_key": "your_api_key",
   "model_id": "rerank-v3.5"
 },
 "task_settings": {
   "top_n": 10,
   "return_documents": true
 }
}


GET coco_multi/_search
{
"size": 10,
"_source": [
  "description",
  "language",
  "en"
],
"retriever": {
  "text_similarity_reranker": {
    "retriever": {
      "rrf": {
        "retrievers": [
          {
            "knn": {
              "field": "vector_description.predicted_value",
              "k": 50,
              "num_candidates": 100,
              "query_vector_builder": {
                "text_embedding": {
                  "model_id": ".multilingual-e5-small_linux-x86_64_search",
                  "model_text": "query: con mèo màu gì?" // English: What color is the cat?
                }
              }
            }
          }
        ],
        "rank_window_size": 100,
        "rank_constant": 0
      }
    },
    "field": "description",
    "inference_id": "cohere_rerank",
    "inference_text": "con mèo màu gì?"
  }
}
}
 {
       "_index": "coco_multi",
       "_id": "rQiYQJYBgf6odR9bBYyH",
       "_score": 1.5501487,
       "_source": {
         "description": "Hai cái điện thoại được đặt trên một cái chăn cạnh một con mèo con màu đen.",
         "en": "A black kitten lays on her side beside remote controls.",
         "language": "vi"
       }
     },
     {
       "_index": "coco_multi",
       "_id": "swiXQJYBgf6odR9b04uf",
       "_score": 1.5427427,
       "_source": {
         "description": "Một con mèo sọc nâu nhìn vào máy quay.", // Real translation: A brown striped cat looks at the camera 
         "en": "This cat is sitting on a porch near a tire.",
         "language": "vi"
       }
     },
これで、上位の結果により、アプリケーションは子猫の色が黒か茶色で縞模様であると自信を持って答えることができます。ここでさらに興味深いのは、ベクトル検索によって、元のデータセットの英語のキャプションの欠落が実際に検出されたことです。参照の英語翻訳ではその詳細が抜けていたにもかかわらず、茶色の縞模様の猫を見つけることができます。これがベクトル検索の威力です。
まとめ
このブログでは、多言語埋め込みモデルの有用性と、Elasticsearch を活用してモデルを統合し埋め込みを生成する方法、ハイブリッド検索と再ランク付けによって関連性と精度を効果的に向上させる方法について説明しました。独自のクラウド クラスターを作成し、選択した言語とデータセットですぐに使用できる E5 モデルを使用して、多言語セマンティック検索を試すことができます。


Elasticsearch に多言語埋め込みモデルをデプロイする
Quynh Nguyen — Wed, 22 Oct 2025 00:00:00 GMT
はじめに
世界中のユーザーがいる世界では、言語間情報検索 (CLIR) が非常に重要です。CLIR を使用すると、検索を 1 つの言語に限定するのではなく、あらゆる言語で情報を検索できるため、ユーザー エクスペリエンスが向上し、操作が効率化されます。電子商取引の顧客が自分の言語で商品を検索でき、事前にデータをローカライズする必要なく、適切な結果が表示されるグローバル市場を想像してみてください。あるいは、情報源が別の言語であっても、学術研究者がニュアンスや複雑さを含めて母国語で論文を検索できる場所です。
多言語テキスト埋め込みモデルを使用すると、まさにそれが実現できます。埋め込みは、テキストの意味を数値ベクトルとして表現する方法です。これらのベクトルは、同様の意味を持つテキストが高次元空間内で互いに近く配置されるように設計されています。多言語テキスト埋め込みモデルは、特に、異なる言語間で同じ意味を持つ単語やフレーズを同様のベクトル空間にマッピングするように設計されています。
オープンソースの Multilingual E5 のようなモデルは、多くの場合、対照学習などの手法を使用して、大量のテキスト データでトレーニングされます。このアプローチでは、モデルは類似した意味を持つテキストのペア (肯定的なペア) と類似しない意味を持つテキストのペア (否定的なペア) を区別することを学習します。モデルは、正のペア間の類似性が最大化され、負のペア間の類似性が最小化されるように、生成するベクトルを調整するようにトレーニングされます。多言語モデルの場合、このトレーニング データには、相互に翻訳された異なる言語のテキスト ペアが含まれており、モデルが複数の言語の共有表現空間を学習できるようになります。結果として得られる埋め込みは、クエリの言語に関係なく、テキスト埋め込み間の類似性を使用して関連するドキュメントを検索するクロスリンガル検索を含むさまざまな NLP タスクに使用できます。
多言語ベクター検索のメリット
ニュアンス: ベクター検索は、キーワードのマッチングを超えて、意味を捉えることに優れています。これは、文脈や言語の微妙なニュアンスを理解する必要があるタスクにとって非常に重要です。
クロスリンガル理解: クエリとドキュメントが異なる語彙を使用している場合でも、言語間で効果的な情報検索を可能にします。
関連性: クエリとドキュメント間の概念的な類似性に焦点を当てることで、より関連性の高い結果を提供します。
たとえば、さまざまな国における「ソーシャル メディアが政治的議論に与える影響」を研究している学術研究者を考えてみましょう。ベクトル検索を使用すると、「l'impatto dei social media sul discorso politico」（イタリア語）または「ảnh hưởng của mạng xã hội đối với diễn ngôn chính trị」（ベトナム語）などのクエリを入力し、英語、スペイン語などで関連する論文を見つけることができます。他のインデックス付き言語。これは、ベクトル検索では、正確なキーワードを含む論文だけでなく、ソーシャル メディアの政治への影響の概念について議論している論文も特定されるためです。これにより、研究の幅と深さが大幅に向上します。
使い始める
Elasticsearch を使用して CLIR を設定する方法 (すぐに使用できる E5 モデルを使用) を次に示します。複数の言語の画像キャプションを含むオープンソースの多言語 COCO データセットを使用して、2 種類の検索を視覚化します。
1つの英語データセット上の他の言語のクエリと検索用語、および
複数の言語のドキュメントを含むデータセットに対する複数の言語でのクエリ。
次に、ハイブリッド検索と再ランキングの力を活用して、検索結果をさらに改善します。
要件
Python 3.6以上
Elasticsearch 8以上
Elasticsearch Pythonクライアント: pip install elasticsearch
データセット
COCO データセットは、大規模なキャプション データセットです。データセット内の各画像には複数の異なる言語でキャプションが付けられており、言語ごとに複数の翻訳が利用可能です。デモンストレーションの目的で、各翻訳を個別のドキュメントとしてインデックス化し、参照用に最初の利用可能な英語の翻訳もインデックス化します。
ステップ1: 多言語COCOデータセットをダウンロードする
ブログを簡素化し、理解しやすくするために、ここでは、単純な API 呼び出しを使用して、restval の最初の 100 行をローカル JSON ファイルに読み込みます。あるいは、HuggingFace のライブラリ データセットを使用して、完全なデータセットまたはデータセットのサブセットを読み込むこともできます。
import requests
import json
import os
### Download multilingual coco dataset into a json file (for easy viewing)
### Here we are retrieving first 100 rows for this example
### Alternatively, you can use `datasets` library from Hugging Face
url = "https://datasets-server.huggingface.co/rows?dataset=romrawinjp%2Fmultilingual-coco&config=default&split=restval&offset=0&length=100"
response = requests.get(url)


if response.status_code == 200:
   data = response.json()
   output_file = "multilingual_coco_sample.json" 
   ### Loading the downloaded content into a json file locally
   with open(output_file, "w", encoding="utf-8") as f:
       json.dump(data, f, indent=4, ensure_ascii=False)
   print(f"Data successfully downloaded and saved to {output_file}")
else:
   print(f"Failed to download data: {response.status_code}")
   print(response.text)
データが JSON ファイルに正常に読み込まれると、次のようなものが表示されます。
Data successfully downloaded and saved to multilingual_coco_sample.json
ステップ2: (Elasticsearchを起動) Elasticsearchでデータをインデックスする
a) ローカル Elasticsearch サーバーを起動します。
b) Elasticsearch クライアントを起動します。
from elasticsearch import Elasticsearch
from getpass import getpass


# Initialize Elasticsearch client
es = Elasticsearch(getpass("Host: "), api_key=getpass("API Key: "))


index_name = "coco"


# Create the index if it doesn't exist
if not es.indices.exists(index=index_name):
   es.indices.create(index=index_name, body=mapping)
c) インデックスデータ
# Load the JSON data
with open('./multilingual_coco_sample.json', 'r') as f:
   data = json.load(f)


rows = data["rows"]
# List of languages to process
languages = ["en", "es", "de", "it", "vi", "th"]


# For each image, we will process each individual caption as its own document
bulk_data = []
for data in rows:
   row = data["row"]
   image = row.get("image")
   image_url = image["src"]


   # Process each language
   for lang in languages:
       # Skip if language not present in this row
       if lang not in row:
           continue


       # Get all descriptions for this language
 # along with first available English caption for reference
       descriptions = row[lang]
       first_eng_caption = row["en"][0]


       # Prepare bulk indexing data
       for description in descriptions:
           if description == "":
               continue
           # Add index operation
           bulk_data.append(
               {"index": {"_index": index_name}}
           )
           # Add document
           bulk_data.append({
               "language": lang,
               "description": description,
               "en": first_eng_caption,
               "image_url": image_url,
           })


# Perform bulk indexing
if bulk_data:
   try:
       response = es.bulk(operations=bulk_data)
       if response["errors"]:
           print("Some documents failed to index")
       else:
           print(f"Successfully bulk indexed {len(bulk_data)} documents")
   except Exception as e:
       print(f"Error during bulk indexing: {str(e)}")


print("Indexing complete!")
データがインデックスされると、次のようなものが表示されます。
Successfully bulk indexed 4840 documents
Indexing complete!
ステップ3: E5トレーニング済みモデルをデプロイする
Kibanaで、スタック管理 >トレーニング済みモデルページに移動し、.multilingual-e5-small_linux-x86_64のデプロイをクリックします。オプション。この E5 モデルは、linux-x86_64 向けに最適化された小型の多言語モデルで、そのまま使用できます。「デプロイ」をクリックすると、デプロイ設定または vCPU 構成を調整できる画面が表示されます。簡単にするために、デフォルト オプションを使用し、適応型リソースを選択します。これにより、使用状況に応じてデプロイメントが自動的にスケーリングされます。
オプションとして、他のテキスト埋め込みモデルを使用することもできます。たとえば、BGE-M3 を使用するには、 Elastic の Eland Python クライアントを使用して HuggingFace からモデルをインポートできます。
export MODEL_ID="bge-m3"
export HUB_MODEL_ID="BAAI/bge-m3"
export CLOUD_ID={{CLOUD_ID}}
export ES_API_KEY={{API_KEY}}
docker run -it --rm docker.elastic.co/eland/eland \
eland_import_hub_model --cloud-id $CLOUD_ID --es-api-key $ES_API_KEY --hub-model-id $HUB_MODEL_ID --es-model-id $MODEL_ID --task-type text_embedding --start
次に、「トレーニング済みモデル」ページに移動し、インポートしたモデルを必要な構成でデプロイします。
ステップ4: デプロイされたモデルを使用して元のデータをベクトル化または埋め込みを作成する
埋め込みを作成するには、まずテキストを取得して推論テキスト埋め込みモデルに通すことができる取り込みパイプラインを作成する必要があります。これは、Kibana のユーザー インターフェースまたは Elasticsearch の API を通じて実行できます。
Kibana インターフェース経由でこれを行うには、トレーニング済みモデルをデプロイした後、 [テスト]ボタンをクリックします。これにより、生成された埋め込みをテストおよびプレビューできるようになります。cocoの新しいデータビューを作成します インデックスを作成し、データ ビューを新しく作成した coco データ ビューに設定し、フィールドをdescriptionに設定します。これは、埋め込みを生成するフィールドだからです。
それは素晴らしいですね！これで、取り込みパイプラインの作成に進み、元のドキュメントのインデックスを再作成し、パイプラインに渡して、埋め込みを含む新しいインデックスを作成できます。これを実現するには、 「パイプラインの作成」をクリックします。これにより、埋め込みの作成に必要なプロセッサが自動的に入力され、パイプラインの作成プロセスがガイドされます。
ウィザードでは、データの取り込みと処理中に障害を処理するために必要なプロセッサを自動的に入力することもできます。
それでは、取り込みパイプラインを作成しましょう。パイプラインにcoco_e5という名前を付けます。パイプラインが正常に作成されたら、ウィザードで元のインデックス付きデータを新しいインデックスに再インデックスすることで、パイプラインをすぐに使用して埋め込みを生成できます。プロセスを開始するには、 「再インデックス」をクリックします。
より複雑な構成の場合は、Elasticsearch API を使用できます。
一部のモデルでは、モデルのトレーニング方法により、埋め込みを生成する前に実際の入力の先頭または末尾に特定のテキストを追加する必要がある場合があります。そうしないと、パフォーマンスが低下します。
たとえば、e5 の場合、モデルは入力テキストが「passage: {content of passage} 」に続くことを想定します。これを実現するために、取り込みパイプラインを活用しましょう。新しい取り込みパイプラインvectorize_descriptions を作成します。このパイプラインでは、新しい一時的なtemp_descフィールドを作成し、 descriptionテキストの先頭に「passage:」を追加し、モデルでtemp_descを実行してテキスト埋め込みを生成し、 temp_descを削除します。
PUT _ingest/pipeline/vectorize_descriptions
{
"description": "Pipeline to run the descriptions text_field through our inference text embedding model",
"processors": [
 {
   "set": {
     "field": "temp_desc",
     "value": "passage: {{description}}"
   }
 },
 {
   "inference": {     
"field_map": {
       "temp_desc": "text_field"
     },
     "model_id": ".multilingual-e5-small_linux-x86_64_search",
     "target_field": "vector_description"
   }
 },
 {
   "remove": {
     "field": "temp_desc"
   }
 }
]
}
さらに、生成されたベクトルに使用する量子化の種類を指定することもできます。デフォルトでは、Elasticsearch はint8_hnswを使用しますが、ここでは各次元を 1 ビットの精度に削減するBetter Binary Quantization (またはbqq_hnsw ) を使用します。これにより、精度は犠牲になりますが、メモリ フットプリントが 96% (または 32 倍) 削減されます。後で再ランク付けを使用して精度の低下を改善することが分かっているため、この量子化タイプを選択しています。
そのためには、 coco_multiという名前の新しいインデックスを作成し、マッピングを指定します。ここでの魔法は vector_description フィールドにあり、そこでindex_optionsのタイプをbbq_hnswに指定します。
PUT coco_multi
{
 "mappings": {
   "properties": {
     "description": {
       "type": "text"
     },
     "en": {
       "type": "text"
     },
     "image_url": {
       "type": "keyword"
     },
     "language": {
       "type": "keyword"
     },
     "vector_description.predicted_value": {
       "type": "dense_vector",
       "dims": 384,
       "index": "true",
       "similarity": "cosine",
       "index_options": {
         "type": "bbq_hnsw" 
       }
     }
   }
 }
}
これで、説明フィールドを「ベクトル化」または埋め込みを作成する取り込みパイプラインを使用して、元のドキュメントを新しいインデックスに再インデックスできます。
POST _reindex?wait_for_completion=false
{
 "source": {
   "index": "coco"
 },
 "dest": {
   "index": "coco_multilingual",
   "pipeline": "vectorize_descriptions"
 }
}
以上です！Elasticsearch と Kibana を使用して多言語モデルを正常にデプロイし、Kibana ユーザー インターフェースまたは Elasticsearch API を使用して Elastic でデータにベクトル埋め込みを作成する方法を段階的に学習しました。このシリーズの第 2 部では、多言語モデルを使用した場合の結果とニュアンスについて説明します。その間、独自のクラウド クラスターを作成し、選択した言語とデータセットですぐに使用できる E5 モデルを使用して多言語セマンティック検索を試すことができます。


Elastic MCP サーバー: あらゆる AI エージェントに Agent Builder ツールを公開
Jedr Blaszyk, Joe McElroy — Mon, 20 Oct 2025 00:00:00 GMT
Elastic Agent Builder は、Elasticsearch 内の独自のデータと深く統合されたツールとエージェントを作成するためのプラットフォームです。たとえば、内部ドキュメントに対してセマンティック検索を実行したり、観測ログを分析したり、セキュリティアラートを照会したりするツールを作成できます。
しかし、本当の魔法は、これらのカスタマイズされたデータ対応ツールを、ほとんどの時間を費やす環境に導入できたときに起こります。コード エディター エージェントが組織のプライベート ナレッジ ベースに安全にアクセスできたらどうなるでしょうか?
ここで、モデル コンテキスト プロトコル (MCP)が登場します。Elastic Agent Builder には、プラットフォーム内のツールへのアクセスを提供する組み込みの MCP サーバーが付属しています。
Elastic Agent Builder MCP サーバーを使用する理由は何ですか?
AI エージェントは非常に強力ですが、その知識は通常、トレーニングに使用されたデータとパブリック インターネット上でアクティブに検索できる情報に限定されます。彼らは、会社の内部設計ドキュメント、チーム固有のデプロイメント ランブック、またはアプリケーション ログの独自の構造については知りません。
課題は、AI アシスタントに必要な特殊なコンテキストを提供することです。これはまさに、MCP が解決するために設計された問題です。MCP は、AI モデルまたはエージェントが外部ツールを検出して使用できるようにするオープン スタンダードです。
これを実現するために、Elastic Agent Builder は組み込みの MCP サーバーを通じてカスタム ツールをネイティブに公開します。つまり、 Cursor 、 VS Code 、 Claude Desktopなどの MCP 対応クライアントを、Elastic Agent Builder で構築した特殊なデータ対応ツールに簡単に接続できるということです。
MCP を使用する場合 (および使用しない場合)
Elastic Agent Builder には、さまざまな統合パターンをサポートするためのいくつかのプロトコルが含まれています。適切なものを選択することが、効果的な AI ワークフローを構築する鍵となります。
MCP を使用して 、専用のツールで AI エージェント ( Cursor や VS Code など) を拡張します。これは「独自のツールを持ち込む」アプローチであり、すでに使用しているアシスタントを強化して、プライベート データに安全にアクセスできるようにします。MCP サーバーを通じて公開されるのはツールのみで、Elastic のエージェントはそれとは別です。
A2A プロトコルを 使用すると 、完全なカスタム Elastic Agent が他の自律エージェント ( Google の Gemini Enterprise など) と連携できるようになります。これはエージェント間の委任用であり、各エージェントは問題を解決するためにピアとして機能します。
カスタム アプリケーションを最初から構築するときに、完全なプログラム制御を行うには Agent Builder API を 使用します 。
IDE を離れずに社内ドキュメントから回答を得たい開発者にとって、MCP は最適です。
例: Agent Builder MCP サーバーを使用した Cursor のカスタム ツール
私が日常的に使用している実際の例を見てみましょう。まず、社内のエンジニアリング ドキュメントをクロールして、 elastic-dev-docsという Elasticsearch インデックスにインデックス付けしました。Agent Builder で使用できる汎用の組み込みツールを使用することもできますが、この特定のナレッジベースを照会するための独自のカスタム ツールを作成します。
カスタム ツールを構築する理由はシンプルです。制御と精度です。このアプローチにより、 elastic-dev-docsインデックスに対して高速でセマンティックなクエリを直接実行できるようになります。どのインデックスをターゲットにするか、データをどのように取得するかを完全に制御できます。
ここで、このカスタム ナレッジ ベースを Cursor のような AI 搭載コード エディターで使用する方法を説明します。
ステップ1: Agent Builderでカスタムナレッジベースツールを作成する
まず、Agent Builder で新しいツールを作成します。明確で具体的なツールの説明は重要です。なぜなら、それが内部 Elastic Agent であれ、MCP 経由で接続する Cursor などの外部ツールであれ、あらゆる AI エージェントが適切なタスクのためにツールを検出し選択する方法だからです。
強力な説明は明確である必要があります。たとえば、「elastic-dev-docs インデックスでセマンティック検索を実行して、社内のエンジニアリング ドキュメント、ランブック、リリース手順を検索します。」
これで、ツールは特定のインデックスに対してセマンティック検索を実行するように構成されます。保存すると、すぐに利用できるようになります。
外部に接続する前に、UI で直接テストできます。[テスト]ボタンをクリックするだけで、パラメータを手動で入力し、LLM の動作をエミュレートして、結果を検査し、すべてが正しく動作していることを確認します。
ステップ2: CursorをElastic MCPサーバーに接続する
Elastic Agent Builder は、安全な MCP エンドポイントを介して利用可能なすべてのツールを自動的に公開します。固有のサーバー URL は、Kibana 内のツール UI で見つけることができます。
Cursor に接続するには、この URL と認証用の Elastic API キー ( ES API キーの作成方法を参照) を構成ファイルに追加するだけです。認証には API キーを使用します。これにより、すべてのアクセス制御ルールを尊重し、ツールは付与した権限でのみ実行されるようになります。
カーソルの~/.cursor/mcp.json内の MCP 構成は次のようになります。
{
  "mcpServers": {
    "elastic-agent-builder": {
      "command": "npx",
      "args": [
        "mcp-remote",
        "https://your-kibana.kb.company.io/api/agent_builder/mcp",
        "--header",
        "Authorization:${AUTH_HEADER}"
      ],
      "env": {
        "AUTH_HEADER": "ApiKey "
      }
    }
  }
}
設定が保存されると、Cursor で Elastic Agent Builder MCP サーバー ツールが利用可能になります。
ステップ 3: どんどん質問しましょう!
接続が確立されると、カーソル エージェントはカスタム ツールを呼び出して質問に答えたり、コード生成プロセスをガイドしたりできるようになります。
具体的な質問をしてみましょう。
「Elastic Search org のエンジニアリング内部ドキュメントからクローラー サービスをリリースするための手順を参照する」
舞台裏では魔法が起こります:
カーソルエージェントはあなたの質問に最もよく答える方法を決定し、 engineering_documentation_internal_search
自然言語クエリでツールを呼び出す
このツールは、 elastic-dev-docsインデックスに対してセマンティック検索を実行し、最も関連性の高い最新の手順を返します。
コード エディターを離れることなく、社内ドキュメントに基づいた正確で信頼できる回答が得られます。体験はシームレスかつ強力です。
あなたの番です
ここでは、Elastic Agent Builder に組み込まれている MCP サーバーを使用して、プライベート データへの安全なアクセスを備えた AI アシスタントを拡張する方法を説明しました。モデルを本当に役立つものにするためには、独自の情報に基づいてモデルを構築することが鍵となります。
要約すると、主要な手順について説明しました。
ニーズに合った適切なプロトコルを選択する (MCP)。
カスタム ナレッジ ベース ツールを構築します。
そのツールを Cursor などの IDE アシスタントに接続します。
エージェントとツールを最も重要なコンテキストから切り離す必要がなくなりました。このガイドがより効果的でデータを考慮したワークフローの作成に役立つことを願っています。楽しい建築を！


ユーザー行動データに基づく判断リストを使用して Elasticsearch で LTR モデルをトレーニングする
Alexander Dávila — Wed, 15 Oct 2025 00:00:00 GMT
ランク付け学習モデルを使用する際の大きな課題は、モデルをトレーニングするための高品質の判断リストを作成することです。従来、このプロセスでは、クエリとドキュメントの関連性を手動で評価し、それぞれにグレードを割り当てていました。これは、拡張性が低く、維持が困難な、時間のかかるプロセスです (数百のエントリを含むリストを手動で更新する必要があることを想像してください)。
さて、検索アプリケーションでの実際のユーザーインタラクションを使用してこのトレーニングデータを作成できたらどうなるでしょうか?UBIデータを使用すると、まさにそれが実現できます。検索、クリック、その他のインタラクションをキャプチャして使用し、判断リストを生成できる自動システムを作成します。このプロセスは、手動による操作よりもはるかに簡単に拡張および繰り返すことができ、より良い結果が得られる傾向があります。このブログでは、Elasticsearch に保存されている UBI データをクエリして意味のある信号を計算し、 LTRモデルのトレーニング データセットを生成する方法について説明します。
完全な実験は ここで ご覧いただけます 。
UBIデータがLTRモデルのトレーニングに役立つ理由
UBI データには、手動による注釈に比べていくつかの利点があります。
量: UBI データは実際のやり取りから得られるため、手動で生成できるよりもはるかに多くのデータを収集できます。もちろん、このデータを生成するのに十分なトラフィックがあることを前提としています。
実際のユーザーの意図:従来、手動の判断リストは、利用可能なデータの専門家による評価から作成されます。一方、UBI データは実際のユーザー行動を反映しています。これは、何が関連しているべきかという理論的な仮定ではなく、ユーザーが実際にコンテンツとやりとりして価値を見出す方法に基づいているため、検索システムの精度を向上させる、より優れたトレーニング データを生成できることを意味します。
継続的な更新:判断リストは時間の経過とともに更新する必要があります。UBI データから作成すれば、最新のデータが得られ、判断リストが更新されます。
コスト効率:判断リストを手動で作成するオーバーヘッドがないため、プロセスを何度でも効率的に繰り返すことができます。
自然なクエリ分布: UBI データは実際のユーザー クエリを表し、より深い変化を促すことができます。たとえば、ユーザーはシステム内で検索する際に自然言語を使用しているでしょうか?もしそうなら、セマンティック検索またはハイブリッド検索アプローチを実装する必要があるかもしれません。
ただし、いくつかの警告も伴います。
バイアスの増幅:人気のあるコンテンツは、露出が増えるため、クリックされる可能性が高くなります。そのため、人気のあるアイテムが強調され、より良い選択肢が埋もれてしまう可能性があります。
カバレッジが不完全:新しいコンテンツにはインタラクションがないため、結果の上位に表示されることは難しい可能性があります。まれなクエリでは、意味のあるトレーニング データを作成するのに十分なデータ ポイントが不足している場合もあります。
季節的な変動:ユーザーの行動が時間の経過とともに劇的に変化することが予想される場合、履歴データからは、どのような結果が適切であるかについてあまり情報が得られない可能性があります。
タスクの曖昧さ:クリックしても、ユーザーが探していたものが見つかるとは限らない。
成績計算
LTRトレーニングのグレード
LTR モデルをトレーニングするには、ドキュメントがクエリにどの程度関連しているかを数値で表現する必要があります。私たちの実装では、この数値は 0.0 から 5.0+ までの連続したスコアであり、スコアが高いほど関連性が高くなります。
この評価システムがどのように機能するかを示すために、手動で作成された次の例を考えてみましょう。
            
              
                
                    
                      クエリ 文書の内容 学年 説明
                    
                    
                      「最高のピザレシピ」 「本格的なイタリアンピザ生地のレシピ（写真付きステップバイステップ）」 4.0 関連性が高く、まさにユーザーが探しているもの
                    
                    
                      「最高のピザレシピ」 「イタリアのピザの歴史」 1.0 ピザに関する内容ですが、レシピではありません
                    
                    
                      「最高のピザレシピ」 「初心者向け15分でできる簡単ピザレシピ」 3.0 関連性があり、良い結果ですが、「最高」のレシピとは言えないかもしれません。
                    
                    
                      「最高のピザレシピ」 「車のメンテナンスガイド」 0.0 全く関係ありません。クエリとは全く関係ありません。
                    
              
            
          ここからわかるように、グレードは、ドキュメントが「最高のピザのレシピ」というサンプルクエリにどれだけ関連しているかを数値で表したものです。これらのスコアを使用して、LTR モデルはどのドキュメントを結果の上位に表示する必要があるかを学習できます。
成績の計算方法は、トレーニング データセットの中核です。これを行うには複数のアプローチがあり、それぞれに長所と短所があります。たとえば、関連性がある場合は 1、関連性がない場合は 0 というバイナリ スコアを割り当てたり、クエリごとに結果のドキュメントのクリック数をカウントしたりすることもできます。
このブログ投稿では、ユーザーの行動を入力として考慮し、グレード番号を出力として計算する、異なるアプローチを使用します。また、ドキュメントの関連性に関係なく、検索結果の上位の方がクリックされる傾向があるという事実から生じる可能性のあるバイアスも修正します。
成績の計算 - COECアルゴリズム
COEC ( Clicks over Expected Clicks ) アルゴリズムは、ユーザーのクリックから判断グレードを計算する手法です。前述したように、ユーザーは、ドキュメントがクエリに最も関連していない場合でも、上位に表示された結果をクリックする傾向があります。これは、ポジション バイアスと呼ばれます。COEC アルゴリズムを使用する際の基本的な考え方は、すべてのクリックが同等に重要であるわけではないということです。つまり、位置 10 のドキュメントをクリックすると、位置 1 のドキュメントをクリックするよりも、そのドキュメントがクエリとの関連性がはるかに高いことを示します。COEC アルゴリズムに関する研究論文 (上記リンク) を引用します。
「検索結果や広告のクリック率（CTR）は、検索結果の順位によって大幅に低下することがよく知られています。」
ポジションバイアスの詳細については、こちらをご覧ください。
COEC アルゴリズムを使用してこれに対処するには、次の手順に従います。
1. 位置のベースラインを確立する:検索位置ごとに 1 から 10 までのクリック率 (CTR) を計算します。つまり、通常、ユーザーの何パーセントが位置 1、位置 2 などをクリックするかを決定します。このステップでは、ユーザーの自然な位置の偏りを捉えます。CTR は次のように計算します。
 $CTRp=CpIp$ どこ：
p = 位置。1から10まで
Cp = すべてのクエリにおける位置pでの合計クリック数（任意のドキュメント）
 Ip = 総表示回数: すべてのクエリで、任意のドキュメントが位置 p に表示された回数
ここでは、上位の順位の方がクリック数が多くなると予想されます。
2.予想クリック数（EC）を計算する:
この指標は、ドキュメントが表示された位置とその位置のCTRに基づいて、ドキュメントが「受け取るべき」クリック数を決定します。ECは次の方法で計算します。
 $EC (for a document) = qQdCTRpos(d,q)$ どこ：
Qd = 文書dが出現したすべてのクエリ
pos(d,q) = クエリqの結果における文書dの位置
3.実際のクリック数をカウントする:ドキュメントが表示されたすべてのクエリでドキュメントが受け取った実際の合計クリック数をカウントします。以降、 A(d) と呼びます。
4. COECスコアを計算します。これは、実際のクリック数（A(d)）と予想クリック数（EC(d)）の比率です。
 $COEC = A(d)EC(d)$ このメトリックは、次のように位置バイアスを正規化します。
スコア 1.0 は、ドキュメントが表示された位置に応じて、期待どおりに実行されたことを意味します。
スコアが 1.0 を超える場合、ドキュメントの位置を見ると予想よりもパフォーマンスが優れていることを意味します。したがって、このドキュメントはクエリに対してより関連性があります。
スコアが 1.0 未満の場合、ドキュメントの位置から判断すると、予想よりもパフォーマンスが悪かったことを意味します。したがって、このドキュメントはクエリとの関連性が低くなります。
最終結果は、検索システムとの実際のやりとりから抽出された位置ベースの期待を考慮して、ユーザーが探しているものを捉えたグレード番号になります。
技術的な実装
LTR モデルをトレーニングするための判断リストを作成するスクリプトを作成します。
このスクリプトの入力は、Elastic でインデックス化された UBI データ (クエリとイベント) です。
出力は、COEC アルゴリズムを使用してこれらの UBI ドキュメントから生成された CSV ファイル内の判断リストです。この判断リストをElandで使用すると、関連する特徴を抽出し、LTR モデルをトレーニングできます。
クイックスタート
このブログのサンプル データから判断リストを生成するには、次の手順に従います。
1. リポジトリをクローンします。
git clone https://github.com/Alex1795/elastic-ltr-judgement_list-blog.git  
cd elastic-ltr-judgement_list-blog
2. 必要なライブラリをインストールする
このスクリプトには、次のライブラリが必要です。
pandas : 判定リストを保存する
elasticsearch : ElasticデプロイメントからUBIデータを取得する
Python 3.11も必要です
pip install -r requirements.txt
3. .envファイルでElasticデプロイメントの環境変数を更新します。
ES_ホスト
API_キー
環境変数を追加するには、次を使用します。
source .env
4. ubi_queries、ubi_events インデックスを作成し、サンプル データをアップロードします。setup.py ファイルを実行します。
python setup.py
5. Python スクリプトを実行します。
python judgement_list-generator.py
これらの手順に従うと、次のような judgement_list.csv という新しいファイルが表示されます。
このスクリプトは、以下に示すcalculate_relevance_grade()関数を使用して、前に説明した COEC アルゴリズムを適用して成績を計算します。
データアーキテクチャ
Ubiクエリ
UBI クエリ インデックスには、検索システムで実行されたクエリに関する情報が含まれています。これはサンプルドキュメントです:
{
          "client_id": "client_002",
          "query": "italian pasta recipes",
          "query_attributes": {
            "search_type": "recipe",
            "category": "food",
            "cuisine": "italian"
          },
          "query_id": "q002",
          "query_response_id": "qr002",
          "query_response_object_ids": [
            "doc_011",
            "doc_012",
            "doc_013",
            "doc_014",
            "doc_015",
            "doc_016",
            "doc_017",
            "doc_018",
            "doc_019",
            "doc_020"
          ],
          "timestamp": "2024-08-14T11:15:00Z",
          "user_query": "italian pasta recipes"
        }
ここでは、ユーザー（client_id）、クエリの結果（query_response_object_ids）、クエリ自体（timestamp、user_query）のデータを見ることができます。
Ubiクリックイベント
ubi_events インデックスには、ユーザーが結果内のドキュメントをクリックするたびに収集されたデータが含まれています。これはサンプルドキュメントです:
{
          "action_name": "click",
          "application": "recipe_search",
          "client_id": "client_001",
          "event_attributes": {
            "object": {
              "description": "Authentic Italian Pizza Dough Recipe with Step-by-Step Photos",
              "device": "desktop",
              "object_id": "doc_001",
              "position": {
                "ordinal": 1,
                "page_depth": 1
              },
              "user": {
                "city": "New York",
                "country": "USA",
                "ip": "192.168.1.100",
                "location": {
                  "lat": 40.7128,
                  "lon": -74.006
                },
                "region": "NY"
              }
            }
          },
          "message": "User clicked on document doc_001",
          "message_type": "click",
          "query_id": "q001",
          "timestamp": "2024-08-14T10:31:00Z",
          "user_query": "best pizza recipe"
        }
判定リスト生成スクリプト
スクリプトの一般的な概要
このスクリプトは、Elasticsearch に保存されているクエリとクリック イベントからの UBI データを使用して、判断リストの生成を自動化します。次のタスクを実行します:
Elasticsearch で UBI データを取得して処理します。
UBI イベントをそのクエリと関連付けます。
各位置の CTR を計算します。
各ドキュメントの予想クリック数 (EC) を計算します。
各ドキュメントの実際のクリック数をカウントします。
各クエリとドキュメントのペアの COEC スコアを計算します。
判定リストを生成し、CSVファイルに書き込みます。
それぞれの機能を見ていきましょう。
connect_to_elasticsearch()
def connect_to_elasticsearch(host, api_key):
    """Create and return Elasticsearch client"""
    try:
        es = Elasticsearch(
            hosts=[host],
            api_key=api_key,
            request_timeout=60
        )
        # Test the connection
        if es.ping():
            print(f"✓ Successfully connected to Elasticsearch at {host}")
            return es
        else:
            print("✗ Failed to connect to Elasticsearch")
            return None
    except Exception as e:
        print(f"✗ Error connecting to Elasticsearch: {e}")
        return None
この関数は、ホストと API キーを使用して Elasticsearch クライアント オブジェクトを返します。
fetch_ubi_data()
def fetch_ubi_data(es_client: Elasticsearch, queries_index: str, events_index: str,
                   size: int = 10000) -> Tuple[List[Dict], List[Dict]]:
    """
    Fetch UBI queries and events data from Elasticsearch indices.

    Args:
        es_client: Elasticsearch client
        queries_index: Name of the UBI queries index
        events_index: Name of the UBI events index
        size: Maximum number of documents to fetch

    Returns:
        Tuple of (queries_data, events_data)
    """
    logger.info(f"Fetching data from {queries_index} and {events_index}")

    # Fetch queries with error handling
    try:
        queries_response = es_client.search(
            index=queries_index,
            body={
                "query": {"match_all": {}},
                "size": size
            }
        )
        queries_data = [hit['_source'] for hit in queries_response['hits']['hits']]
        logger.info(f"Fetched {len(queries_data)} queries")

    except Exception as e:
        logger.error(f"Error fetching queries from {queries_index}: {e}")
        raise

    # Fetch events (only click events for now) with error handling
    try:
        events_response = es_client.search(
            index=events_index,
            body={
                "query": {
                    "term": {"message_type.keyword": "CLICK_THROUGH"}
                },
                "size": size
            }
        )
        events_data = [hit['_source'] for hit in events_response['hits']['hits']]
        logger.info(f"Fetched {len(events_data)} click events")

    except Exception as e:
        logger.error(f"Error fetching events from {events_index}: {e}")
        raise

    logger.info(f"Data fetch completed successfully - Queries: {len(queries_data)}, Events: {len(events_data)}")

    return queries_data, events_data
この関数はデータ抽出レイヤーであり、Elasticsearch に接続して match_all クエリを使用して UBI クエリを取得し、UBI イベントをフィルタリングして 'CLICK_THROUGH' イベントのみを取得します。
プロセスubi_data()
def process_ubi_data(queries_data: List[Dict], events_data: List[Dict]) -> pd.DataFrame:
    """
    Process UBI data and generate judgment list.

    Args:
        queries_data: List of query documents from UBI queries index
        events_data: List of event documents from UBI events index

    Returns:
        DataFrame with judgment list (qid, docid, grade, keywords)
    """
    logger.info("Processing UBI data to generate judgment list")

    # Group events by query_id
    clicks_by_query = {}
    for event in events_data:
        query_id = event['query_id']
        if query_id not in clicks_by_query:
            clicks_by_query[query_id] = {}

        # Extract clicked document info
        object_id = event['event_attributes']['object']['object_id']
        position = event['event_attributes']['object']['position']['ordinal']

        clicks_by_query[query_id][object_id] = {
            'position': position,
            'timestamp': event['timestamp']
        }

    judgment_list = []

    # Process each query
    for query in queries_data:
        query_id = query['query_id']
        user_query = query['user_query']
        document_ids = query['query_response_object_ids']

        # Get clicks for this query
        query_clicks = clicks_by_query.get(query_id, {})

        # Generate judgment for each document shown
        for doc_id in document_ids:
            grade = calculate_relevance_grade(doc_id, query_clicks, document_ids, queries_data, events_data)

            judgment_list.append({
                'qid': query_id,
                'docid': doc_id,
                'grade': grade,
                'query': user_query
            })

    df = pd.DataFrame(judgment_list)
    logger.info(f"Generated {len(df)} judgment entries for {df['qid'].nunique()} unique queries")

    return df
この関数は判定リストの生成を処理します。UBI イベントとクエリを関連付けることで、UBI データの処理を開始します。次に、ドキュメントとクエリのペアごとに calculate_relevance_grade() 関数を呼び出して、判断リストのエントリを取得します。最後に、結果のリストを pandas データフレームとして返します。
関連性グレードを計算する()
def calculate_relevance_grade(document_id: str, clicks_data: Dict,
                              query_response_ids: List[str], all_queries_data: List[Dict] = None,
                              all_events_data: List[Dict] = None) -> float:
    """
    Calculate COEC (Click Over Expected Clicks) relevance score for a document.

    Args:
        document_id: ID of the document
        clicks_data: Dictionary of clicked documents with their positions for current query
        query_response_ids: List of document IDs shown in search results (ordered by position)
        all_queries_data: All queries data for calculating position CTR averages
        all_events_data: All events data for calculating position CTR averages

    Returns:
        COEC relevance score (continuous value, typically 0.0 to 5.0+)
    """

    # If no global data provided, fall back to simple position-based grading
    if all_queries_data is None or all_events_data is None:
        logger.warning("No global data provided, falling back to position-based grading")
        # Simple fallback logic
        if document_id in clicks_data:
            position = clicks_data[document_id]['position']
            if position > 3:
                return 4.0
            elif position >= 1 and position <= 3:
                return 3.0
        if document_id in query_response_ids:
            position = query_response_ids.index(document_id) + 1
            if position <= 5:
                return 2.0
            elif position >= 6 and position <= 10:
                return 1.0
        return 0.0

    # Calculate rank-aggregated click-through rates
    position_ctr_averages = {}
    position_impression_counts = {}
    position_click_counts = {}

    # Initialize counters
    for pos in range(1, 11):  # Positions 1-10
        position_impression_counts[pos] = 0
        position_click_counts[pos] = 0

    # Count impressions (every document shown contributes)
    for query in all_queries_data:
        for i, doc_id in enumerate(query['query_response_object_ids'][:10]):  # Top 10 positions
            position = i + 1
            position_impression_counts[position] += 1

    # Count clicks by position
    for event in all_events_data:
        if event.get('action_name') == 'click':
            position = event['event_attributes']['object']['position']['ordinal']
            if position <= 10:
                position_click_counts[position] += 1

    # Calculate average CTR per position
    for pos in range(1, 11):
        if position_impression_counts[pos] > 0:
            position_ctr_averages[pos] = position_click_counts[pos] / position_impression_counts[pos]
        else:
            position_ctr_averages[pos] = 0.0

    # Calculate expected clicks for this specific document
    expected_clicks = 0.0

    # Count how many times this document appeared at each position for any query
    for query in all_queries_data:
        if document_id in query['query_response_object_ids']:
            position = query['query_response_object_ids'].index(document_id) + 1
            if position <= 10:
                expected_clicks += position_ctr_averages[position]

    # Count total actual clicks for this document across all queries
    actual_clicks = 0
    for event in all_events_data:
        if (event.get('action_name') == 'click' and
                event['event_attributes']['object']['object_id'] == document_id):
            actual_clicks += 1

    # Calculate COEC score
    if expected_clicks > 0:
        coec_score = actual_clicks / expected_clicks
    else:
        coec_score = 0.0

    logger.debug(
        f"Document {document_id}: {actual_clicks} clicks / {expected_clicks:.3f} expected = {coec_score:.3f} COEC")

    return coec_score
これは COEC アルゴリズムを実装する関数です。各位置の CTR を計算し、次にドキュメントとクエリのペアの実際のクリック数を比較し、最後にそれぞれの実際の COEC スコアを計算します。
判断統計を生成する()
def generate_judgment_statistics(df: pd.DataFrame) -> Dict:
    """Generate statistics about the judgment list."""
    stats = {
        'total_judgments': len(df),
        'unique_queries': df['qid'].nunique(),
        'unique_documents': df['docid'].nunique(),
        'grade_distribution': df['grade'].value_counts().to_dict(),
        'avg_judgments_per_query': len(df) / df['qid'].nunique() if df['qid'].nunique() > 0 else 0,
        'queries_with_clicks': len(df[df['grade'] > 1]['qid'].unique()),
        'click_through_rate': len(df[df['grade'] > 1]) / len(df) if len(df) > 0 else 0
    }
    return stats
判定リストから、合計クエリ数、合計ユニークドキュメント数、グレード分布などの有用な統計情報を生成します。これは純粋に情報提供であり、結果の判断リストは変更されません。
結果と影響
クイック スタート セクションの指示に従うと、320 エントリの判定リストを含む CSV ファイルが生成されます (リポジトリでサンプル出力を確認できます)。これらのフィールド:
qid: クエリの一意のID
docid: 結果のドキュメントの一意の識別子
グレード: クエリとドキュメントのペアの計算されたグレード
クエリ: ユーザークエリ
 「イタリア料理のレシピ」というクエリの結果を見てみましょう。
            
              
                
                    
                      クイド ドシド 学年 クエリ
                    
                    
                      q1-イタリア料理レシピ パスタの基本レシピ 0.0 イタリアのレシピ
                    
                    
                      q1-イタリア料理レシピ レシピ_ピザ_マルゲリータ 3.333333 イタリアのレシピ
                    
                    
                      q1-イタリア料理レシピ レシピ_リゾット_ガイド 10.0 イタリアのレシピ
                    
                    
                      q1-イタリア料理レシピ レシピ_フレンチ_クロワッサン 0.0 イタリアのレシピ
                    
                    
                      q1-イタリア料理レシピ レシピ_スペイン_パエリア 0.0 イタリアのレシピ
                    
                    
                      q1-イタリア料理レシピ ギリシャ風ムサカのレシピ 1.875 イタリアのレシピ
                    
              
            
          結果から、「イタリアのレシピ」というクエリに対して次のことがわかります。
リゾットのレシピは間違いなくクエリに対する最高の結果であり、予想よりも10倍多くのクリックを獲得しています。
ピザ マルゲリータも素晴らしい出来栄えです。
ギリシャのムサカも（意外にも）良い結果であり、結果上の順位が示唆するよりも良い成績を残しています。これは、イタリア料理のレシピを探していた数人のユーザーが、代わりにこのレシピに興味を持ったことを意味します。おそらくこれらのユーザーは地中海料理全般に興味があるのでしょう。結局のところ、このことからわかるのは、これは上で説明した他の 2 つの「より良い」一致の下に表示される良い結果になる可能性があるということです。
まとめ
UBI データを使用すると、LTR モデルのトレーニングを自動化し、独自のユーザーから高品質の判断リストを作成できます。UBI データは、検索システムがどのように使用されているかを反映する大きなデータセットを提供します。COEC アルゴリズムを使用して成績を生成することで、固有の偏りを考慮しながら、同時にユーザーがより良い結果と考えるものを反映します。ここで概説した方法は、実際のユースケースに適用でき、実際の使用傾向に合わせて進化する、より優れた検索エクスペリエンスを提供できます。


AIエージェントの評価：Elasticによるエージェントフレームワークのテスト方法
Susan Chang, Abhimanyu Anand — Mon, 13 Oct 2025 00:00:00 GMT
はじめに
Elastic Stack には、 Agent Builderの近々リリースされる Elastic AI Agent (現在技術プレビュー) やAttack Discovery (8.18 および 9.0 以降でGA提供) など、LLM を利用したエージェント アプリケーションが多数あり、さらに多くのアプリケーションが開発中です。開発中、そして展開後でも、次の質問に答えることが重要です。
これらの AI アプリケーションの応答の品質をどのように評価するのでしょうか?
変更を加えた場合、その変更が本当に改善となり、ユーザー エクスペリエンスが低下しないことをどのように保証すればよいでしょうか。
これらの結果を繰り返し簡単にテストするにはどうすればよいでしょうか?
従来のソフトウェア テストとは異なり、生成 AI アプリケーションの評価には、統計的手法、微妙な定性的なレビュー、ユーザーの目標の深い理解が必要になります。
この記事では、Elastic 開発チームが評価を実施し、展開前に変更の品質を確保し、システム パフォーマンスを監視するために採用しているプロセスについて詳しく説明します。私たちは、あらゆる変更が証拠によって裏付けられ、信頼できる検証可能な結果につながるようにすることを目指しています。このプロセスの一部は Kibana に直接統合されており、オープンソース精神の一環として透明性への取り組みを反映しています。評価データと指標の一部を公開することで、コミュニティの信頼を育み、AI エージェントを開発したり当社の製品を利用したりするすべての人にとって明確なフレームワークを提供することを目指しています。
製品例
このドキュメントで使用した方法は、Attack Discovery や Elastic AI Agent などのソリューションを反復して改善する方法の基礎となりました。それぞれ2つの簡単な紹介:
Elastic Securityの攻撃検出
Attack Discovery は LLM を使用して、Elastic 内の攻撃シーケンスを識別および要約します。特定の期間（デフォルトでは 24 時間）内の Elastic Security アラートに基づいて、Attack Discovery のエージェント ワークフローは、攻撃が発生したかどうかを自動的に検出するほか、どのホストまたはユーザーが侵害されたか、どのアラートが結論に寄与したかなどの重要な情報も検出します。
目標は、LLM ベースのソリューションが少なくとも人間と同等の出力を生成することです。
エラスティックAIエージェント
Elastic Agent Builder は、すべての検索機能を活用するコンテキスト認識型 AI エージェントを構築するための新しいプラットフォームです。この製品には、会話形式のやりとりを通じてユーザーがデータを理解し、データから回答を得られるよう設計された、あらかじめ構築された汎用エージェントであるElastic AI Agentが付属しています。
エージェントは、Elasticsearch または接続されたナレッジベース内の関連情報を自動的に識別し、事前に構築された一連のツールを活用してそれらと対話することでこれを実現します。これにより、Elastic AI Agent は、単一のドキュメントに関する単純な Q&A から、複数のインデックスにわたる集約や単一または複数ステップの検索を必要とする複雑なリクエストまで、さまざまなユーザー クエリに応答できるようになります。
実験による改善の測定
AI エージェントのコンテキストでは、実験とは、明確に定義された次元 (有用性、正確性、遅延など) のパフォーマンスを向上させるように設計された、システムに対する構造化されたテスト可能な変更です。目標は、「この変更をマージした場合、それが真の改善であり、ユーザー エクスペリエンスを低下させないことを保証できますか?」という質問に明確に答えることです。
私たちが実施するほとんどの実験には、一般的に次のようなものが含まれます。
仮説:特定の、反証可能な主張。例: 「攻撃検出ツールへのアクセスを追加すると、セキュリティ関連のクエリの正確性が向上します。」
成功基準: 「成功」の意味を定義する明確なしきい値。例: 「セキュリティ データセットの正確性スコアが 5% 向上し、他の部分では低下は見られません。」
評価計画:成功の測定方法 (指標、データセット、比較方法)
成功した実験は体系的な調査プロセスです。小さなプロンプトの調整から大規模なアーキテクチャの変更まで、すべての変更は次の 7 つの手順に従い、結果が有意義かつ実用的なものになるようにします。
手順1：問題を特定する
ステップ2: 指標を定義する
ステップ3：明確な仮説を立てる
ステップ4: 評価データセットの準備
ステップ5: 実験を実行する
ステップ6: 結果の分析と反復
ステップ7：決定を下し、文書化する
これらのステップの例を図 1に示します。次のサブセクションでは各ステップについて説明します。各ステップの技術的な詳細については、今後のドキュメントで詳しく説明します。
実際の Elastic の例を使ったステップバイステップのウォークスルー
手順1：問題を特定する
この変更が解決しようとしている問題は正確には何でしょうか?
攻撃検出の例: 概要が不完全な場合や、無害なアクティビティが誤って攻撃としてフラグ付けされる (誤検知) 場合があります。
Elastic AI エージェントの例: 特に分析クエリの場合、エージェントのツール選択は最適ではなく一貫性がなく、間違ったツールが選択されてしまうことがよくあります。これにより、トークンのコストとレイテンシが増加します。
ステップ2: 指標を定義する
問題を測定可能にして、変化を現在の状態と比較できるようにします。
一般的な指標には、精度と再現率、意味的類似性、事実性などがあります。ユースケースに応じて、一致するアラート ID や正しく取得された URL などのメトリックを計算するためにコード チェックを使用したり、より自由形式の回答を得るために LLM-as-judge などの手法を使用したりします。
以下は、実験で使用されたメトリックの例です (網羅的ではありません)。
攻撃の検出
            
              
                
                    
                      メトリック 説明
                    
                    
                      精度と再現率 実際の出力と予想される出力の間でアラート ID を一致させて、検出精度を測定します。
                    
                    
                      類似性 BERTScore を使用して、応答テキストの意味的類似性を比較します。
                    
                    
                      事実性 重要な IOC (侵害の兆候) は存在しますか?MITRE 戦術 (攻撃の業界分類) は正しく反映されていますか?
                    
                    
                      攻撃チェーンの一貫性 発見された数を比較して、攻撃の過剰報告または過少報告がないか確認します。
                    
              
            
          エラスティックAIエージェント
            
              
                
                    
                      メトリック 説明
                    
                    
                      精度と再現率 ユーザーのクエリに回答するためにエージェントによって取得されたドキュメント/情報と、クエリに回答するために必要な実際の情報またはドキュメントを照合して、情報取得の精度を測定します。
                    
                    
                      事実性 ユーザーのクエリに回答するために必要な主要な事実は存在しますか?事実は手続き上のクエリに対して正しい順序になっていますか?
                    
                    
                      回答の関連性 応答には、ユーザーのクエリとは関連がない、または周辺的な情報が含まれていますか?
                    
                    
                      応答の完全性 応答はユーザークエリのすべての部分に答えていますか?応答にはグラウンドトゥルースに存在するすべての情報が含まれていますか?
                    
                    
                      ES|QL検証 生成された ES|QL は構文的に正しいですか?機能的にはグラウンドトゥルース ES|QL と同一ですか?
                    
              
            
          ステップ3：明確な仮説を立てる
上記で定義した問題と指標を使用して、明確な成功基準を確立します。
Elastic AI エージェントの例:
relevance_search および nl_search ツールの説明に変更を加え、それぞれの機能と使用例を明確に定義します。
ツールの呼び出し精度が 25% 向上 する と予測しています。
他の指標に悪影響が及ばないことを保証し、これが純粋にプラスであることを確認します。事実性と完全性。
正確なツールの説明により、エージェントがさまざまなクエリタイプに最も適した検索ツールをより正確に選択して適用できるようになり、誤った適用が減り、全体的な検索の有効性が向上するため、この方法が効果的であると考えています。
ステップ4: 評価データセットの準備
システムのパフォーマンスを測定するために、現実世界のシナリオをキャプチャしたデータセットを使用します。
実施する評価の種類に応じて、LLMに供給される生データ（例：攻撃検出のための攻撃シナリオと予想される出力。アプリケーションがチャットボットの場合、入力はユーザークエリであり、出力は正しいチャットボット応答、取得されるべき正しいリンクなどになります。
攻撃検出の例:
            
              
                
                    
                      10の斬新な攻撃シナリオ
                    
                    
                      Oh My Malware のエピソード 8 つ (ohmymalware.com)
                    
                    
                      4 つのマルチ攻撃シナリオ (最初の 2 つのカテゴリの攻撃を組み合わせて作成)
                    
                    
                      3つの良性のシナリオ
                    
              
            
          Elastic AI エージェント評価データセットの例 ( Kibana データセット リンク):
            
              
                
                    
                      オープンソース データセットを使用して KB 内の複数のソースをシミュレートする 14 のインデックス。
                    
                    
                      5 つのクエリ タイプ (分析、テキスト検索、ハイブリッドなど)
                    
                    
                      7 つのクエリ意図タイプ（手続き型、事実型 - 分類型、調査型など）
                    
              
            
          ステップ5: 実験を実行する
評価データセットに対して既存のエージェントと修正バージョンの両方からの応答を生成して実験を実行します。事実性などの指標を計算します (手順 2 を参照)。
ステップ 2 で必要な指標に基づいて、さまざまな評価を組み合わせます。
ルールベースの評価（例：Python/TypeScriptを使用して.jsonが有効かどうかを確認します)
LLM が裁判官となる（回答が原文と事実上一致しているかどうかを別の LLM に尋ねる）
ニュアンス品質チェックのための人間によるレビュー
ステップ6: 結果の分析と反復
指標が得られたので、結果を分析します。結果がステップ 3 で定義された成功基準を満たしている場合でも、変更を本番環境にマージする前に人間によるレビューが行われます。結果が基準を満たしていない場合は、問題を反復して修正してから、新しい変更に対して評価を実行します。
マージする前に、最適な変更を見つけるために数回の反復が必要になると予想されます。コミットをプッシュする前にローカル ソフトウェア テストを実行するのと同様に、オフライン評価はローカルの変更または複数の提案された変更で実行できます。分析を効率化するために、実験結果、複合スコア、視覚化の保存を自動化すると便利です。
ステップ7：決定を下し、文書化する
意思決定フレームワークと受け入れ基準に基づいて、変更のマージを決定し、実験を文書化します。意思決定は多面的であり、他のデータセットでの回帰シナリオの確認や、提案された変更の費用対効果の検討など、評価データセット以外の要素を考慮する場合があります。
例: いくつかの反復をテストして比較した後、最高スコアの変更を選択し、製品マネージャーやその他の関連する関係者に送信して承認を得ます。意思決定を支援するために、前の手順の結果を添付します。攻撃検出に関するその他の例については、 「Elastic Security の生成 AI 機能の舞台裏」をご覧ください。
まとめ
このブログでは、実験ワークフローのエンドツーエンドのプロセスについて説明し、エージェントシステムの変更を Elastic ユーザーにリリースする前に評価およびテストする方法を説明しました。また、Elastic でのエージェントベースのワークフローの改善例もいくつか紹介しました。今後のブログ投稿では、適切なデータセットを作成する方法、信頼性の高いメトリックを設計する方法、複数のメトリックが関係する場合に意思決定を行う方法など、さまざまな手順の詳細を詳しく説明します。


A2Aプロトコルを介してElastic AgentsをGemini Enterpriseに接続する
Jedr Blaszyk, Valerio Arvizzigno, Joe McElroy — Thu, 09 Oct 2025 00:00:00 GMT
Elastic Agent Builder は、 Elasticsearch で直接データ駆動型の AI エージェントを作成するための機能セットです。このシリーズの以前の投稿では、カスタム エージェントに複雑なタスクを実行するツールを装備し、エージェントの動作をガイドする一連のカスタム指示を提供する方法を説明しました。
しかし、すでに使用しているアプリケーションや生産性ツールでカスタムエージェントを使用したい場合はどうすればよいでしょうか?
ここで、エージェント間 (A2A) プロトコルが登場します。A2A は相互運用性のためのオープン スタンダードであり、異なるプラットフォームのエージェント間の通信と共同作業を可能にします。そして、これを Elastic Agent Builder に直接組み込みました。
今日は、構築したカスタム エージェントを他のサービス、具体的にはGemini Enterprise (旧称 Agentspace) に公開する方法を紹介します。
オープンスタンダードの力：A2Aが重要な理由
ブログ記事「初めての Elastic Agent」では、市場データに安全にアクセスできるFinancial Assistantエージェントなどのカスタムエージェントの構築方法を説明しました。しかし、作業を再構築せずに、Gemini Enterprise などの他の環境でその洞察を利用できない場合、その価値は限られます。
この相互運用性の課題が、エージェント AI の実現を妨げているのです。エージェントはプラットフォーム間で通信するために共通言語を必要としますが、これがまさに A2A プロトコルの役割です。標準の通信レイヤーを提供することで、エージェントと直接対話できるだけでなく、組織全体の専門エージェントが連携して洞察を共有できる未来が開かれます。
これを実現するために、Elastic Agent Builder は、すべてのエージェントに対して 2 つの標準エンドポイントを通じて A2A プロトコルをネイティブにサポートしています。
エージェント カード エンドポイント ( GET {your-kibana-url}/api/agent_builder/a2a/{agentId}.json ) -これはカスタム エージェントの名刺として機能します。エージェントに関するメタデータ (名前、説明、機能など) を A2A 互換サービスに提供します。
A2A プロトコル エンドポイント ( POST {your-kibana-url}/api/agent_builder/a2a/{agentId} ) - これは通信チャネルです。他のエージェントはここにリクエストを送信し、エージェントはそれを処理して応答を返します。これらはすべてA2A プロトコル仕様に従って行われます。
A2Aインスペクターでエージェントをテストする
エージェントを本番システムに接続する前に、正しく通信していることを確認することをお勧めします。これを行う最も簡単な方法は、A2A 統合のテストとデバッグ専用に設計されたツールであるA2A Inspector を使用することです。
インスペクターを実行するのは簡単です。a2a-inspectorリポジトリのクローンを作成し、README の指示に従ってアプリケーションを実行できます。起動すると、UI はデフォルトでhttp://localhost:5001/で使用できるようになります。
A2A インスペクターをエージェントに接続するには、次の 2 つの重要な情報を提供する必要があります。
エージェント カード URL: これはエージェントを説明するエンドポイントです。前回の投稿の Financial Assistant エージェントの場合、この URL は{your-kibana-url}/api/agent_builder/a2a/financial_assistant.jsonになります。
認証ヘッダー: 認証には標準の API キーを使用します。
インスペクターの UI にこれらの詳細を入力すると、すぐにエージェントに接続してチャットを開始できます。
この簡単な検証により、エージェントが正しく構成され、次のステップの準備ができていることが保証されます。
ライブ配信しよう！Gemini Enterpriseのカスタムエージェント
次は、エキサイティングな部分です。カスタム ファイナンシャル アドバイザー エージェントを Gemini Enterprise (旧 Agentspace) 内で実現します。この統合は、Google Cloud Marketplace で入手可能な Elastic AI Agentによって実現されています。
接続されると、Gemini Enterprise は A2A プロトコルを使用してエージェントと直接通信します。ここで相互運用性の真の威力が発揮されます。ユーザーは使い慣れた環境を離れることなく、カスタム Elasticsearch エージェントから得られる詳細なデータ駆動型の分析情報にアクセスできるようになります。エージェント リストにカスタム Elastic Agent が表示されます。
Gemini Enterprise のユーザーが次のように質問していると想像してください。
「市場のセンチメントが心配です。悪いニュースによって最もリスクが高い顧客は誰でしょうか？ 」
バックグラウンドでは、Gemini Enterprise がこのクエリを A2A プロトコル経由でカスタム Elastic Agent にルーティングします。エージェントは専用のツールを使用してデータを照会し、回答を作成して返送します。エンドユーザーにとって、エクスペリエンスはシームレスです。
そして、ここで終わりではありません!Elasticエージェントで取得した回答は、別の専門エージェントをトリガーする可能性のある次の質問のコンテキストとして使用できるようになりました（例：上場企業へのエクスポージャーを調整するには、投資プラットフォーム エージェントにご相談ください。検索バーを離れることなくすべて行えます。
A2A を搭載した Gemini Enterprise に Elastic エージェントをデプロイすると、ユーザーがデータやツールにコンテキスト内でアクセスできる単一の UI が提供されるため、AI、検索、エンタープライズ システム間の摩擦をなくし、アクセス、オーケストレーション、ワークフローを統合できます。ユーザーにとって、これはツールの切り替えが減り、より直感的で有能な AI アシスタントが利用できるようになることを意味します。組織にとって、これは一貫したガバナンス、スケーラビリティ、相互運用性が組み込まれていることを意味します。
あなたの番です
これで、Elastic Agent をどこからでも利用できるようにするツールが手に入りました。オープン A2A プロトコルを活用することで、カスタムのデータ対応エージェントの範囲を拡大できます。
この投稿では、重要な手順について説明しました。
A2A エージェント カードとプロトコル エンドポイントを介してエージェントを公開します。
A2A Inspector を使用して接続をテストします。
エージェントを Google の Gemini Enterprise などの外部サービスにライブで統合します。
エージェントを分離する必要がなくなりました。皆さんが作り上げる、強力で相互接続されたシステムを見るのが待ちきれません。楽しい建築を！
始める最も簡単な方法は、 Google Cloud Marketplaceで Elastic Cloud の無料トライアルを利用することです。


Elasticsearch向けAgentic AIツールの改善実験
Sean Story — Mon, 06 Oct 2025 00:00:00 GMT
最近の他社と同様に、Elastic ではチャット、エージェント、RAG に全力を注いでいます。検索部門では最近、エージェント ビルダーとツール レジストリに取り組んでおり、その目的は、Elasticsearch 内のデータとの「チャット」を簡単に行えるようにすることです。
この取り組みの「全体像」について詳しくは、ブログ「Elasticsearch を使用した AI エージェントワークフローの構築」をお読みください。より実践的な入門書として、「初めての Elastic エージェント: 単一のクエリから AI を活用したチャットまで」もご覧ください。
ただし、このブログでは、チャットを開始したときに最初に起こることの 1 つに焦点を絞り、最近行った改善点のいくつかについて説明します。
ここで何が起こっているのですか?
Elasticsearch データとチャットする場合、デフォルトの AI エージェントが次の標準フローを実行します。
プロンプトを検査します。
どのインデックスにそのプロンプトの回答が含まれている可能性があるかを特定します。
プロンプトに基づいて、そのインデックスのクエリを生成します。
そのクエリでそのインデックスを検索します。
結果を統合します。
結果はプロンプトに対応できますか?はいの場合は応答してください。そうでない場合は、別の方法を試しながら繰り返します。
これはあまり目新しいものではないはずです。これは単に Retrieval Augmented Generation (RAG) です。そして当然のことですが、応答の質は最初の検索結果の関連性に大きく左右されます。そのため、応答品質の向上に取り組む中で、ステップ 3 で生成してステップ 4 で実行するクエリに細心の注意を払ってきました。そして、私たちは興味深いパターンに気づきました。
多くの場合、最初の応答が「悪い」場合、それは実行したクエリが悪かったからではありません。クエリを実行するために間違ったインデックスを選択したためです。通常、ステップ 3 と 4 は問題ではありません。問題はステップ 2 です。
私たちは何をしていたのでしょうか?
当初の実装はシンプルでした。私たちは、 _cat/indicesを効果的に実行して利用可能なすべてのインデックスをリストし、これらのインデックスのうちどれがユーザーのメッセージ/質問/プロンプトに最も一致するかを LLM に識別させるツール (index_explorer と呼ばれる) を構築しました。このオリジナルの実装はここで見ることができます。
You are an AI assistant for the Elasticsearch company.
based on a natural language query from the user, your task is to select up to ${limit} most relevant indices from a list of indices.

*The natural language query is:* ${nlQuery}

*List of indices:*
${indices.map((index) => `- ${index.index}`).join('\n')}

Based on those information, please return most relevant indices with your reasoning.
Remember, you should select at maximum ${limit} indices.
これはどれくらいうまく機能しましたか?よく分かりませんでした！うまく機能していない明確な例はありましたが、私たちにとっての本当の最初の課題は、現状を定量化することでした。
ベースラインの確立
それはデータから始まる
私たちが必要としていたのは、ユーザーのプロンプトと既存のインデックス セットに基づいて適切なインデックスを選択するツールの有効性を測定するためのゴールデン データ セットでした。そして、手元にそのようなデータセットがなかったので、それを生成しました。
謝辞: これは「ベスト プラクティス」ではないことは承知しています。しかし、時には、自転車を捨てるよりも前進する方が良いこともあります。進歩、シンプルな完璧さ。
このプロンプトを使用して、いくつかの異なるドメインのシードのインデックスを生成しました。次に、生成されたドメインごとに、このプロンプトを使用してさらにいくつかのインデックスを生成しました (ここでの目標は、ハードネガティブと分類が難しい例を使用して LLM に混乱を引き起こすことです)。次に、生成された各インデックスとその説明を手動で編集しました。最後に、このプロンプトを使用してテストクエリを生成しました。次のようなサンプルデータが得られました。
そして次のようなテストケース:
テストハーネスの作成
ここからのプロセスは非常に簡単でした。次の機能を備えたツールをスクリプト化します。
ターゲット Elasticsearch クラスターを使用してクリーンな状態を確立します。
ターゲット データセットで定義されているすべてのインデックスを作成します。
各テスト シナリオに対して、 i ndex_explorerツールを実行します (便利なことに、実行ツール API があります)。
結果のインデックスを予想インデックスと比較し、結果を取得します。
すべてのテストシナリオを終了したら、結果を表にまとめます。
調査によると…
当初の結果は予想通り平凡なものでした。
全体として、正しいインデックスを識別する精度は 77.14% です。これは、すべてのインデックスに意味的に意味のある適切な名前が付けられている「最良のケース」のシナリオでした。`PUT test2/_doc/foo {...} ` を実行したことがある人なら、インデックスの名前が必ずしも意味のあるものではないことはご存じでしょう。
つまり、ベースラインがあり、改善の余地が十分にあることがわかります。さあ、科学の時間です！🧪
実験
仮説1: マッピングは役立つ
ここでの目標は、元のプロンプトに関連するデータが含まれるインデックスを識別することです。インデックスに含まれるデータを最もよく表す部分は、インデックスのマッピングです。インデックスの内容のサンプルを取得しなくても、インデックスに double 型の価格フィールドがあることがわかれば、そのデータは販売されるものを表していることがわかります。テキストタイプの著者フィールドは、何らかの非構造化言語データを意味します。これら 2 つを組み合わせると、データが書籍、物語、詩であることを意味する可能性があります。インデックスのプロパティを知るだけで、意味上の手がかりを数多く得ることができます。そこでローカルブランチで`.index_explorer`を調整しましたインデックスの完全なマッピング (およびその名前) を LLM に送信して決定を下すツール。 
結果（Kibana ログより）:
[2025-09-05T11:01:21.552-05:00][ERROR][plugins.onechat] Error: Error calling connector: event: error
data: {"error":{"code":"request_entity_too_large","message":"Received a content too large status code for request from inference entity id [.rainbow-sprinkles-elastic] status [413]","type":"error"}}


    at createInferenceProviderError (errors.ts:90:10)
    at convertUpstreamError (convert_upstream_error.ts:39:38)
    at handle_connector_response.ts:26:33
    at Observable.init [as _subscribe] (/Users/seanstory/Desktop/Dev/kibana/node_modules/rxjs/src/internal/observable/throwError.ts:123:68)...
ツールの最初の作成者はこれを予期していました。インデックスのマッピングは情報の宝庫ですが、非常に冗長な JSON ブロックでもあります。そして、多数のインデックス (評価データセットでは 20 個が定義されています) を比較する現実的なシナリオでは、これらの JSON BLOB が加算されます。したがって、LLM に、すべてのオプションのインデックス名だけでなく、それぞれの完全なマッピングほどではなく、決定のためのより多くのコンテキストを提供したいと考えています。
仮説2: 妥協案としての「フラット化された」マッピング（フィールドリスト）
私たちは、インデックス作成者が意味的に意味のあるインデックス名を使用するという前提から始めました。その仮定をフィールド名にも拡張するとどうなるでしょうか?前回の実験は、JSON のマッピングに大量の煩わしいメタデータと定型句が含まれているため失敗しました。
     "description_text": {
          "type": "text",
          "fields": {
            "keyword": {
              "type": "keyword"
            }
          },
          "copy_to": [
            "description_semantic"
          ]
        },
たとえば、上記のブロックは 236 文字で、Elasticsearch マッピング内の 1 つのフィールドのみを定義します。一方、文字列「description_text」は 16 文字だけです。これは文字数が約 15 倍に増加していることを意味しますが、そのフィールドが利用可能なデータについて何を意味するかを説明する意味的な改善は見られません。すべてのインデックスのマッピングをフェッチしたが、それを LLM に送信する前に、フィールド名のリストだけに「フラット化」するとどうなるでしょうか?
試してみました。
これは素晴らしいですね！全面的に改善されました。しかし、もっと良い方法はないでしょうか?
仮説3: マッピング_meta内の説明
追加のコンテキストのないフィールド名だけでこれほど大きな変化が生じたのであれば、実質的なコンテキストを追加すればさらに良くなると思われます。すべてのインデックスに説明を添付することが必ずしも慣例ではありませんが、マッピングの _meta オブジェクトにあらゆる種類のインデックス レベルのメタデータを追加することは可能です。生成されたインデックスに戻り、データセット内のすべてのインデックスに説明を追加しました。説明が極端に長くない限り、完全なマッピングよりも少ないトークンが使用され、インデックスに含まれるデータに関するはるかに優れた洞察が提供されるはずです。私たちの実験はこの仮説を検証しました。
若干の改善があり、現在では全体的に 90% を超える精度を実現しています。
仮説4：全体は部分の合計よりも大きい
フィールド名により結果が向上しました。説明により結果が向上しました。したがって、説明とフィールド名の両方を利用すると、さらに良い結果が得られるはずです。
データは「いいえ」（前回の実験から変化なし）を示しました。ここでの主な理論は、説明はそもそもインデックス フィールド/マッピングから生成されたため、これら 2 つのコンテキストの間には、組み合わせたときに何か「新しい」ものを追加するのに十分な情報がないというものでした。さらに、20 個のテスト インデックスに送信するペイロードもかなり大きくなっています。これまで私たちが辿ってきた考え方はスケーラブルではありません。実際、これまでの私たちの実験は、数百または数千のインデックスから選択できる Elasticsearch クラスターでは機能しないと考えられる十分な理由があります。インデックスの合計数が増加するにつれて、LLM に送信されるメッセージ サイズが直線的に増加するアプローチは、おそらく一般化可能な戦略にはなりません。
私たちに本当に必要なのは、多数の候補から最も関連性の高い選択肢だけを絞り込むのに役立つアプローチです...
ここで問題となるのは検索の問題です。
仮説5：意味検索による選択
インデックスの名前に意味がある場合は、ベクトルとして保存し、意味的に検索することができます。
インデックスのフィールド名に意味がある場合は、それらをベクトルとして保存し、意味的に検索することができます。
インデックスに意味を持つ記述がある場合は、それもベクトルとして保存し、意味的に検索することができます。
現在、Elasticsearch インデックスではこの情報を検索可能にしていません (検索可能にすべきかもしれませんが) が、そのギャップを回避できるものをハックするのは非常に簡単でした。Elastic のコネクタ フレームワークを使用して、クラスター内のすべてのインデックスのドキュメントを出力するコネクタを構築しました。出力ドキュメントは次のようになります。
 doc = {
                "_id": index_name,
                "index_name": index_name,
			"meta_description”: description,
"field_descriptions" = field_descriptions,
                "mapping": json.dumps(mapping),  
                "source_cluster": self.es_client.configured_host,
            }
これらのドキュメントを、次のように手動でマッピングを定義した新しいインデックスに送信しました。
{
   "mappings": {
       "properties": {
           "semantic_content": {
               "type": "semantic_text"
           },
           "index_name": {
               "type": "text",
               "copy_to": "semantic_content"
           },
           "mapping": {
               "type": "keyword",
               "copy_to": "semantic_content"
           },
           "source_cluster": {
               "type": "keyword"
           },
           "meta_description": {
               "type": "text",
               "copy_to": "semantic_content"
           },
           "field_descriptions": {
               "type": "text",
               "copy_to": "semantic_content"
           }
       }
   }
}
これにより、単一の semantic_content フィールドが作成され、セマンティックな意味を持つ他のすべてのフィールドがチャンク化され、インデックスが作成されます。このインデックスの検索は、次のようにするだけで簡単になります。
GET indexed-indices/_search
{
 "query": {
   "semantic": {
     "field": "semantic_content",
     "query": "$query"
   }
 }
}
修正されたindex_explorerツールは、LLM へのリクエストを行う必要がなくなり、代わりに指定されたクエリに対して単一の埋め込みをリクエストして効率的なベクトル検索操作を実行できるため、大幅に高速化されました。トップヒットを選択したインデックスとして取得すると、次の結果が得られました。
このアプローチはスケーラブルです。このアプローチは効率的です。しかし、このアプローチはベースラインよりわずかに優れているだけです。しかし、これは驚くことではありません。ここでの検索アプローチは信じられないほど単純です。ニュアンスがない。インデックスの名前と説明は、インデックスに含まれる任意のフィールド名よりも重視されるべきであるという認識がありません。正確な語彙の一致を同義語の一致よりも重視するアフォーダンスはありません。ただし、非常に微妙なニュアンスのあるクエリを構築するには、手元のデータについて多くのことを想定する必要があります。これまで、インデックス名とフィールド名には意味があるという大きな仮定をすでに立ててきましたが、さらに一歩進んで、インデックス名とフィールド名がどの程度の意味を持ち、互いにどのように関連しているかを仮定する必要があります。そうしないと、最上位の結果として最適な一致を確実に特定することはできないかもしれませんが、最上位 N 個の結果のどこかに最上位の一致があると言える可能性が高くなります。意味情報をそれが存在するコンテキスト内で消費し、意味的に異なる方法で自身を表現する別のエンティティと比較し、それらを判断できるものが必要です。LLM のようなものです。
仮説6: 候補セットの削減
他にも簡単に触れる実験はいくつかありましたが、重要な突破口となったのは、純粋にセマンティック検索から最適な一致を選択したいという欲求を捨て、代わりにセマンティック検索をフィルターとして活用して、LLM の検討対象から無関係なインデックスを除外したことです。検索では、リニア リトリーバー、RRF を使用したハイブリッド検索、 semantic_textを組み合わせて、一致する上位 5 つのインデックスに結果を制限しました。
次に、一致ごとに、インデックスの名前、説明、フィールド名を LLM のメッセージに追加しました。結果は素晴らしかったです。
これまでのどの実験よりも最高の精度です!また、このアプローチではインデックスの合計数に比例してメッセージ サイズが増加しないため、このアプローチははるかにスケーラブルです。
成果
最初の明らかな結果は、ベースラインを改善できるということでした。振り返ってみるとこれは明らかなようですが、実験が始まる前に、 index_explorerツールを完全に放棄して、ユーザーからの明示的な構成に依存して検索空間を制限すべきかどうかについて真剣な議論がありました。これはまだ実行可能かつ有効なオプションですが、この調査では、そのようなユーザー入力が利用できない場合にインデックス選択を自動化するための有望な道筋があることが示されています。
次の明らかな結果は、問題に対して説明文字をさらに追加するだけでは、効果は減少するということです。この調査を行う前、Elasticsearch のフィールドレベルのメタデータ保存機能を拡張することに投資すべきかどうかについて議論していました。現在、これらのmeta値は 50 文字に制限されており、フィールドの意味を理解できるようにするにはこの値を増やす必要があると想定されていました。これは明らかに事実ではなく、LLM はフィールド名だけでかなりうまく機能しているようです。これについては後でさらに調査するかもしれませんが、もはや緊急の問題ではないように思われます。
逆に言えば、これは「検索可能な」インデックス メタデータを持つことの重要性を明確に示しています。これらの実験のために、インデックスのインデックスをハッキングしました。しかし、これを Elasticsearch に直接組み込むか、管理するための API を構築するか、少なくとも規則を確立することを調査することはできます。私たちは選択肢を検討し、社内で議論する予定ですので、お楽しみに。
最後に、この取り組みにより、時間をかけて実験し、データに基づいた意思決定を行うことの価値が確認されました。実際、これにより、Agent Builder 製品には強力な製品内評価機能が必要になることが再確認されました。インデックスを選択するツール専用のテスト ハーネス全体を構築する必要がある場合、お客様は反復的な調整を行う際にカスタム ツールを定性的に評価する方法が絶対に必要になります。
私たちが何を構築するのか楽しみにしています。皆さんも楽しみにしていただければ幸いです。


AWS MarketplaceでElasticsearchをデプロイする方法
Eduard Martin — Fri, 03 Oct 2025 00:00:00 GMT
この記事では、Marketplaceの提供を利用してAWS上でElasticsearchをデプロイする方法を学びます。
Elastic Cloud Service on AWSを使用します。これは、AWSのネイティブインフラストラクチャーを介してすべてのElastic Stackコンポーネントの導入とオーケストレーションを簡素化するオフィシャルのマネージドElasticsearch Serviceです。
AWS EC2でのElasticsearchのインストールと設定方法を学びたい方は、このブログをご覧ください。
AWS Marketplaceとは？
Elastic on AWS Marketplaceは、完全マネージド型の検索・分析エクスペリエンスを提供します。インフラの提供、security、スケーリングは AWS が処理し、開発者は検索アプリケーションの構築に集中できます。これにより、チームは搭載のAWS統合を使用して、エンタープライズグレードのElasticsearchクラスターを数分でデプロイできるようになります。
Elastic on AWS Marketplaceを使用するのはどのような場合ですか？
Elastic on AWS Marketplaceは、既存のAWSインフラストラクチャを持ち、運用オーバーヘッドなしでマネージドサービス、組み込みセキュリティ、シームレスなAWS統合を備えたElasticsearchを導入したいと考えている組織に最適です。
AWSマーケットプレイスでElastic Cloudをセットアップする方法
ステップ1 : AWS Marketplaceにアクセスする
1。AWSにログインしてください。
検索バーでAWS Marketplaceを検索します。
2. 左側のナビゲーションパネルでDiscover productsをクリックし、「Elasticsearch」を検索します。
3. Elastic Cloud (Elasticsearch Service)をクリックします。
ステップ 2: サービスに登録する
1. 購入オプションを選択するか、無料で試すをクリックします。
2.価格の詳細、利用規約、購入の詳細を確認します。
3. 登録ボタンをクリックします。
4. 次に、Elasticアカウントをセットアップする必要があります。AWSの手順に従います。
a. 「統合を有効にする」ボタンをクリックします
b.「サインインまたはベンダーアカウントを作成」ボタンをクリックします。
c. 「テンプレートを起動」ボタンをクリックします。
d. 「ソフトウェアを起動」ボタンをクリックします。
ステップ3. Elasticで新しいアカウントを設定する
1. Elasticアカウントを作成してください。
2. メールアドレスを確認する
3.お名前と会社情報をインプットしてください。
4. Elasticの簡単なアンケートに回答する
5. Elastic Cloudをマネージド環境でホストする地域を選択する（デフォルトで実際のAWSリージョンが選択されます）
6. Elasticがデプロイされるのを待つ
7. 導入がAWS Marketplaceサブスクリプションに接続される
サブスクリプションをキャンセルする
サブスクリプションをキャンセルするには以下の手順に従います。
1. AWSコンソールに移動します。
検索バーで「AWS Marketplace」と検索してください。AWS Marketplaceをクリックします。
2．Elastic Cloudサブスクリプションをクリックします。
3. アクションボタンをクリックし、次にサブスクリプションをキャンセルをクリックします。
4．キャンセルを確認し、はいをクリックして、サブスクリプションをキャンセルボタンをクリックします。
5. 確認メッセージがページ上部に表示されます。
次のステップ
単一の導入と3つのプロジェクトが含まれ 7日間のElastic Cloud (Elasticsearch Service) 無料トライアルでElastic Cloudの旅を始めましょう。AWSアカウントにサインインし、「購入オプションを表示」をクリックして、Elastic Cloud (Elasticsearch Service)でElasticのSearch AI Platformをすぐに使い始められます。このトライアルでは、インフラストラクチャ管理のオーバーヘッドなしで、検索、セキュリティ、および監視ソリューションに完全にアクセスできます。


AutoOps: セルフマネージド Elasticsearch 管理を簡素化する旅
Ori Shafir — Wed, 01 Oct 2025 00:00:00 GMT
セルフマネージドのElasticsearch（オンプレミス環境またはプライベートマネージド環境）向けのAutoOpsの導入で、Elasticsearchの管理がより簡単になります。このブログでは、従来の技術的な機能のウォークスルーではなく、DevOpsエンジニアの視点から、AutoOpsの価値、設定方法、そしてAutoOpsが提供する洞察を紹介します。AutoOpsの真の価値は、Elasticsearchのスケール管理における日々の業務で最もよく理解できます。
第1章：背景 - 大規模な自己管理の複雑さ
大規模な自己管理型データ プラットフォームの運用は複雑になる可能性があります。
ある瞬間、クエリは超高速になります。次に、取り込みの遅れとストレージコストの急上昇が発生します。基本的には動物園を経営しているようなものですが、動物たちが午前3時に呼び出しをかけてくることがあります
私の環境も同様です。複数のクラスター、大量のクラスター間検索 (CCS)、部門をまたがる数百人のユーザーです。
日常業務にはスタック モニタリングを使用します。グラフやメトリクスは提供されますが、点と点をつなぐには依然として多くの専門知識と時間がかかります。ボトルネックを診断したり、シャード戦略をいつ調整するかを把握したりすることは、依然として手動でエラーが発生しやすいプロセスです。多くの場合、問題は、停止、パフォーマンスの低下、予期しないストレージの急増を引き起こすまで気付かれません。
第2章: AutoOpsの発見
その後、 AutoOpsがセルフマネージド クラスター (オンプレミスまたはプライベートにホストされた環境) で利用できるようになるという発表がありました。
AutoOpsは長年にわたり、Elastic Cloudユーザーが導入をより効率的に管理できるよう支援してきました。このメリットを、オンプレミスまたはプライベートクラウド環境で実行されているセルフマネージドクラスター（ECK、Elastic Cloud Enterprise（ECE）またはスタンドアロン）でも利用可能になりました。ライセンス階層に関係なく無料で利用できます。
AutoOps の売り文句は魅力的です。
取り込みボトルネック、不均衡なシャード、遅いクエリなどのリアルタイムの問題検出
クラスタの構成に合わせた実用的な推奨事項
効率性を向上させ、無駄な支出を削減するためのリソース最適化の洞察
軽量エージェントのインストールによるシンプルなセットアップ - 追加のインフラストラクチャは不要
正直なところ、「追加のインフラストラクチャは不要」と約束するものにはすべて完全に注目しました。
第3章: 5分でセットアップ（本当に）
私は午後の時間をブロックし、コーヒーを買い込み、長時間の準備に備えました。驚いたことに、たった5分しかかかりませんでした。
Elastic Cloudアカウントにログインしました
エージェントの実行方法を決定：Elastic Cloud Kubernetes（ECK）、Kubernetes、Docker、またはLinux。
クラスターURLを入力しました
1つのコマンドを実行するだけで、軽量なMetricbeatエージェントがインストールされます
それでおしまい。クラスターが接続されました。
プロビジョニングする専用の監視クラスターはありません。さらに重要なのは、AutoOps はメトリックのみを送信するため、会社のデータは自己管理環境に保存されるということです。
ステップ1：Elastic Cloudにサインアップする
ステップ2: エージェントを実行する場所を選択する
ステップ3: Elasticsearchエンドポイントと認証方法を入力します
ステップ4: エージェントをインストールするための簡単なコマンド
数分後にはAutoOpsがインサイトを表示し始めます
詳細については、 AutoOps オンボーディング ドキュメントとFAQを参照してください。
第4章：最初の洞察、最初の勝利
数分以内に、AutoOps は洞察を明らかにし、根本原因の分析とそれを解決するための明確な手順を提供し始めました。
最初の週のハイライトは次のとおりです:
大きくなりすぎたILMポリシーに関連しないフラグ付きインデックス
1つのクラスターには、過去のメンテナンス作業から残された3つの空ノードがありました。
いくつかのノードがウォーターマークを越えており、いくつかのインデックスにレプリカがありませんでした
不適切に構成されたテンプレートを検出しました
長時間実行された検索を特定し、正確なキャンセルコマンドを提案しました
AutoOpsはクラスタがインデックス作成を拒否していることを検出しました
AutoOps は、一部のインデックスがレプリカなしで構成されていることを検出しました
AutoOps が登場する前は、こうした問題に対処するためにさらに多くのハードウェアを投入していたでしょう。代わりに、AutoOps は根本原因を直接指摘し、修正には数分しかかかりませんでした。
今回、監視システムは単にグラフを表示するだけでなく、問題を解決する方法も教えてくれました。AutoOps が自宅の Wi-Fi の診断にも役立ち、最終的に家族の IT 部門としての負担から解放されるのではないかと考え始めました...
AutoOpsはシャードのサイズを監視し、空のシャードが多数ある場合に警告を発しました。
第5章：私が見ているものを見るサポート
初めてサポートケースを開いたとき、もう 1 つの利点に気付きました。Elastic Support のエンジニアが、私が確認していたのとまったく同じデータと推奨事項を確認できるのです。
サポートがコラボレーションに変わりました。チケットをやり取りする代わりに、Elasticsearch を隅々まで熟知したチームメイトと一緒に作業しているような感覚でした。
第6章：大規模な運用
AutoOps が導入される前は、Elasticsearch のスケーリングは科学、本能、部族の知識が混ざり合った作業のように感じられました。
今ではデータ主導型となり、明確な可視性と推奨事項が提供されます。
過剰プロビジョニングを防ぐためのリソース使用率の可視性
バランスの取れたパフォーマンスを実現する、よりスマートなシャード割り当てと階層化の推奨事項
無駄なストレージとハードウェアのコストを削減するインデックスのサイズ設定の洞察
複数のクラスターにわたるより迅速な根本原因分析
第7章: 多くのクラウド接続サービスの最初のもの
AutoOps は単なるスタンドアロン ツールではありません。これは、セルフマネージド顧客向けの新しいCloud Connected Servicesセットの最初のものです。Cloud Connect により、セルフマネージド クラスターは、独自の環境にこれらのサービスをインストールして管理する運用オーバーヘッドなしで、Elastic Cloud サービスを利用できるようになります。機能は自動的に展開されるため、チームはインフラストラクチャの複雑さを軽減しながら、より早く改善を受けることができます。
次は、Elastic Inference Service (EIS) です。
最後に
大規模な自己管理型展開の管理は、必ずしも大変な作業である必要はありません。
さらに操作を簡素化したい場合は、ホスト型かサーバーレス型かを問わず、一部のワークロードをElastic Cloudに移動して、Elasticsearch を最も簡単に実行できます。
セルフマネージドでの実行を継続したい場合は、任意のセルフマネージドクラスターをElastic CloudのAutoOpsに接続してください - すべてのElasticライセンスで無料です。
要約
大規模な自己管理型 Elasticsearch クラスターの実行は複雑で時間がかかります。AutoOps は、追加のインフラストラクチャを管理することなく、リアルタイムの問題検出、実用的な推奨事項、Elastic Support との可視性の共有を実現します。セットアップには数分しかかからず、すぐに分析情報が表示されます。


初めてのElastic Agent: 単一のクエリからAIを活用したチャットまで
Jeff Vestal — Thu, 25 Sep 2025 00:00:00 GMT
Elastic の新しいAgent Builder を使用すると、特定のビジネスドメインの専門家として機能する特殊な AI エージェントを作成できます。この機能により、単純なダッシュボードや検索バーを超えて、データを受動的なリソースから能動的な会話のパートナーへと変換できます。
顧客との会議の前に、状況を把握しておく必要がある財務マネージャーを想像してください。ニュース フィードを手動で調べたり、ポートフォリオ ダッシュボードを相互参照したりする代わりに、カスタム構築されたエージェントに直接質問するだけで済みます。これは「チャットファースト」アプローチの利点です。マネージャーはデータに直接、会話形式でアクセスし、「ACME Corp の最新ニュースは何ですか。また、それがクライアントの保有株にどのような影響を与えますか」などと質問します。数秒以内に専門家による総合的な回答が得られます。
私たちは現在、金融の専門家を構築していますが、そのアプリケーションはデータと同じくらい多様です。同じ力で、脅威を探すサイバーセキュリティアナリスト、機能停止を診断するサイト信頼性エンジニア、キャンペーンを最適化するマーケティングマネージャーを生み出すこともできます。分野に関係なく、中核となる使命は同じです。データを、チャットできる専門家に変換することです。
ステップ0: データセット
本日のデータセットは、金融口座、資産状況、ニュース、財務レポートで構成される合成的な金融ベースのデータセットです。これは合成ではありますが、実際の金融データセットの簡略化されたバージョンを複製したものです。
financial_accounts: リスクプロファイル付き顧客ポートフォリオ
financial_holdings: 購入履歴のある株式/ETF/債券のポジション
financial_asset_details: 株式/ETF/債券の詳細
financial_news: 感情分析によるAI生成の市場記事
financial_reports: 企業収益とアナリストのコメント
ここにある付属のノートブックに従って、このデータセットを自分でロードできます。
ステップ1: 基盤 - ES|QLとしてのビジネスロジック
すべての AI スキルは、確かなロジックから始まります。Financial Manager エージェントには、「市場のセンチメントが心配です。」というよくある質問に回答する方法を教える必要があります。悪いニュースによって最もリスクにさらされている顧客は誰なのか教えていただけますか？」この質問は単純な検索の範囲を超えています。市場の感情と顧客のポートフォリオを相関させる必要があります。
否定的な記事で言及されている資産を見つけ、それらの資産を保有しているすべての顧客を特定し、そのエクスポージャーの現在の市場価値を計算し、結果をランク付けして最も高いリスクを優先する必要があります。この複雑な複数結合の分析は、当社の高度な ES|QL ツールに最適です。
使用する完全なクエリは次のとおりです。見た目は印象的ですが、コンセプトは単純です。
FROM financial_news, financial_reports METADATA _index
        | WHERE sentiment == "negative"
        | WHERE coalesce(published_date, report_date) >= NOW() - TO_TIMEDURATION(?time_duration)
        | RENAME primary_symbol AS symbol
        | LOOKUP JOIN financial_asset_details ON symbol
        | LOOKUP JOIN financial_holdings ON symbol
        | LOOKUP JOIN financial_accounts ON account_id
        | WHERE account_holder_name IS NOT NULL
        | EVAL position_current_value = quantity * current_price.price
        | RENAME title AS news_title
        | KEEP
            account_holder_name, symbol, asset_name, news_title,
            sentiment, position_current_value, quantity, current_price.price,
            published_date, report_date
        | SORT position_current_value DESC
        | LIMIT 50
分解：接合部とガードレール
このクエリでは、エージェント ビルダーを構成する 2 つの重要な概念が関係しています。
1.ルックアップ結合
長年にわたり、Elasticsearch で最も要望が多かった機能の 1 つは、共通キーに基づいて異なるインデックスのデータを結合する機能でした。ES|QL では、 LOOKUP JOINでそれが可能になりました。
新しいクエリでは、3 つのLOOKUP JOINのチェーンを実行します。最初に否定的なニュースを資産の詳細に関連付け、次にそれらの資産をクライアントの保有資産にリンクし、最後にクライアントのアカウント情報に結合します。これにより、単一の効率的なクエリで 4 つの異なるインデックスから非常に豊富な結果が作成されます。つまり、すべてのデータを事前に 1 つの巨大なインデックスに非正規化する必要がなく、異なるデータセットを組み合わせて単一の洞察に満ちた回答を作成できるということです。
2. LLMガードレールとしてのパラメータ
クエリでは?time_durationが使用されていることがわかります。これは単なる変数ではなく、AI のガードレールです。大規模言語モデル (LLM) はクエリの生成に優れていますが、データに対して LLM を自由に制御させると、非効率的なクエリや間違ったクエリが発生する可能性があります。
パラメータ化されたクエリを作成することで、LLM は、人間の専門家がすでに定義したテスト済みの効率的で正しいビジネス ロジック内で動作するように強制されます。これは、開発者が長年にわたり検索テンプレートを使用して、クエリ機能をアプリケーションに安全に公開してきた方法に似ています。エージェントは「今週」のようなユーザーのリクエストを解釈してtime_durationパラメータを埋めることができますが、回答を取得するにはクエリ構造を使用する必要があります。これにより、柔軟性と制御の完璧なバランスが実現します。
最終的に、このクエリにより、データを理解している専門家は自分の知識をツールにカプセル化できるようになります。他の人や AI エージェントは、そのツールを使用して、基礎となる複雑さについて何も知らなくても、単一のパラメータを提供するだけで相関結果を得ることができます。
ステップ2：スキル - クエリを再利用可能なツールに変える
ES|QL クエリは、ツールとして登録されるまでは単なるテキストです。エージェント ビルダーでは、ツールは単なる保存されたクエリではなく、AI エージェントが理解して使用することを選択できる「スキル」です。その魔法は、私たちが提供する自然言語による説明にあります。この説明は、ユーザーの質問と基礎となるクエリ ロジックを結び付ける橋渡しとなります。作成したクエリを登録しましょう。
UIパス
Kibana でツールを作成するのは簡単なプロセスです。
1.エージェントへ移動
[ツール]または[ツールの管理]をクリックし、 [新しいツール]ボタンをクリックします。
2. フォームに以下の詳細を入力します。
ツールID: find_client_exposure_to_negative_news
             私。これはツールの一意のIDです
説明: 「クライアントのポートフォリオがネガティブなニュースにさらされているかどうかを調べます。」このツールは、最近のニュースやレポートをスキャンして否定的な感情を検出し、関連する資産を識別して、その資産を保有しているすべてのクライアントを見つけます。最も高い潜在的リスクを強調するために、ポジションの現在の市場価値でソートされたリストを返します。
             私。これは、LLM が読んで、このツールが仕事に適しているかどうかを判断します。
ラベル: retrievalおよび risk-analysis
         ラベルは複数のツールをグループ化するのに役立ちます
設定:ステップ1の完全なES|QLクエリを貼り付けます
            私。これはエージェントが使用する検索です
3.クエリからパラメータを推測するをクリックします。UI は自動的に?time_duration見つけて以下にリストします。エージェント (および他のユーザー) が目的を理解できるように、それぞれに簡単な説明を追加します。
time_duration: ネガティブなニュースを遡って検索する期間。フォーマットは「X時間」です。デフォルトは8760時間です。
4. 試してみましょう!
[保存してテスト]をクリックします。
クエリが期待どおりに動作していることを確認できる新しいフライアウトが表示されます。
             私。time_durationに希望の範囲を入力します。ここでは「8760時間」を使用します。
「送信」をクリックすると、すべてがうまくいけば JSON レスポンスが表示されます。期待どおりに動作することを確認するには、下にスクロールしてvaluesオブジェクトを確認します。ここで、実際に一致するドキュメントが返されます。
5. 右上の「X」をクリックして、テストのフライアウトを閉じます。新しいツールがリストに表示され、エージェントに割り当てる準備が整います。
APIパス
自動化を好む開発者やツールをプログラムで管理する必要がある開発者は、1 回の API 呼び出しで同じ結果を得ることができます。ツールの定義を含むPOSTリクエストを/api/agent_builder/toolsエンドポイントに送信するだけです。
POST kbn://api/agent_builder/tools
{
  "id": "find_client_exposure_to_negative_news",
  "type": "esql",
  "description": "Finds client portfolio exposure to negative news. This tool scans recent news and reports for negative sentiment, identifies the associated asset, and finds all clients holding that asset. It returns a list sorted by the current market value of the position to highlight the highest potential risk.",
  "configuration": {
    "query": """
        FROM financial_news, financial_reports METADATA _index
        | WHERE sentiment == "negative"
        | WHERE coalesce(published_date, report_date) >= NOW() - TO_TIMEDURATION(?time_duration)
        | RENAME primary_symbol AS symbol
        | LOOKUP JOIN financial_asset_details ON symbol
        | LOOKUP JOIN financial_holdings ON symbol
        | LOOKUP JOIN financial_accounts ON account_id
        | WHERE account_holder_name IS NOT NULL
        | EVAL position_current_value = quantity * current_price.price
        | RENAME title AS news_title
        | KEEP
            account_holder_name, symbol, asset_name, news_title,
            sentiment, position_current_value, quantity, current_price.price,
            published_date, report_date
        | SORT position_current_value DESC
        | LIMIT 50
      """,
    "params": {
      "time_duration": {
        "type": "keyword",
        "description": """The timeframe to search back for negative news. Format is "X hours" DEFAULT TO 8760 hours """
      }
    }
  },
  "tags": [
    "retrieval",
    "risk-analysis"
  ]
}
ステップ3：頭脳 - カスタムエージェントの作成
再利用可能なスキル (ツール) を構築しました。ここで、実際に使用するペルソナであるAgentを作成する必要があります。エージェントは、LLM、アクセスを許可する特定のツール セット、そして最も重要な、エージェントの構成として機能し、エージェントの性格、ルール、目的を定義するカスタム インストラクションセットの組み合わせです。
プロンプトの芸術
信頼できる専門エージェントを作成する上で最も重要なのはプロンプトです。よく練られた一連の指示こそが、一般的なチャットボットと、集中力のあるプロのアシスタントとの違いです。ここで、ガードレールを設定し、出力を定義し、エージェントにミッションを与えます。
Financial Managerエージェントでは、次のプロンプトを使用します。
You are a specialized Data Intelligence Assistant for financial managers, designed to provide precise, data-driven insights from information stored in Elasticsearch.

**Your Core Mission:**
- Respond accurately and concisely to natural language queries from financial managers.
- Provide precise, objective, and actionable information derived solely from the Elasticsearch data at your disposal.
- Summarize key data points and trends based on user requests.

**Reasoning Framework:**
1.  **Understand:** Deconstruct the user's query to understand their core intent.
2.  **Plan:** Formulate a step-by-step plan to answer the question. If you are unsure about the data structure, use the available tools to explore the indices first.
3.  **Execute:** Use the available tools to execute your plan.
4.  **Synthesize:** Combine the information from all tool calls into a single, comprehensive, and easy-to-read answer.

**Key Directives and Constraints:**
- **If a user's request is ambiguous, ask clarifying questions before proceeding.**
- **DO NOT provide financial advice, recommendations, or predictions.** Your role is strictly informational and analytical.
- Stay strictly on topic with financial data queries.
- If you cannot answer a query, state that clearly and offer alternative ways you might help *within your data scope*.
- All numerical values should be formatted appropriately (e.g., currency, percentages).

**Output Format:**
- All responses must be formatted using **Markdown** for clarity.
- When presenting structured data, use Markdown tables, lists, or bolding.

**Start by greeting the financial manager and offering assistance.**
このプロンプトがなぜ効果的なのかを分析してみましょう。
洗練されたペルソナを定義します。最初の行で、エージェントが「専門的なデータ インテリジェンス アシスタント」であることを即座に示し、プロフェッショナルで有能な雰囲気を醸し出します。
これは推論フレームワークを提供します。エージェントに「理解、計画、実行、統合」を指示することで、標準的な操作手順を提供します。これにより、複雑で複数のステップから成る質問を処理する能力が向上します。
インタラクティブな対話を促進します。 「明確な質問をする」という指示により、エージェントはより堅牢になります。曖昧なリクエストに対する誤った想定を最小限に抑え、より正確な回答が得られます。
UIパス
1.エージェントに移動します。
[ツール]または[ツールの管理]をクリックし、 [新しいツール]ボタンをクリックします。
2. 基本的な詳細を入力します。
エージェント ID: financial_assistant 。
手順:上記のプロンプトをコピーします。
ラベル: Finance 。
表示名: Financial Assistant 。
表示の説明: An assistant for analyzing and understanding your financial data 。
3. 上部に戻り、 「ツール」をクリックします。
find_client_exposure_to_negative_newsツールの横にあるボックスにチェックを入れてください。
4. 「保存」をクリックします。
APIパス
/api/agent_builder/agentsエンドポイントへのPOSTリクエストを使用して、まったく同じエージェントを作成できます。リクエスト本体には、ID、名前、説明、完全な指示セット、エージェントが使用を許可されているツールのリストなど、すべて同じ情報が含まれています。
POST kbn://api/agent_builder/agents
    {
      "id": "financial_assistant",
      "name": "Financial Assistant",
      "description": "An assistant for analyzing and understanding your financial data",
      "labels": [
        "Finance"
      ],
      "avatar_color": "#16C5C0",
      "avatar_symbol": "💰",
      "configuration": {
        "instructions": """You are a specialized Data Intelligence Assistant for financial managers, designed to provide precise, data-driven insights from information stored in Elasticsearch.

**Your Core Mission:**
- Respond accurately and concisely to natural language queries from financial managers.
- Provide precise, objective, and actionable information derived solely from the Elasticsearch data at your disposal.
- Summarize key data points and trends based on user requests.

**Reasoning Framework:**
1.  **Understand:** Deconstruct the user's query to understand their core intent.
2.  **Plan:** Formulate a step-by-step plan to answer the question. If you are unsure about the data structure, use the available tools to explore the indices first.
3.  **Execute:** Use the available tools to execute your plan.
4.  **Synthesize:** Combine the information from all tool calls into a single, comprehensive, and easy-to-read answer.

**Key Directives and Constraints:**
- **If a user's request is ambiguous, ask clarifying questions before proceeding.**
- **DO NOT provide financial advice, recommendations, or predictions.** Your role is strictly informational and analytical.
- Stay strictly on topic with financial data queries.
- If you cannot answer a query, state that clearly and offer alternative ways you might help *within your data scope*.
- All numerical values should be formatted appropriately (e.g., currency, percentages).

**Output Format:**
- All responses must be formatted using **Markdown** for clarity.
- When presenting structured data, use Markdown tables, lists, or bolding.

**Start by greeting the financial manager and offering assistance.**
""",
        "tools": [
          {
            "tool_ids": [
              "platform.core.search",
              "platform.core.list_indices",
              "platform.core.get_index_mapping",
              "platform.core.get_document_by_id",
              "find_client_exposure_to_negative_news"
            ]
          }
        ]
      }
    }
ステップ4：成果 — 会話をする
ビジネス ロジックがツールにカプセル化され、エージェントでそれを使用できる「頭脳」が準備されました。すべてが一つにまとまるのを見る時が来ました。専用のエージェントを使用して、データとのチャットを開始できるようになりました。
UIパス
Kibana のエージェントに移動します。
チャット ウィンドウの右下にあるドロップダウンを使用して、デフォルトのElastic AI エージェントから新しく作成したFinancial Assistantエージェントに切り替えます。
エージェントが当社の専用ツールを使用できるように、次の質問をしてください。市場のセンチメントが心配です。悪いニュースによって最もリスクにさらされている顧客は誰なのか教えていただけますか?
しばらくすると、エージェントは完全にフォーマットされた完全な回答を返します。LLM の性質上、回答の形式が若干異なる場合がありますが、この実行ではエージェントは次のように返しました。
何が起こったのですか?エージェントの推論
エージェントは単に答えを「知っていた」だけではありません。仕事に最適なツールを選択することを中心とした多段階の計画を実行しました。その思考プロセスは次のようになります。
識別された意図: 「リスク」や「ネガティブなニュース」など、質問のキーワードがfind_client_exposure_to_negative_newsツールの説明と一致しました。
計画を実行しました:リクエストから時間枠を抽出し、その専用ツールを1 回呼び出しました。
作業を委任:ツールは連鎖結合、値の計算、並べ替えなど、面倒な作業をすべて実行しました。
結果の統合:最後に、エージェントはプロンプトのルールに従って、ツールからの生データを明確で人間が読める要約にフォーマットしました。
思考を広げて詳細を見れば、推測するだけでは足りません。
APIパス
同じ会話をプログラムで開始することもできます。入力した質問をconverse API エンドポイントに送信し、 financial_managerのagent_idを必ず指定してください。
POST kbn://api/agent_builder/converse
{
  "input": "Show me our largest positions affected by negative news",
  "agent_id": "financial_assistant"
}
開発者向け: APIとの統合
Kibana UI はエージェントの構築と管理に素晴らしく直感的なエクスペリエンスを提供しますが、今日見てきたことはすべてプログラムで実現することもできます。Agent Builder は一連の API に基づいて構築されており、この機能を独自のアプリケーション、CI/CD パイプライン、または自動化スクリプトに直接統合できます。
使用する 3 つのコア エンドポイントは次のとおりです。
/api/agent_builder/tools: エージェントが使用できる再利用可能なスキルを作成、一覧表示、管理するためのエンドポイント。
/api/agent_builder/agents: エージェントのペルソナ（重要な指示やツールの割り当てなど）を定義するためのエンドポイント。
/api/agent_builder/converse: エージェントと対話し、会話を開始し、回答を得るためのエンドポイント。
これらの API を使用してこのチュートリアルのすべてのステップを実行するための完全な実践的なチュートリアルについては、 こちらの GitHub リポジトリで入手できる付属の Jupyter Notebook を ご覧ください。
結論: 構築する番です
まず、ES|QL クエリを取得して、それを再利用可能なスキルに変換することから始めました。次に、明確なミッションとルールを与えて、そのスキルを付与した専用の AI エージェントを構築しました。その結果、複雑な質問を理解し、複数段階の分析を実行して、正確でデータに基づいた回答を提供できる洗練されたアシスタントが誕生しました。
このワークフローは、Elastic の新しいAgent Builderの中心です。これは、技術に詳しくないユーザーが UI を通じてエージェントを作成できるほどシンプルでありながら、開発者が API 上にカスタム AI 搭載アプリケーションを構築できるほど微妙なニュアンスも備えた設計になっています。最も重要なのは、定義したエキスパート ロジックに従って、LLM を独自のデータに安全かつ確実に接続し、データとチャットできることです。
エージェントを使用してデータとチャットする準備はできていますか?
学んだことを定着させる最良の方法は、実際に手を動かしてみることです。今日お話しした内容をすべて、無料のインタラクティブな実践ワークショップで試してみてください。専用のサンドボックス環境で、このフロー全体とその他の内容を実行します。
今後のブログでは、 Financial Assistantエージェントと対話するスタンドアロン アプリケーションの使用方法と、それを可能にするモデル コンテキスト プロトコル (MCP)について詳しく説明します。また、別のブログでは、開発中の Agent2Agent (A2A) プロトコルに対する Agent Builder のサポートについて説明します。
引き続きご注目ください、そして楽しい建築を！


Elasticsearch を使用した AI エージェントワークフローの構築
Anish Mathur, Dana Juratoni — Tue, 23 Sep 2025 00:00:00 GMT
Elasticでは、AIアシスタント、高度なRAG、ベクターデータベースの改善により、LLMと会話型インターフェースにコンテキストを提供してきました。最近、AI エージェントの台頭により、関連コンテキストの必要性が高まり、影響力の大きいAI エージェントには優れた検索が必要であることがわかりました。そこで、Elasticsearch のデータを活用する AI エージェントの開発を支援するために設計された新しいネイティブ機能を Elastic Stack に構築しました。私たちは、この取り組みの進捗状況と今後の見通しについて共有したいと思います。
エージェントビルダー: データ駆動型 AI エージェント構築の基盤
AI エージェントの約束はシンプルです。目標を与えれば、仕事が完了します。しかし、開発者にとって、現実は一連の複雑な課題です。まず、エージェントの優秀さは、環境の認識と、ユーザーの目的を達成するために与えられたツールによって決まります。そして、多様な企業データから適切なコンテキストを提供することは大きな課題です。最後に、これらすべては、計画、実行、学習できる信頼性の高い推論ループによって調整される必要があります。
これを解決するには、開発者は複雑で脆弱なスタックをゼロから構築する必要があります。今日のエージェント アーキテクチャでは、LLM、ベクター データベース、メタデータ ストア、ログ記録とトレースの個別のシステム、そしてすべてが機能しているかどうかを評価する方法など、複数の異なる部分をつなぎ合わせる必要があります。これは単に複雑なだけでなく、コストがかかり、エラーが発生しやすく、ユーザーが求める高品質で信頼性の高い AI システムの構築が困難になります。
だから、もっとシンプルにしたいんです。これを実現するための私たちのアプローチは、効果的なコンテキスト駆動型エージェントの重要な要素を取り上げ、 Elastic AI Agent Builderと呼ばれる新しい機能セットを使用して Elasticsearch の中核に直接統合することです。この新しいレイヤーは、Elasticsearch を活用した AI エージェントを作成するためのすべての重要な構成要素（オープンなプリミティブ セット、標準ベースのプロトコル、データへの安全なアクセス）を備えたフレームワークを提供します。これにより、現実世界のデータと要件に合わせてカスタマイズされたエージェント システムを構築できます。
AI エクスペリエンスの提供: これが究極の目標です。当社の Search AI プラットフォームとお客様のデータを基盤として、カスタム チャット インターフェースから、LangChain などのエージェント フレームワークや Salesforce などのビジネス アプリケーションとの統合まで、あらゆるタイプの生成 AI アプリケーションを構築できます。
エージェントとツールを搭載: プラットフォームの上に、クリーンでシンプルな抽象化レイヤーを公開します。エージェントやツールと直接対話し、特定のニーズに合わせてカスタマイズできます。強力な API や MCP、A2A などのオープン スタンダードを通じてプラットフォームの機能にアクセスすることもできます。
Search AI Platform によって有効化: これは、コンポーネントを統合したコア エンジンです。高度なベクトル データベース、エージェント ロジック、クエリ構築、セキュリティ機能、評価のためのトレースはすべてここに存在し、Elastic によって管理および最適化されています。
データの力を解き放つ: 優れたエージェントの基盤は優れたデータです。当社のプラットフォームは、すべての企業データへのアクセスを取り込み、連携する機能から始まります。
プラットフォームにおけるエージェント構築
Search AI プラットフォームに統合された Agent Builder は、エージェント開発のための完全なフレームワークを提供します。これは 5 つの主要な柱に基づいて構築されており、各柱は実稼働レベルの AI システムの構築と展開の重要な側面に対処するように設計されています。エージェントが目的を定義し、ツールが機能を提供し、オープン スタンダードが相互運用性を確保し、評価が透明性をもたらし、セキュリティが信頼を提供する仕組みについて詳しく見ていきましょう。
エージェント
エージェントは、Elasticsearch のこの新しいレイヤーにおける最高レベルの構成要素です。エージェントは、達成する目的、実行に使用できるツールのセット、および操作できるデータ ソースを定義します。エージェントは会話によるやり取りに限定されず、完全なワークフロー、タスクの自動化、ユーザー向けのエクスペリエンスを実現できます。
クエリがエージェントに送られると、構造化されたサイクルに従います。
入力内容と目的を解釈する
実行に適したツールと引数を選択する
ツールの応答の理由
結果を返すか、さらにツールの呼び出しを続行するかを決定します
Elastic は、このサイクルのオーケストレーション、コンテキスト、および実行を処理します。開発者は、エージェントが何をすべきか（目的、ツール、データ）を定義することに重点を置き、システムは推論とワークフローの実行方法を管理します。
デフォルトエージェント
このプラットフォーム上に構築された最初のエージェントは、Kibana のネイティブ会話エージェントであり、データとすぐに対話できるようになります。完全な拡張性を維持しながらすぐに使用できるエクスペリエンスを提供し、追加の構成なしですぐにデータの操作を開始できます。
新しいチャット ユーザー エクスペリエンスまたは API を介して、Kibana でこのエクスペリエンスを直接操作できます。
API を介してデフォルトのエージェントを照会するには、1 回の呼び出しだけが必要です。
POST kbn://api/agent_builder/converse
{
    "input": "what is our top portfolio account?"
}
会話はステートフルなので、 conversation_id を使用してエージェントとの対話を継続したり、完全な会話履歴を取得したりできます。
POST kbn://api/agent_builder/converse
{
    "input": "What about the second top?",
    "conversation_id": "ec757c6c-c3ed-4a83-8e2c-756238f008bb"
}

## get the full conversation
GET kbn://api/agent_builder/conversations/ec757c6c-c3ed-4a83-8e2c-756238f008bb
カスタムエージェント
開発者は、シンプルな API を通じて独自のカスタム エージェントを作成することもできます。エージェントは、指示、ツール、データ アクセスをカプセル化し、カスタマイズされた推論エンジンを作成します。
カスタム エージェントの作成は、1 回の API 呼び出しを行うだけで簡単に行えます。以下のサンプルは例を示しています。「構成」フィールドには、手順や利用可能なツールなどのすべての重要な詳細が含まれています。
POST kbn://api/agent_builder/agents
{
  "id": "custom_agent",
  "name": "My Custom Agent",
  "description": "Description of the custom agent",
  "configuration": {
      "instructions": "You are a log expert specialising in ...",
      "tools": 
...
   }
}
作成されたエージェントは直接クエリできます。
POST kbn://api/agent_builder/converse
{
    "input": "What news about DIA?",
    "agent_id": "custom_agent"
}
このアプローチにより、エージェントはゼロから構築する複雑なシステムから、ビジネス ロジックの単純な宣言型ユニットに変換され、インテリジェントな自動化をより迅速に提供できるようになります。
特化したエージェントをゼロから構築する方法の詳細については、詳細なステップバイステップガイド「初めての Elastic エージェント: 単一のクエリから AI を活用したチャットまで」をご覧ください。
ツール
エージェントが達成すべきことを定義するのに対し、ツールは達成方法を定義します。
ツールは、エージェントが情報を実行および取得したり、アクションを実行したりするための特定の Elastic Core 機能を公開します。ツールには、インデックスの取得やマッピングの取得などのコア機能や、自然言語から ES|QL への変換などのより高度な機能を含めることができます。
Elasticsearch には、一般的なニーズに合わせて最適化された一連のデフォルト ツールが付属しています。しかし、本当の柔軟性は、独自のものを作成することから生まれます。ツールを定義することで、ES|QL を使用してエージェントに公開されるクエリ、インデックス、フィールドを正確に決定し、速度、精度、セキュリティを正確に制御できます。
新しいツールの登録も、1 回の API 呼び出しと同じくらい簡単です。ES|QL (Elasticsearch クエリ言語)を活用して特定の金融資産に関するニュースを検索するツールを作成できます。
POST kbn://api/agent_builder/tools
{
  "id": "news_on_asset",
  "type": "esql",
  "description": "Find news and reports about a particular asset where ...",
  "configuration": {
    "query": "FROM financial_news, financial_reports | where MATCH(company_symbol, ?symbol) OR MATCH(entities, ?symbol) | limit 5",
    "params": {
      "symbol": {
        "type": "keyword",
        "description": "The asset symbol"
      }
    }
  ...
  }
...
}
登録が完了すると、新しいツールをカスタム エージェントに割り当てることができ、適切なタイミングで推論して呼び出すための厳選された一連の機能をエージェントに提供できるようになります。
当社では、お客様固有のニーズに合わせてカスタム ツールを作成するためのプラットフォームを提供しています。たとえば、ES|QL を使用すると、エージェントを汎用エージェントから、お客様独自のデータとビジネス ドメインに基づいたドメイン固有のエキスパートに変換できます。
オープンスタンダードと相互運用性
Elasticsearch エージェントとツールはオープン標準 API を介して公開されるため、エージェントフレームワークのより広範なエコシステム内の基礎ブロックとして簡単に統合できます。私たちのアプローチはシンプルです。ブラックボックスはありません。Elastic の検索における強みを活かし、それを補完的な機能や他のエージェント システムと組み合わせることができるようにしたいと考えています。
これを実現するために、当社は API、新しいプロトコル、オープン スタンダードを通じて機能を公開しています。
モデルコンテキストプロトコル（MCP）
モデル コンテキスト プロトコル (MCP)は、システム間でツールを接続するためのオープン スタンダードとして急速に普及しつつあります。MCP をサポートすることで、Elasticsearch は会話型 AI をデータベース、インデックス、外部 API に接続できるようになります。Elastic Stack に組み込まれたリモート MCP サーバーを使用すると、MCP 対応のクライアントはどれでも Elastic のツールにアクセスし、それらをより大規模なエージェントワークフローの構成要素として使用できます。
これは一方通行ではありません。外部の MCP サーバーからツールをインポートし、Elasticsearch 内で利用できるようにすることもできます。近い将来、MCP サーバーはほぼすべての用途で利用できるようになる見込みで、私たち自身が作成するものよりもはるかに包括的なものになるでしょう。Elastic は大規模な検索と取得機能を提供しており、これを他のプラットフォームの特殊な機能と組み合わせて効果的なエージェントを構築できます。
エージェント間（A2A）
また、エージェント間 (A2A) サポートにも取り組んでいます。MCP はツールを接続することに重点が置かれていますが、A2A はエージェントを接続することに重点が置かれています。A2A サーバーを使用すると、構築する Elastic エージェントは他のシステムのエージェントと直接通信して、コンテキストを共有したり、タスクを委任したり、ワークフローを調整したりできるようになります。
これを推論層における相互運用性と考えてください。Elastic エージェントは検索と取得を処理し、タスクを専門のサポート エージェントまたは IT エージェントに引き渡して、結果をシームレスに返すことができます。その結果、各エージェントが最善を尽くして協力するエコシステムが実現します。
最終的に、MCP と A2A を採用することで、Elasticsearch が第一級市民としての役割を担うという当社の取り組みが強化され、より広範なエージェントエコシステム全体でのオープンな統合が保証されます。
追跡と評価
検索がエージェントと統合されるにつれて、効果的な評価の課題が重要になります。実際の企業環境にエージェントを自信を持って導入するには、エージェントが正確であるだけでなく、効率的で信頼できるという保証が必要です。パフォーマンスを測定したり、悪い応答を診断したり、ベースラインを改善したりするにはどうすればよいですか?すべては可視性から始まります。
そのため、私たちはエージェント API を最初から透明性を重視して設計しました。次の単純なエージェントのやり取りを考えてみましょう。
POST kbn://api/agent_builder/converse
{
    "input": "what is our top portfolio account?"
}
応答には、最終的な回答だけでなく、エージェントが選択したツール、使用したパラメーター、各ステップの結果の詳細を含む完全な実行トレースが含まれます。
{
  "conversation_id": "db5c0c8b-12bf-4928-a57e-d99129ad2fea",
  "steps": [
    {
      "type": "tool_call",
      "tool_call_id": "tooluse_Nfqr3mwtR92HTRIsTcGXZQ",
      "tool_id": ".index_explorer",
      "params": {
        "query": "indices containing portfolio data"
      },
      "results": [...]
    }
    // ... more steps ...
  ],
  "response": {
    "message": "Based on the information I've gathered...."
  }
}
包括的なトレースとログ記録は継続的な改善ループに不可欠であり、まもなくこれらのエージェント トレースを Elasticsearch に直接保存して表示できるようになります。さらに、これらのトレースは OpenTelemetry プロトコルに基づいて構築されているため、標準化され、移植可能であり、選択した監視プラットフォームとの統合が可能です。
このレベルの詳細は、真の継続的改善ループの基礎となります。これにより、包括的なテスト スイートを構築し、障害をデバッグし、障害モードを特定して回帰を防ぎ、成功パターンをキャプチャしてパフォーマンスを微調整できるようになります。最終的に、このデータ主導のアプローチは、有望なプロトタイプを製品レベルの信頼できる AI システムに変換するための鍵となります。
セキュリティ
エージェントとツールの性能が向上するにつれて、セキュリティはオプションではなく、基礎的なものになります。API を公開し、タスクやワークフローを自動化するには、エンタープライズ システムが信頼されている必要があります。特に、エージェントがより多くのワークフローを自動化し始めると、これらを保護し、企業の要件を満たしていることを確認する機能が不可欠になります。
上記の機能はすべて、API 呼び出しのロールベースのアクセス制御 (RBAC)や API キー管理など、現在 Elastic ですでに利用可能な制御を継承しています。同じ制御を MCP などの新しいプロトコルにも拡張しています。つまり、OAuth などの標準のサポートと、カスタム認証メカニズムをプラグインする機能を意味します。
私たちの目標は、組織が求めるセキュリティ、コンプライアンス、ガバナンスのレベルを維持しながら、エージェントとツールを実験する柔軟性を提供することです。
次に何が起こるか
機能を追加するだけではなく、エージェントコンテキストエンジニアリング向けに Elasticsearch を拡張しています。当社は、以下の理念に基づいて今後開発を進めていく予定です。
1. オープンソースと標準への取り組み
当社はオープン ソースとオープン スタンダードに注力しており、これらの機能が外部のエージェント フレームワークと相互運用可能であることを保証します。データとワークフローを常に管理しながら、エコシステム全体でエージェントを接続、拡張、構成できるようになります。
2. 文脈の価値
AI エージェントのコンテキストは最大の資産です。エージェントが検索やワークフロー操作を実行するときにコンテキストを管理することは、難しいタスクになる可能性があります。私たちは Elastic の強みを活用してコンテキスト エンジニアリングを解決し、エージェントが最も関連性の高い情報を常に利用できるようにしています。
3. エージェントデータストリームに焦点を当てる
今後、エージェントは、エージェントの出力 (生成されたドキュメント、レポート、視覚化) やエージェントの実行トレース (思考、ツールの呼び出し、メモリ/コンテキスト) など、ますます大きなデータソースになります。Elastic はこの種のデータの処理に適しており、私たちはこのデータを使用して分析、評価、自動改善を実行するための研究に取り組んでいます。
4. セキュリティと安全性を考慮した設計
AI エージェントは、セキュリティと安全性に関するまったく新しい一連の課題をもたらします。Elastic は常に安全なソリューションのリーダーであり、エンタープライズグレードのガードレール、アクセス制御、および「ゼロトラスト」原則の構築を継続しています。
5. プラットフォームに組み込む
AI エージェントを構築するための機能は、Elasticsearch プラットフォームに組み込まれています。つまり、トレース、評価、視覚化、分析などのプラットフォーム レベルの機能はすべてエージェントに適用できます。エージェントの実行に基づいてダッシュボードを開発したい - それが組み込まれています。感情分析を使用して AI エージェントのパフォーマンスを評価したい場合、プラットフォームでそれが可能です。これにより、AI エクスペリエンスを中心とした完全なライフサイクルを構築できるようになります。
Elastic の目標は、データに完全に統合され、拡張可能で、データに基づいた会話型 AI と自動化されたワークフローを構築するためのインターフェースを提供することです。より詳しい技術的な詳細と進捗状況については、近日中に共有される予定です。
Agent Builder は現在、プライベート プレビューでご利用いただけます。アクセスをリクエストするには、当社にご連絡ください。ご質問やフィードバックはありますか?Slack ワークスペースまたはディスカッション フォーラムで開発者コミュニティとつながりましょう。


Elastic Open Web Crawler をコードとして
Gustavo Llermaly — Mon, 22 Sep 2025 00:00:00 GMT
Elastic Open Web Crawlerとその CLI 駆動型アーキテクチャを使用すると、バージョン管理されたクローラー構成とローカル テストを備えた CI/CD パイプラインを実現するのが非常に簡単になります。
従来、クローラーの管理は手動で行われ、エラーが発生しやすいプロセスでした。これには、UI で直接構成を編集することや、クロール構成の複製、ロールバック、バージョン管理などに苦労することが含まれていました。クローラー構成をコードとして扱うことで、ソフトウェア開発で期待されるのと同じ利点（再現性、追跡可能性、自動化）が得られ、この問題が解決されます。
このワークフローにより、ロールバック、バックアップ、移行などのタスクを CI/CD パイプラインに Open Web Crawler を簡単に組み込むことができるようになります。これらのタスクは、Elastic Web Crawler や App Search Crawler などの以前の Elastic Crawler では非常に困難でした。
この記事では、次の方法を学習します。
GitHubを使用してクロール設定を管理する
デプロイ前にパイプラインをテストするためのローカルセットアップを用意する
メインブランチに変更をプッシュするたびに、新しい設定でウェブクローラーを実行するための本番環境設定を作成します。
プロジェクトのリポジトリはこちらです。執筆時点では、Elasticsearch 9.1.3とOpen Web Crawler 0.4.2を使用しています。
要件
Dockerデスクトップ
Elasticsearchインスタンス
SSH アクセス（AWS EC2 など）と Docker がインストールされた仮想マシン
ステップ
フォルダ構造
クローラー構成
Docker-compose ファイル (ローカル環境)
Githubアクション
ローカルテスト
本番環境へのデプロイ
変更と再展開
フォルダ構造
このプロジェクトでは、次のファイル構造になります。
├── docker-compose.yml # Local elasticsearch + crawler
├── config/crawler-config.yml # Crawler config
├── .github/workflows/deploy.yml # GH Action to deploy changes
├── local.sh # Script to run our local crawler
クローラー構成
crawler-config.yml,の下に次の内容を入力します。
output_sink: elasticsearch
output_index: web-crawl-index
max_crawl_depth: 1

elasticsearch:
  host: ${ES_HOST}
  api_key: ${ES_API_KEY}
     
domains:
  - url: https://web-scraping.dev
    seed_urls:
      - https://web-scraping.dev/product/1
      - https://web-scraping.dev/product/2
      - https://web-scraping.dev/product/3
これは、製品の模擬サイトであるhttps://web-scraping.dev/productsからクロールします。最初の 3 つの製品ページのみをクロールします。max_crawl_depth設定により、クローラーはseed_urlsとして定義されたページよりも多くのページを検出することがなくなり、それらのページ内のリンクを開かなくなります。
Elasticsearch hostとapi_keyは、スクリプトを実行している環境に応じて動的に設定されます。
Docker-compose ファイル (ローカル環境)
ローカルdocker-compose.yml,には、クローラーと単一の Elasticsearch クラスター + Kibana をデプロイして、本番環境にデプロイする前にクロール結果を簡単に視覚化できるようにします。
services:
  es01:
    image: docker.elastic.co/elasticsearch/elasticsearch:9.1.3
    environment:
      - discovery.type=single-node
      - xpack.security.enabled=false
      - ES_JAVA_OPTS=-Xms1g -Xmx1g
    ports:
      - "9200:9200"
    networks: [esnet]
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:9200"]
      interval: 5s
      timeout: 5s
      retries: 10

  kibana:
    image: docker.elastic.co/kibana/kibana:9.1.3
    environment:
      - ELASTICSEARCH_HOSTS=http://es01:9200
    ports:
      - "5601:5601"
    networks: [esnet]
    depends_on: [es01]

  crawler:
    image: docker.elastic.co/integrations/crawler:0.4.2
    environment:
      - ES_HOST=http://es01:9200
      - CRAWLER_JRUBY_OPTS=--server
    container_name: crawler
    volumes:
      - ./config:/home/app/config
    networks: [esnet]
    entrypoint: ["/home/app/bin/crawler", "crawl", "/home/app/config/crawl-config-final.yml"]
    stdin_open: true
    tty: true

networks:
  esnet:
    driver: bridge
Elasticsearch の実行準備ができるまでクローラーが待機する方法に注意してください。
Githubアクション
ここで、新しい設定をコピーし、メインにプッシュするたびに仮想マシンでクローラーを実行する GitHub アクションを作成する必要があります。これにより、手動で仮想マシンにアクセスしてファイルを更新し、クローラーを実行する必要がなくなり、常に最新の構成が展開されます。仮想マシンプロバイダーとして AWS EC2 を使用します。
最初のステップは、ホスト ( VM_HOST )、マシン ユーザー ( VM_USER )、SSH RSA キー ( VM_KEY )、Elasticsearch ホスト ( ES_HOST )、Elasticsearch API キー ( ES_API_KEY ) を GitHub Action シークレットに追加することです。
この方法により、アクションはサーバーにアクセスして新しいファイルをコピーし、クロールを実行できるようになります。
それでは、 .github/workflows/deploy.ymlファイルを作成しましょう。
name: Deploy

on:
  push:
    branches: [main]

jobs:
  Deploy:
    name: Deploy to EC2
    runs-on: ubuntu-latest

    steps:
      - uses: actions/checkout@v5

      - name: Deploy crawler
        env:
          HOSTNAME: ${{ secrets.VM_HOST }}
          USER_NAME: ${{ secrets.VM_USER }}
          PRIVATE_KEY: ${{ secrets.VM_KEY }}
          ES_HOST: ${{ secrets.ES_HOST }}
          ES_API_KEY: ${{ secrets.ES_API_KEY }}
        run: |
          # Save private key
          echo "$PRIVATE_KEY" > private_key
          chmod 600 private_key

          # Generate final config locally
          envsubst < config/crawler-config.yml > config/crawl-config-final.yml

          # Copy the config folder to VM
          scp -o StrictHostKeyChecking=no -i private_key -r config ${USER_NAME}@${HOSTNAME}:~/config

          # SSH into VM and run crawler
          ssh -o StrictHostKeyChecking=no -i private_key ${USER_NAME}@${HOSTNAME} << EOF
            docker run --rm \
              -v ~/config:/config \
              docker.elastic.co/integrations/crawler:latest jruby \
              bin/crawler crawl /config/crawl-config-final.yml
          EOF
このアクションは、クローラー構成ファイルに変更をプッシュするたびに、次の手順を実行します。
yml config に Elasticsearch ホストと API キーを入力します。
configフォルダをVMにコピーします
SSH経由でVMに接続します
リポジトリからコピーした設定でクロールを実行します
ローカルテスト
クローラーをローカルでテストするために、Docker からローカルのものを Elasticsearch ホストに入力してクロールを開始する bash スクリプトを作成しました。./local.shを実行して実行できます。
#!/bin/bash

# Exit on any error
set -e

# Load environment variables
export ES_HOST="http://es01:9200"

# Generate final crawler config
envsubst < ./config/crawler-config.yml > ./config/crawl-config-final.yml

# Bring everything up
docker compose up --build
Kibana DevTools を見て、  web-crawler-indexが正しく入力されていることを確認しましょう。
本番環境へのデプロイ
これで、メイン ブランチにプッシュする準備が整いました。これにより、仮想マシンにクローラーがデプロイされ、Serverless Elasticsearch インスタンスにログの送信が開始されます。
git add .
git commit -m "First commit"
git push
これにより、GitHub アクションがトリガーされ、仮想マシン内でデプロイ スクリプトが実行され、クロールが開始されます。
アクションが実行されたかどうかを確認するには、GitHub リポジトリにアクセスして「アクション」タブにアクセスします。
変更と再展開
お気づきかもしれませんが、各製品のpriceはドキュメントの本文フィールドの一部です。価格を別のフィールドに保存して、それに対してフィルターを実行できるようにするのが理想的です。
抽出ルールを使用してproduct-price CSS クラスから価格を抽出するために、 crawler.ymlファイルに次の変更を追加してみましょう。
output_sink: elasticsearch
output_index: web-crawl-index
max_crawl_depth: 1

elasticsearch:
  host: ${ES_HOST}
  api_key: ${ES_API_KEY}
     
  # Index ingest pipeline to process documents before indexing          
  pipeline_enabled: true
  pipeline: pricing-pipeline

domains:
  - url: https://web-scraping.dev
    seed_urls:
      - https://web-scraping.dev/product/1
      - https://web-scraping.dev/product/2
      - https://web-scraping.dev/product/3
    extraction_rulesets:
      - url_filters:
          - type: ends
            pattern: /product/*
        rules:
          - action: extract
            field_name: price
            selector: .product-price
            join_as: string
            source: html
また、価格にはドル記号 ( $ ) が含まれていますが、範囲クエリを実行する場合はこれを削除する必要があります。そのために、取り込みパイプラインを使用できます。上記の新しいクローラー構成ファイルでこれを参照していることに注意してください。
PUT _ingest/pipeline/pricing-pipeline
{
  "processors": [
    {
      "script": {
        "source": """
                ctx['price'] = ctx['price'].replace("$","")
            """
      }
    }
  ]
}
このコマンドは本番環境の Elasticsearch クラスターで実行できます。開発用の場合は一時的なものなので、次のサービスを追加することで、パイプライン作成部分をdocker-compose.ymlファイルにすることができます。パイプラインが正常に作成された後にクローラー サービスが起動するように、 depends_onもクローラー サービスに追加されていることに注意してください。
 crawler:
    image: docker.elastic.co/integrations/crawler:0.4.2
    environment:
      - ES_HOST=http://es01:9200
      - CRAWLER_JRUBY_OPTS=--server
    container_name: crawler
    volumes:
      - ./config:/home/app/config
    networks: [esnet]
    entrypoint: ["/home/app/bin/crawler", "crawl", "/home/app/config/crawl-config-final.yml"]
    depends_on:
      pipeline-init:
        condition: service_completed_successfully
    stdin_open: true
    tty: true  


  pipeline-init:
    image: curlimages/curl:latest
    depends_on:
      es01:
        condition: service_healthy
    networks: [esnet]
    entrypoint: >
        sh -c "
        echo 'Creating ingest pipeline...';
        curl -s -X PUT http://es01:9200/_ingest/pipeline/pricing-pipeline \\
          -H 'Content-Type: application/json' \\
          -d '{\"processors\":[{\"script\":{\"source\":\"ctx.price = ctx.price.replace(\\\"$\\\", \\\"\\\")\"}}]}';
        echo 'Pipeline created!';
        "
次に、 `./local.sh`を実行してローカルで変更を確認してみましょう。
素晴らしい！変更をプッシュしてみましょう。
git add crawler-config.yml
git commit -m "added price CSS selector"
git push
すべてが機能していることを確認するには、本番環境の Kibana をチェックします。変更が反映され、価格がドル記号なしの新しいフィールドとして表示されるはずです。
まとめ
Elastic Open Web Crawler を使用すると、クローラーをコードとして管理できるため、開発からデプロイメントまでのパイプライン全体を自動化したり、一時的なローカル環境を追加したり、クロールされたデータに対してプログラムでテストを実行したりすることができます。
公式リポジトリのクローンを作成し、このワークフローを使用して独自のデータのインデックス作成を開始してください。クローラーによって生成されたインデックスに対してセマンティック検索を実行する方法については、この記事を読むこともできます。


Elasticsearch の ES|QL エディターエクスペリエンスと OpenSearch の PPL イベントアナライザーの比較
Libby Lin, George Kobar — Thu, 18 Sep 2025 00:00:00 GMT
8.14 から一般公開されているElasticsearch クエリ言語(ES|QL) では、検索、可観測性、セキュリティ調査用に設計された専用のクエリ言語とエンジンが導入されています。既存のパイプ言語から多くの部分を借用している OpenSearch のパイプ処理言語 (PPL) とは異なり、ES|QL は洗練性、使いやすさ、および Kibana プラットフォーム全体でのシームレスな統合に重点を置いてゼロから構築されました。
このブログでは、Elasticsearch 9.1 の ES|QL エディターの開発者エクスペリエンスを、OpenSearch 3.2 のイベント アナライザー (略して PPL) の PPL と比較しながら探っていきます。
違いはすぐに明らかになります。ES|QL エディターは、初心者ユーザーだけでなく、エキスパートレベルのユーザーにも力を与えるインテリジェントなオートコンプリート、コンテキスト ヘルプ、推奨クエリ、およびクラスター間クエリ サポートを提供します。ES|QL オーサリングの思慮深い設計は、たとえば最近のクエリを使用した Kibana ワークフローによる統合クエリ検査と総合的な統合にも反映されています。
対照的に、PPL にはオートコンプリート、コンテキスト ガイダンス、分散クエリに対する同等のサポートがないため、学習曲線が急峻になり、試行錯誤が増えます。
ES|QL の学習と使用を容易にする
新しいクエリ言語を使い始めると、圧倒されると感じることがよくあります。Kibana Discover に直接組み込まれた ES|QL エディターは 、 クエリの作成とデバッグをサポートするだけでなく、言語に慣れて使いこなせるようになるまでの時間を短縮することで、そのプロセスを容易にするように設計されています。エディターは日常のタスクの摩擦を軽減するのに役立つため、構文や試行錯誤からソリューションの作成に焦点を移すことができます。これらの原則と、それをエディターにどのように統合したかの詳細については、こちらをご覧ください。
このエディター エクスペリエンスは Discover に限定されません。これは再利用可能なコード モジュールであり、ダッシュボード、Kibana アラート、Kibana マップなど、 Kibana の他の部分に統合する作業が進められています。
インテリジェントなオートコンプリート: クエリ作成を高速化
ES|QL エディターのオートコンプリートは包括的で、互換性のある関数、引数、リテラル、さらにはネストされた関数の提案を提供します。これは PPL には明らかに欠けている機能です。実際、ここで概説されているように、根本から再構築されました。
ここで説明されているように、検証はユーザーが入力すると実行され、フィールドを提案し、ユーザーにエラーを通知します。これにより、ユーザーの精神的負担が軽減され、クエリ作成プロセスの早い段階でエラーを防ぐことができます。
例: このネストでは、フィールドと互換性のある関数が提案されています。
PPL がサポートしていないもの:
互換性のある関数、引数、ネストされた関数を案内するインテリジェントなオートコンプリート機能があっても、利用可能なオプションについてさらに深く理解したい場合があります。ここで、ES|QL エディターのコンテキスト ヘルプが非常に役立ち、エディター内で即時に支援が提供され、クエリの開発が明確化され、強化されます。
指先で状況に応じたヘルプ
オートコンプリートによって生成されたコマンドに関する追加情報は、Ctrl キーとスペース キーを押すことで表示されます。問題の関数、引数、またはフィールドの詳細を示すパネルがすぐに表示されます。この軽量なインタラクションにより、開発者はスムーズに作業を進めることができ、エディターを離れたり外部ドキュメントを検索したりすることなく、ジャストインタイムのガイダンスを得ることができます。これにより、構文の検索に費やす時間が削減され、よくある間違いを未然に防ぐことができます。
実際の動作は次のようになります。
PPL にはこのレベルの組み込みガイダンスがないため、ユーザーは外部のドキュメントや試行錯誤に頼ることになります。その欠如は単に機能が欠けているというだけではなく、設計哲学におけるより広範な相違を浮き彫りにしています。ES|QL は、ユーザーのデータとワークフローに適応する、思慮深くコンテキストを意識したエクスペリエンスを優先します。この違いはクエリの複雑さが増すにつれて顕著になり、ES|QL エディターは学習と本番使用の両方においてより効率的で信頼性の高い環境になります。
データのコンテキストを考慮した推奨クエリ
ES|QL エディターは、ログなどの作業中のデータに合わせて自動的に調整される推奨クエリを提供します。空白のエディターを表示する代わりに、一般的なユースケースに最も関連性の高い開始点を表示します。推奨クエリを選択すると、すぐに使用できる標準クエリが生成され、必要に応じてさらに絞り込むことができます。このアプローチにより、特に完全な構文をまだ知らない新しいユーザーにとって、クエリの開発が加速されます。
以下は、ユーザーが「変化点の検出」クエリを選択する例です。
これを PPL の経験と比較してみましょう。
対照的に、ここでの PPL は基本的なオートコンプリートのみを提供するため、コンテキストや構造なしでクエリを組み立てることになります。このガイダンスの欠如は、フラストレーションと試行錯誤につながる可能性があります。ES|QL エディターのデータ対応の推奨クエリを使用すると、日常的なタスクの構文を最初から作成したり、暗記したりする必要がなくなります。エディターは認知負荷を軽減し、エラーの防止に役立ち、クエリの構築に悩むのではなく、問題解決やクラスター間検索の実行などのより広範な目標に集中できるようにします。
直感的なクラスター間クエリ
ES|QL エディターのオートコンプリートは、 CCS を使用して複数のリモート クラスターを操作する場合でも、優れた性能を維持します。理由は次のとおりです。
ES|QL エディターは、クラスター間でもシームレスなオートコンプリートを提供します。
ES|QL エディターのオートコンプリートは、クラスター名だけでなく、ローカル インデックスとリモート インデックスの両方をサポートします。ここで説明されているように、これはコーディネーター ノード アーキテクチャのおかげで機能します。このアーキテクチャは、ローカル ノードに送信するクエリ プランを検証および生成し、クエリを実行して結果を集計してからユーザーに送り返すのに役立ちます。完全なリモート クラスター名を入力せずに「:」と入力すると、リモート インデックスの自動補完プロセスが開始されます。また、接頭辞に限定されるわけではありません。
これにより、命名規則を記憶したりコンテキストを切り替えたりすることなく、分散データセット全体の検出とクエリを簡単に実行できるようになります。
以下は、ユーザーが「clu:g」と入力してリモート インデックスを検索する例です。
対照的に、PPL はローカル インデックスに対して基本的な補完のみを提供し、提案はプレフィックスの一致に制限されています。リモート クラスターは手動で入力する必要があるため、エラーが発生する可能性が高まり、クエリの作成が遅くなります。
PPL はローカル インデックスに対してのみ補完を提供し、提案はプレフィックスに制限されます。
ES|QL ではさらに、負の符号を使用して直接除外できるため、探索に参加するクラスターをきめ細かく制御できます。この機能は、クラスター間の調査中に特定のデータセットを含めたり省略したりする必要があるハイブリッド環境で作業する場合に特に役立ちます。
これらの機能強化は、Elasticsearch がクラスター間検索における摩擦の軽減に重点を置いていることを反映しています。ES|QL エディターでは、分散クエリの構築と管理が容易になるため、アナリストや開発者は構文ではなく洞察に集中できます。一方、PPL ではその負担がユーザーに多く残ります。ES|QL エディターは、クラスター間クエリの作成を簡素化するだけでなく、それらのクエリの実行方法を検査するツールも提供し、複数のクラスターにわたる透明性とパフォーマンス監視を保証します。
検査ツールを使用してクロスクラスター検索の詳細を分析する
ES|QL エディターからアクセスできる検査ツールは、すべてのクラスターにわたるクエリ実行に関する明示的な情報をメタデータに提供するように設計されています。この機能は Kibana Discover で有効になっており、クエリ インスペクターから直接アクセスできるため、検索の進行状況と詳細を分析できます。これは、Cross-Cluster Search ( CCS ) にとって特に重要です。この機能を使用すると、検索の進行状況を監視し、分散データセット全体でのクエリの実行方法を把握できます。
特に複雑な分散検索の場合、クエリ実行の詳細な可視性により、最適なパフォーマンスとトラブルシューティングが可能になります。
ES|QL エディターは、個々のクエリの仕組みを理解するだけでなく、Kibana プラットフォーム全体に重要な機能を深く組み込むことでユーザー ジャーニーをさらに強化し、シームレスで中断のないワークフローを促進します。
ES|QLとKibanaによる統合クエリエクスペリエンス
クエリ駆動型分析における最も一般的な摩擦の原因の 1 つは、コンテキストの切り替えです。すでに記述したクエリを思い出す必要がある場合がよくあります。中断されるたびに集中力が途切れ、調査が遅くなります。ES|QL エディターは、Kibana 全体のクエリ履歴を統合することでこの問題に対処します。
最近のクエリ
ES|QL エディターの最近のクエリ機能を使用すると、過去の作業にすぐにアクセスできるようになり、作業の流れを維持できます。Discover の ES|QL エディターでは、過去 20 件のクエリを表示、再実行、スター付けすることができ、頻繁に使用するクエリや複雑なクエリを 1 回のクリックで実行できるようになります。保存されたクエリは Kibana 全体に引き継がれ、ダッシュボード、視覚化、アラート、マップと統合されるため、現在の画面を離れたり、コマンドを最初から再入力したりする必要はありません。これにより、反復的な作業が削減され、調査が高速化され、エラーのリスクが最小限に抑えられます。
たとえば、ユーザーは Discover の ES|QL エディターで最近のクエリを利用できます (そしてスターを付けることもできます)。
最近のクエリはダッシュボードに統合されています。
PPL には同等の機能は用意されていないため、ユーザーはクエリを再利用するために手動でのコピー アンド ペーストや外部メモに頼ることになります。この違いは利便性だけではありません。これは、ES|QL を Kibana エコシステム内に真に統合された言語として構築するという Elastic の戦略を反映しています。ES|QL エディターは、最近のクエリなどの機能により、日常のワークフローを効率化するだけでなく、現在テクニカル プレビューで提供されているより高度な機能の基盤も構築し、エクスペリエンスの継続的な進化を保証します。
まとめ
ES|QL は単なる構文ではありません。ユーザーがデータを検索、探索、分析する方法を改善するという Elastic の戦略を反映しています。インテリジェントなオートコンプリート、コンテキスト認識型の推奨クエリ、エディター内ガイダンス、Inspect などのツールを備えた ES|QL エディターは、学習を加速し、エラーを削減し、クラスター間分析などの複雑なワークフローを簡素化します。Kibana 全体に統合されており、クエリをダッシュボード、アラート、視覚化にシームレスに接続して、中断のないワークフローを実現します。
要約すると、ES|QL は単なる別のパイプ言語ではありません。データとの対話方法を根本的に再定義する直感的な UI と組み合わせた、思慮深く設計されたクエリ エンジンであり、OpenSearch PPL の多くの場合シーケンシャルでガイドが少ない性質とは対照的に、統合されたインテリジェントで継続的に進化するエクスペリエンスを提供します。
次は何？
このブログは ES|QL の表面的な部分のみを取り上げています。今後の投稿では、OpenSearch PPL との比較をさらに深め、地理空間、視覚化、コントロール(ダッシュボードで既に利用可能)、マルチデータ探索タブ、バックグラウンド検索、より豊富なクエリ履歴、FUSE などの今後のエディター機能について説明します。
今すぐES|QLをお試しください
無料トライアル で、完全に管理された Elasticsearch Serverless プロジェクトで ES|QL を試すことができます。8.11 以降のバージョンでも利用可能ですが、 8.19 および 9.1で最も快適にご利用いただけます。
1 つのコマンドでローカル環境で数分以内に開始できます。
curl -fsSL https://elastic.co/start-local | sh


Elasticsearch Ruby クライアント向け ES|QL クエリビルダーのご紹介
Fernando Briano — Wed, 17 Sep 2025 00:00:00 GMT
最近、Apache 2 ライセンスに基づいて公開された Ruby gem、 elastic-esqlをリリースしました。この gem を使用すると、Elastic のES|QLクエリを慣用的な Ruby で構築し、ES|QL クエリ API で使用できるようになります。ES|QL を使用すると、開発者はクエリを介して Elasticsearch に保存されているデータをフィルタリング、変換、分析できます。「パイプ」（ | ）を使用して、データを段階的に処理します。代わりに gem は Ruby 関数を使用します。これを元のオブジェクトに連鎖して、より複雑なクエリを構築できます。
ESQL:
FROM sample_data | LIMIT 2 | SORT @timestamp DESC
ルビー：
Elastic::ESQL.from('sample_data').limit(2).sort('@timestamp').descending
インストール
この gem は、RubyGems から次のようにインストールできます。
gem install elastic-esql
または、プロジェクトの Gemfile に追加することもできます。
gem 'elastic-esql'
使用法
完全なクエリを一度に構築することも、 fromやrowなどのソース コマンドを使用してクエリ オブジェクトを作成し、それに基づいて ES|QL メソッドを連鎖して構築することもできます。
query = Elastic::ESQL.from('sample_data')
query.limit(2).sort('@timestamp')
gem はto_sメソッドでコードを ES|QL に変換するので、印刷されるか文字列としてキャストされるときに ES|QL クエリを返します。
query = Elastic::ESQL.from('sample_data').limit(2).sort('@timestamp').descending
query.to_s
# => "FROM sample_data | LIMIT 2 | SORT @timestamp DESC"
各関数の!に相当するものを使用して、クエリ オブジェクトをインスタンス化し、その初期状態を変更できます。
query = Elastic::ESQL.from('sample_data')
query.to_s
# => "FROM sample_data"
query.limit!(2).sort!('@timestamp')
query.to_s
# => "FROM sample_data | LIMIT 2 | SORT @timestamp"
このツールは、 enrichやsortなどの追加ステップを ES|QL 関数に連鎖させる便利な方法を提供します。Elastic::ESQLオブジェクトでenrich呼び出すと、それにonとwithを連鎖できます。
esql.enrich!('policy').on('a').with({ name: 'language_name' })
sortを使用した後、クエリにdesc 、 asc 、 nulls_first 、 nulls_lastを連鎖させることもできます。
Elastic::ESQL.from('sample_data').sort('@timestamp').asc.to_s
# => 'FROM sample_data | SORT @timestamp ASC'

Elastic::ESQL.from('sample_data').sort('@timestamp').desc.nulls_first.to_s
# => 'FROM sample_data | SORT @timestamp DESC NULLS FIRST'
また、ES|QL クエリを自分で記述する場合や、ライブラリにまだ追加されていない機能を使用する場合に備えて、カスタム文字列もサポートされています。customクエリの末尾の文字列を結合します。パイプ文字を追加せずに、関数に送信されるとそれらが追加されます。これらはスペース文字によってクエリの残りの部分に結合されます。
esql = Elastic::ESQL.from('sample_data')
esql.custom('| MY_VALUE = "test value"').to_s
# => 'FROM sample_data | MY_VALUE = "test value"'
custom関数を連鎖させることもできます:
esql.custom('| MY_VALUE = "test value"').custom('| ANOTHER, VALUE')
'FROM sample_data | MY_VALUE = "test value" | ANOTHER, VALUE'
Ruby クライアントで ES|QL クエリビルダーを使用する
クエリ オブジェクトを送信することで、 elasticsearch-rubyとesql.query API でクエリ ビルダーを直接使用できます。
require 'elasticsearch'
require 'elastic/esql'

client = Elasticsearch::Client.new
index = 'sample_data'

query = Elastic::ESQL.from(index)
                     .sort('@timestamp')
                     .desc
                     .where('event_duration > 5000000')
                     .limit(3)
                     .eval({ duration_ms: 'ROUND(event_duration/1000000.0, 1)' })
client.esql.query(body: { query: query })
Elasticsearch Ruby クライアントの ES|QL Helper と一緒に使用することもできます。詳細については、以下を参照してください。
require 'elasticsearch/helpers/esql_helper'

Elasticsearch::Helpers::ESQLHelper.query(client, query)
スタンドアロンツールとして
この gem は、ES|QL クエリを慣用的な方法で構築するためのスタンドアロン ツールとして設計されています。ランタイム依存関係がないため、公式の Elasticsearch Ruby クライアントと一緒に使用することも、単独で使用することもできます。
生成されたクエリは、アプリケーションが Elasticsearch API (Ruby かどうかに関係なく) と対話するあらゆる方法でesql.query API で使用できます。elastic-esqlを使用してクエリを構築すると、生成された文字列をリクエスト本文のqueryパラメータとして API に送信できます。 
以前、 Elasticsearch を一般的な Ruby ツールと併用する方法について書きました。この gem は、一般的な Ruby ツールと組み合わせて使用し、ES|QL を使用して Elasticsearch をクエリできます。
まとめ
このライブラリは現在開発中であり、最終的な API はまだ完成していません。現在はテクニカルプレビューとしてリリースされています。現在の API または一般的な使用方法に関してフィードバックがある場合は、遠慮なく新しい問題を開いてください。Ruby ES|QL クエリ ビルダーの詳細については、 READMEを参照してください。


ベクター検索フィルタリング: 関連性を保つ
Carlos Delgado — Wed, 03 Sep 2025 00:00:00 GMT
関連する結果を見つけるには、ベクター検索だけでは不十分です。検索結果を絞り込み、無関係な結果を除外するのに役立つフィルタリング基準を使用することは非常に一般的です。
ベクトル検索でのフィルタリングの仕組みを理解すると、パフォーマンスとリコールのトレードオフのバランスをとるのに役立ちます。また、フィルタリングの使用時にベクトル検索のパフォーマンスを高めるために使用される最適化のいくつかを知ることもできます。
なぜフィルタリングするのですか?
ベクトル検索は、大規模なデータセット内で関連情報を検索する方法に革命をもたらし、クエリと意味的に類似する項目を発見できるようになりました。
ただし、類似アイテムを見つけるだけでは十分ではありません。多くの場合、特定の基準や属性に基づいて検索結果を絞り込む必要があります。
電子商取引ストアで商品を検索していると想像してください。純粋なベクター検索では視覚的に類似したアイテムが表示される場合がありますが、価格帯、ブランド、在庫状況、または顧客評価でフィルタリングすることもできます。フィルタリングがなければ、類似した製品が大量に表示され、探しているものを正確に見つけることが難しくなります。
フィルタリングにより、検索結果を正確に制御できるようになり、取得された項目が意味的に一致するだけでなく、必要な要件をすべて満たすことが保証されます。これにより、より正確で効率的、そしてユーザーフレンドリーな検索エクスペリエンスが実現します。
Elasticsearch と Apache Lucene が優れているのはこの点です。さまざまなデータ タイプにわたって効果的なフィルタリングを使用することが、他のベクター データベースとの主な違いの 1 つです。
正確なベクトル検索のためのフィルタリング
正確なベクトル検索を実行するには、主に 2 つの方法があります。
dense_vector フィールドにflatインデックス タイプを使用します。これにより、 knn検索では近似検索ではなく正確な検索が使用されるようになります。
ベクトル関数を使用してスコアを計算するscript_score クエリを使用します。これはどのインデックス タイプでも使用できます。
正確なベクトル検索を実行すると、すべてのベクトルがクエリと比較されます。このシナリオでは、フィルターを通過するベクトルのみを比較する必要があるため、フィルタリングによってパフォーマンスが向上します。
いずれにしてもすべてのベクトルが考慮されるため、結果の品質には影響しません。興味のない結果を事前にフィルタリングするだけで、操作の数を減らすことができます。
これは非常に重要です。適用したフィルターによって少数のドキュメントが生成される場合、近似検索ではなく正確な検索を実行するとパフォーマンスが向上する可能性があるためです。
経験則としては、フィルターを通過するドキュメントが 10,000 個未満の場合は完全一致検索を使用します。BBQインデックスは比較が非常に高速なので、ベース インデックスが 10 万未満の場合は、完全一致検索を使用するのが合理的です。詳細については、このブログ投稿をご覧ください。
フィルターが常に非常に制限的である場合は、HNSW ベースのインデックス タイプではなくflatインデックス タイプを使用して、近似検索ではなく完全検索に重点を置いたインデックス作成を検討してください。詳細については、 index_options のプロパティを参照してください。
近似ベクトル検索のためのフィルタリング
近似ベクトル検索を実行する場合、結果の精度とパフォーマンスをトレードオフします。HNSW のようなベクトル検索データ構造は、数百万のベクトルのおおよその最近傍を効率的に検索します。計算コストのかかるベクトル比較を最小限に抑えて、最も類似したベクトルを取得することに重点を置いています。
つまり、他のフィルタリング属性はベクター データの一部ではないということです。さまざまなデータ タイプには、用語辞書、投稿リスト、ドキュメント値など、検索やフィルタリングに効率的な独自のインデックス構造があります。
これらのデータ構造はベクトル検索メカニズムとは別であるため、ベクトル検索にフィルタリングをどのように適用すればよいでしょうか?フィルターには、ベクター検索の後にフィルターを適用する (ポストフィルタリング) か、ベクター検索の前にフィルターを適用する (プレフィルタリング) という 2 つのオプションがあります。
それぞれの選択肢には長所と短所があります。詳しく見ていきましょう！
ポストフィルタリング
ポストフィルタリングは、ベクトル検索が完了した後にフィルターを適用します。これは、最も類似した上位 k 個のベクトル結果が見つかった後にフィルターが適用されることを意味します。
明らかに、結果にフィルターを適用した後、 k 件未満の結果が返される可能性があります。もちろん、ベクトル検索 (より高い k 値) からより多くの結果を取得できますが、フィルターを適用した後に k 以上の結果が得られるかどうかはわかりません。
ポストフィルタリングの利点は、ベクトル検索の実行時の動作を変更しないことです。つまり、ベクトル検索はフィルタリングを認識しません。ただし、取得される結果の最終的な数は変わります。
以下は、 knn クエリを使用したポストフィルタリングの例です。フィルタリング句が knn クエリとは別であることを確認します。
{
  "query": {
    "bool": {
      "must": {
        "knn": {
          "field": "image-vector",
          "query_vector": [54, 10, -2],
          "k": 5,
          "num_candidates": 50
        }
      },
      "filter": {
        "term": {
          "file-type": "png"
        }
      }
    }
  }
}
post-filterを使用した knn 検索では、ポストフィルタリングも利用できます。
{
  "knn": {
    "field": "image-vector",
    "query_vector": [54, 10, 2],
    "k": 5,
    "num_candidates": 50
  },
  "post_filter": {
    "term": {
      "file-type": "png"
    }
  }
}
knn 検索では明示的なポストフィルター セクションを使用する必要があることに注意してください。ポストフィルターを使用しない場合、knn 検索はポストフィルターを実行する代わりに、最近傍の結果を他のクエリまたはフィルターと組み合わせます。
プレフィルタリング
ベクトル検索の前にフィルターを適用すると、まずフィルターを満たすドキュメントが取得され、次にその情報がベクトル検索に渡されます。
Lucene はBitSetsを使用して、フィルター条件を満たすドキュメントを効率的に保存します。次に、ベクトル検索は条件を満たすドキュメントを考慮して、HNSW グラフを走査します。候補を結果に追加する前に、それが有効なドキュメントの BitSet に含まれているかどうかを確認します。
ただし、有効なドキュメントでない場合でも、候補を調査してクエリと比較する必要があります。HNSW の有効性は、グラフ内のベクトル間の接続に依存します。つまり、候補の探索を停止すると、その近傍もスキップされる可能性があることを意味します。
ガソリンスタンドに行くために車を運転するのを想像してください。ガソリンスタンドのない道路を無視すると、目的地にたどり着く可能性は低くなります。他の道はあなたにとって必要なものではないかもしれませんが、目的地まであなたを繋いでくれます。HNSW グラフ上のベクトルも同様です。
したがって、プレフィルタリングを適用すると、フィルタを適用しない場合よりもパフォーマンスが低下します。検索で訪れるすべてのベクトルに対して作業を実行し、フィルターに一致しないベクトルを破棄する必要があります。私たちは、トップ k の結果を得るために、より多くの作業とより多くの時間をかけています。
以下は、Elasticsearch クエリ DSL での事前フィルタリングの例です。フィルタリング句が knn セクションの一部になっていることを確認します。
{
  "knn": {
    "field": "image-vector",
    "query_vector": [54, 10, -2],
    "k": 5,
    "num_candidates": 50,
    "filter": {
      "term": {
        "file-type": "png"
      }
    }
  }
}
事前フィルタリングは、 knn 検索とknn クエリの両方で利用できます。
{
  "query": {
    "knn": {
      "field": "image-vector",
      "query_vector": [-5, 9, -12],
      "k": 5,
      "filter": {
        "term": {
          "file-type": "png"
        }
      }
    }
  }
}
プレフィルタリングの最適化
プレフィルタリングのパフォーマンスを確保するために適用できる最適化がいくつかあります。
フィルターの制限が厳しい場合は、完全一致検索に切り替えることができます。比較するベクトルが少ない場合は、フィルターを満たす少数のドキュメントに対して正確な検索を実行する方が高速です。
これは、 Luceneおよび Elasticsearch で自動的に適用される最適化です。
別の最適化方法では、フィルターの条件を満たさないベクトルを無視します。代わりに、このメソッドは、フィルターを通過するフィルター処理されたベクトルの近傍をチェックします。このアプローチでは、フィルタリングされたベクトルは考慮されず、現在のパスに接続されたベクトルの探索が継続されるため、比較の回数が効果的に削減されます。
このアルゴリズムは ACORN-1 であり、そのプロセスについてはこちらのブログ記事で詳しく説明されています。
ドキュメントレベルのセキュリティを使用したフィルタリング
ドキュメント レベル セキュリティ (DLS)は、ユーザー ロールが取得できるドキュメントを指定する Elasticsearch 機能です。
DLS はクエリを使用して実行されます。ロールにはインデックスに関連付けられたクエリを持たせることができ、これにより、そのロールに属するユーザーがインデックスから取得できるドキュメントを効果的に制限できます。
ロール クエリは、それに一致するドキュメントを取得するためのフィルターとして使用され、BitSet としてキャッシュされます。この BitSet は、基盤となる Lucene リーダーをラップするために使用されるため、クエリから返されたドキュメントのみがライブであると見なされます。つまり、それらのドキュメントはインデックス上に存在し、削除されていません。
knn クエリを実行するためにリーダーからライブ ドキュメントが取得されるため、ユーザーが利用できるドキュメントのみが考慮されます。プレフィルターがある場合は、DLS ドキュメントがそれに追加されます。
つまり、DLS フィルタリングは、近似ベクトル検索のプレフィルタとして機能し、同じパフォーマンスへの影響と最適化を実現します。
完全一致検索を使用した DLS には、任意のフィルターを適用する場合と同じ利点があります。つまり、DLS から取得されるドキュメントが少ないほど、完全一致検索のパフォーマンスが向上します。DLS によって返されるドキュメントの数も考慮してください。DLS ロールの制限が非常に厳しい場合は、近似検索ではなく完全検索の使用を検討してください。
ベンチマーク
Elasticsearch では、ベクトル検索フィルタリングが効率的であることを確認したいと考えています。当社には、さまざまなフィルタリングを使用して近似ベクトル検索を実行するベクトル フィルタリング用の特定のベンチマークがあり、ベクトル検索で関連する結果を可能な限り高速に取得し続けることができるようにします。
ACORN-1 が導入されたときの改善点を確認します。ベクトルの 2% のみがフィルターを通過するテストでは、クエリの待機時間は元の期間の 55% に短縮されます。
まとめ
フィルタリングは検索の不可欠な部分です。ベクトル検索でフィルタリングのパフォーマンスを確保し、トレードオフと最適化を理解することが、効率的で正確な検索の成否を左右します。
フィルタリングはベクトル検索のパフォーマンスに影響します。
フィルタリングを使用すると、正確な検索が高速になります。フィルタリングが十分に制限されている場合は、近似検索ではなく完全検索の使用を検討する必要があります。これは Elasticsearch での自動最適化です。
事前フィルタリングを使用すると近似検索が遅くなります。事前フィルタリングを使用すると、検索速度は遅くなりますが、フィルターに一致する上位 k 件の結果を取得できます。
ポストフィルタリングでは、フィルターの適用時にフィルターによってフィルタリングされる可能性があるため、必ずしも上位 k 件の結果が取得されるわけではありません。
フィルタリングをお楽しみください！


Elasticsearch のシャードとレプリカ: 実践ガイド
Piotr Przybyl — Thu, 14 Aug 2025 00:00:00 GMT
Elasticsearch は、スケーラビリティとフォールト トレランスの問題に対処する分散システムを Lucene 上に構築することで、Lucene のパワーを強化します。また、JSON ベースの REST API も公開されているため、他のシステムとの相互運用性が非常に簡単になります。
Elasticsearch のような分散システムは非常に複雑になる可能性があり、パフォーマンスと安定性に影響を与える要因が多数あります。シャードはElasticsearch の最も基本的な概念の 1 つであり、その仕組みを理解することで Elasticsearch クラスターを効果的に管理できるようになります。
この記事では、プライマリ シャードとレプリカ シャードとは何か、それらが Elasticsearch クラスターに与える影響、さまざまな需要に合わせてそれらを調整するためのツールについて説明します。
破片を理解する
Elasticsearch インデックス内のデータは膨大な量にまで増大する可能性があります。管理しやすいように、すべてのデータはインデックスに保存され、インデックスはいくつかのシャードに分割されます。各 Elasticsearch シャードは Apache Lucene インデックスであり、個々の Lucene インデックスには Elasticsearch インデックス内のドキュメントのサブセットが含まれています。このようにインデックスを分割すると、リソースの使用量を制御できます。Apache Lucene インデックスには、2,147,483,519 (2³¹ - 129) ドキュメントの制限があります。
場合によっては、再バランス調整のためにインデックスをノード間で移動する必要があります。このプロセスは時間とリソースの両方を大量に消費する可能性があるため、インデックスが大きくなりすぎないようにする必要があります。これにより、回復時間を管理しやすい状態に保つことができます。さらに、インデックスは常に結合する必要がある Lucene セグメントで構成されているため、セグメントが大きくなりすぎないことが重要です。これらの理由から、Elasticsearch はインデックス データをプライマリ シャードと呼ばれるより小さく管理しやすいチャンクに分割し、複数のマシン間でより簡単に分散できるようにします。レプリカシャードは、対応するプライマリ シャードの正確なコピーであり、その機能についてはこの記事の後半で説明します。
適切な数のシャードを持つことはパフォーマンスにとって重要です。したがって、事前に計画を立てるのが賢明です。クエリが異なるシャード間で並列に実行されると、各シャードが異なるノードに配置され、クラスター内に十分なノードがある場合に限り、単一のシャードで構成されたインデックスよりも高速に実行されます。ただし同時に、シャードはインデックス化されたデータとクラスター メタデータの両方に関して、メモリとディスク領域を消費します。シャードが多すぎると（オーバーシャーディングとも呼ばれます）、クエリ、インデックス要求、および管理操作が遅くなる可能性があるため、適切なバランスを維持することが重要です。
プライマリ シャードの数は、特定のインデックス インスタンスのインデックス作成時に定義されます。後でプライマリ シャードの数を変更する必要がある場合は、サイズ変更 API を使用できます (分割(プライマリ シャードを増やす)、縮小(プライマリ シャードを減らす)、または複製(レプリカの新しい設定でプライマリ シャードの数は同じ))。これらの操作は、Lucene セグメントをコピーし、すべてのドキュメントの完全な再インデックスを回避します。インデックスを作成するときに、インデックスの設定としてプライマリ シャードとレプリカ シャードの数を設定できます。
PUT /sensor
{
   "settings" : {
       "index" : {
           "number_of_shards" : 6,
           "number_of_replicas" : 2
       }
   }
}
(シャードまたはレプリカの数を指定しない場合、Elasticsearch 7.0 以降、両方のデフォルト値は 1 になります)。理想的なシャードの数は、インデックス内のデータ量に基づいて決定する必要があります。一般的に、最適なシャードは 10 ～ 50 GB のデータを保持し、シャードあたりのドキュメント数は 2 億未満である必要があります。たとえば、1 日に約 300 GB のアプリケーション ログが蓄積されると予想される場合、それらをホストするのに十分な数のノードがあれば、そのインデックスに約 10 個のシャードを持つことが妥当です。
シャードは、その存続期間中に、次のようなさまざまな状態を経る可能性があります。
初期化中:シャードが使用される前の初期状態。
開始済み:シャードがアクティブでリクエストを受信できる状態。
再配置中:シャードが別のノードに移動されている途中に発生する状態。これは、たとえば、ノードのディスク容量が不足している場合など、特定の状況下では必要になることがあります。
未割り当て:割り当てに失敗したシャードの状態。これが発生すると理由が提供されます。たとえば、シャードをホストしているノードがクラスター内になくなった場合(NODE_LEFT) 、または閉じたインデックスに復元された場合(EXISTING_INDEX_RESTORED) などです。
すべてのシャード、その状態、およびその他のメタデータを表示するには、次のリクエストを使用できます。
GET _cat/shards
特定のインデックスのシャードを表示するには、URL にインデックスの名前を追加します (例: sensor)。
GET _cat/shards/sensor
このコマンドは、次の例のような出力を生成します。デフォルトでは、表示される列にはインデックスの名前、名前（つまりシャードの数、プライマリ シャードかレプリカか、シャードの状態、ドキュメント数、ディスク上のサイズ、シャードが配置されているノードの IP アドレスとノード ID が表示されます。
sensor 5 p STARTED    0  283b 127.0.0.1 ziap
sensor 5 r UNASSIGNED                  
sensor 2 p STARTED    1 3.7kb 127.0.0.1 ziap
sensor 2 r UNASSIGNED                  
sensor 3 p STARTED    3 7.2kb 127.0.0.1 ziap
sensor 3 r UNASSIGNED                  
sensor 1 p STARTED    1 3.7kb 127.0.0.1 ziap
sensor 1 r UNASSIGNED                  
sensor 4 p STARTED    2 3.8kb 127.0.0.1 ziap
sensor 4 r UNASSIGNED                  
sensor 0 p STARTED    0  283b 127.0.0.1 ziap
sensor 0 r UNASSIGNED
レプリカを理解する
各シャードにはデータのコピーが 1 つ含まれますが、インデックスにはシャードの複数のコピーが含まれる場合があります。したがって、シャードには、プライマリ シャードとコピー、またはレプリカの 2 種類があります。プライマリ シャードの各レプリカは常に異なるノードに配置されるため、ノード障害が発生した場合でもデータの高可用性が確保されます。冗長性とデータ損失やダウンタイムの防止の役割に加えて、レプリカはクエリをプライマリ シャードと並行して処理できるため、検索パフォーマンスが向上し、処理速度が向上します。
プライマリ シャードとレプリカ シャードの動作にはいくつかの重要な違いがあります。どちらもクエリを処理できますが、インデックスリクエスト（つまりインデックスにデータを追加するなどの処理は、レプリカ シャードに複製される前に、まずプライマリ シャードを通過する必要があります。前述のように、プライマリ シャードが使用できなくなった場合 (たとえば、ノードの切断やハードウェア障害などにより)、レプリカが昇格してその役割を引き継ぎます。
レプリカはノード障害の際に役立ちますが、インデックス作成時にメモリ、ディスク容量、計算能力を消費するため、レプリカを多くしすぎないことが重要です。プライマリ シャードとレプリカのもう 1 つの違いは、インデックスの作成後はプライマリ シャードの数を変更できないのに対し、レプリカの数はインデックス設定を更新することでいつでも動的に変更できることです。
レプリカに関して考慮すべきもう 1 つの要素は、利用可能なノードの数です。同じノードに同じデータのコピーが 2 つあると、ノードに障害が発生した場合に保護が提供されないため、レプリカは常にプライマリ シャードとは異なるノードに配置されます。その結果、システムがn 個のレプリカをサポートするには、クラスター内に少なくともn + 1 個のノードが必要になります。たとえば、クラスター内に 2 つのノードがあり、インデックスが 6 つのレプリカで構成されている場合、割り当てられるレプリカは 1 つだけです。一方、7 つのノードを持つシステムは、1 つのプライマリ シャードと 6 つのレプリカを完全に処理できます。
シャードとレプリカの最適化
プライマリ シャードとレプリカ シャードの適切なバランスを持つインデックスが作成された後でも、インデックスの周囲のダイナミクスは時間の経過とともに変化するため、これらを監視する必要があります。たとえば、時系列データを扱う場合、最近のデータを持つインデックスは、一般的に古いデータを持つインデックスよりもアクティブになります。これらのインデックスを調整しないと、要件が大きく異なるにもかかわらず、すべて同じ量のリソースを消費することになります。
ロールオーバー インデックス API を使用すると、新しいインデックスと古いインデックスを分離できます。特定のしきい値（ディスク上のインデックスのサイズ、ドキュメントの数、または年齢）に達すると、新しいインデックスを自動的に作成するように設定できます。この API は、シャードのサイズを制御するのにも役立ちます。インデックス作成後はシャードの数を簡単に変更できないため、ロールオーバー条件が満たされない限り、シャードにはデータが蓄積され続けます。アクセス頻度が低い古いインデックスの場合、インデックスの縮小と強制マージは、メモリとディスクのフットプリントを削減する 2 つの異なる方法です。前者はインデックス内のシャードの数を減らし、後者は Lucene セグメントの数を減らし、削除されたドキュメントによって使用されていたスペースを解放します。
Elasticsearchの基盤となるプライマリシャードとレプリカシャード
Elasticsearch は、膨大な量のデータのための分散ストレージ、検索、分析プラットフォームとして高い評価を得ています。しかし、このような規模で事業を展開する場合、必然的に課題が生じます。そのため、プライマリ シャードとレプリカ シャードの仕組みを理解することは、Elasticsearch にとって非常に重要かつ基本的なことであり、プラットフォームの信頼性とパフォーマンスを最適化するのに役立ちます。
これらがどのように機能し、どのように最適化するかを知ることは、より堅牢でパフォーマンスの高い Elasticsearch クラスターを実現するために重要です。クエリ応答が遅くなったり、頻繁に停止したりする場合は、この知識がこれらの障害を克服する鍵となる可能性があります。
クラスター、ノード、シャード、シャードのサイズ設定方法、シャードの割り当てと回復の詳細については、Elasticsearch の公式ドキュメントを参照してください。
このトピックは、 Elastic コミュニティ YouTube チャンネルの入門コースとしてもご利用いただけます。
最後に、ノード、シャード、レプリカについて心配したくない場合は、 Elastic Cloud Serverless を試してみてください。この Elastic Cloud オファリングは Elastic によって完全に管理され、ワークロードに合わせて自動的に拡張されます。無料トライアルを利用すると、サーバーレス アプローチのその他の利点を理解するのに役立ちます。


Elasticsearchインデックスのフィールドを表示する方法
JD Armada — Wed, 06 Aug 2025 00:00:00 GMT
この記事では、Elasticsearch インデックスのフィールドを表示する方法について説明します。これは、データの構造を理解し、特定のフィールドを識別し、問題をトラブルシューティングするのに役立ちます。以下のトピックを取り上げます。
_mapping API を使用してフィールド情報を取得する
_search API を使用してフィールド値を表示する
サブフィールドの表示
Synthetic _source
ランタイムフィールド
1. _mapping APIを使用してフィールド情報を取得する
_mapping API を使用すると、1 つまたは複数のインデックスのマッピング定義を取得できます。これには、フィールド、そのデータ型、およびその他のプロパティに関する情報が含まれます。特定のインデックスのマッピングを取得するには、次のリクエストを使用します。
GET //_mapping
たとえば、 my_indexという名前のインデックスがある場合、次のリクエストでそのマッピングを取得できます。
GET /my_index/_mapping
応答には、フィールドとそのプロパティに関する情報を含むインデックスのマッピング定義が含まれます。
特定のフィールドのマッピングを取得することもできます。これは、マッピングが非常に大きく、特定のフィールドにのみ焦点を当てたい場合に便利です。特定のフィールドのマッピングを取得するには、次のリクエストを使用します。
GET /my_index/_mapping/field/my_field
次のリクエストのように、フィールド名をコンマで区切ることで、複数のフィールドのマッピングを取得することもできます。
GET /my_index/_mapping/field/my_field_1,my_field_2,my_field_3
2. _search APIを使用してフィールド値を表示する
Elasticsearch インデックス内のフィールドの値を表示するには、 _search API を使用できます。_search API では、返されるフィールドを制御する方法が複数用意されています。主な方法は次の 2 つです。
_source: _sourceフィールドには、取り込みパイプラインまたは前処理手順によって行われた変更も含め、インデックスが作成されたとおりの元の JSON ドキュメント本体が含まれます。ソース ドキュメントの特定のフィールドを表示するには、以下に示すようにソース フィルタリングを実装します。
fields: fieldsパラメータを使用すると、インデックス マッピングに基づいて検索を実行するときにドキュメントから特定のフィールドを取得できます。_sourceとは異なり、 fields _sourceを参照せずに、保存されたフィールド、ドキュメント値、またはランタイム フィールドから値を返すこともできます。ただし、ドキュメント値や保存された設定のない標準フィールドの場合は、 _sourceにフォールバックします。これによって、後述するように、パフォーマンスなど多くの利点が得られます。
_source  フィールドの使用
デフォルトでは、  _search API は、インデックスが作成された元の JSON ドキュメントを含む_sourceフィールドを返します。特定のフィールドを表示するには、検索リクエストの_source パラメータにフィルターを追加できます。これはソース フィルタリングと呼ばれます。
以下は、 my_indexインデックス内のドキュメントのtitle フィールドとauthorフィールドの値を返す検索要求の例です。
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "_source": ["title", "author"]
}
この例では、 _sourceパラメータは返されるフィールドを指定します。
さらに詳細な制御が必要な場合は、 _sourceオブジェクトのincludesプロパティとexcludes プロパティを使用できます。たとえば、次のクエリは、トップレベルのtitleフィールドと、 author.descriptionを除くauthorのすべてのサブフィールドを返します。
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "_source": {
     “includes”: [“title”, “author.*],
     “excludes”: [“author.description”]
  }
}
この例では、 author.* パターンを使用して、 author オブジェクトのすべての直接サブフィールドを取得します。次に、 author.description 明示的に除外して、他の著者フィールドのみが返されるようにします。ソース JSON を読み込んで解析する必要があるため、パフォーマンスは向上しませんが、ネットワーク経由で送信される応答のサイズは小さくなることに注意してください。
フィールドパラメータの使用
fieldsパラメータを使用して、検索応答で返されるフィールドをフィルタリングできます。_sourceではなくfieldsを使用すると、次のようないくつかの利点があります。
パフォーマンスの向上: fields  、 _source全体をロードせずに、保存されたフィールドまたはドキュメント値から直接値を返すことができるため、応答のペイロード サイズが小さくなります。
フォーマットされた出力:標準フィールドの場合、  fields値を取得するために_sourceにフォールバックすることがありますが、インデックス マッピングを参照して、フォーマットされた日付などの出力を適切にフォーマットし、集計や並べ替えに使用されるものと一貫性を保ちます。
ランタイム フィールドへのアクセス: fields 、元の_sourceには存在しないランタイム フィールドを返す場合があります。
さらに詳しい特典については、こちらをご覧ください。
たとえば、 my_indexインデックス内のtitleフィールドとauthorフィールドのみを返すには、次の検索リクエストを使用できます。
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "fields": ["title", "author"],
  "_source": false
}
上記のクエリでは、 _source フィールドを false に設定して、ソース ドキュメントを返さないようにします。これにより、応答のペイロード サイズを大幅に最小化できますが、これが機能するのは、フィールドtitleとauthorがkeyword フィールド タイプであり、デフォルトでdoc_values有効になっている場合のみであることに注意してください。フィールドでdoc_values有効になっておらず、 _sourceが false に設定されている場合、Elasticsearch はそれらを取得する方法がなく、応答でスキップされます。
fieldsレスポンスでは、値が 1 つしかない場合でも、常に各フィールドの値の配列が返されることに注意してください。これは、Elasticsearch に専用の配列タイプがなく、どのフィールドも複数の値を持つ可能性があるためです。Elasticsearch の配列の詳細については、ここをクリックしてください。
フィールドを取得する他の方法
_sourceまたはfieldsを使用してフィールドを取得する方法が推奨されますが、特定のユースケースでは次のような異なる方法も使用できます。
ドキュメント値フィールド: _source完全に回避したい場合は、 docvalue_fields  パラメータを使用して検索できます。Doc 値は_sourceと同じフィールド値を、並べ替えと集計に最適化されたディスク上のデータ構造で保存します。
これは_sourceで保存された値とは別であるため、 _source全体をロードせずに特定のフィールドを要求できます。これは、大きなドキュメントをクエリしているが、ドキュメント値をサポートするいくつかの小さなフィールドのみが必要な場合に便利です。docvalue_fields 使用するもう 1 つのユース ケースは、以下の例に示すように、 dateとnumericフィールドでカスタム フォーマットを使用する場合です。
これは、 doc_values有効にしたフィールド、またはkeyword 、 date 、数値型、 booleanなど、デフォルトで有効になっているフィールド タイプに対してのみ機能し、 textまたはannotated_textに対しては機能しないことに注意してください。
この例では、 docvalue_fieldsパラメータを使用して、 _sourceドキュメント全体をロードせずにtitle 、 author 、およびpublishedフィールドを取得します。
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "docvalue_fields": [
    "title",
    "author",
    {
      "field": "published",
      "format": "epoch_millis"
    }
  ],
  "_source": false
}
このクエリを実行すると、Elasticsearch は各ドキュメントの_source を参照するのではなく、ディスク上の列ストアから直接値を取得します。クエリに指定されたformatパラメータにより、 publishedフィールドはデフォルトの形式ではなくepoch_millis形式で返されます。
保存されたフィールド:特定のフィールドをマッピングに保存されているものとして明示的にマークした場合は、 stored_fieldsパラメータを使用してそれらのフィールドをフィルターできます。これは、特定のフィールドのみで簡単な応答が必要な場合や、後で検索するために意図的に保存したフィールドの場合に便利です。これは_sourceとは別に保存されるため、このメソッドは_sourceをロードする必要を回避するのにも役立ちます。
このオプションはデフォルトでオフになっており、通常は推奨されないことに注意することが重要です。代わりにソース フィルタリングを使用して、元のソース ドキュメントの特定のサブセットを返します。
以下のサンプルクエリでは、 stored_fieldsパラメータを使用して、インデックス マッピング構成が「 store”: true 」であるsummaryフィールドを取得します。
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "stored_fields": ["summary"]
}
このクエリが実行されると、Elasticsearch はこのフィールドが”store”: trueでマークされているかどうかを確認し、見つからない場合はフィールド全体をスキップします。
3. サブフィールドの表示
インデックスにサブフィールドが含まれている場合は、ドット表記を使用してfieldsパラメータでフィールド パスを指定できます。サブフィールドはネストされたフィールド タイプとは異なることに注意してください。たとえば、 address.cityという名前のサブフィールドがある場合、次のように検索応答に含めることができます。
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "fields": ["title", "author", "address.city"],
  "_source": false
}
この例では、検索応答にはtitle 、 author 、およびaddress.cityフィールドの値が含まれます。
4. 合成_ソース
 _sourceを使用する機能を維持しながらディスク領域を節約したい場合は、インデックス マッピングで合成_sourceを使用するオプションがあります。合成_sourceは、 _sourceが無効になっている場合でも、Elasticsearch が保存されたフィールドやドキュメント値などの既存のデータから_sourceを再構築できるようにする機能です。これにより、再構築がオンザフライで行われるため、クエリ時の速度が若干低下しますが、多くのストレージ スペースを節約できます。インデックス設定で以下の値を使用してこの機能を有効にします。
PUT idx
{
  "settings": {
    "index": {
      "mapping": {
        "source": {
          "mode": "synthetic"
        }
      }
    }
  }
}
合成_source を使用する利点としては、 _search API 使用時の完全なドキュメント表示、ソース フィルタリング、 _sourceが利用可能であると想定されている Kibana などの他の機能やツールとの互換性などが挙げられますが、これらはすべて、完全な_sourceドキュメントを保存する必要性を回避しながら実現できます。
5. ランタイムフィールド
ランタイム フィールドを使用すると、クエリ時またはランタイム ブロックの下のインデックス マッピングでスクリプト フィールドを定義できます。これらのフィールドにはインデックスが付けられないため、ランタイム フィールドを追加してもインデックス サイズは増加しませんが、 _sourceには表示されません。マッピングで定義されたランタイム フィールドは永続的であり、すべてのクエリで使用できますが、クエリ時に定義されたランタイム フィールドは一時的であり、その検索要求でのみ使用できます。
ランタイム フィールドを使用する主な利点は、ドキュメントを取り込んだ後にフィールドを追加できるため、マッピングの決定が簡素化されることです。ランタイム フィールドは、文字列の書式設定やスコアの計算など、元のドキュメントには存在しないがスクリプトを使用して生成された値でドキュメントを充実させるのにも最適です。
また、結果セット内のすべてのドキュメントに対してスクリプトを実行する必要があるため、ランタイム フィールドはパフォーマンスに悪影響を与える可能性があることにも注意してください。ランタイム フィールドを取得するには、 _search API のfieldsパラメータを使用することもできます。
まとめ
Elasticsearch インデックスのフィールドの表示は、インデックス マッピングまたは_sourceを使用して単純に値を取得する方法から、 fields 、 docvalue_fields 、またはランタイム フィールドを使用して制御と効率性を高めるより高度な方法まで多岐にわたります。さまざまな方法間のトレードオフを理解することが、検索エクスペリエンスを最適化する鍵となります。ペイロードを最適化したり、ドキュメントを充実させたり、合成_sourceを使用してストレージを節約したりする場合でも、Elasticsearch は必要なデータを必要な方法で見つけるための複数のツールと機能を提供します。これらの手法は、データの構造を理解し、特定のフィールドを識別し、問題のトラブルシューティングを行うのに役立ちます。


AI搭載ダッシュボード：ビジョンからKibanaへ
Jeffrey Rengifo, Tomás Murúa — Wed, 16 Jul 2025 00:00:00 GMT
Kibana Lens を使用するとダッシュボードのドラッグ アンド ドロップが非常に簡単になりますが、数十個のパネルが必要な場合はクリック回数が増えてしまいます。ダッシュボードをスケッチし、スクリーンショットを撮り、LLM にプロセス全体を任せることができたらどうでしょうか?
この記事では、それを実現します。ダッシュボードのイメージを取得し、マッピングを分析し、Kibana にまったく触れることなくダッシュボードを生成するアプリケーションを作成します。
手順:
背景とアプリケーションのワークフロー
データを準備する
LLM構成
アプリケーション機能
背景とアプリケーションのワークフロー
最初に思いついたのは、LLM に NDJSON 形式の Kibana保存オブジェクト全体を生成させて、それを Kibana にインポートさせることでした。
私たちはいくつかのモデルを試しました:
ジェミニ 2.5 プロ
GPT o3 / o4-ミニハイ / 4.1
クロード 4つのソネット
グロク3
ディープシーク（ディープシンク R1）
プロンプトについては、次のように単純なものから始めました。
You are an Elasticsearch Saved-Object generator (Kibana 9.0).
INPUTS
=====
1. PNG screenshot of a 4-panel dashboard (attached).
2. Index mapping (below) – trimmed down to only the fields present in the screenshot.
3. Example NDJSON of *one* metric visualization (below) for reference.

TASK
====
Return **only** a valid NDJSON array that recreates the dashboard exactly:
* 2 metric panels (Visits, Unique Visitors)
* 1 pie chart (Most used OS)
* 1 vertical bar chart (State Geo Dest)
* Use index pattern `kibana_sample_data_logs`.
* Preserve roughly the same layout (2×2 grid).
* Use `panelIndex` values 1-4 and random `id` strings.
* Kibana version: 9.0
いくつかのショットの例と、各視覚化の構築方法に関する詳細な説明を確認したにもかかわらず、うまくいきませんでした。この実験に興味がある方は、こちらで詳細をご覧ください。
このアプローチの結果、LLM によって生成されたファイルを Kibana にアップロードしようとしたときに、次のメッセージが表示されました。
これは、生成された JSON が無効であるか、形式が間違っていることを意味します。最も一般的な問題は、LLM が不完全な NDJSON を生成したり、パラメータを幻覚させたり、あるいは、どれだけ強制しようとしても NDJSON ではなく通常の JSON を返したりすることでした。
この記事（検索テンプレートがLLM フリースタイルよりもうまく機能した）に触発され、完全な NDJSON ファイルを生成するように要求するのではなく、テンプレートを LLM に提供し、コード内で LLM によって提供されたパラメータを使用して適切な視覚化を作成することにしました。このアプローチは期待を裏切らず、予測可能で拡張可能です。LLM ではなくコードが重い処理を実行するようになったためです。
アプリケーションのワークフローは次のようになります。
簡潔にするために一部のコードは省略しますが、完全なアプリケーションの動作コードはこのノートブックに記載されています。
要件
開発を始める前に、次のものが必要です。
Python 3.8以上
Venv Python環境
実行中のElasticsearchインスタンス、そのエンドポイント、APIキー
環境変数名 OPENAI_API_KEY に保存された OpenAI API キー:
export OPENAI_API_KEY="your-openai-api-key"
データを準備する
データについては、シンプルさを保ち、Elastic のサンプル Web ログを使用します。ここで、そのデータをクラスターにインポートする方法を学習できます。
各ドキュメントには、アプリケーションにリクエストを発行したホストの詳細と、リクエスト自体とその応答ステータスに関する情報が含まれています。以下にサンプル文書を示します。
{
    "agent": "Mozilla/5.0 (X11; Linux i686) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24",
    "bytes": 8509,
    "clientip": "70.133.115.149",
    "extension": "css",
    "geo": {
        "srcdest": "US:IT",
        "src": "US",
        "dest": "IT",
        "coordinates": {
            "lat": 38.05134111,
            "lon": -103.5106908
        }
    },
    "host": "cdn.elastic-elastic-elastic.org",
    "index": "kibana_sample_data_logs",
    "ip": "70.133.115.149",
    "machine": {
        "ram": 5368709120,
        "os": "osx"
    },
    "memory": null,
    "message": "70.133.115.149 - - [2018-08-30T23:35:31.492Z] \"GET /styles/semantic-ui.css HTTP/1.1\" 200 8509 \"-\" \"Mozilla/5.0 (X11; Linux i686) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24\"",
    "phpmemory": null,
    "referer": "http://twitter.com/error/john-phillips",
    "request": "/styles/semantic-ui.css",
    "response": 200,
    "tags": [
        "success",
        "info"
    ],
    "@timestamp": "2025-07-03T23:35:31.492Z",
    "url": "https://cdn.elastic-elastic-elastic.org/styles/semantic-ui.css",
    "utc_time": "2025-07-03T23:35:31.492Z",
    "event": {
        "dataset": "sample_web_logs"
    },
    "bytes_gauge": 8509,
    "bytes_counter": 51201128
}
ここで、先ほどロードしたインデックスkibana_sample_data_logsのマッピングを取得しましょう。
INDEX_NAME = "kibana_sample_data_logs"

es_client = Elasticsearch(
    [os.getenv("ELASTICSEARCH_URL")],
    api_key=os.getenv("ELASTICSEARCH_API_KEY"),
)

result = es_client.indices.get_mapping(index=INDEX_NAME)
index_mappings = result[list(result.keys())[0]]["mappings"]["properties"]
後で読み込むイメージと一緒にマッピングを渡します。
LLM構成
構造化出力を使用して画像を入力し、JSON オブジェクトを生成するために関数に渡す必要がある情報を含む JSON を受け取るように LLM を構成しましょう。
依存関係をインストールします。
pip install elasticsearch pydantic langchain langchain-openai -q
Elasticsearch はインデックス マッピングの取得に役立ちます。Pydantic を使用すると、Python でスキーマを定義して LLM に従うように要求することができ、 LangChain はLLM と AI ツールの呼び出しを容易にするフレームワークです。
LLM から必要な出力を定義するために、Pydantic スキーマを作成します。画像からわかる必要があるのは、グラフの種類、フィールド、視覚化タイトル、ダッシュボード タイトルです。
class Visualization(BaseModel):
    title: str = Field(description="The dashboard title")
    type: List[Literal["pie", "bar", "metric"]]
    field: str = Field(
        description="The field that this visualization use based on the provided mappings"
    )


class Dashboard(BaseModel):
    title: str = Field(description="The dashboard title")
    visualizations: List[Visualization]
画像入力には、先ほど描いたダッシュボードを送信します。
ここで、LLM モデルの呼び出しとイメージの読み込みを宣言します。この関数は、Elasticsearch インデックスのマッピングと、生成するダッシュボードの画像を受け取ります。
with_structured_outputを使用すると、Pydantic Dashboardスキーマを LLM が生成する応答オブジェクトとして使用できます。Pydanticを使用すると、検証付きのデータ モデルを定義できるため、LLM 出力が期待される構造と一致することが保証されます。
画像を base64 に変換して入力として送信するには、オンライン コンバーターを使用するか、コードで実行します。
prompt = f"""
    You are an expert in analyzing Kibana dashboards from images for the version 9.0.0 of Kibana.

    You will be given a dashboard image and an Elasticsearch index mapping.

    Below are the index mappings for the index that the dashboard is based on.
    Use this to help you understand the data and the fields that are available.

    Index Mappings:
    {index_mappings}

    Only include the fields that are relevant for each visualization, based on what is visible in the image.
    """

message = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": prompt},
            {
                "type": "image",
                "source_type": "base64",
                "data": image_base64,
                "mime_type": "image/png",
            },
        ],
    }
]


try:
    llm = init_chat_model("gpt-4.1-mini")
    llm = llm.with_structured_output(Dashboard)
    dashboard_values = llm.invoke(message)

    print("Dashboard values generated by the LLM successfully")
    print(dashboard_values)
except Exception as e:
    print(f"Failed to analyze image and match fields: {str(e)}")
LLM にはすでに Kibana ダッシュボードに関するコンテキストがあるため、プロンプトですべてを説明する必要はなく、Elasticsearch と Kibana で動作していることを忘れないようにするための詳細のみを説明します。
プロンプトを分解してみましょう:
            
              
                
                    
                      セクション 理由
                    
                    
                      あなたは、Kibana バージョン 9.0.0 の画像から Kibana ダッシュボードを分析するエキスパートです。 これを Elasticsearch と Elasticsearch バージョンで強化することで、LLM が古い/無効なパラメータを幻覚する可能性を減らします。
                    
                    
                      ダッシュボード イメージと Elasticsearch インデックス マッピングが提供されます。 LLM による誤った解釈を避けるために、この画像はダッシュボードに関するものであることを説明します。
                    
                    
                      以下は、ダッシュボードのベースとなるインデックスのインデックス マッピングです。これを使用すると、使用可能なデータとフィールドを理解するのに役立ちます。インデックス マッピング: {index_mappings} LLM が有効なフィールドを動的に選択できるようにマッピングを提供することが重要です。そうしないと、ここでのマッピングをハードコードすることになり、厳しすぎることになります。あるいは、正しいフィールド名を含むイメージに依存することになりますが、これは信頼できません。
                    
                    
                      画像に表示されている内容に基づいて、各視覚化に関連するフィールドのみを含めます。 画像に関係のないフィールドを追加しようとすることがあるため、この強化を追加する必要がありました。
                    
              
            
          これにより、表示する視覚化の配列を含むオブジェクトが返されます。
"Dashboard values generated by the LLM successfully
title=""Client, Extension, OS, and Response Keyword Analysis""visualizations="[
   "Visualization(title=""Count of Client IP",
   "type="[
      "metric"
   ],
   "field=""clientip"")",
   "Visualization(title=""Extension Keyword Distribution",
   "type="[
      "pie"
   ],
   "field=""extension.keyword"")",
   "Visualization(title=""Most Used OS",
   "type="[
      "bar"
   ],
   "field=""machine.os.keyword"")",
   "Visualization(title=""Response Keyword Distribution",
   "type="[
      "bar"
   ],
   "field=""response.keyword"")"
]
LLM応答の処理
私たちは サンプルの 2x2 パネル ダッシュボードを作成し、 Get a dashboard API を使用して JSON 形式でエクスポートしました。その後、パネルを視覚化テンプレート (円グラフ、棒グラフ、メトリック) として保存し、いくつかのパラメータを置き換えて、質問に応じて異なるフィールドを持つ新しい視覚化を作成できます。
テンプレート JSON ファイルはここで確認できます。後で置き換えたいオブジェクトの値を {variable_name} に変更したことに注意してください。
LLM が提供した情報を使用して、どのテンプレートを使用し、どの値を置き換えるかを決定できます。
fill_template_with_analysis 視覚化の JSON テンプレート、タイトル、フィールド、グリッド上の視覚化の座標など、単一のパネルのパラメータを受け取ります。
次に、テンプレートの値を置き換えて、最終的な JSON 視覚化を返します。
def fill_template_with_analysis(
    template: Dict[str, Any],
    visualization: Visualization,
    grid_data: Dict[str, Any],
):
    template_str = json.dumps(template)
    replacements = {
	 "{visualization_id}": str(uuid.uuid4()),
        "{title}": visualization.title,
        "{x}": grid_data["x"],
        "{y}": grid_data["y"],
    }

    if visualization.field:
        replacements["{field}"] = visualization.field

    for placeholder, value in replacements.items():
        template_str = template_str.replace(placeholder, str(value))

    return json.loads(template_str)
簡単にするために、LLM が作成することを決定したパネルに割り当てる静的座標があり、上の画像のように 2x2 グリッド ダッシュボードが生成されます。
# Filling templates fields
panels = []    
grid_data = [
    {"x": 0, "y": 0},
    {"x": 12, "y": 0},
    {"x": 0, "y": 12},
    {"x": 12, "y": 12},
]


i = 0

for vis in dashboard_values.visualizations:
    for vis_type in vis.type:
        template = templates.get(vis_type, templates.get("bar", {}))
        filled_panel = fill_template_with_analysis(template, vis, grid_data[i])
        panels.append(filled_panel)
        i += 1
LLM によって決定された視覚化タイプに応じて、JSON ファイル テンプレートを選択し、 fill_template_with_analysisを使用して関連情報を置き換え、後でダッシュボードを作成するために使用する配列に新しいパネルを追加します。
ダッシュボードの準備ができたら、ダッシュボードの作成 APIを使用して新しい JSON ファイルを Kibana にプッシュし、ダッシュボードを生成します。
try:
    dashboard_id = str(uuid.uuid4())

    # post request to create the dashboard endpoint
    url = f"{os.getenv('KIBANA_URL')}/api/dashboards/dashboard/{dashboard_id}"

    dashboard_config = {
        "attributes": {
            "title": dashboard_values.title,
            "description": "Generated by AI",
            "timeRestore": True,
            "panels": panels,  # Visualizations with the values generated by the LLM
            "timeFrom": "now-7d/d",
            "timeTo": "now",
        },
    }

    headers = {
        "Content-Type": "application/json",
        "kbn-xsrf": "true",
        "Authorization": f"ApiKey {os.getenv('ELASTICSEARCH_API_KEY')}",
    }

    requests.post(
        url,
        headers=headers,
        json=dashboard_config,
    )

    # Url to the generated dashboard
    dashboard_url = f"{os.getenv('KIBANA_URL')}/app/dashboards#/view/{dashboard_id}"

    print("Dashboard URL: ", dashboard_url)
    print("Dashboard ID: ", dashboard_id)

except Exception as e:
    print(f"Failed to create dashboard: {str(e)}")
スクリプトを実行してダッシュボードを生成するには、コンソールで次のコマンドを実行します。
python .py
最終結果は次のようになります。
まとめ
LLM は、テキストをコード化したり、画像をコード化したりするときに、強力な視覚機能を発揮します。ダッシュボード API を使用すると、JSON ファイルをダッシュボードに変換することも可能で、LLM といくつかのコードを使用して、画像を Kibana ダッシュボードに変換することもできます。
次のステップは、さまざまなグリッド設定、ダッシュボードのサイズ、位置を使用して、ダッシュボードのビジュアルの柔軟性を向上させることです。また、より複雑な視覚化と視覚化タイプのサポートを提供することも、このアプリケーションにとって便利な追加機能となるでしょう。


ユニークなパターンを明らかにする: Elasticsearch における重要な用語の集約ガイド
Alexander Dávila — Mon, 07 Jul 2025 00:00:00 GMT
Elasticsearch では、重要な用語の集約により、最も一般的な用語を超えて、データセット内の統計的に異常な値を見つけます。これにより、貴重な洞察や明らかでないパターンを発見することができます。重要な用語の集約により、次の 2 つの便利なパラメータを含む応答が提供されます。
bg_count (背景カウント):親データセットで見つかったドキュメントの数
doc_count:結果データセットで見つかったドキュメントの数
たとえば、携帯電話の販売データセットでは、次のようにして iPhone 16 の販売に関する重要な用語を探すことができます。
GET phone_sales_analysis/_search
{
 "size": 0,
 "query": {
   "term": {
     "phone_model": {
       "value": "iPhone 16"
     }
   }
 },
 "aggs": {
   "significant_cities": {
     "significant_terms": {
       "field": "city_region",
       "size": 1
     }
   }
 }
}
すると、応答は次のようになります。
{
 "aggregations": {
   "significant_cities": {
     "doc_count": 122,
     "bg_count": 424,
     "buckets": [
       {
         "key": "Houston",
         "doc_count": 12,
         "score": 0.1946481360617346,
         "bg_count": 14
       }

     ]
   }
 }
}
ヒューストンは、データセット全体の都市のトップ 10 にも、iPhone 16 のトップ都市にも入っていません。しかし、重要な用語の集約により、この都市では他のデータと比較して iPhone 16 が不均衡に多く購入されていることが示されました。数字を詳しく見てみましょう:
最上位レベル:doc_count: 122 —クエリは合計122の文書と一致しました
bg_count: 424 —背景セット（すべての販売文書）には424の文書が含まれています
ヒューストンのバケット:doc_count: 12 —ヒューストンは122件の検索結果のうち12件に出現します
bg_count: 14 —ヒューストンは、背景データセット内の合計424の文書のうち14に登場します。
これは、合計 424 件の購入のうち、ヒューストンで発生したのは 14 件のみであり、これは全購入の 3.3% であることを示しています。しかし、iPhone 16の販売だけに注目すると、122件中12件がヒューストンで発生しており、これは9.8%で、データセット全体の3倍にあたります。これは大きな数字です。
これを視覚的に表すと次のようになります: city_region ごとの総売上高。
ヒューストンには 14 件の売上があり、データセット内で売上高が 14 番目に多い都市であることがわかります。
ここで、フィルターを適用して iPhone 16 の販売のみを調べると、ヒューストンでの販売数が 12 件となり、この特定のモデルの販売数が最も多い都市として 2 番目に多い都市になります。
重要な用語の理解
Elasticのドキュメントによると、重要な用語の集約は次のとおりです。
「前景セットと背景セット間で測定された人気度に大きな変化があった用語を検索します。」
つまり、統計メトリックを使用して、データのサブセット (フォアグラウンド セット) 内の用語の頻度を、データの親セット (バックグラウンド セット) 内の同じ用語の頻度と比較します。この方法では、スコアリングはデータ内での用語の出現頻度ではなく、統計的有意性を反映します。
重要な用語の集約と通常の用語の集約の主な違いは次のとおりです。
重要な用語はデータのサブセットを比較しますが、用語の集約はクエリの結果のデータセットに対してのみ機能します。
用語の集約から得られる結果はデータセット内で最も一般的な用語ですが、重要な用語から得られる結果はデータセットを一意にする要素を見つけるために一般的な用語を無視します。
用語の集約と同様に、メモリではなくディスクからデータを取得する必要があるため、重要な用語はパフォーマンスに大きな影響を与える可能性があります。
実践応用（消費者行動分析）
分析のためのデータの準備
この分析のために、価格、携帯電話の仕様、購入者の人口統計、フィードバックを含む合成携帯電話販売データセットを生成しました。また、後でセマンティッククエリを実行できるように、ユーザーのフィードバックから埋め込みを生成しました。Elasticsearch ですぐに使用できる多言語 e5 小型モデルを使用しました。
このデータセットを Elasticsearch で使用するには:
Kibana の データファイルアップロード 機能を使用して、CSV ファイル ( ここ からダウンロード可能) をアップロードします。
このブログで紹介されている「埋め込み」と呼ばれるセマンティックフィールドを設定します。 multilingual-e5-small model
フィールド タイプのデフォルト ( purchase_dateとuser_feedback)を除くすべてのフィールドのキーワード) を使用してインポートを終了します。ここで提示されたクエリをそのまま実行できるようにするには、インデックス名phone_sales_analysisを必ず追加してください。
この分析の主な焦点は、 「iPhone 16 の購入者と他の人口セグメントの違いは何か」を発見し、マーケティング目的で購入者をセグメント化することです。
これはデータセットからのサンプルドキュメントです。
{
         "customer_type": "Returning",
         "user_feedback": "I have to say, quality is great for the price. The battery life is really good.",
         "upgrade_frequency": "2 years",
         "storage_capacity": "256GB",
         "occupation": "Technology & Data",
         "color": "Phantom Black",
         "gender": "Male",
         "price_paid": 899,
         "previous_brand_loyalty": "Mixed",
         "location_type": "Urban",
         "phone_model": "Samsung Galaxy S24",
         "city_region": "San Francisco Bay Area",
         "@timestamp": "2024-03-15T00:00:00.000-05:00",
         "income_bracket": "75000-100000",
         "purchase_channel": "Online",
         "feedback_sentiment": "positive",
         "education_level": "Bachelor",
         "embedding": "I have to say, quality is great for the price. The battery life is really good.",
         "customer_id": "C001",
         "purchase_date": "2024-03-15",
         "age": 34,
         "trade_in_model": "iPhone 13"
}
人口動態パターンの理解
ここでは、一般人口を対象に分析を実行し、iPhone 16 ユーザーにとって重要な用語の集計から得られた興味深い結果と比較します。
通常のパターン
通常の購入パターンを理解するために、さまざまなフィールドにわたるすべてのドキュメントのデータを集計できます。簡単にするために、携帯電話を購入した人の職業に焦点を当てて調査します。Elasticsearch へのリクエストでこれを実行できます。
GET phone_sales_analysis/_search
{
 "aggs": {
   "occupation_distribution": {
     "terms": {
       "size": 5,
       "field": "occupation"
     }
   }
 },
 "size": 0
}
これにより、データセット内の主な職業（レコード数別）は次のようになります。
iPhone 16ユーザーのパターン
iPhone 16 を購入した人々の違いを理解するために、次のように、クエリ内の人々を見つけるためのフィルターを使用して、同じフィールドで用語の集計を実行してみましょう。
GET phone_sales_analysis/_search
{
  "query": {
    "term": {
      "phone_model": "iPhone 16"
    }
  },
  "aggs": {
    "occupation_distribution": {
      "terms": {
        "size": 5,
        "field": "occupation"
      }
    }
  },
  "size": 0
}
つまり、iPhone 16ユーザーの主な職業は次のようになります。
iPhone 16 ユーザーは、他の電話モデルのユーザーと比べて、使用パターンが異なっていることがわかります。Kibana を使用して結果を簡単に視覚化してみましょう。
このグラフでは、iPhone 16 の傾向が全体の傾向と異なることがわかります。
この分析全体をスキップして、1つの重要な用語の集計を実行することで、iPhone 16ユーザーが一般ユーザーと何が違うのかを確認できます。
GET phone_sales_analysis/_search
{
  "query": {
    "term": {
      "phone_model": "iPhone 16"
    }
  },
  "aggs": {
    "occupation_distribution": {
      "significant_terms": {
        "size": 5,
        "field": "occupation"
      }
    }
  },
  "size": 0
}
つまり、次のような応答が得られます。
            
              
                
                    
                      iPhone 16の職業の価値 ドキュメント数 bg_count
                    
                    
                      職業分布（最上位レベル） 122 424
                    
                    
                      医療・ヘルスケア分野 45 57
                    
              
            
          この回答は、iPhone 16 ユーザーが珍しい (つまり重大な) 状況にあることを明確に示しています。一般人口と比較した医療・ヘルスケア分野に従事する人の数。応答内の数字が何を意味するか見てみましょう。
最上位レベル:doc_count: 122 —クエリは合計122の文書と一致しました
bg_count: 424 —背景セット（すべての販売文書）には424の文書が含まれています
医療・ヘルスケア分野:doc_count: 45 — 122件の検索結果のうち45件に「医療とヘルスケア」が出現
bg_count: 57 —背景データセット内の合計424の文書のうち57に「医療とヘルスケア」が出現します
424 人の購入者のうち 57 人が医療・ヘルスケア分野で働いており、割合は 13.44% です。しかし、iPhone 16の購入者を見てみると、122人中45人が医療・ヘルスケア分野で働いており、その割合は36.88%です。つまり、iPhone 16 ユーザーの中に医療・ヘルスケアの分野で働く人がいる可能性が 2 倍になるということです。
同じ分析を他のフィールド（年齢、場所、収入層など）に適用すると、iPhone 16 ユーザーの独自性に関する詳細な情報を見つけることができます。
消費者セグメンテーション
重要な用語の集約を使用して、製品、カテゴリ、顧客セグメント間の関係性の洞察を抽出できます。このため、調査したいカテゴリの親集計を構築します。また、重要な用語と通常の用語のサブ集計を使用して、そのカテゴリに関する興味深い洞察を見つけ、その職業のほとんどの人が使用する用語と比較します。
たとえば、いくつかの職種の人々が何を好むかを見てみましょう。
分析をより明確にするために、検索を3つの職種に限定してみましょう: [「管理・サポート」、「テクノロジー・データ」、「医療・ヘルスケア」]
集計側では、職業別の用語集計から始めます。
サブ集計を1つ追加します: 電話モデル別の用語 - 各分野のユーザーがどのモデルを購入しているかを調べます
2番目のサブ集計を追加します: 電話モデル別の重要な用語 - 各作業分野でどのモデルが特別であるかを見つけます
GET phone_sales_analysis/_search
{
 "query": {
   "terms": {
     "occupation": [
       "Administrative & Support",
       "Technology & Data",
       "Medical & Healthcare"
     ]
   }
 },
 "aggs": {
   "occupations": {
     "terms": {
       "size": 15,
       "field": "occupation"
     },
     "aggs": {
       "general_models": {
         "terms": {
           "field": "phone_model"
         }
       },
       "significant_models": {
         "significant_terms": {
           "field": "phone_model"
         }
       }
     }
   }
 },
 "size": 0
}
集計結果を詳しく見てみましょう。
職業：管理・サポート
用語の集約
重要な用語の集約
この表から、この職業の傾向と人口全体の傾向の間には大きな違いがないことが推測できます。
職業：テクノロジー＆データ
用語の集約
重要な用語の集約
合計文書数: 424
この職業に関する文書: 71
            
              
                
                    
                      携帯電話のモデル ドキュメント数 （この職業のこのモデル） bg_count （すべての文書でこのモデルを使用） すべての文書の% この職業における%
                    
                    
                      グーグルピクセル8 12 22 5.19% 16.90%
                    
                    
                      ワンプラス11 9 14 3.30% 12.68%
                    
                    
                      ワンプラス 12 プロ 3 3 0.71% 4.23%
                    
                    
                      Google Pixel 8 Pro 9 21 4.95% 12.68%
                    
                    
                      何もない電話2 5 8 1.89% 7.04%
                    
                    
                      サムスン ギャラクシー Z フォールド5 4 6 1.42% 5.63%
                    
                    
                      ワンプラス12 8 20 4.72% 11.27%
                    
              
            
          職業：医療・ヘルスケア
用語の集約
重要な用語の集約
合計文書数: 424
この職業に関する文書: 57
            
              
                
                    
                      携帯電話のモデル ドキュメント数 （この職業のこのモデル） bg_count （すべての文書でこのモデルを使用） すべての文書の% この職業における%
                    
                    
                      iPhone 16 45 122 28.77% 78.95%
                    
                    
                      iPhone 15 Pro Max 3 13 3.07% 5.26%
                    
                    
                      iPhone 15 7 40 9.43% 12.28%
                    
              
            
          このデータが何を伝えているのか見てみましょう。
医療およびヘルスケアの専門家は iPhone 16 を好み、一般的に Apple の携帯電話を使用する傾向が非常に強いです。
テクノロジーおよびデータの専門家はハイエンドの Android スマートフォンを好みますが、必ずしも Samsung ブランドを使用するわけではありません。このカテゴリーでは、iPhone にもかなりのトレンドが見られます。
管理およびサポート担当者は Samsung や Google の携帯電話を好みますが、明確な独自の傾向はありません。
重要語の集約とハイブリッド検索
ハイブリッド検索は、テキスト検索とセマンティック結果を組み合わせて、検索エクスペリエンスを向上させます。この文脈において、重要な用語の集約は、「このデータセットは他のすべての文書と比べて何が特別なのか？」という問いに答えることで、コンテキスト認識検索の結果に関する洞察を提供することができます。この機能を示すために、ユーザーが優れたパフォーマンスについて語る際に、どのモデルが過剰に表現されているかを見てみましょう。 
フィールド埋め込みよりも入力「良いパフォーマンス」に近いトップユーザーフィードバックを見つけるセマンティッククエリを構築してみましょう。
テキストフィールドuser_feedbackで同じ用語を使ったテキスト検索も使用します。
また、完全なデータセットよりもこれらの結果の中でより頻繁に見つかる電話モデルを見つけるために、重要な用語クエリを追加します。
GET phone_sales_analysis/_search
{
 "retriever": {
   "rrf": {
     "retrievers": [
       {
         "standard": {
           "query": {
             "bool": {
               "must": [
                 {
                   "match": {
                     "user_feedback": {
                       "query": "good performance",
                       "operator": "and"
                     }
                   }
                 }
               ]
             }
           }
         }
       },
       {
         "standard": {
           "query": {
             "semantic": {
               "field": "embedding",
               "query": "good performance"
             }
           }
         }
       }
     ],
    "rank_window_size": 20
   }
 },
 "aggs": {
   "Models": {
     "significant_terms": {
       "field": "phone_model"
     }
   }
 }
}
一致するドキュメントの例を見てみましょう。
返ってくる応答は次のとおりです。
{
  "took": 388,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 20,
      "relation": "eq"
    },
    "max_score": 0.016393442,
    "hits": [...]
  },
  "aggregations": {
    "Models": {
      "doc_count": 20,
      "bg_count": 424,
      "buckets": [
        {
          "key": "iPhone 15",
          "doc_count": 5,
          "score": 0.4125,
          "bg_count": 40
        }
      ]
    }
  }
}
これは、iPhone 15 が合計 424 のドキュメントのうち 40 回 (ドキュメントの 9.4%) 出現している一方で、セマンティック検索「良好なパフォーマンス」に一致した 20 のドキュメント (ドキュメントの 25%) では 5 回見つかるということを示しています。したがって、次のような結論を導き出すことができます。優れたパフォーマンスについて話しているときに、偶然よりも iPhone 15 が見つかる可能性が 2.7 倍高くなります。
まとめ
重要な用語の集約により、データセットをドキュメント全体と比較することで、データセットの固有の詳細を明らかにすることができます。これにより、発生回数を超えて、データ内の予期しない関係が明らかになる可能性があります。さまざまなユースケースで重要な用語を適用して、非常に興味深い機能を実現できます。たとえば、次のようになります。
不正行為検出に取り組む際にパターンを見つけ、盗難されたクレジットカードの一般的な取引を識別します。
ユーザーレビューからのブランド品質の洞察 - 悪いレビューの数が不釣り合いに多いブランドを検出します。
誤分類されたドキュメントの検出- 説明にそのカテゴリに一般的でない単語を使用しているカテゴリ (用語フィルター) に属するドキュメントを検出します (重要な用語の集約)。


JavaScript、Mastra、Elasticsearch を使用したエージェント型 RAG アシスタントの構築
JD Armada — Tue, 01 Jul 2025 00:00:00 GMT
このアイデアは、白熱したハイリスクなファンタジー バスケットボール リーグの最中に思いつきました。私はこう考えました。 「毎週の対戦で優位に立つのに役立つ AI エージェントを構築できるだろうか？」 もちろんです!
この記事では、 Mastraとそれと対話するための軽量 JavaScript Web アプリケーションを使用して、エージェント RAG アシスタントを構築する方法について説明します。このエージェントを Elasticsearch に接続することで、構造化されたプレイヤーデータへのアクセスとリアルタイムの統計集計の実行が可能になり、プレイヤー統計に基づいた推奨事項を提供できるようになります。GitHubリポジトリにアクセスして手順を確認してください。READMEには、アプリケーションを独自に複製して実行する方法が記載されています。 
すべてをまとめると次のようになります。
注: このブログ投稿は、「 AI SDK と Elastic を使用した AI エージェントの構築」に基づいています。AI エージェント全般とその用途についてよく知らない場合は、まずそこから始めてください。
アーキテクチャの概要
システムの中核となるのは、エージェントの推論エンジン（脳）として機能する大規模言語モデル（LLM）です。ユーザー入力を解釈し、呼び出すツールを決定し、関連する応答を生成するために必要な手順を調整します。
エージェント自体は、JavaScript エコシステムのエージェント フレームワークである Mastra によって構築されます。Mastra は、LLM をバックエンド インフラストラクチャでラップし、それを API エンドポイントとして公開し、ツール、システム プロンプト、エージェントの動作を定義するためのインターフェイスを提供します。
フロントエンドでは、 Viteを使用して、エージェントにクエリを送信してその応答を受信するためのチャット インターフェイスを提供する React Web アプリケーションを迅速に構築します。
最後に、エージェントがクエリして集計できるプレーヤーの統計情報と対戦データを保存する Elasticsearch があります。
背景
いくつかの基本的な概念を確認してみましょう。
エージェントRAGとは何ですか？
AI エージェントは他のシステムと対話し、独立して動作し、定義されたパラメータに基づいてアクションを実行できます。Agentic RAG は、AI エージェントの自律性と検索拡張生成の原理を組み合わせ、LLM が応答を生成するために呼び出すツールとコンテキストとして使用するデータを選択できるようにします。RAG の詳細については、こちらをご覧ください。
フレームワークを選択する場合、なぜ AI-SDK を超えるのでしょうか?
利用可能な AI エージェント フレームワークは数多くあり、 CrewAI 、 AutoGen 、 LangGraphなどの人気のフレームワークについてはおそらく聞いたことがあるでしょう。これらのフレームワークのほとんどは、さまざまなモデルのサポート、ツールの使用、メモリ管理など、共通の機能セットを共有しています。
こちらは、Harrison Chase (LangChain CEO) によるフレームワーク比較シートです。
私が Mastra に興味を持ったのは、フルスタック開発者がエージェントをエコシステムに簡単に統合できるように構築された JavaScript ファーストのフレームワークであるという点です。Vercel の AI-SDK もこのほとんどを実行しますが、プロジェクトにさらに複雑なエージェント ワークフローが含まれている場合は、Mastra が真価を発揮します。Mastra は AI-SDK によって設定された基本パターンを強化しており、このプロジェクトではそれらを連携して使用します。
フレームワークとモデル選択の考慮事項
これらのフレームワークは AI エージェントを迅速に構築するのに役立ちますが、考慮すべき欠点もいくつかあります。たとえば、AI エージェントや一般的な抽象化レイヤー以外のフレームワークを使用する場合、制御が少し失われます。LLM がツールを正しく使用しなかったり、望ましくないことを実行したりする場合、抽象化によってデバッグが難しくなります。それでも、私の意見では、特にこれらのフレームワークは勢いを増しており、継続的に反復されているため、このトレードオフは、構築時に得られる容易さとスピードの価値があります。
繰り返しになりますが、これらのフレームワークはモデルに依存しません。つまり、さまざまなモデルをプラグ アンド プレイできます。モデルはトレーニングに使用されたデータ セットによって異なり、その結果、モデルが提供する応答も異なることに注意してください。一部のモデルではツールの呼び出しすらサポートされていません。したがって、さまざまなモデルを切り替えてテストし、どのモデルが最適な応答を返すかを確認することは可能ですが、それぞれのシステム プロンプトを書き換える必要がある可能性が高いことに注意してください。例えば、Llama3.3を使用する場合GPT-4o よりも、必要な応答を得るために、より多くのプロンプトと具体的な指示が必要になります。
NBAファンタジーバスケットボール
ファンタジー バスケットボールでは、友達のグループでリーグを開始し (グループの競争力に応じて、友情のステータスに影響する可能性があります)、通常はいくらかのお金が賭けられます。その後、各自が 10 人のプレイヤーでチームを編成し、毎週交互に他の友達の 10 人のプレイヤーと対戦します。全体のスコアに加算されるポイントは、特定の週に各プレイヤーが対戦相手に対して行ったパフォーマンスです。
チームの選手が負傷したり、出場停止になったりした場合は、チームに追加できるフリーエージェント選手のリストが表示されます。ファンタジー スポーツでは、選べる選手の数が限られており、誰もが常に最高の選手を選ぶために奔走しているため、ここで多くの難しい思考が生まれます。
これは、どの選手を選択するかをすぐに決定しなければならない状況で特に役立つ、NBA AI アシスタントの出番です。特定の対戦相手に対するプレーヤーのパフォーマンスを手動で調べる代わりに、アシスタントがそのデータをすばやく見つけて平均を比較し、情報に基づいた推奨事項を提供します。
エージェント RAG と NBA ファンタジー バスケットボールの基本がわかったので、実際に見てみましょう。
プロジェクトの構築
途中で行き詰まったり、最初から構築したくない場合は、リポジトリを参照してください。
取り上げる内容
プロジェクトの足場作り:バックエンド (Mastra): npx create mastra@latest を使用してバックエンドをスキャフォールディングし、エージェント ロジックを定義します。
フロントエンド (Vite + React): npm create vite@latest を使用して、エージェントと対話するためのフロントエンド チャット インターフェイスを構築します。
環境変数の設定環境変数を管理するには、dotenv をインストールします。
.envを作成するファイルを開き、必要な変数を指定します。
Elasticsearchの設定Elasticsearch クラスターを起動します (ローカルまたはクラウド上)。
公式 Elasticsearch クライアントをインストールします。
環境変数にアクセスできることを確認します。
クライアントへの接続を確立します。
NBA データを Elasticsearch に一括取り込み集計を有効にするには、適切なマッピングを使用してインデックスを作成します。
プレイヤーのゲーム統計を CSV ファイルから Elasticsearch インデックスに一括取り込みます。
Elasticsearchの集計を定義する特定の対戦相手に対する過去の平均を計算するクエリ。
特定の対戦相手に対するシーズン平均を計算するクエリ。
プレーヤー比較ユーティリティファイルヘルパー関数と Elasticsearch 集計を統合します。
エージェントの構築エージェント定義とシステム プロンプトを追加します。
zod をインストールし、ツールを定義します。
CORS を処理するためのミドルウェア設定を追加します。
フロントエンドの統合AI-SDK の useChat を使用してエージェントと対話します。
適切にフォーマットされた会話を保持するための UI を作成します。
アプリケーションの実行バックエンド (Mastra サーバー) とフロントエンド (React アプリ) の両方を起動します。
サンプルクエリと使用方法。
次はエージェントのさらなるインテリジェント化セマンティック検索機能を追加して、より洞察力のある推奨を可能にします。
検索ロジックを Elasticsearch MCP (Model Context Protocol) サーバーに移動することで、動的クエリを有効にします。
要件
Node.js と npm : バックエンドとフロントエンドの両方が Node 上で実行されます。Node 18+ と npm v9+ (Node 18+ にバンドルされています) がインストールされていることを確認してください。
Elasticsearch クラスター:ローカルまたはクラウド上のアクティブな Elasticsearch クラスター。
OpenAI API キー: OpenAI 開発者ポータルのAPI キー ページで生成します。
プロジェクト構造
ステップ1：プロジェクトの足場作り
まず、nba-ai-assistant-js ディレクトリを作成し、次のコマンドを使用して内部に移動します。 
mkdir nba-ai-assistant-js && cd nba-ai-assistant-js
バックエンド:
次のコマンドで Mastra 作成ツールを使用します。 
npx create-mastra@latest
2. ターミナルにいくつかのプロンプトが表示されます。最初のプロンプトでは、プロジェクトに backend という名前を付けます。
3. 次に、Mastra ファイルを保存するためのデフォルトの構造を維持するため、 src/を入力します。
4. 次に、デフォルトの LLM プロバイダーとして OpenAI を選択します。
5. 最後に、OpenAI API キーの入力が求められます。ここでは、スキップするオプションを選択し、後で .envファイルで提供します。
フロントエンド：
ルート ディレクトリに戻り、次のコマンドを使用してVite 作成ツールを実行します。 npm create vite@latest frontend -- --template react
これにより、React 専用のテンプレートを使用して、 frontendという名前の軽量 React アプリが作成されます。
すべてがうまくいけば、プロジェクト ディレクトリ内に、Mastra コードを保持するバックエンド ディレクトリと、React アプリを含むfrontendディレクトリが表示されるはずです。
ステップ2: 環境変数の設定
機密キーを管理するために、 dotenvパッケージを使用して.envから環境変数を読み込みます。ファイル。バックエンドディレクトリに移動してdotenvをインストールします。
cd backend
npm install dotenv --save
2. バックエンド ディレクトリでは、適切な変数を入力するための example.env ファイルが提供されます。独自に作成する場合は、次の変数を必ず含めてください。
# OpenAI Configuration
OPENAI_API_KEY=your_openai_api_key_here

# Elasticsearch Configuration
ELASTIC_ENDPOINT=your_elasticsearch_endpoint_here
ELASTIC_API_KEY=your_elasticsearch_api_key_here
注意: .env .gitignoreに追加して、このファイルがバージョン管理から除外されていることを確認してください。
ステップ3: Elasticsearchの設定
まず、アクティブな Elasticsearch クラスターが必要です。次の 2 つのオプションがあります。
オプションA: Elasticsearch Cloudを使用するElastic Cloudにサインアップ
新しいデプロイメントを作成する
エンドポイント URL と API キー（エンコード済み）を取得します
オプションB: Elasticsearchをローカルで実行するElasticsearchをローカルにインストールして実行する
エンドポイントとして http://localhost:9200 を使用します
APIキーを生成する
バックエンドに Elasticsearch クライアントをインストールする:
まず、バックエンド ディレクトリに公式 Elasticsearch クライアントをインストールします。
npm install @elastic/elasticsearch
2. 次に、再利用可能な関数を保持するディレクトリ lib を作成し、そこに移動します。
mkdir lib && cd lib
3. 内部にelasticClient.jsという新しいファイルを作成します。このファイルは Elasticsearch クライアントを初期化し、プロジェクト全体で使用できるように公開します。
4. ECMAScript モジュール (ESM) を使用しているため、 __dirname and __ファイル名は使用できません。環境変数が.envから正しく読み込まれていることを確認するにはバックエンド フォルダー内のファイルで、ファイルの先頭に次の設定を追加します。
import { config } from 'dotenv';
import { fileURLToPath } from 'url';
import { dirname, join } from 'path';
import { Client } from '@elastic/elasticsearch';

// Grab current directory and load .env from backend folder
const __filename = fileURLToPath(import.meta.url);
const __dirname = dirname(__filename);
const envPath = join(__dirname, '../.env');

// Load environment variables from the correct path
config({ path: envPath });
5. 次に、環境変数を使用して Elasticsearch クライアントを初期化し、接続を確認します。
//Elastic client Initialization, make sure environment variables are being loaded in correctly
const config= {
    node: `${process.env.ELASTIC_ENDPOINT}`,
    auth: {
        apiKey: `${process.env.ELASTIC_API_KEY}`,
    },
};

export const elasticClient = new Client(config);

//Check if the client is connected
async function checkConnection() { 
    try {
        const info = await elasticClient.info();
        console.log('Elasticsearch is connected:', info);
    } catch (error) {
        console.error('Elasticsearch connection error:', error);
    }
}

checkConnection();
これで、このクライアント インスタンスを、Elasticsearch クラスターと対話する必要がある任意のファイルにインポートできます。
ステップ4: NBAデータをElasticsearchに一括取り込み
データセット:
このプロジェクトでは、リポジトリのbackend/dataディレクトリにあるデータセットを参照します。当社の NBA アシスタントは、このデータを知識ベースとして使用し、統計的な比較を実行し、推奨事項を生成します。
sample_player_game_stats.csv - サンプルプレーヤーのゲーム統計 (例: NBA キャリア全体におけるプレーヤーごとのゲームごとのポイント、リバウンド、スティールなど)。このデータセットを使用して集計を実行します。(注: これはデモ用に事前に生成された模擬データであり、公式 NBA ソースから取得されたものではありません。)
playerAndTeamInfo.js - 通常は API 呼び出しによって提供されるプレーヤーとチームのメタデータを置き換え、エージェントがプレーヤーとチームの名前を ID に一致できるようにします。サンプル データを使用しているため、外部 API から取得する際のオーバーヘッドを避け、エージェントが参照できるいくつかの値をハードコードしました。
実装：
backend/libディレクトリで、 playerDataIngestion.jsという名前のファイルを作成します。
インポートを設定し、CSV ファイル パスを解決し、解析を設定します。ここでも、ESM を使用しているため、サンプル CSV へのパスを解決するには__dirnameを再構築する必要があります。また、 Node.jsの組み込みモジュールfsとreadlineを使用して、指定された CSV ファイルを行ごとに解析します。
import fs from 'fs';
import readline from 'readline';
import path from 'path';
import { fileURLToPath } from 'url';
import { elasticClient } from './elasticClient.js';

const indexName = 'sample-nba-player-data'; //Replace with your preferred index name

//Since we are using ES modules __dirname and __filename don't exist, so this is a workaround that allows us to use the absolute file path for our sample data.
const __filename = fileURLToPath(import.meta.url);
const __dirname = path.dirname(__filename);
const filePath = path.resolve(__dirname, '../data/sample_nba_data.csv');
これにより、一括取り込み手順で CSV を効率的に読み取って解析できるようになります。
3. 適切なマッピングを使用してインデックスを作成します。Elasticsearch は動的マッピングを使用してフィールド タイプを自動的に推測できますが、ここでは各統計が数値フィールドとして扱われるように明示的に指定します。これらのフィールドは後で集計に使用するため、これは重要です。また、ポイントやリバウンドなどの統計情報には、小数値が含まれるようにするために、タイプfloat を使用します。最後に、Elasticsearch が認識されないフィールドを動的にマッピングしないように、マッピング プロパティdynamic: 'strict'を追加します。
// Function to create an index with mappings
async function createIndex() {
    try {
        // Check if the index already exists
        const exists = await elasticClient.indices.exists({ index: indexName });

        if (exists) {
            console.log(`Index "${indexName}" already exists, deleting it now.`);
            await elasticClient.indices.delete({ index: indexName });
            console.log(`Deleted index "${indexName}".`);
        }
        // Create the index with mappings
        const response = await elasticClient.indices.create({
            index: indexName,
            body: {
                mappings: {
                    dynamic: 'strict', // Prevent dynamic mapping
                    properties: {
                        game_id: { type: 'integer' },
                        game_date: { type: 'date' },
                        player_id: { type: 'integer' },
                        player_full_name: { type: 'text' },
                        player_team_id: { type: 'integer' },
                        player_team_name: { type: 'text' },
                        home_team: { type: 'boolean' },
                        opponent_team_id: { type: 'integer' },
                        opponent_team_name: { type: 'text' },
                        points: { type: 'float' },
                        rebounds: { type: 'float' },
                        assists: { type: 'float' },
                        steals: { type: 'float' },
                        blocks: { type: 'float' },
                        fg_percentage: { type: 'float' },
                        minutes_played: { type: 'float' },
                    },
                },
            },
        });

        console.log('Index created:', response);
        return true;
    } catch (error) {
        console.error('Error creating index:', error);
        return false;
    }
}
4. CSV データを Elasticsearch インデックスに一括で取り込む機能を追加します。コード ブロック内では、ヘッダー行をスキップします。次に、各行項目をコンマで分割し、ドキュメント オブジェクトにプッシュします。このステップでは、それらをクリーンアップし、適切なタイプであることを確認します。次に、ドキュメントをインデックス情報とともに bulkBody 配列にプッシュします。これは、Elasticsearch への一括取り込みのペイロードとして機能します。
async function bulkIngestCsv(filePath) {
    const readStream = fs.createReadStream(filePath);
    const rl = readline.createInterface({
        input: readStream,
        crlfDelay: Infinity,
    });

    const bulkBody = [];
    let lineNum = 0;

    //Skip the header line
    let headerLine = true;
    for await (const line of rl) {
        if (headerLine) {
            headerLine = false;
            continue;
        }
        lineNum++;

        // Split the line by comma and remove whitespace
        const [
            game_id,
            game_date,
            player_id,
            player_full_name,
            player_team_id,
            player_team_name,
            home_team,
            opponent_team_id,
            opponent_team_name,
            points,
            rebounds,
            assists,
            steals,
            blocks,
            fg_percentage,
            minutes_played,
        ] = line.split(',');

        // Create a document object
        const document = {
            game_id: parseInt(game_id),
            game_date: game_date.trim(),
            player_id: parseInt(player_id),
            player_full_name: player_full_name.trim(),
            player_team_id: parseInt(player_team_id),
            player_team_name: player_team_name.trim(),
            home_team: home_team.trim() === 'True', // Converts True/False into a boolean
            opponent_team_id: parseInt(opponent_team_id),
            opponent_team_name: opponent_team_name.trim(),
            points: parseFloat(points),
            rebounds: parseFloat(rebounds),
            assists: parseFloat(assists),
            steals: parseFloat(steals),
            blocks: parseFloat(blocks),
            fg_percentage: parseFloat(fg_percentage),
            minutes_played: parseFloat(minutes_played),
        };

        // Prepare the bulk operation format
        bulkBody.push({ index: { _index: indexName } });
        bulkBody.push(document);
    }

    console.log(`Parsed ${lineNum} lines from CSV`);
5.次に、 elasticClient.bulk()で Elasticsearch のBulk API を使用して、1 回のリクエストで複数のドキュメントを取り込むことができます。以下のエラー処理は、取り込みに失敗したドキュメントの数と、取り込みに成功したドキュメントの数を示すように構成されています。
try {
        // Perform the bulk request
        const response = await elasticClient.bulk({ body: bulkBody });

        if (response.errors) {
            console.log('Bulk Ingestion had some hiccups:');

            // Count successful vs failed operations
            let successCount = 0;
            let errorCount = 0;
            const errorDetails = [];

            response.items.forEach((item, index) => {
                const operation = item.index || item.create || item.update || item.delete;
                if (operation.error) {
                    errorCount++;
                    errorDetails.push({
                        document: index + 1,
                        error: operation.error,
                    });
                } else {
                    successCount++;
                }
            });

            console.log(`Successfully indexed: ${successCount} documents`);
            console.log(`Failed to index: ${errorCount} documents, here are the details`, errorDetails);

        } else {
            console.log(`Bulk Ingestion fully successful!`);
        }

    } catch (error) {
        console.error('Error performing bulk ingestion:', error);
    }
}
6. 以下のmain()関数を実行して、 createIndex()関数とbulkIngestCsv()関数を順番に実行します。
// Run this function
async function main() {
    const result = await createIndex();
    if (!result) {
        console.error('Index setup failed. Aborting.');
        return;
    }

    await bulkIngestCsv(filePath);
    console.log('Bulk ingestion completed!');
}

main();
一括取り込みが成功したことを示すコンソール ログが表示された場合は、Elasticsearch インデックスを簡単にチェックして、ドキュメントが実際に正常に取り込まれたかどうかを確認します。
ステップ5: Elasticsearchの集計の定義と統合
これらは、プレイヤーの統計を相互に比較するために AI エージェントのツールを定義するときに使用される主な関数になります。
1. backend/libディレクトリに移動し、 elasticAggs.jsというファイルを作成します。
2. 特定の対戦相手に対するプレイヤーの過去の平均を計算するには、以下のクエリを追加します。このクエリでは、2 つの条件（1 つはplayer_idに一致し、もう 1 つはopponent_team_idに一致する）を持つboolフィルターを使用して、関連するゲームのみを取得します。ドキュメントを返す必要はなく、集計のみを対象とするため、 size:0を設定します。aggsブロックでは、 points, rebounds, assists, steals, blocksやfg_percentageなどのフィールドに対して複数のメトリック集計を並行して実行し、平均値を計算します。LLM は計算で成功するか失敗するかのどちらかですが、このプロセスは Elasticsearch にオフロードされ、NBA AI アシスタントが正確なデータにアクセスできるようになります。
export async function getHistoricalAveragesAgainstOpponent(player_id, opponent_team_id) {
    try {
        //Query for Historical Averages
        const historicalQuery = await elasticClient.search({
            index: 'sample-nba-player-data', 
            size: 0,
            query: {
                bool: {
                    must: [
                        {
                            term: {
                                player_id: {
                                    value: player_id,
                                },
                            },
                        },
                        {
                            term: {
                                opponent_team_id: {
                                    value: opponent_team_id,
                                },
                            },
                        },
                    ],
                },
            },
            aggs: {
                avg_points: { avg: { field: 'points' } },
                avg_rebounds: { avg: { field: 'rebounds' } },
                avg_assists: { avg: { field: 'assists' } },
                avg_steals: { avg: { field: 'steals' } },
                avg_blocks: { avg: { field: 'blocks' } },
             avg_fg_percentage: { avg: { field: 'fg_percentage' } },
            },
        });

        return {
            points: historicalQuery.aggregations.avg_points.value || 0,
            rebounds: historicalQuery.aggregations.avg_rebounds.value || 0,
            assists: historicalQuery.aggregations.avg_assists.value || 0,
            steals: historicalQuery.aggregations.avg_steals.value || 0,
            blocks: historicalQuery.aggregations.avg_blocks.value || 0,
            fgPercentage: historicalQuery.aggregations.avg_fg_percentage.value || 0,
        };
    } catch (error) {
        console.error('Query error from getHistoricalAveragesAgainstOpponent function:', error);
        return { error: 'Queries failed in getting historical averages against opponent.' };
    }
}
3. 特定の対戦相手に対するプレーヤーのシーズン平均を計算するには、履歴クエリとほぼ同じクエリを使用します。このクエリの唯一の違いは、 boolフィルターにgame_dateの追加条件があることです。フィールドgame_dateは、現在の NBA シーズンの範囲内に収まる必要があります。この場合、範囲は2024-10-01から2025-06-30の間になります。以下の追加条件により、後続の集計で今シーズンのゲームのみが分離されることが保証されます。
        {
                            range: {
                    //Range for this season, change to match current season
                                game_date: {
                                    gte: '2024-10-01',
                                    lte: '2025-06-30',
                                },
                            },
ステップ6: プレーヤー比較ユーティリティ
コードをモジュール化して保守しやすい状態に保つために、メタデータ ヘルパー関数と Elasticsearch 集計を統合するユーティリティ ファイルを作成します。これにより、エージェントが使用するメイン ツールが強化されます。詳細は後述します。
1. backend/libディレクトリに新しいファイルcomparePlayers.jsを作成します。
2. 以下の関数を追加して、メタデータ ヘルパーと Elasticsearch 集約ロジックを、エージェントが使用するメイン ツールを強化する単一の関数に統合します。
import { playersByName } from '../data/playerAndTeamInfo.js';
import { teamsByName } from '../data/playerAndTeamInfo.js';
import { upcomingMatchups } from '../data/playerAndTeamInfo.js';
import { getHistoricalAveragesAgainstOpponent } from './elasticAggs.js';
import { getSeasonAveragesAgainstOpponent } from './elasticAggs.js';

//Simple helper functions to simulate API calls for player and team metadata. These reference the hardcoded values from playerAndTeamInfo.js in the data directory
export function getPlayerInfo(playerFullName) {
    return playersByName[playerFullName];
}

export function getTeamID(teamFullName) {
    return teamsByName[teamFullName];
}

export function getUpcomingMatchups(teamId) {
    return upcomingMatchups[teamId];
}

//Main function used by the 'playerComparisonTool' agent tool
export async function comparePlayersForNextMatchup(player1Name, player2Name) {
    //Get Player Info
    const player1Info = getPlayerInfo(player1Name);
    const player2Info = getPlayerInfo(player2Name);

    //Get upcoming matchups
    const player1NextGame = getUpcomingMatchups(player1Info.team_id)[0];
    const player2NextGame = getUpcomingMatchups(player2Info.team_id)[0];

    //Get season and historical averages against next opponent for player 1
    const player1SeasonAverages = await getSeasonAveragesAgainstOpponent(
        player1Info.player_id,
        player1NextGame.opponent_team_id
    );
    const player1HistoricalAverages = await getHistoricalAveragesAgainstOpponent(
        player1Info.player_id,
        player1NextGame.opponent_team_id
    );

    //Get season and historical averages against next opponent for player 2
    const player2SeasonAverages = await getSeasonAveragesAgainstOpponent(
        player2Info.player_id,
        player2NextGame.opponent_team_id
    );
    const player2HistoricalAverages = await getHistoricalAveragesAgainstOpponent(
        player2Info.player_id,
        player2NextGame.opponent_team_id
    );

    const player1 = {
        name: player1Name,
        playerId: player1Info.player_id,
        teamId: player1Info.team_id,
        nextOpponent: {
            teamId: player1NextGame.opponent_team_id,
            teamName: player1NextGame.opponent_team_name,
            home: player1NextGame.home,
        },
        stats: {
            seasonAverages: player1SeasonAverages,
            historicalAverages: player1HistoricalAverages,
        },
    };

    const player2 = {
        name: player2Name,
        playerId: player2Info.player_id,
        teamId: player2Info.team_id,
        nextOpponent: {
            teamId: player2NextGame.opponent_team_id,
            teamName: player2NextGame.opponent_team_name,
            home: player2NextGame.home,
        },
        stats: {
            seasonAverages: player2SeasonAverages,
            historicalAverages: player2HistoricalAverages,
        },
    };

    return [player1, player2];
}
ステップ7: エージェントの構築
フロントエンドとバックエンドのスキャフォールディングを作成し、NBA ゲームデータを取り込み、Elasticsearch への接続を確立したので、すべてのピースをまとめてエージェントを構築し始めることができます。
エージェントの定義
1. backend/src/mastra/agentsディレクトリ内のindex.tsファイルに移動し、エージェント定義を追加します。次のようなフィールドを指定できます。
名前:フロントエンドで呼び出されたときに参照として使用されるエージェントの名前を指定します。
指示/システム プロンプト:システム プロンプトは、対話中に従うべき初期コンテキストとルールを LLM に提供します。これは、ユーザーがチャット ボックスを通じて送信するプロンプトに似ていますが、こちらはユーザー入力の前に表示されます。繰り返しになりますが、これは選択したモデルに応じて変わります。
モデル:使用する LLM (Mastra は OpenAI、Anthropic、ローカル モデルなどをサポートしています)。
ツール:エージェントが呼び出すことができるツール関数のリスト。
メモリ: (オプション) エージェントに会話履歴などを記憶させたい場合。簡単にするために、Mastra は永続メモリをサポートしていますが、永続メモリなしで開始できます。
import { openai } from '@ai-sdk/openai';
import { Agent } from '@mastra/core/agent';
import { playerComparisonTool } from '../tools';

export const basketballAgent = new Agent({
    name: 'Basketball Agent',
    instructions: `
      You are a NBA Basketball expert.
      Your primary function is to compare two NBA players and recommend which one is the better fantasy pickup.

      Only compare players from the following list:
      - LeBron James
      - Stephen Curry
      - Jayson Tatum
      - Jaylen Brown
      - Nikola Jokic
      - Luka Doncic
      - Kyrie Irving
      - Anthony Davis
      - Kawhi Leonard
      - Russell Westbrook

      Input Handling Rules:
      - If the user asks about a player that is not on this list, respond with the list of available players for comparison.
      - If the user only inputs one player, ask the user to add another player from the list provided.
      - If the user inputs a player with the wrong spelling or capitalizations, infer from the list of available players provided.
      - IMPORTANT: If the user asks a question or asks you to generate a response about anything outside of basketball or the scope of this project, DO NOT answer and affirm you can only talk about basketball.

      Tool Usage:
      - Extract and standardize player names to match the list exactly.
      - Use the playerComparisonTool, passing both names as strings.
      - The tool will return an object with game information, stats, and analysis.

      Format your response using Markdown syntax. Use:

        Example output format:

       
        #### Next Game Info
        - ***LeBron James** vs Warriors, May 24 (Home)  
        - ***Stephen Curry** vs Lakers, May 24 (Away)


        #### Stats Comparison  
        \`\`\`  
        Stat                  LeBron James (vs Warriors)    Stephen Curry (vs Lakers)  
        --------------------  -----------------------------  ----------------------------  
        Historical Points     28.3                          30.3  
        Historical Assists    6.7                           8.7  
        Season Points         28.8                          23.3  
        Season Assists        6.2                           4.7  
        \`\`\`

        #### Fantasy Recommendation  
        Explain which player is the better fantasy pickup and why.
      
    `,
    model: openai('gpt-4o'),
    tools: { playerComparisonTool },
});

ツールの定義
backend/src/mastra/toolsディレクトリ内のindex.tsファイルに移動します。
次のコマンドを使用して Zod をインストールします。
npm install zod
3. ツール定義を追加します。このツールを呼び出すときにエージェントが使用するメイン関数として、 comparePlayers.jsファイル内の関数をインポートすることに注意してください。Mastra のcreateTool()関数を使用して、 playerComparisonToolを登録します。フィールドには次のものが含まれます。
id: これは、エージェントがツールの機能を理解するのに役立つ自然言語による説明です。
input schema: ツールの入力の形状を定義するために、Mastra は TypeScript スキーマ検証ライブラリであるZodスキーマを使用します。Zod は、エージェントが正しく構造化された入力を入力したことを確認し、入力構造が一致しない場合はツールが実行されないようにすることで役立ちます。
description: これは、エージェントがいつ電話をかけてツールを使用するかを理解するのに役立つ自然言語による説明です。
execute: ツールが呼び出されたときに実行されるロジック。私たちの場合、インポートしたヘルパー関数を使用してパフォーマンス統計を返します。
import { comparePlayersForNextMatchup } from '../../../lib/comparePlayers.js'
import { createTool } from "@mastra/core/tools";
import { z } from "zod";

export const playerComparisonTool = createTool({
    id: "Compare two NBA players",
    inputSchema: z.object({
        player1:z.string(),
        player2:z.string()
    }),
    description: "Use this tool to compare two players given in the user prompt.",
    execute: async ({ context: { player1, player2 } }) => {
        return await comparePlayersForNextMatchup(player1, player2);
      },
})
CORSを処理するミドルウェアの追加
CORS を処理するために、Mastra サーバーにミドルウェアを追加します。人生には避けられないことが 3 つあると言われています。死、税金、そして Web 開発者にとっては CORS です。簡単に言うと、クロスオリジン リソース共有は、フロントエンドが別のドメインまたはポートで実行されているバックエンドにリクエストを送信するのをブロックするブラウザのセキュリティ機能です。バックエンドとフロントエンドの両方をローカルホストで実行しているにもかかわらず、それらは異なるポートを使用するため、CORS ポリシーがトリガーされます。バックエンドがフロントエンドからのリクエストを許可するように、 Mastra ドキュメントで指定されているミドルウェアを追加する必要があります。
1. backend/src/mastraディレクトリ内のindex.tsファイルに移動し、CORS の設定を追加します。
origin: ['http://localhost:5173']このアドレス（Vite のデフォルト アドレス）からのリクエストのみを許可します
allowMethods: ["GET", "POST"]許可される HTTP メソッド。ほとんどの場合、POST が使用されます。
allowHeaders: ["Content-Type", "Authorization", "x-mastra-client-type, "x-highlight-request", "traceparent"],これらはリクエストで使用できるカスタムヘッダーを決定します
import { Mastra } from '@mastra/core/mastra';
import { basketballAgent } from './agents';

console.log('Starting Mastra server...');

export const mastra = new Mastra({
  agents: { basketballAgent },
  server:{
    timeout: 10 * 60 * 1000, // 10 minutes
    cors: {
      origin: ['http://localhost:5173'],
      allowMethods: ["GET", "POST"],
      allowHeaders: [
        "Content-Type",
        "Authorization",
        "x-mastra-client-type",
        "x-highlight-request",
        "traceparent",
      ],
      exposeHeaders: ["Content-Length", "X-Requested-With"],
      credentials: false,
    },
  },

});

console.log('Mastra server configured.'); // Log after server configuration
ステップ8: フロントエンドの統合
この React コンポーネントは、 @ai-sdk/reactのuseChat()フックを使用して Mastra AI エージェントに接続するシンプルなチャット インターフェースを提供します。このフックを使用して、トークンの使用状況やツールの呼び出しを表示したり、会話をレンダリングしたりします。上記のシステム プロンプトでは、エージェントに応答をマークダウンで出力するように要求しているため、 react-markdownを使用して応答を適切にフォーマットします。
1.フロントエンド ディレクトリにいる間に、useChat() フックを使用するために @ai-sdk/react パッケージをインストールします。
npm install @ai-sdk/react
2. 同じディレクトリで、React Markdown をインストールして、エージェントが生成する応答を適切にフォーマットできるようにします。
npm install react-markdown
3. useChat()を実装します。このフックは、フロントエンドと AI エージェントのバックエンド間のやり取りを管理します。メッセージの状態、ユーザー入力、ステータスを処理し、監視の目的でライフサイクル フックを提供します。渡すオプションは次のとおりです。
api: これは、Mastra AI エージェントのエンドポイントを定義します。デフォルトではポート 4111 に設定されており、ストリーミング応答をサポートするルートも追加する必要があります。
onToolCall: これは、エージェントがツールを呼び出すたびに実行されます。エージェントがどのツールを呼び出しているかを追跡するために使用します。
onFinish: エージェントが完全な応答を完了した後に実行されます。ストリーミングを有効にしても、 onFinish各チャンクの後ではなく、完全なメッセージが受信された後に実行されます。ここでは、トークンの使用状況を追跡するためにこれを使用しています。これは、LLM コストを監視して最適化するときに役立ちます。
4. 最後に、 frontend/componentsディレクトリのChatUI.jsxコンポーネントに移動して、会話を行うための UI を作成します。次に、エージェントからの応答を適切にフォーマットするために、応答をReactMarkdownコンポーネントでラップします。
import React, { useState } from 'react';
import { useChat } from '@ai-sdk/react';
import ReactMarkdown from 'react-markdown';

export default function ChatUI() {
    const [totalTokenUsage, setTotalTokenUsage] = useState(0);
    const [promptTokenUsage, setPromptTokenUsage] = useState(0);
    const [completionTokenUsage, setCompletionTokenUsage] = useState(0);
    const [toolsCalled, setToolsCalled] = useState([]);

    const { messages, input, handleInputChange, handleSubmit, status } = useChat({
        api: 'http://localhost:4111/api/agents/basketballAgent/stream', //Replace with your own endpoint for your agent
        id: 'my-chat-session',

        //Optional parameter to check agent tool calls
        onToolCall: ({ toolCall }) => {
            setToolsCalled((prev) => [...prev, toolCall.toolName]);
        },

        //Optional parameter to check token usages
        onFinish: (message, { usage }) => {
            setTotalTokenUsage((prev) => prev + usage.totalTokens);
            setPromptTokenUsage((prev) => prev + usage.promptTokens);
            setCompletionTokenUsage((prev) => prev + usage.completionTokens);
        },

        //Optional parameter for error handling
        onError: (error) => {
            console.error('Agent error:', error);
        },
    });

    return (
        
            
                What's My Agent Doing?

                
                    Tools Called:
                    
                        {toolsCalled.map((tool, idx) => (
                            {tool}
                        ))}
                        {toolsCalled.length === 0 && No tools called yet.}
                    

                    
                        Prompt Token Usage: {promptTokenUsage}
                        Completion Token Usage: {completionTokenUsage}
                        Total Token Usage: {totalTokenUsage}
                    
                
            

            Conversation:
            
                {messages.map((msg) => (
                    
                        {msg.role === 'assistant' ? 'Basketbot' : 'You'}:
                        {msg.content}
                    
                ))}
            

            
                
                
            
        
    );
}
ステップ9: アプリケーションの実行
おめでとうございます！これでアプリケーションを実行する準備が整いました。バックエンドとフロントエンドの両方を起動するには、次の手順に従います。
ターミナル ウィンドウで、ルート ディレクトリからバックエンド ディレクトリに移動し、Mastra サーバーを起動します。
cd backend

npm run dev
2. 別のターミナル ウィンドウで、ルート ディレクトリからフロントエンド ディレクトリに移動し、React アプリを起動します。
cd frontend

npm run dev
3. ブラウザで次の場所に移動します。
http://localhost:5173
チャット インターフェースが表示されるはずです。次のサンプルプロンプトを試してみてください。
「レブロン・ジェームズとステフィン・カリーを比較」
「ジェイソン・テイタムとルカ・ドンチッチのどちらを選ぶべきでしょうか？」
次はエージェントのさらなるインテリジェント化
アシスタントをよりエージェント的にし、推奨事項をより洞察力のあるものにするために、次のイテレーションでいくつかの重要なアップグレードを追加する予定です。
NBAニュースのセマンティック検索
プレーヤーのパフォーマンスに影響を与える要因は数多くありますが、その多くは生の統計には表示されません。負傷報告、ラインナップの変更、さらには試合後の分析などは、ニュース記事でしか見つけることができません。この追加のコンテキストを捉えるために、エージェントが関連する NBA の記事を取得し、その内容を推奨事項に組み込めるよう、セマンティック検索機能を追加します。
Elasticsearch MCPサーバーによる動的検索
MCP (モデル コンテキスト プロトコル) は、エージェントがデータ ソースに接続する方法の標準として急速に普及しつつあります。検索ロジックを Elasticsearch MCP サーバーに移行します。これにより、エージェントは、私たちが提供する定義済みの検索機能に頼るのではなく、動的にクエリを構築できるようになります。これにより、より自然な言語ワークフローを使用できるようになり、すべての検索クエリを手動で記述する必要性が軽減されます。Elasticsearch MCP サーバーとエコシステムの現在の状態の詳細については、こちらをご覧ください。
これらの変更はすでに進行中ですので、お楽しみに!
まとめ
このブログでは、JavaScript、Mastra、Elasticsearch を使用して、ファンタジー バスケットボール チームに合わせた推奨事項を提供するエージェント RAG アシスタントを構築しました。取り上げた内容:
エージェント RAG の基礎と、AI エージェントの自律性と RAG を効果的に使用するツールを組み合わせることで、より繊細で動的なエージェントを実現できる方法について説明します。
Elasticsearchとそのデータ ストレージ機能および強力なネイティブ集約により、それが LLM のナレッジ ベースとして優れたパートナーとなる理由について説明します。
Mastraフレームワークと、それが JavaScript エコシステムの開発者にとってこれらのエージェントの構築をどのように簡素化するかについて説明します。
あなたがバスケットボールの熱狂的なファンであっても、AI エージェントの構築方法を検討している方であっても、あるいは私のようにその両方であっても、このブログが、始めるための基礎を提供できれば幸いです。完全なリポジトリはGitHubで入手できます。自由にクローンして改良してください。さあ、ファンタジーリーグで優勝しましょう!

機能	エージェント2エージェント（A2A）	モデルコンテキストプロトコル（MCP）	ハイブリッド（A2A + MCP）
主な目標	マルチエージェント調整: 専門エージェントのチームが、複雑な複数ステップのワークフローで連携できるようにします。	単一エージェントの拡張: 外部ツール、リソース、およびデータを使用して、単一の LLM/エージェントの機能を拡張します。	組み合わせた強み: A2A がチームのワークフローを処理し、MCP が各チームメンバーにツールを提供します。
ニュースルームチームの例	ワークフローチェーン: ニュースチーフ → レポーター → リサーチャー → 編集者 → 発行者。これは調整レイヤーです。	個々のエージェントのツール: スタイルガイドサーバーとテンプレートサーバーにアクセスする Reporter Agent (MCP 経由)。これはツールアクセスレイヤーです。	完全なシステム: 記者は編集者 (A2A) と連携し、画像ライブラリ MCP サーバーを使用して記事のグラフィックを検索します。
いつどれを使うか	真のコラボレーション、反復、改良、または専門知識を複数のエージェントに分割する必要がある場合。	1 つのエージェントが複数のツールやデータソースにアクセスする必要がある場合、または独自のシステムとの標準化された統合が必要な場合。	マルチエージェントシステムの組織的利点と、MCP の標準化およびエコシステムの利点が必要な場合。
コアベネフィット	自律性とスケーリング: エージェントは独立して決定を下すことができ、システムは特殊な機能の水平スケーリングを可能にします。	シンプルさと標準化: 集中化された推論によりデバッグと保守が容易になり、リソースに対する汎用的なインターフェースが提供されます。	関心事の明確な分離: システムを理解しやすくなります: A2A = チームワーク、MCP = ツールアクセス。

分野	タイプ	例	目的/注意事項	ベクトル/インデックス
id	キーワード	アマ・ダブラム	安定したスラッグ/ID	—
名前	テキスト + キーワードサブフィールド	["アマ・ダブラム"、"アマダブラム"]	エイリアス/多言語名; 正確なフィルターのためのnames.raw	—
ラトロン	ジオポイント	{"lat":27.8617,"lon":86.8614}	緯度/経度の組み合わせによるピーク GPS 座標 (オプション)	—
高度m	整数	6812	標高（オプション）	—
テキスト埋め込み	dense_vector	768	このピークのブレンドプロトタイプ（プロンプトとオプションで1～3枚の参照画像）	index:true、類似度:"cosine"、index_options: {type:"hnsw", m:16, ef_construction:128}

クエリ	文書の内容	学年	説明
「最高のピザレシピ」	「本格的なイタリアンピザ生地のレシピ（写真付きステップバイステップ）」	4.0	関連性が高く、まさにユーザーが探しているもの
「最高のピザレシピ」	「イタリアのピザの歴史」	1.0	ピザに関する内容ですが、レシピではありません
「最高のピザレシピ」	「初心者向け15分でできる簡単ピザレシピ」	3.0	関連性があり、良い結果ですが、「最高」のレシピとは言えないかもしれません。
「最高のピザレシピ」	「車のメンテナンスガイド」	0.0	全く関係ありません。クエリとは全く関係ありません。

クイド	ドシド	学年	クエリ
q1-イタリア料理レシピ	パスタの基本レシピ	0.0	イタリアのレシピ
q1-イタリア料理レシピ	レシピ_ピザ_マルゲリータ	3.333333	イタリアのレシピ
q1-イタリア料理レシピ	レシピ_リゾット_ガイド	10.0	イタリアのレシピ
q1-イタリア料理レシピ	レシピ_フレンチ_クロワッサン	0.0	イタリアのレシピ
q1-イタリア料理レシピ	レシピ_スペイン_パエリア	0.0	イタリアのレシピ
q1-イタリア料理レシピ	ギリシャ風ムサカのレシピ	1.875	イタリアのレシピ

メトリック	説明
精度と再現率	実際の出力と予想される出力の間でアラート ID を一致させて、検出精度を測定します。
類似性	BERTScore を使用して、応答テキストの意味的類似性を比較します。
事実性	重要な IOC (侵害の兆候) は存在しますか?MITRE 戦術 (攻撃の業界分類) は正しく反映されていますか?
攻撃チェーンの一貫性	発見された数を比較して、攻撃の過剰報告または過少報告がないか確認します。

セクション	理由
あなたは、Kibana バージョン 9.0.0 の画像から Kibana ダッシュボードを分析するエキスパートです。	これを Elasticsearch と Elasticsearch バージョンで強化することで、LLM が古い/無効なパラメータを幻覚する可能性を減らします。
ダッシュボードイメージと Elasticsearch インデックスマッピングが提供されます。	LLM による誤った解釈を避けるために、この画像はダッシュボードに関するものであることを説明します。
以下は、ダッシュボードのベースとなるインデックスのインデックスマッピングです。これを使用すると、使用可能なデータとフィールドを理解するのに役立ちます。インデックスマッピング: {index_mappings}	LLM が有効なフィールドを動的に選択できるようにマッピングを提供することが重要です。そうしないと、ここでのマッピングをハードコードすることになり、厳しすぎることになります。あるいは、正しいフィールド名を含むイメージに依存することになりますが、これは信頼できません。
画像に表示されている内容に基づいて、各視覚化に関連するフィールドのみを含めます。	画像に関係のないフィールドを追加しようとすることがあるため、この強化を追加する必要がありました。

iPhone 16の職業の価値	ドキュメント数	bg_count
職業分布（最上位レベル）	122	424
医療・ヘルスケア分野	45	57

携帯電話のモデル	ドキュメント数（この職業のこのモデル）	bg_count （すべての文書でこのモデルを使用）	すべての文書の%	この職業における%
グーグルピクセル8	12	22	5.19%	16.90%
ワンプラス11	9	14	3.30%	12.68%
ワンプラス 12 プロ	3	3	0.71%	4.23%
Google Pixel 8 Pro	9	21	4.95%	12.68%
何もない電話2	5	8	1.89%	7.04%
サムスンギャラクシー Z フォールド5	4	6	1.42%	5.63%
ワンプラス12	8	20	4.72%	11.27%