Elasticsearchで2つのインデックスを結合する方法

Elasticsearch では、2 つのインデックスを結合することは、従来の SQL リレーショナルデータベースほど簡単ではありません。ただし、Elasticsearch が提供する特定のテクニックと機能を使用すれば、同様の結果を得ることは可能です。

歴史的に、多くの人々は、異なるインデックスを結合するメカニズムとしてnestedフィールドタイプを使用してきました。しかし、クエリのコストが高く、Kibana、特にLensの視覚化のサポートが不完全であるため、制限がありました。

この記事では、Elasticsearch で 2 つのインデックスを結合するプロセスを詳しく説明し、次のアプローチに焦点を当てます。

termsクエリの使用
取り込みパイプラインでenrichプロセッサを使用する
Logstash elasticsearchフィルタープラグイン
ES|QL ENRICH
ES|QL LOOKUP JOIN

用語クエリの使用

用語クエリは、Elasticsearch で 2 つのインデックスを結合する最も効果的な方法の 1 つです。このクエリは、特定のフィールドに 1 つ以上の正確な用語を含むドキュメントを取得するために使用されます。ここでは、これを使用して 2 つのインデックスを結合する方法について説明します。

まず、最初のインデックスから必要なデータを取得する必要があります。これは、単純な GET リクエストを使用して_source属性から値を取得することで実行できます。

最初のインデックスからデータを取得したら、それを使用して 2 番目のインデックスをクエリできます。これは、一致させるフィールドと値を指定するtermsクエリを使用して行われます。

次に例を示します。

この例では、 field_in_second_index 、最初のインデックスの値と一致させる 2 番目のインデックスのフィールドです。value1_from_first_indexとvalue2_from_first_index 、2 番目のインデックスで一致させる最初のインデックスの値です。

用語クエリは、用語ルックアップと呼ばれる手法を使用して、上記の 2 つの手順を 1 回のショットで実行するためのサポートも提供します。Elasticsearch は、別のインデックスから一致する値を透過的に取得します。たとえば、プレーヤーのリストを含むチームインデックスがある場合:

以下に示すように、team1 でプレイしているすべての人々の人インデックスをクエリすることができます。

上記の例では、Elasticsearchはチームインデックス内のID team1 を持つドキュメントからプレーヤー名を透過的に取得します（つまり、たとえば、「john」、「bill」、「michael」など) を検索し、名前フィールドにこれらの値のいずれかを含む人物インデックス内のすべてのドキュメントを検索します。

興味がある方のために、同等の SQL クエリは次のようになります。

エンリッチプロセッサの使用

enrichプロセッサは、Elasticsearch 内の 2 つのインデックスを結合するために使用できるもう 1 つの強力なツールです。このプロセッサは、事前に定義されたエンリッチインデックスからデータを追加することで、受信ドキュメントのデータをエンリッチします。

エンリッチプロセッサを使用して 2 つのインデックスを結合する方法は次のとおりです。

1. まず、エンリッチポリシーを作成する必要があります。このポリシーは、エンリッチメントに使用するインデックス、一致させるフィールド、および受信ドキュメントのエンリッチメントに使用するフィールドを定義します。

次に例を示します。

2. ポリシーが作成されたら、それを実行して、新しく作成されたポリシーからエンリッチインデックスを作成する必要があります。

これにより、エンリッチメント中に使用される新しい非表示のエンリッチメントインデックスが構築されます。ソースインデックスのサイズによっては、この操作に時間がかかる場合があります。次のステップに進む前に、エンリッチポリシーが完全に構築されていることを確認してください。

3. エンリッチポリシーを構築したら、取り込みパイプラインでエンリッチプロセッサを使用して、受信ドキュメントのデータをエンリッチできます。

この例では、 field_in_second_index 、最初のインデックスのmatch_fieldと一致する必要がある 2 番目のインデックスのフィールドです。enriched_field 、最初のインデックスのenrich_fieldsから拡張されたデータを格納する、2 番目のインデックスの新しいフィールドです。

このアプローチの欠点の 1 つは、 first_indexのデータが変更された場合、エンリッチポリシーを再実行する必要があることです。エンリッチされたインデックスは、その構築元となったソースインデックスから自動的に更新または同期されることはありません。ただし、 first_indexが比較的安定している場合は、このアプローチはうまく機能します。

Logstash elasticsearch フィルタープラグイン

Logstash を使用する場合、上記のenrichプロセッサに似た別のオプションとして、 elasticsearchフィルタープラグインを使用して、指定されたクエリに基づいてイベントに関連フィールドを追加する方法があります。Logstash パイプラインの構成は、 my-pipeline.confなどの.confファイルに保存されます。

パイプラインがelasticsearch入力プラグインを使用して Elasticsearch からログを取得し、選択範囲を絞り込むクエリを実行しているとします。

特定のインデックスからの情報を使用してこれらのメッセージを拡充したい場合は、 filterセクションのelasticsearchフィルタープラグインを使用してログを拡充できます。

上記のコードは、インデックスindex_nameから、 typeが開始され、操作フィールドが指定されたopidと一致するドキュメントを検索し、 @timestampフィールドの値をstartedという名前の新しいフィールドにコピーします。

強化されたドキュメントは適切な出力ソース（この場合はelasticsearch出力プラグインを使用して Elasticsearch ）に送信されます。

すでに Logstash を使用している場合、このオプションは、エンリッチメントロジックを 1 か所に統合し、新しいイベントが発生したときに処理するのに役立ちます。ただし、そうでない場合は、ソリューションが複雑になり、実行および保守する必要がある別のコンポーネントが追加されることになります。

ES|QL エンリッチ

バージョン 8.14 で GA となったES|QLは、Elasticsearch でサポートされるパイプクエリ言語であり、データのフィルタリング、変換、分析を可能にします。ENRICH 処理コマンドを使用すると、エンリッチポリシーを使用して既存のインデックスからデータを追加できます。

元のエンリッチプロセッサの例と同じポリシーmy_enrich_policyを使用すると、ES|QL の例は次のようになります。

一致フィールドとエンリッチメントフィールド (この例ではそれぞれfield_in_first_indexとfield_to_enrichをオーバーライドすることもできます。

明らかな制限は、最初にエンリッチポリシーを指定する必要があることですが、ES|QL では、必要に応じてフィールドを微調整できる柔軟性が提供されます。

ES|QL ルックアップ結合

Elasticsearch 8.18 では、Elasticsearch でインデックスを結合する新しい方法、つまりLOOKUP JOINコマンドが導入されました。このコマンドは、結合の右側にある新しいルックアップインデックスモードを使用して、SQL スタイルの LEFT OUTER JOIN として動作します。