Elasticsearch GPU: Elasticにおけるベクトル検索のGPUアクセラレーション

ベクトル検索からパワフルなREST APIまで、Elasticsearchは最も広範な検索ツールキットを開発者に提供します。Elasticsearch Labsリポジトリのサンプルノートで新しいことに挑戦してみましょう。また、無料トライアルを始めるか、ローカルでElasticsearchを実行することもできます。

Elastic Engineering 組織では、ここしばらくベクトルデータベースのパフォーマンスの最適化に取り組んできました。私たちの使命は、Lucene と Elasticsearch を最高のベクターデータベースにすることです。ハードウェアアクセラレーションのCPU SIMD 命令により、新しいベクトルデータ圧縮技術革新 ( Better Binary Quantization、別名 BBQ ) が導入され、さらに BBQ に対するアルゴリズムアプローチを更新して期待を上回るメリットがもたらされ、フィルター処理された HNSW も高速化されました。要点は、私たちがより速く、より良く、より効率的(より?)なものを構築しているということです。開発者が RAG-gedy の問題を解決するためのベクターデータベースです。

効率を一切犠牲にしないという当社の使命の一環として、NVIDIA GPU という興味深いコンピューターチップを使った高速化の可能性を模索しています。このチップについて聞いたことがあるかもしれません (本当に聞いたことありませんか?)。

パフォーマンスを重視する場合、指数関数的に多くのデータをインデックスする方法、そこから洞察を取得する方法、ML モデルが関係する場合にそれを実行する方法など、検討すべき問題領域がいくつかあります。GPU があれば、利用可能なメリットをすべて引き出すことができるはずです。

この記事では、Elasticsearch での GPU アクセラレーションによるベクトル検索について探りながら、NVIDIA ベクトル検索チームとのコラボレーションについて詳しく説明します。この作業により、開発者が実際の Elasticsearch 搭載アプリで GPU と CPU を組み合わせて使用できるユースケースが実現します。楽しい時間です！

Elasticsearch GPU

Elasticsearch エンジニアリングチームが、ベクトル検索アルゴリズムのバインディングを公開する、開発者向けのオープンソース cuVS Java API エクスペリエンスの構築に協力していることをお知らせします。この作業は、パナマFFIでのこれまでの経験を活用しています。Elasticsearch と Apache Lucene は、インデックス作成中にグラフを構築するために NVIDIA cuVS API を使用します。さて、話が先に進んでしまいましたが、少し戻ってみましょう。

このコラボレーションの中心となるのは、オープンソースの C++ ライブラリであるNVIDIA cuVSです。より高いスループット、より低いレイテンシ、より速いインデックス構築時間を実現することで、ベクター検索に GPU アクセラレーションをもたらすことを目指しています。しかし、Elasticsearch と Apache Lucene は Java で書かれています。これはどのように動作するのでしょうか?

lucene-cuvsと Elastic-NVIDIA-SearchScale のコラボレーションを導入して、これを Lucene エコシステムに導入し、Elasticsearch での GPU アクセラレーションによるベクトル検索を探索します。最近の NVIDIA cuVS 25.02 リリースでは、cuVS 用の Java API が追加されました。新しい API は実験段階であり、今後も進化していきますが、現在は使用可能です。「Java からネイティブ関数の呼び出しは遅いのではないだろうか?」という疑問が生じるかもしれません。もうない！バインディングには新しいPanama FFI (Foreign Function Interface) を使用しており、Java からネイティブダウンコールへのオーバーヘッドが最小限に抑えられています。

私たちはしばらくの間、Elasticsearch と Lucene で Panama FFIを使用してきました。すごいですね！でも…いつも「でも」ってあるじゃないですか。FFI には、Java バージョン間での可用性に関する課題があります。私たちは、cuVS API を Java 21 にコンパイルし、その実装を Java 22 をターゲットとしたマルチリリース jar 内にカプセル化することで、この問題を解決しました。これにより、cuVS Java を Lucene および Elasticsearch で直接使用できるようになります。

さて、cuVS Java API が手に入ったので、他に何が必要でしょうか?

CPUの2つのアルゴリズムの物語

Elasticsearch は、スケーラブルな近似 KNN 検索のためのHNSW アルゴリズムをサポートしています。ただし、GPU を最大限に活用するために、GPU が提供する高度な並列処理向けに特別に設計された別のアルゴリズム、 CAGRA [ C UDA A NN GRA ph ]を使用します。

CAGRA のサポートを追加する方法に入る前に、Elasticsearch と Lucene が「コーデック形式」を通じてインデックスデータにアクセスする方法を見てみましょう。これは、

ディスク上の表現、
データの読み書きのためのインターフェース
Lucene のセグメントベースのアーキテクチャを処理するための仕組み。

私たちは、cuVS Java API を内部的に使用して GPU 上でインデックス作成と検索を行う新しい KNN (k 近傍法)ベクトル形式を実装しています。ここから、Elasticsearch のマッピングを通じてこのコーデックタイプをインデックス内のフィールドタイプに「plumb」します。その結果、バックアップインデックスが CAGRA グラフを使用しているか、HNSW グラフを使用しているかに関係なく、既存の KNN クエリは引き続き機能します。もちろん、ここでは多くの詳細について触れていませんが、それについては今後のブログで取り上げる予定です。以下は、GPU アクセラレーション Elasticsearch の高レベルアーキテクチャです。

この新しいコーデック形式のデフォルトは CAGRA です。ただし、CPU 上での検索のために CAGRA グラフを HNSW グラフに変換することもサポートされています。

GPUでのインデックス作成と検索：いくつかの「コア」な決定を下す

Elasticsearch Serverless のステートレスアーキテクチャではインデックス作成と検索が分離されており、責任の区分が明確になっています。私たちは、これらの独立した責任をそれぞれ果たすために最適なハードウェアプロファイルを選択します。

ユーザーは主に次の 2 つの展開戦略を検討すると予想されます。

GPU でのインデックス作成と検索: インデックス作成中に CAGRA グラフを構築し、検索中に使用します。これは、非常に低遅延の検索が必要な場合に最適です。
GPU でインデックスを作成し、CPU で検索する: インデックス作成中に、CAGRA グラフを構築し、それを HNSW グラフに変換します。HNSW グラフはインデックスに保存され、後で CPU で検索に使用できます。

この柔軟性により、さまざまな展開モデルが提供され、コストとパフォーマンスのトレードオフが可能になります。たとえば、インデックス作成サービスでは、検索には低電力の CPU を使用しながら、GPU を使用してグラフをタイムリーに効率的に構築およびマージできます。