ルーシーンラップド 2024

2024 年は Apache Lucene にとってまたしても重要な年となりました。このブログでは、主なハイライトを紹介します。

Elastic認定の取得をご希望ですか?次回のElasticsearch Engineerトレーニングがいつ開催されるかご確認ください。無料のクラウドトライアルを開始するか、ローカルマシンでElasticを試すことができます。

Apache Lucene は 2024 年に大幅な活動が行われ、3 年ぶりのメジャー アップデートを含む多数のリリースが行われ、魅力的な改善点や新機能が満載されています。いくつかの重要なハイライトを見てみましょう。

Luceneとコミュニティ

プロジェクトの強さは、それをサポートするコミュニティの強さによって決まります。20 年以上の開発期間を経ても、Lucene プロジェクトは、熱心で活動的な貢献者のおかげで、活気に満ち、成長し続けています。

2024 年、Lucene プロジェクトでは 98 人の貢献者から 2,000 件を超えるコミットと、約 800 件のプル リクエストが行われました。新しいコミッターや PMC メンバーがプロジェクトに参加し、プロジェクトの成功に貢献しているため、貢献者の数は増え続けています。

ルーシーン10

2024 年には、ほぼ 3 年ぶりのメジャー リリースである Lucene 10 がリリースされ、185 人の貢献者から 2,000 件を超えるコミットが行われました。Lucene が採用している開発モデルでは、マイナー リリースで多くの改善や機能を提供できますが、メジャー リリースではより大きな機能や最新化を導入する機会が与えられます。たとえば、Lucene 10 には少なくとも Java 21 が必要です。最小 Java バージョンを上げると、Lucene は最新の Java が提供する改善点を引き続き活用できるようになります。

Lucene 10 の主な焦点は、それが実行されるハードウェアをより有効に活用することです。主なハイライトのいくつかを簡単に見てみましょう。

  • 検索の並列化の強化- 検索実行は既にセグメント間で並列化されていますが、セグメント内での並列化がさらに進みました。これにより、ディスク上の表現と実行パフォーマンスが分離され、単一のセグメントでも最新システムのコア数のメリットを享受できるようになります。
  • より優れた I/O 並列処理- Lucene が使用する単純な同期 I/O モデルが、プリフェッチ ステージによって強化されました。これにより、呼び出しスレッドをブロックせずに、インデックス ファイルの領域が近い将来必要になることを OS に通知します。
  • スパース インデックスによる CPU とストレージの効率向上- Lucene 10 では、スパース インデックス (他のデータ ストアでは主キー インデックスまたはゾーン インデックスと呼ばれることもあります) のサポートが導入されています。

Lucene 10 の詳細については、Lucene 10 に関する専用記事をご覧ください。

ルーシーンの研究と革新

2024 年、Lucene では、特に機械学習の統合、ベクトル検索、大規模データセットの最適化の分野で研究とイノベーションが急増し、10 件の個別の研究論文と出版物が参照されています。主要な研究分野と開発には次のようなものがあります。

  • ベクター検索と埋め込みのサポート- Lucene は、ベクターベースの検索のための強力でスケーラブルなソリューションを提供し、大規模なセマンティック検索を可能にします。Lucene の堅牢なインデックス作成および検索インフラストラクチャを活用することで、ユーザーは従来のテキスト検索の長所と最新のベクター検索の高度な機能を組み合わせることができ、Lucene は幅広い検索および情報取得タスクに対応する包括的なソリューションになります。
  • ハイブリッド検索モデル- 研究では、従来のキーワードベースの検索と最新のベクターベースの検索を組み合わせた、ハイブリッド検索技術についても詳しく調べられています。Lucene は、用語ベースのインデックスと高密度のベクトル表現を統合することで、従来の検索エンジンの精度とセマンティック検索の柔軟性の間のギャップを埋め、より正確で文脈的に関連性の高い検索結果を提供できます。

2024 年に進行中の研究活動は、特に AI、セマンティック検索、ビッグデータ アプリケーションの分野における、最新の検索テクノロジーの進化するニーズに対する Lucene の適応性を実証しています。このプロジェクトは、従来の検索ユースケースと最先端の検索ユースケースの両方に対応する強力で柔軟性が高く効率的なプラットフォームとして成長を続けています。

2024年のLuceneリリース

正確な反映ではありませんが、リリースの膨大な量は、コミュニティの継続的な献身とエネルギーを浮き彫りにしています。これらのアップデートには、ベクトル検索のパフォーマンスと効率の大幅な強化、madvise のサポート、ポスティング リストのデコードの最適化、SIMD によるさらなる速度向上などが含まれています。

リリースの全リストは次のとおりです。

詳細情報とリリース ノートについては、 Lucene Coreページをご覧ください。さらに、同等のPyLuceneリリースもあります。

まとめ

Lucene は成熟するにつれ、熱心で活気のあるコミュニティのおかげで繁栄し続けています。これまで見てきたように、2024 年は信じられないほど生産性の高い年であり、私たちは 2025 年にもたらされる刺激的な発展に期待を寄せています。

関連記事

最先端の検索体験を構築する準備はできましたか?

十分に高度な検索は 1 人の努力だけでは実現できません。Elasticsearch は、データ サイエンティスト、ML オペレーター、エンジニアなど、あなたと同じように検索に情熱を傾ける多くの人々によって支えられています。ぜひつながり、協力して、希望する結果が得られる魔法の検索エクスペリエンスを構築しましょう。

はじめましょう