Möchten Sie eine Elastic-Zertifizierung erwerben? Erfahren Sie, wann die nächste Elasticsearch-Engineer-Schulung stattfindet! Sie können jetzt eine kostenlose Cloud-Testversion starten oder Elastic auf Ihrem lokalen Rechner testen.
Apache Lucene hat im Jahr 2024 eine rege Aktivität erfahren, mit zahlreichen Veröffentlichungen, darunter das erste große Update seit drei Jahren, das mit spannenden Verbesserungen und neuen Funktionen aufwartet. Lassen Sie uns einige der wichtigsten Highlights näher betrachten.
Lucene und die Gemeinschaft
Ein Projekt ist nur so stark wie die Gemeinschaft, die es unterstützt. Trotz seiner mehr als 20-jährigen Entwicklungsgeschichte ist das Lucene-Projekt nach wie vor lebendig und floriert dank seiner leidenschaftlichen und aktiven Mitwirkenden.
Im Jahr 2024 verzeichnete das Lucene-Projekt mehr als 2.000 Commits von 98 verschiedenen Mitwirkenden und fast 800 Pull Requests. Die Zahl der Mitwirkenden wächst stetig, neue Committer und PMC-Mitglieder schließen sich dem Projekt an und tragen zu seinem Erfolg bei.
Lucene 10
Im Jahr 2024 erschien die erste größere Version seit fast 3 Jahren – Lucene 10 – mit mehr als 2.000 Commits von 185 verschiedenen Mitwirkenden. Während das Entwicklungsmodell von Lucene es ermöglicht, viele Verbesserungen und Funktionen in kleineren Releases bereitzustellen, bietet ein Major-Release die Möglichkeit, größere Funktionen und Modernisierungen einzuführen. Beispielsweise benötigt Lucene 10 mindestens Java 21. Durch die Erhöhung der minimalen Java-Version wird sichergestellt, dass Lucene weiterhin von den Verbesserungen moderner Java-Versionen profitieren kann.
Der Hauptfokus von Lucene 10 liegt auf der besseren Ausnutzung der Hardware, auf der es läuft. Werfen wir einen kurzen Blick auf einige der wichtigsten Punkte:
- Mehr Suchparallelität – während die Suchausführung bereits segmentübergreifend parallelisiert ist, gehen wir jetzt noch einen Schritt weiter und parallelisieren innerhalb der Segmente. Dadurch wird die Darstellung auf der Festplatte von der Ausführungsleistung entkoppelt, sodass selbst einzelne Segmente von der Anzahl der Kerne auf modernen Systemen profitieren können.
- Verbesserte I/O-Parallelität – das einfache synchrone I/O-Modell, das Lucene verwendet, wurde um eine Vorabrufphase erweitert. Dadurch wird dem Betriebssystem mitgeteilt, dass ein Bereich einer Indexdatei in naher Zukunft benötigt wird, ohne den aufrufenden Thread zu blockieren.
- Bessere CPU- und Speichereffizienz durch Sparse-Indexierung – Lucene 10 führt die Unterstützung für Sparse-Indexierung ein, die in anderen Datenspeichern auch als Primärschlüssel-Indexierung oder Zonenindexierung bezeichnet wird.
Weitere Informationen zu Lucene 10 finden Sie im entsprechenden Artikel zu Lucene 10.
Lucene Forschung und Innovation
Im Jahr 2024 erlebte Lucene einen Aufschwung in Forschung und Innovation, insbesondere in den Bereichen maschinelles Lernen Integration, Vektorsuche und Optimierung für große Datensätze, mit Referenzen aus 10 separaten Forschungsarbeiten und Veröffentlichungen. Zu den wichtigsten Forschungsbereichen und Entwicklungen gehören:
- Vektorsuche und Einbettungsunterstützung – Lucene bietet eine leistungsstarke und skalierbare Lösung für die vektorbasierte Suche und ermöglicht so die semantische Suche in großem Umfang. Durch die Nutzung der robusten Indexierungs- und Suchinfrastruktur von Lucene können Anwender die Vorteile der traditionellen Textsuche mit den fortschrittlichen Möglichkeiten der modernen Vektorsuche kombinieren. Dadurch wird Lucene zu einer umfassenden Lösung für eine breite Palette von Such- und Informationsabrufaufgaben.
- Hybride Suchmodelle – Die Forschung hat sich auch mit hybriden Suchtechniken befasst, bei denen Lucene die traditionelle schlüsselwortbasierte Suche mit der modernen vektorbasierten Suche kombiniert. Durch die Verknüpfung von termbasierten Indizes mit dichten Vektordarstellungen kann Lucene genauere und kontextbezogenere Suchergebnisse liefern und so die Lücke zwischen der Präzision traditioneller Suchmaschinen und der Flexibilität der semantischen Suche schließen.
Die laufenden Forschungsarbeiten im Jahr 2024 demonstrieren die Anpassungsfähigkeit von Lucene an die sich wandelnden Bedürfnisse moderner Suchtechnologien, insbesondere im Kontext von KI, semantischer Suche und Big-Data-Anwendungen. Das Projekt entwickelt sich stetig weiter und ist zu einer leistungsstarken, flexiblen und effizienten Plattform für sowohl traditionelle als auch innovative Suchanwendungen geworden.
Lucene-Veröffentlichungen 2024
Auch wenn es kein exaktes Abbild darstellt, unterstreicht die schiere Anzahl der Veröffentlichungen doch das anhaltende Engagement und die Energie der Community. Diese Aktualisierungen beinhalten wesentliche Verbesserungen der Vektorsuchleistung und -effizienz, Unterstützung für madvise, Optimierungen für die Dekodierung von Postinglisten, weitere Geschwindigkeitsverbesserungen durch SIMD und vieles mehr.
Hier ist die vollständige Liste der Veröffentlichungen:
- 10.1.0 (2024-12-20)
- 9.12.1 (13.12.2024)
- 10.0.0 (14.10.2024)
- 9.12.0 (2024-09-28)
- 8.11.4 (2024-09-24)
- 9.11.1 (2024-06-27)
- 9.11.0 (2024-06-06)
- 9.10.0 (2024-02-20)
- 8.11.3 (2024-02-08)
- 9.9.2 (2024-01-29)
Weitere Informationen und Versionshinweise finden Sie auf der Lucene Core- Seite. Zusätzlich gibt es entsprechende PyLucene- Versionen.
Zusammenfassung
Mit zunehmender Reife floriert Lucene dank seiner engagierten und dynamischen Community weiterhin. Wie wir gesehen haben, war 2024 ein unglaublich produktives Jahr, und wir freuen uns nun auf die spannenden Entwicklungen, die 2025 bringen wird.




