Generierung von Filtern und Facetten mit ML in Elasticsearch

Elasticsearch ist vollgepackt mit neuen Funktionen, die Ihnen dabei helfen, die besten Suchlösungen für Ihren Anwendungsfall zu entwickeln. Erfahren Sie in unserem praktischen Webinar zum Thema „Aufbau einer modernen Such-KI-Erfahrung“, wie Sie diese Erkenntnisse in die Praxis umsetzen können. Sie können jetzt auch eine kostenlose Cloud-Testversion starten oder Elastic auf Ihrem lokalen Rechner testen.

Filter und Facetten sind Mechanismen, die dazu dienen, Suchergebnisse zu verfeinern und Nutzern zu helfen, relevante Inhalte oder Produkte schneller zu finden. Beim klassischen Ansatz werden die Regeln manuell definiert. In einem Filmkatalog sind beispielsweise Attribute wie das Genre vordefiniert und können in Filtern und Facetten verwendet werden. Andererseits können mit KI-Modellen automatisch neue Attribute aus den Eigenschaften von Filmen extrahiert werden, wodurch der Prozess dynamischer und personalisierter wird. In diesem Blog untersuchen wir die Vor- und Nachteile jeder Methode und beleuchten deren Anwendungsbereiche und Herausforderungen.

Filter und Facetten im Vergleich

Bevor wir beginnen, definieren wir zunächst, was Filter und Facetten sind. Filter sind vordefinierte Attribute, die verwendet werden, um eine Reihe von Ergebnissen einzuschränken. Auf einem Marktplatz stehen beispielsweise Filter schon vor der eigentlichen Suche zur Verfügung. Der Benutzer kann vor der Suche nach „PS5“ eine Kategorie auswählen, zum Beispiel „Videospiele“, und so die Suche auf eine spezifischere Teilmenge anstatt der gesamten Datenbank eingrenzen. Dadurch erhöhen sich die Chancen auf relevantere Ergebnisse erheblich.

Facetten funktionieren ähnlich wie Filter, sind aber erst nach der Durchführung der Suche verfügbar. Mit anderen Worten: Die Suche liefert Ergebnisse, und auf deren Grundlage wird eine neue Liste von Verfeinerungsoptionen generiert. Bei der Suche nach einer PS5-Konsole werden beispielsweise Aspekte wie Speicherkapazität, Versandkosten und Farbe angezeigt, um den Nutzern bei der Auswahl des idealen Produkts zu helfen.

Nachdem wir nun Filter und Facetten definiert haben, wollen wir die Auswirkungen der klassischen und der auf maschinellem Lernen (ML) basierenden Ansätze auf ihre Implementierung und Verwendung erörtern. Jede Methode hat Vor- und Nachteile, die die Effizienz der Suche beeinflussen.

Klassischer Ansatz für Filter und Facetten

Bei diesem Ansatz werden Filter und Facetten manuell anhand vordefinierter Regeln definiert. Dies bedeutet, dass die zur Verfeinerung der Suche verfügbaren Attribute festgelegt und im Voraus geplant sind, wobei die Katalogstruktur und die Bedürfnisse der Nutzer berücksichtigt werden.

Auf einem Marktplatz können beispielsweise Kategorien wie „Elektronik“ oder „Mode“ über spezifische Filter wie Marke, Format und Preisspanne verfügen. Diese Regeln werden statisch erstellt, um eine einheitliche Sucherfahrung zu gewährleisten, erfordern jedoch manuelle Anpassungen, sobald neue Produkte oder Kategorien auftauchen.

Obwohl dieser Ansatz Vorhersagbarkeit und Kontrolle über die angezeigten Filter und Facetten bietet, kann er an seine Grenzen stoßen, wenn neue Trends entstehen, die eine dynamische Anpassung erfordern.

Vorteile:

Vorhersagbarkeit und Kontrolle: Da Filter und Facetten manuell definiert werden, wird die Verwaltung einfacher.
Geringe Komplexität: Es müssen keine Modelle trainiert werden.
Wartungsfreundlichkeit: Da die Regeln vordefiniert sind, können Anpassungen und Korrekturen schnell vorgenommen werden.

Nachteile:

Neuindizierung für neue Filter erforderlich: Wenn ein neues Attribut als Filter verwendet werden soll, muss der gesamte Datensatz neu indiziert werden, um sicherzustellen, dass die Dokumente diese Information enthalten.
Fehlende dynamische Anpassung: Filter sind statisch und passen sich nicht automatisch an Änderungen im Nutzerverhalten an.

In Dev Tools, Kibana, werden wir eine Demonstration von Filtern/Facetten mit dem klassischen Ansatz erstellen.

Zuerst definieren wir die Zuordnung zur Strukturierung des Index:

Die Felder „Marke“ und „Speicherort “ sind als Schlüsselwort festgelegt, sodass sie direkt in Aggregationen (Facetten) verwendet werden können. Das Preisfeld ist vom Typ Float, wodurch die Erstellung von Preisspannen ermöglicht wird.

Im nächsten Schritt werden die Produktdaten indexiert:

Nun wollen wir klassische Aspekte herausfiltern, indem wir die Ergebnisse nach Marke, Speicherort und Preisspanne gruppieren. In der Abfrage wurde Größe:0 definiert. In diesem Szenario besteht das Ziel darin, nur die Aggregationsergebnisse abzurufen, ohne die Dokumente einzubeziehen, die der Abfrage entsprechen.

Die Antwort wird Zählungen für Marke, Lager und Preis enthalten und so zur Erstellung von Filtern und Facetten beitragen.

Ansatz, der auf Machine Learning/KI basiert, für Filter und Facetten

Bei diesem Ansatz analysieren Modelle des maschinellen Lernens (ML), einschließlich Techniken der künstlichen Intelligenz (KI), Datenattribute, um relevante Filter und Facetten zu generieren. Anstatt sich auf vordefinierte Regeln zu stützen, nutzt ML/KI die Merkmale indexierter Daten. Dies ermöglicht die dynamische Entdeckung neuer Facetten und Filter.

Vorteile:

Automatische Aktualisierungen: Neue Filter und Facetten werden automatisch generiert, ohne dass manuelle Anpassungen erforderlich sind.
Entdeckung neuer Attribute: Es kann bisher unberücksichtigte Datenmerkmale als Filter identifizieren und so das Sucherlebnis bereichern.
Reduzierter manueller Aufwand: Das Team muss keine Filterregeln mehr ständig definieren und aktualisieren, da die KI aus den verfügbaren Daten lernt.

Nachteile:

Wartungsaufwand: Die Verwendung von Modellen kann eine Vorvalidierung erfordern, um die Konsistenz der generierten Filter sicherzustellen.
Erfordert Expertise in den Bereichen Maschinelles Lernen und Künstliche Intelligenz: Die Lösung erfordert qualifizierte Fachkräfte, die die Modellleistung feinabstimmen und überwachen.
Risiko irrelevanter Filter: Wenn das Modell nicht gut kalibriert ist, kann es Facetten generieren, die für die Benutzer nicht nützlich sind.
Kosten: Der Einsatz von ML und KI kann die Inanspruchnahme von Dienstleistungen Dritter erfordern, was die Betriebskosten erhöht.

Es ist wichtig zu beachten, dass selbst bei einem gut kalibrierten Modell und einer gut formulierten Eingabeaufforderung die generierten Facetten noch einen Überprüfungsschritt durchlaufen sollten. Diese Validierung kann manuell oder auf der Grundlage von Moderationsregeln erfolgen, um sicherzustellen, dass die Inhalte angemessen und sicher sind. Dies ist zwar nicht unbedingt ein Nachteil, aber dennoch ein wichtiger Aspekt, um die Qualität und Eignung der Facetten sicherzustellen, bevor sie den Nutzern zur Verfügung gestellt werden.

In dieser Demonstration verwenden wir ein KI-Modell, um Produkteigenschaften automatisch zu analysieren und relevante Attribute vorzuschlagen. Mithilfe einer gut strukturierten Eingabeaufforderung extrahieren wir Informationen aus dem Katalog und wandeln diese in Filter und Facetten um. Im Folgenden stellen wir jeden einzelnen Schritt des Prozesses vor.

Zunächst werden wir die Inference API verwenden, um einen Endpunkt für die Integration mit einem ML-Dienst zu registrieren. Nachfolgend ein Beispiel für die Integration mit dem Dienst von OpenAI.

Nun definieren wir die Pipeline, um die Eingabeaufforderung auszuführen und die vom Modell generierten neuen Filter zu erhalten.

Eine Simulation dieser Pipeline für das Produkt „PlayStation 5“ wird mit folgender Beschreibung durchgeführt:

Atemberaubendes Spielerlebnis: Bestaunen Sie die beeindruckende Grafik und erleben Sie die Funktionen der neuen PS5.

Atemberaubendes Eintauchen: Entdecken Sie ein intensiveres Spielerlebnis mit Unterstützung für haptisches Feedback, adaptive Trigger und 3D-Audiotechnologie.

Schlankes Design: Mit der PS5 Digital Edition erhalten Gamer leistungsstarke Gaming-Technologie in einem schlanken, kompakten Design.

1 TB Speicherplatz: Dank 1 TB integriertem SSD-Speicher sind Ihre Lieblingsspiele immer griffbereit und warten nur darauf, von Ihnen gespielt zu werden.

Abwärtskompatibilität und Game Boost: Die PS5-Konsole kann über 4.000 PS4-Spiele abspielen. Mit Game Boost können Sie sogar in einigen der besten PS4-Konsolenspiele schnellere und flüssigere Bildwiederholraten genießen.

Betrachten wir nun die von dieser Simulation generierte Prompt-Ausgabe.

Nun wird dem neuen Index ein neues Feld, dynamic_facets, hinzugefügt, um die von der KI generierten Facetten zu speichern.

Mithilfe der Reindex API werden wir den Videospiele- Index auf videogames_1 neu indizieren und dabei die generate_filter_ai- Pipeline anwenden. Diese Pipeline generiert während der Indizierung automatisch dynamische Facetten.

Nun führen wir eine Suche durch und rufen die neuen Filter ab:

Ergebnisse:

Zur Veranschaulichung der Umsetzung der einzelnen Aspekte folgt unten ein einfaches Frontend:

Der hier dargestellte UI-Code befindet sich hier.

Fazit

Beide Ansätze zur Erstellung von Filtern und Facetten haben ihre Vor- und Nachteile. Der klassische Ansatz, der auf manuellen Regeln basiert, bietet Kontrolle und niedrigere Kosten, erfordert jedoch ständige Aktualisierungen und passt sich nicht dynamisch an neue Produkte oder Funktionen an.

Andererseits automatisiert der auf KI und maschinellem Lernen basierende Ansatz die Facettenextraktion, wodurch die Suche flexibler wird und die Entdeckung neuer Attribute ohne manuelles Eingreifen ermöglicht wird. Allerdings kann dieser Ansatz in der Umsetzung und Aufrechterhaltung komplexer sein und erfordert eine Kalibrierung, um konsistente Ergebnisse zu gewährleisten.

Die Wahl zwischen klassischen und KI-basierten Ansätzen hängt von den Bedürfnissen und der Komplexität des Unternehmens ab. Bei einfacheren Szenarien, in denen die Datenattribute stabil und vorhersehbar sind, kann der klassische Ansatz effizienter und einfacher zu warten sein, wodurch unnötige Kosten für Infrastruktur und KI-Modelle vermieden werden. Andererseits kann der Einsatz von ML/KI zur Extraktion von Facetten einen erheblichen Mehrwert bieten, das Sucherlebnis verbessern und die Filterung intelligenter gestalten.

Wichtig ist es zu beurteilen, ob die Automatisierung die Investition rechtfertigt oder ob eine traditionellere Lösung die Geschäftsanforderungen bereits effektiv erfüllt.

Häufige Fragen

Was sind Filter?

Filter sind vordefinierte Attribute, die zur Einschränkung einer Ergebnismenge verwendet werden.

Was sind Facetten?

Facetten sind eine neue Liste von Verfeinerungsoptionen, die generiert wird, nachdem eine Suche durchgeführt wurde.

Was ist der klassische Ansatz für Filter und Facetten?

Bei der klassischen Herangehensweise an Filter und Facetten sind die zur Verfeinerung der Suche verfügbaren Attribute fest vorgegeben und geplant. Der Ansatz ist gut für die Vorhersehbarkeit, weist jedoch keine dynamische Anpassung auf und erfordert die Erstellung neuer Filter für die Reindexierung.

Welcher Machine-Learning-(ML-)Ansatz wird für Filter und Facetten verwendet?

Der Machine-Learning-(ML-)Ansatz für Filter und Facetten basiert hauptsächlich auf KI. ML analysieren Datenattribute, um relevante Filter und Facetten zu generieren. Anstatt sich auf vordefinierte Regeln zu stützen, nutzt ML/KI die Merkmale indexierter Daten.

Wie hilfreich war dieser Inhalt?

Nicht hilfreich

Einigermaßen hilfreich

Sehr hilfreich

Ein Problem melden

Zugehörige Inhalte

Sicherstellung semantischer Präzision mit Mindestscore

Relevanz Hybride Suche

20. Februar 2026

Sicherstellung semantischer Präzision mit Mindestscore

Verbessern Sie die semantische Präzision durch die Verwendung von Schwellenwerten für die Mindestscore. Der Artikel enthält konkrete Beispiele für die semantische und hybride Suche.

Von: Mattias Brunnert

Automatisierung des Log-Parsing in Streams mit ML

ML-Forschung KI

2. Januar 2026

Automatisierung des Log-Parsing in Streams mit ML

Erfahren Sie, wie ein hybrider ML-Ansatz durch Automatisierungsexperimente mit Log-Format-Fingerprinting in Streams eine Genauigkeit von 94 % beim Log-Parsing und 91 % bei der Log-Partitionierung erreicht hat.

Von: Nastia Havriushenko

Bewertung der Relevanz von Suchanfragen mit Bewertungslisten

Relevanz Inside Elastic

11. Dezember 2025

Bewertung der Relevanz von Suchanfragen mit Bewertungslisten

Erfahren Sie, wie Sie Bewertungslisten erstellen, um die Relevanz von Suchanfragen objektiv zu bewerten und Leistungsmetriken wie den Recall zu verbessern – für skalierbare Suchtests in Elasticsearch.

Von: Jhon Guzmán

Hybride Suche ohne Probleme: Vereinfachte hybride Suche mit Retrievern

Hybride Suche Relevanz

27. November 2025

Hybride Suche ohne Probleme: Vereinfachte hybride Suche mit Retrievern

Erfahren Sie, wie Sie die hybride Suche in Elasticsearch mit einem mehrfeldrigen Abfrageformat für lineare und RRF-Retriever vereinfachen und Abfragen erstellen können, ohne vorher Kenntnisse über Ihren Elasticsearch-Index haben zu müssen.

Von: Mike Pellegrini

Sie wissen schon, Kontext – Teil I: Die Entwicklung von hybrider Suche und Kontextgestaltung

Hybride Suche Relevanz

12. November 2025

Sie wissen schon, Kontext – Teil I: Die Entwicklung von hybrider Suche und Kontextgestaltung

Erfahren Sie, wie sich hybride Suche und Kontextgestaltung von lexikalischen Grundlagen weiterentwickelt haben, um die nächste Generation agentenbasierter KI-Workflows zu ermöglichen.

Von: Woody Walton

Generierung von Filtern und Facetten mithilfe von maschinellem Lernen