Definition

Was bedeutet Vektorsuche?

Die Vektorsuche nutzt Machine Learning (ML), um die Bedeutung und den Kontext unstrukturierter Daten zu erfassen, inklusive Text und Bilder, und diese in eine numerische Darstellung zu transformieren. Die Vektorsuche wird oft für semantische Suchanwendungen eingesetzt und findet ähnliche Daten mit Algorithmen wie „geschätzter nächster Nachbar“ (Approximate Nearest Neighbor, ANN). Im Vergleich zur herkömmlichen Schlüsselwortsuche liefert die Vektorsuche in kürzerer Zeit relevantere Ergebnisse.

Video thumbnail

Warum ist die Vektorsuche so wichtig?

Wie oft haben Sie schon nach etwas gesucht, ohne jedoch den genauen Namen zu kennen? Vielleicht kennen Sie die Funktionsweise dessen, was Sie suchen, oder können es beschreiben. Aber ohne Schlüsselwörter kommen Sie nicht ans Ziel.

Mit der Vektorsuche können Sie diese Einschränkung überwinden und nach der tatsächlichen Bedeutung suchen. Sie kann im Handumdrehen Fragen beantworten und nutzt dazu die Methode der Ähnlichkeitssuche. Daher ist die Vektoreinbettung in der Lage, auch unstrukturierte Daten in anderen Medien als Text, wie Videos, Bildern und Audiodateien, zu erfassen. Die Vektorsuche liefert im Handumdrehen kontextbasierte Antworten. Dies liegt daran, dass Vektoreinbettungen Synonyme und Zusammenhänge erfassen, also die Absicht hinter Ihrer Suche. Verbessern Sie das Sucherlebnis noch weiter, indem Sie Vektorsuche mit Filtern und Aggregationen kombinieren, und optimieren Sie die Relevanz, indem Sie ein Hybrid-Modell implementieren und zusammen mit der traditionellen Bewertung verwenden.

Video thumbnail

Wie funktioniert eine Vektorsuchmaschine?

Vektorsuchmaschinen – auch bekannt als Vektordatenbanken, semantische oder Kosinus-Suche – suchen den nächsten Nachbarn für eine bestimmte (vektorisierte) Anfrage.

Im Gegensatz zu herkömmlichen Suchmethoden mit Schlüsselwörtern, lexikalischer Ähnlichkeit und Worthäufigkeiten bilden Vektorsuchmaschinen Ähnlichkeiten anhand der Distanz im Einbettungsraum ab. Um verwandte Daten zu finden, suchen Sie nach den nächsten Nachbarn für Ihre Abfrage.

  • Vektoreinbettung

    Vektoreinbettungen sind numerische Darstellungen von Daten und dem zugehörigen Kontext und werden in hochdimensionalen (dichten) Vektoren gespeichert. Modelle zum Generieren von Einbettungen werden üblicherweise mit Millionen von Beispielen trainiert, um relevante und genaue Ergebnisse zu liefern. Oft können numerische Daten, die Sie erfasst oder zur Darstellung wichtiger Merkmale Ihrer Dokumente entwickelt haben, als Einbettungen verwendet werden. Sie brauchen lediglich eine effiziente Suchfunktion.

  • Ähnlichkeitsbewertung

    Vektorsuchmaschinen basieren auf der Annahme, dass einander ähnliche Daten und Dokumente auch ähnliche Vektoren ergeben. Indem Sie sowohl Abfragen als auch Dokumente mit Vektoreinbettungen indexieren, können Sie einander ähnliche Dokumente als nächste Nachbarn Ihrer Abfrage finden.

  • ANN-Algorithmus

    Herkömmliche Algorithmen für die Suche nach nächsten Nachbarn, wie etwa der k-Nearest-Neighbor-Algorithmus (kNN), führen oft zu übermäßig langen Ausführungszeiten und verschlingen Unmengen an Rechenleistung. ANN ist nicht zu 100 % genau, wird dafür jedoch auch in hochdimensionalen Einbettungsräumen sehr effizient und skalierbar ausgeführt.

Anwendungsfälle für die Vektorsuche

Die Vektorsuche dient nicht nur als Basis für Sucherlebnisse der nächsten Generation, sondern eröffnet auch völlig neue Möglichkeiten.

  • Semantische Suche

    Die Vektorsuche dient als Motor für semantische oder Ähnlichkeitssucherlebnisse. Da Bedeutung und Kontext in der Einbettung erfasst werden, versteht die Vektorsuche die Absichten der Nutzer auch ohne exakte Schlüsselwortübereinstimmungen. Diese Lösung unterstützt Textdaten (Dokumente), Bilder und Audiodaten. Finden Sie ähnliche oder verwandte Produkte schnell und einfach.

  • Empfehlungen

    Das Modell zum Generieren der Einbettung lernt, ähnliche Dokumente und deren Vektoren im Einbettungsraum zu erkennen. Eine solche Anwendung kann beispielsweise Filme oder Produkte empfehlen, die anderen Benutzern gefallen haben, die wiederum ähnliche Produkte wie Sie gekauft haben. Sie müssen jedoch sicherstellen, dass die Einbettungen mit einem gewissen Grad an Beliebtheit oder Sympathie als Zielmetrik erstellt werden.

    Vektorentfernungen können mit anderen Metriken kombiniert werden, um unterschiedliche Ziele mit den Empfehlungen zu erreichen. Sie können beispielswese Produktempfehlungen nach Beliebtheit und nach potenziellem Erlös anordnen.

  • Beantwortung von Fragen

    Mit einer Kombination aus Dokumenten, die in Texteinbettungen konvertiert wurden, und moderner natürlicher Sprachverarbeitung (NLP) können Sie Fragen mit Fließtext beantworten. Dieser Ansatz erspart den Nutzern die Lektüre langatmiger Bedienungsanleitungen und versetzt Ihre Teams in die Lage, Fragen schneller zu beantworten.

    Ein Transformationsmodell zur Beantwortung von Fragen kann die Texteinbettungsdarstellung für die Wissensdatenbank mit Ihren Dokumenten sowie Ihre aktuelle Frage berücksichtigen, um den genauesten Treffer als Antwort zurückzugeben.

Weitere Einsatzbereiche für die Vektorsuche

Semantische Suche ist erst der Anfang!

  • Unstrukturierte Daten durchsuchen

    Durchsuchen Sie beliebige unstrukturierte Daten. Sie können Einbettungen für Text, Bilder, Audiodaten oder Sensormessungen erstellen.

  • Filtern nach Metadaten

    Filtern Sie Vektorsuchergebnisse mithilfe von Metadaten. Wahren Sie die Abrufbarkeit Ihrer Daten, ohne Geschwindigkeit zu opfern, indem Sie einen Filter auf Basis der ANN-Suche (Approximate Nearest Neighbor, geschätzter nächster Nachbar) anwenden.

  • Reihenfolge von Suchergebnissen anpassen

    Vektorähnlichkeiten können als Ähnlichkeitsbewertungen interpretiert werden, um deren Reihenfolge zusammen mit anderen Daten anzupassen. Dazu gehören statische Felder, die bereits in Ihrer Vektorsuchdatenbank vorhanden sind, und neue Eigenschaften durch die Anwendung von Machine-Learning-Modellen.

  • Hybrid-Bewertung

    Zur weiteren Optimierung können Sie Vektorähnlichkeiten mit BM25F-Bewertungen kombinieren. Dieses Verfahren nennt man auch Hybrid-Bewertung. Auf diese Weise können Sie Bilder nach Vektorähnlichkeit ordnen und gleichzeitig BM25F implementieren, um Texte besser zu bewerten.

Erste Schritte

Mühelose Vektorsuche und NLP mit Elastic

Sie müssen keine Berge versetzen, um die Vektorsuche zu implementieren und NLP-Modelle anzuwenden. Mit der Elasticsearch Relevance Engine™ (ESRE) erhalten Sie ein Toolkit zur Erstellung von KI-Suchanwendungen, die mit generativer KI und umfassenden Sprachmodellen eingesetzt werden können.

Mit ESRE können Sie innovative Suchanwendungen erstellen, Einbettungen generieren, Vektoren speichern und durchsuchen und ein semantisches Sucherlebnis mit dem Elastic Learned Sparse Encoder implementieren. Erfahren Sie, wie Sie Elasticsearch als Ihre Vektordatenbank einsetzen können.

Video thumbnail
  • Vorkonfigurierte semantische Suche

    Der Elastic Learned Sparse Encoder bietet im vorkonfigurierten Zustand und ohne domänenspezifische Anpassung hochrelevante semantische Sucherlebnisse. Diese Lösung ist beim Konfigurieren Ihrer Suchanwendung mit einem Klick verfügbar. Das Modell erweitert Abfragen mit verwandten Schlüsselwörtern und Relevanzbewertungen, die es beim Training gelernt hat. Auf diese Weise müssen Sie keine Synonyme konfigurieren, und diese Elemente sind im Gegensatz zu Dichtevektoreinbettungen mühelos interpretierbar.

  • Umfassende Sprachmodelle

    Füttern Sie umfassende Sprachmodelle (Large Language Models, LLM) mit Ihren privaten Daten (nicht nur mit öffentlichen Trainingsdaten). Nutzen Sie Elasticsearch, um generative KI mit APIs und Plugins zu nutzen und mit dem LLM Ihrer Wahl zu integrieren.

  • Texteinbettung und mehr

    Finden Sie heraus, wie Ihre Daten in Elastic mit Standpunkten und anderen Kategorien anreichern können. Nutzen Sie die Erkennung benannter Entitäten (Named Entity Recognition, NER), um Ihre Sucherlebnisse mit weiteren Metadaten zu verbessern.