Vertex AI bietet eine vielfältige Suite generativer KI-Modelle über verschiedene APIs an, die es Ihnen ermöglichen, intelligente Anwendungen für eine breite Palette von Anwendungsfällen zu erstellen. Diese Modelle, die auf der fortschrittlichen Forschung von Google basieren, ermöglichen es Ihnen, Texte zu generieren, Sprachen zu übersetzen, verschiedene Arten kreativer Inhalte zu schreiben und Ihre Fragen informativ zu beantworten.
Gemini API
Google Gemini-Modelle wurden für multimodale Anwendungen konzipiert. Gemini-Modelle akzeptieren Eingaben, die beispielsweise Text und Bilder enthalten, und geben dann eine Textreaktion zurück. Gemini unterstützt auch Funktionsaufrufe, sodass Entwickler die Beschreibung einer Funktion eingeben können, woraufhin das Modell eine Funktion und Parameter zurückgibt, die der Beschreibung am besten entsprechen. Entwickler können diese Funktion dann in externen APIs und Diensten aufrufen.
Gemini 1.5 Pro: Dieses fortschrittliche Modell verfügt über ein großes Kontextfenster, das bis zu 1 Million Token verarbeiten kann und ein differenziertes Verständnis komplexer Eingabeaufforderungen sowie die Generierung umfassender Reaktionen ermöglicht.
Gemini 1.0 Pro und Gemini 1.0 Pro Vision: Diese Modelle sind ideal für Aufgaben der natürlichen Sprachverarbeitung, mehrstufige Gespräche und die Codegenerierung. Sie bieten außerdem die Möglichkeit, Bilder, PDFs und Videos in Ihre Eingaben einzubinden, wodurch sie in multimodalen Anwendungen vielseitig einsetzbar sind.
Gemini 1.0 Ultra und Gemini 1.0 Ultra Vision: Als Googles leistungsfähigste multimodale Modelle sind diese für komplexe Aufgaben optimiert, die das Verstehen von Anweisungen, die Codegenerierung und das logische Denken umfassen. Sie bieten Unterstützung für mehrere Sprachen und stehen derzeit einer ausgewählten Kundengruppe zur Verfügung.
Texteinbettungen
Embeddings for Text (textembedding-gecko) ist der Name des Modells, das Texteinbettungen unterstützt. Texteinbettungen sind eine NLP-Technik, die Textdaten in numerische Vektoren umwandelt, die von Machine-Learning-Algorithmen, insbesondere von großen Modellen, verarbeitet werden können. Diese Vektordarstellungen sind so konzipiert, dass sie die semantische Bedeutung und den Kontext der Wörter, die sie darstellen, erfassen.
Für Einbettungen stehen einige Versionen zur Verfügung. textembedding-gecko@003 ist das neueste stabile Einbettungsmodell mit verbesserter KI-Qualität, und textembedding-gecko-multilingual@001 ist ein Modell, das für eine Vielzahl von nicht-englischen Sprachen optimiert ist.
Multimodale Einbettungen
Das Multimodal-Modell (multimodalembedding) generiert anhand Ihrer Eingaben Dimensionsvektoren (128, 256, 512 oder 1408 Dimensionen) . Diese Eingabe kann eine beliebige Kombination aus Text, Bild oder Video enthalten. Die Einbettungsvektoren können dann für andere nachfolgende Aufgaben wie die Bildklassifizierung oder Inhaltsmoderation verwendet werden.
Die Vektoren für Text-, Bild- und Videoeinbettungen befinden sich im selben semantischen Raum mit derselben Dimensionalität. Daher können diese Vektoren austauschbar für Anwendungsfälle wie die Suche nach Bildern anhand von Text oder die Suche nach Videos anhand von Bildern verwendet werden.
Erste Schritte
- Vertex KI-Integration mit der Elasticsearch Open Inference API zum Reranking
- Iterieren und erstellen Sie RAG-Anwendungen in wenigen Minuten mit Gemini
- Die Leistungsfähigkeit Ihrer Daten in Elasticsearch mit Vertex KI
Notizbücher
- Vektorsuche mit Gemini-Einbettungen und Elasticsearch
- Fragenbeantwortung mit Gemini, LangChain und Elasticsearch
- RAG mit Gemma bei privaten Daten