Jina AI ist nun Teil von Elastic und erweitert die leistungsstarken Funktionen von Elasticsearch für Datenspeicherung, -abruf und -indizierung um seine hochleistungsfähige mehrsprachige und multimodale Such-KI. Jina AI-Modelle können über eine öffentliche API in Elasticsearch integriert werden, die 10 Millionen kostenlose Tokens zum Testen enthält.
jina-embeddings-v4 ist ein mehrsprachiges und multimodales Einbettungsmodell, das Bilder und Texte in 30 wichtigen Sprachen unterstützt. Mit 3,8 Milliarden Parametern erreicht es eine Leistung auf dem neuesten Stand der Technik unter Modellen vergleichbarer Größe und zeichnet sich nicht nur beim Text-zu-Bild-Abruf, sondern auch bei Text-zu-Text-Aufgaben aus. Es zeichnet sich insbesondere durch seine Leistungsfähigkeit beim visuellen Dokumentenabruf aus und verarbeitet gängige Bildtypen wie Diagramme, Folien, Karten, Screenshots, Scans und Schaubilder – Bereiche, in denen die meisten Computer-Vision-Modelle Schwächen aufweisen.
Das Modell unterstützt die Eingabe von bis zu 32.768 Text-Tokens und Bildern mit einer Auflösung von bis zu 20 Megapixeln. Eine der wichtigsten Neuerungen dieses Modells sind seine zwei Ausgabemodi:
- Einzelvektor-Einbettungen – Kompakte Dokumenteneinbettungen für Texte und Bilder in einem gemeinsamen semantischen Raum. Benutzer können Einbettungsvektorgrößen von 2048 bis 128 Dimensionen wählen, wobei der Präzisionsverlust minimal ist. Kürzere Einbettungen sparen Speicherplatz und erhöhen die Indizierungs- und Abrufgeschwindigkeit, sind jedoch weniger präzise, sodass Benutzer selbst entscheiden können, welchen Kompromiss sie zwischen Geschwindigkeit, Rechenressourcen und Abrufgenauigkeit eingehen möchten.
- Multi-Vektor-Einbettungen – Multi-Vektor-Einbettungen haben die gleiche Größe wie der Eingang (128 Dimensionen pro Texttoken und proportional zur Größe bei Bildern) und sind nützlich für Ähnlichkeitsmaße der „späten Interaktion“. Diese Einbettungen sind größer und die Vergleiche sind rechenintensiver als bei Einzelvektor-Einbettungen, führen jedoch zu einer präziseren Übereinstimmung.
Jina AI hat dieses Modell für mehrere Aufgaben optimiert, wobei kompakte und auswählbare LoRA-Erweiterungsmodule drei verschiedene Verwendungszwecke unterstützen:
- Asymmetrischer Abruf – Der auf Einbettungen basierende Abruf funktioniert besser, wenn Dokumente und Abfragetexte unterschiedlich kodiert sind. Jina Embeddings v4 unterstützt dies durch zwei separate LoRA-Erweiterungen, die für die Zusammenarbeit trainiert wurden: eine für zu indizierende Dokumente und eine für Abfragen.
- Semantische Ähnlichkeit – Messung des Übereinstimmungsgrades zweier Texte in Bedeutung oder Thema. Häufige Anwendungsgebiete der semantischen Ähnlichkeit sind die Suche nach verwandten Dokumenten, die Deduplizierung und die Übersetzungsabgleichung.
- Codespezifische Aufgaben – Spezielles Verhalten und Training für Computertechnologie und Programmiersprachenähnlichkeit.
jina-embeddings-v3 ist ein mehrsprachiges, vielseitiges Modell zur reinen Texteinbettung, das bis zu 8192 Tokens Texteingabe unterstützt und vom Benutzer wählbare Einbettungen variabler Länge mit 64 bis 1024 Dimensionen erzeugt. Dieses kompakte Modell verfügt über weniger als 600 Millionen Parameter und bietet für seine Größe eine starke Leistung, obwohl es erst im Jahr 2024 auf den Markt kam.
Jina AI hat fünf LoRA-Erweiterungsmodule trainiert, um vier Aufgaben zu unterstützen: eine für semantische Ähnlichkeit und zwei für asymmetrischen Abruf, ähnlich wie jina-embeddings-v4 oben, sowie zwei weitere:
- Klassifizierung – Texte in Kategorien einteilen. Sie können sie unter anderem für Stimmungsanalysen, Spamfilterung, Inhaltsmoderation und Betrugserkennung verwenden.
- Clustering – Die Verteilung der Texte bestimmt, in welche Kategorien sie fallen. Es wird häufig für Empfehlungssysteme, Nachrichtenaggregation und ähnliche Aufgaben verwendet.
jina-code-embeddings (0.5b & 1.5b) sind zwei spezialisierte Einbettungsmodelle – eines mit einer halben Milliarde Parametern, eines mit 1,5 Milliarden – für Programmiersprachen und Frameworks. Beide Modelle erzeugen Einbettungen für Texte in natürlicher Sprache und für 15 verschiedene Programmierschemata, bei Eingängen von bis zu 32.768 Token. Benutzer können die Größe des Ausgabemodells selbst wählen, von 64 bis 896 Dimensionen für das kleinere Modell und von 128 bis 1536 Dimensionen für das größere Modell.
Sie verfügen über fünf aufgabenspezifische Abrufmodi, die optimierte Abfrage- und Dokumenteinbettungen für jede Aufgabe erzeugen:
- Code-to-Code – Ähnlichen Code über verschiedene Programmiersprachen hinweg abrufen. Es dient der Codeausrichtung, der Code-Deduplizierung und unterstützt Portierung und Refactoring.
- Natürliche Sprache zu Code – Abrufen von Code, der mit Abfragen, Kommentaren, Beschreibungen und Dokumentationen in natürlicher Sprache übereinstimmt.
- Code in natürliche Sprache – Code mit Dokumentation oder anderen Texten in natürlicher Sprache abgleichen.
- Code to Code Completion – Wird verwendet, um relevanten Code zur Vervollständigung oder Verbesserung von bestehendem Code vorzuschlagen.
- Technische Fragen und Antworten – Identifizierung von Antworten in natürlicher Sprache auf Fragen zu Informationstechnologien, ideal geeignet für Aufgaben im technischen Support.
jina-clip-v2 ist ein multimodales Einbettungsmodell, das sowohl Texte als auch Bilder unterstützt. Es wurde so trainiert, dass Texte und Bilder ähnliche Einbettungen erzeugen, wenn der Text den Bildinhalt beschreibt. Dadurch wird multimodales Matching möglich, und jede Datenbank, die bereits Texteinbettungen unterstützt, kann dieses Modell sofort einsetzen, um die Bildabfrage aus Textanfragen zu unterstützen.
Dieses Modell wurde auch als leistungsstarkes Texteinbettungsmodell mit breiter mehrsprachiger Unterstützung und einem Eingabekontext von 8.192 Token für Text trainiert. Auf diese Weise werden die Kosten für die Benutzer gesenkt, da keine separaten Modelle für den Text-zu-Text- und Text-zu-Bild-Abruf erforderlich sind.
Die Bildeingabe wird auf 512x512 Pixel skaliert.
jina-reranker-m0 ist ein mehrsprachiger und multimodaler paarweiser Dokumenten-Reranker, der eine detailliertere „späte Interaktion”-Analyse verwendet, um die Abrufgenauigkeit zu verbessern. Der Reranker erhält eine Textanfrage und zwei Kandidaten, bei denen es sich um Texte, Bilder oder jeweils eines davon handeln kann, und teilt Ihnen mit, welcher davon besser zur Anfrage passt. Dieses Modell wurde so trainiert, dass es eine breite Palette von gedruckten und computergenerierten Grafikmaterialien unterstützt, wie z. B. Folien, Screenshots und Diagramme. Es bietet eine leistungsstarke Möglichkeit zur Verbesserung der Präzision in schwierigen Suchumgebungen. Bilder müssen mindestens 56 Pixel auf jeder Seite aufweisen, und sehr große Bilder werden so lange verkleinert, bis sie nicht mehr als 768 Felder mit einer Größe von 28 x 28 Pixeln umfassen. Abfragetexte und Kandidatendokumente dürfen zusammen nicht mehr als 10.240 Token umfassen.
jina-reranker-v3 ist ein listenweiser mehrsprachiger Reranker für Textdokumente, der den gleichen Ansatz der „späten Interaktion“ wie jina-reranker-m0 verwendet, aber eine ganze Liste von Dokumenten danach neu ordnet, wie gut sie einer Abfrage entsprechen. Das listenweise Reranking mit KI-Modellen ist mit jedem Suchschema kompatibel, das eine begrenzte Liste potenzieller Treffer erzeugt, nicht nur mit KI-basierten Suchschemata. Als Ergänzung zu einem bestehenden Suchschema verbessert es die Genauigkeit insgesamt. Dadurch eignet es sich ideal als einfache Erweiterung für hybride und ältere Suchsysteme.
Dieser Reranker ist nur für Texte anwendbar und akzeptiert insgesamt 131.000 Eingabe-Tokens, einschließlich der Abfrage und aller Kandidatendokumente, die neu eingestuft werden sollen.
ReaderLM-v2 ist ein kleines generatives Sprachmodell, das HTML, einschließlich DOM-Baum-Dumps von Webseiten, gemäß benutzerdefinierten Ausgabeschemata und Anweisungen in natürlicher Sprache in Markdown oder JSON umwandelt. Dieses Tool integriert KI in Ihre Datenvorverarbeitung und bewältigt intelligent die chaotische Struktur von aus dem Web gescrapten Daten. Dieses kompakte Modell übertrifft GPT-4 bei den eng begrenzten Datenkonvertierungsaufgaben, für die es entwickelt wurde.
Erste Schritte
Besuchen Sie die Website von Jina AI, um auf die Modelle und Anweisungen zur Verwendung der Web-APIs zuzugreifen oder diese selbst herunterzuladen und zu verwenden.
Tutorials und Notizbücher
Diese Tutorials beziehen sich auf ältere Jina AI-Modelle, neue Tutorials sind in Vorbereitung.