Jina AI fait désormais partie d’Elastic, et met son IA de recherche multilingue et multimodale haute performance au service des puissantes fonctionnalités de stockage, de récupération et d’indexation des données d’Elasticsearch. Les modèles Jina AI peuvent être intégrés à Elasticsearch via une API publique, qui inclut 10 millions de jetons gratuits pour vos tests.

jina-embeddings-v4 est un modèle d’embedding multilingue et multimodal, compatible avec des images et des textes dans 30 langues majeures. Fort de ses 3,8 milliards de paramètres, ce modèle affiche des performances de pointe face à d’autres modèles de taille équivalente. Il excelle aussi bien dans les tâches de recherche texte-image que dans les tâches texte-texte. Il affiche des performances remarquables dans les recherches de documents visuels, et gère efficacement des types d’images courants tels que les graphiques, diapositives, cartes, captures d’écran, numérisations et schémas – des cas d’usage où les modèles de vision classiques peinent souvent.

Ce modèle prend en charge des entrées allant jusqu’à 32 768 jetons de texte et des images jusqu’à 20 mégapixels. L’un des principaux atouts de ce modèle est qu’il propose deux modes de sortie :

  • Embeddings monovecteur – Embeddings compacts pour textes et images, réunis dans un espace sémantique commun. Les utilisateurs peuvent définir la taille des vecteurs d’embedding entre 2 048 et 128 dimensions, avec une perte de précision minime. Des embeddings plus courts permettent de gagner de l’espace de stockage et d’accélérer l’indexation et la recherche, mais leur précision est moindre. À chacun donc de trouver le bon compromis entre rapidité, ressources de calcul et précision des résultats.
  • Embeddings multivecteurs – Ces embeddings conservent la même taille que les entrées (128 dimensions par jeton texte, taille proportionnelle pour les images), et sont utiles pour les mesures de similarité avec « interaction différée ». Ces embeddings sont plus volumineux et les comparaisons sont plus gourmandes en calcul que celles effectuées avec des embeddings monovecteur, mais la précision des correspondances obtenues est bien supérieure.

Jina AI a optimisé ce modèle pour plusieurs tâches, avec des modules d'extension LoRA compacts et sélectionnables prenant en charge trois utilisations différentes :

  • Recherche asymétrique — La recherche par embeddings gagne en efficacité lorsque les documents et les requêtes sont encodés différemment. Jina Embeddings v4 prend en charge cette approche via deux extensions LoRA distinctes, entraînées pour fonctionner ensemble : l’une pour l’indexation des documents, l’autre pour les requêtes.
  • Similarité sémantique — Mesure du degré de correspondance entre deux textes en termes de sens ou de sujet. Ce principe est notamment utilisé pour la découverte de documents connexes, la déduplication et l’alignement des traductions.
  • Tâches spécifiques au code — Comportement particulier et entraînement ciblé pour les langages informatiques et de programmation.

jina-embeddings-v3 est un modèle multilingue polyvalent, réservé au texte, qui accepte jusqu’à 8 192 jetons en entrée et génère des embeddings de longueur variable, de 64 à 1 024 dimensions, définis par l’utilisateur. Ce modèle compact, doté de moins de 600 millions de paramètres, offre d’excellentes performances compte tenu de sa taille, et ce, malgré une sortie prévue en 2024.

Jina AI a formé cinq modules d'extension LoRA pour prendre en charge quatre tâches : une pour la similarité sémantique et deux pour la recherche asymétrique, similaires à jina-embeddings-v4 ci-dessus, ainsi que deux tâches supplémentaires :

  • Classification — Classement des textes par catégories. Il peut être utilisé pour l’analyse des sentiments, le filtrage de spam, la modération de contenu ou encore la détection de fraude, entre autres.
  • Clustering — Permet de laisser la distribution naturelle des textes définir les catégories pertinentes. Cette technique est couramment utilisée dans les systèmes de recommandation, l’agrégation d’actualités et autres tâches similaires.

jina-code-embeddings (0.5b & 1.5b) est une paire de modèles d’embedding spécialisés : l’un contient un demi-milliard de paramètres, l’autre 1,5 milliard, conçus pour les langages de programmation et les frameworks. Les deux modèles génèrent des embeddings pour des textes en langage naturel et pour 15 langages de programmation différents, à partir d’entrées allant jusqu’à 32 768 jetons. Les utilisateurs peuvent définir eux-mêmes la taille des embeddings en sortie : de 64 à 896 dimensions pour le modèle plus petit, et de 128 à 1 536 dimensions pour le plus grand.

Ils proposent cinq modes de récupération spécifiques à chaque tâche, avec des embeddings optimisés pour les requêtes et les documents correspondants :

  • Code vers code – Recherche de blocs de code similaires dans différents langages de programmation. Utilisé pour l’alignement de code, la déduplication et l’assistance à la migration ou au refactoring.
  • Langage naturel vers code - Recherche de blocs de code correspondant à des requêtes, commentaires, descriptions ou documentations rédigés en langage naturel.
  • Code vers langage naturel - Mise en correspondance entre du code source et de la documentation ou tout autre texte en langage naturel.
  • Complétion de code à code – Permet de suggérer du code pertinent pour compléter ou améliorer un code existant.
  • Technical Q& A – Identification de réponses en langage naturel à des questions liées aux technologies de l’information, particulièrement adapté aux tâches de support technique.

jina-clip-v2 est un modèle d’embedding multimodal prenant en charge les textes et les images. Il a été entraîné pour que les textes et les images produisent des embeddings similaires lorsque le texte décrit le contenu visuel. Cela permet d’effectuer des correspondances multimodales, et toute base de données compatible avec les embeddings de texte peut utiliser ce modèle tel quel pour retrouver des images à partir de requêtes textuelles.

Ce modèle a également été entraîné pour offrir des embeddings textuels haute performance, avec une prise en charge multilingue étendue et une capacité contextuelle de 8 192 jetons. Cela permet aux utilisateurs de réduire leurs coûts, en évitant d’avoir recours à des modèles distincts pour les tâches de récupération texte-texte et texte-image.

Les images en entrée sont redimensionnées à 512 × 512 pixels.

jina-reranker-m0 un reranker multilingue et multimodal, qui compare des paires de documents textuels à l’aide d’une analyse plus fine par « interaction différée » afin d’améliorer la précision des résultats. Ce reranker reçoit une requête textuelle et deux documents candidats – textes, images, ou un de chaque – et détermine lequel correspond le mieux à la requête. Ce modèle a été entraîné pour prendre en charge une large gamme de contenus graphiques imprimés ou générés par ordinateur, comme des diapositives, des captures d’écran ou des schémas. Il constitue une solution puissante pour renforcer la précision dans des environnements de recherche complexes. Les images doivent mesurer au moins 56 pixels de côté. Les très grandes images seront redimensionnées pour ne pas dépasser 768 zones de 28 × 28 pixels. Les requêtes et les documents candidats ne doivent pas dépasser un total de 10 240 jetons.

jina-reranker-v3 est un reranker multilingue de documents textuels en mode listwise, qui utilise la même approche par « interaction différée » que jina-reranker-m03, mais qui réorganise une liste complète de documents selon leur pertinence par rapport à une requête. Le reranking en mode listwise avec des modèles d’IA est compatible avec n’importe quel système de recherche – pas uniquement ceux basés sur l’IA – produisant une liste restreinte de résultats candidats. En complément d’un moteur de recherche existant, il permet d’en améliorer la précision globale. C’est donc une solution idéale pour optimiser des systèmes de recherche hybrides ou existants.

Ce système de reranking s’applique uniquement aux textes et accepte jusqu’à 131 000 jetons en entrée, requête et documents candidats inclus.

ReaderLM-v2 est un petit modèle de génération de langage capable de convertir du HTML – y compris des dumps de l’arborescence DOM – en Markdown ou en JSON, selon les schémas de sortie définis par l’utilisateur et des instructions en langage naturel. Cet outil met l’IA au service de votre prétraitement des données, en gérant intelligemment la structure souvent chaotique des données extraites du web. Ce modèle compact dépasse les performances de GPT‑4 dans les tâches ciblées de conversion de données pour lesquelles il a été conçu.

Se lancer

Consultez le site web de Jina AI pour accéder aux modèles et aux instructions d’utilisation des API web, ou pour les télécharger et les exploiter vous-même.

Tutoriels et notebooks

Ces tutoriels portent sur d’anciens modèles Jina AI. De nouveaux tutoriels sont en préparation.

Prêt à créer des expériences de recherche d'exception ?

Une recherche suffisamment avancée ne se fait pas avec les efforts d'une seule personne. Elasticsearch est alimenté par des data scientists, des ML ops, des ingénieurs et bien d'autres qui sont tout aussi passionnés par la recherche que vous. Mettons-nous en relation et travaillons ensemble pour construire l'expérience de recherche magique qui vous permettra d'obtenir les résultats que vous souhaitez.

Jugez-en par vous-même