Jina AI ahora forma parte de Elastic, aportando su IA de búsqueda multilingüe y multimodal de alto rendimiento a las potentes capacidades de almacenamiento, recuperación e indexación de datos de Elasticsearch. Los modelos de Jina AI se pueden integrar con Elasticsearch a través de una API pública, que incluye 10 millones de tokens gratuitos para realizar pruebas.

jina-embeddings-v4 es un modelo de incrustación multilingüe y multimodal que admite imágenes y textos en 30 idiomas principales. Gracias a 3,8 mil millones de parámetros, alcanza un rendimiento de vanguardia entre los modelos de tamaño comparable y destaca no solo en la recuperación de texto a imagen, sino también en tareas de texto a texto. Su rendimiento se destaca en la recuperación de documentos visuales, ya que maneja tipos de imágenes comunes como gráficos, diapositivas, mapas, capturas de pantalla, escaneos y diagramas, áreas en las que la mayoría de los modelos de visión por computadora se quedan cortos.

El modelo permite la entrada de hasta 32 768 tokens de texto e imágenes de hasta 20 megapíxeles. Una de las innovaciones clave de este modelo son sus dos modos de salida:

  • Incrustaciones de vector único: incrustaciones compactas de documentos para textos e imágenes en un espacio semántico común. Los usuarios pueden elegir tamaños de vectores de incrustación que van desde 2048 hasta 128 dimensiones, con una pérdida mínima de precisión. Las incrustaciones más cortas ahorran espacio de almacenamiento y aumentan la velocidad para indexar y recuperar, pero son menos precisas, por lo que los usuarios pueden decidir por sí mismos el equilibrio entre velocidad, recursos informáticos y precisión de recuperación.
  • Incrustaciones multivector: las incrustaciones multivector tienen el mismo tamaño que la entrada (128 dimensiones por token de texto y proporcionales al tamaño de las imágenes) y son útiles en medidas de similitud de “interacción tardía”. Estas incrustaciones son más grandes y las comparaciones son más costosas desde el punto de vista computacional que con las incrustaciones de vector único, pero resultan en una coincidencia de mayor precisión.

Jina AI optimizó este modelo para varias tareas, con módulos de extensión LoRA compactos y seleccionables que soportan tres usos diferentes:

  • Recuperación asimétrica: la recuperación basada en incrustaciones funciona mejor cuando los documentos y textos de consulta están codificados de forma diferente. Jina Embeddings v4 soporta esto mediante dos extensiones LoRA separadas capacitadas para trabajar juntas: una para documentos a indexar y otra para consultas.
  • Similitud semántica: medición del grado de coincidencia entre dos textos en cuanto a su significado o tema. El descubrimiento de documentos relacionados, la deduplicación y la alineación de traducciones son aplicaciones comunes de la similitud semántica.
  • Tareas específicas del código: comportamiento y entrenamiento especial para la tecnología informática y la similitud del lenguaje de programación.

jina-embeddings-v3 es un modelo de incrustación multilingüe y multipropósito solo de texto que soporta hasta 8192 tokens de entrada de texto y produce incrustaciones de longitud variable seleccionadas por el usuario desde 64 hasta 1024 dimensiones. Este modelo compacto tiene menos de 600 millones de parámetros y ofrece un gran rendimiento para su tamaño, a pesar de que se lanzó en 2024.

Jina AI ha entrenado cinco módulos de extensión LoRA para soportar cuatro tareas: uno para similitud semántica y dos para recuperación asimétrica, similar a jina-embeddings-v4 anterior, así como dos adicionales:

  • Clasificación: clasificar de textos en categorías. Se puede utilizar para análisis de sentimiento, filtrado de spam, moderación de contenido e identificación de fraudes, entre otros.
  • Agrupación: dejar que la distribución de los textos determine las categorías a las que pertenecen. Se utiliza a menudo para sistemas de recomendación, agregación de noticias y tareas similares.

jina-code-embeddings (0.5b & 1.5b) son un par de modelos de incrustación especializados (uno con 500 millones de parámetros y otro con 1500 millones de parámetros) para lenguajes de programación y marcos de trabajo. Ambos modelos generan incrustaciones para textos en lenguaje natural y para 15 esquemas de programación diferentes, en entradas de hasta 32 768 tokens. Los usuarios pueden seleccionar su propio tamaño de incrustación de salida, desde 64 dimensiones hasta 896 para el modelo más pequeño y 128 a 1536 dimensiones para el más grande.

Tienen cinco modos de recuperación específicos para tareas, los cuales producen consultas e incrustaciones de documentos optimizados para cada tarea:

  • Código a código: recuperar código similar en varios lenguajes de programación. Esto se utiliza para la alineación de código, deduplicación de código y soporte para la portabilidad y refactorización.
  • Lenguaje natural a código: recuperar código que coincida con consultas, comentarios, descripciones y documentación en lenguaje natural.
  • Código a lenguaje natural: hacer coincidir el código con la documentación u otros textos en lenguaje natural.
  • Finalización de código a código: se utiliza para sugerir código relevante para completar o mejorar el código existente.
  • Preguntas y respuestas técnicas: identificación de respuestas en lenguaje natural a preguntas sobre tecnologías de la información, ideal para tareas de soporte técnico.

jina-clip-v2 es un modelo de incrustación multimodal que admite tanto textos como imágenes. Se ha entrenado para que los textos y las imágenes produzcan incrustaciones similares cuando el texto describe el contenido de la imagen. Esto hace posible la coincidencia multimodal, y cualquier base de datos que ya admita incrustaciones de texto puede usar este modelo directamente para admitir la recuperación de imágenes a partir de consultas de texto.

Este modelo también se ha entrenado para servir como un modelo de incrustación de texto de alto rendimiento, con amplio soporte multilingüe y un contexto de entrada de 8192 tokens para texto. Esto reduce los costos para los usuarios, ya que elimina la necesidad de modelos separados para la recuperación de texto a texto y de texto a imagen.

La entrada de imagen se reescala a 512 × 512 píxeles.

jina-reranker-m0 es un reclasificador de documentos por pares multilingüe y multimodal que utiliza un análisis de “interacción tardía” más detallado para mejorar la precisión de la recuperación. El reclasificador recibe una consulta textual y dos candidatos, que pueden ser textos, imágenes o uno de cada uno, y te indica cuál se ajusta mejor a la consulta. Este modelo se ha entrenado para admitir una amplia variedad de materiales gráficos impresos y generados por computadora, como diapositivas, capturas de pantalla y diagramas. Proporciona una manera poderosa de mejorar la precisión en entornos de búsqueda complejos. Las imágenes deben tener al menos 56 píxeles en cada lado, y las imágenes muy grandes se redimensionan hasta que no generen más de 768 parches de 28x28 píxeles. Los textos de consulta y los documentos candidatos no deben exceder los 10 240 tokens en total.

jina-reranker-v3 es un reclasificador de documentos de texto multilingüe por lista que utiliza el mismo enfoque de “interacción tardía” que jina-reranker-m0, pero reordena una lista completa de documentos según qué tan bien coinciden con una consulta. La reordenación por listas con modelos de IA es compatible con cualquier esquema de búsqueda (no solo aquellos basados en IA) que produzca una lista limitada de coincidencias candidatas, y como complemento a un esquema de búsqueda existente, mejora la precisión en general. Esto lo convierte en una mejora ideal para sistemas de búsqueda híbridos y heredados.

Este reclasificador solo se aplica a textos y acepta un total de 131 000 tokens de entrada, incluyendo la consulta y todos los documentos candidatos para reclasificar.

ReaderLM-v2 Es un pequeño modelo de lenguaje generativo que convierte HTML, incluidos los volcados del árbol DOM de páginas web a Markdown o JSON, según los esquemas de salida proporcionados por el usuario y las instrucciones en lenguaje natural. Esta herramienta aplica la IA al procesamiento previo de datos, gestionando de forma inteligente la estructura caótica de los datos extraídos de la web. Este modelo compacto supera a GPT-4 en las tareas específicas de conversión de datos para las que fue creado.

Primeros pasos

Visita el sitio web de Jina AI para acceder a los modelos e instrucciones sobre cómo usar las API web o para descargarlas y usarlas tú mismo.

Tutoriales y cuadernos

Estos tutoriales se refieren a modelos más antiguos de Jina AI, mientras que los nuevos tutoriales están en camino.

¿Estás listo para crear experiencias de búsqueda de última generación?

No se logra una búsqueda suficientemente avanzada con los esfuerzos de uno. Elasticsearch está impulsado por científicos de datos, operaciones de ML, ingenieros y muchos más que son tan apasionados por la búsqueda como tú. Conectemos y trabajemos juntos para crear la experiencia mágica de búsqueda que te dará los resultados que deseas.

Pruébalo tú mismo