A Jina AI agora faz parte da Elastic, trazendo sua IA de busca multilíngue e multimodal de alto desempenho para os poderosos recursos de armazenamento, recuperação e indexação de dados do Elasticsearch. Os modelos da Jina AI podem ser integrados ao Elasticsearch por meio de uma API pública, que inclui 10 milhões de tokens gratuitos para testes.
jina-embeddings-v4 Trata-se de um modelo de incorporação multilíngue e multimodal que suporta imagens e textos em 30 línguas principais. Com 3,8 bilhões de parâmetros, ele alcança desempenho de última geração entre modelos de tamanho comparável e se destaca não apenas na recuperação de texto para imagem, mas também em tarefas de texto para texto. Tem um desempenho particularmente forte na recuperação de documentos visuais, lidando com tipos de imagem comuns, como gráficos, slides, maps, capturas de tela, digitalizações e diagramas, áreas em que a maioria dos modelos de visão computacional deixa a desejar.
O modelo suporta a entrada de até 32.768 tokens de texto e imagens de até 20 megapixels. Uma das principais inovações deste modelo é a presença de dois modos de saída:
- Embeddings de vetor único - Incorporações compactas de documentos para textos e imagens em um espaço semântico comum. Os usuários podem escolher tamanhos de vetores de incorporação que variam de 2048 a 128 dimensões, com perda mínima de precisão. Incorporações menores economizam espaço de armazenamento e aumentam a velocidade de indexação e recuperação, mas são menos precisas, permitindo que os usuários decidam o equilíbrio entre velocidade, recursos computacionais e precisão da recuperação.
- Incorporações multivetoriais — as incorporações multivetoriais têm o mesmo tamanho da entrada (128 dimensões por token de texto e tamanho proporcional para imagens) e são úteis em medidas de similaridade de "interação tardia". Essas incorporações são maiores, e as comparações são mais custosas computacionalmente do que com incorporações de vetor único, mas resultam em correspondência de maior precisão.
A Jina AI otimizou esse modelo para várias tarefas, com módulos de extensão LoRA compactos e selecionáveis que suportam três usos diferentes:
- Recuperação assimétrica — a recuperação baseada em incorporações tem um desempenho superior quando documentos e textos de consulta são codificados de maneira diferente, e a Jina Embeddings v4 oferece suporte a isso por meio de duas extensões LoRA separadas, treinadas para trabalhar em conjunto: uma para documentos a serem indexados e outra para consultas.
- Similaridade semântica — medição da proximidade entre dois textos em termos de significado ou tópico. A descoberta de documentos relacionados, a deduplicação e o alinhamento de traduções são aplicações comuns da similaridade semântica.
- Tarefas específicas de código — comportamento e treinamento especiais para tecnologia de computador e similaridade de linguagem de programação.
jina-embeddings-v3 É um modelo de incorporação multilíngue e multiuso somente de texto que suporta até 8.192 tokens de entrada de texto e produz incorporações de comprimento variável selecionadas pelo usuário de 64 a 1.024 dimensões. Este modelo compacto tem menos de 600 milhões de parâmetros e oferece um desempenho forte para seu tamanho, mesmo tendo sido lançado em 2024.
A Jina AI treinou cinco módulos de extensão LoRA para suportar quatro tarefas: uma para similaridade semântica e duas para recuperação assimétrica, semelhantes a jina-embeddings-v4 acima, bem como duas adicionais:
- Classificação — classificação de textos em categorias. Você pode usá-la para análise de sentimentos, filtragem de spam, moderação de conteúdo e identificação de fraudes, entre outros.
- Clustering — permita que a distribuição dos textos determine em que categorias eles se encaixam. Ela é frequentemente usada para sistemas de recomendação, agregação de notícias e tarefas similares.
jina-code-embeddings (0.5b & 1.5b) São dois modelos especializados de incorporação — um com meio bilhão de parâmetros, outro com 1,5 bilhão — para linguagens e frameworks de programação. Ambos os modelos geram incorporações para textos em linguagem natural e para 15 esquemas de programação diferentes, em entradas de até 32.768 tokens. Os usuários podem selecionar seu próprio tamanho de incorporação de saída, de 64 dimensões a 896 para o modelo menor, e de 128 a 1.536 dimensões para o maior.
Eles contam com cinco modos de recuperação específicos para cada tarefa, produzindo incorporações otimizadas de consultas e documentos para cada tarefa:
- Código para código — recupere códigos semelhantes em diferentes linguagens de programação. Isso é usado para alinhamento de código, deduplicação de código e suporte para portabilidade e refatoração.
- Conversão de linguagem natural em código — recupere códigos correspondentes a consultas, comentários, descrições e documentação em linguagem natural.
- Código para linguagem natural — combine código com documentação ou outros textos em linguagem natural.
- Preenchimento de código para código — usado para sugerir código relevante para completar ou aprimorar o código existente.
- Perguntas e respostas técnicas — identificação de respostas em linguagem natural para perguntas sobre tecnologias da informação, idealmente adequadas para tarefas de suporte técnico.
jina-clip-v2 é um modelo de incorporação multimodal que suporta tanto textos quanto imagens. Foi treinado para que textos e imagens produzam incorporações similares quando o texto descreve o conteúdo da imagem. Isso torna possível a correspondência multimodal, e qualquer banco de dados que já suporte incorporações de texto pode usar este modelo imediatamente para suportar a recuperação de imagens a partir de consultas de texto.
Este modelo foi treinado para também servir como um modelo de incorporação de texto de alto desempenho, com amplo suporte multilíngue e contexto de entrada de 8.192 tokens para texto. Isso reduz custos para os usuários, eliminando a necessidade de modelos separados para recuperação de texto para texto e texto para imagem.
A entrada da imagem é redimensionada para 512 x 512 pixels.
jina-reranker-m0 é um reclassificador de documentos em pares de texto multilíngue e multimodal que utiliza uma análise de "interação tardia" mais refinada para melhorar a precisão da recuperação. O reclassificador recebe uma consulta textual e dois candidatos, que podem ser textos, imagens ou um de cada, e informa qual deles corresponde melhor à consulta. Esse modelo foi treinado para suportar uma grande variedade de materiais gráficos impressos e gerados por computador, como slides, capturas de tela e diagramas. Ele oferece uma maneira poderosa de aumentar a precisão em ambientes de buscar desafiadores. As imagens devem ter pelo menos 56 pixels de cada lado, e imagens muito grandes serão redimensionadas até que não produzam mais do que 768 manchas de 28 x 28 pixels. Os textos de consulta e documentos candidatos não devem ter mais do que 10.240 tokens no total.
jina-reranker-v3 Trata-se de um reclassificador de documentos de texto multilíngue em lista que usa a mesma abordagem de "interação tardia" do jina-reranker-m0, mas reordena uma lista inteira de documentos de acordo com o quão bem eles correspondem a uma consulta. A reavaliação de listas com modelos de IA é compatível com qualquer esquema de busca, não apenas com os baseados em IA, que produza uma lista limitada de candidatos correspondentes e, como complemento a um esquema de busca existente, melhora a precisão em todos os aspectos. Isso o torna ideal como um aprimoramento para sistemas de busca híbridos e legados.
Esse reclassificador se aplica apenas a textos e aceita um total de 131.000 tokens de entrada, incluindo a consulta e todos os documentos candidatos à reclassificação.
ReaderLM-v2 Trata-se de um pequeno modelo de linguagem generativa que converte HTML, incluindo dumps de árvores DOM de páginas web, em Markdown ou JSON, de acordo com esquemas de saída fornecidos pelo usuário e instruções em linguagem natural. Esta ferramenta traz IA para o pré-processamento de dados, lidando de forma inteligente com a estrutura caótica dos dados coletados na web. Este modelo compacto supera o GPT-4 nas tarefas específicas de conversão de dados para as quais foi feito.
Introdução
Acesse o site da Jina AI para obter os modelos e instruções sobre como usar as APIs da web ou para baixá-las e usá-las você mesmo.
Tutoriais e notebooks
Esses tutoriais se referem a modelos antigos da Jina AI, com novos tutoriais a caminho.