Aryn é um sistema de análise e ETL com IA para dados complexos e dados não estruturados, como PDFs, HTML, apresentações e muito mais. Ele pode processar mais de 30 formatos de arquivo e extrair tabelas, imagens e muito mais com qualidade. Você pode usar o Aryn para dividir documentos, extrair metadados, criar incorporações vetoriais e carregar seus índices vetoriais e de palavras-chave do Elasticsearch com dados de qualidade.

O sistema ETL de documentos da Aryn possui dois componentes:

  • Aryn DocParse é um serviço para segmentar e rotular documentos, executar reconhecimento óptico de caracteres (OCR) e extrair tabelas e imagens. Ele pode retornar a saída estruturada de cada documento em JSON ou Markdown e fornece caixas delimitadoras rotuladas para títulos, tabelas, linhas e colunas de tabelas, imagens e texto normal. O DocParse pode processar mais de 30 tipos de formatos de documentos, incluindo PDFs, Microsoft Word, Microsoft PowerPoint, texto e muito mais. Ele utiliza o Aryn Partitioner e seu modelo de IA de aprendizado profundo open source de última geração treinado em mais de 80 mil documentos corporativos. O DocParse pode ser usado em pipeline de ETL de documentos para apps GenAI ou apenas para extração de tabelas e fluxo de trabalho de processamento de documentos (como neste vídeo).
[@portabletext/react] Unknown block type "block", specify a component for it in the `components.types` prop

Começar

  1. Blog: RAG de alta qualidade com Aryn DocPrep, DocParse e banco de dados vetorial do Elasticsearch
  2. Notebook: RAG com Aryn para Elasticsearch.

Pronto para criar buscas de última geração?

Uma pesquisa suficientemente avançada não se consegue apenas com o esforço de uma só pessoa. O Elasticsearch é impulsionado por cientistas de dados, especialistas em operações de aprendizado de máquina, engenheiros e muitos outros que são tão apaixonados por buscas quanto você. Vamos nos conectar e trabalhar juntos para construir a experiência de busca mágica que lhe trará os resultados desejados.

Experimente você mesmo(a)