Aryn é um sistema de análise e ETL com IA para dados complexos e dados não estruturados, como PDFs, HTML, apresentações e muito mais. Ele pode processar mais de 30 formatos de arquivo e extrair tabelas, imagens e muito mais com qualidade. Você pode usar o Aryn para dividir documentos, extrair metadados, criar incorporações vetoriais e carregar seus índices vetoriais e de palavras-chave do Elasticsearch com dados de qualidade.
O sistema ETL de documentos da Aryn possui dois componentes:
- Aryn DocParse é um serviço para segmentar e rotular documentos, executar reconhecimento óptico de caracteres (OCR) e extrair tabelas e imagens. Ele pode retornar a saída estruturada de cada documento em JSON ou Markdown e fornece caixas delimitadoras rotuladas para títulos, tabelas, linhas e colunas de tabelas, imagens e texto normal. O DocParse pode processar mais de 30 tipos de formatos de documentos, incluindo PDFs, Microsoft Word, Microsoft PowerPoint, texto e muito mais. Ele utiliza o Aryn Partitioner e seu modelo de IA de aprendizado profundo open source de última geração treinado em mais de 80 mil documentos corporativos. O DocParse pode ser usado em pipeline de ETL de documentos para apps GenAI ou apenas para extração de tabelas e fluxo de trabalho de processamento de documentos (como neste vídeo).