Aryn es un sistema de análisis y ETL impulsado por IA para datos complejos y datos no estructurados como PDFs, HTML, presentaciones y más. Puede procesar más de 30 formatos de archivo y extraer tablas, imágenes y más con alta calidad. Puedes usar Aryn para dividir documentos, extraer metadatos, crear incrustaciones vectoriales y cargar sus índices vectoriales y de palabras clave de Elasticsearch con datos de alta calidad.
El sistema ETL de documentos de Aryn tiene dos componentes:
- Aryn DocParse es un servicio para segmentar y etiquetar documentos, ejecutar reconocimiento óptico de caracteres (OCR) y extraer tablas e imágenes. Puede devolver la salida estructurada de cada documento en formato JSON o Markdown y proporciona cuadros delimitadores etiquetados para títulos, tablas, filas, columnas de tablas, imágenes y texto normal. DocParse puede procesar más de 30 tipos de formatos de documentos, incluidos PDF, Microsoft Word, Microsoft PowerPoint, texto y más. Además, aprovecha Aryn Partitioner y su modelo de inteligencia artificial de aprendizaje profundo de código abierto y de última generación, capacitado en más de 80 000 documentos empresariales. DocParse se puede usar en pipelines ETL de documentos para GenAI apps o simplemente para flujos de trabajo de extracción de tablas y procesamiento de documentos (como en este video).