Aryn est un système d’analyse de documents et ETL alimenté par l’IA pour les données non structurées complexes comme les PDF, le HTML, les présentations, etc. Il prend en charge plus de 30 formats de fichiers et peut en extraire des tableaux et des images, entre autres, avec une grande qualité. Aryn est l’outil idéal pour découper vos documents, en extraire des métadonnées, créer des plongements vectoriels et alimenter vos index vectoriels et par mots-clés d’Elasticsearch avec des données de haute qualité.
Le système ETL de documents d’Aryn est doté de deux composants :
- Aryn DocParse est un service qui permet de segmenter et d’étiqueter des documents, d’exécuter la reconnaissance optique de caractères (ROC) et d’extraire des tableaux et des images. Il peut renvoyer la sortie structurée de chaque document en JSON ou en Markdown et offre des boîtes englobantes libellées pour les titres, les tableaux, leurs lignes et leurs colonnes, les images et le texte normal. DocParse peut traiter plus de 30 types de formats de documents, notamment les PDF, Microsoft Word, Microsoft PowerPoint, le texte, etc. Il s’appuie sur l’Aryn Partitioner et son modèle d’IA d’apprentissage en profondeur open source de pointe, entraîné sur plus de 80 000 documents d’entreprise. On peut utiliser DocParse dans des pipelines ETL de documents pour des applications de GenAI ou uniquement dans le cadre de flux de travail d'extraction de tableaux et de traitement de documents (comme dans cette vidéo).