Aryn ist ein KI-gestütztes System zur Dokumentenanalyse und ETL für komplexe, unstrukturierte Daten wie PDFs, HTML, Präsentationen und mehr. Es kann über 30 Dateiformate verarbeiten und Tabellen, Bilder und mehr in hoher Qualität extrahieren. Sie können Aryn verwenden, um Dokumente zu unterteilen, Metadaten zu extrahieren, Vektoreinbettungen zu erstellen und Ihre Elasticsearch-Vektor- und Keyword-Indizes mit hochwertigen Daten zu laden.
Das Dokumenten-ETL-System von Aryn hat zwei Komponenten:
- Aryn DocParse ist ein Dienst zum Segmentieren und Beschriften von Dokumenten, zur Durchführung der optischen Zeichenerkennung (OCR) und zum Extrahieren von Tabellen und Bildern. Es kann den strukturierten Ausgang jedes Dokuments in JSON oder Markdown zurückgeben und bietet beschriftete Begrenzungsrahmen für Titel, Tabellen, Tabellenzeilen und -spalten, Bilder und normalen Text. DocParse kann über 30 Arten von Dokumentformaten verarbeiten, darunter PDFs, Microsoft Word, Microsoft PowerPoint, Text und mehr. Es nutzt den Aryn Partitioner und sein hochmodernes, Open-Source-Deep-Learning-KI-Modell, das auf über 80.000 Unternehmensdokumenten trainiert wurde. DocParse kann in Dokument-ETL-Pipelines für GenAI-Apps oder einfach für Tabellenextraktions- und Dokumentverarbeitungs-Workflows (wie in diesem Video) verwendet werden.