Aryn 是 AI 驱动的文档解析和 ETL 系统,适用于复杂的非结构化数据,如 PDF、HTML、演示文稿等。该工具支持处理 30 余种文件格式,可高质量提取表格、图像等内容。您可使用 Aryn 实现文档分块、元数据抽取、向量嵌入生成,并向 Elasticsearch 向量索引和关键词索引加载高质量数据。
Aryn 的文档 ETL 系统有两个组件:
- Aryn DocParse 是一款文档分割与标注服务,支持光学字符识别(OCR)、表格及图像提取。它可将每份文档的结构化输出以 JSON 或 Markdown 格式返回,并提供标题、表格、表格行与列、图像及正文文本的标注边界框。DocParse 支持 30 多种文档格式的处理,包括 PDF、Microsoft Word、Microsoft PowerPoint、文本等。它运用了 Aryn Partitioner 及其基于 8 万多份企业文档训练的最先进开源深度学习 AI 模型。DocParse 可用于 GenAI 应用的文档 ETL 流水线,或仅用于表格提取及文档处理工作流(如本视频所示)。