Aryn은 PDF, HTML, 프레젠테이션 등과 같은 복잡한 비정형 데이터를 처리하는 AI 기반 문서 파싱 및 ETL 시스템입니다. 30여 가지 파일 형식을 처리할 수 있으며 표와 이미지 등을 높은 품질로 추출할 수 있습니다. Aryn을 사용하여 문서를 청크화하고 메타데이터를 추출하며, 벡터 임베딩을 생성하고 Elasticsearch 벡터 및 키워드 인덱스에 고품질 데이터를 로드할 수 있습니다.
Aryn의 문서 ETL 시스템은 두 가지 구성 요소로 이루어져 있습니다.
- Aryn DocParse는 문서 분할 및 라벨링, 광학 문자 인식(OCR) 수행, 표 및 이미지 추출을 위한 서비스입니다. 각 문서의 구조화된 결과를 JSON 또는 마크다운 형식으로 반환할 수 있으며 제목, 표, 표 행과 열, 이미지, 일반 텍스트 등에 대한 라벨링된 상자도 제공합니다. DocParse는 PDF, Microsoft Word, Microsoft PowerPoint, 텍스트 등을 포함해 30가지 이상의 문서 형식을 처리할 수 있습니다. DocParse는 8만 건 이상의 엔터프라이즈 문서로 학습된 최첨단 오픈 소스 딥러닝 AI 모델인 Aryn Partitioner를 활용합니다. DocParse는 GenAI 애플리케이션용 문서 ETL 파이프라인은 물론 단순한 표 추출이나 문서 처리 워크플로우(예시 영상 참고)에도 활용할 수 있습니다.