Aryn.ai

Aryn은 PDF, HTML, 프레젠테이션 등과 같은 복잡한 비정형 데이터를 처리하는 AI 기반 문서 파싱 및 ETL 시스템입니다. 30여 가지 파일 형식을 처리할 수 있으며 표와 이미지 등을 높은 품질로 추출할 수 있습니다. Aryn을 사용하여 문서를 청크화하고 메타데이터를 추출하며, 벡터 임베딩을 생성하고 Elasticsearch 벡터 및 키워드 인덱스에 고품질 데이터를 로드할 수 있습니다.

Aryn의 문서 ETL 시스템은 두 가지 구성 요소로 이루어져 있습니다.

  • Aryn DocParse는 문서 분할 및 라벨링, 광학 문자 인식(OCR) 수행, 표 및 이미지 추출을 위한 서비스입니다. 각 문서의 구조화된 결과를 JSON 또는 마크다운 형식으로 반환할 수 있으며 제목, 표, 표 행과 열, 이미지, 일반 텍스트 등에 대한 라벨링된 상자도 제공합니다. DocParse는 PDF, Microsoft Word, Microsoft PowerPoint, 텍스트 등을 포함해 30가지 이상의 문서 형식을 처리할 수 있습니다. DocParse는 8만 건 이상의 엔터프라이즈 문서로 학습된 최첨단 오픈 소스 딥러닝 AI 모델인 Aryn Partitioner를 활용합니다. DocParse는 GenAI 애플리케이션용 문서 ETL 파이프라인은 물론 단순한 표 추출이나 문서 처리 워크플로우(예시 영상 참고)에도 활용할 수 있습니다.
[@portabletext/react] Unknown block type "block", specify a component for it in the `components.types` prop

시작하기

  1. 블로그: Aryn DocPrep, DocParse 및 Elasticsearch 벡터 데이터베이스를 활용한 고품질 RAG
  2. 노트북: Elasticsearch용 Aryn을 활용한 RAG

최첨단 검색 환경을 구축할 준비가 되셨나요?

충분히 고급화된 검색은 한 사람의 노력만으로는 달성할 수 없습니다. Elasticsearch는 여러분과 마찬가지로 검색에 대한 열정을 가진 데이터 과학자, ML 운영팀, 엔지니어 등 많은 사람들이 지원합니다. 서로 연결하고 협력하여 원하는 결과를 얻을 수 있는 마법 같은 검색 환경을 구축해 보세요.

직접 사용해 보세요