Aryn は、PDF、HTML、プレゼンテーションなどの複雑な非構造化データに対応するAIを活用したドキュメント解析およびETLシステムです。30種類以上のファイル形式を処理し、表や画像などを高品質で抽出できます。Arynを使用して、ドキュメントのチャンク化、メタデータの抽出、ベクトル埋め込みの作成、高品質のデータを使用したElasticsearchベクトルおよびキーワードインデックスのロードを行うことができます。
ArynのドキュメントETLシステムには2つのコンポーネントがあります。
- Aryn DocParseは、ドキュメントのセグメント化とラベル付け、光学文字認識(OCR)の実行、表と画像の抽出を行うサービスです。各ドキュメントの構造化された出力(JSONまたはMarkdown形式)を返すことができ、タイトル、表、表の行と列、画像、および通常のテキスト用のラベル付きバウンディングボックスを提供します。DocParseは、PDF、Microsoft Word、Microsoft PowerPoint、テキストなど、30種類以上のドキュメント形式を処理できます。Aryn Partitionerと、8万件以上の企業ドキュメントでトレーニングされた最先端のオープンソースディープラーニングAIモデルを活用します。DocParseは、生成AIアプリのドキュメントETLパイプラインで使用したり、テーブル抽出やドキュメント処理のワークフローのみを目的として(この動画のように)使用できます。