Aryn.ai

Aryn 是 AI 驱动的文档解析和 ETL 系统,适用于复杂的非结构化数据,如 PDF、HTML、演示文稿等。该工具支持处理 30 余种文件格式,可高质量提取表格、图像等内容。您可使用 Aryn 实现文档分块、元数据抽取、向量嵌入生成,并向 Elasticsearch 向量索引和关键词索引加载高质量数据。

Aryn 的文档 ETL 系统有两个组件:

  • Aryn DocParse 是一款文档分割与标注服务,支持光学字符识别(OCR)、表格及图像提取。它可将每份文档的结构化输出以 JSON 或 Markdown 格式返回,并提供标题、表格、表格行与列、图像及正文文本的标注边界框。DocParse 支持 30 多种文档格式的处理,包括 PDF、Microsoft Word、Microsoft PowerPoint、文本等。它运用了 Aryn Partitioner 及其基于 8 万多份企业文档训练的最先进开源深度学习 AI 模型。DocParse 可用于 GenAI 应用的文档 ETL 流水线,或仅用于表格提取及文档处理工作流(如本视频所示)。
[@portabletext/react] Unknown block type "block", specify a component for it in the `components.types` prop

开始使用

  1. 博客:使用 Aryn DocPrep、DocParse 和 Elasticsearch 向量数据库实现高质量的 RAG
  2. 笔记本:将 Aryn 的 RAG 用于 Elasticsearch。

准备好打造最先进的搜索体验了吗?

足够先进的搜索不是一个人的努力就能实现的。Elasticsearch 由数据科学家、ML 操作员、工程师以及更多和您一样对搜索充满热情的人提供支持。让我们联系起来,共同打造神奇的搜索体验,让您获得想要的结果。

亲自试用