内容和数据采集

成功离不开索引

Elastic 提供了针对所有类型的数据和内容构建强大又灵活的采集机制所需的所有工具,包括开箱即用型的工具或 API。您可以快速进行设置,并有大量选项可供您视情况来丰富、转换和处理数据,以便您专注于构建功能强大的搜索应用程序。

借助 Elastic 网络爬虫,您可以轻松采集包括 PDF 在内的所有网页内容。
观看视频
使用开发人员 API 和预构建工具,开始构建搜索应用程序。
了解详情
查看所有可以关联各种工具和任何类型数据的方式。
查看集成

数据采集引擎

多样性是采集的一部分

借助功能强大、预构建但完全可配置的数据采集工具和公开的 API,您可按照自己的方式索引和管理数据,从而完全控制采集管道。

  • 数据提取

    在所有网站内容中进行查找、提取、索引和同步 — PDF 也会包括在内!使用 Elastic 的网络爬虫,将网页转换为可搜索的数据。

  • 数据连接器

    利用可与流行的效率工具关联的原生连接器和连接器客户端,以及方便获取的 API,为您的数据源构建连接器。

  • 采集 API

    借助合适的索引终端,使用 JavaScript、Java 和 Python 等主流语言客户端,构建定制采集管道。

  • 数据管道

    使用现有的 Elasticsearch 索引或 Elasticsearch 查询语法,将数据采集管道和管理部署到位。

向网站添加搜索功能

对网页内容进行索引最快的方式

无论您使用的是直观的 UI 还是灵活的 API,或者两者兼有,您都可以按照自己喜欢的方式配置爬取。由于您对爬取活动和历史记录一目了然,因此可以清楚地了解索引性能。

Video thumbnail

满怀信心地爬取内容

完全控制爬取过程

设置、维护、跟踪和改进您的网络爬取。

一体化搜索应用程序

一个内容源带来全部数据

灵活高效地捕获、索引和同步数据库或内容管理系统中的文档、文件、字段、元数据和其他关键信息。使用 API 采集、预构建连接器或可配置连接器包,快速将这些数据采集到 Elastic 中。在数据采集过程中,使用直观的 UI 和简单的规则,选择要同步哪些对象以及何时同步。

  • Azure Blob Storage

    原生

  • Confluence Cloud & Server

    原生

  • Dropbox

    原生

  • GitHub & GitHub Enterprise Server

    原生

  • Google 云端硬盘

    原生

  • Jira Cloud & Server

    原生

  • Microsoft SQL

    原生

  • MongoDB

    原生

  • MySQL

    原生

  • 网络驱动器

    原生

  • OneDrive

    原生

  • PostgreSQL

    原生

  • ServiceNow

    原生

  • SharePoint Online

    原生

  • Box

    连接器客户端

  • 定制连接器

    连接器客户端和框架

  • Gmail

    连接器客户端

  • Google Cloud Storage

    连接器客户端

  • Oracle

    连接器客户端

  • Outlook

    连接器客户端

  • S3

    连接器客户端

  • Salesforce

    连接器客户端

  • SharePoint Server

    连接器客户端

  • Slack

    连接器客户端

  • Teams

    连接器客户端

  • Zoom

    连接器客户端

满怀信心地进行连接

用于构建搜索体验的结缔组织

通过多种可从您的关键数据源中关联和同步内容的安全方式,您可以为所有需要索引的工具定制采集管道。

  • 开箱即用

    利用与热门内容源关联的预构建连接器来简化索引和同步工作。

  • 自行构建

    可通过定制连接器包和 API,快速关联到自有数据平台和旧有系统等。

  • 控制访问权限

    利用文档级的权限确保适当的访问,确保让正确的人看到正确的内容。