内容和数据采集

成功离不开索引

Elastic 提供了针对所有类型的数据和内容构建强大又灵活的采集机制所需的所有工具,包括开箱即用型的工具或 API。您可以快速进行设置,并有大量选项可供您视情况来丰富、转换和处理数据,以便您专注于构建功能强大的搜索应用程序。

借助 Elastic 网络爬虫,您可以轻松采集包括 PDF 在内的所有网页内容。

查看文档

使用开发人员 API 和预构建工具,开始构建搜索应用程序。

了解详情

查看所有可以关联各种工具和任何类型数据的方式。

查看集成

数据采集引擎

多样性是采集的一部分

借助功能强大、预构建但完全可配置的数据采集工具和公开的 API,您可按照自己的方式索引和管理数据,从而完全控制采集管道。

  • 数据提取

    在所有网站内容中进行查找、提取、索引和同步 — PDF 也会包括在内!使用 Elastic 的网络爬虫,将网页转换为可搜索的数据。

  • 数据连接器

    利用可与流行的效率工具关联的原生连接器和连接器客户端,以及方便获取的 API,为您的数据源构建连接器。

  • 采集 API

    借助合适的索引终端,使用 JavaScript、Java 和 Python 等主流语言客户端,构建定制采集管道。

  • 数据管道

    使用现有的 Elasticsearch 索引或 Elasticsearch 查询语法,将数据采集管道和管理部署到位。

向网站添加搜索功能

对网页内容进行索引最快的方式

无论您使用的是直观的 UI 还是灵活的 API,或者两者兼有,您都可以按照自己喜欢的方式配置爬取。由于您对爬取活动和历史记录一目了然,因此可以清楚地了解索引性能。

videoImage

满怀信心地爬取内容

完全控制爬取过程

设置、维护、跟踪和改进您的网络爬取。

  • 管理

    管理域和入口点,指定爬取规则,并在内容中嵌入爬虫指令。

  • 监测

    实时监视爬取工作,并在爬取完成后通过事件和系统日志审核爬取过程。

  • 故障排查

    识别并解决影响爬取稳定性、内容查找以及内容提取和索引编制的任何问题。

一体化搜索应用程序

一个内容源带来全部数据

灵活高效地捕获、索引和同步数据库或内容管理系统中的文档、文件、字段、元数据和其他关键信息。使用 API 采集、预构建连接器或可配置连接器包,快速将这些数据采集到 Elastic 中。在数据采集过程中,使用直观的 UI 和简单的规则,选择要同步哪些对象以及何时同步。

  • Box

    存储的文件、元数据等等

  • Confluence

    工作区、页面、博文等等

  • Dropbox

    存储的文件、元数据等等

  • GitHub

    问题、拉取请求、存储库等等

  • Gmail

    主题行、电子邮件内容等等

  • Google 云端硬盘

    G Suite 文档、存储的文件等等

  • Jira

    Epic、项目、问题等等

  • 网络驱动器

    数据提取和同步

  • OneDrive

    存储的文件、元数据等等

  • Salesforce

    联系人、机会、线索、沙箱等等

  • ServiceNow

    用户、事件、文章等等

  • SharePoint

    网站、存储的文件等等

  • SharePoint Server

    网站、存储的文件等等

  • Slack

    频道、对话等等

  • Zendesk

    工单内容、状态、优先级等等

  • 其他内容

    定制的数据源 API 可将所有其他数据源关联起来

满怀信心地关联内容

用于构建搜索体验的结缔组织

通过多种可从您的关键数据源中关联和同步内容的安全方式,您可以为所有需要索引的工具定制采集管道。

  • 开箱即用

    利用与热门内容源关联的预构建连接器来简化索引和同步工作。

  • 自行构建

    可通过定制连接器包和 API,快速关联到自有数据平台和旧有系统等。

  • 控制访问权限

    利用文档级的权限确保适当的访问,确保让正确的人看到正确的内容。