弹性开放式爬虫：以代码形式管理爬虫配置

有了Elastic Open Web Crawler及其 CLI 驱动的架构，现在就可以非常直接地实现版本化爬虫配置和具有本地测试功能的 CI/CD 管道。

传统上，管理爬虫是一个手动且容易出错的过程。这涉及到直接在用户界面上编辑配置，以及克隆抓取配置、回滚、版本控制等问题。将爬虫配置视为代码可以解决这个问题，因为它提供了我们在软件开发中期待的相同优势：可重复性、可追溯性和自动化。

这种工作流程可以更轻松地将开放式网络爬虫带入您的 CI/CD 流水线，以进行回滚、备份和迁移--这些任务在使用早期的弹性爬虫（如弹性网络爬虫或应用程序搜索爬虫）时要棘手得多。

在本文中，我们将学习如何：

使用 GitHub 管理我们的抓取配置
在部署前进行本地设置以测试管道
创建一个生产设置，以便在每次向主分支推送更改时使用新设置运行网络爬虫

你可以在这里找到项目仓库。在撰写本文时，我使用的是 Elasticsearch 9.1.3 和 Open Web Crawler 0.4.2。

准备工作

Docker 桌面
Elasticsearch 实例
可通过 SSH 访问的虚拟机（如 AWS EC2）并安装 Docker

步长

文件夹结构
履带配置
Docker-compose 文件（本地环境）
Github 操作
本地测试
部署到 prod
进行更改和重新部署

文件夹结构

本项目的文件结构如下：

履带配置

在crawler-config.yml, 下，我们将填写以下内容：

这将从https://web-scraping.dev/products 抓取，这是一个产品模拟网站。我们只会抓取前三个产品页面。max_crawl_depth 设置将通过不打开其中的链接，防止爬虫发现比定义为seed_urls 的页面更多的页面。

Elasticsearchhost 和api_key 将根据我们运行脚本的环境动态填充。

"Box of Chocolate Candy 的产品页面" 来自 web-scraping.dev 域，这是一个用于测试 web scraping 的模拟网站。页面显示产品标题、图片、描述以及价格和购买按钮的 HTML 元素。

Docker-compose 文件（本地环境）

对于本地docker-compose.yml, ，我们将部署爬虫和单个 Elasticsearch 集群 + Kibana，这样在部署到生产环境之前，我们就可以轻松查看爬虫结果。

请注意爬虫是如何等待 Elasticsearch 准备好运行的。

Github 操作

现在，我们需要创建一个 GitHub Action，它将复制新设置，并在每次推送到 main 时在虚拟机中运行爬虫。这样就能确保我们始终部署有最新的配置，而无需手动进入虚拟机更新文件和运行爬虫。我们将使用 AWS EC2 作为虚拟机提供商。

第一步是将主机 (VM_HOST) 、机器用户 (VM_USER) 、SSH RSA 密钥 (VM_KEY) 、Elasticsearch 主机 (ES_HOST) 和 Elasticsearch API 密钥 (ES_API_KEY) 添加到 GitHub Action secrets 中：

"操作、机密和变量" 配置页面，在基于 Web 的界面中显示存储库机密，如 VM_HOST、VM_KEY 和 VM_USER。

这样，操作就能访问我们的服务器，将新文件复制过来并运行抓取。

现在，让我们创建.github/workflows/deploy.yml 文件：

每次我们向爬虫配置文件推送更改时，该操作都会执行以下步骤：

在 yml 配置中填入 Elasticsearch 主机和 API 密钥
将配置文件夹复制到我们的虚拟机
通过 SSH 连接到我们的虚拟机
使用我们刚从 repo 复制的配置运行抓取程序

本地测试

为了在本地测试爬虫，我们创建了一个 bash 脚本，将 Elasticsearch 主机与 Docker 中的本地主机进行填充，然后开始爬行。您可以运行./local.sh 来执行它。

让我们看看 Kibana DevTools，以确认 web-crawler-index 的填充是否正确：

部署到 prod

现在，我们准备推送到主分支，这将在虚拟机中部署爬虫，并开始向无服务器 Elasticsearch 实例发送日志。

这将触发 GitHub 操作，在虚拟机中执行部署脚本并开始抓取。

您可以访问 GitHub 仓库并访问 "操作 "选项卡，确认操作已执行：

进行更改和重新部署

您可能已经注意到，每个产品的price 都是文档正文字段的一部分。如果能将价格存储在一个单独的字段中，我们就可以根据它运行筛选器，这将是最理想的。

让我们在crawler.yml 文件中添加这一更改，使用提取规则从product-price CSS 类中提取价格：

我们还可以看到，价格包含一个美元符号 ($)，如果要运行范围查询，我们必须去掉这个符号。为此，我们可以使用摄取管道。请注意，我们在上面的新爬虫配置文件中引用了它：

我们可以在生产 Elasticsearch 集群中运行该命令。对于开发进程，由于它是短暂的，我们可以通过添加以下服务，使管道创建成为docker-compose.yml 文件的一部分。请注意，我们还为爬虫服务添加了一个depends_on ，这样它就能在管道创建成功后启动。

现在让我们运行`./local.sh` 查看本地的变化：

太好了！现在让我们推动变革：

要确认一切正常，可以检查生产的 Kibana，它应该会反映这些更改，并将价格显示为一个不带美元符号的新字段。

结论

Elastic Open Web Crawler 允许您将爬虫作为代码进行管理，这意味着您可以自动执行从开发到部署的整个流程，并以编程方式添加短暂的本地环境和针对爬虫数据的测试。

我们邀请您克隆官方资源库，并开始使用此工作流程为自己的数据编制索引。您还可以阅读本文，了解如何在爬虫生成的索引上运行语义搜索。

报告问题

作为代码的弹性开放式网络爬虫

准备工作

步长

文件夹结构

履带配置

Docker-compose 文件（本地环境）

Github 操作

本地测试

部署到 prod

进行更改和重新部署

结论

相关内容

更高的吞吐量和更低的延迟：AWS 上的 Elastic Cloud Serverless 性能显著提升

利用混合搜索重排提高多语言嵌入模型的相关性

在 Elasticsearch 中部署多语言嵌入模型

如何显示 Elasticsearch 索引的字段

在 Logstash 中使用 Ruby 脚本

准备好打造最先进的搜索体验了吗？