Elastic Open Crawler: Gerenciando a configuração do crawler como código

Com o Elastic Open Web Crawler e sua arquitetura orientada por linha de comando, ter configurações de crawler versionadas e um pipeline de CI/CD com testes locais agora é bastante simples de se obter.

Tradicionalmente, o gerenciamento de rastreadores era um processo manual e propenso a erros. Isso envolvia editar configurações diretamente na interface do usuário e ter dificuldades com a clonagem de configurações de rastreamento, reversão, controle de versão e muito mais. Tratar as configurações do rastreador como código resolve isso, proporcionando os mesmos benefícios que esperamos no desenvolvimento de software: repetibilidade, rastreabilidade e automação.

Esse fluxo de trabalho facilita a integração do Open Web Crawler ao seu pipeline de CI/CD para reversões, backups e migrações — tarefas que eram muito mais complicadas com versões anteriores do Elastic Crawler, como o Elastic Web Crawler ou o App Search Crawler.

Neste artigo, vamos aprender como:

Gerencie nossas configurações de rastreamento usando o GitHub.
Ter um ambiente local para testar pipelines antes da implantação.
Criar um ambiente de produção para executar o rastreador web com novas configurações sempre que enviarmos alterações para nossa branch principal.

Você pode encontrar o repositório do projeto aqui. No momento em que escrevo, estou usando o Elasticsearch 9.1.3 e o Open Web Crawler 0.4.2.

Pré-requisitos

Docker Desktop
instância do Elasticsearch
Máquina virtual com acesso SSH (por exemplo, AWS EC2) e Docker instalado.

Etapas

Estrutura de pastas
Configuração do rastreador
Arquivo Docker-compose (ambiente local)
Ações do GitHub
Testando localmente
Implantação em produção
Realizar alterações e redistribuir

Estrutura de pastas

Para este projeto, teremos a seguinte estrutura de arquivos:

Configuração do rastreador

Em crawler-config.yml, colocaremos o seguinte:

Este script irá extrair dados de https://web-scraping.dev/products, um site fictício para produtos. Iremos rastrear apenas as três primeiras páginas de produtos. A configuração max_crawl_depth impedirá que o rastreador descubra mais páginas do que as definidas como seed_urls , não abrindo os links dentro delas.

Elasticsearch host e api_key serão preenchidos dinamicamente dependendo do ambiente em que estamos executando o script.

Página do produto "Caixa de Balas de Chocolate" do domínio web-scraping.dev, um site simulado para testes de web scraping. A página exibe o título do produto, a imagem, a descrição e os elementos HTML para o preço e os botões de compra.

Arquivo Docker-compose (ambiente local)

Para o ambiente local docker-compose.yml, implantaremos o rastreador e um único cluster Elasticsearch + Kibana, para que possamos visualizar facilmente os resultados do rastreamento antes da implantação em produção.

Observe como o rastreador aguarda até que o Elasticsearch esteja pronto para ser executado.

Ações do GitHub

Agora precisamos criar uma ação do GitHub que copie as novas configurações e execute o rastreador em nossa máquina virtual a cada push para o repositório principal. Isso garante que sempre tenhamos a configuração mais recente implantada, sem precisar entrar manualmente na máquina virtual para atualizar arquivos e executar o rastreador. Vamos usar o AWS EC2 como provedor de máquinas virtuais.

O primeiro passo é adicionar o host (VM_HOST), o usuário da máquina (VM_USER), a chave SSH RSA (VM_KEY), o host do Elasticsearch (ES_HOST) e a chave da API do Elasticsearch (ES_API_KEY) aos segredos da ação do GitHub:

Uma página de configuração de "ações, segredos e variáveis", que exibe segredos do repositório, como VM_HOST, VM_KEY e VM_USER, em uma interface baseada na web.

Dessa forma, a ação poderá acessar nosso servidor para copiar os novos arquivos e executar a indexação.

Agora, vamos criar nosso arquivo .github/workflows/deploy.yml :

Essa ação executará os seguintes passos sempre que enviarmos alterações para o arquivo de configuração do rastreador:

Preencha o arquivo de configuração YAML com o host e a chave da API do Elasticsearch.
Copie a pasta de configuração para a nossa máquina virtual.
Conecte-se à nossa VM via SSH.
Execute o rastreamento com a configuração que acabamos de copiar do repositório.

Testando localmente

Para testar nosso rastreador localmente, criamos um script bash que popula o host do Elasticsearch com a versão local do Docker e inicia uma busca. Você pode executar ./local.sh para executá-lo.

Vamos verificar as Ferramentas de Desenvolvedor do Kibana para confirmar se o campo web-crawler-index foi preenchido corretamente:

Código do Kibana DevTools para confirmar se o índice do rastreador web está configurado corretamente.

Implantação em produção

Agora estamos prontos para enviar a alteração para a branch principal, o que implantará o crawler em sua máquina virtual e começará a enviar logs para sua instância do Elasticsearch Serverless.

Isso acionará a ação do GitHub, que executará o script de implantação na máquina virtual e iniciará a indexação.

Você pode confirmar se a ação foi executada acessando o repositório do GitHub e visitando a aba “Ações”:

As ações são implantadas na aba EC2 de um repositório GitHub.

Realizar alterações e redistribuir

Algo que você pode ter notado é que o price de cada produto faz parte do corpo do documento. O ideal seria armazenar o preço em um campo separado para que pudéssemos aplicar filtros a ele.

Vamos adicionar essa alteração ao arquivo crawler.yml para usar regras de extração para extrair o preço da classe CSS product-price :

Também vemos que o preço inclui um sinal de dólar ($), que devemos remover se quisermos executar consultas de intervalo. Podemos usar um pipeline de ingestão para isso. Observe que estamos fazendo referência a ele em nosso novo arquivo de configuração do rastreador acima:

Podemos executar esse comando em nosso cluster Elasticsearch de produção. Para o desenvolvimento, como é efêmero, podemos fazer com que a criação do pipeline faça parte do arquivo docker-compose.yml adicionando o seguinte serviço. Observe que também adicionamos um depends_on ao serviço de rastreamento para que ele seja iniciado após a criação bem-sucedida do pipeline.

Agora vamos executar `./local.sh` para ver a alteração localmente:

Executando `./local.sh` para ver a alteração de preço localmente.

Ótimo! Agora vamos impulsionar a mudança:

Para confirmar se tudo funciona corretamente, você pode verificar seu Kibana de produção, que deverá refletir as alterações e mostrar o preço como um novo campo sem o símbolo de dólar.

Conclusão

O Elastic Open Web Crawler permite que você gerencie seu crawler como código, o que significa que você pode automatizar todo o pipeline — do desenvolvimento à implantação — e adicionar ambientes locais efêmeros e testes com os dados rastreados programaticamente, para citar alguns exemplos.

Você está convidado a clonar o repositório oficial e começar a indexar seus próprios dados usando este fluxo de trabalho. Você também pode ler este artigo para aprender como executar uma pesquisa semântica em índices produzidos pelo rastreador.

Reportar um problema

Conteúdo relacionado

Maior taxa de transferência e menor latência: o Elastic Cloud Serverless na AWS recebe um aumento significativo de desempenho

Elastic Cloud Serverless Operações

14 de janeiro de 2026

Maior taxa de transferência e menor latência: o Elastic Cloud Serverless na AWS recebe um aumento significativo de desempenho

Fizemos um upgrade na infraestrutura da AWS para o Elasticsearch Serverless para hardware mais novo e rápido. Saiba como esse enorme aumento no desempenho gera consultas mais rápidas, melhor redimensionamento e custos mais baixos.

PG YG RF

Por: Pete Galeotti, Yuvraj Gupta e Rachel Forshee

Melhorando a relevância de modelos de incorporação multilíngues com reclassificação de busca híbrida.

Banco de dados vetorial Operações

3 de novembro de 2025

Melhorando a relevância de modelos de incorporação multilíngues com reclassificação de busca híbrida.

Aprenda como melhorar a relevância dos resultados de busca do modelo de incorporação multilíngue E5 usando o reranker do Cohere e a busca híbrida no Elasticsearch.

Por: Quynh Nguyen

Implantação de um modelo de incorporação multilíngue no Elasticsearch

Banco de dados vetorial Operações

22 de outubro de 2025

Implantação de um modelo de incorporação multilíngue no Elasticsearch

Aprenda como implantar um modelo de incorporação multilíngue e5 para busca vetorial e recuperação multilíngue no Elasticsearch.

Por: Quynh Nguyen

Como exibir os campos de um índice do Elasticsearch

Dados de indexação Mapeamentos

6 de agosto de 2025

Como exibir os campos de um índice do Elasticsearch

Aprenda como exibir os campos de um índice do Elasticsearch usando as APIs _mapping e _search, subcampos, _source sintético e campos de tempo de execução.

Por: JD Armada