Robot d'indexation web d'Elastic

Un outil d'indexation intelligent et intuitif

Le moyen le plus rapide d'indexer du contenu web dans Elasticsearch sans serveur, dans le cloud ou sur site

Video thumbnail

Commencez l'indexation dès maintenant

Configurez et déployez un robot d’indexation pour votre contenu Web à l’aide d’un terminal et d’Elasticsearch.

  • Exécuter l'image Docker

    Déployez le code du robot d'indexation sur votre propre infrastructure en l'exécutant à partir de Source ou de Docker.

  • Définir l'URL pour l'indexation

    Définissez une ou plusieurs URL que vous souhaitez indexer.

  • Configurer et connecter

    Configurez votre robot d'indexation et connectez-le à Elasticsearch.

Elasticsearch : la base vectorielle la plus déployée au monde

Copiez pour essayer localement en deux minutes

curl -fsSL https://elastic.co/start-local | sh
Consulter la documentation
OU

Prenez le contrôle avec le code open source

Personnalisez le robot d'indexation web d'Elastic (Open Crawler) pour répondre à vos besoins. Inspectez, modifiez et contribuez à votre projet tout en manipulant des documents volumineux, en effectuant des transformations et en récupérant des données dans le format souhaité.

Flexible et rapide : l'avantage d'Open Crawler

Profitez d'une dénomination des index sans limitations et de la possibilité d'utiliser des mappings personnalisés avant l'exploration. Améliorez les performances en indexant en masse les résultats de l'indexation dans Elasticsearch au lieu d'une page web à la fois.

Gérez les déploiements en toute simplicité

Gérez votre robot d'indexation web ouvert de manière programmatique avec de simples commandes CLI. Scalez facilement vos déploiements avec Terraform ou Puppet, et lancez ou arrêtez-les selon vos besoins. Éliminez les dépendances inutiles pour une gestion simplifiée. Déployez-le n'importe où, y compris dans des environnements sans serveur, et connectez-vous facilement à l'aide de petits outils simples.

  • Simple

    Code open

    Travaillez avec une base de code entièrement transparente et modifiable sur GitHub.

  • PERSONNALISABLE

    Indexez selon vos propres conditions

    Soyez précis avec les sélecteurs xPath et CSS pour affiner exactement ce dont vous avez besoin sur vos pages.

  • COMPLET

    Extraire toutes les données — y compris les PDF

    Grâce à l'extraction de contenu binaire, tous les types de données requis peuvent être extraits, intégrés et transformés en contenu consultable.

  • RECHERCHABLE

    Effectuer une recherche sémantique

    Intégrez-la facilement pour soutenir des expériences de recherche hybrides et conversationnelles.