Elastic Open Web Crawler

지능적이고 직관적인 색인 도구

서버리스, 클라우드 또는 온프레미스 환경에서 Elasticsearch로 웹 콘텐츠를 색인하는 가장 빠른 방법

Video thumbnail

지금 크롤링을 시작하십시오!

터미널과 Elasticsearch로 웹 콘텐츠용 크롤러를 설정하고 배포하세요.

  • Docker 이미지를 실행하십시오

    소스 또는 Docker에서 실행하여 자체 인프라에 웹 크롤러 코드를 배포하세요.

  • 크롤링 URL 설정

    크롤링하고자 하는 URL을 하나 이상 설정하십시오.

  • 구성하고 연결하십시오

    크롤러를 구성하고 Elasticsearch에 연결하십시오.

Elasticsearch - 가장 널리 배포된 벡터 데이터베이스

복사하여 2분 내에 로컬에서 시도

curl -fsSL https://elastic.co/start-local | sh
설명서 보기
또는

공개 코드로 제어

Elastic Open Web Crawler(오픈 크롤러)를 필요에 맞게 사용자 정의하세요. 대용량 문서를 처리하고, 변환을 실행하고, 원하는 형식으로 데이터를 검색하면서 프로젝트를 검사하고, 수정, 기여하세요.

유연하고 빠른: Open Crawler의 장점

제한 없는 인덱스 이름 지정과 크롤링 전에 사용자 정의 매핑을 사용할 수 있는 기능의 이점을 누리세요. 크롤링 결과를 한 번에 하나의 웹 페이지가 아닌 Elasticsearch로 일괄 색인하여 성능을 향상하세요.

배포를 손쉽게 관리

간단한 CLI 명령어로 오픈 웹 크롤러를 프로그래밍 방식으로 관리하세요. Terraform이나 Puppet을 사용하여 배포를 쉽게 확장하거나 축소할 수 있으며, 필요에 따라 배포를 시작하거나 중지할 수 있습니다. 불필요한 종속성을 제거하여 관리를 간소화하세요. 서버리스 환경을 포함하여 어디에서나 배포하고 작고 간단한 도구로 쉽게 연결할 수 있습니다.

  • 간편합니다.

    공개 코드 열기

    GitHub에서 완전히 투명하고 수정 가능한 코드베이스로 작업하세요.

  • 사용자 정의 가능

    원하는 방식으로 크롤링

    xPath 선택기 및 CSS 선택기를 사용하여 페이지에서 필요한 내용을 정확하게 구체화할 수 있습니다.

  • 철저하게

    PDF를 포함해 모든 곳에서 데이터 추출

    바이너리 콘텐츠 추출을 통해 모든 필요한 데이터 유형을 추출하고 가져와 검색 가능한 콘텐츠로 변환할 수 있습니다.

  • 검색 가능

    시맨틱 검색 수행

    간편하게 통합하여 하이브리드 대화형 검색 환경을 지원하세요.