Engineering

Presentación del rastreador web de Elastic App Search

En Elastic Enterprise Search 7.11, nos complace anunciar el lanzamiento de la versión beta del rastreador web de Elastic App Search, una forma simple y poderosa de ingestar contenido web público para convertirlo instantáneamente en buscable en tu sitio web.

Hay diversas formas de hacer que el contenido en los sitios web sea buscable. Elastic App Search ya permite a los usuarios ingestar contenido cargando JSON, pegando JSON y mediante endpoints de API. En esta versión, la presentación del rastreador web beta brinda a los usuarios otro método conveniente de ingesta de contenido.

Disponible tanto para los despliegues autogestionados como de Elastic Cloud, el rastreador web recupera información de sitios web de acceso público y convierte al contenido en buscable en tus motores de App Search. App Search hace mucho trabajo duro por ti en segundo plano para que este contenido buscable sea relevante y fácil de ajustar con controles deslizantes, no código. 

Ahora adentrémonos en por qué presentamos el rastreador web en App Search.

¿Qué diferencia a este rastreador web? 

Respuesta corta: Con ustedes, Elastic Cloud. 

Si has seguido a Elastic Enterprise Search a lo largo de los años (amamos a nuestro club de fanáticos), recordarás que el rastreador web estaba (y sigue estando) disponible en Elastic Site Search. Sin embargo, solo Elastic App Search y Workplace Search están disponibles en el tan popular Elastic Cloud

Quizás estés pensando: “Sí, ¿y?” 

Bueno, migrar el rastreador web completamente repensado y rediseñado a App Search en Elastic Cloud tiene varias ventajas atractivas:

  • Tranquilidad gracias a beneficios: como servicio gestionado para Elasticsearch y Kibana, Elastic Cloud proporciona una velocidad, escala y relevancia superiores que definen a Elastic. Las actualizaciones con un clic, el escalado simple y la gestión de ciclo de vida del índice (ILM) son solo algunos de los motivos por los que los clientes recurren a Elastic Cloud. Y si ya eres cliente de Elastic Observability o Elastic Security, puedes gestionar todo tu despliegue en una consola poderosa.
  • Tus datos, tu decisión: Elastic Cloud está disponible en más de 40 regiones a nivel global en los principales Proveedores Cloud del mundo: Google Cloud (GCP), Microsoft Azure y Amazon Web Services (AWS). Tus datos, tu cloud, a tu manera.
  • Precios: con los nuevos precios de Elastic basados en recursos, no debes preocuparte por métricas misteriosas como la cantidad de usuarios, la cantidad de búsquedas, el tamaño de los documentos o los agentes desplegados. Tus costos se reducen a los recursos de hardware usados para almacenar, buscar y analizar tus datos, sin importar el caso de uso.

Si bien en este blog nos enfocamos en despliegues en el cloud, es importante destacar que el rastreador web de App Search ahora también estará disponible como un método de despliegue autogestionado, una opción que no estaba disponible con Elastic Site Search (o Swiftype).

¿Qué es lo que el rastreador web exactamente rastrea?

Antes de adentrarnos en cómo configurar el rastreador web, veamos primero el “qué”: qué es lo que el rastreador web rastrea en los sitios web públicos que específicas.

El rastreador web visitará una página web cuando proporciones una URL, como http://www.elastic.co. Desde allí, este rastreador seguirá cada enlace nuevo que encuentre en esa página y extraerá contenido para ingestarlo en tu motor de App Search. Esto es el descubrimiento de contenido. Cada enlace descubierto se rastrea de forma similar. En la ilustración de “árbol” se muestra cómo funciona esto en un nivel alto.

Rastreador web de App Search; realizando rastreo en un árbol de páginas enlazadas

En la imagen anterior, todas las páginas azules se rastrearon e indexaron. Sin embargo, ninguna de las páginas estaba enlazada a la página rosa, por lo que esta no se rastreará ni indexará. Para que el rastreador web visite una página que no está interconectada, la página debe proporcionarse directamente como un punto de entrada o estar incluida en un mapa del sitio. Veremos cómo configurar puntos de entrada más adelante en este blog.

Tipos de contenido extraídos

Con la versión beta del rastreador web, se puede extraer el siguiente contenido de las páginas HTML:

  • Título de la página
  • Descripción (meta)
  • Palabras clave (meta)
  • Cuerpo (normalizado, con etiquetas html removidas)
  • URL canónica
  • URL adicionales (para el mismo documento)
  • Enlaces

Capacitación práctica: Primeros pasos con el rastreador web

Comencemos por el principio y creemos un nuevo despliegue de Elastic Enterprise Search en Elastic Cloud. En el caso de clientes existentes de Elastic Site Search, clientes de Swiftype o quienes sean nuevos en Elastic Cloud, asegúrate de registrarte para una prueba gratuita de 14 días y experimenta la belleza del rastreador web.

  • En www.elastic.co, selecciona “Log in” (Inicia sesión) en la esquina superior derecha.
  • Hay varios métodos de SSO disponibles. O crea una cuenta nueva.
  • Una vez que hayas iniciado sesión, selecciona “Create deployment” (Crear despliegue).
  • Selecciona la plantilla de despliegue de Elastic Enterprise Search. Esta plantilla está optimizada para la salida de CPU, el almacenamiento y las zonas de disponibilidad. Todas las plantillas de despliegue pueden personalizarse según tus necesidades específicas después de crear un despliegue.
  • Selecciona tu Proveedor Cloud de la lista. La decisión es tuya: Google Cloud (GCP), Microsoft Azure o Amazon Web Services (AWS).
  • Asigna un nombre al despliegue y haz clic en “Create Deployment” (Crear despliegue).
  • Verás una pantalla de notificación que te mostrará que se creó tu despliegue. 

¡Felicitaciones! Estás camino a crear tu primer motor de App Search.

La solución Elastic Enterprise Search incluye dos aplicaciones: App Search y Workplace Search. Para este tutorial, selecciona el botón “Launch App Search” (Iniciar App Search).

Pantalla de bienvenida para el despliegue nuevo de Elastic Enterprise Search

¡Bien hecho! Ahora estás en App Search y listo para comenzar a crear un rastreador web.

El flujo de incorporación te ayuda a crear tu primer motor de búsqueda. Simplemente asigna un nombre a tu motor (algo como “my-elastic-search-engine” funcionará bien) y después verás una pantalla que te mostrará cuatro formas de ingestar tus datos: pegar JSON, cargar un archivo JSON, indexar por API o usar el rastreador web. A estas alturas, ya sabes cuál elegir.

En este punto, puedes elegir agregar tu propio sitio web o, por diversión, seleccionar Elastic.co como la URL de dominio para rastrear. Recuerda que el rastreador web visitará la página web especificada cuando proporciones la URL y extraerá contenido en el transcurso. A partir de allí, seguirá cada enlace nuevo en las páginas descubiertas hasta que el rastreador web no tenga salida.

Es aquí cuando la característica Entry Points (Puntos de entrada) resulta útil. Si hay una página “isla” que no está enlazada desde otra páginas, simplemente agrega esa URL completa como un punto de entrada. Desde allí, el rastreador web comenzará a indexar el contenido y continuará buscando enlaces nuevos para extraer contenido hasta que no pueda seguir avanzando.

Desde la misma página de la consola, puedes crear reglas de rastreo. Estas reglas permiten a los administradores incluir o excluir páginas en las que la URL coincida con la regla. Por ejemplo, quizá tu departamento de marketing usa páginas de destino de campaña; indicadas con el patrón de ruta /lp. Estas páginas de destino sirven para impulsar negocios nuevos con contenido dirigido, pero quizá no para el tipo de contenido que deseas que se incluya en tu motor de búsqueda. 

En la sección de reglas de rastreo, agrega una política nueva que no permita la indexación de contenido con cualquier ruta de URL que contenga /lp.  

¡Cuánto suspenso! Llegó el momento de rastrear. Una vez que se hayan completado todos los puntos de entrada y reglas de rastreo, selecciona el botón Start a Crawl (Comenzar un rastreo). 

Haz clic en la pestaña Documents (Documentos) y observa cómo se ingesta el contenido en el motor App Search. O haz clic en el ícono Query Tester (Herramienta de prueba de búsquedas) en la esquina superior derecha de la pantalla para buscar tu motor desde cualquier parte en la UI de App Search.

Si deseas probar de inmediato los resultados en un cuadro de búsqueda, selecciona la pestaña Reference UI (UI de referencia). Desde allí puedes usar la casilla de búsqueda basada en React lista para usar. O incluso mejor, crea y personaliza tu propia experiencia de búsqueda usando las bibliotecas de JavaScript de Elastic Search UI.

Ahora es tu turno

Creemos que disfrutarás del diseño poderoso pero simple del rastreador web. Llegó tu momento de probarlo.

El rastreador web de Elastic App Search está actualmente en versión beta y se encuentra disponible en todos los niveles de suscripción y en los despliegues autogestionados y de Elastic Cloud. Los clientes existentes de Elastic Cloud pueden acceder a Enterprise Search directamente desde la consola de Elastic Cloud

¿Nuevo en Elastic Cloud? Echa un vistazo a nuestras guías de inicio rápido (videos de capacitación breves para que puedas dar los primeros pasos rápido) y después inicia una prueba gratuita de 14 días de Elastic Enterprise Search. O descarga gratis las versiones autogestionadas de App Search o Workplace Search.

Recursos:

Blog: What’s New in Elastic Enterprise Search: Web crawler and Box as a content source (Novedades en Elastic Enterprise Search: Rastreador web y Box como fuente de contenido)

Documentos: App Search web crawler (Rastreador web de App Search)

Primeros pasos: Elastic Cloud: Inicia una prueba gratuita de 14 días