Elasticsearch Labs

AI Chat en Kibana ahora renderiza los dashboards de forma nativa

Teresa Alvarez Soler, Robert Jaszczurek — Mon, 25 May 2026 00:00:00 GMT

Elastic AI Chat en Kibana ahora convierte una pregunta en lenguaje simple en visualizaciones respaldadas por ES|QL o un dashboard completo, justo dentro de tu conversación. Describe las métricas que necesitas, refina mientras avanzas y guarda cuando el resultado sea satisfactorio. Todo permanece en la conversación hasta que estás listo para guardar, y entonces se convierte en un objeto Kibana de primera clase que tu equipo puede abrir, editar y reutilizar. Disponible como una vista previa técnica en Elastic 9.4

Watch video on Vidyard

El agente crea dashboards desde cero, pero también funciona con lo que ya tienes. Abre la barra lateral de AI Chat mientras se ve un dashboard y se conecta automáticamente. Pregunta por qué una métrica se disparó, desglosa por región o agrega un panel de comparación. Tu dashboard existente se convierte en el punto de partida, no solo en el producto final.

Detrás de escena: cómo creamos dashboards en AI Chat

Enseñamos al agente tareas específicas a través de habilidades, descripciones estructuradas de cómo operar en un problema dado. Sin embargo, crear una habilidad de dashboard significaba enseñar a un LLM a generar dashboards de Kibana válidos, y la API heredada de objetos guardados lo hacía muy difícil: JSON profundamente anidado, cambios sutiles de versión a versión, referencias frágiles. Necesitábamos un enfoque diferente.

Una API especialmente diseñada para dashboards programáticos

La nueva API de dashboards se diseñó precisamente para este escenario. En lugar de exponer el estado interno sin procesar, ofrece esquemas tipados y validados para cada tipo de panel. La API se encarga de la conversión entre estructuras externas limpias y las representaciones internas de Kibana, así que el agente puede centrarse en lo que debe incluir el dashboard en lugar de en cómo darle formato.

Una habilidad, una herramienta, muchas operaciones

La dashboard-management habilidad expone una sola manage_dashboard herramienta que acepta una matriz ordenada de operaciones. Cada operación es una acción discreta: establecer metadatos, agregar un panel de Markdown, crear visualizaciones respaldadas por ES|QL a partir del lenguaje natural, editar paneles existentes, agrupar paneles en secciones plegables o reposicionar elementos en la cuadrícula.

Puedes describir un dashboard completo: título, descripción, secciones y cada panel interior en una sola llamada:

{
 "operations": [
   { "operation": "set_metadata", "title": "Checkout latency investigation" },
   {
     "operation": "add_section",
     "title": "Overview",
     "panels": [
       { "query": "p95 checkout latency over the last 24h", "chartType": "xy" },
       { "query": "checkout error rate by region", "chartType": "metric" }
     ]
   }
 ]
}

Las operaciones se ejecutan en orden, por lo que los pasos posteriores pueden hacer referencia a los anteriores y basarse en ellos. Este diseño mantiene la conversación centrada en la intención en lugar de en los detalles de implementación.

El pipeline de visualización: del lenguaje natural a ES|QL y, finalmente, a las visualizaciones

Cuando solicitas un dashboard, el agente explora tus datos (índices, mapping de campos, tipos), luego planifica las visualizaciones y llama a manage_dashboard.

Cada panel pasa por su propia pipeline: selección de tipo de gráfico, generación de ES|QL, configuración de visualización y validación. Separamos esto del hilo principal del agente: la construcción de la visualización requiere varias llamadas al modelo por cada panel, y mezclarlo con el contexto principal sobrecargaría la ventana y entorpecería el razonamiento.

Dentro de manage_dashboard, todos los paneles se construyen de manera concurrente y luego se reensamblan en orden. El resultado es un dashboard completo con paneles insertados: sin visualizaciones huérfanas, sin problemas de sincronización.

Por qué movimos la creación de visualizaciones dentro de la herramienta del dashboard

Nuestro primer enfoque usó una herramienta separada para crear visualizaciones: una llamada por panel, y luego pasábamos cada archivo adjunto a la herramienta del dashboard. Funcionó, pero cada visualización necesitaba su propia llamada a la herramienta, su propio ciclo de vida y una entrega explícita. Lo peor es que, al editar una visualización en la conversación, el panel del dashboard no se actualizaba, lo que confundía a los usuarios.

Integramos la creación de visualizaciones directamente en manage_dashboard. Los mismos flujos de trabajo paralelos se ejecutan, pero los paneles se ensamblan en la estructura del dashboard sin archivos adjuntos intermedios. Menos llamadas, sin problemas de sincronización, un ciclo de vida único.

Las visualizaciones independientes siguen funcionando: puedes colocar gráficos existentes en un dashboard a través de referencias de archivos adjuntos, pero para construir desde cero, la creación en línea es la ruta más limpia

Para equipos de seguridad

Los analistas de SOC y los ingenieros de detección no pueden permitirse el lujo de tener que ir y volver al editor del dashboard en medio de una investigación. Con AI Chat, pide volumen de alertas por tipo de regla, host o táctica MITRE y velo en tu hilo en aproximadamente un minuto. A medida que la búsqueda se desarrolla, incorpora paneles, anomalías en la ejecución de procesos, conexiones de red, comparaciones de línea de tiempo, sin perder el contexto.

Guarda cuando hayas terminado. El dashboard se convierte en una referencia para la revisión posterior al incidente, un punto de partida para el próximo analista, o una sesión informativa semanal sobre amenazas (sin necesidad de una nueva explicación).

Lee más sobre cómo los equipos de seguridad pueden usar la creación de dashboards y otras capacidades de AI Chat recientemente lanzadas en esta publicación de blog.

Para ingenieros de observabilidad y confiabilidad del sitio (SRE)

Cuando un servicio se deteriora a las 2 a. m., no hay tiempo para crear dashboards desde cero. Con AI Chat, un SRE puede describir las métricas que necesita (latencia p99 por servicio, tasa de error frente a eventos de despliegue, reinicios del pod en la última hora) y obtener un dashboard completo en el hilo de investigación en aproximadamente un minuto. El agente puede refinarlo paso a paso a medida que el panorama se aclara: agregar un panel, cambiar la ventana de tiempo, desglosar por región.

Guarda el dashboard y estará inmediatamente disponible en la sala de crisis (los mismos paneles, el mismo encuadre) para todos los que se unan a la reunión sobre el incidente. Después del incidente, se convierte en la base para el análisis de lo ocurrido.

Lo que se viene

Estamos trabajando en la optimización de tokens, interacciones de pantalla completa más ricas, soporte de panel más amplio y mejoras continuas de calidad. La vista previa técnica es el momento adecuado para definir prioridades: si falta algo, avísanos a través del ícono “Enviar comentarios” en el menú superior.

Pruébalo

Actualiza a Elastic 9.4 (o inicia una prueba), abre AI Chat en modo de pantalla completa y pruébalo en una investigación real. Pídele al agente que te muestre un gráfico con las métricas que te interesan y, después, pídele el siguiente desglose. Si la historia se mantiene, guárdala y compártela: mismos paneles, mismo encuadre, sin necesidad de volver a explicarla. Requiere una licencia empresarial (comenzar).
El lanzamiento y la disponibilidad de cualquier característica o funcionalidad descrita en esta publicación quedan a exclusivo criterio de Elastic. Es posible que cualquier característica o funcionalidad que no esté disponible actualmente no se entregue a tiempo o no se entregue en absoluto.

Kibana reduce el tiempo de carga del dashboard hasta en un 25 %: esta es la estrategia de sondeo que hay detrás

Drew Tate, Matthias Wilhelm — Fri, 22 May 2026 00:00:00 GMT

Los dashboards de Kibana y Discover ahora se cargan hasta un 25 % más rápido gracias al sondeo continuo. En lugar de esperar entre comprobaciones periódicas, Kibana ahora mantiene abiertas las conexiones HTTP y entrega los resultados de las búsquedas de Elasticsearch en el momento en que están listos. En HTTP/2+ (el valor predeterminado de Kibana desde la versión 9.0), esto se activa automáticamente sin necesidad de configuración. En HTTP/1, Kibana recurre al sondeo tradicional para evitar el agotamiento del grupo de conexiones.

Cómo Kibana obtiene datos al cargar un dashboard

Cuando se abre un dashboard, la mayoría de los paneles (internamente, los llamamos insertables) inician una o más búsquedas de Elasticsearch. Sin embargo, en lugar de la simple llamada y respuesta de una búsqueda síncrona (sinc), usamos el poder de la búsqueda asíncrona (asinc) (docs).

Con la búsqueda asincrónica, los resultados de las consultas se mantienen disponibles en Elasticsearch fuera de cualquier solicitud HTTP en particular. Esto es importante porque

hace que la carga de datos sea resistente a la turbulencia de la red
impulsa nuestra función de búsqueda en segundo plano, que permite a los usuarios seguir trabajando en otras cosas en Kibana mientras esperan a que se cargue un dashboard o una sesión de Discover que tarda mucho en cargarse

Tras enviar la búsqueda inicial, Kibana monitorea la búsqueda para detectar cuándo está completa y recuperar el conjunto de resultados.

Cómo el sondeo tradicional afecta los tiempos de carga del dashboard de Kibana

En el sondeo tradicional, Kibana envía una búsqueda, cierra la conexión inicial y luego verifica periódicamente en Elasticsearch si la búsqueda ha finalizado.

Le damos a Elasticsearch un corto período de tiempo después del envío de la búsqueda para que simplemente complete la búsqueda y devuelva los resultados. Si la búsqueda se completa tan rápidamente, equivale a una simple llamada y respuesta. Pero para búsquedas más largas, la conexión inicial se cierra y Kibana comienza a verificar periódicamente la búsqueda para completarla. Esto se llama sondeo.

Desventajas en el rendimiento del sondeo tradicional

Si observamos la figura anterior, tal vez ya puedas ver el inconveniente de rendimiento de este enfoque: lo más probable es que la búsqueda termine durante uno de los intervalos de suspensión de Kibana, lo que lleva a perder tiempo.

En el peor de los casos (cuando una búsqueda se completa al comienzo de un período de inactividad) se desperdiciará toda la duración del intervalo de sondeo.

El impacto de una estrategia de retroceso

Aplicar una estrategia de retroceso, es una práctica estándar al realizar sondeos. Esto significa que cuanto más larga sea la duración de la búsqueda, con menos frecuencia realizamos el sondeo.

Sin embargo, esto también significa que el tiempo potencial perdido escala con la duración de la búsqueda.

Cómo los intervalos de sondeo generan patrones de latencia en forma de diente de sierra

Al unir estos factores, nuestro tiempo perdido se convierte en una función escalonada en diente de sierra.

Aquí, los picos representan los peores escenarios posibles y los valles, los mejores. Esto muestra que el sondeo tradicional nos puede costar desde nada hasta el tiempo completo del intervalo de sondeo, dependiendo de cuánto dure la búsqueda (y las condiciones de la red).

Sondeos continuos: cómo Kibana elimina el tiempo de espera

El problema con los sondeos tradicionales es la falta fundamental de coordinación entre Kibana y Elasticsearch. Idealmente, Kibana sabe inmediatamente cuándo hay resultados disponibles. Entonces, ¿qué pasaría si invirtiéramos el patrón de sondeo para que casi todo el tiempo se dedique a revisar Elasticsearch y no se pierda nada?

Con esta combinación de sondeos largos y sin más períodos de inactividad, los resultados se entregan no bien están listos.

Degradación de HTTP/1

La teoría es sólida. Entonces, ¿por qué este despliegue de Kibana parece tan degradado cuando activamos el sondeo continuo?

La clave es que este despliegue se está ejecutando sobre HTTP/1. En HTTP/1, las solicitudes HTTP se mapean 1:1 a conexiones TCP. Así que varias solicitudes de sondeo de larga duración están acaparando el límite de conexiones del navegador, lo que provoca que otras peticiones se pongan en cola.

En cambio, en HTTP/2+, las solicitudes de red pueden compartir conexiones TCP mediante multiplexación, así que no nos encontramos con este problema.

Entonces, en HTTP/2+ el sondeo continuo es una virtud, pero en HTTP/1 se convierte en un vicio.

	HTTP/1	HTTP/2+
Conexiones TCP	Uno por solicitud HTTP	Multiplexado (muchas solicitudes comparten conexiones)
Comportamiento del sondeo continuo	Degradación del rendimiento (agotamiento del grupo de conexiones)	Beneficio completo (resultados entregados inmediatamente)

Cómo Kibana detecta el protocolo HTTP para un sondeo óptimo

HTTP/2 es el protocolo recomendado y es el predeterminado de Kibana desde la versión 9.0, así que sería una pena no enviar esta mejora de rendimiento. Por otro lado, la experiencia de HTTP/1 está tan degradada que no es aceptable arriesgarse a usarla en ningún despliegue local que aún no haya actualizado su protocolo. La respuesta es clara: necesitamos detectar qué protocolo está en uso y aplicar la estrategia de sondeo óptima.

Ciertamente es posible que el servidor de Kibana sepa de qué protocolo está hablando. Pero hay un problema: el factor limitante es el grupo de conexiones del navegador. Eso significa que lo que realmente importa es lo que el navegador está diciendo.

Debido a los proxies, no siempre son los mismos.

Si basáramos nuestra optimización en el protocolo del servidor, podríamos equivocarnos de dos maneras diferentes.

Aplica sondeos continuos cuando no deberíamos y degrada la experiencia.
Si no aplicamos el sondeo continuo cuando deberíamos, nos perdemos la optimización.

Afortunadamente, los navegadores modernos proporcionan una manera de detectar el protocolo del último salto de red de cualquier solicitud completada mediante el uso de un PerformanceObserver. Así que nos fijamos en el protocolo de la primera búsqueda enviada y optimizamos en función de eso.

new PerformanceObserver((list) => {
  const entries = list.getEntries();
  const entry = entries.find(({ name }) => name.includes('/internal/search/'));
  if (entry) {
    this.protocolSupportsMultiplexing = ['h2', 'h3'].includes(entry.nextHopProtocol);
  }
});

Resultados de laboratorio: sondeo continuo frente a sondeo tradicional en Kibana

Para validar el sondeo continuo, creamos dashboards con retardos de búsqueda que iban de 1 a 23 segundos y medimos los tiempos de carga con y sin la optimización activada. Luego cargamos los dashboards con y sin sondeo continuo para medir las ganancias (nos divertimos mucho con race-for-the-prize).

El patrón reproduce nuestro diagrama de diente de sierra original. Para algunas duraciones de búsqueda, las ganancias son pequeñas, mientras que para otras ascienden a varios segundos.

Conclusión

Esta optimización reemplaza con éxito la latencia inherente al sondeo tradicional con una estrategia de sondeo continuo más eficiente. El reto principal fue implementar esta optimización condicionalmente para evitar la degradación del rendimiento en despliegues HTTP/1. Lo solucionamos usando el PerformanceObserver del navegador para detectar de forma confiable el protocolo en uso en el salto final de red.

Las pruebas de laboratorio validan la teoría, muestran que el sondeo continuo arroja resultados tan pronto como están listos. En promedio, esto conduce a una mejora significativa en la experiencia del usuario, lo que hace que los datos se carguen hasta un 25 % más rápido.

Este trabajo es el último paso en nuestro compromiso por reducir el tiempo que tardan nuestros usuarios en obtener información útil. Al hacer de Kibana un proxy más transparente para los datos de Elasticsearch, superamos los límites del rendimiento dentro de nuestra esfera de influencia. Más próximamente.

(en 2025, Thomas Neirynk ofreció una excelente visión general de los métodos y la motivación detrás de la mejora del rendimiento del dashboard de Kibana. Esta es una actualización sobre esa iniciativa).

Descríbelo, no lo dibujes: dashboard de Kibana con IA integrada a través de MCP y ES|QL

Stratoula Kalafateli — Fri, 22 May 2026 00:00:00 GMT

example-mcp-dashbuilder es una aplicación MCP open source que convierte una línea de comandos en inglés sencillo en un dashboard de Kibana interactivo y en tiempo real, todo dentro de la ventana de chat de tu editor. Describe el dashboard que deseas y la IA descubre tu estructura de índice, escribe las agregaciones ES|QL correctas para cada visualización y muestra una vista previa en línea a medida que va trabajando. Cuando termines, con un solo comando podrás exportar un dashboard de Kibana totalmente funcional con las visualizaciones reales de Lens, tu diseño de cuadrícula exacto y los colores personalizados conservados. En la actualidad, se admiten seis tipos de gráficos. El conjunto completo de Kibana Lens está previsto en el roadmap.

¿Qué es el generador de dashboard de Kibana?

¿Y si pudieras describir el dashboard que quieres en un lenguaje sencillo y ver cómo aparece, con gráficos interactivos, un diseño de arrastrar y soltar y la posibilidad de exportarlo a Kibana con un solo clic?

Eso es precisamente lo que hace example-mcp-dashbuilder. Es una aplicación open source (Model Context Protocol (MCP)) que conecta asistentes de IA a Elasticsearch que te permiten crear paneles completos de Kibana a través de la conversación. No hay que hacer clic en los menús. No hay que escribir manualmente las configuraciones de visualización. Solo describe lo que necesitas y la IA explora tus datos, escribe las consultas en lenguaje de búsqueda de Elasticsearch (ES|QL), construye los gráficos y entrega un dashboard interactivo en vivo, todo dentro de la ventana de chat de tu editor.

Watch video on Vidyard

De la línea de comandos al dashboard en segundos

Así es como se ve en la práctica. Escribes algo como:

"Crea un dashboard de tráfico web desde logstash-*, con solicitudes totales, bytes transferidos a lo largo del tiempo, fuentes geográficas principales y un desglose de código de respuesta"

La IA entonces:

Descubre tus datos: enumera índices, inspecciona mapeos de campo.
Escribe consultas ES|QL: adaptadas a tu esquema con las agregaciones correctas.
Crea visualizaciones: gráficos de barras, gráficos de líneas, métricas con líneas de destellos, mapas de calor, gráficos circulares.
Organiza todo: secciones plegables, títulos significativos, diseño adecuado.
Muestra una vista previa interactiva: directamente en el chat, con descripciones emergentes, un selector de hora y arrastrar y soltar.

Cada gráfico aparece en línea a medida que se crea, por lo que puedes ver el progreso en tiempo real. Luego view_dashboard muestra el dashboard completo con todos los paneles dispuestos en la cuadrícula de 48 columnas de Kibana.

Vista previa de un solo gráfico en línea.

Impulsado por ES|QL

Toda recuperación de datos usa ES|QL, el lenguaje de búsquedas canalizadas de Elasticsearch. La IA no se limita a pasar consultas sin procesar, sino que también utiliza su conocimiento integrado de la sintaxis de ES|QL, junto con la información sobre la estructura de tus datos, para escribir consultas correctas y eficientes para cada tipo de visualización.

El servidor incluye una referencia completa de ES|QL como recurso MCP. Antes de escribir cualquier consulta, la IA lee esta referencia para comprender los comandos, funciones y patrones disponibles. Combinada con una guía de mejores prácticas de visualización de datos (que también sirve como recurso), la IA sabe no solo cómo realizar consultas, sino qué constituye una buena visualización:

Usa BUCKET(@timestamp, 1 day) para series temporales; siempre SORT por el campo de tiempo.
Limita los gráficos circulares a seis porciones con | SORT value DESC | LIMIT 6.
Elige gráficos de barras para comparaciones de categorías, gráficos de líneas para tendencias, métricas para indicadores clave de rendimiento (KPIs).

Exploración de datos basada en IA con análisis abierto

Una cosa es crear un dashboard que ya diseñaste en tu cabeza. Preguntar "¿Qué tiene de interesante este índice?" y obtener una respuesta útil es más difícil. Requiere que la IA sepa cómo explorar, no solo cómo dibujar.

example-mcp-dashbuilder envía un recurso analysis://guidelines que define un flujo de exploración estructurado: perfila los datos, ejecuta agregaciones específicas, revela patrones que vale la pena investigar, crea gráficos para los hallazgos más interesantes y propone consultas desglosadas que el usuario podría querer a continuación. Frases desencadenantes, como "analizar mis registros" o "encontrar patrones en este índice", hacen que la IA lea el manual antes de hacer cualquier otra cosa, por lo que un prompt abierto produce una investigación coherente en lugar de un montón aleatorio de gráficos.

El resultado: puedes proporcionarle a la IA un índice desconocido y obtener a cambio un punto de partida: un dashboard más una breve lista de preguntas del tipo "¿Esto es lo que observé, quieres que profundice en alguno de estos puntos?".

Exportación e importación de dashboard de Kibana: el viaje de ida y vuelta completo

El viaje de ida y vuelta de exportación e importación es donde example-mcp-dashbuilder se vuelve realmente útil para los equipos que ya trabajan en Kibana. example-mcp-dashbuilder es una interfaz de dashboard conversacional que vive dentro de tu editor, pero no limita tu trabajo allí. Los paneles que crees aquí pueden trasladarse a Kibana cuando quieras, y los paneles existentes de Kibana pueden venir de otro lado para la edición asistida por IA.

Exportar a Kibana

Cuando te guste tu dashboard, un solo comando lo exporta:

"Exportar este dashboard a Kibana"

Cada panel se traduce a una visualización real de Kibana Lens. La traducción preserva:

Consultas ES|QL: transferidas directamente como fuentes de datos Lens ES|QL.
Posiciones de cuadrícula: el mismo sistema de 48 columnas que usa Kibana, así tu diseño se ve idéntico.
Colores personalizados: paletas de series, fondos de métricas, rampas de color de mapa de calor.

El resultado es un dashboard de Kibana completamente funcional. No es una captura de pantalla. No es una inserción. Un dashboard real que puedes compartir y continuar editando en Kibana.

El dashboard de Kibana y el dashboard del chat de cursor, uno al lado del otro.

Importar desde Kibana

El viaje de ida y vuelta también funciona en la otra dirección:

"Importar el dashboard de Kibana con ID abc-123"

Esto recupera un dashboard de Kibana existente, traduce sus visualizaciones de Lens de vuelta a configuraciones de gráficos editables, conserva la disposición de la cuadrícula y las secciones, y carga todo en example-mcp-dashbuilder. Desde ahí, puedes modificarlo con lenguaje natural y volver a exportarlo.

Esto hace que la IA sea un complemento de tu flujo de trabajo actual en Kibana, no un sustituto.

Temas personalizados y colores

¿Quieres un dashboard de marca? Solo pregúntanos.

"Crea un dashboard de temática rosa con colores personalizados"

Cada tipo de visualización admite una configuración de color personalizada:

Gráficos: palette acepta una matriz de colores hexadecimales para series y segmentos.
Métricas: color establece el color de fondo.
Mapas de calor: colorRamp define el gradiente, de valores bajos a altos.

La IA capta las solicitudes de temas de forma natural. Di, "Tema oceánico," y elegirá azules y verdes azulados. Di: "Que coincidan con los colores de nuestra marca" y proporciona los valores hexadecimales, y estos se transferirán a Kibana en el momento de la exportación.

Un dashboard temático con colores personalizados.

Cómo funciona example-mcp-dashbuilder: arquitectura MCP

example-mcp-dashbuilder se basa en MCP, el estándar abierto para conectar asistentes de IA con herramientas y datos externos. Aquí está la arquitectura a alto nivel:

El servidor MCP expone 25 herramientas que la IA puede llamar directamente, desde ejecutar consultas ES|QL hasta exportar dashboards, junto con un puñado de herramientas internas "exclusivas de la app" que la vista previa en línea usa para obtener datos, conservar los cambios de diseño y detectar campos de tiempo. Ofrece tres recursos: una guía de mejores prácticas para la visualización de datos, una referencia de ES|QL y un manual de análisis profundo que se activa con preguntas abiertas ("analiza mis logs", "¿qué hay de interesante en este índice?"). Y se ejecuta por stdio o HTTP. El transporte HTTP soporta respuestas transferibles y gestión de sesiones, de modo que varios clientes pueden conectarse a un solo servidor.

La app MCP es la vista previa interactiva. Está hecha con React, Elastic Charts y Elastic UI, todo empaquetado en un único archivo HTML independiente. Cuando la IA llama a view_dashboard o crea un gráfico, el host renderiza este HTML en un iframe en modo sandbox. La app se comunica completamente con el servidor a través del protocolo de aplicaciones MCP, con callServerTool() a través de postMessage para obtener datos, almacenar diseños y detectar campos de tiempo. No hay un servidor localhost, no hay un puerto para configurar ni una dependencia de red externa.

Esto significa que funciona con cualquier cliente compatible con MCP: Cursor, Claude Desktop, Claude.ai, VS Code con Copilot y más.

¿Qué tipos de gráficos soporta example-mcp-dashbuilder?

Al momento de escribir, se admiten seis tipos de gráficos que cubren los escenarios de dashboard más comunes:

Tipo	Lo mejor para	Ejemplo
Barra	Comparación de categorías	Solicitudes por origen geográfico
Línea	Tendencias a lo largo del tiempo	Bytes transferidos por hora
Área	Volumen a lo largo del tiempo	Volumen de solicitudes a lo largo del tiempo
Circular	Parte del todo (máximo seis segmentos)	Distribución de los códigos de respuesta
Métrica	Indicador clave de rendimiento (KPI) único con minilínea	Total de solicitudes con tendencia horaria
Mapa de calor	Patrones en dos dimensiones	Solicitudes por día de la semana y por hora

Los paneles de control admiten secciones plegables para su organización, un selector de tiempo con detección automática de campos de tiempo y la capacidad de guardar y cambiar entre varios paneles; las sesiones de chat paralelas permanecen aisladas entre sí mediante un dashboardId que se interpone en cada llamada a la herramienta.

Cómo instalar y ejecutar example-mcp-dashbuilder

example-mcp-dashbuilder es de open source y está listo para usar. Necesitarás Node.js 22+, una instancia de Elasticsearch (local o Elastic Cloud) y un cliente compatible con MCP.

Claude Desktop: descarga la última versión .mcpb de GitHub Releases y haz doble clic. Claude Desktop te pedirá tus credenciales de Elasticsearch.

Cursor / Claude Code / VS Code Copilot: apunta tu configuración de MCP al archivo tar publicado; sin clonar, sin npm install:

{
  "mcpServers": {
    "example-mcp-dashbuilder": {
      "type": "stdio",
      "command": "npx",
      "args": ["https://github.com/elastic/example-mcp-dashbuilder/releases/latest/download/example-mcp-dashbuilder.tgz"]
    }
  }
}

Establece ES_NODE, ES_API_KEY (o ES_USERNAME / ES_PASSWORD) y KIBANA_URL como variables de entorno. Si prefieres trabajar desde el código fuente, clona el repositorio y ejecuta npm run setup para un asistente interactivo que gestione tanto Elasticsearch local como Elastic Cloud (Cloud ID + clave API).

Y empieza a crear:

"Explora el índice de logs y crea el dashboard más completo que puedas"

A partir de ahí, la IA se encarga de todo. 😉

Roadmap: lo que viene para example-mcp-dashbuilder

Esta es una versión preliminar y la estamos desarrollando activamente. Algunas áreas en las que nos enfocamos:

Más tipos de gráficos: indicador, donut, treemap, tabla de datos y nube de cloud para igualar todas las capacidades de Lens.
Enviar paneles a Git: escribe las configuraciones de los paneles en un repositorio para el control de versiones y los flujos de trabajo de revisión de código.
Mejor experiencia de error: comentarios más detallados cuando las consultas ES|QL fallan, con sugerencias para correcciones comunes.
Flujos de análisis más ricos: ampliación del manual de análisis profundo para cubrir más formas de datos (log, métricas, trazas).

Nos encantaría saber lo que crees con él. Pruébalo, reporta problemas y cuéntanos qué visualizaciones y flujos de trabajo serían más útiles para tu equipo.

GitHub: elastic/example-mcp-dashbuilder

Agradecimientos

Gracias a Walter Rafelsberger y Tim Schnell por sus contribuciones a la implementación.

Preguntas frecuentes

¿Qué es example-mcp-dashbuilder? example-mcp-dashbuilder es una aplicación de open source MCP (Model Context Protocol) que conecta asistentes de IA con Elasticsearch. Te permite describir un dashboard de Kibana en lenguaje sencillo y genera automáticamente consultas ES|QL, crea visualizaciones y muestra un dashboard interactivo en tiempo real dentro de la ventana de chat de tu editor.

¿Qué lenguaje de búsqueda usa example-mcp-dashbuilder para recuperar datos? Toda la recuperación de datos utiliza ES|QL, el lenguaje de búsqueda de Elasticsearch. El servidor MCP incluye una referencia integrada de ES|QL que la IA consulta antes de escribir cualquier consulta, lo que garantiza una sintaxis correcta y agregaciones eficientes para cada tipo de visualización.

¿Puedo exportar paneles creados con example-mcp-dashbuilder a Kibana? Sí. Ejecutar "Exporta este dashboard a Kibana" convierte cada panel en una visualización real de Kibana Lens, conserva las consultas ES|QL, el diseño de cuadrícula de 48 columnas, los colores personalizados y las paletas de series. El resultado es un dashboard de Kibana completamente funcional, no una captura de pantalla ni una incrustación.

¿Puedo importar un dashboard de Kibana existente en example-mcp-dashbuilder para una edición asistida por IA? Sí. Al introducir el ID de un dashboard de Kibana, se recupera el dashboard existente, se convierten sus visualizaciones de Lens en configuraciones de gráficos editables y se cargan en example-mcp-dashbuilder. Después puedes modificar el dashboard usando lenguaje natural y volver a exportarlo a Kibana.

¿Qué clientes de MCP son compatibles con example-mcp-dashbuilder? example-mcp-dashbuilder funciona con cualquier cliente compatible con MCP, incluidos Cursor, Claude Desktop, Claude.ai y VS Code con Copilot. Es compatible tanto con el transporte stdio como HTTP, sin necesidad de configuración de servidor o puerto localhost.

¿Qué tipos de gráficos admite example-mcp-dashbuilder? La versión actual admite seis tipos de gráficos: barra, línea, área, circular, métrica (con minigráfico) y mapa de calor. Las adiciones previstas incluyen medidor, dona, gráfico de rectángulos, tabla de datos y nube de etiquetas para igualar las capacidades completas de Kibana Lens.

¿Qué necesito para ejecutar example-mcp-dashbuilder? Necesitas Node.js versión 22 o superior, una instancia de Elasticsearch (local o en Elastic Cloud) y un cliente compatible con MCP. Configura las variables de entorno ES_NODE, ES_API_KEY (o ES_USERNAME/ES_PASSWORD) y KIBANA_URL. Para Claude Desktop, descarga el archivo .mcpb Descarga el archivo desde GitHub Releases y haz doble clic para instalarlo.

Una búsqueda, múltiples proyectos de Elasticsearch Serverless: presentación de la búsqueda entre proyectos

Michael Peterson, Najwa Harif — Mon, 18 May 2026 00:00:00 GMT

La búsqueda entre proyectos (CPS) ya está disponible en Elastic Cloud Serverless. Con una sola búsqueda, como FROM logs*, puedes buscar datos en varios proyectos aislados, sin peering de red, gestión de certificados ni duplicación de datos. Los proyectos permanecen en sus propias regiones y clouds; solo recibes los resultados. Para los equipos que se ocupan de requisitos de residencia de datos, aislamiento de usuarios o alto egreso de costos al copiar logs, CPS significa que tus datos pueden vivir exactamente en el lugar en el que pertenecen y, aun así, ser buscados como si fueran uno solo.

Elastic Cloud Serverless ya elimina los dolores de cabeza de administrar la infraestructura y las actualizaciones de versiones. CPS lleva eso un paso más allá. Hemos reemplazado el peering de red complejo y la gestión manual de certificados con un modelo de vinculación simple. Ahora puedes tratar tus proyectos Elastic Cloud Serverless como simples espacios de nombres para tus datos. Ya sea que tengas que cumplir con estrictas leyes de residencia de datos, aislar los datos de los usuarios o simplemente evitar los altos costos de tráfico saliente que genera la duplicación de logs, CPS te permite buscar tus datos exactamente donde se encuentran con una sola consulta.

En esta publicación, explicaremos cómo funciona CPS, cómo controlar las búsquedas mediante etiquetas de proyecto y en qué se diferencia este nuevo modelo de la búsqueda entre clústeres tradicional (CCS).

Cómo vincular proyectos para la búsqueda entre proyectos

Para empezar a usar la búsqueda entre proyectos, vincula los proyectos en la consola de Elastic Cloud o mediante la API. La vinculación es simple y unidireccional: eliges un proyecto de origen y luego conectas los proyectos en los que debería buscar. Esos enlaces pueden abarcar distintas regiones, proveedores cloud y tipos de proyectos, por lo que tus datos pueden permanecer donde deben estar sin que por ello renuncies a una experiencia de búsqueda unificada.

Una vez creado el enlace, suele estar vigente en un minuto, aproximadamente. Si ya tienes Kibana abierto, actualiza para ver las nuevas capacidades de búsqueda entre proyectos.

Cómo la búsqueda entre proyectos consulta todos los proyectos vinculados en forma predeterminada

Una vez vinculados los proyectos, la búsqueda entre proyectos convierte los proyectos independientes en una única superficie de búsqueda lógica. Si tus logs están en varios proyectos, una búsqueda como FROM logs* busca en el proyecto de origen y en cualquier proyecto vinculado que tenga datos coincidentes. No es necesario nombrar cada objetivo remoto por adelantado.

Eso es una gran mejora con respecto a la búsqueda entre clústeres. En CCS, llegar a datos locales y remotos suele indicar que hay que escribir algo así como FROM logs*,*:logs*. Para los usuarios, eso significa menos complejidad de búsqueda. Para los equipos, esto nos acerca a una verdadera vista unificada de los datos distribuidos.

Para obtener más información sobre este tema, consulta los documentos del modelo de búsqueda CPS.

Si te interesa conocer los detalles técnicos sobre cómo lo creamos, consulta Cómo funciona la búsqueda entre proyectos (CPS) en Elasticsearch Serverless.

Control de búsquedas mediante el enrutamiento de proyectos

La búsqueda en todos los proyectos vinculados de forma predeterminada es conveniente y útil para muchos flujos de trabajo, pero no todas las búsquedas deben ir a todas partes. La búsqueda entre proyectos presenta el enrutamiento de proyectos, una forma de limitar una búsqueda a un subconjunto específico de proyectos.

Funciona mediante etiquetas de proyecto definidas en Elastic Cloud. Cada proyecto tiene atributos integrados como su alias, el proveedor cloud y la región. También puedes agregar tus propias etiquetas para reflejar cómo tu organización piensa sobre su patrimonio, como environment:prod, environment:test, una unidad de negocio o el nombre de un cliente. Entonces, Elasticsearch puede usar esos metadatos para decidir qué proyectos vinculados deben participar en una búsqueda.

Todos los endpoints de Elasticsearch que admiten la búsqueda entre proyectos aceptan un parámetro project_routing . En la versión preliminar técnica, el enrutamiento se limita al uso de alias de proyecto. Por ejemplo, configurar project_routing en _alias:my-linked-project envía la búsqueda solo a ese proyecto vinculado, mientras que _alias:_origin mantiene la búsqueda en el proyecto de origen. Con el tiempo, este modelo abre la puerta a un enrutamiento mucho más completo, en el que el alcance de la búsqueda puede seguir la estructura lógica de tu organización, en lugar de la disposición física de tu infraestructura.

Consulta los documentos de enrutamiento del proyecto para ver ejemplos y más detalles sobre cómo funcionan.

Enrutamiento de proyecto predeterminado a nivel del espacio de Kibana

Por ejemplo, si necesitas más precisión en la configuración de tus rutas de búsqueda, buscar en todos los proyectos vinculados podría generar una avalancha de falsos positivos en tus reglas de Kibana o resultados confusos en tus dashboards actuales. Para solucionar esto, puedes establecer un alcance de proyecto predeterminado a nivel de espacio en Kibana. Esto actúa como un preset seguro para ese espacio específico, lo que significa que todos los dashboards, las sesiones de Discover y las reglas de alerta lo respetan automáticamente. Los analistas aún pueden modificar el alcance manualmente durante una investigación si necesitan tener una perspectiva más amplia.

Esto es importante para los equipos que comparten un proyecto central, como los MSP, los MSSP y los centros de excelencia: puedes asignar a cada equipo su propio espacio de Kibana y restringirlo para que solo busquen los proyectos específicos de sus clientes, garantizando experiencias específicas para cada usuario. Los analistas aún pueden modificar el alcance manualmente durante una investigación si necesitan tener una perspectiva más amplia.

Puedes configurar este espacio predeterminado antes o después de vincular tus proyectos en la UI de cloud. Pero como CPS activa inmediatamente la función de "buscar todo" en cuanto se crea un enlace, configurar primero tus valores predeterminados de Kibana garantiza que las reglas de detección existentes no se ejecuten repentinamente contra un gran set de datos global y saturen a tu equipo.

Uso de etiquetas en búsquedas

Además de usar etiquetas para el enrutamiento de proyectos, también puedes usarlas en tus búsquedas ES|QL y _search. Esto puede ser útil para saber de dónde viene cada registro o fila de un conjunto de resultados o para ordenar, filtrar o agregar datos según esas etiquetas.

Por ejemplo, si quieres ver de qué proyecto proviene cada fila de una respuesta ES|QL, puedes agregar la etiqueta _project._alias a la búsqueda ES|QL:

FROM logs* METADATA _project._alias | ...

y esto te permite usar _project._alias en otras partes de la búsqueda e incluir cláusulas KEEP para verlo en el resultado final:

FROM logs* METADATA _project._alias | ... | KEEP @timestamp, message, _project._alias

Para ver más ejemplos del uso de etiquetas en las búsquedas, consulta este documento que describe cómo usarlas tanto en las API de búsqueda como en ES|QL.

Si le interesa conocer los detalles técnicos sobre cómo agregamos etiquetas a las búsquedas en Search y en ES|QL, consulta Búsqueda entre proyectos más rápida en Elasticsearch Serverless con etiquetas de proyecto y enrutamiento.

Cómo la búsqueda entre proyectos trata por igual los proyectos de origen y los proyectos vinculados

Si usaste CCS, es posible que sepas que el cluster local se trata de forma diferente a los clústeres remotos en varios aspectos.

Los errores del cluster local se manejan de manera diferente de los errores de los clústeres remotos. En concreto, CCS usa la configuración skip_unavailable para controlar cómo se gestionan los errores de los clústeres remotos, pero esa configuración no existe para el cluster local.
El cluster local no tiene un "alias de cluster", por lo que la expresión índice *:logs* busca en todos los proyectos remotos, pero omite el cluster local. Para buscar en ambos, tienes que usar la expresión índice logs*,*:logs*.

En CPS, cambiamos ambos de estos comportamientos para igualar el proyecto de origen y los proyectos vinculados.

En primer lugar, la configuración skip_unavailable no se usa en Elastic Cloud Serverless. En cambio, tú controlas si quieres obtener resultados parciales en una búsqueda a través del parámetro allow_partial_search_results en _search o _async_search o del parámetro allow_partial_results en ES|QL.

En segundo lugar, en Elastic Cloud Serverless, el proyecto de origen tiene un alias de proyecto. Se define en Elastic Cloud como todas las etiquetas del proyecto. Por lo tanto, en CPS, todas las búsquedas que figuran a continuación son equivalentes, se dirigen a todos los proyectos con un índice de "logs":

POST logs/_search

POST *:logs/_search


POST logs/search 
{
  "project_routing": "_alias:*"
}

Nota: Hay una diferencia importante entre la expresión índice calificada *:logs y la expresión no calificada logs en cuanto a cómo funciona el manejo de errores en torno a índices faltantes. Para obtener más detalles, consulta Expresiones de búsqueda calificadas y no calificadas en la documentación pública.

Modelo de control de acceso y seguridad para la búsqueda entre proyectos

Elastic ha creado un nuevo modelo de seguridad basado en el cloud, Universal Identity and Access Management (UIAM), que hace posible un principio clave para la búsqueda entre proyectos: los proyectos y los datos a los que puedes acceder no dependen del lugar desde donde lo hagas.

Ya sea que inicies una búsqueda desde tu proyecto principal de observabilidad o desde un proyecto de analítica ad hoc, tu acceso a los datos vinculados se mantiene constante, ya que los derechos de acceso se definieron en una ubicación centralizada. El modelo de autenticación y autorización basado en el cloud usa el servicio UIAM en el cloud para garantizar que tus permisos de acceso sean uniformes, independientemente del proyecto de origen.

Prueba la búsqueda entre proyectos

En definitiva, Elastic Cloud Serverless y CPS juntos reducen los problemas operativos y ofrecen opciones adicionales para organizar los datos sobre la base de consideraciones lógicas, en lugar de físicas u operativas. La búsqueda entre proyectos les permite a tus usuarios centrarse únicamente en la organización lógica de sus datos, lo que ofrece una experiencia de búsqueda unificada sin las complejidades físicas del pasado.

Búsqueda con IA de agentes y barreras de protección determinísticas en Elasticsearch para una ejecución segura de consultas

Alexander Marquardt, Honza Král, Taylor Roy — Mon, 18 May 2026 00:00:00 GMT

En las partes 1 a 7 de esta serie se describió un plano de control regulado para la búsqueda en el comercio electrónico. Un usuario introduce una consulta. El plano de control clasifica la intención, impone restricciones de negocio, resuelve conflictos de políticas y enruta a la estrategia de recuperación apropiada, todo antes de que se consulte el catálogo de productos. Toda la arquitectura asume que la entrada es un texto de búsqueda que ha escrito un comprador humano.

En esta última publicación nos preguntamos: ¿Qué cambia cuando la entrada proviene de un agente de IA?

La respuesta es que la arquitectura no cambia, pero las implicancias sí. Cada propiedad del plano de control regulada que es relevante para las consultas de autor humano es más importante cuando quien toma decisiones en sentido ascendente es un modelo de lenguaje grande (LLM). El determinismo, la auditabilidad, la resolución de conflictos y la aplicación de restricciones se convierten en medidas de seguridad fundamentales, en vez de simples comodidades operativas, ya que el sistema que genera los datos de entrada es de naturaleza probabilística.

El problema de la búsqueda con agentes

El enfoque más común para la búsqueda impulsada por IA es sencillo: proporciona al LLM el esquema de base de datos y las reglas de negocio en la indicación, y deja que el agente genere la consulta directamente.

Para un chatbot de comercio electrónico, esto significa inyectar el mapeo del índice, los tipos de campos, las taxonomías de categorías, la lógica de precios y las restricciones de negocio de Elasticsearch en la ventana de contexto del agente, y luego pedir al LLM que traduzca el lenguaje natural a un DSL de búsqueda de Elasticsearch válido. El LLM se convierte en el autor de la consulta.

Este enfoque funciona en demostraciones. Sin embargo, falla en producción por cuatro razones.

Exceso de contexto

El mapeo de índices de comercio electrónico empresarial no es un documento trivial. Las definiciones de campo, los objetos anidados, las configuraciones de varios campos y la configuración del analizador pueden ejecutarse en miles de tokens antes de que se agregue cualquier lógica de negocio. Además del mapeo, el agente necesita taxonomías de categorías (que en el comercio electrónico empresarial pueden contener decenas de miles de valores), reglas de precios, jerarquías de marcas, restricciones de elegibilidad y lógica de campañas.

El resultado es una ventana de contexto en la que predominan los metadatos estructurales en vez de la intención real del usuario. Esto aumenta la latencia, incrementa el costo de los tokens y reduce la capacidad del LLM para seguir instrucciones a medida que aumenta el contexto. Este es un fenómeno bien documentado, a veces llamado descomposición de contexto: a medida que el mensaje se hace más largo, la atención del modelo a cualquier instrucción particular se debilita.

Alucinación probabilística

Los LLM generan consultas basadas en patrones en sus datos de entrenamiento y el contexto proporcionado. Cuando se le solicita al modelo que genere un DSL de consulta de Elasticsearch, este puede inventar nombres de campos inexistentes, elaborar cláusulas de consulta sintácticamente inválidas, aplicar de forma errónea tipos de filtro a campos equivocados o generar consultas que son sintácticamente válidas pero semánticamente incorrectas, por lo cual arroja resultados que no coinciden con la intención del usuario.

La prueba de rendimiento BIRD de Google Cloud para la conversión de texto a SQL muestra los límites de este enfoque. El resultado de vanguardia de un solo modelo de Google alcanzó entre un 70% y un 80% de precisión, lo que significa que casi una de cada cuatro consultas generadas era incorrecta. Esto es para SQL, que está mucho más estandarizado que Elasticsearch Query DSL. La tasa de error para consultas de Elasticsearch generadas por LLM en un entorno de producción real, con mapeos complejos y semántica específica del negocio, probablemente sería mayor.

Una tasa de error de una de cada cuatro consultas en un sistema de comercio electrónico que es fundamental para los ingresos no es un problema de ajuste que deba resolverse de forma iterativa. Es una limitación arquitectónica del enfoque.

La brecha de seguridad

Cuando el LLM tiene acceso al esquema de la base de datos y actúa como el autor de la consulta, el sistema es vulnerable a la inyección indirecta de indicaciones. Un usuario que interactúa con un chatbot de comercio electrónico puede crear entradas diseñadas para manipular al agente y que genere consultas no intencionadas.

No se trata de un riesgo teórico. La inyección de indicaciones es una de las superficies de ataque que más se investiga de forma activa en sistemas de MLM desplegados. El problema fundamental es que, cuando el agente crea la consulta, no hay una separación clara entre la intención del usuario y la ejecución de la consulta. El LLM interpreta la solicitud del usuario y, al mismo tiempo, crea la operación de la base de datos. Cualquier manipulación de la primera afecta directamente a la segunda.

Fallo de escalado de alta cardinalidad

Ciertos campos del comercio electrónico tienen una cardinalidad extrema. Un catálogo de productos puede tener 17 000 valores de categoría, miles de marcas y cientos de combinaciones de atributos. Los flujos de trabajo estándar de los agentes requieren inyectar estos valores en el contexto para que el LLM pueda seleccionar el correcto al construir una consulta.

Esto crea un dilema imposible: se inyectan todos los valores posibles (consumiendo un contexto enorme y degradando el rendimiento), se inyecta un subconjunto (y se acepta que el agente no puede hacer referencia a valores fuera de ese subconjunto) o se recurre a una búsqueda no regulada. Esto se conecta directamente con el problema principal de la Parte 1: si el LLM busca “naranjas” y Elasticsearch devuelve refresco de naranja, la experiencia de chat se degrada de la misma manera que lo hace una experiencia de búsqueda.| La ausencia de gobernanza significa que el sistema no puede aplicar la resolución prevista por el comprador.

Recuperar valores relevantes que estén dinámicamente basados en la consulta es una alternativa conocida, pero introduce un paso adicional no determinista donde la recuperación en sí puede omitir valores relevantes. Además, esto agrega latencia y complejidad a cada consulta.

La alternativa arquitectónica: desacoplar la intención de la ejecución

El plano de control regulado descrito en las Partes 1 a 7 ofrece un enfoque totalmente diferente. En vez de que el LLM elabore la consulta final, su papel se reduce a una sola tarea bien delimitada: extraer un texto de intención de búsqueda de la entrada de lenguaje natural del usuario.

El usuario dice: "Estoy buscando zapatos marrones baratos". La función del agente no es generar una consulta de Elasticsearch. Su función es extraer y transmitir la intención de búsqueda (en este caso, algo como "zapatos marrones baratos") al plano de control. Entonces, el plano de control hace lo de siempre: filtra la intención de texto por las políticas almacenadas, compone las políticas coincidentes mediante transformaciones en cascada, resuelve los conflictos de forma determinista y produce una consulta de Elasticsearch controlada.

El LLM nunca ve el mapeo de índice. Nunca sabe sobre tipos de campos, taxonomías de categorías o umbrales de precios. Nunca construye una cláusula de consulta. Opera en el lado del lenguaje natural de un límite arquitectónico que llamamos el espacio aéreo de metadatos, una separación estricta entre el componente probabilístico (el LLM) y la capa de datos estructurados (esquema, políticas y construcción de consultas).

Lo que proporciona el aislamiento de metadatos

Ceguera de esquema. El LLM no tiene acceso al esquema de la base de datos y, por lo tanto, no puede generar consultas inválidas, alucinar nombres de campo ni ser manipulado para exponer información estructural. El esquema existe solo en el lado determinista del aislamiento.
Contexto mínimo. En vez de miles de tokens de datos de mapeo, reglas de negocio y taxonomías de categorías, la indicación del LLM contiene solo instrucciones de extracción de persona e intención. Esto reduce drásticamente el costo de tokens, la latencia y la degradación del contexto.
Ejecución determinista. Cada consulta que llega a Elasticsearch está construida por el plano de control usando plantillas de políticas controladas por humanos, no generadas probabilísticamente por un LLM. La validez sintáctica está garantizada. La corrección semántica se aplica mediante el mismo marco de políticas descrito en las Partes 1 a 6.
Seguridad por arquitectura. La inyección inmediata deja de ser eficaz desde el punto de vista estructural. Incluso si un usuario manipula al agente para que produzca un texto de intención inusual, ese texto se filtrará por las políticas almacenadas. Si ninguna política coincide, no se genera ninguna consulta. El usuario no puede pedirle al agente que cree una consulta porque el agente no crea consultas. El plano de control lo hace, y el plano de control es determinista.

Cómo se conectan las piezas

El siguiente recorrido muestra cómo el plano de control regulado maneja una consulta mediada por agente.

Paso 1: El usuario habla con el agente

Un comprador que interactúa con un chatbot de comercio electrónico dice: "Estoy buscando chocolate barato, nada con maní."

Paso 2: El agente extrae la intención

La función del LLM es extraer intenciones, no generar consultas. Con un prompt mínimo que le indica identificar la intención del producto, el agente produce un texto de intención de búsqueda: "chocolate barato sin maní".

Esta es una tarea de clasificación sencilla. El LLM no necesita el mapeo de índice, la taxonomía de categorías ni las reglas de precios para realizarlo. Necesita entender el lenguaje natural, que es precisamente la fortaleza de los LLM.

Paso 3: El plano de control regula la consulta

El texto de intención "chocolate barato sin maní" se pasa al plano de control, que lo filtra por el índice de políticas. Tres políticas coinciden:

La política de "barato" (extrae "barato", aplica un filtro de precio basado en la categoría del producto).
La política de "chocolate" (limita los resultados a categorías de chocolate).
La política de negación "sin" (extrae el objetivo de exclusión y aplica un filtro must_not )

El plano de control aplica estas políticas mediante la misma transformación en cascada descrita en la Parte 3 y la Parte 4: orden de prioridad, resolución de conflictos por campo, seguimiento de frases consumidas. Si una política de “campaña navideña” también está activa, se compone con las políticas del producto exactamente como se describe en Parte 3, la participación del agente no cambia el modelo de gobernanza en absoluto.

Paso 4: Se ejecuta la consulta regulada

El plano de control produce una consulta de Elasticsearch completamente regulada: una búsqueda de “chocolate”, limitada a las categorías adecuadas, con un límite de precio derivado de la política “barato”, un filtro de exclusión para productos que contienen maní y cualquier impulso activo de campaña aplicado. Si la política de “chocolate” también incluye pesos de optimización económica (Parte 7), estos también se aplican. El aumento de margen está establecido en 3.0x porque “chocolate” es una consulta de navegación donde el minorista se beneficia de promover productos de mayor margen. Si el comprador tiene historial de compras (Parte 6), las señales de personalización se superponen. Esta consulta es sintácticamente válida por construcción y semánticamente correcta por diseño de políticas.

Paso 5: Los resultados se envían a través del agente

Los resultados del producto se arrojan al agente, que los presenta de forma conversacional al usuario. El papel del agente en la ruta de retorno es la presentación: formatear resultados, responder preguntas de seguimiento, proporcionar detalles del producto. La recuperación en sí fue regulada, determinista y explicable.

En qué es bueno el agente (y en qué no lo es)

Esta arquitectura aprovecha las fortalezas del LLM y protege al sistema de sus debilidades.

Los LLM sobresalen en la comprensión de la intención del lenguaje natural. “Estoy buscando chocolate barato, nada con maní” es una tarea de comprensión del lenguaje natural, análisis de intención, identificación de referencias de productos, reconocimiento de negación. Los LLM gestionan esto de forma fiable porque es un problema de clasificación, no de generación. La salida es un texto corto de intenciones, no una consulta estructurada y compleja.

A los modelos de lenguaje grande (LLM) les cuesta generar salidas estructuradas con precisión bajo restricciones complejas. La generación de una DSL de consulta de Elasticsearch válida requiere nombres de campo exactos, anidación correcta de cláusulas, tipos de filtro adecuados para cada campo y una aplicación coherente de reglas de negocio en miles de casos límite. Estas son exactamente las propiedades que un sistema determinista impone de forma trivial y que un sistema probabilístico impone de forma poco fiable.

El plano de control regulado coloca cada componente donde corresponde: el LLM en el lado del lenguaje natural, el motor de políticas deterministas en el lado de construcción de consultas, y un límite arquitectónico entre ellos.

La gobernanza limita el alcance del impacto

Esta es la misma información de la Parte 3, extendida al contexto agente. En la Parte 3, observamos que la gobernanza hace que la recuperación semántica sea más segura, ya que reduce el conjunto de candidatos antes de que comience la recuperación. Una búsqueda semántica sobre 500 productos en una categoría regulada es una propuesta muy diferente a una búsqueda semántica sobre 500 000 SKU.

El mismo principio se aplica a las consultas mediadas por agentes. Sin gobernanza, un agente que malinterprete "chocolate barato" podría generar una consulta que realice una búsqueda en todo el catálogo sin restricciones de precio, sin filtro de categoría y sin exclusiones. Con gobernanza, incluso si el agente produce un texto de intención imperfecto, el plano de control restringe la consulta a las políticas que coinciden. El peor caso es que se activen menos políticas, no que una consulta sin límite acceda al catálogo de productos.

La gobernanza reduce el alcance de los errores probabilísticos. Esto es cierto tanto si el componente probabilístico es un modelo de recuperación semántica como un agente LLM.

Políticas sugeridas por LLM: ampliar la cobertura

La Parte 2 presentó la idea de que un LLM puede sugerir nuevas políticas que ingresen en el mismo pipeline Author → Test → Promote que las de autoría humana. En el contexto de agentes, esto se convierte en un ciclo de retroalimentación poderoso.

Un LLM puede analizar registros de consultas, identificar patrones donde el plano de control no tiene una política coincidente (consultas que llegan a la recuperación sin modificaciones) y sugerir nuevas políticas para cubrir esas brechas. Un comerciante revisa cada sugerencia, la prueba y la promueve si produce el comportamiento esperado. El modelo de gobernanza asegura que ninguna política sugerida por LLM llegue a producción sin validación humana.

Con el tiempo, esto crea un ciclo virtuoso: la cobertura de políticas del plano de control se expande, la proporción de consultas que requieren una recuperación sin modificar se reduce, y el sistema se vuelve cada vez más regulado, con cada política auditable, versionada e individualmente reversible.

El patrón general: barreras de seguridad deterministas para sistemas probabilísticos

La arquitectura descrita en este serial, un plano de control determinista situado entre una fuente de entrada probabilística y un sistema de recuperación de datos, no es específica de la búsqueda en el comercio electrónico. El mismo patrón se aplica siempre que un agente de IA necesite interactuar con datos estructurados.

Un agente que consulta una base de datos SQL se enfrenta a los mismos desafíos: exceso de contexto por inyección de esquemas, nombres de columnas alucinados, riesgos de inyección inmediata y selección de valores de alta cardinalidad. Un agente que trabaja con un sistema de gestión de incidencias como Jira, un sistema de gestión de relaciones con los clientes (CRM) como Salesforce o un repositorio de código como GitHub se enfrenta a problemas similares. En todos los casos, la pregunta arquitectónica del núcleo es la misma: ¿Debe el LLM crear la consulta, o debe el LLM extraer la intención y pasarla a una capa determinista que crea la consulta?

El plano de control regulado proporciona una respuesta repetible a esa pregunta. Las políticas son datos. La función del LLM es extraer intenciones. El plano de control se ocupa de desarrollar consultas. El espacio de metadatos los mantiene separados. Y el marco de trabajo (orden de prioridad, resolución de conflictos, transformaciones en cascada, auditabilidad) asegura que la capa determinista sea operacionalmente manejable a medida que aumenta el número de políticas.

Conclusión

Los patrones de gobernanza de búsqueda en comercio electrónico descritos en este serial (políticas como datos, el flujo de trabajo Author → Test → Ascender flujo de trabajo, transformaciones en cascada, resolución de conflictos por campo, coincidencia inversa basada en filtro y respaldo multinivel) se diseñaron para un mundo donde el comerciante redacta políticas y el cliente tipifica consultas. Pero la arquitectura tiene más potencial que su caso de uso inicial.

Cuando la fuente de entrada es un agente de IA en vez de un comprador humano, el plano de control regulado se convierte en la capa de seguridad fundamental entre un sistema probabilístico y un almacén de datos de producción. Ofrece las garantías determinísticas (validez sintáctica, corrección semántica, auditabilidad y seguridad) que necesitan los sistemas empresariales y que los modelos de lenguaje grande (LLM) no pueden ofrecer por sí solos.

El plano de control determinista no reemplaza al agente de IA. Hace que el agente de IA sea seguro para desplegar.

Pon en práctica la búsqueda gobernada de comercio electrónico

La arquitectura del plano de control regulado descrita en este serial, desde el paradigma de política como datos hasta la búsqueda basada en filtro, personalización, optimización económica y el aislamiento de agente, fue diseñada y desarrollada por Elastic Services Engineering. Todos los patrones que se describen en esta serie provienen de un sistema operativo creado y validado con catálogos de productos a escala empresarial.

Si tu equipo está desarrollando experiencias de búsqueda impulsadas por IA y necesita límites deterministas para consultas mediadas por agentes, o si quieres implementar una arquitectura de búsqueda regulada y editable por el negocio en Elasticsearch, Elastic Professional Services puede acelerar tu implementación. Ponte en contacto con Elastic Professional Services.

Únete a la discusión

¿Tienes preguntas sobre la gestión de búsquedas, las estrategias de recuperación o la arquitectura de búsqueda en el comercio electrónico? Únete a la conversación general de la comunidad de Elastic.

Elastic Cloud en Kubernetes, simplificado: conciencia de zona, reinicios y MTL

Omer Kushmaro — Fri, 15 May 2026 00:00:00 GMT

ECK 3.4 hace que el Elastic Stack en Kubernetes sea más fácil de operar. La alta disponibilidad con reconocimiento de zonas, los reinicios progresivos seguros y el mTLS entre Kibana y Elasticsearch se configuran con una sola línea en tu manifiesto.

Si operas Elastic Cloud en Kubernetes (ECK), este lanzamiento trata de reducir la fricción en las cosas que haces todos los días.

Más fácil de operar, más fácil de entender

ECK 3.4 es una versión centrada en reducir las cosas en las que tienes que pensar cuando ejecutas The Elastic Stack en Kubernetes. Cada cambio de titular toma una tarea de varios pasos y la convierte en una única respuesta declarativa:

Conciencia simplificada de zonas. Decirle a ECK que un clúster debe estar distribuido entre zonas de disponibilidad ahora equivale a un solo campo en el NodeSet. El operador se encarga de la topología, la programación y la configuración de la integración con Elasticsearch por ti. Tus manifiestos reflejan lo que quieres decir, no cómo se conecta.
Reinicia un clúster igual que haces con todo lo demás. Ahora, la activación de un reinicio progresivo se indica mediante una anotación en el recurso de Elasticsearch Es declarativo, encaja con GitOps y deja un rastro de auditoría. No hay que forzar la edición en un campo no relacionado para obtener un lanzamiento.
El operador configura mTLS automáticamente. La conexión mutua de TLS entre Kibana y Elasticsearch requiere administrar CA, certificados de cliente por componente, montajes, rotación y configuraciones en ambos extremos. ECK 3.4 se encarga de todo eso: activa una opción en Elasticsearch, configura Kibana para que la utilice, y el operador se encarga del resto.

Esta versión es para hacer que las operaciones diarias de ECK sean aburridas, en el mejor sentido: menos campos para recordar, menos digresiones para mantener sincronizadas y manifiestos más fáciles de entender.

Conciencia simplificada de zonas

Haz que un clúster de Elasticsearch tenga disponibilidad alta en todas las zonas de disponibilidad al configurar un campo en el NodeSet. ECK 3.4 se encarga por ti de la distribución de la topología, la programación de pods y la configuración de la integración con Elasticsearch.

Antes, tenías que conectar todo esto a mano a través de cuatro objetos separados: una anotación en el recurso de Elasticsearch para etiquetas de Node descendentes, atributos de conciencia en la configuración de NodeSet, una fieldRef variable de entorno en la plantilla del pod para mostrar la zona, y un bloque topologySpreadConstraints coincidente más una regla nodeAffinity de fijación del clúster a zonas específicas. Aproximadamente cuarenta líneas de YAML, fácil de configurar mal.

En ECK 3.4, el mismo clúster optimizado para zonas tiene cuatro líneas:

apiVersion: elasticsearch.k8s.elastic.co/v1
kind: Elasticsearch
metadata:
  name: my-cluster
spec:
  version: 9.4.0
  nodeSets:
  - name: default
    count: 3
    zoneAwareness: {}

Para fijar un conjunto específico de zonas, nómbralas, y ECK agrega las reglas de afinidad de nodos necesarias que correspondan:

spec:
  nodeSets:
  - name: hot
    count: 3
    zoneAwareness:
      zones: ["us-east-1a", "us-east-1b", "us-east-1c"]

Si necesitas personalizar maxSkew o whenUnsatisfiable, proporcionar una restricción de distribución de topología coincidente con el mismo topologyKey en podTemplate aún tiene prioridad. Tu anulación sigue siendo una anulación.

Una nota para las actualizaciones: habilitar zoneAwareness en un NodeSet existente cambia la plantilla del pod StatefulSet (nuevas restricciones de propagación de topología, ZONE variable de entorno, afinidad de nodo, node.attr.zone), lo que desencadena un reinicio progresivo de una sola vez del NodeSet afectado. Planifica en consecuencia.

Para saber más sobre la gestión simplificada de zonas, puedes leer esta página en Elastic Docs.

Reinicio progresivo declarativo

Reiniciar un clúster de Elasticsearch sin cambiar sus especificaciones es ahora un flujo de trabajo estándar en la versión 3.4. Dos nuevas anotaciones en el recurso Elasticsearch hacen el trabajo:

eck.k8s.elastic.co/restart-trigger: establecer o cambiar este valor (una marca de tiempo es la opción convencional) para iniciar un reinicio progresivo. Si cambias el valor, se activará otro reinicio más adelante; si eliminas la anotación, no.
eck.k8s.elastic.co/restart-allocation-delay: texto de duración opcional (por ejemplo, "20m") pasado al API de apagado de nodo de Elasticsearch como el retraso de asignación durante el reinicio, para que puedas retrasar el reequilibrio mientras un pod se recicla.

apiVersion: elasticsearch.k8s.elastic.co/v1
kind: Elasticsearch
metadata:
  name: my-cluster
  annotations:
    eck.k8s.elastic.co/restart-trigger: "2026-04-30T10:00:00Z"
    eck.k8s.elastic.co/restart-allocation-delay: "20m"
spec:
  version: 9.4.0

Detrás de escena, ECK propaga el valor del disparador a las anotaciones de los pods, lo que cambia el hash de la plantilla StatefulSet y alimenta cada pod a través de la ruta de actualización progresivo existente (API de apagado de Node, predicados, eliminación de un pod a la vez). No hay un nuevo mecanismo de reinicio que aprender, y los mensajes de estado y la observabilidad que ya tienes en las actualizaciones progresivos se mantienen.

Para los usuarios de GitOps, esto significa que un pipeline de Flux/ArgoCD puede solicitar un reinicio al parchear una anotación: sin desviación de especificaciones, sin cambios diferenciales y sin edición forzada en un campo no relacionado.

mTLS gestionado para Kibana ↔ Elasticsearch

Con esta versión llega la orquestación de TLS mutua entre Kibana y Elasticsearch. El CRD de Elasticsearch acepta un único campo nuevo, spec.http.tls.client.authentication: true, que indica al clúster que requiera certificados de cliente en su interfaz HTTPs. ECK hace el resto: construye un paquete de confianza a partir de cualquier secreto etiquetado como eck.k8s.elastic.co/client-certificate: true, lo monta en los pods de Elasticsearch, establece xpack.security.http.ssl.client_authentication: required, y emite un certificado cliente del lado del operador para que pueda seguir comunicándose con el clúster durante todo el despliegue.

Esto hace que habilitar y configurar mTLS para la pila (solo Elasticsearch y Kibana, en esta versión) sea una tarea mucho más sencilla.

Cómo habilitar mTLS en Elasticsearch:

apiVersion: elasticsearch.k8s.elastic.co/v1
kind: Elasticsearch
metadata:
  name: secure-cluster
spec:
  version: 9.4.0
  http:
    tls:
      client:
        authentication: true # <---- This is all you need
  nodeSets:
  - name: default
    count: 3

En el lado del cliente, el controlador de asociación de Kibana detecta ahora la anotación client-authentication-required en el Elasticsearch referenciado y genera automáticamente un certificado cliente para Kibana, sin necesidad de configuración adicional. Si quieres llevar tu propio certificado (gestor de certificaciones, una PKI interna), señala el secreto que ya has provisionado:

apiVersion: kibana.k8s.elastic.co/v1
kind: Kibana
metadata:
  name: kibana
spec:
  version: 9.4.0
  count: 1
  elasticsearchRef:
    name: secure-cluster
    clientCertificateSecretName: my-custom-client-cert

ECK rota el certificado, monta el secreto en el pod de Kibana y conecta elasticsearch.ssl.certificate y elasticsearch.ssl.key. La limpieza de los recursos mTLS se pospone hasta que todos los pods se hayan actualizado, por lo que la conectividad se mantiene durante toda la transición.

Kibana es el primer componente de Stack en recibir este trato de primera clase en la versión 3.4. Próximamente se agregará compatibilidad con APM Server, Beats, Fleet Server, Elastic Agent, Logstash, Maps y Búsqueda empresarial. Mientras tanto, una nueva receta guía a través de mTLS manual para esos componentes mediante cert-manager.

Otras mejoras notables

Esta versión incluye otras mejoras que vale la pena destacar. Aquí tienes una lista con sus pull requests relacionadas.

Native Go FIPS 140-3 en el operador habilitado para FIPS (imagen separada). La imagen ECK compatible con FIPS (docker.elastic.co/eck/eck-operator-fips:3.4.0, además de una variante UBI eck-operator-ubi-fips:3.4.0) ahora viene con soporte nativo Go FIPS 140-3, fijado en el módulo GOFIPS140=v1.0.0 certificado y aplicado en tiempo de ejecución. La imagen estándar de eck-operator permanece sin cambios. Para Elasticsearch 9.4.0 o posteriores, el operador también genera y monta automáticamente una contraseña de almacenamiento de claves compatible con FIPS cuando se configura xpack.security.fips_mode.enabled: true (#9263, #9287).
Mejoras de fiabilidad que vale la pena destacar:
- Las CA obsoletas en la cadena de certificados ahora son detectadas y desencadenan una reemisión (#9197).
- Las fallas de generación de secretos Remote-CA no son bloqueantes (#9271).
- La etiqueta de selector de espacio de nombres de NetworkPolicy está fijada para configuraciones de multi-tenencia blanda (#9153).
- El controlador de Elasticsearch omite su PVC predeterminado si ya existe un volumen con el mismo nombre (#9199).
- El reconciliador de DaemonSet maneja el caché obsoleto de la misma manera que lo hace el reconciliador de despliegue (#9256).

Primeros pasos

Si ya estás usando ECK, actualiza a la versión 3.4.0. con Helm:

helm upgrade elastic-operator elastic/eck-operator -n elastic-system

O aplica el último manifiesto del operador directamente:

kubectl apply -f https://download.elastic.co/downloads/eck/3.4.0/crds.yaml
kubectl apply -f https://download.elastic.co/downloads/eck/3.4.0/operator.yaml

Si eres nuevo en ECK, comienza con la guía de inicio rápido para poner en marcha un clúster de Elasticsearch en Kubernetes en cuestión de minutos.

Para la lista completa de cambios, consulta las notas de lanzamiento de ECK 3.4.0 en GitHub.

Para empezar a usar Elastic Cloud hoy mismo, inicia sesión en la consola de Elastic Cloud o regístrate para una prueba gratis.

Preguntas frecuentes

¿Cómo hago que un clúster de Elasticsearch sea consciente de zonas en ECK sin escribir restricciones de distribución por topología?

Configura spec.nodeSets[].zoneAwareness: {} en el recurso de Elasticsearch. ECK deriva la topología, adjunta node.attr.zone, establece restricciones de distribución por topología maxSkew=1 e inyecta las etiquetas descendentes para ti. Proporciona zones: [...] si quieres fijar a un conjunto específico de zonas de disponibilidad. Si activas esto en un NodeSet ya existente, se producirá un reinicio progresivo único.

¿Puedo iniciar un reinicio progresivo de un clúster de Elasticsearch en Kubernetes sin modificar la especificación?

Sí. ECK 3.4 introduce dos anotaciones en el recurso Elasticsearch: eck.k8s.elastic.co/restart-trigger (establecer o cambiar el valor, por ejemplo, una marca de tiempo, para iniciar un reinicio progresivo) y eck.k8s.elastic.co/restart-allocation-delay (texto de duración opcional pasado a la API de apagado de Node de Elasticsearch). Eliminar la anotación del disparador no activa un nuevo reinicio.

¿Cómo puedo activar el TLS mutuo entre Kibana y Elasticsearch en Kubernetes?

Con ECK 3.4, establece spec.http.tls.client.authentication: true en el CRD de Elasticsearch y haz referencia a él desde Kibana a través de elasticsearchRef. ECK genera automáticamente un certificado de cliente para Kibana, crea un paquete de confianza a partir de cualquier secreto etiquetado como eck.k8s.elastic.co/client-certificate: true y configura xpack.security.http.ssl.client_authentication: required por ti. mTLS para Kibana ↔ Elasticsearch es una vista previa técnica en la versión 3.4.

¿La compatibilidad con ECK 3.4 mTLS abarca todos los componentes de Stack, como Beats y Fleet?

Todavía no. Kibana es el primer componente de Stack en recibir soporte mTLS de primera clase en la versión 3.4: el operador genera automáticamente su certificado de cliente. La compatibilidad con APM Server, Beats, Fleet Server, Elastic Agent, Logstash, Maps y Búsqueda Empresarial estará disponible en la próxima versión. Una nueva receta te guía paso a paso por la configuración manual de mTLS para aquellos componentes que, por el momento, utilizan cert-manager.

¿ECK es compatible con FIPS 140-3?

Sí, en una imagen de operador separada. ECK 3.4 publica una compilación con estilo FIPS (docker.elastic.co/eck/eck-operator-fips:3.4.0, más una variante UBI) con soporte nativo para Go FIPS 140-3. La imagen estándar eck-operator no ha cambiado. Para Elasticsearch 9.4.0 o posteriores, ECK también genera y monta automáticamente una contraseña de almacenamiento de claves compatible con FIPS cuando se configura xpack.security.fips_mode.enabled: true .

Potenciando Elasticsearch: agregamos soporte nativo de la API de Prometheus

Felix Barnsteiner — Mon, 11 May 2026 00:00:00 GMT

Conecta cualquier cliente compatible con Prometheus a Elasticsearch y ejecuta PromQL directamente sobre tus métricas existentes. Elasticsearch está agregando endpoints de búsqueda, descubrimiento y metadatos nativos de Prometheus como una vista previa tecnológica que funciona sobre métricas ingeridas a través de Prometheus Remote Write, OpenTelemetry o la API de bulk. La API se ejecuta sobre los flujos de datos temporales (TSDS) de Elasticsearch, por lo que no hay una capa de almacenamiento específica de Prometheus para operar.

Esta publicación explica cómo los endpoints de búsqueda, descubrimiento y metadatos se basan en el trabajo anterior de ingesta y búsqueda para formar esa superficie de API. Las publicaciones complementarias profundizan en las piezas individuales:

La compatibilidad nativa con PromQL en ES|QL explica cómo se traducen las consultas PromQL en planes de ejecución de ES|QL.
Envía métricas de Prometheus a Elasticsearch con Remote Write cubre la configuración de ingesta.
El artículo “Cómo funciona la ingesta de escritura remota de Prometheus en Elasticsearch” explica los detalles internos de la escritura remota.

Esto aún está en desarrollo. En las secciones siguientes se indica qué es lo que ya está disponible y qué partes aún están en desarrollo.

La superficie de la API

Hoy en día, la interfaz de programación de aplicaciones (API) compatible con Prometheus se divide en tres grupos.

Endpoints de consulta

Los endpoints de consulta permiten a los clientes compatibles con Prometheus evaluar expresiones PromQL:

GET /_prometheus/api/v1/query_range evalúa una expresión PromQL en un intervalo de tiempo (resultados en forma de matriz).
GET /_prometheus/api/v1/query evalúa en un solo punto en el tiempo (resultados vectoriales). Actualmente implementado como una búsqueda de alcance corto que devuelve la última muestra.

Hoy en día, solo GET es compatible con los puntos de consulta. Algunos clientes usan POST de forma predeterminada, así que es posible que tengas que configurarlos para que usen GET. La convención POST de Prometheus emplea application/x-www-form-urlencoded cuerpos, que la capa HTTP de Elasticsearch rechaza como salvaguarda CSRF antes de que la solicitud llegue al controlador.

Para ver el estado completo de la cobertura de PromQL, consulta la publicación complementaria sobre PromQL en ES|QL.

Endpoints de metadatos

Los endpoints de metadatos proporcionan la información de descubrimiento que los clientes necesitan para el autocompletado, los desplegables de variables y la navegación de métricas.

La serie, las etiquetas y los puntos finales de valores de etiqueta aceptan selectores match[] y un rango de tiempo (start/end). El parámetro match[] toma un selector de serie de Prometheus como http_requests_total{job="api"} y restringe la respuesta a series temporales que coinciden. Esto garantiza que las respuestas sean rápidas y pertinentes en clústeres con una gran cantidad de métricas. Por ejemplo:

GET /_prometheus/api/v1/series?match[]=http_requests_total{job="api"}

GET /_prometheus/api/v1/labels?match[]=http_requests_total

GET /_prometheus/api/v1/label/instance/values?match[]=http_requests_total{job="api"}

La primera devuelve todas las series para http_requests_total donde job="api", con sus conjuntos de etiquetas completos. La segunda devuelve solo los nombres de las etiquetas que existen en las series de http_requests_total. El tercero solo devuelve los valores de instance que aparecen en las series coincidentes.

GET /_prometheus/api/v1/metadata es diferente: devuelve el tipo y la unidad para cada métrica, opcionalmente filtrados por nombre mediante un parámetro metric.

GET /_prometheus/api/v1/metadata?metric=http_requests_total

No acepta match[] selectores ni un intervalo de tiempo. En Prometheus, los metadatos se recogen de objetivos activos de extracción (las líneas HELP, TYPE y UNIT que exponen), por lo que la respuesta no implica un escaneo de datos. Elasticsearch no tiene un almacén de metadatos dedicado como ese, por lo que la implementación actual descubre metadatos de métricas visitando datos temporales de las últimas 24 horas. Esto mantiene la consulta rápida sin requerir un escaneo completo del índice. Ese retroceso de 24 horas está corregido hoy: la API de metadatos de Prometheus no expone los parámetros start o end que Elasticsearch podría usar para que sean ajustables por el usuario.

Cómo funcionan los endpoints de metadatos de forma interna, incluidos los comandos TS_INFO y METRICS_INFO que los potencian, se explica a continuación.

Pre-filtrado de índices

Todos los endpoints de consulta y metadato aceptan un segmento de ruta {index} opcional después de /_prometheus/:

GET /_prometheus/metrics-prod-*/api/v1/query_range?query=up&start=...&end=...

Esto limita los índices de Elasticsearch contra los que se ejecuta la consulta antes de que comience la evaluación de cualquier expresión. En clústeres con muchos flujos de datos entre equipos o entornos, esto evita escanear índices no relacionados y puede reducir en gran medida la latencia de las consultas. Puedes configurar fuentes de datos independientes por patrón de índice para dar a los equipos acceso limitado a sus propias métricas.

Una nota sobre Remote Write

Para la ingesta, Elasticsearch también expone el endpoint estándar de escritura remota de Prometheus:

POST /_prometheus/api/v1/write ingiere series temporales a través del protocolo Prometheus Remote Write v1. v2 aún no es compatible.

La escritura remota escribe en los flujos de datos temporales existentes (TSDS) de Elasticsearch, no en una capa de almacenamiento específica de Prometheus separada. Las etiquetas de Prometheus se convierten en dimensiones de TSDS, y los nombres de las métricas se convierten en campos en el mapeo del índice. La publicación de arquitectura de escritura remota abarca todo el mapeo en detalle, incluso explica cómo se infieren los tipos de métricas y cómo se almacenan las etiquetas con un prefijo labels..

Cómo funciona

Detrás de escena, todos los endpoints funcionan de la misma manera: parsean los parámetros HTTP entrantes, construyen un plan de consulta ES|QL, lo ejecutan contra los flujos de datos de series temporales y convierten el resultado columnar de vuelta al formato JSON que esperan los clientes de Prometheus.

TS_INFO y METRICS_INFO

Los endpoints de metadatos deben responder preguntas como "¿qué etiquetas existen?" o "¿qué tipos de métricas están definidos?" a través de lo que podrían ser millones de series temporales, sin tener que analizar cada punto de datos.

A nivel interno, los endpoints de metadatos de Prometheus responden a esas preguntas construyendo planes de ES|QL basados en dos nuevos comandos de procesamiento: METRICS_INFO y TS_INFO. No es necesario usar estos comandos directamente para usar la API de Prometheus, pero son las primitivas de ejecución del núcleo detrás de las respuestas de metadatos. Ambos funcionan visitando solo un documento por serie temporal para extraer su metadato, en vez de escanear todas las muestras. Esto significa que su costo varía en función de la cantidad de series temporales distintas, no de la cantidad de puntos de datos.

METRICS_INFO devuelve una fila por cada métrica distinta, con su nombre, tipo, unidad y los campos de dimensión asociados. TS_INFO es más granular: una fila por combinación (métrica, serie temporal), incluyendo los valores de dimensión reales como un objeto JSON.

TS metrics-*
| METRICS_INFO
| SORT metric_name

Muy pronto llegará una publicación de blog especial sobre TS_INFO y METRICS_INFO que cubrirá el modelo de ejecución en dos fases, cómo escalan y cómo usarlos directamente en consultas de ES|QL por fuera de la API de Prometheus.

Cómo los endpoints de metadatos los emplean

Cada endpoint de metadatos construye un ES|QL plan con uno de estos comandos como núcleo.

/api/v1/labels y /api/v1/series usan TS_INFO, ya que necesitan detalles por serie temporal (qué etiquetas existen, qué valores de dimensión identifican cada serie). /api/v1/metadata y /api/v1/label/__name__/values usan METRICS_INFO, ya que solo necesitan información por métrica (nombres de métricas, tipos, unidades).

/api/v1/label/{name}/values para etiquetas normales (cualquier otra cosa que no sea __name__), no se usa ninguno de los dos comandos. Algunas etiquetas regulares como job o instance son campos dimensionales reales en el índice, por lo que el endpoint puede consultarlos directamente mediante una agregación según grupo. Cuando se proporcionan selectores match[], se traducen en una cláusula WHERE que filtra la serie temporal antes de que se ejecute la agregación.

La etiqueta __name__ necesita una estrategia diferente porque no siempre está presente como un campo dimensional. Prometheus Remote Write sí almacena labels.__name__, pero las métricas ingeridas por otros caminos (OpenTelemetry, la API de bulk) no la tienen. El nombre de la métrica está codificado en el propio nombre del campo (por ejemplo, metrics.http_requests_total). Podrías consultar las asignaciones de índices para enumerar los nombres de los campos, pero las asignaciones por sí solas no te dicen qué métrica tiene qué dimensiones, y no se pueden filtrar por valores de etiquetas de un selector match[]. METRICS_INFO puede hacer ambas cosas: enumera los nombres de las métricas en los índices mientras respeta los filtros WHERE upstream.

En todos los casos, la capa API gestiona la traducción de vuelta a las convenciones de Prometheus: eliminando los prefijos de almacenamiento labels. y metrics. y sintetizando __name__ para métricas no Prometheus que carecen de ellas.

En conclusión

El resultado: cualquier cliente compatible con Prometheus puede buscar y explorar métricas de Elasticsearch a través de endpoints que ya entiende. Las métricas de Remote Write así como las de OpenTelemetry y las métricas indexadas a través de otras rutas aparecen todas a través de la misma API, respaldadas por los mismos índices TSDS.

Todas las API de Prometheus que se mencionan aquí ya están disponibles como versión preliminar técnica en Elasticsearch Serverless. Para clústeres autogestionados y despliegues alojados de Elastic Cloud Hosted, disponibles como vista previa técnica en Elasticsearch 9.4, con la excepción de GET /_prometheus/api/v1/metadata. Para probarlo a nivel local, usa start-local.

Personalización de la búsqueda en comercio electrónico: integración del historial de compras y cohortes de usuarios

Alexander Marquardt, Honza Král, Taylor Roy — Mon, 11 May 2026 00:00:00 GMT

En las partes 1 a 5 de esta serie se describe un plano de control gobernado que clasifica la intención, impone restricciones, resuelve conflictos de políticas y enruta a la estrategia de recuperación apropiada, todo antes de que se consulte el catálogo de productos. Todos los mecanismos descritos hasta ahora tratan a todos los compradores de la misma manera. Una búsqueda de “chocolate” produce el mismo conjunto de resultados, independientemente de si el comprador es vegano, un padre que compra para el cumpleaños de su hijo o un consumidor que observa las leyes halal.

En esta publicación se presentan dos mecanismos de personalización que amplían el plano de control gestionado sin modificar su arquitectura. Ambos mecanismos se apilan multiplicativamente con la capa de gobernanza de las partes 1 a 5: las políticas aún se activan, las restricciones aún se aplican, los conflictos aún se resuelven y las señales de personalización se componen en la misma consulta gobernada, lo que asegura que los resultados que devuelve Elasticsearch ya están personalizados.

El primer mecanismo impulsa los productos que el comprador individual ha adquirido anteriormente. El segundo activa políticas específicas de cohorte basadas en el perfil del comprador. En conjunto, demuestran que la personalización no es un sistema separado que se combina con la búsqueda ni se aplica como procesamiento posterior a la recuperación; es una extensión natural del plano de control orientado a políticas.

Para profundizar en las matemáticas de las técnicas de personalización utilizadas en esta publicación, consulta Personalización de la búsqueda en Elasticsearch sin postprocesamiento de ML y Clasificación basada en cohortes en Elasticsearch.

Para ver una demostración en vivo de cómo se puede usar el historial de compras para mejorar los resultados de búsqueda de los clientes que regresan, mira el video: Personalización explicable: cómo impulsar la búsqueda con historial de compras.

Impulso del historial de compras individuales

La forma más simple de personalización es también una de las más efectivas: si un comprador ha adquirido un producto antes, promuévalo cuando haga una búsqueda de algo relacionado. Un comprador que adquiere habitualmente una marca concreta de galletas con pepitas de chocolate debería ver esas galletas mejor posicionadas en los resultados de búsqueda cuando busque “galletas”, no porque un modelo predijo una preferencia, sino porque existe evidencia conductual directa.

Cómo funciona

Cuando una solicitud de búsqueda incluye un identificador de usuario, como sería el caso de un usuario que tiene una sesión abierta, el plano de control ejecuta dos consultas de Elasticsearch en paralelo utilizando un thread pool:

La consulta del percolador contra el índice de políticas (la misma búsqueda de gobernanza descrita en las partes 3 y 4).
Una búsqueda de historial de compras contra un índice de user_purchases, filtrada al usuario específico por term(user_id) y luego comparando el texto de búsqueda actual con los títulos de producto de ese usuario.

Estos procesos se ejecutan en paralelo (ninguno espera al otro), así que la búsqueda de personalización no agrega una latencia significativa al pipeline de gobernanza.

La búsqueda del historial de compras utiliza el análisis de texto de Elasticsearch (derivación, tokenización) al comparar la cadena de búsqueda actual con los títulos de los productos almacenados. Esto significa que una búsqueda de “cookies” coincidirá con una compra anterior de “galletas brownie” a través del análisis de texto estándar, sin requerir una coincidencia exacta de cadenas.

Cálculo de pesos de aumento

No todas las compras anteriores merecen el mismo impulso. La ponderación considera dos factores intuitivos: la frecuencia con la que el comprador adquirió el producto y qué tan reciente fue la compra. Un producto comprado 15 veces la semana pasada es una señal mucho más fuerte que un producto comprado una vez hace seis meses. La ponderación utiliza una escala logarítmica basada en la frecuencia (para que un único artículo comprado en grandes cantidades no eclipse al resto) y un decaimiento exponencial basado en la antigüedad (para que las compras más antiguas pierdan relevancia de forma natural con el tiempo).

Para conocer los detalles matemáticos de la fórmula de aumento, consulta Cómo personalizar la búsqueda en Elasticsearch sin posprocesamiento de ML.

Cómo se convierte en una consulta

Los impulsos del historial de compras se integran en la consulta como la capa de puntuación más externa, envolviendo los filtros de política de gobernanza y los impulsos de las partes 3 y 4 y cualesquier impulso de señales comerciales, como margen y popularidad (que exploraremos en la parte 7). Esto significa que un producto que se elimina por una política de gobernanza no reaparecerá debido a un impulso en el historial de compras. La gobernanza controla el conjunto de resultados; la personalización ajusta el orden dentro de él. Los productos sin historial de compras no se penalizan. Se mantiene su clasificación gobernada, aunque los productos con un historial de compras relevante aparecerán por encima de ellos, en igualdad de condiciones.

¿Por qué consultar Elasticsearch en cada búsqueda?

El historial de compras se consulta desde Elasticsearch en cada búsqueda, en lugar de almacenarse en caché en la capa de la aplicación. Esta es una decisión de diseño deliberada. Como la consulta compara la cadena de búsqueda actual con los títulos de productos mediante el pipeline de análisis de texto de Elasticsearch, el sistema se beneficia de la misma reducción a la raíz, tokenización y manejo del lenguaje que usa la propia búsqueda de productos. Una consulta en memoria caché requeriría reimplementar ese análisis o aceptar una coincidencia menos precisa.

Para ver por qué este orden es importante, considere a un comprador que previamente adquirió jugo de naranja y ahora busca “naranjas”. La consulta de historial de compras compara “jugo de naranja” con el término de búsqueda “naranjas” mediante análisis de texto y calcula un impulso para ese producto. Pero la capa de gobernanza ya ha restringido las “naranjas” a la categoría de productos, filtrando completamente el jugo de naranja. El impulso del historial de compras para el jugo de naranja está presente en la consulta, pero no tiene efecto porque no hay un documento coincidente en el conjunto de resultados gobernado sobre el que pueda actuar. El comprador ve naranjas frescas, ordenadas por relevancia y personalización. La barrera de seguridad de gobernanza se mantiene.

El costo de rendimiento es mínimo: el índice de historial de compra es pequeño (el historial de compra de un usuario suele ser de decenas o cientos de documentos, no de millones), y la consulta se ejecuta en paralelo con la búsqueda del percolador, por lo que no alarga la ruta crítica.

Ejemplo de búsqueda para “agua de manantial” sin historial de usuario

Si un usuario que no ha iniciado sesión o un usuario que nunca ha comprado “agua de manantial” busca, es posible que vea resultados similares a los siguientes:

Ejemplo de historial de compra del usuario

Por otro lado, una usuaria llamada Carol tiene un historial de compras que contiene los siguientes productos:

Ejemplo de búsqueda de “agua de manantial” con el historial de compras anterior

Si Carol busca “agua de manantial”, verá resultados personalizados que reflejan lo que ha comprado en el pasado. Al observar el historial de compras anterior, ella compró “agua de manantial carbonatada” (la botella verde) unas 40 veces, y más recientemente hace dos días. Si busca “agua de manantial”, ese producto aparecerá en los primeros resultados, ya que sabemos que le gusta. Observa que en los resultados no personalizados, el agua de manantial Rubicon fue el primer resultado en aparecer.

Activación de políticas con reconocimiento de cohortes

El historial de compras individual funciona bien para los clientes habituales con un comportamiento ya establecido. Pero muchos compradores son nuevos, anónimos o navegan fuera de sus hábitos habituales. Para estos compradores, la membresía de cohorte proporciona un tipo diferente de personalización, una basada en quién es el comprador, no en lo que han hecho.

Un comprador vegano que busque “chocolate” debería ver el chocolate vegano clasificado más alto. Un comprador que sigue las normas halal y busca “refrigerios” debería ver opciones con certificación halal en un lugar destacado. Un comprador consciente de la salud que busca “yogur” debería ver opciones probióticas resaltadas.

Cohortes como políticas, no como etiquetas de productos

Los productos ya llevan sus atributos normales, incluidos campos como dietary_restrictions: ["vegan"] o dietary_restrictions: ["halal"]. La pregunta es dónde reside la lógica que conecta la cohorte de un comprador con esos atributos de producto.

El enfoque ingenuo sería codificar ese mapping en la capa de aplicación o en la plantilla de búsqueda: si el usuario es vegano, agrega un impulso a dietary_restrictions: "vegan". Pero este es el mismo código espagueti de la parte 1, y crea la misma fricción operativa: agregar una nueva cohorte o cambiar lo que significa una cohorte requiere un cambio de código.

En cambio, el plano de control gestionado mantiene la lógica de cohortes en el motor de políticas. Una política de cohorte combina dos cosas: la membresía de cohorte de un comprador (por ejemplo, “vegana”) y un atributo de producto (por ejemplo, dietary_restrictions: “vegan”). La política define la conexión: cuando un comprador en la cohorte vegana realiza una búsqueda, impulsa los productos donde dietary_restrictions incluye “vegano”.

Como la lógica de cohortes reside en el motor de políticas y no en el código de aplicación, esto significa lo siguiente:

Para añadir una nueva cohorte, basta con crear una nueva política; no es necesario volver a indexar el producto.
Las políticas de cohorte utilizan el motor de reglas completo: pueden agregar filtros, aplicar impulsos suaves, expandir sinónimos, cambiar la estrategia de recuperación o realizar cualquier otra acción que una política pueda tomar.
El comportamiento de la cohorte se gestiona a través de la misma interfaz de administración que todas las demás políticas: un comerciante puede crear, probar y promover políticas de cohorte a través del flujo de trabajo Autor → Prueba → Promoción descrito en la parte 2.

Ejemplo de política de cohorte vegana

Un merchandiser crea una política de cohorte con las siguientes características:

Cohortes: ["vegan"].
Criterio de coincidencia: coincide con cualquier búsqueda (o una categoría específica de producto).

Acción: refuerzo leve en dietary_restrictions: "vegan" con una ponderación de refuerzo de 2.

Cómo funciona la activación de cohortes

Cada documento de política tiene un campo cohorts. Las políticas universales que se aplican a todos los compradores independientemente de la cohorte pueden dejar este campo en blanco, e internamente se les asignará un valor de "_all" por el plano de control. Las políticas específicas de cohorte almacenan los nombres de sus cohortes objetivo, como ["vegan", "kosher", “sweet_tooth”].

Cuando una solicitud de búsqueda incluye un perfil de usuario, el plano de control construye un filtro terms simple para la consulta del percolador:

{ "terms": { "cohorts": ["_all", "vegan", "health_conscious"] } }

Este filtro único incluye todas las políticas universales, además de las políticas específicas de la cohorte del usuario. El _all centinela hace que este sea un filtro de inclusión limpio: no se necesitan búsquedasmust_not o exists para manejar el caso en el que una política no tiene restricción de cohorte.

A continuación, el percolador evalúa las coincidencias de políticas como de costumbre. La única diferencia es que el conjunto de políticas candidatas se redujo a aquellas relevantes para las cohortes de este comprador. Todo el flujo descendente (transformaciones en cascada, resolución de conflictos por campo, seguimiento de frases consumidas) funciona de manera idéntica al flujo no personalizado descrito en las partes 3 y 4.

Resultados de usuarios no veganos (estándar) al buscar “chocolate”

Cuando un usuario no vegano realiza una búsqueda de chocolate, no se aplica ningún aumento de cohorte vegano a sus resultados. A menudo veía chocolates no veganos entre los resultados más populares, como por ejemplo:

Resultados de la política de cohorte vegana al buscar “chocolate”

Cuando un comprador de cohorte vegana realiza una búsqueda de “chocolate”, esta política se incluye en el conjunto de candidatos del percolador. Coincide, y el plano de control aplica un impulso suave a los chocolates certificados como veganos. El aumento es multiplicativo: los chocolates veganos tienen un rango más alto, pero los chocolates no veganos no están completamente excluidos porque el filtro anterior se define como un impulso suave, que describimos en detalle en la parte 3 de esta serie.

Sin embargo, si el comprador busca explícitamente “chocolate con leche Hershey”, la preferencia vegana sigue siendo aplicable, pero puede verse superada por la mayor relevancia textual de los productos de chocolate con leche Hershey.

Un comprador fuera de la cohorte vegana que busca la misma consulta nunca ve la política de la “cohorte vegana”; no está en su conjunto de candidatos. La capa de gobernanza es idéntica; solo el conjunto de políticas activas difiere.

Cohortes con historial de compra

Un comprador vegano con un historial de compra extenso obtiene la activación de políticas específicas para la cohorte vegana, así como impulsos en el historial de compra. Para compradores nuevos o anónimos, la membresía implícita en la cohorte por sí sola proporciona una personalización significativa sin requerir datos de comportamiento (por ejemplo, quizás un usuario anónimo solo buscó productos veganos, por lo que lo clasificamos como afiliado a la cohorte vegana). Un comprador que se autoidentifica como seguidor de las normas de halal durante la creación de la cuenta recibe inmediatamente resultados adaptados a halal en su primera búsqueda.

Cómo se componen las capas de personalización

El orden de anidación de function_score capas importa. De lo más interno a lo más externo:

Búsqueda base: la palabra clave o coincidencia semántica con consultas nombradas (fulltext_match, title_phrase_match).
Capa de política de gobernanza: filtros duros como cláusulas bool.filter, impulsos suaves como funciones function_score (Partes 3 y 4).
Impulsos de señales de negocio: aumento de margen y popularidad (que exploraremos en la parte 7).
Impulsos del historial de compra: La capa function_score más externa.

Este orden garantiza que la gobernanza controle el conjunto de resultados (lo que aparece), que las señales de negocio ajusten la clasificación dentro de ese conjunto (lo que aparece primero desde la perspectiva del minorista) y que el historial de compras ajuste aún más la clasificación según el comportamiento individual (lo que aparece primero desde la perspectiva del comprador). Cada capa envuelve a la anterior de manera multiplicativa, por lo que los efectos se acumulan en lugar de entrar en conflicto.

Qué significa esto a nivel operativo

La personalización a través del plano de control gobernado preserva todas las propiedades operativas descritas en las Partes 1 y 2:

Cambios sin necesidad de despliegue. Las políticas de cohorte se crean, prueban y promueven a través de la IU de administración. Agregar una nueva cohorte dietética o ajustar un peso de refuerzo no requiere cambios en el código ni participación de ingeniería.
Auditabilidad. Cada política de cohorte es un documento independiente y versionado. Cuando un comercializador pregunta: “¿Por qué los productos veganos aparecen mejor posicionados para este usuario?”, la respuesta es una política específica con una prioridad determinada, visible en el panel de depuración junto con todas las demás políticas que se activaron para esa consulta.
Resolución de conflictos. Las políticas de cohorte participan en la misma resolución de conflictos por campo descrita en la Parte 3. Si el aumento de categoría de una política de cohorte entra en conflicto con la anulación de categoría de una política de campaña, el conflicto se resuelve de forma determinista mediante el mismo marco de trabajo de prioridades y estrategia, sin necesidad de una gestión especial.
Mensurabilidad. Debido a que las políticas de cohorte son discretas y se pueden activar individualmente, su impacto en las tasas de conversión, clics y agregados al carrito puede medirse de forma independiente, al igual que cualquier otra política en el sistema.

Lo que se viene

En la próxima publicación se explora otra dimensión del plano de control gestionado: cómo el margen y el impulso de la popularidad pueden ajustarse por consulta a través de políticas, lo que convierte la optimización económica en una decisión de gobernanza en lugar de una configuración estática.

Consulta la parte 7: optimización económica gobernada por consultas: margen por búsqueda y aumento de popularidad

Pon en práctica la búsqueda gobernada de comercio electrónico

Los patrones de personalización descritos en esta publicación (aumento del historial de compras individuales y activación de políticas consciente de la cohorte) fueron diseñados y desarrollados por Elastic Services Engineering como parte de nuestro acelerador de búsqueda de comercio electrónico repetible. Ambos mecanismos se integran con la arquitectura del plano de control gobernado descrita a lo largo de esta serie. Ponte en contacto con Elastic Professional Services.

Únete a la discusión

Un índice, todos los medios: presentamos jina-embeddings-v5-omni

Scott Martens — Mon, 11 May 2026 00:00:00 GMT

jina-embeddings-v5-omni reúne texto, imágenes, video y audio en un único índice de Elasticsearch. Ampliando los mejores modelos de jina-embeddings-v5-text en su clase, la suite v5-omni agrega codificación visual y de audio mediante una arquitectura innovadora que mantiene la columna vertebral de texto idéntica y otorga un rendimiento de vanguardia en un modelo de incrustación muy compacto.

Ahora puedes crear incrustaciones semánticas de alto rendimiento para texto, imágenes, videos y grabaciones de audio, que abarcan casi 100 idiomas, y utilizarlas para clasificar, agrupar, medir la similitud semántica e indexar para recuperar información. Si tus datos se encuentran en archivos PDF, grabaciones y videos junto al texto, ya no necesitas pipelines separados para cada uno.

La familia jina-embeddings-v5-omni es el modelo de incrustación más compacto actualmente en el mercado con soporte para imágenes, voz, impresión y video. Ofrece:

jina-embeddings-v5-textincrustaciones de texto de clase vanguardia para recuperación, análisis y aplicaciones de agentes de IA.
Incrustaciones líderes en su categoría de tamaño para similitud semántica visual, comprensión visual y recuperación de imágenes. jina-embeddings-v5-omni-small tiene el mejor rendimiento en benchmarks de imagen de cualquier modelo de la categoría de 1000 millones (10⁹) de parámetros y es superior a nuestro propio jina-clip-v2 anterior. Solo unos pocos modelos que poseen tres a 30 veces más parámetros pueden superarlo.
Incrustaciones de vanguardia para la comprensión y recuperación visual multilingüe que superan modelos hasta 20 veces más grandes.
Incrustaciones de audio de los mejores en su categoría de tamaño, con solo modelos que tienen el doble o más de parámetros que logran mejores resultados en las referencias estándar.
Soporte para video, especialmente para localizar objetos y eventos en el metraje.

Esto tiene aplicaciones en todos los ámbitos de la recuperación de información, el procesamiento de documentos y el análisis de datos. jina-embeddings-v5-omni abre el acceso a la información encerrada en diferentes silos de medios y la pone a disposición para su recuperación, análisis y uso por parte de agentes de IA. La información contenida en grabaciones de audio y video, archivos PDF, escaneos de páginas impresas e infografías tiene el mismo valor que los textos digitalizados en tu ecosistema de datos.

Al igual que jina-embeddings-v5-text, estos modelos vienen en dos tamaños: small y nano. Ambos modelos amplían su equivalente textual con módulos adicionales que admiten entradas de audio y vídeo. Los usuarios pueden seleccionar módulos en el momento de la carga. Además, las extensiones específicas para cada tarea —como la similitud semántica, la clasificación, la agrupación y la recuperación de información— se han implementado como adaptadores compactos de rango bajo (LoRA) y están todas cargadas, así que los usuarios pueden seleccionarlas en el momento de la inferencia.

Ambos modelos son muy compactos. jina-embeddings-v5-omni-small puede ejecutarse en servidores convencionales equipados con GPU y jina-embeddings-v5-omni-nano es lo suficientemente pequeño como para ejecutarse en hardware estándar. Esto representa un gran ahorro potencial en costos de cómputo y hace posible la instalación local con licencia y el procesamiento perimetral, lo que reduce la latencia y aumenta tu control sobre tus propios datos.

La suite v5-omni utiliza técnicas innovadoras de diseño de modelos y machine learning para crear nuevos modelos de incrustación a partir de otros ya entrenados, sin necesidad de volver a entrenarlos. Usamos codificadores de modelos preentrenados y alineados con el lenguaje para medios de audio y video como preprocesadores de entrada para nuestro conjunto de modelos de jina-embeddings-v5-text existente. Los modelos resultantes generan incrustaciones para imágenes y grabaciones de audio que son semánticamente compatibles con las incrustaciones que genera para los textos.

Los modelos v5-omni producen incrustaciones de texto idénticas a las jina-embeddings-v5-text (es decir, jina-embeddings-v5-omni-small con jina-embeddings-v5-text-small; y jina-embeddings-v5-omni-nano con jina-embeddings-v5-text-nano), por lo que puedes extender los repositorios existentes de recuperación de texto a aplicaciones multimedia sin reconstruir tus índices.

Los codificadores integrados derivan de fuentes de código abierto. Para imágenes y video, hemos utilizado codificadores de los modelos Qwen3.5:

Para jina-embeddings-v5-omni-nano, el codificador SigLIP2 Base ajustado de Qwen3.5-0.8B.
Para jina-embeddings-v5-omni-small, el codificador SigLIP2 So400m ajustado específicamente a partir de Qwen3.5-2B.
Para soporte de audio, agregamos el codificador de Whisper-large-v3, extraído de Qwen2.5-Omni-7B, tanto a la versión pequeña como a la nano.

Hemos conectado estos codificadores específicos para cada tipo de medio a la columna vertebral de procesamiento de texto mediante proyectores multimodales entrenados. Estos proyectores traducen sus salidas nativas a incrustaciones de entrada compatibles con jina-embeddings-v5-text. Las únicas partes recién entrenadas de los modelos jina-embeddings-v5-omni son los pesos en esos proyectores.

Esta arquitectura significa que solo necesitamos entrenar los proyectores entre modelos, aproximadamente 5.5 millones de parámetros para jina-embeddings-v5-omni-small y menos de 3.5 millones para jina-embeddings-v5-omni-nano, para cada uno de los cuatro adaptadores LoRA. Este enfoque reduce al mínimo el entrenamiento adicional necesario para conectar diferentes modelos de incrustación, y aprovecha el entrenamiento específico de cada uno de ellos para crear un conjunto de incrustaciones modular, extremadamente compacto y de alto rendimiento.

Propiedades del modelo seleccionado

Entrada/salida

Nombre del modelo	Tamaño de la ventana de contexto de entrada	Tamaño de incrustación
jina-embeddings-v5-omni-small	32,768 tókenes*	1024 dims (mínimo: 32)
jina-embeddings-v5-omni-nano	8,192 tókenes*	768 dims (mínimo: 32)

* Consulta Uso de jina-embeddings-v5-omni a continuación para obtener más información sobre cómo se tokenizan los medios que no son de texto.

Tamaño

Nombre del modelo	Tamaño total
jina-embeddings-v5-omni-small (modelo base de solo texto + 4 adaptadores LoRA)	700 millones de parámetros
Soporte de imagen/video (codificador SigLIP2 So400m extraído de Qwen3.5-2B)	1.006 millones de parámetros
soporte de audio (codificador Whisper-large-v3 extraído de Qwen2.5-Omni-7B)	1.354 millones de parámetros
ambos	1.660 millones de parámetros
Adaptadores LoRA (cada uno)	20M
jina-embeddings-v5-omni-nano (modelo base de solo texto + 4 adaptadores LoRa)	266M parámetros
soporte de imagen/video (codificador SigLIP2 Base extraído de Qwen3.5-0.8B)	354M parámetros
soporte de audio (codificador Whisper-large-v3 extraído de Qwen2.5-Omni-7B)	916M parámetros
ambos	1 004 millones de parámetros
Adaptadores LoRA (cada uno)	7M

* Consulta Uso de jina-embeddings-v5-omni a continuación para obtener más información sobre cómo se tokenizan los medios que no son de texto.

Capacitación específica por tarea

La familia de jina-embeddings-v5-omni admite los mismos adaptadores LoRA específicos para tareas que jina-embeddings-v5-text:

Tarea	Ejemplos de usos
Recuperación	Recuperación de información, por sí sola o en conjunto con otras técnicas de recuperación y evaluación de candidatos. Con los modelos v5-omni, puedes recuperar audio, video e imágenes en una sola búsqueda desde un solo índice.
Agrupación	Descubrimiento de temas y organización automática de temas en todos los medios.
Clasificación	Categorización, análisis de sentimiento y tareas relacionadas.
Similitud semántica	Deduplicación de datos en medios, sistemas de recomendación, medios relacionados, búsqueda de textos que coincidan con el discurso, identificación de traducciones y tareas similares.

Las representaciones de salida dependen de la categoría de tarea seleccionada. Por ejemplo, no deberías usar representaciones orientadas a recuperación para agrupar o representaciones de similitud semántica para clasificación.

Multimedia, multimodal, multilingüe, multifuncional

Para mostrar lo que jina-embeddings-v5-omni puede hacer, tomemos los famosos pasajes iniciales de dos novelas y midamos su similitud semántica:

A Tale of Two Cities (Charles Dickens)

It was the best of times, it was the worst of times, it was the
age of wisdom, it was the age of foolishness, 
it was the epoch of belief, it was the epoch of incredulity,
it was the season of Light, it was the season of Darkness,
it was the spring of hope, it was the winter of despair,
we had everything before us, we had nothing before us,
we were all going direct to Heaven, we were all going
direct the other way—in short, the period was so far like
the present period, that some of its noisiest authorities
insisted on its being received, for good or for evil, in 
the superlative degree of comparison only.

Pride and Prejudice (Jane Austen)

It is a truth universally acknowledged, that a 
single man in possession of a good fortune must
be in want of a wife. However little known the
feelings or views of such a man may be on his first
entering a neighbourhood, this truth is so well
fixed in the minds of the surrounding families,
that he is considered as the rightful property of
some one or other of their daughters.

Si se usa jina-embeddings-v5-omni-small, con su adaptador de similitud semántica, estos textos tienen una similitud de 0,5329.

Ese número no significa mucho sin algo con qué compararlo, así que comparemos estos dos textos con sus traducciones al francés usando el mismo modelo y adaptador:

Puntuaciones de similitud semántica para textos en diferentes idiomas

	A Tale of Two Cities (inglés)	Pride and Prejudice (inglés)
Tale of Two Cities (francés) (París y Londres en 1783, tr. H. Loreau)	0.9095	0.5074
Orgullo y prejuicio (francés) (Orgueil et Préjugés, tr. Leconte et Pressoir)	0.4826	0.8784

Los dos textos se parecen mucho más a sus traducciones que a otros textos del mismo idioma o de otro idioma. Esto refleja el rendimiento muy alto de las incrustaciones semánticas multilingües de jina-embeddings-v5-text-small, incluidas sin cambios en jina-embeddings-v5-omni-small.

Si se agrega soporte multimedia a jina-embeddings-v5-omni significa que podemos extender este experimento a otros tipos de datos. Por ejemplo, obtuvimos escaneos de las primeras páginas de ambas novelas de ediciones impresas antiguas:

Figura 2: A Tale of Two Cities, edición no fechada del siglo XIX, y Pride and Prejudice, edición Macmillan de 1903.

Comparemos ambos textos con los escaneos, usando de nuevo el adaptador de similitud semántica:

Puntuaciones de similitud semántica entre textos e imágenes

	Historia de dos ciudades (escaneo)	Pride and Prejudice (escaneo)
Tale of Two Cities (texto)	0.7336	0.4891
Orgullo y prejuicio (texto)	0.4804	0.7213

Observarás que las puntuaciones de similitud semántica favorecen fuertemente a los textos que coinciden con el contenido de las imágenes.

También podemos comparar los textos con una captura de pantalla de una publicación en redes sociales y un meme que hacen referencia a esos textos, usando la misma configuración:

Figura 3: Un tuit de Elon Musk haciendo referencia a A Tale of Two Cities y un meme haciendo referencia al famoso inicio de Pride and Prejudice.

Puntuaciones de similitud semántica entre textos e imágenes

	A Tale of Two Cities	Pride and Prejudice
Tweet de Musk (imagen)	0.7156	0.4912
Meme «Keep calm» (imagen)	0.4555	0.6244

Podemos hacer lo mismo con la voz. Obtuvimos grabaciones de lecturas de ambos textos, en inglés y en francés:

Puntuaciones de similitud semántica entre textos y audio en diferentes idiomas

	A Tale of Two Cities (audio en inglés)	A Tale of Two Cities (audio en francés)	Pride and Prejudice (audio en inglés)	Pride and Prejudice (audio en francés)
A Tale of Two Cities (Texto en inglés)	0.3816	0.3106	0.1607	0.1774
A Tale of Two Cities (texto en francés)	0.3528	0.3253	0.1598	0.1721
Pride and Prejudice (texto en inglés)	0.1910	0.1682	0.3511	0.3398
Orgullo y prejuicio (texto en francés)	0.1667	0.1474	0.3018	0.3702

Esta capacidad multilingüe y multimedia se extiende a la recuperación de información.

Los adaptadores de recuperación de los modelos de jina-embeddings-v5-omni implementan recuperación asimétrica. Esto significa que generan incrustaciones de las búsquedas de forma distinta a las incrustaciones de los documentos objetivo de recuperación; por eso, las búsquedas multimodales siempre tienen una dirección, con búsquedas en un archivo multimedia y documentos en otra y la puntuación cambia si se invierten.

Las tablas a continuación muestran las puntuaciones de recuperación para texto, audio e imágenes de escaneo de página para A Tale of Two Cities y Pride and Prejudice, cuando el texto de A Tale of Two Cities (en inglés) se codifica como la búsqueda:

Texto a texto

Documento	Puntuación de recuperación
A Tale of Two Cities (extracto de texto en francés)	0.7597
Pride and Prejudice (fragmento del texto en inglés)	0.1482
Pride and Prejudice (extracto de texto en francés)	0.0523

Texto a imagen

Documento	Puntuación de recuperación
A Tale of Two Cities (Escaneo de página en inglés)	0.5517
A Tale of Two Cities (Escaneo de página en francés)	0.3576
Orgullo y prejuicio (escaneo de página en inglés)	0.1917

De texto a audio

Documento	Puntuación de recuperación
A Tale of Two Cities (audio en inglés)	0.3277
A Tale of Two Cities (audio en francés)	0.1980
Pride and Prejudice (audio en inglés)	0.1419
Pride and Prejudice (audio en francés)	0.1759

Los usuarios también pueden ejecutar la búsqueda al revés, es decir, realizar búsquedas de audio a texto y de imagen a texto.

A continuación se muestran las puntuaciones utilizando el audio en inglés de A Tale of Two Cities como búsqueda y varios textos como documentos:

De imagen a texto

Documento	Puntuación de recuperación
A Tale of Two Cities (extracto de texto en inglés)	0.3352
A Tale of Two Cities (extracto de texto en francés)	0.2650
Pride and Prejudice (fragmento del texto en inglés)	0.1626
Pride and Prejudice (extracto de texto en francés)	0.1385

Y las puntuaciones usando un escaneo de la página uno de A Tale of Two Cities (en inglés) como búsqueda:

De audio a texto

Documento	Puntuación de recuperación
A Tale of Two Cities (extracto de texto en inglés)	0.5304
A Tale of Two Cities (extracto de texto en francés)	0.4845
Pride and Prejudice (fragmento del texto en inglés)	0.1467
Pride and Prejudice (extracto de texto en francés)	0.0761

Búsqueda de vídeos

Las capacidades de jina-embeddings-v5-omnipara la indexación y la búsqueda de video aportan nuevas funcionalidades a las bases de datos de Elasticsearch, pero están sujetas a muchas de las mismas advertencias que aplican a los textos. Generar una única incrustación para una película larga es como incrustar una novela muy larga: la información detallada se verá inundada y la incrustación resultante será una buena coincidencia para muchas búsquedas irrelevantes.

Si incorporas el texto completo de "Lord of the Rings" (unas 500 000 palabras), es probable que sea una coincidencia buena para la mayoría de las búsquedas, sin importar lo que estés buscando. Del mismo modo, si indexas una película de Hollywood de dos horas, obtendrás muchas coincidencias irrelevantes y detalles que se pierden por completo. jina-embeddings-v5-omni es óptimo con clips cortos.

Para este ejemplo, descargamos el tráiler de la película de 1961 Breakfast At Tiffany’s, que dura solo 158 segundos y es de dominio público. Puedes ver el tráiler en Internet Archive.

Figura 4: El póster teatral para Breakfast at Tiffany’s.

Usamos PySceneDetect para dividir el tráiler en 28 escenas individuales, con duraciones que van desde los 1.877 segundos (45 fotogramas) hasta los 18.393 segundos (441 fotogramas). La detección de escenas no es perfecta, pero ofrece un mecanismo adecuado para dividir el video en fragmentos más pequeños que faciliten su búsqueda. Luego generamos representaciones de documentos para cada uno de los 28 segmentos, usando jina-embeddings-v5-omni-small, para poder comprobar si las búsquedas de texto servían para encontrar elementos específicos en el video.

Por ejemplo, la búsqueda de “gato” devolvió los siguientes clips como los tres resultados principales. La única escena con un gato está en la parte superior, con una puntuación de 0.1634:

Mira el clip uno.

La siguiente coincidencia más alta, con una puntuación de 0.1237, es mucho más baja:

Mira el clip 2.

También puedes hacer búsquedas de acciones. Si haces una búsqueda con el texto "beso", las cuatro primeras coincidencias contienen todas besos:

Mira el clip 3. Su puntuación es 0.2864.

Puntuaciones: Para la segunda coincidencia (0.2494), tercera coincidencia (0.2099) y cuarta coincidencia (0.2068), respectivamente

Y puedes buscar el texto que se muestra en los videos, como “Buddy Ebsen”, que solo aparece una vez. jina-embeddings-v5-omni-small lo identifica fácilmente como la mejor coincidencia con una puntuación de 0.3885, considerablemente más alta que la siguiente mejor coincidencia:

Clip de Buddy Ebsen.

Recuperación visual de documentos

Los modelos de incrustación multimodal de Jina AI son líderes en el procesamiento de documentos visuales y están a la vanguardia en el procesamiento de documentos visuales multilingües. Esto significa manejar datos de imágenes que contienen texto, figuras e información estructurada. Los datos importantes suelen estar en forma de escaneos impresos, archivos PDF, diagramas, dibujos técnicos, capturas de pantalla, imágenes, infografías y similares. Estos tipos de imágenes a menudo son compuestas mecánicamente o generadas por computadora. No suelen poder reducirse a texto sin pérdida de significado y son poco adecuados para los modelos de visión computacional diseñados para la fotografía de escenas naturales.

jina-embeddings-v5-omniLas incrustaciones abarcan información sobre las cosas en la imagen, el texto impreso en ellas y las relaciones entre ambos. La recuperación visual de documentos hace posible indexar imágenes enriquecida que contienen tanto objetos como texto relevante y hacerlo a través de diferentes idiomas.

A modo de ejemplo, vamos a usar cuatro imágenes de productos de diferentes sitios web de comercio electrónico:

Ahora, veamos qué tan bien jina-embeddings-v5-omni-small puntúa estas cuatro imágenes para la búsqueda «fideos ramen»:

Sopa de pollo con trozos de Campbell’s (envase canadiense)	Kraft Dinner (envase canadiense)	Ramen Maruchan fresco con sabor a miso (envase japonés)	Birkel Spaghetti (embalaje alemán)
0.0872	0.0711	0.1123	0.0886

Fácilmente encuentra la coincidencia japonesa.

Ahora, intentemos una búsqueda para «マカロニチーズ» (macarrones con queso en japonés):

Sopa de pollo con trozos de Campbell’s (envase canadiense)	Kraft Dinner (envase canadiense)	Ramen Maruchan fresco con sabor a miso (envase japonés)	Birkel Spaghetti (embalaje alemán)
0.2207	0.3487	0.2760	0.2674

Encuentra la coincidencia correcta con la misma facilidad que una búsqueda en inglés.

jina-embeddings-v5-omni también sobresale en la interpretación de imágenes con abundante información, como los gráficos. Para ver esto en acción, mira estos dos gráficos de barras:

Dos gráficos, Gráfico 1 a la izquierda, sobre la carga mundial de enfermedad, y Gráfico 2 a la derecha, sobre la esperanza de vida de las razas de perros.

Veamos qué tal se adaptan a dos posibles preguntas de texto, cada una de ellas relacionada con uno de los gráficos, pero no con ambos, utilizando jina-embeddings-v5-omni-small para la búsqueda:

Pregunta de texto	Gráfico 1	Gráfico 2
“¿Cuáles son algunos de los problemas médicos más comunes para las personas mayores?”	0.2787	0.1099
“¿Cuánto tiempo viven los perros?”	0.1350	0.3564

También puedes revertir la búsqueda, usando imágenes como búsquedas para encontrar textos. La tabla a continuación muestra los documentos objetivo extraídos de los resúmenes de artículos científicos relacionados con el tema y sus puntuaciones de recuperación, utilizando las imágenes del gráfico como búsquedas:

	Texto 1	Texto 2
	La salud de las poblaciones que viven en la pobreza extrema ha sido desde hace tiempo un tema central de los esfuerzos de desarrollo a nivel mundial, y sigue siendo una prioridad en la era de los Objetivos de Desarrollo Sostenible. Sin embargo, no ha habido un intento sistemático de cuantificar la magnitud y las causas de la carga en esta población específica por casi dos décadas. Hemos estimado las tasas de enfermedades por causa en los mil millones de personas más pobres del mundo y comparamos estas tasas con las de las poblaciones de ingresos altos.	El perro de compañía es una de las especies fenotípicamente más diversas. La variabilidad entre razas no solo se extiende a la morfología y a aspectos del comportamiento, sino también a la longevidad. A pesar de ello, pocos estudios se han dedicado a evaluar la variación en la esperanza de vida entre razas o el potencial de caracterización filogenética de la longevidad.
Gráfico 1	0.2377	0.1357
Gráfico 2	0.0673	0.3576

Características

Incrustaciones truncables

Entrenamos los modelos base jina-embeddings-v5-text que sustentan jina-embeddings-v5-omni con Aprendizaje de representación Matryoshka, para que puedas truncar tanto las incrustaciones de texto como las de multimedia de estos modelos.

De forma predeterminada, jina-embeddings-v5-omni-small genera incrustaciones con 1024 dimensiones, lo que toma 2 KB para almacenarse con una precisión de 16 bits. Las incrustaciones de jina-embeddings-v5-omni-nanotienen 768 dimensiones y ocupan aproximadamente 1.5KB. Puedes reducir el tamaño de estas incrustaciones a 32 dimensiones (64 bytes), lo que supone una cierta pérdida de precisión, pero a cambio obtienes una gran mejora en la velocidad de procesamiento y una reducción en los costos de recursos. En general, reducir el tamaño de las incrustaciones a la mitad disminuye la precisión en un 2 %, hasta llegar a 128 dimensiones; por debajo de ese nivel, la precisión cae mucho más rápido.

Las incrustaciones truncables permiten a los usuarios decidir el equilibrio óptimo entre precisión, velocidad y costo, según sus propios casos de uso.

Cuantificación

La familia de jina-embeddings-v5-omni también hereda un rendimiento sólido bajo cuantización de la base de jina-embeddings-v5-text. Esto aumenta aún más la velocidad y reduce los costos de cálculo y almacenamiento al almacenar números menos precisos. Los capacitamos para trabajar con Better BinaryQuantization(BBQ) de Elasticsearch para ofrecer un rendimiento casi idéntico a las incrustaciones no cuantizadas. En el conjunto de referencias de recuperación Massive Text Embedding Benchmark (MTEB), la binarización reduce el rendimiento en menos de un 3 % en comparación con los valores completos de 16 bits, a la vez que ahorra el 93 % del espacio y aumenta significativamente las velocidades de procesamiento y recuperación.

Rendimiento entre idiomas

jina-embeddings-v5-textEl extenso entrenamiento multilingüe se traslada a jina-embeddings-v5-omni, con casi 100 idiomas en el preentrenamiento de jina-embeddings-v5-text-smally 15 idiomas globales principales en el de jina-embeddings-v5-text-nano. Para medios de audio, el modelo Whisper-large-v3 cuenta con aproximadamente 100 idiomas en su entrenamiento, y los modelos de visión SigLip2 modificados por Qwen integrados en jina-embeddings-v5-omni-small y -nano fueron entrenados con datos de 201 lenguas y dialectos distintos.

Rendimiento de referencia

Texto

jina-embeddings-v5-omni los modelos son idénticos a los modelos de jina-embeddings-v5-text cuando se usan solo para texto. Son los de mejor rendimiento en el conjunto de referencias MMTEB en sus respectivas categorías de tamaño para incrustaciones de texto semánticas.

Figura 5: Tamaño y rendimiento de jina-embeddings-v5-omnien puntos en referencias de texto, en comparación con los modelos de la competencia. El tamaño citado no tiene extensiones de carga para otros medios.

Similitud semántica visual

En las referencias estándar de similitud semántica visual, jina-embeddings-v5-omni obtiene las mejores puntuaciones entre los modelos de tamaño comparable. Los modelos jina-embeddings-v5-omni muestran, con diferencia, el mejor rendimiento entre los modelos públicos de pesos abiertos de tamaño comparable. jina-embeddings-v5-omni-small solo es superado por un modelo tres veces más grande en tareas de similitud semántica visual, y jina-embeddings-v5-omni-nano solo es superado por jina-embeddings-v5-omni-small y por modelos entre 10 y 25 veces más grandes.

Figura 6: Puntuaciones promedio de referencia de similitud semántica visual para jina-embeddings-v5-omni-small, jina-embeddings-v5-omni-nano y modelos comparables, así como sus tamaños incluyendo extensiones de visión.

Recuperación visual de documentos

jina-embeddings-v5-omni-small es competitivo con modelos de tres y siete mil millones de parámetros, mientras se mantiene por debajo de mil millones de parámetros. jina-embeddings-v5-omni-nano destaca igualmente por su tamaño y supera a modelos diez a sesenta veces más grandes.

Figura 7: Puntuaciones medias de ViDoRe en la recuperación visual de documentos en seis referencia: DocVQA, InfoVQA, ShiftProj, SynAI, Tabfquad y TatDQA.

Recuperación de audio

En las referencias estándar de recuperación de audio MAEB (Massive Audio Embedding Benchmark), tanto jina-embeddings-v5-omni-small como jina-embeddings-v5-omni-nano se clasifican entre los mejores rendimientos. Solo modelos muy grandes —más de tres veces más grandes que jina-embeddings-v5-omni-small — superaban su puntuación.

Figura 8: Puntuación media para varios modelos en las referencias de recuperación de audio MAEB.

Aunque el modelo larger_clap_general de LAION mejora el puntaje de jina-embeddings-v5-omni-nano con menos parámetros, es un modelo solo de audio sin ninguna de las características multimodales adicionales de la suite v5-omni.

Video

En video, jina-embeddings-v5-omni-small sobresale en encontrar el lugar en un video que coincida con una búsqueda de texto. Las pruebas Charades-STA y MomentSeeker son las referencias estándar para esta tarea, y puedes ver en los gráficos a continuación que jina-embeddings-v5-omni-small es el que obtuvo la puntuación más alta entre los modelos de peso abierto comparables, a pesar de tener un tamaño mucho más pequeño.

Figura 9: puntuaciones de Charades-STA para varios modelos, junto con sus tamaños.

Figura 10: puntuaciones de MomentSeeker para varios modelos, junto con sus tamaños.

También comparamos jina-embeddings-v5-omni-small con Seed 1.6 de ByteDance, un modelo de peso cerrado con un número de parámetros no revelado. Nuestro modelo supera ampliamente a Seed 1.6 en la referencia de Charades-STA y casi lo iguala en MomentSeeker.

Modelo	Puntuación Charades-STA	Puntuación MomentSeeker
seed-1.6-embedding	29.30	59.30
jina-embeddings-v5-omni-small	55.57	58.93

Fortalezas y limitaciones

jina-embeddings-v5-omni los modelos amplían la capacidad de los usuarios para indexar, buscar y analizar información digitalizada de varias maneras, particularmente:

Recuperación de voz multilingüe a partir de búsquedas de texto.
PDF, escaneos y búsqueda visual de documentos.
Localización temporal de videos, es decir, identificar partes de videos que coinciden con descripciones de texto en lenguaje natural.
Clasificación de géneros de audio, incluyendo géneros musicales.
Clasificación de imágenes basada en información de escena e identificación de objetos.

El rendimiento es más limitado en algunas otras áreas. Puede que sea posible usar jina-embeddings-v5-omni para realizar estas tareas, pero no nos capacitamos para ellas y los resultados pueden ser pobres.

Estamos trabajando activamente en mejorar nuestra tecnología en estas áreas:

Encontrar videos específicos a partir de descripciones en lenguaje natural.
Similitud semántica de imagen a imagen y recuperación.
Clasificación de intención en la voz, como el reconocimiento de comandos verbales.
Procesamiento de entradas de medios mixtos, es decir, imágenes y texto acompañantes, o audio, imágenes y textos combinados.

Usando jina-embeddings-v5-omni

Esta suite de modelos admite la entrada a través de tres puntos de entrada: texto, audio e imágenes y video juntos. jina-embeddings-v5-omni se ejecuta dentro de un marco de trabajo que convierte una amplia gama de formatos estándar y realiza otros preprocesamientos.

Procesamos imágenes usando el mismo enfoque de NaFlex de la versión inicial de Siglip2: si la entrada es menor que 262,144 píxeles (equivalente a 512x512), se ampliará hasta que sea mayor que ese mínimo; y si es mayor que 3,072,000 píxeles, entonces se reduce hasta que sea menor que ese máximo. El proceso de conversión garantiza que tanto la altura como el ancho de la imagen sean múltiplos de 14 píxeles, con la menor distorsión posible de la relación de aspecto para lograr ese objetivo. El resultado se divide en mosaicos de 28x28 píxeles, por lo que el número total de mosaicos es la cantidad de cuadrados de 28x28 necesarios para cubrir la imagen. Cada parche se trata como un solo token en el momento de la inferencia, y cada entrada de imagen va acompañada de tokens especiales de inicio y fin para delimitar una sola imagen.

Los modelos jina-embeddings-v5-omni modifican la resolución del video de la misma manera que se modifican las imágenes (ver arriba) y extraemos hasta 32 fotogramas del video. Si el video tiene más de 32 fotogramas (lo cual es probable, ya que los formatos estándar suelen ser de al menos 24 fotogramas por segundo), espaciamos uniformemente los fotogramas que extraemos. Luego, por cada dos fotogramas, el preprocesador de video genera un conjunto de tokens igual al número de cuadrados de 28x28 necesarios para cubrir el video.

Figura 11: jina-embeddings-v5-omni extrae 32 fotogramas equidistantes del video. Si tienes un video largo, esto significa que se perderá mucho.

Para obtener más detalles sobre el preprocesamiento de video, consulta la documentación técnica de SigLip2.

La tokenización de audio sigue el enfoque integrado en Qwen-2.5-Omni: Los archivos de audio se cortan en segmentos de 30 segundos; si duran más de 30 segundos, se remuestrean a 16 kHz y se transforman en un espectrograma Mel de 128 canales. Cada 40 ms se considera un solo token, así que cada segmento de 30 segundos se maneja como 750 tokens: un token por cada 40 ms de audio, más tokens especiales de inicio y fin para delimitar una sola muestra.

Para más detalles sobre el preprocesamiento de audio, consulta el reporte técnico de Qwen-2.5-Omni.

Disponibilidad

Primeros pasos

Para usar jina-embeddings-v5-omni para texto, puedes integrar usando el campo semantic_text igual que con jina-embeddings-v5-text. Solo tienes que poner la inference_id en .jina-embeddings-v5-omni-small o .jina-embeddings-v5-omni-nano. Consulta la Guía de referencia para las instrucciones.

Para incrustar otros medios con jina-embeddings-v5-omni, tienes que usar la API de inferencia. Por ejemplo:

POST _inference/embedding/.jina-embeddings-v5-omni-small
{
  "input": [
    {
      "content": { 
        "type": "image", 
        "format": "base64", 
        "value": "data:image/jpeg;base64,..." 
      } 
    }, 
    { 
      "content": { 
        "type": "text", 
        "value": "Some text to create an embedding" 
      } 
    } 
  ] 
}

Para jina-embeddings-v5-omni-nano, cambia el URI de POST a _inference/embedding/.jina-embeddings-v5-omni-nano.

Para codificar documentos en otros formatos o generar incrustaciones para la clasificación o el agrupamiento, debes crear un endpoint de inferencia con el servicio jinaai.

Para las búsquedas, usa el generador de búsquedas como en el ejemplo que aparece a continuación. Sustituye el valor inference_id por .jina-embeddings-v5-omni-nano para usar el modelo nano en lugar de small.

POST my-index/_search
{
  "knn": {
    "field": "dense-vector-field",
    "k": 10,
    "num_candidates": 100,
    "query_vector_builder": {
      "embedding": {
        "inference_id": ".jina-embeddings-v5-omni-small",
        "input": {
          "type": "image",
          "format": "base64",
          "value": "data:image/jpeg;base64,..."
        }
      }
    }
  }
}

Consulta la documentación sobre el generador de búsquedas para obtener más información.

Para usar BBQ con jina-embeddings-v5-omni, sigue las instrucciones para la indexación de BBQ.

Más información

Para obtener más información sobre jina-embeddings-v5-omni, consulte el reporte técnico y la página del modelo en el sitio web de Jina AI. La página de la colección jina-embeddings-v5-omni en Hugging Face también contiene información técnica e instrucciones para descargar y ejecutar estos modelos localmente. Los modelos de jina-embeddings-v5-omni pueden descargarse con una licencia CC-BY-NC-4.0, por lo que puedes probarlos libremente, pero, para uso comercial, ponte en contacto con el departamento de ventas de Elastic.

Percolador de Elasticsearch para la gobernanza de búsquedas en comercio electrónico: traducir búsquedas ambiguas en estrategias de recuperación controladas

Alexander Marquardt, Honza Král, Taylor Roy — Mon, 04 May 2026 00:00:00 GMT

Esta publicación es un análisis técnico detallado de la implementación en Elasticsearch de la arquitectura del plano de control descrita en la Parte 3, y muestra cómo crearla utilizando el percolador de Elasticsearch. Describe los patrones utilizados para implementar un motor de políticas determinista y regulado en producción.

De la arquitectura a la implementación

La Parte 3 describió la arquitectura del plano de control: coincidencia inversa como primitiva de búsqueda, documentos de políticas que separan la coincidencia de la acción y transformaciones en cascada que componen varias políticas en un solo plan de ejecución. Esta publicación pone en práctica la búsqueda del percolador de Elasticsearch, la función que permite la búsqueda de políticas.

El percolador se adapta naturalmente a la gobernanza porque invierte la dirección de búsqueda exactamente de la forma que necesita un plano de control. Esta publicación analiza la implementación paso a paso, comenzando con una explicación clara de la función del percolador y por qué es importante, pasando luego por el diseño del índice, el almacenamiento de políticas, la evaluación del tiempo de búsqueda y la composición de políticas múltiples.

Cómo funciona la búsqueda normal

En un sistema de comercio electrónico, puedes tener cientos de miles o millones de documentos de productos que contienen campos como title, category, y price. Cuando un usuario busca documentos coincidentes, le estás pidiendo a Elasticsearch que compare el texto de búsqueda del usuario con uno o más campos almacenados en estos documentos de producto. El analizador predeterminado de Elasticsearch, el analizador estándar, convierte el texto a minúsculas y lo divide en tokens. Una búsqueda de “naranjas” coincide con “Naranjas” debido a las minúsculas. Con un analizador sensible al idioma que incluye derivación, también coincide con “naranja” porque ambas formas se reducen a la misma raíz. Por ejemplo, la siguiente consulta de coincidencia devuelve documentos que tienen “naranja” o “naranjas” en su campo “title”.

POST products/_search
{
  "query": {
    "match": {
      "title": "oranges"
    }
  }
}

Entonces, para la búsqueda anterior, Elasticsearch devuelve los documentos del producto cuyo campo title coincide con “naranjas”, que podrían incluir resultados como “Mermelada de naranja”, “Jugo de naranja”, “Naranjas jugosas”, “Mermelada de naranja”, etc. El punto clave a recordar es que Elasticsearch se usa comúnmente para comparar un texto de búsqueda con documentos y para devolver los documentos que coinciden con el texto de búsqueda.

El problema de la gobernanza: encontrar políticas relevantes antes de buscar productos

Como se ha explicado en las Partes 1 a 3, un sistema de búsqueda gestionado no envía el texto de búsqueda del usuario directamente al catálogo de productos. Primero, comprueba si alguna política se aplica a ese texto de búsqueda.

Un vendedor decidió que cuando alguien busca exactamente "naranjas", los resultados deben restringirse a la categoría Naranjas y eliminar el jugo de naranja, la mermelada de naranja y el refresco de naranja. Esa decisión empresarial se almacena como una política. Cuando un usuario escriba "naranjas", el plano de control necesita encontrar esa política, leer sus instrucciones y modificar la búsqueda en el catálogo de productos en consecuencia. Para ello, el plano de control tiene que determinar qué políticas almacenadas son relevantes para esta cadena de búsqueda.

Un despliegue empresarial podría tener cientos o miles de políticas de este tipo. Comprobarlas una por una con lógica condicional (si/entonces) es el antipatrón de la capa de aplicación descrito en la Parte 2. Lo que necesitamos es una forma de almacenar todas esas políticas en un índice y encontrar instantáneamente las que coincidan con un texto de búsqueda determinado. Aquí es donde entra en juego el percolador.

Cambiando la dirección: el percolador

Como mencionamos anteriormente, en una búsqueda normal, Elasticsearch se usa comúnmente para comparar un texto de búsqueda con documentos y devolver los documentos que contienen ese texto de búsqueda.

El percolador hace justo lo contrario. Con un percolador, tienes un índice donde cada documento almacena un patrón de búsqueda, y luego se comprueba un texto de búsqueda entrante contra estas búsquedas almacenadas para determinar cuál de estos patrones de búsqueda almacenados se activó.

En materia de gobernanza, los "patrones de búsqueda almacenados" son políticas. Cada política contiene un patrón que describe el tipo de texto de búsqueda con el que debe coincidir. Por ejemplo, ¿el texto de búsqueda coincide exactamente con “naranjas” o el texto de búsqueda contiene “aceite de oliva”? La cadena entrante es el texto de búsqueda del usuario, que llega en el momento de la búsqueda y debe comprobarse con todos los patrones de políticas almacenados. Esto se cubre en un video relacionado con PRISM a las 4:09.

Paso a paso: cómo una búsqueda de "naranjas" encuentra su política

La política

Un vendedor ha creado una política que produce una coincidencia si un usuario busca exactamente "naranjas" sin ninguna otra palabra. Una vez que el percolador genera una coincidencia, el resto del documento incluye las reglas que el plano de control usará para crear la búsqueda del producto; en este ejemplo, una de las reglas es restringir (filtrar) los resultados a la categoría Frutas.

{
  "percolator": {
    "match_phrase": { "query": "START oranges END" }
  },
  "rule_type": "filter",
  "rule_args": {
    "filters": [
      {
        "field": "categories",
        "values": ["Fruits"],
        "mode": "hard_filter",
        "on_conflict": "soft_boost",
        "on_conflict_boost_weight": 1.0
      }
    ]
  },
  "priority": 0,
  "enabled": true
}

El campo percolator contiene el patrón que define cuándo debe ejecutarse esta política. En este caso, coincide con la expresión "START oranges END". Los campos rule_type y rule_args definen lo que debe hacer la política cuando se activa. Los tokens START y END son marcadores de límites, que explicaremos en breve.

Puedes ver cómo se crea una política en la UI de PRISM Studio en el minuto 2:52 del video relacionado de PRISM.

El usuario busca

Un comprador escribe "naranjas" en la barra de búsqueda.

El plano de control verifica las políticas de coincidencia

Antes de buscar en el catálogo de productos, el plano de control intercepta la cadena de búsqueda del usuario, la contiene entre marcadores de límite y la envía al percolador:

POST policies/_search
{
  "query": {
    "percolate": {
      "field": "percolator",
      "document": {
        "query": "START oranges END"
      }
    }
  }
}

El texto "START oranges END" se comprueba con todos los patrones de políticas almacenados. Internamente, Elasticsearch ejecuta los patrones de políticas almacenados relacionados con este texto y devuelve los que coinciden. Ese es el percolador. La cadena de búsqueda del usuario se comprobó según todos los patrones de políticas almacenados, y se devolvieron los que coincidían. No se permiten cadenas si/entonces. Sin evaluación secuencial. El índice maneja la coincidencia.

El plano de control aplica la política

El plano de control lee las acciones de las políticas coincidentes. La política anterior indica al plano de control que limite los resultados a la categoría Frutas. El plano de control crea la búsqueda final de Elasticsearch sobre el catálogo de productos de la siguiente manera:

POST products/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "title": "oranges" } }
      ],
      "filter": [
        { "terms": { "categories": ["Fruits"] } }
      ]
    }
  }
}

El usuario buscó "naranjas". El catálogo de productos recibe una búsqueda para "naranjas" restringida a la categoría Frutas. Debido a esta restricción, se excluyen el jugo de naranja, la mermelada de naranja y el refresco de naranja.

¿Por qué la "mermelada de naranja" no activa la política de naranjas?

Supongamos que otro usuario busca "mermelada de naranja". El plano de control envuelve el texto y se filtra: "START orange marmalade END". El patrón de la política de naranjas es match_phrase: "START oranges END". La política de naranjas no coincide y, por lo tanto, la política no se aplica, y los resultados no están limitados a la categoría Frutas.

Este es el propósito de los marcadores de límite START y END. Sin ellos, una política que coincida con la palabra "naranjas" podría activarse accidentalmente en una búsqueda como "mermelada de naranja". Al envolver el texto de búsqueda del usuario con START y END e incluir esos marcadores en el patrón de la política, nos aseguramos de que la política solo se activa cuando “naranjas” sea el texto de búsqueda completo, sin otras palabras. Esto coincide con la intención tanto de los compradores como de los comerciantes.

Una segunda política: "aceite de oliva" en el campo derivado.

No todas las políticas necesitan una coincidencia exacta de texto. La política de “aceite de oliva” coincide con un campo derivado, por lo que se aplica independientemente de variaciones menores en la forma de las palabras:

{
  "percolator": {
    "bool": {
      "should": [
        { "match_phrase": { "query.stemmed": "START olive oil END" } }
      ]
    }
  },
  "rule_type": "filter",
  "rule_args": {
    "filters": [
      {
        "field": "categories",
        "values": ["Olive oils"],
        "mode": "hard_filter",
        "on_conflict": "soft_boost",
        "on_conflict_boost_weight": 1.0
      }
    ]
  },
  "priority": 300,
  "enabled": true
}

El patrón de esta política coincide con query.stemmed en lugar de query. Cuando llega la cadena de búsqueda del usuario, se almacena tanto en un campo query (el texto exacto) como en un campo query.stemmed (analizado con un analizador de derivación que reduce las palabras a sus derivaciones, por lo que "aceitunas" y "aceituna" se reducen a la misma derivación, al igual que "aceites" y "aceite"). El patrón de la política se comprueba con la versión derivada del texto, por lo que se activa independientemente de las variaciones menores en la forma de la palabra.

Los marcadores de límites START y END también funcionan en el campo derivado, lo que garantiza que esta política solo se activa cuando "aceite de oliva" es el texto de búsqueda completo, no cuando aparece como parte de un texto más largo.

El resto de esta publicación cubre los detalles de implementación que hacen que esto esté listo para producción: la asignación de índices que admite ambos modos de coincidencia, cómo los resaltados impulsan la eliminación de frases y el seguimiento de las frases procesadas, y cómo múltiples políticas conflictivas se combinan en un único plan de ejecución.

El mapping del índice de políticas

El índice de políticas necesita un campo percolador para almacenar patrones de búsqueda y un campo de texto que refleje la estructura de la cadena de búsqueda entrante con la que el percolador coincidirá. El mapping a continuación se simplifica para mayor claridad. Un despliegue en producción es más complejo, ya que utiliza analizadores personalizados para manejar marcadores de límite, la coincidencia de patrones variables (por ejemplo, reconocer que "menos de $4" contiene un valor de moneda) y otros tipos de análisis.

PUT policies
{
  "mappings": {
    "properties": {
      "percolator": {
        "type": "percolator"
      },
      "query": {
        "type": "text",
        "fields": {
          "stemmed": {
            "type": "text",
            "analyzer": "stemming"
          }
        }
      },
      "rule_type": { "type": "keyword" },
      "rule_args": { "type": "object", "enabled": false },
      "priority": { "type": "integer" },
      "enabled": { "type": "boolean" }
    }
  }
}

El índice se llama policies porque cada documento representa una política regida completa como se define en la Parte 2. Esto incluye criterios de coincidencia, acción, prioridad y metadato. Los campos rule_type y rule_args contienen el componente de acción de la política, que incluyen las instrucciones que utilizará el plano de control para crear la búsqueda para su ejecución en el catálogo de productos.

El campo query es el texto con el que coincide el percolador. Tiene dos variantes: una versión exacta y una versión derivada. Cuando llega el texto de búsqueda del usuario, se coloca en este campo del índice temporal en memoria. Las políticas que coinciden en query ven el texto exacto; las políticas que coinciden en query.stemmed ven la versión derivada.

Filtrar con resaltados, análisis y clasificación

Los ejemplos simples anteriores mostraron solicitudes mínimas de percolación. En la práctica, el plano de control añade resaltado, filtra políticas deshabilitadas y clasifica por prioridad:

POST policies/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "percolate": {
            "field": "percolator",
            "document": {
              "query": "START olive oil END"
            }
          }
        },
        {
          "term": { "enabled": true }
        }
      ]
    }
  },
  "highlight": {
    "fields": {
      "query": {
        "matched_fields": ["query.stemmed"]
      }
    }
  },
  "sort": [
    { "priority": { "order": "desc" } }
  ]
}

La configuración de resaltado usa "query" como clave de campo con "query.stemmed" en matched_fields. Esto le indica al resaltador unificado de Elasticsearch que devuelva resaltados en el campo original query, pero que también considere las coincidencias del subcampo query.stemmed al determinar qué tokens resaltar. Esto es lo que permite que una política que coincide en el campo derivado siga produciendo resaltados precisos en el texto original, que el plano de control necesita para la eliminación de frases y el seguimiento de frases procesadas.

El filtro enabled: true garantiza que se omitan las políticas deshabilitadas. La sort como prioridad asegura que las políticas de mayor prioridad se devuelvan primero, para que el plano de control pueda procesarlas en el orden correcto para las transformaciones en cascada. El campo highlight es la adición más importante; nos indica exactamente qué palabras en el texto de búsqueda del usuario activaron cada coincidencia.

La respuesta a una búsqueda de "aceite de oliva" podría ser la siguiente:

{
  "hits": {
    "hits": [
      {
        "_id": "en_2c3021c8",
        "_source": {
          "rule_type": "filter",
          "rule_args": {
            "filters": [
              {
                "field": "categories",
                "values": ["Olive oils"],
                "mode": "hard_filter",
                "on_conflict": "soft_boost",
                "on_conflict_boost_weight": 1.0
              }
            ]
          },
          "priority": 300
        },
        "highlight": {
          "query": ["START olive oil END"]
        }
      }
    ]
  }
}

Por qué los resaltados son importantes

Observen el punto destacado en la respuesta: "START olive oil END". Elasticsearch nos dice exactamente qué palabras en el texto de búsqueda del usuario hicieron que la política coincidiera. Esto no es solo superficial. El metadato destacado impulsa dos comportamientos posteriores críticos:

Eliminación de frases. Algunas políticas necesitan eliminar el texto coincidente de la cadena de búsqueda antes de crear la búsqueda del catálogo de productos. Por ejemplo, una política que coincide con "barato" elimina esa palabra y la convierte en un filtro de precio en su lugar. El resaltado identifica exactamente con qué tramo del texto de búsqueda coincidía la política, para que el sistema sepa qué eliminar.

Seguimiento de frases procesadas. Como se describe en la Parte 3, cuando varias políticas coinciden con el mismo texto de búsqueda, una política de mayor prioridad podría eliminar palabras con las que también coincidía una política de menor prioridad. Al comparar el resaltado de cada política con el texto de búsqueda actual (en evolución), el sistema puede detectar que se ha procesado una frase y omitir la política de menor prioridad. Esto evita el doble procesamiento y asegura un comportamiento determinista.

Puedes obtener más información sobre cómo funciona el resaltado en este artículo.

De la percolación al plan de ejecución

El percolador devuelve un conjunto de políticas coincidentes. Pero tal como se describió en la Parte 3, la búsqueda es solo la mitad de la historia. La otra mitad consiste en integrar esas coincidencias en un plan de ejecución coherente. Así es como se ve para una búsqueda concreta.

Ejemplo trabajado: "chocolate barato" durante una campaña de Navidad

Imaginemos que el sistema tiene dos políticas activas: la política de "Chocolate barato" (prioridad 210) y la política de "Chocolates navideños" (prioridad 300), ambas descritas en detalle en la Parte 3.

Paso 1: Filtra. El usuario busca "chocolate barato". El plano de control envuelve el texto de búsqueda como "START cheap chocolate END" y lo envía al percolador. Dos políticas coinciden: El patrón de la política de "Chocolate barato" coincide con la frase "chocolate barato"; y el patrón de la política de "Chocolates navideños" coincide con "chocolate" a través del campo derivado.

Paso 2: ordena por prioridad. El percolador devuelve ambas políticas, ordenadas por prioridad en orden descendente. La política de “chocolates de Navidad” (300) se procesa primero, seguida de la política de “chocolate barato” (210).

Paso 3: aplica la transformación en cascada. Este es el modelo initial state → [Policy A] → state' → [Policy B] → state'' → execution plan de la Parte 3.

La política de “chocolates de Navidad” (prioridad 300) se aplica primero:

Agrega un filtro de categoría estricto: "comidas y bebidas de Navidad", "dulces de Navidad".
Agrega un filtro de precio: menos de $7.
Añade un impulso suave de categoría: "calendarios de Adviento" (3x).

La política de “chocolate barato” (prioridad 210) se aplica a continuación contra el estado modificado:

Se intenta agregar un filtro de categoría estricto: "Chocolates", "Chocolates con leche"; pero la política navideña ya estableció este campo con on_conflict: override, por lo que se eliminan las categorías de chocolate barato.
Se intenta agregar un filtro de precio: $2, la política de Navidad estableció on_conflict: restrict para el precio, y $2 es más restrictivo que $7, por lo que $2 gana.
Elimina "barato" del texto de búsqueda.

Paso 4: crea la búsqueda en Elasticsearch. El plano de control organiza el plan de ejecución en una sola búsqueda de Elasticsearch sobre el catálogo de productos:

POST products/_search
{
  "query": {
    "function_score": {
      "query": {
        "bool": {
          "must": [
            { "match": { "title": "chocolate" } }
          ],
          "filter": [
            { "terms": { "categories": ["Christmas foods and drinks", "Christmas sweets"] } },
            { "range": { "price": { "lt": 2 } } }
          ]
        }
      },
      "functions": [
        {
          "weight": 1
        },
        {
          "filter": { "terms": { "categories": ["Advent calendars"] } },
          "weight": 3
        }
      ],
      "score_mode": "sum",
      "boost_mode": "multiply"
    }
  }
}

El texto de búsqueda original era "chocolate barato". La búsqueda que llega al catálogo de productos es un plan de recuperación regulado y consciente de la intención: la palabra "barato" ha sido procesada y convertida en una restricción de precio, los resultados están restringidos a categorías estacionales de Navidad, los productos de calendario de Adviento reciben un impulso en el ranking y el techo de precio refleja el valor más restrictivo de la política de menor prioridad. Cada transformación es determinista, rastreable y explicable.

Para una visión general de cómo estos multiplicadores interactúan con el puntaje base de BM25, ver el punto 8:45 en el video relacionado de PRISM, donde hablamos brevemente de los aumentos multiplicativos.

¿Por qué esto funciona a escala?

El percolador es eficiente para este caso de uso debido a la asimetría: un sistema de comercio electrónico empresarial puede tener millones de productos, pero solo cientos o miles de políticas de gobernanza. El percolador está comprobando un texto de búsqueda entrante contra ese conjunto de patrones de políticas almacenados, no escaneando el catálogo completo de productos. El costo es proporcional a la cantidad de políticas y Elasticsearch aplica optimizaciones internas (indexación de términos a partir de patrones de búsqueda almacenados, con evaluación de cortocircuito de la lógica booleana) para mantener la coincidencia rápida.

Agregar una nueva política es simplemente indexar un nuevo documento. Deshabilitar una es una actualización de campo. Sin cambios de código, sin despliegues, sin reinicios.

De búsqueda a recuperación regulada

El percolador ofrece la primitiva de retrocompatibilidad rápida que hace que la arquitectura del plano de control de la Parte 3 sea práctica a gran escala. Las políticas son datos que se almacenan e indexan, y se comparan eficientemente con los textos de búsqueda entrantes. El plano de control compone políticas coincidentes en un plan de ejecución regulado a través de la transformación en cascada y la resolución de conflictos por campo descrita en la Parte 3. Y el motor de recuperación ejecuta el plan de ejecución definido sobre el catálogo de productos.

El resultado es un sistema en el que un vendedor puede crear una nueva política sin modificar el código de la aplicación, probarla con búsqueda representativas, implementarla en producción y observar el efecto de inmediato. El percolador agiliza la búsqueda de políticas; el plano de control hace que la composición de políticas sea determinista; y el flujo de trabajo regulado asegura la seguridad de todo el proceso.

Lo que se viene

La próxima publicación en esta serie extiende el plano de control gestionado a un nuevo territorio. Introduce una arquitectura de búsqueda de varios niveles, que explica cómo organizar una recuperación estricta, flexible y semántica mientras se mantiene la paginación y las facetas estables.

Pon en práctica la búsqueda gobernada de comercio electrónico

El plano de control basado en percolador descrito en esta publicación, desde los mapeos de índices y marcadores de límite hasta el seguimiento de frases basado en resaltados y la composición de políticas en cascada, fue desarrollado por Elastic Services Engineering como parte de nuestros aceleradores de búsqueda de comercio electrónico repetibles. Cada ejemplo de búsqueda y estructura de políticas que aparece aquí proviene de un sistema funcional validado en relación con catálogos de productos a escala empresarial.

Si quieres implementar un plano de control regulado y basado en políticas en Elasticsearch, Elastic Services puede acercarte a tu objetivo más rápido. Ponte en contacto con Elastic Professional Services.

Únete a la discusión

Cómo medir y mejorar la recuperación de búsqueda de Elasticsearch: de 0,43 a 0,75 con búsqueda híbrida

Jeffrey Rengifo — Mon, 04 May 2026 00:00:00 GMT

La búsqueda léxica mediante el algoritmo de clasificación BM25 es económica, rápida y muy eficaz para una amplia gama de consultas. Sin embargo, tiene un punto ciego: las consultas que no comparten tokens con tus documentos. En este artículo, mencionaremos con precisión en qué aspectos se queda corto el BM25. Emplearemos la API de evaluación de clasificación (rank_eval) de Elasticsearch y cerraremos esa brecha agregando incrustaciones de Jina AI mediante Elastic Inference Service (EIS). Verás cómo la puntuación de recuperación pasa de 0.43 a 0.75 y entenderás por qué.

¿Qué es la recuperación?

La recuperación mide en una escala de 0 a 1 cuántos de los documentos que realmente quieren tus usuarios aparecen en algún lugar de los resultados de búsqueda. Si una consulta debe mostrar tres productos y la búsqueda solo arroja dos de ellos en los 10 principales, recall@10 = 0.67 para esa consulta. Es una métrica basada en conjuntos: no le importa la posición de los documentos relevantes dentro de esos k resultados. Un documento relevante en la posición 10 cuenta igual que uno en la posición 1. Tener una recuperación alta significa que no estás perdiendo resultados relevantes.

El diagrama muestra dos conjuntos: todos los documentos relevantes (izquierda) y lo que BM25 realmente recuperó (10 principales, derecha). Solo la intersección cuenta para la recuperación, se encontraron prod_1 y prod_2, mientras que prod_3, prod_4 y prod_6 se perdieron por completo. Resultado: Recall@10 = 2/5 = 0.40.

Requisitos previos

Pongamos manos a la obra para comprender mejor cómo funciona la recuperación. Esta demostración utiliza Python. Puedes seguirlo en el cuaderno complementario (notebook.ipynb), donde cada bloque de código es una celda lista para ejecutarse.

El código proporcionado utiliza lo siguiente:

Elasticsearch 9.3+
Python 3.10+

pip install elasticsearch pandas plotly python-dotenv

Un archivo .env con tus credenciales de Elasticsearch

ELASTICSEARCH_URL=https://your-cluster-url
ELASTICSEARCH_API_KEY=your-api-key

El set de datos

Emplearemos un catálogo con 1000 productos, que abarcan categorías como calzado, electrónica, herramientas y más.

Cada documento tiene cuatro campos:

Campo	Tipo
`título`	texto
'descripción'	texto
`marca`	palabra clave
'categoría'	palabra clave

El set de datos se carga desde dataset.csv.

El poder y los límites de la búsqueda léxica

BM25 es el algoritmo de clasificación predeterminado en Elasticsearch y en la mayoría de los motores de búsqueda. Califica los documentos según la frecuencia con la que aparecen tus términos de consulta en ellos, ajustado por la longitud del documento y la frecuencia de esos términos en todo el índice. Los analizadores aparecen en la parte superior: normalización de minúsculas, derivación y eliminación de palabras vacías. Una búsqueda de "zapatillas para correr" coincidirá con "Zapatillas para correr" y probablemente también con "correr".

Esto funciona bien para una amplia clase de consultas:

"zapatillas de correr" muestra de inmediato los productos que contienen exactamente esas palabras en el título.
"parlante con bluetooth" muestra productos de audio portátiles porque los tokens aparecen textualmente.

Los resultados son deterministas y explicables: un documento se clasifica alto porque los términos de la consulta aparecen en él. Depurar la relevancia es sencillo.

Cuándo falla

Ahora probemos estas búsquedas en el mismo catálogo:

"rutina de skincare": la palabra "rutina" no aparece en ningún título de producto. BM25 puede hacer una coincidencia parcial con "skincare", pero los sueros faciales, aceites corporales y humectantes se describen utilizando términos como "vitamina C", "retinol" o "aclarante", ninguno de los cuales se superpone con la consulta. Los productos que forman una rutina completa de skincare están dispersos en el índice sin ningún token compartido para anclarlos.

ID: B06XX6DS3P, Score: 9.0552, Title: Replenix Retinol Smooth + Tighten Body Lotion - Collagen-Boosting, Regenerating Anti-Aging Body Cream, Reduces Appearance of Stretch Marks, 6.7 oz.

  ID: B08XMPKJ1L, Score: 5.2699, Title: Bio-Oil Skincare Body Oil (Natural) Serum for Scars and Stretchmarks, Face and Body Moisturizer Hydrates Skin, with Organic Jojoba Oil and Vitamin E, For All Skin Types, 6.7 oz

  ID: B01CY764KQ, Score: 5.0057, Title: Nike Up Or Down Men Deodorant - Pack of 2 | Long-Lasting Fragrance, Body Spray Combo for Men | Deodorant for Active Living | Nike Men's Deo Set | Ultimate Odor Protection | Grooming Essentials | Signature Nike Scent | High-Performance Men's Deodorant

"accesorios de viaje para mascotas": esta es una agrupación de casos de uso, no una categoría de producto. Un transportín para perros, un asiento para mascotas en el automóvil y una jaula de viaje son todos relevantes, pero sus descripciones hablan sobre portabilidad, seguridad y comodidad en vez de "accesorios de viaje". BM25 coincide con "mascota" de manera amplia, pero no tiene ninguna señal para distinguir los productos específicos de viaje del resto del catálogo de mascotas.

ID: B0BVV7BKTW, Score: 7.4371, Title: Large Foldable Travel Duffel Bag with Shoes Compartment

ID: B07TNPHYNV, Score: 6.6455, Title: 40 Pieces Christmas Bronze Jingle Bells Craft Small Bells

ID: B08R8FRW53, Score: 6.6335, Title: CUBY Dog and Cat Sling Carrier
ID: B08QMCQYGM, Score: 6.5259, Title: YTFGGY Whiteboard Pinstripe Tape 6 Rolls 1/8"
ID: B0CP3LQSWM, Score: 6.2994, Title: Portable Dog Water Bottle 32 Oz

Este es un problema de recuperación. Los documentos relevantes están en tu índice. BM25 simplemente no puede encontrarlos porque las palabras del usuario y las del documento no coinciden lo suficiente.

Agregar sinónimos es útil en casos conocidos. Pero no se puede enumerar todas las formas en que un usuario podría expresar una intención. Ahí es donde entran los vectores.

Por qué deberías medir el recall

Antes de solucionar un problema, necesitas cuantificarlo.

Recall@k mide cuántos de los documentos que realmente buscan tus usuarios aparecen en algún lugar de los resultados de búsqueda. Es decir:

Recall@k = (relevant documents found in top k) / (total relevant documents)

Precision@k mide los mejores k resultados y cuántos son realmente relevantes:

Precision@k = (relevant documents in top k) / k

La alta precisión significa que los resultados que se devuelven son buenos. En el comercio electrónico, no mostrar un producto relevante (baja recuperación) suele ser peor que mostrar un resultado ligeramente imperfecto (menor precisión), porque un producto oculto es una venta perdida.

La API rank_eval de Elasticsearch te permite medir ambos de forma sistemática. Proporcionas una lista de consultas, cada una con un conjunto de documentos calificados, y Elasticsearch calcula las métricas por ti en todas las consultas.

Configuración de la evaluación

La API rank_eval necesita un set de datos de calificaciones: un mapeo de consultas a los documentos que son relevantes para cada uno, junto con un grado de relevancia (0 = no relevante, 1 = relevante, 2 = altamente relevante).

En el cuaderno, esta es la lista de evaluaciones:

judgments = [
    # Query 1: "running shoes" BM25 handles well (tokens appear in product titles) 
    {"query_id": "q1", "doc_id": "B09NQJFRW6", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B08JMD4LMM", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B08VRJ6F2Q", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B07S8NRRWR", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B01HD620I8", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B07DX86321", "grade": 2, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B0968YVLQ8", "grade": 1, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B093QJ39ZS", "grade": 1, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B096FGSC39", "grade": 1, "query": "running shoes"},
    {"query_id": "q1", "doc_id": "B01GVQWVV2", "grade": 1, "query": "running shoes"},

    # Query 2: "skincare routine" intent-based, "routine" never appears in product titles
    {"query_id": "q2", "doc_id": "B08XMPKJ1L", "grade": 2, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B0BN3WQB92", "grade": 2, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B0BT7B7P5T", "grade": 2, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B00NPA2WEY", "grade": 2, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B06XX6DS3P", "grade": 1, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B07PDRD1KT", "grade": 1, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B074J7869B", "grade": 1, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B08JV31QW4", "grade": 1, "query": "skincare routine"},
    {"query_id": "q2", "doc_id": "B00K3TVJMQ", "grade": 1, "query": "skincare routine"},

    # Query 3: "study desk setup" intent-based, products are desks/stands/organizers
    {"query_id": "q3", "doc_id": "B08CS35J2T", "grade": 2, "query": "study desk setup"},
    {"query_id": "q3", "doc_id": "B09B3LFDXJ", "grade": 2, "query": "study desk setup"},
    {"query_id": "q3", "doc_id": "B07W58LMND", "grade": 1, "query": "study desk setup"},
    {"query_id": "q3", "doc_id": "B0CHYDX91L", "grade": 1, "query": "study desk setup"},

    # Query 4: "pet travel accessories" use-case grouping, products are carriers/crates/seats
    {"query_id": "q4", "doc_id": "B08R8FRW53", "grade": 2, "query": "pet travel accessories"},
    {"query_id": "q4", "doc_id": "B01MYUYX33", "grade": 2, "query": "pet travel accessories"},
    {"query_id": "q4", "doc_id": "B003C5RKE4", "grade": 2, "query": "pet travel accessories"},
    {"query_id": "q4", "doc_id": "B09GF8GBF6", "grade": 1, "query": "pet travel accessories"},
    {"query_id": "q4", "doc_id": "B0CP3LQSWM", "grade": 1, "query": "pet travel accessories"},
]

La combinación es intencionada: q1 es una consulta que BM25 maneja bien (tokens exactos en los títulos de productos), mientras que q2, q3 y q4 son consultas basadas en la intención donde la intención del usuario se expresa como un concepto en lugar de palabras clave específicas de producto.

Medición de la recuperación basal de BM25

Primero, configura el cliente de Elasticsearch e indexa los datos de texto sin procesar:

import os
import json
import pandas as pd
import plotly.graph_objects as go
from elasticsearch import Elasticsearch, helpers
from dotenv import load_dotenv

load_dotenv()

es = Elasticsearch(
    os.getenv("ELASTICSEARCH_URL"),
    api_key=os.getenv("ELASTICSEARCH_API_KEY")
)

INDEX_NAME = "ecommerce-products"

Ahora crea la solicitud rank_eval para BM25. Cada solicitud en la lista combina una consulta con sus calificaciones:

judgments_df = pd.DataFrame(judgments)

bm25_requests = []
for query_id, query_text in (
    judgments_df[["query_id", "query"]].drop_duplicates().values
):
    relevant_docs = judgments_df[judgments_df["query_id"] == query_id]
    ratings = [
        {"_index": INDEX_NAME, "_id": row["doc_id"], "rating": row["grade"]}
        for _, row in relevant_docs.iterrows()
    ]

    bm25_requests.append({
        "id": query_id,
        "request": {
            "query": {
                "multi_match": {
                    "query": query_text,
                    "fields": ["title", "description"]
                }
            }
        },
        "ratings": ratings,
    })

bm25_eval = {
    "requests": bm25_requests,
    "metric": {"recall": {"k": 10, "relevant_rating_threshold": 1}},
}

bm25_result = es.rank_eval(index=INDEX_NAME, body=bm25_eval)
print("BM25 Recall@10:", bm25_result.body["metric_score"])

Resultado:

BM25 Recall@10: 0.43

0.43 significa que en las cuatro consultas, BM25 encuentra solo el 43 % de los documentos que debería encontrar. La deficiencia se concentra en las consultas basadas en la intención: "rutina de skincare" no encuentra sueros faciales ni aceites corporales porque la palabra "rutina" nunca aparece en los títulos de los productos, y "accesorios de viaje para mascotas" recupera productos para mascotas que no tienen relación con el tema, mientras que no encuentra transportines ni jaulas descritos en términos de portabilidad y seguridad en vez de "accesorios de viaje".

Esta es nuestra referencia base. Ahora tenemos un número que superar.

Agregar búsqueda vectorial con embeddings de Jina

Vector search Codifica documentos y consultas como vectores de alta dimensión, un tipo de vector compuesto por cientos o miles de valores numéricos, cada uno de los cuales codifica una característica específica de los datos que representa. Los documentos con significado similar terminan cerca unos de otros en el espacio vectorial, incluso si no comparten palabras. "Equipo de gimnasio" y "conjunto de mancuernas" estarán cerca porque los conceptos están relacionados. Elegí Elasticsearch como mi base de datos vectorial porque admite la búsqueda híbrida, lo que me brinda comprensión semántica y precisión de palabras clave de inmediato.

EIS incluye soporte integrado para la incorporación de modelos a través de su API de inferencia.

Paso 1: usar las incrustaciones de Jina v5 como endpoint de inferencia

INFERENCE_ENDPOINT_ID = ".jina-embeddings-v5-text-small"

Si tu clúster tiene recursos de GPU (disponibles en Elastic Cloud y Elasticsearch 9.3+), las incrustaciones se generan en GPU, lo cual es mucho más rápido que la inferencia de CPU y elimina el compromiso de rendimiento que históricamente hacía que los vectores fueran caros a gran escala.

¿Por qué las incrustaciones de Jina en particular? jina-embeddings-v5-text es un modelo multilingüe (más de 119 idiomas) con una ventana de contexto de 32 000 tokens y soporte para adaptadores de Adaptación de Rango Bajo (LoRA) específicos para tareas. Funciona bien para descripciones cortas de productos que están listas para usar. Lee más sobre el modelo jina-embeddings-v5-text aquí.

Paso 2: Crear el índice con un campo semántico

index_mappings = {
    "mappings": {
        "properties": {
            "title": {"type": "text", "copy_to": "semantic_field"},
            "description": {"type": "text", "copy_to": "semantic_field"},
            "brand": {"type": "keyword"},
            "category": {"type": "keyword"},
            "semantic_field": {
                "type": "semantic_text",
                "inference_id": INFERENCE_ENDPOINT_ID,
            },
        }
    }
}

if not es.indices.exists(index=INDEX_NAME):
    es.indices.create(index=INDEX_NAME, body=index_mappings)
    print(f"Created index: {INDEX_NAME}")

El tipo de campo semantic_text es la clave aquí. Es una abstracción de mayor nivel sobre dense_vector: la apuntas a un endpoint de inferencia, y Elasticsearch se encarga de generar incrustaciones de forma automática.

La propiedad copy_to en title y description significa que el contenido de ambos campos fluye hacia semantic_field para su incrustación, por lo que un solo vector captura la representación completa del producto.

Paso 3: Indexar los productos

def bulk_index(products, index_name):
    actions = []
    for product in products:
        doc_id = product.get("_id")
        source = {k: v for k, v in product.items() if k != "_id"}
        action = {"_index": index_name, "_source": source}
        if doc_id:
            action["_id"] = doc_id
        actions.append(action)

    success, failed = helpers.bulk(es, actions, raise_on_error=False)
    if failed:
        for error in failed:
            print(f"Error: {error}")
    else:
        print(f"Successfully indexed {success} documents")

bulk_index(products, INDEX_NAME)

En tiempo de indexación, Elasticsearch llama al endpoint de inferencia para cada documento y almacena la incrustación resultante en semantic_field. No necesitas agregar ningún código adicional.

Búsqueda híbrida: combinación de BM25 y vectores con RRF

Agregar vectores mejora la recuperación, pero usar solo vectores corre el riesgo de perder precisión en las consultas de coincidencia exacta; "zapatillas para correr" aún debe clasificar primero las coincidencias literales. La búsqueda híbrida retiene el componente léxico específicamente para preservar esa precisión.

La búsqueda híbrida con Reciprocal Rank Fusion (RRF) combina lo mejor de ambos:

BM25 se ocupa de consultas exactas y casi exactas con alta precisión.
La búsqueda semántica gestiona consultas basadas en la intención y multilingües con alto nivel de recuperación.
RRF combina las dos listas clasificadas en una sola clasificación.

La fórmula RRF asigna a cada documento una puntuación basada en su clasificación en cada lista de resultados:

score = sum(1 / (rank_constant + rank))

Un documento que se clasifica en una posición alta en ambas listas obtiene una puntuación combinada más alta. El rank_constant controla cuánto peso reciben los documentos de menor rango.

hybrid_requests = []

for query_id, query_text in (
    judgments_df[["query_id", "query"]].drop_duplicates().values
):
    relevant_docs = judgments_df[judgments_df["query_id"] == query_id]
    ratings = [
        {"_index": INDEX_NAME, "_id": row["doc_id"], "rating": row["grade"]}
        for _, row in relevant_docs.iterrows()
    ]

    hybrid_requests.append({
        "id": query_id,
        "request": {
            "retriever": {
                "rrf": {
                    "retrievers": [
                        {
                            "standard": {
                                "query": {
                                    "multi_match": {
                                        "query": query_text,
                                        "fields": ["title", "description"],
                                    }
                                }
                            }
                        },
                        {
                            "standard": {
                                "query": {
                                    "match": {
                                        "semantic_field": {"query": query_text}
                                    }
                                }
                            }
                        },
                    ],
                    "rank_window_size": 50,
                    "rank_constant": 5,
                }
            }
        },
        "ratings": ratings,
    })

hybrid_eval = {
    "requests": hybrid_requests,
    "metric": {"recall": {"k": 10, "relevant_rating_threshold": 1}},
}

hybrid_result = es.rank_eval(index=INDEX_NAME, body=hybrid_eval)
print("Hybrid Recall@10:", hybrid_result.body["metric_score"])

Resultado:

Hybrid Recall@10: 0.75

La búsqueda híbrida mejora sustancialmente sobre BM25 (0.43) y preserva la precisión para consultas de coincidencia exacta como "zapatillas para correr".

Resultados: Antes y después

Aquí está la comparación completa entre los tres enfoques:

methods = {
    "BM25 (Lexical)": bm25_requests,
    "Hybrid (BM25 + Vectors)": hybrid_requests,
}

recall_metric = {"recall": {"k": 10, "relevant_rating_threshold": 1}}

comparison_data = []
for method_name, requests in methods.items():
    result = es.rank_eval(
        index=INDEX_NAME,
        body={"requests": requests, "metric": recall_metric}
    )
    comparison_data.append({
        "method": method_name,
        "recall@10": result.body["metric_score"]
    })

comparison_df = pd.DataFrame(comparison_data)
print(comparison_df.to_string(index=False))

Resultado:

Método	Recall@10
BM25 (Lexical)	0,43
Híbrido (BM25 + Vectores)	0,75

Desglose por consulta:

Conclusión

A lo largo de esta publicación, vimos que la búsqueda léxica BM25 es confiable cuando los usuarios teclean consultas exactas, pero pierde recuperación cuando buscan por intención en lugar de palabras clave. Usando rank_eval, establecimos una línea de base reproducible para medir esa brecha con números reales. A partir de ahí, agregamos un semantic_text campo impulsado por incrustaciones de Jina y volvimos a ejecutar la evaluación. El resultado: la búsqueda híbrida mejoró la recuperación de 0.43 a 0.75 a la vez que conservó la precisión en las consultas de coincidencia exacta, aunque el margen real dependerá de tu combinación de consultas.

El patrón escala más allá de este ejemplo: recopila juicios de las consultas reales de tus usuarios, ejecuta rank_eval como línea de base, agrega semantic_text y vuelve a medir. Sabrás exactamente qué mejoró y en qué medida.

Pasos siguientes

Aprende más sobre la recuperación y la búsqueda de vectores: Recuperación y cuantización de la búsqueda de vectores por Jeff Vestal
Añade reclasificación para una precisión aún mejor en los resultados principales
Explora la documentación de búsqueda híbrida de Elasticsearch
Lee más sobre la API rank_eval

Creación de un plano de control para gestionar las búsquedas en el comercio electrónico

Alexander Marquardt, Honza Král, Taylor Roy — Fri, 01 May 2026 00:00:00 GMT

La parte 1 y la parte 2 de esta serie establecieron por qué la búsqueda de comercio electrónico necesita una capa de gobernanza, una capa de decisión entre la consulta del usuario y el motor de recuperación que clasifica la intención, impone restricciones y enruta a la estrategia de recuperación correcta (p. ej., BM25, semántica, híbrida). Esta publicación muestra cómo construir esa capa utilizando una primitiva arquitectónica simple, en la cual las políticas de interpretación de consultas se almacenan como documentos y se recuperan en tiempo de consulta mediante coincidencia inversa rápida. Debido a que las nuevas políticas de recuperación (p. ej., “reforzar la marca X” o “mostrar solo la categoría Y”) no requieren cambios en el código, el resultado es una capa de enrutamiento que se mantiene estable mientras las políticas evolucionan y que mantiene los motores de recuperación seguros en entornos de alto riesgo. Si quieres ver el resultado final de esta arquitectura antes de seguir leyendo, mira este video: Mejorar la relevancia de búsqueda en segundos: presentamos PRISM.

Por qué interpretar consultas suele ser complicado

Almacenar políticas como código (bloques if/else en la capa de aplicación) produce decenas de miles de líneas de lógica frágil que carece de cualquier indexación para una recuperación eficiente de políticas en tiempo de consulta. La iteración es lenta (un simple cambio en el comportamiento de una consulta puede requerir un ciclo de despliegue de seis semanas), la responsabilidad no está clara (¿por qué cambiaron los resultados?) y los usuarios de negocio no pueden modificar el comportamiento de búsqueda sin la intervención del equipo de ingeniería. Esto se muestra en el lado izquierdo de la siguiente imagen:

En la parte derecha de la imagen de arriba se muestra cómo almacenar políticas como datos en un índice de Elasticsearch. Este enfoque resuelve todos los problemas asociados con la lógica de resolución de consultas codificada de forma rígida. Sin embargo, para que esto funcione, necesitas una manera de determinar rápidamente qué políticas coinciden con la consulta del usuario y cómo se deben resolver los conflictos. Aquí es donde entra en juego el plano de control gobernado.

El patrón del plano de control

Entre la consulta original del usuario y la recuperación de Elasticsearch se interpone un plano de control gestionado. Recibe texto del usuario como entrada, y su salida es un plan de ejecución que incluye filtros, refuerzos y decisiones de enrutamiento de recuperación.

Un pipeline del plano de control consiste en:

Consulta del usuario: un usuario ingresa un texto de lo que está buscando, como “naranjas” o “regalo para el abuelo”.
Búsqueda de políticas: hacer coincidir la consulta del usuario con el índice de políticas.
Arrojar políticas coincidentes: las políticas que coinciden con la consulta del usuario se recuperan del índice de políticas.
Aplicación de políticas: la capa de control analiza las políticas arrojadas y combina las políticas coincidentes en un único plan de ejecución coherente que incluye filtros, refuerzos, anulaciones y barreras de seguridad, y aplica el método de recuperación adecuado (por ejemplo, recuperación léxica, recuperación semántica o híbrida).
Ejecutar: la consulta consciente de la intención modificada de Elasticsearch se pasa a la aplicación para ejecutarse contra un índice de catálogo de productos.
Explicar (opcional): además de crear una consulta que proporciona resultados alineados con el negocio y la intención, el plano de control ofrece una carga útil opcional de explicabilidad para mostrar qué políticas se activaron y cómo se combinaron.

Encontrar qué políticas deben aplicarse para el texto de búsqueda de un usuario requiere una primitiva de coincidencia inversa rápida, que resolvemos con la búsqueda percolator. Después de recuperar las políticas relevantes, es necesario un marco de trabajo de juicio para combinar múltiples políticas emparejadas en un plan de ejecución unificado: prioridades, estrategias de conflicto, seguimiento de frases consumidas y transformaciones en cascada que aplican las políticas en secuencia en vez de forma independiente. Además, se debe seleccionar la tecnología de recuperación más adecuada (por ejemplo, BM25 para “naranjas” frente a la búsqueda semántica de “regalo para el abuelo”).

Consulta de políticas: verificación de la consulta antes de buscar productos

Cuando un comprador escribe una consulta, un sistema de búsqueda con un plano de control regulado no envía esa consulta directamente para que se ejecute en el catálogo de productos. Primero, la consulta se compara con un conjunto de políticas almacenadas y se modifica para reflejar la intención de la consulta y las prioridades del negocio.

Estructura de la política

Cada póliza es un documento simple que define dos cosas:

Criterio de coincidencia: Qué texto de búsqueda debería activar esta política. Esto puede ser una frase exacta, una sola palabra, un patrón o una combinación.
Acción: qué hacer cuando se activa la política. Esto podría consistir en aplicar un filtro de categoría, excluir productos, establecer un límite de precio o cambiar la estrategia de búsqueda.

El sistema busca todas las políticas que coinciden, las integra en un plan de ejecución y solo entonces ejecuta la búsqueda de productos. Tomadas en conjunto, las políticas actúan como un asociado conocedor de la tienda que entiende lo que estás buscando y te guía hacia el pasillo correcto.

El patrón de política

Los primeros artículos de esta serie introdujeron ejemplos de políticas en acción: restringir "naranjas" a la categoría de productos, tratar "sin maní" como una exclusión y dirigir "regalo para el abuelo" a la recuperación semántica. El punto arquitectónico clave es que, en cada caso, la consulta se verifica con las políticas almacenadas antes de que comience la búsqueda del producto. Las políticas determinan qué restricciones aplicar, qué texto modificar y qué estrategia de recuperación utilizar. La consulta al catálogo de productos se realiza después de que se hayan aplicado las políticas y se haya creado una nueva consulta reescrita.

Por qué es rápido

Un sistema de comercio electrónico empresarial puede tener millones de productos, pero solo cientos o miles de políticas. El paso de búsqueda de políticas implica buscar en un índice pequeño y curado, no en el catálogo completo de productos, y por lo tanto es rápido. Y como las políticas se almacenan como datos en su propio índice, un comerciante que agregue una nueva política no tiene que tocar el código de la aplicación, y un ingeniero que optimice la búsqueda de productos no tiene que tocar el índice de políticas. Las dos preocupaciones evolucionan por su cuenta.

Los ejemplos anteriores describen qué sucede a nivel conceptual. Detrás de escena, la búsqueda de políticas se implementa usando el tipo de consulta percolator de Elasticsearch, que está diseñado específicamente para este tipo de patrón: hacer coincidir el texto entrante con un conjunto de consultas almacenadas. La Parte 4 de esta serie proporciona una inmersión práctica y profunda en la implementación de percolator, incluyendo mapeos de índices, marcadores de límite y seguimiento de frases impulsado por resaltado. Ya que la Parte 4 cubre la totalidad del mecanismo de búsqueda, pasemos a lo que realmente contiene un documento de política y cómo el plano de control compone múltiples políticas en un solo plan de ejecución.

Ejemplos de políticas

Ahora que ya sabemos qué hacen las políticas en teoría, veamos qué contienen en realidad. Las dos políticas que aparecen a continuación se han diseñado para que entren en conflicto de forma intencionada, lo que servirá para demostrar el sistema de resolución de conflictos que se describe en las secciones siguientes.

Chocolate barato

La política que se muestra a continuación detecta si un usuario ha enviado una búsqueda que contiene la frase “chocolate barato”. Si es así, los resultados se restringen a las categorías de “chocolates” y “chocolates con leche”. Esta política también aplica un filtro de precio de $2. Además, observa que esta política tiene una prioridad de 210; retomaremos esto cuando veamos la resolución de conflictos con más detalle.

La configuración del modo de filtro y la estrategia de conflicto que se muestran aquí (hard_filter, soft_boost, restrict, override) se explican en detalle en la sección de resolución de conflictos a continuación.

Cuando se activa la política anterior, una búsqueda de “chocolate barato” respeta el filtro de precio de $2 y restringe los resultados a las categorías de “chocolates” y “chocolates de leche”. A continuación se muestran los resultados de ejemplo:

Chocolate de Navidad

La política que se muestra a continuación es un ejemplo de una política que uno podría imaginar aplicando en Navidad. Este ejemplo restringe los resultados a “comidas y bebidas navideñas” y “dulces navideños”, refuerza cualquier producto que también esté en la categoría “calendarios de Adviento” y aplica un filtro de precio de menos de $7 para enfocarse en artículos de temporada asequibles. Además, ten en cuenta que esta política tiene una prioridad de 300. Lo retomaremos cuando veamos la resolución de conflictos con más detalle.

Cuando la política anterior se activa sin ninguna política conflictiva, una búsqueda de “chocolate” respeta el filtro de precio de $7, y restringe los resultados a las categorías de “comida y bebidas navideñas” y “dulces navideños”, y refuerza cualquier producto etiquetado como “calendarios de Adviento”. A continuación se muestran los resultados de ejemplo:

Combinación de políticas coincidentes

La consulta de políticas que acabamos de describir es solo la mitad de la cuestión. La otra mitad es lo que sucede cuando varias políticas coinciden con la misma búsqueda.

En cualquier despliegue no trivial, una sola consulta activará de forma rutinaria varias políticas a la vez. "Chocolate barato" coincidirá con ambas políticas que ya demostramos. Cada política es correcta de forma aislada. La parte difícil consiste en combinarlas en un único plan de ejecución coherente, sin contradicciones, sin contar dos veces lo mismo y sin que una política anule en silencio el trabajo de otra.

Esto no es un problema de búsqueda; es un problema de juicio. El sistema debe decidir:

Orden de solicitud: si una política de negación elimina "sin maní" de la consulta, ¿la política de precios sigue viendo el texto original o el texto modificado?
Filtrar conflictos: si dos políticas establecen diferentes límites de precio, ¿cuál gana? ¿El perdedor se elimina en silencio o se degrada poco a poco en un refuerzo leve?
Propiedad de frase: si dos políticas coincidieron en la misma palabra y la primera ya la consumió, ¿debería activarse la segunda?

Una implementación ingenua (aplicar todas las políticas coincidentes de forma independiente, combinar los resultados) falla apenas interactúan las políticas. La arquitectura necesita un modelo explícito de cómo se componen las políticas. Las siguientes dos secciones describen ese modelo: un marco de trabajo de prioridad y resolución de conflictos; y un modelo de transformación en cascada que hace que la interacción de políticas sea determinista.

La idea clave es que la aplicación de políticas no es un conjunto de operaciones independientes, sino una transformación en cascada. Cada política recibe el estado de reescritura producido por todas las políticas de mayor prioridad y lo transforma aún más:

estado inicial → [Política A] → estado' → [Política B] → estado'' →... → plan de ejecución

El estado lleva el texto de la consulta reescrito, los filtros acumulados, la intención actual y cualquier expansión de sinónimos. Una política de alta prioridad puede eliminar texto de la consulta, y cada política subsiguiente ve la consulta modificada, no la original. El contexto se acumula. El orden importa.

Precedencia y resolución de conflictos: el determinismo importa

Las estrategias específicas de conflicto son una elección de diseño. Cada organización puede resolver los conflictos de manera diferente, según sus necesidades empresariales. El siguiente enfoque ilustra el tipo de marco de trabajo que necesita un plano de control. Lo importante no son estas estrategias concretas, sino que el sistema cuente con estrategias explícitas y deterministas, en lugar de dejar que los conflictos se resuelvan mediante interacciones impredecibles.

Orden de prioridad

Las políticas se ordenan por prioridad (la más alta primero). Cuando varias políticas coinciden con la misma consulta, se aplican en orden de prioridad. Si dos políticas intentan establecer el mismo campo de filtro, la estrategia declarada por la política de mayor prioridad para ese campo tiene prioridad. Si hay varias políticas activadas que tienen la misma prioridad, entonces se da preferencia a la política con el ID más alto (como si se le hubiera asignado una prioridad más alta); esta elección asegura un comportamiento determinista cuando surgen conflictos.

Resolución por campo, no por política

Un principio fundamental de diseño: la resolución de conflictos opera por campo (por ejemplo, marca, categoría o descripción), no por política. Cuando dos políticas producen filtros que se superponen en campos específicos, solo esos campos específicos se ven afectados por la estrategia de resolución de conflictos, y la estrategia de resolución la define la política de coincidencia de mayor prioridad. Los campos no conflictivos de ambas políticas permanecen intactos.

Esto importa porque la alternativa de un enfoque por política obligaría al sistema a aceptar o rechazar una política completa cuando solo uno de sus campos entra en conflicto.

La resolución por campo conserva la mayor cantidad posible de información útil sobre restricciones.

Tres configuraciones por campo del filtro

Cada campo de filtro de una política tiene tres configuraciones independientes:

Modo de filtro: cómo se aplica el filtro cuando no hay conflicto.

hard_filter (predeterminado): se aplica como una cláusula Elasticsearch bool.filter. Esto es útil para excluir por completo productos no relacionados. Por ejemplo, restringir la búsqueda de "naranjas" a la categoría de productos elimina resultados como jugo de naranja y mermelada de naranja. Los documentos que no coinciden se excluyen por completo de los resultados.
soft_boost: aplicado como un peso de Elasticsearch function_score con un boost_weight configurable. Los documentos que coinciden obtienen un refuerzo en la clasificación, pero los documentos que no coinciden no se excluyen. Esto es útil, por ejemplo, para reforzar una marca sin dejar de lado a las demás.

Estrategia de conflicto

Qué ocurre cuando una política de menor prioridad establece el mismo campo:

override: El valor de esta política de alta prioridad gana; el valor de menor prioridad se descarta por completo. Válido para todos los tipos de campos.
restrict: Tomemos el valor numérico más restrictivo (por ejemplo, el techo inferior para el precio__max, the higher floor for price__min). Válido solo para campos numéricos de rango.
merge: Combina ambos valores en una unión. Válido solo para campos no numéricos.
soft_boost: Convierte el filtro en conflicto a un peso function_score con un boost_weight configurable en lugar de un filtro estricto. Para más detalles sobre el aumento de function_score, consulta Cómo influir en el ranking de BM25 con aumento multiplicativo en Elasticsearch. Esto solo es válido para campos no negativos.

Valor: el valor real del filtro (por ejemplo, una lista de categorías, un umbral de precio).

Estrategias por tipo de campo: no todas las estrategias tienen sentido para todos los tipos de campo. Por ejemplo, una exclusión es inherentemente binaria, por lo que no se puede reforzar de forma leve. La siguiente tabla muestra qué estrategias están disponibles para cada tipo de campo:

Tipo de campo	Estrategias disponibles	Predeterminado
Campos de negación (__not, __match__not)	anular, fusionar	anular
Campos de rango numérico (__max, __mín, __gt, __lt)	restringir, anular, soft_boost	restringir
Todos los demás campos (palabra clave, texto)	soft_boost, anular, fusionar	soft_boost

Los campos de negación no se pueden reforzar de forma leve porque las exclusiones son binarias. Convertir "nunca mostrar alimentos enlatados" a "leve preferencia por alimentos no enlatados" cambia fundamentalmente la semántica; un producto de "alimentos enlatados" aún aparecería, solo clasificado ligeramente más abajo, lo que anula el propósito de la exclusión.

Un ejemplo concreto: buscar "chocolate barato" durante una campaña de Navidad

Suponga que un comerciante ha creado las dos políticas para el chocolate que demostramos previamente, una de menor prioridad para el chocolate barato y otra política relacionada con el chocolate de mayor prioridad que se habilitará durante Navidad. Si ambas de estas políticas están habilitadas, entonces cómo se combinan depende del modo de filtro y la estrategia de conflicto de la política de mayor precedencia. Si ambas de las políticas previamente discutidas están habilitadas, se combinarán de la siguiente manera:

Esto muestra dos conflictos, uno en categorías y uno en precio. Vale la pena señalar que la consulta que se ejecutará después de esta transformación tiene las siguientes características:

Solo se mostrarán productos de las categorías “Comidas y bebidas navideñas” y “Dulces navideños”.
Dentro de esas categorías, si los productos también están etiquetados como pertenecientes a la categoría “Calendarios de Adviento”, recibirán un impulso de 3x.
Se aplica un filtro de precio por $2, que proviene de la política de menor prioridad (porque la política de mayor prioridad especificada es “Restringir” en caso de conflicto).
La palabra “barato” se elimina, así que se arrojan solo los productos que coinciden con “chocolate”.

Con ambas políticas habilitadas, “chocolate barato” devuelve resultados similares a la imagen que se muestra a continuación:

Relajación de restricciones

Tal vez el minorista no quiere excluir productos en las categorías de “chocolates” y “chocolates de leche” durante Navidad. La configuración de la política de Navidad podría haber excedido los límites y eliminado inadvertidamente las categorías aplicadas por la política de "chocolate barato". Este es un ejemplo que muestra por qué podría ser más deseable combinar políticas de menor prioridad con políticas en conflicto de mayor prioridad. Por ejemplo, podríamos modificar la promoción de chocolates de Navidad para que, en lugar de "anular" en caso de conflicto, hagamos un refuerzo leve. El cambio a esa política sería el siguiente:

Después de esta modificación, la ejecución de la pipeline de transformación del reescritor de consultas para “chocolate barato” tiene el siguiente aspecto:

Con el refuerzo leve en caso de conflicto, los filtros conflictivos se convierten en refuerzos leves en vez de ser descartados. La consulta que se ejecutará en el catálogo de productos luego de esta transformación tiene las siguientes características:

Debido a que “En conflicto” se especifica como “Refuerzo leve” en la política de mayor prioridad, los conflictos se convertirán en impulsos de la siguiente manera:
- Los productos de las categorías “comidas y bebidas de Navidad” y “dulces de Navidad” tendrán un refuerzo de 1 vez aplicado.
- A los productos de las categorías “chocolates” y “chocolates con leche” se les aplicará un refuerzo de 3 veces.
Como en el ejemplo anterior, si los productos también están etiquetados como en la categoría “calendarios de Adviento”, se reforzará tres veces.
Como en el ejemplo anterior, se aplica un filtro de precio de $2.
La palabra “barato” se elimina, así que se arrojan solo los productos que coinciden con “chocolate”.

Con filtrado relajado, los resultados se ven así:

Anulando precio desde una política de alta prioridad

O tal vez el minorista quiere permitir que se muestren chocolates un poco más caros durante Navidad aumentando el precio máximo a $7. Para asegurarnos de que el precio máximo de la política de chocolates navideños no se invalide si alguien hace una "búsqueda de chocolates baratos", podemos establecer el modo de conflicto en el precio en "anular" en lugar de "restringir", de la siguiente manera:

Con esta anulación, la consulta para “chocolate barato” ignora el precio máximo que se define en la “política de chocolate barato” y solo aplica el precio especificado en la “política de chocolates de Navidad”, de la siguiente manera:

Esto es similar al ejemplo anterior, con la diferencia de que el precio máximo se establece en el valor de $7 de la política de mayor prioridad porque esa política especificó “Anular” en caso de conflicto. Con el filtro de precios de Navidad como prioridad, los resultados se ven así:

Estas tres variantes (override, soft_boost y override on price) demuestran una propiedad clave del sistema: un comerciante puede cambiar cómo interactúan dos políticas modificando una configuración en un solo campo dentro de una sola política, sin necesidad de desplegar ningún código. La estrategia de conflicto es el interruptor que controla el comportamiento empresarial.

Seguimiento de frases consumidas

Hay un tipo de conflicto más sutil: dos políticas que coinciden en la misma frase. Si una política de mayor prioridad elimina "sin maní" de la consulta, una política de menor prioridad que también coincidió con "sin" no tiene nada sobre lo que actuar. El sistema detecta si la frase coincidente ya no está presente en la consulta reescrita y omite la política de menor prioridad.

Las políticas de intención están exentas del seguimiento de frases consumidas: establecen la estrategia de recuperación basada en la coincidencia de la consulta original, independientemente del texto que se haya eliminado por políticas de mayor prioridad.

El orden de prioridad, la resolución de conflictos por campo y el seguimiento de frases consumidas juntos otorgan al plano de control un modelo de composición determinista. Con esa base establecida, el sistema puede tomar una decisión de enrutamiento que sería arriesgada sin ella.

La gobernanza hace que la estrategia de recuperación sea segura

Una información importante sobre el enrutamiento al método de recuperación correcto (texto, semántico o híbrido) es que se ejecuta luego de la gobernanza. Si tus políticas ya han aplicado la categoría de "producto", entonces la recuperación semántica se vuelve mucho menos riesgosa porque el conjunto de candidatos está restringido. Una búsqueda semántica sobre 500 productos es una propuesta muy diferente a una búsqueda semántica sobre 500 000 SKU. La gobernanza reduce el radio del impacto antes de que comience la recuperación.

Por ejemplo, sin gobernanza, una consulta semántica para “fruta con alto contenido de vitamina C por menos de $4”, además de frutas, podría devolver botellas de vitaminas, zanahorias y pimientos verdes. El plano de control se encarga de que esos resultados no deseados ni siquiera se tengan en cuenta como parte de la expansión semántica.

Con esa restricción en vigor, el plano de control aplica una lógica de enrutamiento práctica:

Léxico para consultas de navegación y principales donde la precisión determinista es importante.
Semántico para consultas de descubrimiento descriptivo donde la coincidencia de conceptos ayuda.
Híbrido selectivamente, cuando las restricciones ya han sido aplicadas y el negocio acepta una recuperación más amplia.

De la arquitectura a la implementación

El plano de control gestionado traduce la intención comercial en planes de ejecución deterministas y componibles, sin incorporar esa lógica en el código de la aplicación. Las políticas son datos: se emparejan en el momento de la consulta, se resuelven mediante estrategias explícitas de conflicto por campo y se aplican como transformaciones en cascada que producen resultados explicables. Elastic Services Engineering ha construido y desplegado esta arquitectura para equipos de comercio electrónico empresarial, utilizando patrones repetibles y aceleradores que abarcan el camino desde el concepto hasta la producción. Puedes ver una demostración de nuestra implementación de un plano de control en YouTube en: Mejorar la relevancia de búsqueda en segundos: presentamos PRISM.

Lo que se viene

La siguiente publicación aborda la implementación de forma práctica: cómo el percolator de Elasticsearch impulsa la consulta de políticas, incluso los mapeos de índices, los marcadores de límites, el seguimiento de frases basado en resaltados y los ejemplos concretos de consultas.

Pon en práctica la búsqueda gobernada de comercio electrónico

La arquitectura del plano de control descrita en esta publicación (resolución de conflictos por campo, transformaciones en cascada de políticas y enrutamiento de recuperación con restricciones de gobernanza) fue diseñada y construida por Elastic Services Engineering. Todos los patrones, capturas de pantalla y pipeline de transformación que se muestran en esta serie provienen de un sistema operativo creado por Elastic Services Engineering y validado con catálogos de productos a escala empresarial.

Si quieres implementar un plano de control regulado y basado en políticas en Elasticsearch, Elastic Services te ayuda a lograrlo más rápido.

Únete a la discusión

Reindexación de flujos de datos debido a conflictos de mapping

Lisa Larribas — Fri, 24 Apr 2026 00:00:00 GMT

Cuando surgen conflictos de mapping en los campos, ya sean del estándar Elastic Common Schema (ECS) o específicos de la fuente de datos, es necesario reindexar tus datos con Herramientas de desarrollo. Estos conflictos pueden afectar negativamente cualquier función posterior tras la ingestión, lo que provoca resultados inexactos o impide el uso del conjunto de datos completo en características como visualizaciones, dashboards, la app de Security y agregaciones. Esta publicación de blog detalla los pasos para este proceso de reindexación.

El contenido de este blog se ha elaborado y verificado utilizando las versiones 9.2.8 y 8.19.14 de Elastic, junto con las versiones 2.3.0 y 1.2.0 de Filestream Integration.

Nota importante: Dependiendo de tu entorno, algunos pasos pueden requerir modificaciones específicas. Además, ten en cuenta que las plantillas dinámicas se eliminaron de la plantilla del componente @package a partir de la versión 2.3.3 de Filestream Integration.

Antes de comenzar el proceso de reindexación, es importante considerar la asignación actual de almacenamiento en tu entorno. Los pasos descritos a continuación implican crear una copia del índice de respaldo existente, que residirá temporalmente en el nivel de datos caliente.

Niveles de datos de Elasticsearch

Caliente: el nivel caliente es el punto de entrada de Elasticsearch para los datos temporales, donde se almacenan los datos más recientes y buscados con frecuencia. Los nodos de nivel caliente requieren lecturas y escrituras rápidas, lo que necesita más recursos y almacenamiento más rápido (SSD). Este nivel es obligatorio y los nuevos índices de flujos de datos se asignan automáticamente aquí.
Tibio: los Datos temporales pueden pasar al nivel tibio una vez que se consultan con menos frecuencia que los datos indexados recientemente en el nivel caliente. El nivel tibio suele contener datos de las últimas semanas. Las actualizaciones siguen estando permitidas, pero probablemente sean poco frecuentes. Los nodos en el nivel tibio generalmente no necesitan ser tan rápidos como los del nivel caliente. Para la resiliencia, los índices en el nivel tibio deben configurarse para usar una o más réplicas.
Frío: los datos que son de búsqueda poco frecuente pueden pasar del nivel tibio al frío. El nivel frío, aunque sigue permitiendo realizar búsquedas, prioriza los costos de almacenamiento más bajos frente a la velocidad de búsqueda. Alternativamente, el nivel frío puede almacenar índices regulares con réplicas en lugar de snapshots buscables, lo que permite el uso de hardware menos costoso para datos antiguos sin reducir los requisitos de espacio en disco en comparación con el nivel tibio.
Congelado: los datos que se consultan con poca frecuencia o que ya no se consultan se mueven del nivel frío al congelado para su ciclo de vida restante. Este nivel utiliza un repositorio de snapshot e índices parcialmente montados para almacenar y cargar datos, lo que reduce el almacenamiento local y los costos al tiempo que permite la búsqueda. Las búsquedas en el nivel congelado suelen ser más lentas que en el nivel frío, ya que es posible que Elasticsearch tenga que recuperar los datos congelados del repositorio de snapshot. Recomendamos nodos de nivel congelado dedicados.

Requisitos previos: determinar qué campos presentan conflictos

Para determinar qué campos tienen conflictos de mapping, navega a Stack Management -> Data Views -> logs-* (usar la vista de datos logs-* es la jerarquía más alta de datos presente con el prefijo logs-). Si hay algún conflicto, habrá un cuadro amarillo que lo indique. Puedes hacer clic en Ver conflictos o, en el cuadro de tipo de campo junto al cuadro de búsqueda , seleccionar conflicto.

Al hacer clic en el botón amarillo Conflicto, se mostrará qué índices están asociados con qué tipos de mapping.

Esta situación (donde el campo se mapea como un keyword y un long) generalmente ocurre porque los datos se ingirieron antes de que se definiera un tipo de mapping específico en la plantilla de componente para el flujo de datos relevante. En esos casos, Elasticsearch intenta configurar el mapping basándose en sus plantillas dinámicas.

Para determinar qué mapeo es apropiado para el campo y si el campo es un campo ECS, se necesita verificación con referencia de campo ECS. Si el campo en cuestión no es un campo ECS, hay que revisar su valor para determinar el mapeo correcto.

Si un campo, como log.offset en este ejemplo, no está documentado en el ECS, los siguientes pasos son investigar el valor del campo, determinar qué tipo de mapping conflictivo tiene más índices de respaldo y examinar las plantillas componentes de los otros índices.

Por lo general, el tipo de mapeo asociado al mayor número de índices es el correcto, pero te recomendamos que compruebes el valor del campo en cuestión para asegurarte de ello. Para confirmar la validez de un tipo de mapeo (por ejemplo, long), también debes verificar que el valor del campo sea apropiado para ese tipo. Esta verificación se puede realizar empleando Discover para buscar el campo en cuestión. Revisar otros flujos de datos que contengan el mismo campo también puede servir como confirmación adicional.

Para revisar los valores presentes en el campo con el problema de mapping, vuelve al botón amarillo Conflictomencionado anteriormente, haz clic en el botón Conflicto, selecciona uno de los índices de respaldo y péguelo en una sesión de Discover . Tu declaración del lenguaje de búsqueda de Kibana (KQL) debería verse como la siguiente captura de pantalla, para incluir el delimitador de campo _index:.

Prepara la nueva plantilla de componente personalizado del índice de respaldo

Para abordar el conflicto de mapping en el flujo de datos, primero examina la plantilla de componentes correspondiente @package. Puedes encontrar esto en Stack Management -> Gestión de indexación> Plantilla de componentes. Busca el flujo de datos y selecciona el enlace @package correspondiente. Esta plantilla contiene mapping para el campo listos para usar y, aunque no es común tener una falta de coincidencia de mapping, es posible que se pase por alto el tipo más apropiado.

Revisa la plantilla para asegurarte de que contiene el anidamiento y el mapeo de campos necesarios para el campo en cuestión. Por ejemplo, si la plantilla indica incorrectamente log.offset como keyword, esta es la fuente del problema.

Importante: Debido a que no se recomienda modificar las plantillas @package/administradas, debes usar o crear una plantilla de componente @custom para corregir el tipo de mapeo (por ejemplo, para log.offset) para todos los datos futuros.

No recomendamos modificar las plantillas @package/administradas, ya que cuando actualices la integración a una versión más reciente, cualquier cambio que realices en la plantilla @package se sobrescribirá. Por eso recomendamos usar las plantillas de @custom .
Si un flujo de datos experimenta conflictos de mapeo, debes agregar cualquier anidamiento o mapeo de campos faltantes (ECS y no ECS) a la plantilla de componente @custom del flujo de datos. Crea esta plantilla si aún no existe y asegúrate de especificar el tipo de mapeo correcto para el campo.
Si tienes varios conflictos en tu data view, aplica todos los mapping faltantes necesarios para el flujo de datos en simultáneo para que la reindexación se realice una vez en lugar de varias veces. Contar con entradas para el ingreso de datos correcto en la plantilla de componentes @custom plantilla de componentes garantizará que cualquier futura ingesta de datos siga la misma pauta de mapping.

Para crear la plantilla de componente @custom (o verificar que está en uso y rellenada), navega a Plantillas de Índice, escribe el nombre del flujo de datos en cuestión y haz clic en la plantilla de @custom correspondiente que esté usando el flujo de datos. Si la plantilla aún no está creada, aparecerá un cuadro amarillo que te permitirá crear la plantilla a través de la UI.

La captura de pantalla a continuación muestra la página siguiente una vez que se selecciona Crear plantilla de componente. Deja los valores predeterminados tal como están en la primera página y haz clic en Mappings o Siguiente hasta que llegues a la página Mappings.

Para establecer explícitamente el mapeo de un nuevo campo que entra o para actualizar un campo que tenga un conflicto de mapeo, cuando el flujo de datos se revierte debido a la configuración establecida en la política de ciclo de vida del índice, se necesita una entrada para el campo en el que existe el conflicto.

Lo siguiente establecerá el mapeo para el campo log.offset en la plantilla de componente @custom para el flujo de datos filestream. Repite los pasos para agregar cualquier campo personalizado o actualizar los campos necesarios del @package con los mapeos adecuados, si es necesario, para este set de datos. En este ejemplo, al establecer el desplazamiento en Long, el tipo de campo será Numeric y el tipo numérico será Long. Haz clic en Agregar campo y luego fuera del área para continuar.

Una vez que se hayan agregado todos los campos necesarios, haz clic para revisar y selecciona Crear plantilla de componente cuando esté listo. Todos los nuevos datos que se ingesten a partir de este paso tendrán log.offset configurado en long.

Creación de la nueva estructura de índice de respaldo

El nuevo índice de respaldo debe tener los mappings existentes de la plantilla de componentes del flujo de datos, así como la plantilla de componentes ECS ecs@mappings. La ecs@mappings plantilla de componente se aplica después del componente del flujo de datos como un recurso general para mappings adicionales que potencialmente no se capturaron en las plantillas de componentes anteriores.

Ve a la pestaña del navegador para ver el mapeo @package del flujo de datos. (Go to Stack Management -> Gestión de índices -> Plantilla de componentes -> logs-filestream.generic@package -> Gestionar -> Editar.) Una vez allí, haz clic en la sección Revisión, luego en Solicitar y finalmente en el botón Copiar a la derecha. El contenido JSON de la plantilla de componentes copiada garantizará que se conserven los mapeos y configuraciones de campo restantes mientras actualizamos el mapeo del campo log.offset. El JSON formará la estructura de respaldo para el índice de respaldo recién reindexado.

Importante: si no se copiara el JSON de la plantilla y se continuara trabajando con la reindexación, el log.offset conflicto se resolvería, pero habría nuevos conflictos con la integración, ya que no se mantendría la integridad de las asignaciones actuales, lo que crearía un doble trabajo para resolver el problema original.

Abre una segunda pestaña del navegador, navega a Herramientas de desarrollo y pega el contenido copiado. Ahora, para limpiar lo que se pegó:

Modificaciones a la solicitud

1. Nombre del índice: Reemplaza _component_template/logs-filestream.generic@package con el nombre del índice de respaldo que pretendes reindexar, añadiendo -1 al final. Por ejemplo, usa PUT -1.

El adjunto -1 indica una reindexación y no entrará en conflicto con la configuración predeterminada de rollover de ILM, que se basa en la fecha de creación del índice.

2. Configuración: Elimina la línea "template" (línea 3), así como la última llave de cierre para toda la carga útil JSON; la línea 3 debería comenzar con "settings": {.

Sustituye el contenido interior de la sección de ajustes por "index.codec": "best_compression". Esta acción aplicará la mejor compresión de Elastic al índice al momento de la creación.
Agrega "index.lifecycle.name": "logs", así como una línea para "index.lifecycle.rollover_alias": "".
1. La "index.lifecycle.name": "logs" entrada aplicará la política de ILM de logs al nuevo índice de respaldo. Modifica el nombre de la política de ILM si no usas logs.
2. El "index.lifecycle.rollover_alias": "" está en blanco, ya que este índice de respaldo no se rotará, pero la configuración es necesaria para evitar errores de rotación de ILM en la siguiente fase de ILM después de hot.

3. Estructura: la solicitud ahora debería incluir tanto una sección Settings como una sección Mappings. Dentro de "mappings": {deberías encontrar "dynamic_templates" y una sección de "properties" que contiene campos codificados y sus mappings.

4. Modificación de plantillas dinámicas: La sección actual de plantillas dinámicas contiene entradas para campos que pueden sobrescribirse cuando se agregan las ecs@mappings plantillas dinámicas a continuación, lo que provoca redundancia y líneas adicionales que no son necesarias.

Elimina todas las secciones de "dynamic_templates" excepto la segunda sección llamada "_embedded_ecs-data_stream_to_constant": {.
Repite el mismo proceso descrito anteriormente, ya que reúne los mappings dinámicos para la plantilla del componente @package , pero esta vez los mappings dinámicos para la plantilla del componente ecs@mappings.
- Puede ser más fácil copiar todo el contenido de los mapeos de la interfaz de usuario para la plantilla del componente ecs@mappings, pegarlo en la sección Herramientas de desarrollo dynamic_templates que funcione y eliminar las líneas duplicadas e innecesarias cuando sea apropiado. Incluye estos contenidos de configuración de plantilla dinámica después de la entrada"_embedded_ecs-data_stream_to_constant": {. La sección dynamic_templates debería tener un aspecto muy similar al contenido de muestra a continuación en Dev Tools.
Si dynamic_templates no se incluyen o eliminan por completo, otros campos (revisa la captura de pantalla abajo) tendrán doble mapeo: text y keyword frente a los mapeos adecuados, si la sección de dynamic_templates se dejó incluida. Lo que queda debería ser la sección "properties" debajo de "mappings". Esto también creará problemas en la Data view, ya que los campos se mapearán dos veces (si no se mapearon ya de esta manera) y provocará conflictos de mapeo adicionales.

5. Eliminación de metadatos: elimina la última sección etiquetada "_meta", así como la sección etiquetada "version", si está presente.

6. Formato: indentación automática de las secciones restantes y ajuste o eliminación de cualquier corchete innecesario que impida una ejecución exitosa.

7. Cambio de mapeo: Navega hasta la sección "properties" , encuentra "log"y luego localiza "offset" anidado debajo. Cambia el tipo de keyword a long, y elimina la entrada de línea (incluida la coma) etiquetada "ignore_above": 1024,. Si se agregaste más de una entrada a la plantilla de componente @custom creada anteriormente, inclúyela aquí.

Tu vista de consola de herramientas de desarrollo ahora debería ser similar al ejemplo que se proporciona a continuación.

PUT .ds-logs-filestream.generic-default-2026.04.14-000001-1
{
  "settings": {
    "index.codec": "best_compression",
    "index.lifecycle.name": "logs",
    "index.lifecycle.rollover_alias": ""
  },
  "mappings": {
    "dynamic_templates": [
      {
        "_embedded_ecs-data_stream_to_constant": {
          "path_match": "data_stream.*",
          "mapping": {
            "type": "constant_keyword"
          }
        }
      },
      {
        "ecs_timestamp": {
          "mapping": {
            "ignore_malformed": false,
            "type": "date"
          },
          "match": "@timestamp"
        }
      },
      {
        "ecs_message_match_only_text": {
          "path_match": [
            "message",
            "*.message"
          ],
          "mapping": {
            "type": "match_only_text"
          },
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_non_indexed_keyword": {
          "path_match": [
            "*event.original"
          ],
          "mapping": {
            "index": false,
            "type": "keyword",
            "doc_values": false
          }
        }
      },
      {
        "ecs_non_indexed_long": {
          "path_match": [
            "*.x509.public_key_exponent"
          ],
          "mapping": {
            "index": false,
            "type": "long",
            "doc_values": false
          }
        }
      },
      {
        "ecs_ip": {
          "path_match": [
            "ip",
            "*.ip",
            "*_ip"
          ],
          "mapping": {
            "type": "ip"
          },
          "match_mapping_type": "string"
        }
      },
      {
        "ecs_wildcard": {
          "path_match": [
            "*.io.text",
            "*.message_id",
            "*registry.data.strings",
            "*url.path"
          ],
          "mapping": {
            "type": "wildcard"
          },
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_path_match_wildcard_and_match_only_text": {
          "path_match": [
            "*.body.content",
            "*url.full",
            "*url.original"
          ],
          "mapping": {
            "fields": {
              "text": {
                "type": "match_only_text"
              }
            },
            "type": "wildcard"
          },
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_match_wildcard_and_match_only_text": {
          "mapping": {
            "fields": {
              "text": {
                "type": "match_only_text"
              }
            },
            "type": "wildcard"
          },
          "unmatch_mapping_type": "object",
          "match": [
            "*command_line",
            "*stack_trace"
          ]
        }
      },
      {
        "ecs_path_match_keyword_and_match_only_text": {
          "path_match": [
            "*.title",
            "*.executable",
            "*.name",
            "*.working_directory",
            "*.full_name",
            "*file.path",
            "*file.target_path",
            "*os.full",
            "*email.subject",
            "*vulnerability.description",
            "*user_agent.original"
          ],
          "mapping": {
            "fields": {
              "text": {
                "type": "match_only_text"
              }
            },
            "type": "keyword"
          },
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_date": {
          "path_match": [
            "*.timestamp",
            "*_timestamp",
            "*.not_after",
            "*.not_before",
            "*.accessed",
            "created",
            "*.created",
            "*.installed",
            "*.creation_date",
            "*.ctime",
            "*.mtime",
            "ingested",
            "*.ingested",
            "*.start",
            "*.end",
            "*.indicator.first_seen",
            "*.indicator.last_seen",
            "*.indicator.modified_at",
            "*threat.enrichments.matched.occurred"
          ],
          "mapping": {
            "type": "date"
          },
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_path_match_float": {
          "path_match": [
            "*.score.*",
            "*_score*"
          ],
          "mapping": {
            "type": "float"
          },
          "path_unmatch": "*.version",
          "unmatch_mapping_type": "object"
        }
      },
      {
        "ecs_usage_double_scaled_float": {
          "path_match": "*.usage",
          "mapping": {
            "scaling_factor": 1000,
            "type": "scaled_float"
          },
          "match_mapping_type": [
            "double",
            "long",
            "string"
          ]
        }
      },
      {
        "ecs_geo_point": {
          "path_match": [
            "*.geo.location"
          ],
          "mapping": {
            "type": "geo_point"
          }
        }
      },
      {
        "ecs_flattened": {
          "path_match": [
            "*structured_data",
            "*exports",
            "*imports"
          ],
          "mapping": {
            "type": "flattened"
          },
          "match_mapping_type": "object"
        }
      },
      {
        "all_strings_to_keywords": {
          "mapping": {
            "ignore_above": 1024,
            "type": "keyword"
          },
          "match_mapping_type": "string"
        }
      }
    ],
    "properties": {
      "input": {
        "properties": {
          "type": {
            "ignore_above": 1024,
            "type": "keyword"
          }
        }
      },
      "@timestamp": {
        "ignore_malformed": false,
        "type": "date"
      },
      "ecs": {
        "properties": {
          "version": {
            "ignore_above": 1024,
            "type": "keyword"
          }
        }
      },
      "log": {
        "properties": {
          "file": {
            "properties": {
              "inode": {
                "ignore_above": 1024,
                "type": "keyword"
              },
              "path": {
                "ignore_above": 1024,
                "type": "keyword"
              },
              "device_id": {
                "ignore_above": 1024,
                "type": "keyword"
              },
              "fingerprint": {
                "index": false,
                "type": "keyword"
              }
            }
          },
          "offset": {
            "type": "long"
          },
          "level": {
            "ignore_above": 1024,
            "type": "keyword"
          }
        }
      },
      "data_stream": {
        "properties": {
          "namespace": {
            "type": "constant_keyword"
          },
          "type": {
            "type": "constant_keyword"
          },
          "dataset": {
            "type": "constant_keyword"
          }
        }
      },
      "event": {
        "properties": {
          "original": {
            "index": false,
            "type": "keyword",
            "doc_values": false
          },
          "module": {
            "type": "constant_keyword",
            "value": "filestream"
          },
          "dataset": {
            "type": "constant_keyword",
            "value": "filestream.generic"
          }
        }
      },
      "message": {
        "type": "match_only_text"
      },
      "tags": {
        "ignore_above": 1024,
        "type": "keyword"
      }
    }
  }
}

Una vez que su consola se parezca al ejemplo (incluyendo cualquier campo personalizado adicional y valores personalizados específicos de su entorno), ejecute el comando para crear la estructura básica del nuevo índice de respaldo, haciendo una pausa para resolver cualquier error que surja.

Comenzar el proceso de reindexación

Con el shell del nuevo índice de respaldo creado correctamente, el siguiente paso es reindexar y resolver los conflictos de mapping.

Importante: si el índice de respaldo que presenta el conflicto de mapping es el índice más reciente y es el índice de escritura actual (por ejemplo, el número final del índice de respaldo es -000001), el flujo de datos debe reiniciarse. Es necesario reiniciar el flujo de datos, ya que el índice de escritura actual, al que se le están introduciendo documentos, es un índice de respaldo activo y no se puede modificar.

Con el mapping de campo correcto ahora aplicado al índice de escritura más nuevo a través de la plantilla de componente @custom creada anteriormente, todos los documentos nuevos reflejarán este cambio.

Esto se realiza ejecutando lo siguiente:

POST /_rollover

Por ejemplo:

POST logs-filestream.generic-default/_rollover

La reindexación implica copiar los datos de un índice de respaldo existente a uno nuevo dentro de la misma convención de nomenclatura, generalmente para aplicar los cambios necesarios. Estas modificaciones podrían incluir actualizaciones de una plantilla de componente o la incorporación de un nuevo pipeline de ingesta para procesar los datos.

A continuación, los datos se copiarán desde el índice de respaldo que tiene los mappings incorrectos a un nuevo índice de respaldo. El índice de respaldo original se ha desplazado, lo que significa que no se pueden agregar nuevos documentos. El nuevo índice de respaldo seguirá la misma convención de nombres, que preserva la visibilidad e integridad de los datos al aplicar la política ILM correcta, pero incluirá un sufijo -1 para indicar que fue reindexado.

Ajusta los nombres de los índices según sea necesario y pega el siguiente código en la consola. Al incluir wait_for_completion=false, puedes seguir el progreso de la copia de documentos, lo que ayuda a estimar el tiempo restante de reindexación. Sin esta configuración, no puedes rastrear el estado con el comando GET _tasks a continuación y solo podrás verificar el recuento de documentos en el índice de respaldo más nuevo con GET -1/_count.

Importante: si surgen problemas durante el proceso de reindexación, no vuelvas a ejecutar el comando reindex; hacerlo reiniciará el proceso y creará registros duplicados en el índice que terminan en -1. Si es necesario reiniciar, primero elimina el índice que termina en -1, y luego ejecuta el comando PUT anterior para recrear la nueva shell de índice de respaldo.

POST _reindex?wait_for_completion=false
{
  "source": {
    "index": ""
  },
  "dest": {
    "index": "-1"
  }
}

i.e.
POST _reindex?wait_for_completion=false
{
  "source": {
    "index": ".ds-logs-filestream.generic-default-2026.04.13-000001"
  },
  "dest": {
    "index": ".ds-logs-filestream.generic-default-2026.04.13-000001-1"
  }
}

Tras la ejecución, la respuesta incluirá un ID de tarea. Puedes monitorear el progreso de la reindexación usando este ID con el comando: GET _tasks/.

La duración de la reindexación depende del volumen de datos del índice original. La finalización se puede rastrear si se busca "completed": true al ejecutar el comando GET, lo que debería producir una salida similar.

GET _tasks/

Con el proceso de reindexación ya finalizado para el recuento de documentos, el siguiente paso es verificar que los mapeos para el nuevo índice de respaldo y el campo específico en cuestión sean correctas.

GET -1/_mapping

Por ejemplo:

GET .ds-logs-filestream.generic-default-2026.04.13-000001-1/_mapping

Puedes verificar que el mapeo para log.offset es como se muestra a continuación. Para confirmar que otros campos tienen solo una entrada de mapeo (no ambas text y keyword), compáralos con un campo que no formaba parte de la sección de plantilla dinámica en el comando PUT anterior.

Si el índice de respaldo que se está reindexando tiene una gran cantidad de documentos, es útil verificar el estado de esos documentos que se están copiando al nuevo índice de respaldo; esto se puede hacer con los siguientes dos comandos de Herramientas de desarrollo para comparar los recuentos.

GET .ds-logs-filestream.generic-default-2026.04.14-000001/_count

GET .ds-logs-filestream.generic-default-2026.04.14-000001-1/_count

Una vez que se verifique que los recuentos coinciden y que los mapeos correctos están presentes, actualiza el flujo de datos para incluir el nuevo índice de respaldo, para prevenir un índice de respaldo huérfano en la administración de índices, donde la política de ILM nunca se ejecutará en el índice de respaldo.

El retorno debería ser un reconocimiento de verdadero, si tiene éxito.

POST _data_stream/_modify
{
  "actions": [
    {
      "add_backing_index": {
        "data_stream": "logs-filestream.generic-default",
        "index": ".ds-logs-filestream.generic-default-2026.04.14-000001-1"
      }
    }
  ]
}

Verifica que el nuevo índice de respaldo se haya agregado con el siguiente comando, cerciorándote de que la ilm_policy sea correcta:

GET _data_stream/logs-filestream.generic-default

Verifique el estado de ILM del índice de respaldo a continuación con el siguiente comando:

Es normal ver que el índice esté en caliente, ya que fue creado muy recientemente (revisa la línea 8 o 10).

GET .ds-logs-filestream.generic-default-2026.04.14-000001-1/_ilm/explain

Ejecuta lo siguiente para hacer la transición del índice de respaldo del nivel activo al siguiente nivel apropiado después de la fase caliente de la política de ILM para este flujo de datos. Los valores específicos para phase, action, y name en el current_step siguiente pueden referenciarse a partir de las líneas 11, 13 y 15, respectivamente, en la captura de pantalla proporcionada arriba.

El valor next_step indica la fase de ILM o el nivel de datos posterior al que el índice hará la transición.

Por ejemplo:

POST _ilm/move/.ds-logs-filestream.generic-default-2026.04.14-000001-1
{
  "current_step": {
    "phase": "hot",
    "action": "rollover", 
    "name": "check-rollover-ready"
  },
  "next_step": {
    "phase": "warm" 
  }
}

No es necesario, pero como medida de seguridad, puedes ejecutar el comando _ilm/explain de nuevo para cerciorarte de que el índice de respaldo pasó a la siguiente fase y ya no está en caliente.

Una vez que se cumplan las siguientes condiciones, puedes eliminar de forma segura el índice de respaldo original que tenía conflictos de mapeo:

Se ha creado correctamente un nuevo índice de respaldo.
Los documentos se han trasladado al nuevo índice y la cantidad de documentos coincide.
Los mapeos se han corregido (tanto específicos del flujo de datos como ECS).
El flujo de datos incorpora el nuevo índice de respaldo.
La política de ILM se ha aplicado y ha movido el índice fuera de la fase caliente.

Importante: Como alternativa, antes de eliminar el índice original, puedes consultar la página Data Views. Selecciona logs-* y verifica que el índice de respaldo reindexado (que termina en -1) ahora aparece en la sección long. El índice de respaldo original debería seguir presente en keyword. Si el índice de respaldo reindexado no está en la sección long, vuelve atrás y revisa los pasos anteriores y realiza las correcciones necesarias.

Por ejemplo:

DELETE .ds-logs-filestream.generic-default-2026.04.14-000001

Luego de resolver los conflictos, vuelve a la página Data Views y selecciona logs-*. Si el conflicto estuviera relacionado únicamente con log.offset, ya no debería ver ningún conflicto listado. Si hubiera otros conflictos, el índice de respaldo original ya no debería aparecer en la lista de conflictos; en cambio, el nuevo índice de respaldo debería aparecer ahora en la sección long.

También puedes verificar en Discover que el campo log.offset ahora muestra los iconos correspondientes.

Continúe este proceso, repitiendo los pasos anteriores para cada índice de respaldo que tenga un conflicto de mapeo hasta que todos se resuelvan con éxito.

Referencias:

Reflexiones finales

Si sigues los pasos de este blog, resolverás los conflictos de mapping y te asegurarás de que todos los datos nuevos estén correctamente mapeados. Esto se consigue vinculando las plantillas de componentes necesarias a tu fuente de datos. Este flujo de trabajo no solo resuelve los problemas inmediatos, sino que también establece un proceso seguro y repetible para gestionar los cambios en el esquema a medida que tus datos y requisitos evolucionan.

Cómo creamos Elasticsearch simdvec para hacer una de las búsquedas vectoriales más rápidas del mundo

Chris Hegarty, Lorenzo Dematte, Simon Cooper — Thu, 23 Apr 2026 00:00:00 GMT

Elasticsearch simdvec es el motor detrás de cada cálculo de distancia vectorial en Elasticsearch. Proporciona kerneles AVX-512 y NEON ajustados manualmente para cada tipo de vector que admite Elasticsearch. Su arquitectura de scoring masivo oculta la latencia de memoria mediante la precarga de datos explícita en x86 y las cargas intercaladas en ARM, por lo que muestra un rendimiento hasta 4 veces mayor que bibliotecas como FAISS y jvector cuando los datos exceden la caché de la CPU. En esta publicación, explicamos por qué lo creamos, qué contiene y cómo hace que la búsqueda vectorial de Elasticsearch sea una de las más rápidas del mundo.

Cómo construimos Elasticsearch SIMDvec

Cada consulta de búsqueda vectorial en Elasticsearch, ya sea un recorrido de mundo pequeño jerárquico navegable (HNSW), un escaneo de archivo invertido (IVF) o una pasada de reclasificación, se reduce al mismo problema: calcular distancias entre vectores, millones de veces por búsqueda. Elasticsearch admite una amplia gama de tipos de datos y estrategias de cuantificación, desde float32 hasta int8, bfloat16, binario y Mejor cuantificación binaria (BBQ). Cada una tiene distintas compensaciones entre memoria, rendimiento y recuperación. Detrás de todo esto hay un único motor: simdvec.

Creamos simdvec para que cada cálculo de distancia sea tan rápido como el hardware lo permita. En esta publicación, explicamos por qué lo creamos, qué contiene y dónde produce el mayor impacto.

Creado como un auto de carreras

Como aficionados a la Fórmula 1, y dado que uno de nosotros trabajó anteriormente con el equipo Ferrari de Fórmula 1, vemos un claro paralelismo. Un auto de Fórmula 1 está diseñado con un solo propósito: lograr el mejor tiempo de vuelta. La potencia del motor, la aerodinámica y el diseño del chasis solo importan en la medida en que contribuyen a ese resultado. Lo mismo ocurre con una base de datos vectorial, donde el rendimiento de indexación, la latencia de búsqueda y la recuperación definen el éxito.

Aunque lo que importa es el resultado final, para alcanzar los máximos niveles de rendimiento es necesario que cada componente funcione a la perfección. No puede ser solo lo suficientemente bueno, tiene que ser el mejor en su categoría. Simdvec está construido con esa mentalidad, que se enfoca en una parte fundamental del sistema: el motor. Es una biblioteca de kernel optimizada para una sola instrucción y múltiples datos (SIMD) diseñada específicamente, que proporciona funciones nativas de distancia en C++ ajustadas a mano, llamadas desde Java a través de la interfaz para funciones externas (FFI) de Panamá. Admite evaluación masiva, precarga de líneas de caché y todos los tipos de vectores y diseños utilizados en Elasticsearch.

Ese es el motor que hay detrás de cada búsqueda.

Por qué creamos nuestro propio motor

Comenzamos en 2023 con la API Panama Vector en Apache Lucene. Funcionaba bien para productos punto float32, pero las necesidades de Elasticsearch superaron rápidamente lo que podía ofrecer. Elasticsearch admite una amplia gama de tipos de vectores cuantificados: int8, int4, bfloat16, de un solo bit y BBQ asimétrico. Cada uno tiene diferentes estrategias SIMD, diseños de empaquetado y requisitos de acumulador. Más allá de la cobertura de tipos, las rutas de puntuación de Elasticsearch exigen algo más que un rendimiento de un solo par: HNSW necesita puntuar varios vecinos del grafo en una sola pasada, IVF necesita puntuar en masa miles de candidatos con precarga y la puntuación basada en disco debe funcionar directamente en la memoria mapeada con mmap sin necesidad de copiar. Examinamos lo que estaba disponible y nada abarcaba el conjunto completo.

Así que construimos simdvec: kerneles C++ nativos ajustados a mano llamados desde Java a través de FFI, con puntuación masiva, precarga y soporte para cada tipo de vector que usa Elasticsearch. Al ser propietarios de la biblioteca, controlamos el stack completo. Cuando añadimos un nuevo tipo de cuantificación, como BBQ, se le asigna un kernel SIMD optimizado que se integra en todo el sistema. No esperamos a que una biblioteca upstream le de soporte y no comprometemos el rendimiento para ningún tipo. Cada consulta vectorial en Elasticsearch, ya sea HNSW, IVF, reranking o híbrida, se ejecuta en este motor, construido en torno a las operaciones y los tipos que realmente usamos.

Simdvec tiene bibliotecas nativas separadas para x86 y ARM, cada una con múltiples niveles de arquitectura de conjunto de instrucciones (ISA) seleccionados al inicio. La sobrecarga de llamadas desde Java vía FFI es muy baja, con nanosegundos de un solo dígito.

El panorama

No somos los únicos que construimos kerneles de distancia vectorial optimizados para SIMD. El ecosistema es rico y queríamos comprender cómo se desempeña simdvec. No para clasificar proyectos, sino para proporcionar contexto y explicar dónde se encuentra el motor de Elasticsearch. Seleccionamos tres proyectos como puntos de referencia, cada uno representando un enfoque diferente:

jvector: Una biblioteca de Java de vecino más cercano aproximado (ANN) que emplea la API Panama Vector para el cálculo vectorizado de distancias, con aceleración nativa en C opcional en x86.
FAISS: Un marco de trabajo de búsqueda vectorial de open source ampliamente desplegado, con kerneles AVX2/AVX-512 ajustados a mano.
NumKong (anteriormente SimSIMD): un conjunto completo de más de 2 000 kerneles SIMD ajustados a mano que abarcan funciones de distancia, operaciones matrices y computación geoespacial.

Cada proyecto cumple un propósito diferente y realiza diferentes concesiones. Incluimos números de referencia de ellos para dar contexto al rendimiento de simdvec en las operaciones específicas que Elasticsearch necesita.

Cómo medimos

Las evaluaciones de simdvec y jvector están escritos en Java con JMH, la microevaluación estándar de JVM, lo que incluye la sobrecarga de FFI. Para las evaluaciones de NumKong y las evaluaciones de FAISS, escribimos pequeños marcos de prueba de C/C++ con Google Benchmark, que es el marco de trabajo estándar para microevaluaciones de C++. Ambos marcos de trabajo reportan nanosegundos por operación con calibración de calentamiento e iteración. Verificamos mediante contadores de rendimiento de hardware que todas las bibliotecas usan SIMD en ambas plataformas. Todo el código de evaluación está disponible públicamente en los repositorios enlazados de GitHub (y, en el caso de simdvec, en el repositorio elasticsearch).

Software: JDK 25.0.2, JMH 1.37, GCC 14, Google Benchmark (última versión).

Un vector a la vez

La operación más básica en la búsqueda vectorial es calcular la distancia entre dos vectores. Cada evaluación de un vecino de HNSW, cada puntaje de un candidato a IVF, cada comparación de reclasificación se reduce a este bucle interno.

Medimos el rendimiento de un solo par en 1024 dimensiones en ambas plataformas, empezando por float32, el tipo base y el donde el ecosistema es más competitivo. Comparamos simdvec con FAISS y jvector; hemos excluido NumKong porque utiliza acumuladores float64 para float32, lo que lo hace entre 3,2 y 5,3 veces más lento (dependiendo de la plataforma), ya que prioriza la precisión numérica por encima del rendimiento. Para mantener la comparación de igual a igual, evaluamos NumKong en int8 en su lugar, donde utiliza la misma estrategia de acumulador que simdvec.

En la arquitectura x86, FAISS AVX-512 es el kernel de par único más rápido, con un tiempo de ejecución de 23 ns. A continuación, se ejecuta Simdvec AVX-512 a los 28 ns, un intervalo que refleja la sobrecarga de la llamada FFI. Ambos emplean FMA de 512 bits con desenrollado de múltiples acumuladores. A nivel AVX2, los dos valores son mucho más similares, 36 ns y 39 ns respectivamente, ambos limitados por el ancho de carga de memoria y registro de 256 bits. jvector tarda 44 ns usando la API de Java Panama Vector. Panamá genera buen código SIMD, pero las funciones intrínsecas de C++ ajustadas manualmente siguen teniendo ventaja.

En ARM, simdvec lidera a 70 ns, muy por delante de jvector a 110 ns y FAISS a 156 ns. Simdvec tiene kernels NEON ajustados a mano para aarch64. Jvector no tiene código ARM nativo y depende de Panama. FAISS se basa en la auto-vectorización del compilador en lugar de en las intrínsecas NEON explícitas, lo que explica la mayor brecha. Esto refleja una ventaja práctica de poseer la biblioteca del kernel: cuando Elasticsearch se expandió a Graviton, agregamos kerneles NEON especialmente diseñados. Ni jvector ni FAISS priorizaron el código nativo de ARM en la misma medida.

Sin embargo, Elasticsearch no solo puntúa float32. La cuantificación Int8 reduce la memoria en 4x, bfloat16 en 2x y BBQ en 32x. Cada tipo necesita su propia estrategia SIMD, y simdvec proporciona kernels nativos ajustados a mano para todos ellos.

De todas las bibliotecas que comparamos, solo NumKong tiene kernels comparables para int8. Medimos el producto escalar int8, la distancia euclidiana al cuadrado y el coseno en 1024 dimensiones.

Puntuación de par único Int8 (1024 dimensiones, ns/vec op — cuanto más bajo, mejor)

En ambas arquitecturas, NumKong es igual o más rápido en dimensiones pequeñas y medias, donde la diferencia se debe en gran parte a una menor sobrecarga de llamadas (llamada C directa vs FFI en Java). En dimensiones mayores, simdvec se pone al día, donde la implementación más eficiente del kernel (que emplea desenrollamiento en cascada) amortiza el costo de llamada: a medida que aumenta la dimensión, esta brecha se cierra y finalmente se revierte. El cruce está en dimensiones entre 768 y 1536, dependiendo de la función y la arquitectura.

A pesar de la sobrecarga ligeramente mayor de Java FFI, simdvec está a la par con las bibliotecas altamente optimizadas de C/C++. No solo es la única librería con kernels optimizados tanto para float32 como para int8, sino que también lidera en ARM y solo está ligeramente por detrás de FAISS en x86 (para float32), y muy cerca de NumKong en ambas arquitecturas (para int8). Y en el caso de bfloat16, int4, binary y BBQ, aunque existen alternativas, simdvec se distingue por su SIMD ajustado manualmente y adaptado a la estructura de datos de cada tipo.

Pero un motor de búsqueda en producción no califica un vector a la vez; califica miles por consulta. La siguiente pregunta es qué sucede a esa escala.

Miles a la vez

El rendimiento de un solo par es solo una parte del panorama. Lo que importa en la práctica es cómo se comportan los sistemas bajo carga. Una sola consulta HNSW puede puntuar cientos de vecinos de grafos. Un escaneo de IVF puede puntuar miles de entradas en la lista de publicaciones. Un paso de reclasificación puede puntuar decenas de miles de candidatos. El rendimiento por par individual es importante, pero lo que más importa es la rapidez con la que puedes puntuar muchos vectores, y cómo se degrada el rendimiento de forma gradual a medida que el conjunto de trabajo se desborda de las cachés de la CPU.

Simdvec proporciona evaluación masiva para todos los tipos de datos. No son solo bucles sobre kernels de un solo par; usan bucles internos de varios acumuladores que cargan el vector de búsqueda una vez por paso de dimensión y lo comparten entre varios vectores de documentos, con precarga explícita de líneas de caché para el siguiente batch. Ni jvector ni FAISS ofrecen un equivalente (en el momento de redacción de esta publicación). Jvector no tiene una API de bulk, así que quien llama puntúa un par a la vez en un bucle. FAISS expone fvec_inner_products_ny que, en el momento de redacción de esta publicación, está implementado como un bucle sobre su función de distancia de un solo par, sin amortización de la búsqueda ni precarga.

Float32. Para medir el impacto a nivel del kernel, puntuamos una sola consulta contra un número creciente de vectores de documentos float32 de 1024 dimensiones con patrones de acceso aleatorio que simulan búsquedas de vecinos de grafos dispersos similares a HNSW. Los tres tamaños de sets de datos, 32, 625 y 32 500 vectores, se eligen para que el conjunto de trabajo supere la caché L1, L2 y L3, respectivamente.

Cuando los datos caben en la caché, simdvec es el más rápido en ambas plataformas, pero las diferencias son modestas, ya que predomina la aritmética del kernel. La separación real se nota cuando el conjunto de trabajo supera el tamaño de L3. En x86, simdvec alcanza los 95 ns por vector, mientras que FAISS necesita 165 ns y jvector 412 ns. En ARM, la tendencia es la misma: simdvec se mantiene en 162 ns, mientras que FAISS sube a 347 ns y jvector a 476 ns. La precarga y la amortización de búsquedas en simdvec mantienen la latencia de memoria oculta de una manera que un bucle simple sobre kerneles de par único no puede coincidir y el beneficio se amplía precisamente donde operan las cargas de búsqueda reales, en lo profundo de la memoria principal.

Int8. Lo mismo ocurre con los tipos cuantificados. Medimos el rendimiento del cálculo del producto escalar int8 en 1024 dimensiones con sets de datos de un tamaño tal que superaran los límites de las cachés L1, L2 y L3, en comparación con el cálculo en bloque de simdvec con el cálculo de pares individuales de NumKong en un bucle.

En x86, simdvec es entre 1,2 y 1,9 veces más rápido, impulsado por la combinación de precarga explícita y procesamiento por lotes. En ARM, simdvec gana de nuevo (1,7 a 1,9 veces más rápido) en todos los tamaños de sets de datos. La ventaja radica en el procesamiento por lotes de cuatro vectores a la vez, lo que proporciona paralelismo a nivel de memoria mediante un patrón de acceso intercalado. En ambos casos, el resultado más llamativo es lo que ocurre en el mayor tamaño de set de datos, donde más importa.

Los resultados para la distancia al cuadrado y el coseno muestran un patrón similar, con aceleraciones de 1,4 a 1,8 veces para ARM, y de 1,3 a 3,0 veces para x86 (detalles aquí).

Cuando la memoria importa

Los índices de vectores de producción normalmente no caben en la caché de la CPU. Un índice de 10M-vectores int8 a 1024 dimensiones es de 10 GB. La evaluación de candidatos implica el procesamiento en flujo continuo de datos desde la DRAM y ahí es donde la arquitectura de evaluación masiva marca la diferencia.

Usamos contadores de rendimiento de hardware para medir lo que sucede dentro de la CPU durante la puntuación masiva y descubrimos que ocultar la latencia de la memoria requiere dos estrategias fundamentalmente diferentes, una por arquitectura.

En x86, la precarga explícita elimina los fallos de caché. El kernel masivo procesa los vectores secuencialmente, uno completamente calculado antes del siguiente, mientras emite instrucciones de precarga para el siguiente batch. Los datos futuros se cargan en la L1 antes de que la CPU los necesite.

En ARM, el mismo enfoque secuencial tuvo un rendimiento deficiente, incluso con precarga. En cambio, el kernel masivo entrelaza las cargas de cuatro vectores en cada posición de zancada, lo que proporciona al motor fuera de orden cuatro flujos de memoria independientes. La CPU no recoge datos más rápido, sino que espera menos al tener siempre algo más que calcular mientras las solicitudes de memoria están en curso. Puedes encontrar un análisis detallado en este ticket de GitHub.

Los números cuentan dos historias diferentes:

En x86, la precarga convierte 139K fallos de caché en 19K y las instrucciones por ciclo (IPC) se duplican más de dos veces. La ventaja de masa crece con el tamaño de los sets de datos, de 1,2 veces en L2 a 2,8 veces más allá de L3, porque la precarga oculta progresivamente viajes de ida y vuelta de DRAM más costosos.
En ARM, los fallos de caché apenas cambian. Lo que cambia es la utilización: las interrupciones del backend disminuyen un 40 % porque el patrón de acceso intercalado mantiene el pipeline alimentado. Esta ventaja se mantiene en un consistente 1,8 veces independientemente del tamaño del sets de datos, porque el paralelismo a nivel de memoria se aplica tanto si los datos provienen de la caché como de la DRAM.

Dos arquitecturas, dos estrategias y un resultado: a escala de producción, simdvec mantiene la pipeline de la CPU ocupada incluso cuando los vectores están dispersos por la memoria principal.

Qué significa esto para los usuarios de Elasticsearch

Estas capacidades a nivel de kernel se potencian entre sí. Una única consulta de búsqueda vectorial puede calcular millones de operaciones de distancia: recorrido del grafo HNSW, puntuación de candidatos, reclasificación. En miles de búsquedas concurrentes, los nanosegundos por operación se traducen directamente en latencia de búsqueda y rendimiento del cluster. Tanto si usas float32, int8, bfloat16 o BBQ, tanto si tu índice está en la memoria como en el disco, simdvec es el motor subyacente, y cada una de esas operaciones pasa por el mismo motor, lo que optimiza hasta el último nanosegundo.

La conclusión clave es que, a escala de producción, el rendimiento de la búsqueda vectorial no está determinado principalmente por el rendimiento bruto de SIMD. Lo que marca la diferencia es la eficiencia con la que el sistema oculta la latencia de la memoria mientras mantiene el rendimiento computacional en millones de operaciones pequeñas.

Los kerneles de simdvec mejoran prácticamente con cada versión de Elasticsearch. Cuando surgen nuevos tipos de cuantización y plataformas de hardware, reciben kerneles ajustados desde el primer día. Y los tipos existentes siguen ganando velocidad a medida que perfeccionamos las implementaciones que ya están disponibles.

Las incrustaciones v3 de Jina ya están disponibles en el Model Garden de Gemini Enterprise Agent Platform

Sa Zhang — Wed, 22 Apr 2026 00:00:00 GMT

Hoy lanzamos jina-embeddings-v3, el primer modelo de base de búsqueda de Jina que estará disponible en Model Garden de Gemini Enterprise Agent Platform como un modelo de socio autodesplegable. El autodespliegue significa que el modelo se ejecuta en instancias de GPU dentro de tu proyecto de Google Cloud y Virtual Private Cloud (VPC). Sin llamadas API externas, sin medición por token, sin límites de velocidad.

Con esta integración, los usuarios de Elasticsearch obtienen una nueva opción de despliegue que mantiene los datos dentro de su perímetro de seguridad, ofrece costos previsibles de infraestructura y se ejecuta de forma nativa en Google Cloud. Al mismo tiempo, el ecosistema más amplio de Google Cloud obtiene acceso a los modelos de búsqueda y recuperación de última generación de Jina, diseñados específicamente para este fin.

Esta es la primera fase de una implementación más amplia. Junto con los modelos que vienen después, la selección formará una pila de recuperación completa: incrusta tus datos, incrusta búsquedas, recupera y reclasifica candidatos, y extiende la búsqueda a imágenes con incrustaciones multimodales, todo en la infraestructura que controles. Puedes empezar hoy mismo con jina-embeddings-v3, el modelo que ya impulsa las pipelines de búsqueda de producción en todo el ecosistema de Elasticsearch a través de Elastic Inference Service (EIS).

Modelo	Tipo	Parámetros	Capacidad clave	Estado en el Model Garden
`jina-embeddings-v3`	Incrustación de texto	572M	Un caballo de batalla multilingüe probado, con un contexto de 8000, una salida de 1024 dimensiones, truncable a 32	Disponible ahora
`jina-embeddings-v5-text-small`	Incrustación de texto	677M	Multilingüe sub-1B de última generación, contexto de 32 000, una salida de 1024 dimensiones, truncable a 32	Próximamente
`jina-embeddings-v5-text-nano`	Incrustación de texto	239M	El mejor de su categoría con menos de 500 millones de parámetros, contexto de 8000, una salida de 768 dimensiones, truncable a 32	Próximamente
`jina-reranker-v3`	Reclasificador	600M	Reclasificador por lista, contexto de 131K, hasta 64 documentos	Próximamente
`jina-clip-v2`	Incrustación multimodal	900 millones	Texto e imagen en un espacio compartido, 89 idiomas y un contexto de texto de 8000, imágenes de 512 × 512	Próximamente

Todos los modelos se ejecutan en una sola NVIDIA L4 (24 GB), el nivel de GPU más rentable de Google Cloud. La mayoría de los otros modelos de incrustación en Model Garden de Google Cloud requieren un A100 80 GB o H100, aproximadamente tres veces el costo de instancia por hora incluso antes de comenzar a contar tokens.

No se requiere licencia comercial adicional cuando se despliega a través de Vertex AI.

¿Por qué Model Garden?

¿Por qué desplegar a través de Model Garden en lugar de usar una API? Se reduce a tres cosas: control, costo y contexto.

Tus datos nunca salen de casa

Lo que más atrae a la mayoría de los desarrolladores es la arquitectura de autodespliegue. Cuando despliegas un modelo de Jina a través de Model Garden, los pesos se ejecutan en instancias de GPU dentro de tu propio proyecto de Google Cloud y tu propia VPC. Esto supone un cambio revolucionario para cualquiera que trabaje en sectores donde la seguridad de los datos es una preocupación, como las finanzas o la salud. Como no hay llamadas externas a API, tus datos confidenciales permanecen dentro de tu perímetro de seguridad.

Escalado con predicción

En lugar de pagar cada vez que incrustas una oración o reclasificas un documento, pagas un costo fijo por hora de instancia. Y dado que todos los modelos de Jina pueden ejecutarse en una sola NVIDIA L4, el nivel de GPU más asequible de Google Cloud, la barrera de entrada es baja. Tanto si procesas mil solicitudes como mil millones, tu factura de infraestructura se mantiene previsible. Este sistema te recompensa por aumentar tu tráfico en lugar de cobrarte impuestos por ello.

Todo bajo un mismo techo

Si tus datos ya están en Elasticsearch en Google Cloud, BigQuery o almacenamiento en el cloud, tiene sentido mantener tus motores de inferencia cerca. Al desplegar a través de Model Garden, los modelos de búsqueda de Jina heredan todas las características empresariales que ya estás utilizando: gestión de identidad y acceso (IAM) para el control de acceso, facturación unificada en tu factura existente de Google Cloud, y la capacidad de conectarse a las pipelines de Vertex AI para flujos de trabajo de operaciones de machine learning (MLOps).

Si bien la API de Jina AI Cloud y Elastic Cloud permiten escalar rápidamente ante picos de tráfico o integrarse con flujos de búsqueda ya existentes, Model Garden resulta la mejor opción para aplicaciones empresariales que exigen altos estándares de seguridad de datos y costos predecibles a gran escala. Elastic quiere adaptarse a tus necesidades.

Modelos de Jina AI

jina-embeddings-v3

Nuestro probado modelo de incrustación multilingüe con 572 millones de parámetros y 8000 de contexto de tokens. Obtiene una puntuación de 65,5 en el Massive Text Embedding Benchmark (MTEB) en inglés. Admite cinco adaptadores de adaptación de rango bajo (LoRA) específicos de la tarea (consulta de recuperación/pasaje, coincidencia de texto, clasificación, agrupar) y truncamiento de Matryoshka de 1024 a 64 dimensiones. Ya está ampliamente adoptado en todo el ecosistema de Elasticsearch a través de EIS.

Estamos liderando con la v3 porque muchos sistemas de producción ya dependen de ella. Si estás migrando una pipeline basado en la v3 a Google Cloud, ahora puedes ejecutar el mismo modelo de forma nativa sin tener que cambiar las dimensiones de incrustación ni volver a indexar.

jina-embeddings-v5-text (pequeño y nano)

Nuestros modelos de incrustación de texto de quinta generación, lanzados en febrero de 2026, logran un rendimiento de primer nivel, y compiten con modelos muchas veces más grandes.

v5-text-small (677 millones) obtiene una puntuación de 67,0 en el conjunto de pruebas MTEB multilingües (MMTEB), que abarca 131 tareas de nueve tipos de tareas, y 71,7 en el MTEB en inglés. Es el modelo de incrustación multilingüe sub-1B más potente en la tabla de clasificación de MTEB.

v5-text-nano (239 millones) obtiene una puntuación de 65,5 en MMTEB. Ningún otro modelo con menos de 500 millones de parámetros alcanza este nivel. Con menos de la mitad del tamaño que la mayoría de modelos comparables, es la elección natural para despliegues en el edge y sensibles a la latencia.

Ambos modelos son compatibles con:

Cuatro adaptadores LoRA específicos para cada tarea: recuperación, coincidencia de texto, clasificación, agrupación. Se selecciona un adaptador apropiado a través del parámetro task en el momento de la inferencia.
Truncamiento de dimensiones de Matryoshka: reduce las dimensiones de incrustación de 1024 (o 768 para nano) a 32. La pérdida de calidad es mínima con un truncamiento moderado (p. ej., 256 dimensiones). Reducir las dimensiones a la mitad supone, aproximadamente, reducir el espacio de almacenamiento a la mitad.
Cuantización binaria: comprime incrustaciones de 1024 dimensiones de 2 KB a 128 bytes mediante binarización. Un entrenamiento especial hace que esta compresión tenga pérdidas mínimas.
Multilingüe: 119 idiomas (pequeño) y 93 (nano).

jina-reranker-v3

Un reclasificador multilingüe de listas de 0,6 mil millones de parámetros construido con una arquitectura de interacción de vanguardia. La consulta y hasta 64 coincidencias candidatas se ingresan en una única ventana de contexto de 131 000 tokens, y el modelo realiza una comparación entre documentos antes de la puntuación. El reclasificador v3 de Jina alcanza un nDCG@10 de 61,94 en BEIR, lo que supera al modelo que tiene un tamaño seis veces menor. Esto difiere fundamentalmente de los reclasificadores puntuales, que puntúan cada documento de forma aislada, lo que produce mejores resultados, especialmente para la recuperación de pasajes de documentos individuales.

jina-clip-v2

Un modelo de incrustación multimodal y multilingüe de 0,9 mil millones que mapea texto e imágenes en un espacio compartido de 1024 dimensiones. Es compatible con:

89 idiomas para la recuperación de imágenes de texto.
Resolución de imagen de 512 × 512.
Entrada de texto de 8000 tokens.
Truncamiento Matryoshka de 1024 a 64 dimensiones para ambas modalidades.

Altamente competitivo en pruebas comparativas de conversión de imagen a texto, incluidas las tareas multilingües.

Primeros pasos

Jina Embeddings v3 está disponible en Model Garden hoy. Aquí te explicamos cómo ponerlo en marcha.

Necesitas un proyecto de Google Cloud con la API de Vertex AI habilitada y suficiente cuota de GPU para al menos una instancia g2-standard-8 (NVIDIA L4). Si eres nuevo en Google Cloud, empieza por la guía de configuración.

La página Model Garden para las incrustaciones v3 de Jina te guía por todo el flujo: sube el modelo, crea un endpoint, elige el tipo de máquina y despliega. Ábrela en tu propio proyecto y sigue los pasos guiados. Las máquinas A100 y H100 también están disponibles donde la región y la cuota lo permitan, pero L4 es todo lo que necesitas para comenzar.

Desde el clic hasta la primera incrustación, todo el proceso toma unos minutos.

Lo que viene después

Las incrustaciones v3 de Jina son el punto de partida. En las próximas semanas, llevaremos el resto de la pila de recuperación de Jina a Model Garden: incrustaciones de texto v5 (pequeñas y nano), jina-reranker-v3 y jina-clip-v2 para búsqueda multimodal. Todos se ejecutarán en una sola GPU L4 con el mismo modelo de autodespliegue.

Elastic Security, Observability y Search ahora ofrecen una UI interactiva en tus herramientas de IA

David Elgut, Graham Hudgins, Jesse Miller — Tue, 21 Apr 2026 00:00:00 GMT

Los agentes de AI son tan buenos como las interfaces que devuelven. El resultado de una herramienta que solo ofrece texto aplana todo lo que es naturalmente visual e interactivo: un dashboard, una lista de alertas, un grafo de investigación o una traza distribuida. La conversación se convierte en un lugar donde uno pregunta y el agente responde, pero en cuanto el trabajo se vuelve complejo, hay que salir hacia otra pestaña, otro producto u otro límite de autenticación.

Las MCP Apps cambian la forma de esa respuesta. Una herramienta puede ahora devolver una UI interactiva junto a su resumen de texto, y el host (Claude Desktop, Claude.ai, VS Code Copilot, Cursor) lo muestra en línea en la conversación. El modelo mantiene el texto compacto para razonar. El usuario obtiene una interfaz interactiva en tiempo real justo al lado del chat.

Tres propiedades hacen que esta sea una integración diferente de "un webhook que devuelve una URL":

Preservación del contexto. La UI reside dentro de la conversación. Sin cambiar de pestaña, sin traspasos.
Flujo de datos bidireccional. La UI puede llamar a las herramientas del servidor MCP para obtener datos nuevos, y el host puede devolver nuevos resultados del agente a la UI. No hay una capa de API independiente ni lógica de autenticación adicional.
Límite de confianza en un entorno de prueba. Las MCP Apps se ejecutan en un iframe controlado por el host. No pueden acceder a la página principal, leer cookies ni salir de su contenedor.

Las operaciones de seguridad se basan en la clasificación, los grafos de investigación y la detección de ataques, donde un agente de AI correlaciona cientos de alertas en unas pocas cadenas de ataque. Observability significa trazas distribuidas y análisis en profundidad de series temporales. Desarrollar en Kibana significa una cuadrícula de dashboard. Si conviertes todo eso en texto, pierdes lo que lo hace útil. Desarrollamos MCP Apps para las tres áreas y las lanzamos juntas como open source, de modo que la misma conversación pueda pasar de una cola de clasificación a un grafo de dependencias o a un dashboard en tiempo real, sin abandonar nunca el chat.

Cada una de las tres apps de referencia es un servidor MCP que ofrece muchas vistas interactivas, no un conjunto de productos separados. La app de seguridad por sí sola presenta seis dashboards que comparten el mismo contenedor de servidor, el mismo modelo de visibilidad de herramientas y el mismo puente de host. El patrón es pequeño; el área de superficie es donde el valor se acumula.

Elastic Security MCP App

Por qué es importante para el SOC

Cuando un agente le dice a un analista de SOC: “Hay 47 alertas en el host-314, aquí hay un resumen”, no ha hecho ningún trabajo. Simplemente indica dónde comienza el trabajo. El trabajo real se encuentra en la lista de alertas, el árbol de procesos, el grafo de investigación y el archivo del caso. No puedes hacerlo a partir de un párrafo de texto.

La MCP App de seguridad devuelve el flujo de trabajo en sí. El analista consulta al agente, y este devuelve un dashboard interactivo en el chat donde el analista puede profundizar en alertas, ejecutar búsquedas de amenazas, correlacionar cadenas de ataques y abrir casos, todo sin perder el hilo de la conversación. Y debido a que los hallazgos, las consultas y los casos llegan a Elasticsearch, la misma investigación está esperando en Kibana, donde el analista puede retomar una vez que se haya cerrado la conversación.

Seis dashboards interactivos

La Elastic Security MCP App incluye seis elementos interactivos, uno por cada flujo de trabajo principal del SOC. Cada una es una UI de React que se renderiza en línea cuando el agente llama a la herramienta correspondiente:

Herramienta	Qué hace	UI interactiva
Clasificación de alertas	Recupera, filtra y clasifica las alertas de seguridad	Agrupación por severidad, tarjetas de veredicto de AI, árbol de procesos, eventos de red
Attack Discovery	Análisis de cadena de ataque correlacionado por AI con generación bajo demanda	Tarjetas narrativas de ataque con puntuación de confianza, riesgo de entidad, mapeo MITRE
Gestión de casos	Crear, buscar y gestionar casos de investigación	Lista de casos con alertas, observables, pestañas de comentarios, acciones de IA
Reglas de detección	Navega, ajusta y gestiona las reglas de detección	Navegador de reglas con búsqueda KQL, validación de consultas, análisis de reglas ruidosas
Búsqueda de amenazas	Entorno de trabajo ES\|QL con investigación de entidades	Editor de consultas, entidades en las que se puede hacer clic y grafo de investigación
Datos de muestra	Generar eventos de seguridad ECS para escenarios de ataque comunes	Selector de escenarios con cuatro cadenas de ataque predefinidas

Cada herramienta devuelve un resumen textual compacto sobre el que el modelo puede razonar, junto con la UI interactiva en la que actúa el analista. La UI también puede obtener datos actualizados en segundo plano a través del puente MCP del host. El modelo completo de la herramienta y la API del puente se encuentran en la documentación de arquitectura del repositorio.

La app también incluye habilidades de Claude Desktop, SKILL.md archivos que enseñan al agente cuándo y cómo usar cada herramienta. Descarga los archivos ZIP de habilidades preconfiguradas desde la última versión.

De la alerta al caso

Cuatro capacidades cubren el ciclo central del SOC. Cada una recibe un mensaje, llama a una herramienta y devuelve un dashboard interactivo junto con un resumen de texto que el modelo analiza. El día de un analista generalmente comienza con una cola de alertas.

Clasificación de alertas. Pídele al agente que clasifique los datos por host, regla, usuario o intervalo de tiempo. La habilidad de Clasificación de alertas devuelve un dashboard de veredictos de AI sobre la lista de alertas sin procesar, con un veredicto por regla de detección que clasifica la actividad de esa regla como benigna, sospechosa o maliciosa, cada uno con una puntuación de confianza y una acción recomendada. Haz clic en cualquier alerta para abrir una vista detallada con un árbol de procesos, eventos de red, alertas relacionadas y etiquetas MITRE ATT&CK. No es necesario cambiar de contexto entre la conversación con la AI y tu dashboard dentro de Kibana, todo sucede en tiempo real dentro de tu conversación.

Busca amenazas. Pide al agente que busque en tus índices. La habilidad de Búsqueda de amenazas devuelve un banco de trabajo ES|QL con la búsqueda precompletada y ejecutada automáticamente, con todas las entidades de los resultados en las que se puede hacer clic para profundizar. El modelo escribe una breve lectura debajo de la tabla: qué es inusual, qué está conectado, qué vale la pena observar más de cerca. Luego propone el siguiente paso: profundizar en la investigación de amenazas o iniciar una nueva habilidad dentro de la MCP App que complemente el trabajo realizado hasta el momento. Lo que articula muy bien todo esto es lanzar una detección de ataques para obtener más contexto sobre las alertas en las que has profundizado y las amenazas que has explorado hasta el momento.

Ejecuta una detección de ataques. La habilidad de Detección de ataques activa la API de detección de ataques y devuelve una lista clasificada de hallazgos. Cada hallazgo es un conjunto de alertas relacionadas que se unen en una cadena de ataque, en la que se muestran de inmediato las tácticas de MITRE, una puntuación de riesgo, un indicador de confianza y los hosts y usuarios afectados. El resumen del agente se ubica debajo de los hallazgos en el mismo orden de clasificación, y la conversación ahora contiene todo lo necesario para actuar: consultas de búsqueda, decisiones de clasificación, cadenas correlacionadas, todo preparado para el siguiente paso.

Abrir casos sin salir del chat. Aprueba hallazgos en bloque o pide al agente que abra casos para alertas específicas. La habilidad de Gestión de casos crea un caso por hallazgo aprobado (alertas de origen adjuntas, tácticas MITRE heredadas de la cadena de ataque) y muestra la lista de casos en vivo en línea. Haz clic en un caso para ver su vista de detalles, que incluye una fila de botones de acción de AI: Resumir caso, Sugerir próximos pasos, Extraer IOC y Generar cronología. Cada uno devuelve un prompt estructurado al chat, para que el agente capte el contexto del caso sin necesidad de reintroducirlo. El resumen del agente se encuentra debajo de la lista de casos y cubre toda la cola de IR, lo que incluye los casos recién abiertos y hallazgos anteriores que aún necesitan uno.

Cada paso de esta guía ejecuta el mismo ciclo: llega un aviso, la habilidad lo detecta, la herramienta devuelve un resumen de texto compacto para que el modelo razone, junto con una interfaz interactiva sobre la que actúa el analista. Encadena las habilidades y se componen en un flujo integral de SOC: búsqueda, clasificación, correlación, apertura de casos y el impulso del siguiente pivote, todo esto con el modelo preservando el contexto de la sesión en cada paso. Si invocas cualquiera de ellas de forma individual, seguirá siendo el dashboard completo, que apunta a la porción de datos que especifiques. De cualquier manera, el trabajo se acumula dentro de la conversación; sin cambiar de pestaña, sin copiar y pegar, sin transferencias.

Dos habilidades más completan la app: un navegador de reglas de detección para ajustar reglas ruidosas y un generador de datos de muestra para generar eventos ECS realistas contra un cluster nuevo. En una próxima publicación hablaremos en detalle de los seis: el grafo de investigación, el canvas del flujo de ataque y el recorrido paso a paso.

“La Elastic Security MCP App acorta la brecha entre la detección automatizada y la búsqueda manual. Al llevar nuestros datos de seguridad directamente a una única interfaz dentro de Claude Desktop, detectamos amenazas “silenciosas” en menos de una hora, riesgos que no activaban alertas estándar, pero que requerían una acción inmediata. Es un multiplicador de fuerza para nuestros analistas”. Mandy Andress: directora de seguridad de la información (CISO), Elastic.

Cómo funciona

Cada MCP App es un pequeño servidor de Node.js cuyas herramientas devuelven tanto un resumen de texto compacto para el modelo como una UI de React que el host renderiza en línea. Como está basado en la especificación abierta de la MCP App, el mismo servidor se ejecuta en cualquier host compatible; consulta el documento de arquitectura del repositorio para conocer el diseño completo.

Pruébalo

Requiere Elasticsearch 9.x con Security activada, además de Kibana para casos, reglas y descubrimiento de ataques. El camino más rápido es el paquete .mcpb de un solo clic de la última versión. Haz doble clic en Claude Desktop y te pedirán la URL de Elasticsearch y la clave API. Las guías de configuración para Cursor, VS Code, Claude Code, Claude.ai y la compilación desde el código fuente se encuentran en el repositorio.

Watch video on Vidyard

Elastic Search MCP App: dashboards creados a partir de conversaciones

Cada usuario de Kibana conoce el desvío del dashboard: deja lo que estás trabajando, abre Kibana, elige un índice, elige campos, elige una visualización, retoca y guarda. Son cinco cambios de contexto antes de que aparezca un solo gráfico en pantalla.

La nueva app de referencia example-mcp-dashbuilder lo integra en un prompt. Pídele al agente: “créame un dashboard con métricas de ingresos, tendencias de pedidos y desgloses por categoría” y el dashboard aparece dentro de la conversación, sin necesidad de cambiar de pestaña.

Detrás de ese prompt, el agente explora tus datos de Elasticsearch a través de ES|QL y selecciona tipos de gráficos que coincidan con los datos: barras para comparaciones, líneas para tendencias, tarjetas métricas para KPI y mapas de calor para patrones bidimensionales. Coloca paneles sobre la cuadrícula de 48 columnas de Kibana usando el tema Elastic UI Borealis, y el resultado es totalmente interactivo: puedes arrastrar, redimensionar y agrupar paneles en secciones plegables directamente en el chat. Cuando el dashboard se ve bien, una sola llamada de herramienta lo exporta a Kibana, y preserva las búsquedas ES|QL y los colores personalizados. También puedes importar los paneles de Kibana existentes al chat para la edición asistida por IA.

El principio es el mismo detrás de la app de Security: cuando el artefacto es el producto, devolverlo dentro de la conversación cierra el ciclo entre describir lo que quieres y verlo.

Internamente, sigue el mismo patrón que MCP App. Un servidor Node.js registra una herramienta view_dashboard orientada al modelo junto a un conjunto de herramientas exclusivas para aplicaciones que la UI llama directamente (obtención de datos, persistencia del diseño, detección de campos de tiempo, exportación/importación). La vista del dashboard en sí es un único archivo HTML autocontenido, empaquetado con vite-plugin-singlefile y servido como un recurso de MCP App. Los desarrolladores que hacen un fork del repositorio obtienen el mismo contenedor de servidor y el mismo puente de host que ven en la aplicación Security, pero apuntando a un trabajo diferente. El README de example-mcp-dashbuilder incluye la arquitectura completa y la referencia de tipos de gráficos.

Watch video on Vidyard

Elastic Observability MCP App

La tercera app de referencia, Elastic Observability MCP App, aborda la versión SRE del mismo problema de forma. Cuando algo falla en producción, lo que necesita el ingeniero de guardia no es un gráfico, sino un diagnóstico construido a partir de métricas de K8s, la topología de APM, anomalías de ML y una evaluación de riesgos. La forma de la respuesta es una narrativa causal: qué falló, por qué, de qué depende y qué hacer a continuación.

Seis herramientas que apoyan el flujo de trabajo de investigación de observabilidad

Herramienta	Dependencia	Lo que hace
observe	Universal	Primitiva de acceso transitorio de ES\|QL + anomalías de ML: ejecuta una búsqueda una sola vez, toma una muestra en vivo de una métrica o bloquea la ejecución hasta que se alcance un umbral o se detecte una anomalía.
gestionar-alertas	Universal	Crea, visualiza, recupera y elimina reglas de alerta con umbrales personalizados en Kibana. Omite la URL de Kibana para ejecutarlo en modo de solo lectura.
anomalías-ml	Trabajos de ML	Consulta los registros de anomalías de ML y abre una vista explicadora de anomalías en línea.
resumen-de-estado-de-apm	Elastic APM	Agregación del estado a nivel de cluster a partir de la telemetría de APM; incorpora capas de contexto de K8s y de ML cuando están disponibles.
dependencias-servicio-apm	Elastic APM	Grafo de dependencias del servicio: servicios previos y posteriores, protocolos, volumen de llamadas.
radio-de-impacto-en-K8s	Métricas de Kubernetes	Impacto de interrupción de Node: interrupción total, degradado, no afectado, factibilidad de reprogramación.

Agregación del estado del cluster

Haz preguntas como “¿qué está fallando?” o “dame un informe de estado” y obtén una vista de orientación en una sola ejecución: indicador general de salud, servicios degradados con sus causas, principales consumidores de memoria por pod, desglose de la severidad de anomalías y rendimiento de los servicios, todo en una única vista integrada. Este es el punto de partida cuando algo no parece estar bien, pero no sabes dónde buscar. La vista se adapta en función de lo que soporta tu despliegue. APM te ofrece información sobre el estado de los servicios. Las métricas de Kubernetes agregan contexto de pod y nodo. Capa de trabajos de ML en anomalías.

Grafo de dependencia de servicios

Haz preguntas como “¿qué llama a finalizar la compra?” o “muéstrame la topología” y obtén un grafo de dependencias por capas: llamadas upstream, dependencias downstream, protocolos, volumen de llamadas y latencia por cada enlace. Pidámosle a Claude que “me muestre las dependencias de servicio del frontend”:

Haz zoom, desplázate y pasa el cursor por encima para ver todos los detalles que necesitas para entender las complejas relaciones entre los servicios:

Evaluar el riesgo con un radio de impacto

Haz preguntas como “¿qué pasa si se cae mi nodo de K8s?” y obtén un diagrama radial de impacto: el nodo objetivo en el centro, los despliegues con interrupción total en rojo, los degradados en ámbar y los no afectados en gris. Una tarjeta de resumen flotante muestra los pods en riesgo y la viabilidad de su reprogramación. Los despliegues de una sola réplica se señalan como puntos únicos de falla.

Observe

La primitiva de acceso principal del agente para Elastic: una sola herramienta, tres modos para tres necesidades distintas. Di “¿qué está pasando con la CPU ahora mismo?” y ejecuta una consulta ES|QL una vez y devuelve una tabla. Di “muéstrame la latencia del frontend durante los próximos 60 segundos” y toma muestras en vivo de la métrica, actualizando el gráfico en el momento. Di “avísame cuando la memoria baje de 80 MB” o “vigila cualquier anomalía durante los próximos 10 minutos” y bloquea la ejecución hasta que se cumpla la condición o expire la ventana. La vista se adapta al modo: una tabla de resultados para búsquedas puntuales, un gráfico de tendencia en vivo con estadísticas actuales/pico/línea base para el muestreo y condiciones de umbral, y una tarjeta de activación con severidad para el modo de anomalías.

Cómo funciona

El mismo patrón de MCP App que las apps de Security y Search: un servidor Node.js y seis herramientas orientadas al modelo conectadas a seis recursos de vista en archivos individuales. Las herramientas se agrupan según el backend de despliegue (universal, dependiente de APM, dependiente de K8s, dependiente de ML), de modo que tanto el agente como el usuario saben desde el inicio qué herramientas aplican a un despliegue determinado, en lugar de descubrir limitaciones de capacidad en el momento de la ejecución. MCP App también incluye un flujo de trabajo de ejemplo de Agent Builder: k8s-crashloop-investigation-otel, que puede activarse ante una alerta de Kubernetes y devolver un resumen estructurado de la causa raíz antes de que hayas abierto un solo panel.

Watch video on Vidyard

El stack agéntico, interactivo

Hay tres propiedades de este patrón que vale la pena mencionar directamente. Primero, el resultado de la herramienta ya no es el final del trabajo, es el comienzo de este: la conversación devuelve una interfaz en la que puedes actuar, no un resumen desde el que tienes que actuar. Segundo, el mismo agente, el mismo contexto de modelo y el mismo hilo de conversación ahora pueden moverse entre las superficies de Security, Search y Observability sin abandonar la conversación. En tercer lugar, esto solo funciona porque Elasticsearch y Kibana ya ofrecen las API. La MCP App es una capa interactiva delgada sobre las capacidades del producto que ya enviamos.

Attack Discovery ya potencia la vista de hallazgos correlacionados dentro de esta app. Dentro del stack, el mismo patrón agente va más allá: Elastic Workflows automatiza los pasos deterministas (enriquecer entidades, crear casos, aislar hosts), mientras que Agent Builder razona sobre los datos e invoca esos flujos de trabajo como herramientas. La MCP App trae esa misma superficie de seguridad a la conversación externa; Workflows y Agent Builder la profundizan dentro del stack. Diferentes puntos de acceso, pero las mismas API de Elastic.

Pruébalo:

Security: example-mcp-app-security
Search y dashboards: example-mcp-dashbuilder
Observability: example-mcp-observability

¿Aún no tienes un cluster de Elasticsearch? Comienza una prueba gratuita de Elastic Cloud. Para obtener más información sobre los componentes básicos detrás de la app de seguridad, consulta las publicaciones relacionadas de Security Labs en Elastic Workflows y Agent Builder, Habilidades de agentes y Detección de ataques.

Introducción de claves API unificadas para Elastic Cloud Serverless y Elasticsearch

Alex Chalkias — Mon, 20 Apr 2026 00:00:00 GMT

Imagina que eres un ingeniero de confiabilidad de sitios (SRE, por sus siglas en inglés) responsable de una creciente cartera de proyectos Elastic Cloud Serverless: Elastic Observability para tu infraestructura de producción, Elastic Security para tu equipo del centro de operaciones de seguridad (SOC, por sus siglas en inglés) y Elasticsearch para tu aplicación orientada al cliente. Cada proyecto tiene su propia clave de API de Elasticsearch. Tu pipeline de integración continua y entrega continua (CI/CD) necesita una clave de API de Cloud independiente para aprovisionar y administrar esos proyectos. El día de rotación llega cada trimestre: recorres cada proyecto, acuñas nuevas claves, actualizas tu estado de Terraform, redistribuyes tus pipelines y esperas que nada se te escape. Cuando un incidente ocurre a las 2 a. m. y necesitas revocar el acceso rápidamente, estás consultando una hoja de cálculo de credenciales para averiguar qué clave pertenece a qué proyecto y qué servicio.

Hoy, esa historia se vuelve mucho más sencilla. Ahora puedes usar las claves de API de Elastic Cloud para autenticarte directamente contra las API de Elasticsearch y Kibana en Elastic Cloud Serverless. Ahora puedes usar una sola credencial para gestionar los recursos de tu organización y ejecutar operaciones de datos, como consultas de ES|QL (lenguaje de búsqueda de Elasticsearch), ingesta de datos y generación de alertas.

Veamos por qué lo creamos, cómo diseñamos una capa de identidad distribuida en todo el mundo para hacerlo posible y cómo sienta las bases para la búsqueda entre proyectos.

La carga secreta de la gestión

Construir pipelines fiables de CI/CD, flujos de trabajo de GitOps o automatización de Terraform alrededor de plataformas de datos conlleva un costo oculto: la proliferación de secretos.

En el modelo anterior, los desarrolladores se enfrentaban a un proceso de autenticación fragmentado:

Plano de control (claves de la API de Elastic Cloud): Claves con ámbito de organización que se emplean para crear proyectos, invitar a usuarios y gestionar la facturación a través de la API de Elastic Cloud.
Plano de datos (claves de la API de Elasticsearch): Claves con alcance de proyecto creadas dentro de un proyecto Serverless específico para interactuar con las API de Elasticsearch y Kibana.

Esto significaba que tu script de despliegue tenía que autenticarse en Elastic Cloud, aprovisionar un proyecto Serverless, extraer una clave de API de Elasticsearch recién creada de ese proyecto específico y luego inyectar esa segunda clave en la aplicación o herramienta de automatización downstream, lo que resultaba en pipelines complejos, logs de auditoría fragmentados y un mayor riesgo de fugas de credenciales.

Autenticación unificada en Elastic Cloud Serverless

Con este lanzamiento, la división ha desaparecido para los proyectos Serverless. Ahora puedes crear una clave de la API de Elastic Cloud que esté explícitamente autorizada para las API de Cloud, Elasticsearch y Kibana.

Antes: Una clave de API de Elastic Cloud era estrictamente un token del plano de control. Podía crear proyectos, gestionar la facturación e invitar a usuarios, pero tenía una limitación importante: no se podía usar para llamar a las API de Elasticsearch o Kibana dentro de esos proyectos. Siempre necesitabas una segunda clave específica del proyecto para las operaciones con datos.
Ahora: Al optar por el acceso a la API de Cloud, Elasticsearch y Kibana cuando creas una clave de la API de Elastic Cloud, se elimina el límite rígido para Serverless. Esa clave de la API se convierte en una credencial verdaderamente unificada. Mantiene su capacidad para gestionar la infraestructura de tu organización, mientras obtiene acceso nativo para consultar, ingerir y analizar datos en cualquier proyecto Serverless autorizado.

Al unificarlo bajo una única clave de API de Elastic Cloud, obtienes una única identidad que puede ser delimitada, sometida a auditoría, rotada y revocada como una sola unidad. Cada llamada a la API, ya sea que aprovisione un nuevo proyecto o ejecute un ES|QL, aparece bajo la misma credencial en tus logs de auditoría, dándote un único rastro a seguir durante investigaciones de incidentes o revisiones de cumplimiento. La rotación de credenciales se convierte en una operación de un solo paso en lugar de una actualización coordinada a través de secretos separados del plano de control y del plano de datos. Y dado que las asignaciones de roles son por proyecto, una única clave puede abarcar varios proyectos, gestionando la ingesta en tu proyecto de observabilidad y ejecutando consultas en tu proyecto de seguridad, sin tener que gestionar credenciales separadas para cada uno.

Es importante destacar que unificado no significa todopoderoso. Al usar la carga útil role_assignments, puedes asignar una clave unificada estrictamente a un solo proyecto y a un rol específico (como solo lectura), cerciorando que el radio de alcance permanezca completamente contenido si alguna vez se expone una credencial. Si un desarrollador se marcha o una aplicación es desactivada, puedes revocar una sola clave de la Consola de Elastic Cloud, terminando inmediatamente el acceso tanto en el plano de control como en todos los proyectos asociados de Elasticsearch.

(Nota: Para despliegues gestionados/alojados en Elastic Cloud Hosted, las claves de API de la cloud siguen gestionando solo el plano de control. La función para extenderlo a las API de pila alojadas está previsto para una versión futura).

Automatiza tus flujos de trabajo

Los primeros pasos son simples. Puedes configurarlo completamente a través de la consola de Elastic Cloud o automatizarlo empleando la API de Elastic Cloud.

El proceso de la UI sigue igual, pero ahora puedes seleccionar acceso a la API de Cloud, Elasticsearch y Kibana bajo la asignación de rol del proyecto.

Aquí te mostramos cómo crear una clave unificada mediante programación empleando la API de Elastic Cloud. Fíjate en el array application_roles, ya que es el que otorga acceso nativo al plano de datos de Elasticsearch:

curl -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: ApiKey $EC_API_KEY" \
  "https://api.elastic-cloud.com/api/v1/users/auth/keys" \
  -d '{
    "description": "unified-automation-key",
    "expiration": "90d",
    "role_assignments": {
      "project": {
        "elasticsearch": [
          {
            "role_id": "elasticsearch-admin",
            "organization_id": "YOUR_ORG_ID",
            "all": false,
            "project_ids": ["YOUR_PROJECT_ID"],
            "application_roles": ["admin"]
          }
        ]
      }
    }
  }'

Una vez creada, simplemente pasas esta misma clave en el encabezado Authorization: ApiKey tanto a api.elastic-cloud.com como a tus puntos finales específicos de Serverless Elasticsearch.

Bajo el capó: construyendo una capa de identidad distribuida

Hacer que una clave API de Cloud funcione tanto en el plano de control como en el plano de datos no es tan simple como pasar un token. Implica resolver un reto fundamental de los sistemas distribuidos.

Históricamente, las claves de API de Cloud residían en un clúster de seguridad global centralizado. Esto funciona bien para las operaciones del plano de control donde una latencia más alta es aceptable. Sin embargo, las solicitudes de datos de Elasticsearch requieren una latencia ultrabaja. No podemos permitirnos un viaje de ida y vuelta alrededor del mundo hasta un plano de control central para validar cada consulta de búsqueda o solicitud de ingesta.

Para resolverlo, implementamos una nueva arquitectura de autenticación respaldada por un almacén de datos distribuido a nivel mundial. El siguiente diagrama de secuencia muestra a un cliente enviando una consulta a Elasticsearch con una clave de API de Elastic Cloud, lo que ilustra cómo la autenticación se lleva a cabo íntegramente dentro de la región local, sin necesidad de un viaje de ida y vuelta al plano de control global. Elasticsearch delega la autenticación al servicio regional de IAM, que valida la clave y comprueba las asignaciones de roles en una réplica local de la base de datos distribuida en todo el mundo. Una vez autorizado, Elasticsearch ejecuta la consulta y devuelve los resultados al cliente.

Persistencia distribuida a nivel global

En lugar de depender únicamente de un clúster de seguridad centralizado, las claves de la API de Elastic Cloud y las definiciones de roles asociadas ahora se almacenan permanentemente en una base de datos distribuida en todo el mundo y de alta disponibilidad. Esta base de datos sincroniza los datos de administración de identidad y acceso (IAM) a través del plano de control global y los planos de datos regionales donde realmente se ejecutan tus proyectos sin servidor.

Validación local con IAM regional

Cuando tu cliente envía una solicitud a Elasticsearch usando una clave de API de Elastic Cloud, la solicitud no se remite al plano de control mundial. En su lugar, es redirigido al nuevo servicio regional de IAM. Valida la clave contra la réplica de la base de datos local, asegurando que la autenticación ocurra con una latencia cercana a cero y esté completamente aislada de las interrupciones del plano de control mundial.

Mapping dinámico de roles

La autenticación es solo la mitad del camino; el sistema también tiene que autorizar la solicitud. El servicio regional de IAM traduce instantáneamente tus asignaciones de rol a nivel de cloud (por ejemplo, application_roles) en privilegios nativos de Elasticsearch. Elasticsearch puede entonces autorizar y ejecutar la solicitud localmente, sin necesidad de un índice .security local.

La base para la búsqueda entre proyectos

Esta arquitectura de identidad distribuida es un pilar fundamental para el futuro de la plataforma Elastic.

Como la identidad y el acceso ahora están unificados y sincronizados globalmente, contamos con el marco de trabajo necesario para transferir tu identidad de forma segura entre diferentes proyectos. Esto permite las próximas funcionalidades de búsqueda entre proyectos (CPS) para Serverless.

Con CPS, podrás consultar datos que abarcan varios proyectos serverless remotos, como combinar cargas de trabajo de seguridad y observabilidad, tan fácilmente como si fueran un solo set de datos. Al utilizar claves API unificadas, el sistema puede evaluar automáticamente tus permisos en todos los proyectos a la vez, sin que tengas que configurar relaciones de confianza complejas, certificados ni duplicar credenciales en cada proyecto de destino.

Más información

¿Listo para simplificar tu stack?

Lee la documentación sobre las claves de la API de Elastic Cloud para saber cómo asignar acceso a la pila.
Consulta la referencia Crear clave de la API (Elastic Cloud API) para automatizar la generación de claves.
Consulta las claves de API de Elastic para ver una comparación completa de los tipos de claves disponibles en toda la Platform de Elastic.

Empieza o continúa construyendo en Elastic Cloud hoy mismo.

Descargo de responsabilidad

El lanzamiento y el momento de cualquier característica o funcionalidad descrita en esta publicación quedan a exclusivo criterio de Elastic. Es posible que alguna característica o funcionalidad que no esté disponible en este momento no se lance a tiempo o no se lance en absoluto.

Agrupación no supervisada de documentos con Elasticsearch + incrustaciones de Jina

Matthew Adams — Fri, 10 Apr 2026 00:00:00 GMT

La búsqueda vectorial empieza con una consulta, pero ¿qué pasa si no tienes una?

Las organizaciones acumulan grandes colecciones de documentos, como tickets de soporte, presentaciones legales, feeds de noticias y trabajos de investigación, pero para poder hacer las preguntas correctas, primero necesitan entender lo que contienen. Sin etiquetas o datos de entrenamiento, revisar manualmente miles de documentos es poco práctico. La búsqueda tradicional no es útil cuando no sabes qué buscar.

Esta publicación describe un enfoque nativo de Elasticsearch para la agrupación no supervisada de documentos y el seguimiento temporal de temas que aborda este problema de descubrimiento. Después de leerla, podrás seguir la evolución de distintos temas a lo largo de varios días:

Lo que descubrirás:

Por qué las incrustaciones de agrupación (y no las incrustaciones de recuperación) son fundamentales para descubrir temas sin una consulta.
Cómo la clasificación de centroides con sonda de densidad agrupa documentos por tema usando Elasticsearch k vecinos más cercanos (kNN) y lotes de msearch.
¿Cómo puede significant_text autoetiquetar clústeres para que los temas sean legibles sin entrenar un modelo?
De qué forma las cadenas temporales de temas conectan los clústeres de datos diarios para mostrar la evolución de los temas día a día.

El pipeline utiliza unos 8500 artículos de febrero de 2025 de BBC News y The Guardian como corpus de prueba. Si bien las noticias son convenientes porque tienen un comportamiento temporal claro, el patrón es aplicable si el descubrimiento de documentos es importante: revisión legal, monitoreo del cumplimiento normativo, síntesis de investigación, triage de atención al cliente.

Stack:

Jina v5 incrustaciones de agrupación: adaptadores específicos de Low-Rank Adaptation (LoRA) para la agrupación de temas. Jina se unió a Elastic, y sus modelos están disponibles de forma nativa a través del Elastic Inference Service (EIS).
Elasticsearch: kNN escalable, etiquetado significant_text y almacenamiento de vectores.
DiskBBQ: un formato de índice vectorial basado en disco que combina Better Binary Quantization (BBQ) con una partición jerárquica k-medios para la aceleración aproximada de los vecinos más cercanos (ANN). Esta partición de índice es interna a la búsqueda vectorial y separada del algoritmo de agrupación con sonda de densidad utilizado en esta publicación. bbq_disk almacena vectores cuantificados en el disco y mantiene solo los metadatos de partición en el heap, lo que reduce drásticamente los requisitos de recursos en comparación con bbq_hnsw, mientras mantiene un alto nivel de recuperación.
Agrupación global + vinculación temporal diaria: descubrimiento y evolución del tema.

Lo que necesitarás:

Un despliegue de Elasticsearch (Elastic Cloud, Elasticsearch Serverless o Elastic Self-Managed 8.18+/9.0+): bbq_disk requiere la versión 8.18 o posterior. La sección opcional de recuperación diversificada requiere 9.3+ o sin servidor.
Una clave de API de Jina: la capa gratuita incluye 10 millones de tokens, lo que cubre la pipeline de agrupación del núcleo (~4.25 millones de tokens). La comparación opcional entre recuperación y agrupación usa una segunda pasada de incrustación.
Una clave API de Guardian (gratis).

Configuración

Instala los paquetes requeridos:

pip install elasticsearch pandas numpy plotly umap-learn python-dotenv pydantic-settings datasets requests

Opcional (solo si ejecutas los asistentes de raspado desde este repositorio):

pip install beautifulsoup4

Luego configura las claves API en un archivo .env en la raíz del proyecto:

ELASTIC_CLOUD_ID=your-cloud-id        # or ELASTIC_HOST=https://...
ELASTIC_API_KEY=your-api-key
JINA_API_KEY=your-jina-key
GUARDIAN_API_KEY=your-guardian-key

Este cuaderno llama a load_dotenv(override=True), por lo que los valores locales .env tienen prioridad.

Connected to Elasticsearch

Parte 1: agrupación de descubrimiento - ¿Por qué agrupar incrustaciones?

La mayoría de las búsquedas vectoriales usan incrustaciones de recuperación entrenadas para hacer coincidir una consulta con documentos relevantes. Eso es ideal para la búsqueda, pero no para el descubrimiento. Cuando quieras encontrar qué temas existen en un corpus sin ninguna consulta, necesitas incrustaciones que agrupen documentos similares.

Jina v5 resuelve esto con adaptadores de Low-Rank Adaptation (LoRA) específicos para cada tarea. LoRA agrega pequeñas actualizaciones de bajo rango a las capas internas específicas mientras mantiene la mayoría de los pesos del modelo base congelados, por lo que el comportamiento del modelo se desplaza hacia una tarea específica sin repetir el entrenamiento completo. El mismo modelo base produce diferentes incrustaciones según el parámetro task:

Tarea	Capacitado para	Caso de uso
retrieval.passage	Coincidencia búsqueda-documento	Búsqueda, Retrieval-Augmented Generation (RAG)
agrupación	Agrupación de temas (optimizada para clústeres estrechos)	Descubrimiento, categorización

El adaptador de agrupación está entrenado para hacer que los documentos sobre el mismo tema estén más cerca en el espacio de incrustaciones y que los documentos sobre temas diferentes estén más separados. La comparación visual a continuación muestra la diferencia de forma concreta.

Recuperación frente a agrupación: una comparación visual

Para ver la diferencia, se incrusta una muestra de documentos con ambos tipos de tareas. La agrupación se realiza en el espacio de incrustación original de 1024 dimensiones; Uniform Manifold Approximation and Projection (UMAP) se usa solo para proyectar esas incrustaciones en 2D para su visualización. UMAP preserva la estructura de vecindad local, por lo cual es útil para comparar la separación entre clústeres.

A continuación, se muestra la misma muestra de 480 documentos con ambos tipos de tareas y proyectada en 2D con UMAP. Busca grupos de colores más compactos y mejor diferenciados en el panel de agrupación.

    Full dataset: 8,495 articles
    Sources: guardian: 5749, bbc: 2746
    Date range: 2025-02-01 to 2025-02-28


    Sample: 480 docs across 8 sections
    section
    Film              60
    World news        60
    Australia news    60
    Opinion           60
    Football          60
    US news           60
    Sport             60
    Business          60


    Clustering embeddings: 480
    Retrieval embeddings:  480


    UMAP projection complete

Las incrustaciones de recuperación (izquierda) distribuyen los temas ampliamente; las incrustaciones de agrupación (derecha) producen grupos más ajustados y separados de los mismos documentos.

Las incrustaciones de agrupación producen grupos más compactos y visualmente más distintivos. Las incrustaciones de recuperación distribuyen los temas de manera más uniforme, ideales para la búsqueda (similitud de grano fino); pero para el descubrimiento, los clústeres temáticos compactos son lo que importa.

Esta es la razón por la que task="clustering" se usa para el resto de este recorrido.

Carga de los sets de datos

El corpus combina dos fuentes de noticias para febrero de 2025:

BBC News a través del set de datos RealTimeData/BBC_News_AllTime HuggingFace.
The Guardian a través de la API de Guardian Open Platform.

Tener varias fuentes permite validar que la agrupación encuentra temas en lugar de estilo específico de la fuente.

    Total articles:  8,495
    
    Source breakdown:
    source
    guardian    5749
    bbc         2746
    
    Date range: 2025-02-01 → 2025-02-28
    Days covered: 28
    
    Sample article:
      Source:  guardian
      Title:   Carbon monoxide poisoning ruled out in death of Gene Hackman and wife, police sa
      Section: Film
      Text:    Authorities have ruled out that Gene Hackman and his wife, Betsy Arakawa, died from carbon monoxide poisoning earlier this week in their home in Santa Fe, New Mexico. The Santa Fe county sheriff, Adan...

Incrustar con la tarea de agrupación

La API de Jina v5 se llama con task="clustering" para todos los documentos. Las incrustaciones se almacenan en caché en disco, por lo que las ejecuciones posteriores se saltan la API por completo.

La llamada a la API es muy sencilla. El parámetro task es la diferencia clave con respecto al uso típico de incrustación:

payload = {
    "model": "jina-embeddings-v5-text-small",
    "input": texts,
    "task": "clustering",  # ← This selects the clustering LoRA adapter
}

El tiempo que se muestra a continuación refleja un acierto de caché. La primera ejecución contra la API lleva más tiempo, según el tamaño del corpus.

    Embeddings ready: 8,495 vectors of dimension 1024
    Time: 0.6s

Indexar un índice único de Elasticsearch

Para la agrupación por descubrimiento, el mes completo se destina a un índice (docs-clustering-all). La partición diaria se realiza más tarde para la vinculación temporal de temas.

El mapeo de índices emplea bbq_disk para el campo vectorial:

{
  "embedding": {
    "type": "dense_vector",
    "dims": 1024,
    "index": true,
    "similarity": "cosine",
    "index_options": {
      "type": "bbq_disk"        // hierarchical k-means partitioning for ANN index lookup; separate from this post's clustering algorithm
    }
  }
}

Un vector float32 de 1024 dimensiones es de 4 KB. bbq_disk usa k-medios jerárquicos para particionar vectores en pequeños clústeres, los cuantifica en binario y almacena los vectores de precisión completa en el disco para volver a guardarlos. Solo los metadatos de partición permanecen en el heap, por lo que los requisitos de memoria permanecen bajos incluso para corpus grandes. Para las cargas de trabajo que pueden permitirse más memoria dinámica, bbq_hnsw crea un grafo HNSW (Hierarchical Navigable Small World) para agilizar las búsquedas, aunque a costa de un mayor consumo de recursos.

El tipo de campo dense_vector brinda soporte para múltiples estrategias de cuantización: bbq_disk y bbq_hnsw son las más adecuadas para embeddings de alta dimensión, como los vectores de 1024 dimensiones usados aquí.

    Indexed 8,495 documents into docs-clustering-all
    Time: 57.5s

Agrupación: clasificación del centroide sondeada por densidad

Los algoritmos de agrupación tradicionales como HDBSCAN asumen que puedes mantener la matriz de vectores N × d completa en memoria y ejecutar actualizaciones de pasada completa repetidas. Para 8495 documentos con 1024 dimensiones, esto es manejable (~35 MB), pero el enfoque no escala a millones de documentos sin infraestructura adicional.

Este algoritmo es conceptualmente similar a la inicialización de KMedios++ con asignación de Voronoi y un nivel de ruido, pero emplea la búsqueda kNN de Elasticsearch como primitiva de cálculo, manteniendo casi todo el trabajo en el servidor:

Muestrea el 5 % de los documentos como sondas de densidad (muestra aleatoria, mínimo 50).
Densidad de sondas vía lotes de msearch kNN. Cada sonda dispara una búsqueda kNN y registra la similitud media de sus vecinos. Alta similitud media = región densa del espacio de incrustación. msearch envía múltiples solicitudes de búsqueda en una sola llamada HTTP, lo cual es fundamental en este caso: el sondeo de densidad genera cientos de consultas kNN, y agruparlas evita la sobrecarga por solicitud.
Seleccione semillas de alta densidad con diversificación: los candidatos por encima de la densidad mediana se ordenan por densidad descendente y se aceptan de manera ávida solo cuando su similitud del coseno con cada semilla existente está por debajo de un umbral de separación. Este es el único cómputo del lado del cliente (~0.01s para 8k docs).
Clasifica todos los documentos frente a los centroides mediante msearch kNN: cada semilla actúa como un centroide; una búsqueda kNN recupera documentos cercanos por encima de un umbral de similitud. Cada documento se asigna al centroide que lo devolvió con la puntuación más alta. Los clústeres pequeños se disuelven en ruido.

Elasticsearch se encarga del trabajo pesado: msearch para sondas de densidad, msearch para clasificación y significant_text para etiquetado. Para este corpus (8495 documentos), la muestra del 5 % de sondeo de densidad lanza 425 consultas kNN de sondeo, que msearch agrupa en nueve llamadas HTTP (con lotes de 50), lo que evita la sobrecarga de una solicitud por sondeo. Combinado con la búsqueda ANN de bbq_disk, esto mantiene la etapa de agrupación rápida y escalable. Las consultas kNN usan un valor mínimo de num_candidates para mayor velocidad durante la pasada de agrupación; las consultas de búsqueda de producción deben usar valores más altos de num_candidates para mejorar la recuperación a costa de la latencia.

Los clústeres tienen tamaños naturales determinados por la densidad del espacio de incrustación alrededor de cada centroide, no por un límite rígido de k. Las regiones temáticas densas producen clústeres más grandes; los temas de nicho producen clústeres más pequeños.

¿Por qué no KMeans o HDBSCAN?

KMedios asume clústeres esféricos y requiere la matriz N×d completa en memoria. Para corpus que caben en memoria, HDBSCAN es una alternativa estable. Maneja formas arbitrarias de clústeres y tiene una semántica de densidad bien entendida.

El enfoque de centroides con sondeo de densidad apunta a un nicho diferente: corpus con almacenamiento, recuperación y agrupación en un solo sistema, o en los que la escala hace que las operaciones matriciales del lado del cliente sean poco prácticas. Usa Elasticsearch kNN como primitiva de cómputo, maneja tamaños de clúster arbitrarios y mantiene casi todo el procesamiento del lado del servidor.

    Clustered global index in 31.6s
      Total clusters: 82
      Total noise:    2420 (28.5%)
      Density probes: 425 kNN queries via 9 _msearch HTTP calls

Comprender la tasa de ruido

La tasa de ruido de ~28 % es intencional, no un modo de falla. Los documentos que no encajan en ningún clúster denso en el similarity_threshold configurado quedan sin asignar en vez de ser forzados a una coincidencia deficiente. Esto actúa como un control de calidad: las columnas de opinión, los artículos cortos y las historias aisladas resisten naturalmente la acción de agrupar porque carecen de la densidad temática que define un grupo coherente.

El umbral es ajustable: reducir similarity_threshold produce una agrupación más agresiva (más documentos asignados, pero clústeres más dispersos), mientras que aumentarlo ajusta los clústeres e incrementa la fracción de ruido. Para este corpus de contenido de noticias mixtas, ~30 % de ruido es un punto de operación razonable. Los despliegues de producción deben ajustar el umbral según criterios de calidad específicos del dominio.

Etiquetas automáticas con significant_text

Ahora cada clúster necesita una etiqueta legible para humanos. La agregación significant_text de Elasticsearch encuentra términos que aparecen inusualmente a menudo en un conjunto en primer plano (el clúster) en comparación con un conjunto de fondo (el corpus completo).

En el fondo, utiliza una heurística estadística (puntuación JLH de forma predeterminada) que equilibra los cambios de frecuencia absoluta y relativa, sin machine learning, sin llamadas a modelos de lenguaje grandes (LLM). Un clúster sobre política del Reino Unido podría mostrar términos como starmer, labour, downing porque esos términos son desproporcionadamente comunes en ese clúster en comparación con el corpus de noticias general.

Para esta pasada global, las etiquetas se calculan directamente con respecto a docs-clustering-all, por lo que tanto el primer plano como el fondo se extraen del mes completo. En la parte 2, el etiquetado usa el patrón de índice diario (docs-clustering-*), un comodín que permite que las búsquedas abarquen todos los índices coincidentes simultáneamente, para darle a significant_text un fondo más amplio y lograr un mejor contraste.

Una forma mínima de consulta se ve así:

{
  "size": 0,
  "query": { "term": { "cluster_id": "72" } },
  "aggs": {
    "label_terms": {
      "significant_text": {
        "field": "text",
        "size": 5,
        "filter_duplicate_text": true
      }
    }
  }
}

significant_text también sirve como control de calidad: los clústeres que no producen términos importantes no tienen vocabulario distintivo. Son agrupaciones incoherentes que deberían disolverse de nuevo en ruido en lugar de recibir una etiqueta engañosa.

Un paso de limpieza determinista y ligero elimina los términos de etiqueta ruidosos (tokens numéricos, palabras genéricas) y recurre a un titular representativo cuando es necesario. Esto mantiene las etiquetas nativas de Elasticsearch y, al mismo tiempo, mejora la legibilidad.

    Sample cluster labels:
      cluster   3  (200 docs)  arsenal | mikel | villa
      cluster   1  (198 docs)  volodymyr | ukrainian | kyiv
      cluster   0  (196 docs)  hostages | hamas | israeli
      cluster   4  (187 docs)  scrum | rugby | borthwick
      cluster  52  (185 docs)  fossil | renewable | renewables
      cluster  10  (156 docs)  labour | gwynne | mps
      cluster  40  (151 docs)  novel | novels | literary
      cluster  11  (149 docs)  mewis | sarina | wiegman
      cluster  44  (143 docs)  flooding | rainfall | rain
      cluster  13  (131 docs)  doge | musk | elon
      cluster  12  (128 docs)  murder | insp | knockholt
      cluster   5  (124 docs)  putin | backstop | starmer


    Reassigned 35 docs from incoherent clusters to noise
    Total docs: 8,495
    Clustered:  6,040 (71.1%)
    Noise:      2,455 (28.9%)

Visualizar los clústeres

Las visualizaciones a continuación muestran lo que descubrió la pasada global de agrupación: un desglose por fecha de los documentos agrupados frente a los documentos de ruido, una proyección UMAP del mes completo y un gráfico de combinación de fuentes que confirma que los clústeres reflejan temas en lugar de fuentes.

Distribución diaria de documentos agrupados frente a documentos de ruido a lo largo de febrero de 2025.

Cada isla coloreada en el UMAP representa un clúster: un grupo de artículos sobre el mismo tema descubiertos únicamente a partir de la similitud de incrustación. Los puntos de ruido gris son artículos que no encajaban perfectamente en ningún clúster (a menudo artículos cortos, artículos de opinión o historias únicas).

El gráfico de desglose de fuentes confirma que los clústeres contienen artículos de ambas BBC News y The Guardian. La agrupación está encontrando temas, no fuentes: exactamente lo que el descubrimiento no supervisado debería arrojar.

Explorar la amplitud del clúster con el recuperador diversificado

El kNN simple devuelve los documentos más similares al centroide de un clúster (el núcleo compacto). Pero los clústeres reales cubren subtemas. El recuperador diversificado utiliza Maximal Marginal Relevance (MMR) para mostrar documentos que son relevantes para el centroide pero también diferentes entre sí.

El parámetro clave es λ (lambda):

λ = 1.0 → pura relevancia (igual que kNN simple).
λ = 0.0 → diversidad pura (resultados de máxima distribución).
λ = 0.5 → equilibrado: es relevante para el tema, pero cubre diferentes ángulos.

Una solicitud mínima de recuperador tiene el siguiente aspecto:

{
  "size": 8,
  "retriever": {
    "diversify": {
      "type": "mmr",
      "field": "embedding",
      "lambda": 0.5,
      "query_vector": "",
      "retriever": {
        "knn": {
          "field": "embedding",
          "query_vector": "",
          "k": 50,
          "num_candidates": 100
        }
      }
    }
  }
}

Los parámetros type, field y query_vector son necesarios a nivel de diversificación: field indica al MMR qué campo dense_vector usar para la similitud entre resultados, y query_vector proporciona el punto de referencia para el puntaje de relevancia.

Esto te permite responder: “¿Qué abarca realmente este clúster?” en vez de solo “¿Qué hay en su centro?”

    Exploring cluster 52 (185 docs)
    Label: fossil | renewable | renewables
    Centroid computed (dim=1024)


    ========================================================================
    Plain kNN (closest to centroid)
    ========================================================================
      1. [0.9738] Green campaigners fear ministers are poised to award billions of pounds in fresh subsidies to Drax power station, despite strong concerns...
      2. [0.9710] Thirteen more oil and gas licences could be cancelled as ministers decide new guidance for fossil fuel extraction after a landmark court...
      3. [0.9699] Experts have accused the fossil fuel industry of seeking special treatment after lobbyists argued greenhouse gas emissions from oilfields...
      4. [0.9681] Burning wood is a terrible way of producing electricity . Chopping down trees destroys habitats for wildlife, and growing new trees cannot...
      5. [0.9649] Keir Starmer will do huge damage to the global fight against climate change if he gives in to political pressure and allows the development...
      6. [0.9641] Labour will next week be confronted with stark policy choices that threaten to expose the fault lines between the Treasury and the...
      7. [0.9638] The Drax power station near Selby in north Yorkshire burns imported wood pellets  The government has agreed a new funding arrangement with...
      8. [0.9581] If you care about the world we are handing on to future generations, the news on Thursday morning was dramatic. This January was the...
    
    ========================================================================
    Diversify retriever (MMR, lambda=0.5)
    ========================================================================
      1. [0.9738] Green campaigners fear ministers are poised to award billions of pounds in fresh subsidies to Drax power station, despite strong concerns...
      2. [0.9434] Oil and gas interests have waged a coordinated campaign to kill pro-electrification policies that ban gas connections in new buildings ,...
      3. [0.9303] It was interesting to read that new licences for oil and gas production in the North Sea are being delayed by legal action ( Thirteen more...
      4. [0.9139] The US energy secretary, Chris Wright, has said he “would love to see Australia get in the game of supplying uranium and maybe going down...
      5. [0.9077] Rachel Reeves was facing criticism on Saturday night as it was confirmed that a report she cited as evidence that a third runway at...
      6. [0.8996] When Margaret Thatcher opened the Hadley Centre for Climate Change in 1990 journalists suggested she was attempting to appear to be doing...
      7. [0.8993] The vast majority of governments are likely to miss a looming deadline to file vital plans that will determine whether or not the world has...
      8. [0.8987] European imports of seaborne gas shipments fell by a fifth last year to their lowest level since the pandemic, according to a new report,...
    
    Overlap: 1/8 documents appear in both result sets
    
    Avg pairwise similarity (lower = more diverse):
      Plain kNN:          0.9057
      Diversify retriever: 0.6965

Los resultados simples de kNN se agrupan en torno a un ángulo del tema: los documentos más similares al centroide y entre sí. El recuperador diversificado muestra diferentes facetas del mismo clúster: subtemas, fuentes diferentes y perspectivas variadas.

La métrica de diversidad confirma esto cuantitativamente: la similitud promedio por pares es menor en los resultados del recuperador diversificado, lo que significa que los documentos arrojados tienen mayor alcance.

Esto es útil para:

Comprender el alcance real de un clúster: no solo su centro, sino también sus bordes.
Generar resúmenes. Los documentos diversos y representativos le dan a un LLM mejor material.
Encontrar ejemplos representativos para revisión humana o etiquetado posterior.
Controles de calidad. Si los diversos resultados parecen incoherentes, es posible que el clúster deba dividirse.

Parte 2: cadenas temáticas temporales

Seguimiento de temas con el paso de los días

La parte 1 agrupó todo el mes a nivel global para el descubrimiento de temas. Para el flujo temporal, la misma clasificación de centroides con sonda de densidad se ejecuta independientemente por día en los índices diarios, y luego los clústeres se vinculan en días adyacentes. Tenga en cuenta que los clústeres diarios son independientes de los clústeres globales de la parte 1; cada día produce sus propias asignaciones y etiquetas de clúster ajustadas al contenido de ese día.

El enfoque de enlazado: muestra y consulta

Para cada clúster el día A:

Muestra algunos documentos representativos.
Ejecuta kNN contra el índice del día B.
Cuenta cuántas coincidencias se registran en cada clúster del día B.
Si la fracción de aciertos excede un umbral (fracción kNN ≥ 0.4), registra un enlace.

Esto es rápido (solo se consultan unos pocos documentos por clúster, no todos) y usa el kNN nativo de Elasticsearch, sin necesidad de herramientas externas.

Preparing daily indices for temporal linkage...


Indexed 8,495 docs into 28 daily indices


Temporal links found: 808 in 145.4s

Strongest links:
  2025.02.01 'league | arsenal | premier' -> 2025.02.02 'league | season | striker'  (100%)
  2025.02.03 'league | striker | loan' -> 2025.02.04 'league | striker | season'  (100%)
  2025.02.03 'score | operator | gedling' -> 2025.02.04 'league | striker | season'  (100%)
  2025.02.12 'playoff | leg | bayern' -> 2025.02.13 'league | players | injury'  (100%)
  2025.02.14 'league | injury | football' -> 2025.02.15 'league | premier | football'  (100%)
  2025.02.18 'russia | ukraine | talks' -> 2025.02.19 'saudi | russia | arabia'  (100%)
  2025.02.18 'football | league | bayern' -> 2025.02.19 'league | manchester | players'  (100%)
  2025.02.21 'league | premier | manchester' -> 2025.02.22 'game | players | defeat'  (100%)
  2025.02.21 'rugby | calcutta | brilliant' -> 2025.02.22 'game | players | defeat'  (100%)
  2025.02.26 'metals | kyiv | ukrainian' -> 2025.02.27 'ukraine | russia | talks'  (100%)

Una fracción kNN del 100 % significa que cada documento muestreado del clúster de origen llegó al mismo clúster de destino, el vínculo entre días más fuerte posible. La mayoría de los vínculos anteriores están relacionados con el fútbol, lo que tiene sentido: la cobertura de la Premier League se ejecuta a diario con alta consistencia temática.

El enlace score | operator | gedling → league | striker | season es un ejemplo de un clúster de fútbol local de nicho (Gedling es un club de liga no profesional) que se integra en el clúster más amplio de la Premier League al día siguiente, una consecuencia natural de la reagrupación diaria a diferentes niveles de granularidad.

Construyendo cadenas de historias

Una cadena de temas es una secuencia de agrupaciones vinculadas en días consecutivos.

Los enlaces individuales por pares indican que el clúster "Política del Reino Unido" del lunes se conecta con el del martes. Las cadenas revelan la evolución completa: una historia que comienza el lunes, evoluciona a lo largo de la semana y se desvanece el viernes.

Las cadenas se construyen de forma voraz a partir de enlaces con una fracción kNN ≥ 0.4, lo que significa que al menos el 40 % de los documentos muestreados del clúster de origen terminaron en un único clúster de destino. Comenzando desde el clúster más antiguo, el algoritmo siempre sigue el enlace saliente más fuerte.

    Strong links (kNN fraction >= 0.4): 244
    Story chains spanning 3+ days: 18
      Chain 1: 'ukrainian | kyiv | eastern' (19 days: Feb 3 → Feb 21)
      Chain 2: 'playing | opposition' (19 days: Feb 10 → Feb 28)
      Chain 3: 'tadhg | maro | cadan' (10 days: Feb 1 → Feb 10)
      Chain 4: 'invade | china | putin' (8 days: Feb 21 → Feb 28)
      Chain 5: 'elected | labour | leader' (7 days: Feb 12 → Feb 18)
      Chain 6: 'film | swift | awards' (6 days: Feb 2 → Feb 7)
      Chain 7: 'amendment | termination | reporting' (6 days: Feb 12 → Feb 17)
      Chain 8: 'officers | scene | police' (5 days: Feb 1 → Feb 5)

La cadena más larga rastrea la cobertura Ucrania-Rusia durante 19 días consecutivos, lo cual no es sorprendente dado el sostenido nivel de intensidad geopolítica en febrero de 2025. El segundo más largo sigue al fútbol de la Premier League durante 19 días del mes. Las cadenas más cortas capturan la temporada de premios (cine/premios, seis días), el rugby de las Seis Naciones (10 días) y la cobertura del liderazgo político del Reino Unido (siete días). Cada cadena representa una evolución temática que el algoritmo descubrió puramente a partir de la similitud de incrustaciones a través de índices diarios.

Sankey: visualizando el flujo de la historia

Un diagrama de Sankey es una visualización de un flujo en la que el grosor de los enlaces indica la intensidad de la conexión. Aquí, cada banda vertical es un día, cada nodo es un clúster diario (dimensionado por el recuento de documentos) y cada ruta de color traza una cadena de temas a lo largo del tiempo. El ancho del enlace codifica la fuerza de superposición de kNN: los enlaces más gruesos significan que más documentos muestreados llegaron al clúster de destino. Los colores son consistentes por cadena, así que una sola ruta de color de izquierda a derecha se lee como la progresión de un tema.

Por ejemplo, la cadena Ucrania-Rusia (que se ve como una de las rutas más largas) fluye de manera continua desde principios de febrero hasta la tercera semana, con enlaces que se mantienen gruesos, lo que indica una fuerte continuidad temática a lo largo de los días.

Cadenas temporales de temas que se desarrollan a lo largo de febrero de 2025. Cada camino coloreado es un tema que persiste a lo largo de los días; el ancho del enlace indica la fuerza de superposición kNN.

Qué ofrece este enfoque

Esta guía cubrió una pipeline completa de agrupación de documentos sin supervisión desarrollada sobre Elasticsearch:

Agrupar incrustaciones: los adaptadores específicos de la tarea de Jina v5 producen incrustaciones optimizadas para la agrupación por temas, no solo para la coincidencia entre consulta y documento.
Agrupación de descubrimiento global: agrupar el mes completo en un índice maximiza el descubrimiento de temas entre días.
Clasificación de centroides con densidad probada: muestrea el 5 %, sondea densidad vía msearch kNN, selecciona semillas diversas de alta densidad, clasifica todos los documentos contra los centroides. Elasticsearch maneja el cómputo pesado; solo la selección de semillas se ejecuta del lado del cliente (~0.01 s).
significant_text etiquetado: las pruebas de significancia producen etiquetas de clúster significativas sin ningún modelo de ML o anotación manual. Los clústeres que no producen términos significativos son incoherentes y se degradan a ruido: una barrera de calidad integrada.
Vinculación temporal de temas: los índices diarios y el rastreo de muestras y consultas de kNN entre índices permiten rastrear cómo evolucionan los temas a lo largo del tiempo.

Conclusiones clave:

El tipo de tarea de incrustación es importante: las incrustaciones de agrupación producen grupos temáticos notablemente más compactos.
Elasticsearch puede funcionar tanto como capa de almacenamiento como motor de agrupación mediante búsqueda kNN.
La clasificación de centroides con sonda de densidad mantiene casi todos los datos del lado del servidor y produce clústeres con tamaños naturales determinados por la densidad de espacio de incrustaciones.
significant_text es rápido, interpretable y efectivo tanto para el etiquetado automático como para el control de calidad.

Este enfoque es útil en los siguientes casos:

Tienes texto con fecha y quieres descubrir un tema sin datos de entrenamiento etiquetados.
Deseas una pila para almacenamiento, búsqueda de vectores, etiquetado y vinculación temporal.

Extensiones para explorar:

Agrupación de varios períodos (resúmenes semanales y mensuales).
Ingesta en tiempo real con asignación incremental de clúster.
Resúmenes de clústeres generados por LLM usando los términos de significant_text como semillas.
A mayor escala, los centroides de K-Medios obtenidos mediante muestreo pueden servir como semillas de inicio rápido para la agrupación basada en densidad, lo que reduce el costo de la fase de exploración.

Pruébalo tú mismo

Sustituye el corpus de documentos con marcas de tiempo por el tuyo; cualquier colección de texto con fechas funciona con este pipeline. El cuaderno completo y el código de soporte están disponibles en el repositorio complementario.

Activa una prueba gratuita de Elastic Cloud: crea un clúster administrado con soporte para bbq_disk en cuestión de minutos.
Prueba Elasticsearch Serverless: sin gestión de clústeres, escala automáticamente y brinda soporte para todo en este tutorial.

Por qué la búsqueda en el comercio electrónico necesita gobernanza

Alexander Marquardt, Honza Král, Taylor Roy — Thu, 09 Apr 2026 00:00:00 GMT

Los minoristas de comercio electrónico deben gestionar distintos tipos de consultas muy diferentes dentro del mismo sistema. Un comprador que busca “naranjas” espera la fruta, no productos que contengan la palabra “naranja”, como el jugo de naranja o la mermelada de naranja, y no productos cítricos semánticamente relacionados. Un comprador que busca un “regalo para el abuelo al que le gusta lo dulce” necesita descubrimiento semántico, no coincidencia literal de palabras clave.

La recuperación léxica (coincidencia de texto), la recuperación semántica (coincidencia de conceptos) ni la recuperación híbrida (combinación de señales léxicas y semánticas) resuelven estos problemas por sí solas. La recuperación léxica puede arrojar cualquier resultado que contenga la palabra “naranjas”, mientras que la recuperación semántica pura en una consulta de alta intención como “naranjas” puede ampliarse hacia elementos relacionados como limones o toronjas. La recuperación híbrida combina estas señales léxicas y semánticas, pero aún no determina si esta consulta debe considerarse navegacional, qué restricciones deben aplicarse o qué políticas comerciales deben implementarse. La brecha no es la tecnología de recuperación en sí; es la ausencia de una capa de gobernanza que entienda de qué tipo de consulta se trata y qué restricciones deben implementarse antes de que comience la recuperación.

En este blog, abordamos la gobernanza de la búsqueda en el comercio electrónico, su relevancia y cómo garantizar una recuperación predecible y precisa con una capa de control.

Qué significa la gobernanza en la búsqueda en el comercio electrónico

Gobernanza, en este contexto, significa introducir una capa de decisión entre la consulta del usuario y el motor de recuperación. Esta capa realiza las siguientes funciones:

Clasifica la intención de la consulta: ¿se trata de navegación ("naranjas") o descubrimiento ("regalo para el abuelo")?
Aplica restricciones comerciales: ¿qué límites de categoría, reglas de elegibilidad, restricciones de disponibilidad o políticas de comercialización se aplican?
Apunta hacia la estrategia adecuada: ¿debería usar recuperación léxica, recuperación semántica o híbrida?

Una capa de gobernanza determina qué método de recuperación debe emplearse para cada consulta, qué restricciones deben aplicarse y qué políticas empresariales deben implementarse antes de que comience la recuperación. Es importante no confundir la gobernanza con la recuperación híbrida: la recuperación híbrida es una estrategia que combina señales léxicas y semánticas, mientras que la gobernanza es la capa de decisión previa que determina si deben usarse señales léxicas, semánticas o híbridas.

Situación actual: la implementación "espagueti" de la capa de aplicación

Hoy en día, muchos minoristas intentan resolver esto agregando lógica directamente en la capa de aplicación. A menudo resulta en código espagueti, es decir, miles de líneas de afirmaciones “si-entonces” codificadas de forma rígida, regex y plantillas de búsqueda complejas.

Este enfoque puede proporcionar los resultados de búsqueda deseados como se muestra arriba; sin embargo, crea una fricción operativa significativa:

Dependencia de ingeniería: los usuarios empresariales y los comercializadores no pueden modificar el comportamiento de búsqueda sin tickets de ingeniería y largos ciclos de despliegue que a menudo abarcan varias semanas.
Fragmentación: la lógica de búsqueda queda dispersa entre el código de la aplicación y las plantillas de búsqueda, y es difícil de explicar o auditar, lo que vuelve su evolución arriesgada.

Incluso cuando los equipos reconocen la necesidad de enrutamiento, el debate a menudo se centra en la pregunta equivocada: qué método de recuperación elegir.

La falsa elección: léxico vs. semántico vs. híbrido

Los equipos de búsqueda suelen enmarcar el desafío como una elección estratégica de recuperación: léxico/BM25 frente a semántico/vectores frente a híbrido. Ese encuadre es comprensible (los métodos de recuperación importan), pero pasa por alto el modo de fallo más común en despliegues reales: usar un único enfoque de recuperación para todas las consultas dará resultados subóptimos.

La búsqueda comercial es una mezcla de intenciones fundamentalmente diferentes:

Navegación determinista y de alta intención ("naranjas", "leche", "chocolate sin maní", "aceite de oliva barato").
Descubrimiento exploratorio ("chaqueta para hacer senderismo en las montañas", "regalo para una niña o niño de 12 años a quien le gusta la robótica").
Restricciones operativas (disponibilidad, tamaño, precio, color).
Merchandising y campañas (impulsar, relegar, campañas estacionales).

Cuando el sistema enruta todo esto a través de la misma estrategia de recuperación, los resultados a menudo son sistemáticamente incorrectos de manera predecible porque el modelo operativo carece de gobernanza. Cuando los equipos no se dan cuenta de que esto es una falla en la gobernanza, responden con la única herramienta que tienen: ajustar más el sistema.

Por qué “afinar la relevancia” puede volverse algo cíclico

Sin una capa de enrutamiento, la "relevancia" suele convertirse en una lista de pendientes interminable:

¿Por qué esta búsqueda muestra accesorios por encima del producto núcleo?
¿Por qué esta búsqueda principal de repente comenzó a mostrar elementos relacionados?
¿Por qué cambiaron los resultados después de que agregamos sinónimos, ajustamos los analizadores o habilitamos el híbrido?
¿Por qué el equipo de negocios necesita un lanzamiento de ingeniería para arreglar una consulta única?

Los equipos responden con más ajustes: más sinónimos, más mejoras, más experimentos de reordenamiento, más excepciones en el código de la aplicación. Esto puede funcionar por un tiempo, pero a menudo produce un comportamiento frágil porque el sistema aún carece de una capa de decisión explícita para determinar el tipo de consulta y aplicar las restricciones adecuadas antes de la recuperación.

La anatomía de la intención del comercio electrónico: cabeza y cola

En esta sección, usamos “cabeza” y “cola” como una notación práctica para patrones comunes de búsqueda navegacional y exploratoria en el comercio electrónico. En el mundo real, muchas búsquedas contienen aspectos de ambos:

Consultas de cabeza (intención determinista)

Estas son consultas directas y de navegación en las que el usuario sabe exactamente lo que quiere:

Intención de un solo artículo ("naranjas", "leche", "pan").
Marcas exactas o familias de productos ("iPhone 15 Pro", "Coca Light").
Referencias, números de modelo, tallas ("ABC123", "air max 270").

Para estas consultas, la recuperación léxica puede ocuparse de la correspondencia de tokens (palabras coincidentes), pero la empresa también espera respetar las restricciones, arrojar clasificaciones predecibles y tener resultados controlables. Un comerciante necesita asegurarse de que una consulta se resuelva dentro de los límites correctos de la categoría, respete la elegibilidad y muestre prioridades específicas del negocio.

Se necesita una estructura de gobernanza para garantizar el cumplimiento de la resolución prevista. Por ejemplo, las “naranjas” deben mapearse a la categoría de productos, no a jugo de naranja, mermelada de naranja o soda de naranja.

Consultas de cola (descubrimiento exploratorio)

Estas son búsquedas descriptivas y ricas en intención donde los compradores están explorando:

"Regalo para el abuelo que tiene debilidad por lo dulce"
"Chaqueta para senderismo en la montaña"
"Zapatos para estar de pie todo el día"

La recuperación léxica a menudo tiene dificultades en este punto. La búsqueda semántica destaca porque puede conectar el concepto de la consulta con el producto, incluso cuando las palabras no coinciden. Pero la recuperación semántica por sí sola no suele ser suficiente. Las consultas reales a menudo requieren que se apliquen restricciones, independientemente del método de recuperación que se utilice.

Las restricciones son ortogonales al método de recuperación

Aplicar restricciones a la recuperación semántica no significa que sea una búsqueda híbrida. Son conceptos ortogonales. Las restricciones, como los filtros y las mejoras (boosts) en Elasticsearch, se pueden aplicar a cualquier recuperación léxica, semántica o híbrida. El desafío es decidir cómo interpretar la consulta, qué restricciones se deben aplicar y qué estrategia de recuperación se debe usar.

A continuación se muestran algunos ejemplos de consultas que combinan la recuperación con restricciones rígidas:

Naranjas: recuperación léxica para “naranjas” más una restricción de categoría, como “frutas” o “productos”, eliminando mermelada de naranja, jugo de naranja y soda de naranja.
Frutas ricas en vitamina C por menos de $4: búsqueda semántica basada en la intención nutricional, además de filtros que limitan los resultados a la categoría de frutas y a productos por menos de $4.
Zapatos cómodos para el trabajo: búsqueda semántica basada en la intención contextual, además de una restricción de categoría que limita los resultados a los zapatos.

Estas consultas no se pueden manejar con un solo enfoque:

La recuperación léxica pura a menudo es insuficiente en este caso porque frases como “alto contenido de vitamina C” o “cómodo” pueden no existir como atributos limpios y estructurados. Puede que sea necesario inferirlos a partir de descripciones de productos, reseñas o especificaciones.
La recuperación semántica pura tampoco es suficiente porque, sin restricciones explícitas, una consulta como “frutas con alto contenido de vitamina C” podría ampliarse hacia suplementos vitamínicos, bebidas con sabor a fruta o vegetales con alto contenido de vitaminas fuera de la categoría y el rango de precios previstos.

Una capa de gobernanza determina si una consulta necesita recuperación léxica, comprensión semántica, aplicación de restricciones o alguna combinación de estas. Sin esta capa, los equipos de comercio electrónico pueden caer en lo siguiente:

Restricción excesiva: uso de recuperación léxica para solicitudes semánticas (por ejemplo, "regalo para el abuelo").
Restricción insuficiente: emplear consultas semánticas para consultas de cabeza con alta intención (por ejemplo, "naranjas").

El desafío de la gobernanza es construir un sistema que pueda tomar la decisión correcta para cada clase de consulta.

Qué sucede sin gobernanza

El modo de falla más común es sencillo: los equipos toman la consulta del usuario sin procesar y la pasan directamente a una única estrategia de recuperación (léxica, semántica o híbrida), sin una capa de gobernanza intermedia.

La búsqueda léxica no da el resultado esperado

Cuando un usuario busca “naranjas”, una estrategia de recuperación léxica puede devolver cualquier cosa que contenga ese token: jugo de naranja, mermelada de naranja o soda de naranja. El sistema hizo coincidir el término correctamente, pero sin gobernanza es posible que no resuelva el contexto de compra previsto (la fruta).

La recuperación semántica se amplía más allá de las limitaciones previstas

Cuando un usuario busca “naranjas”, un sistema semántico puede recuperar elementos conceptualmente relacionados a través de conceptos de productos cercanos. El sistema puede comprender correctamente el dominio más amplio (fruta o productos), pero sin gobernanza explícita aún puede ampliarse más allá de la restricción intencionada del usuario (específicamente naranjas).

La brecha es la gobernanza

Lo que se requiere es una capa de decisión previa que determine la intención de la consulta y aplique las restricciones adecuadas antes de que comience la recuperación. Esto soluciona problemas como los siguientes:

Elementos similares o relacionados que aparecen junto a lo que el usuario realmente quería.
Límites difusos de categorías ("bebidas" en vez de "frutas").
Incapacidad para implementar mejoras o campañas estacionales.
Resultados impredecibles e inexplicables.

Comprensión de intenciones y enrutamiento: el plano de control necesario

Un sistema de búsqueda gestionada incorpora un plano de control ligero antes de la recuperación (antes de ejecutar una consulta en Elasticsearch). El control se explicará en detalle en las partes 3 y 4 de esta serie de blogs; por ahora, solo abarcaremos lo que puede hacer pero no cómo funciona:

Un plano de control puede detectar la intención, aplicar políticas comerciales y garantizar la estrategia de recuperación apropiada de la siguiente manera:

1. Detectar señales de intención

¿Es probable que esta búsqueda sea de navegación en vez de descubrimiento?
¿Es una búsqueda principal conocida (leche, pan, bananas)?
Existe una interpretación conocida de producto, marca o categoría (por ejemplo, “naranjas” debería resolverse como fruta).
¿La consulta tiene un patrón tipo SKU?
¿La consulta se enmarca dentro de una campaña activa o una política estacional (por ejemplo, durante la Navidad, mejorar los resultados relacionados con el pavo)?
¿La consulta implica restricciones (categoría, atributos, exclusiones, precio, tamaño o color)?

2. Aplicar políticas empresariales y de gobernanza

Primero aplica restricciones deterministas (categoría, atributo, negación, disponibilidad).
Aplicar políticas activas de merchandising (mejorar/enterrar/fijar/anular).
Resuelve los conflictos con reglas de precedencia (por ejemplo, anulaciones de campaña frente a políticas globales).

3. Dirige a la estrategia de recuperación adecuada

Léxico (rápido, determinista) para consultas de navegación o de alta intención.
Recuperación semántica para búsquedas de descubrimiento real.
Híbrido en el que la combinación de señales léxicas y semánticas aporta valor añadido dentro de unos límites empresariales explícitos.

En la práctica, la salida del plano de control no es simplemente “usar híbrido” o “usar semántico”. Es un plan de recuperación regulado: una interpretación de la intención del comprador, las restricciones y políticas que deben aplicar, y la estrategia de recuperación que debe ejecutar. Unos pocos ejemplos sencillos lo demuestran:

Consulta de comprador	Interpretación regulada	Ejemplo de plan de recuperación
“chocolate sin maní”	Consulta orientada al producto con una restricción de exclusión estricta	Recuperación léxica para chocolate más un filtro de exclusión para productos que contienen maní
“aceite de oliva barato”	Búsqueda de producto o categoría con restricción de precio	Recuperación léxica para aceite de oliva más un filtro de precio limitado al umbral del minorista para ser económico
“Fruta con alto contenido de vitamina C por menos de $4”	Consulta de descubrimiento que requiere comprensión semántica y restricciones estrictas	Búsqueda semántica basada en la intención nutricional, limitada a la categoría de frutas y filtrada a productos con un precio inferior a 4 dólares

Un plano de control selecciona la política y la estrategia de recuperación correctas para cada búsqueda de forma consistente, predecible y a escala. Esto hace que los métodos de recuperación avanzados sean más predecibles en producción porque las restricciones alineadas con la intención se aplican primero y las decisiones de enrutamiento son explícitas en lugar de implícitas.

Cómo esto se relaciona con otros enfoques

Algunos equipos usan modelos de incrustación mejorados para captar mejor la semántica de los productos, lo que puede mejorar de forma considerable la calidad de la búsqueda semántica. Otros utilizan enfoques de reclasificación, como Learning To Rank (LTR), para optimizar el orden de los resultados basado en la participación o señales de negocio después de la recuperación. Ambos son valiosos y a menudo complementarios. Las incrustaciones superiores mejoran la coincidencia de similitudes. La reclasificación mejora el ordenamiento entre los candidatos recuperados.

La gobernanza aborda un aspecto diferente del problema: se sitúa en una etapa previa a la recuperación. Decide qué estrategia de recuperación utilizar (por ejemplo, léxica, semántica o híbrida), qué restricciones deterministas se requieren y qué consultas deben combinar varias políticas de negocio.

Qué aporta un plano de control gestionado

Una vez que se establece una capa de gobernanza, el modelo operativo cambia de forma rotunda. Las consultas críticas para los ingresos se vuelven predecibles. Los equipos de negocio pueden actualizar el comportamiento de búsqueda sin esperar los ciclos de lanzamiento de ingeniería. Y los métodos de recuperación avanzados (como los semánticos y los híbridos) pueden adoptarse de forma gradual, con mecanismos de enrutamiento y controles de seguridad, en vez de como un interruptor global de encendido o apagado.

La siguiente publicación de esta serie explora cómo se ve ese modelo operativo en la práctica y por qué puede ser tan importante como la tecnología de recuperación subyacente.

Si un comerciante tiene que abrir un ticket de Jira y esperar un despliegue para corregir una búsqueda crítica para los ingresos, el cuello de botella no es el motor; es el modelo operativo. La búsqueda moderna de comercio electrónico necesita una manera de traducir la intención comercial en un comportamiento de búsqueda controlado y auditable de manera rápida y segura, sin dejar de usar recuperación avanzada cuando aporta un valor medible.

Lo que se viene

Pon en práctica la búsqueda gobernada de comercio electrónico

Los cuellos de botella de ingeniería, la lógica frágil de la capa de aplicación y los resultados de búsqueda impredecibles son problemas que Elastic Services puede ayudarte a resolver en los proyectos de servicios de comercio electrónico empresarial. La arquitectura del plano de control gobernado que se describe en esta serie fue desarrollada por Elastic Services Engineering.

Si tu equipo está dedicando recursos de ingeniería a convertir las solicitudes de merchandising en cambios de código, o si la lista de tareas pendientes relacionadas con la relevancia de las búsquedas parece no reducirse nunca, podemos ayudarte a evaluar tu arquitectura actual y a trazar un plan para lograr un sistema de búsqueda controlado y editable por el equipo de negocios. Ponte en contacto con Elastic Services.

Únete a la discusión

Cómo construir aplicaciones de IA con agentes con Mastra y Elasticsearch

Enrico Zimuel — Wed, 08 Apr 2026 00:00:00 GMT

En este artículo, haremos un recorrido por cómo usar el marco de trabajo Mastra TypeScript para crear aplicaciones agénticas que interactúen con Elasticsearch.

Recientemente, contribuimos al proyecto de mastra-ai/mastra open source agregando soporte para Elasticsearch como base de datos vectorial. Con esta nueva característica, puedes usar Elasticsearch de forma nativa en Mastra para almacenar incrustaciones. Además de los vectores, Elasticsearch ofrece un conjunto de funciones avanzadas para satisfacer todas tus necesidades de ingeniería de contexto (por ejemplo, búsqueda híbrida y reordenamiento).

En este artículo, se detalla la creación de un agente para implementar una arquitectura de Retrieval-Augmented Generation (RAG) con Elasticsearch. Te mostraremos un proyecto de demostración en el que se utiliza un enfoque agéntico para interactuar con un corpus de datos de películas de ciencia ficción almacenados en Elasticsearch. El proyecto está disponible en elastic/mastra-elasticsearch-example.

Mastra

Mastra es un marco de trabajo de TypeScript para crear aplicaciones de IA agéntica.

Una estructura de proyecto en Mastra se ve así:

src/
├── mastra/
│   ├── agents/
│   │   └── weather-agent.ts
│   ├── tools/
│   │   └── weather-tool.ts
│   ├── workflows/
│   │   └── weather-workflow.ts
│   ├── scorers/
│   │   └── weather-scorer.ts
│   └── index.ts
├── .env.example
├── package.json
└── tsconfig.json

En Mastra, puedes crear agentes, herramientas, flujos de trabajo y puntajes.

Un agente es una clase que acepta un mensaje como entrada y produce una respuesta como salida. Un agente puede usar herramientas, modelos de lenguaje a gran escala (LLM) y una memoria (figura 1).

Las herramientas de un agente le permiten interactuar con el "mundo externo", como comunicarse con una API web o hacer una operación interna, como consultar Elasticsearch. El componente de memoria es crucial para almacenar el historial de conversaciones, incluidas las entradas y salidas pasadas. Este contexto almacenado permite que el agente proporcione respuestas más informadas y relevantes a preguntas futuras mediante el uso de sus interacciones pasadas.

Los flujos de trabajo te permiten definir secuencias complejas de tareas mediante pasos claros y estructurados, en lugar de depender del razonamiento de un solo agente (figura 2). Te brindan control total sobre cómo se desglosan las tareas, cómo se mueven los datos entre ellas y qué se ejecuta y cuándo. Los flujos de trabajo se ejecutan con el motor de ejecución integrado de forma predeterminada o se pueden desplegar en ejecutores de flujos de trabajo.

En Mastra, también puedes definir puntuaciones, que son pruebas automatizadas que evalúan las salidas de los agentes mediante métodos calificados por modelos, basados en reglas y estadísticos. Los evaluadores devuelven puntuaciones: valores numéricos (normalmente entre 0 y 1) que cuantifican qué tan bien una salida cumple con tus criterios de evaluación. Estas puntuaciones te permiten hacer un seguimiento objetivo del rendimiento, comparar diferentes enfoques e identificar áreas de mejora en tus sistemas de IA. Los evaluadores pueden personalizarse con tus propias solicitudes y funciones de puntuación.

Elasticsearch

Para ejecutar el proyecto de demostración, necesitamos tener una instancia de Elasticsearch en ejecución. Puedes activar una prueba gratis en Elastic Cloud o instalarlo localmente usando el script start-local:

curl -fsSL https://elastic.co/start-local | sh

Se instalarán Elasticsearch y Kibana en tu computadora y se generará una clave API que se utilizará para configurar la integración de Mastra.

La clave de API se mostrará como salida del comando anterior y se almacenará en un archivo .env en la carpeta elastic-start-local.

Instalar y configurar la demo

Creamos un repositorio elastic/mastra-elasticsearch-example que contiene el código fuente del proyecto de demostración. El ejemplo reportado en el repositorio ilustra cómo crear un agente en Mastra que implemente una arquitectura RAG para recuperar documentos de Elasticsearch.

Proporcionamos un set de datos para la demostración sobre películas de ciencia ficción. Extrajimos 500 películas de los sets de datos de IMDb en Kaggle.

El primer paso es instalar las dependencias del proyecto con npm, usando el siguiente comando:

npm install

Luego tenemos que configurar el archivo .env que contendrá la configuración. Podemos generar este archivo copiando la estructura del archivo .env.example , usando el siguiente comando:

cp .env.example .env

Ahora podemos editar el archivo .env, agregando la información faltante:

OPENAI_API_KEY=
ELASTICSEARCH_URL=
ELASTICSEARCH_API_KEY=
ELASTICSEARCH_INDEX_NAME=scifi-movies

El nombre del índice de Elasticsearch es scifi-movies. Si quieres, puedes cambiarlo usando la variable de entorno ELASTICSEARCH_INDEX_NAME.

Usamos OpenAI como servicio de incrustación, lo que significa que necesitas proporcionar una clave API para OpenAI en la variable OPENAI_API_KEY .env.

El modelo de incrustación empleado en el ejemplo es openai/text-embedding-3-small, con una dimensión de incrustación de 1536.

Para generar la respuesta final, empleamos el modelo openai/gpt-5-nano para reducir costos.

La arquitectura RAG te permite usar un modelo LLM final menos potente (y generalmente menos costoso) porque el trabajo pesado de fundamentar la respuesta está a cargo del componente de recuperación (Elasticsearch en este caso).

El LLM más pequeño solo se encarga de dos tareas principales:

Reformulación/incrustación de la consulta: Convertir la pregunta en lenguaje natural del usuario en una incrustación de vectores para la búsqueda semántica.
Sintetizar la respuesta: Se toman los fragmentos de contexto muy relevantes y recuperados (documentos/películas) y se los sintetiza en una respuesta coherente, final y legible por seres humanos, siguiendo las instrucciones del prompt proporcionado.

Dado que el proceso RAG proporciona el contexto fáctico exacto necesario para la respuesta, el LLM final no necesita ser masivo o muy complejo y no necesita poseer todo el conocimiento requerido dentro de sus propios parámetros (que es donde sobresalen los modelos grandes y caros). Esencialmente actúa como un sofisticado resumidor y formateador de texto para el contexto proporcionado por Elasticsearch, en lugar de ser una base de conocimientos completa en sí mismo. Esto permite el uso de modelos como gpt-5-nano para optimizar costos y latencia.

Después de la configuración del archivo .env, puedes ingestar las películas a Elasticsearch usando el siguiente comando:

npx tsx src/utility/store.ts

Deberías ver una salida como la siguiente:

🚀 Starting ingestion of 500 movies from 500_scifi_movies.jsonl...
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 1/500 (0%) | ok:1 | fail:0 | chunks:1 | eta:19m 33s | current:Capricorn One
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 2/500 (0%) | ok:2 | fail:0 | chunks:2 | eta:10m 32s | current:Doghouse
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 3/500 (1%) | ok:3 | fail:0 | chunks:3 | eta:7m 33s | current:Dinocroc
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 4/500 (1%) | ok:4 | fail:0 | chunks:7 | eta:6m 10s | current:Back to the Future           
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 5/500 (1%) | ok:5 | fail:0 | chunks:9 | eta:5m 14s | current:The Projected Man            
Ingesting ░░░░░░░░░░░░░░░░░░░░░░░░ 6/500 (1%) | ok:6 | fail:0 | chunks:11 | eta:4m 41s | current:I, Robot
...
✅ Ingestion complete in 1m 46s. Success: 500, Failed: 0, Chunks: 693.

El mapping del índice de películas de ciencia ficción contiene los siguientes campos:

incrustación, dense_vector con 1536 dimensiones, similitud del coseno.
descripción, texto que contiene la descripción de la película.
director, texto que contiene el nombre del director.
título, texto que contiene el título de la película.

Generamos las incrustaciones usando el título + la descripción. Como el título y la descripción son dos campos separados, la concatenación de ambos asegura que el vector de incrustación resultante capture tanto la identidad única y específica (título) como el contexto rico y descriptivo (descripción) de la película, lo que lleva a resultados de búsqueda semántica más precisos y completos. Esta entrada combinada le brinda al modelo de incrustación una mejor representación del contenido del documento para la búsqueda por similitud.

Ejecuta la demostración

Puedes ejecutar la demo con el siguiente comando:

npm run dev

Este comando iniciará una aplicación web en localhost:4111 para acceder a Mastra Studio (figura 3).

Mastra Studio ofrece una UI interactiva para crear y probar tus agentes, junto con una API REST que expone tu aplicación Mastra como un servicio local. Esto te permite comenzar a construir de inmediato sin preocuparte por la integración.

Proporcionamos un Agente Elasticsearch que emplea createVectorQueryTool de Mastra como herramienta para ejecutar búsqueda semántica usando Elasticsearch. Este agente emplea el enfoque RAG para buscar documentos relevantes (es decir, películas) que respondan a la pregunta del usuario.

Este agente usa el siguiente prompt:

You are a helpful assistant that answers questions based on the provided context.
Follow these steps for each response:

1. First, carefully analyze the retrieved context chunks and identify key information.
2. Break down your thinking process about how the retrieved information relates to the query.
3. Draw conclusions based only on the evidence in the retrieved context.
4. If the retrieved chunks don't contain enough information, explicitly state what's missing.

Format your response as:
THOUGHT PROCESS:
- Step 1: [Initial analysis of retrieved chunks]
- Step 2: [Reasoning based on chunks]

FINAL ANSWER:
[Your concise answer based on the retrieved context]

Important: When asked to answer a question, please base your answer only on the context provided in the tool. 
If the context doesn't contain enough information to fully answer the question, please state that explicitly and stop it.
Do not add more information than what is present in the retrieved chunks.
Remember: Explain how you're using the retrieved information to reach your conclusions.

Si haces clic en el menú Mastra Studio > Agents y seleccionas Agente de Elasticsearch, puedes probar el agente usando un sistema de chat. Por ejemplo, puedes pedir información sobre películas de ciencia ficción con una pregunta como esta:

Encuentra 5 películas o series de TV sobre ovnis.

Notarás que el agente ejecutará el vectorQueryTool. Puedes hacer clic en la herramienta invocada para ver la entrada y la salida. Al final de la ejecución, el LLM responderá tu pregunta, dado el contexto que proviene del índice de películas de ciencia ficción de Elasticsearch (figura 4).

Mastra ejecuta los siguientes pasos internamente:

Conversión en vectores: La pregunta del usuario, Encuentra 5 películas o series de televisión sobre ovnis, se convierte en una incrustación de vectores mediante el modelo openai/text-embedding-3-small de OpenAI.
Búsqueda de vectores: Esta incrustación se usa luego para hacer una búsqueda en Elasticsearch mediante una búsqueda de vectores.
Recuperación de resultados: Elasticsearch devuelve una serie de 10 películas muy relevantes para la consulta (es decir, aquellas con vectores más cercanos al vector de consulta del usuario).
Generación de respuestas: Las películas recuperadas y la pregunta original del usuario se envían al LLM, específicamente openai/gpt-5-nano. El LLM procesa esta información y genera una respuesta final, asegurando que se cumpla la solicitud del usuario para cinco resultados.

El agente de Elasticsearch

Aquí presentamos el código fuente del agente de Elasticsearch.

import { Agent } from "@mastra/core/agent";
import { ElasticSearchVector } from '@mastra/elasticsearch';
import { createVectorQueryTool } from '@mastra/rag';
import { ModelRouterEmbeddingModel } from "@mastra/core/llm";
import { Memory } from "@mastra/memory";

const es_url = process.env.ELASTICSEARCH_URL;
const es_apikey = process.env.ELASTICSEARCH_API_KEY;
const es_index_name = process.env.ELASTICSEARCH_INDEX_NAME;
const prompt = 'insert here the previous prompt';

const esVector = new ElasticSearchVector({
  id: 'elasticsearch-vector',
  url: es_url,
  auth: {
    apiKey : es_apikey
  }
});

const vectorQueryTool = createVectorQueryTool({
  vectorStore: esVector,
  indexName: es_index_name,
  model: new ModelRouterEmbeddingModel("openai/text-embedding-3-small")
});

export const elasticsearchAgent = new Agent({
  id: "elasticsearch-agent",
  name: "Elasticsearch Agent",
  instructions: prompt,
  model: 'openai/gpt-5-nano',
  tools: { vectorQueryTool },
  memory: new Memory(),
});

El vectorQueryTool es la herramienta que se invoca para implementar la parte de recuperación del ejemplo de RAG. Emplea la implementación de ElasticSearchVector que Elastic aportó a Mastra.

El agente es un objeto de la clase agente que utiliza la herramienta vectorQueryTool, el prompt y una memoria. Como puedes ver, el código que necesitamos implementar para conectar Elasticsearch a un agente es muy sencillo.

Conclusión

En este artículo, se demostró la simplicidad y el poder de integrar Elasticsearch con el marco de trabajo Mastra para construir sofisticadas aplicaciones de IA agéntica. En concreto, te mostramos cómo crear un agente RAG capaz de efectuar búsquedas semánticas sobre un corpus de datos de películas de ciencia ficción indexados en Elasticsearch.

Una de las principales conclusiones es la contribución directa de Elastic al proyecto de código abierto Mastra, que ofrece compatibilidad nativa con Elasticsearch como almacén de vectores. Esta integración reduce considerablemente las barreras de acceso, como se puede ver en el código fuente del agente de Elasticsearch. Usando el ElasticSearchVector y createVectorQueryTool, la configuración completa para conectar Elasticsearch a tu agente requiere solo un número mínimo de líneas de código de configuración.

Elasticsearch ofrece varias características avanzadas para mejorar la relevancia de los resultados. Por ejemplo, la búsqueda híbrida aumenta significativamente la precisión combinando la búsqueda léxica con la búsqueda de vectores. Otra característica interesante es la reclasificación con los últimos modelos de Jina, que puede aplicarse al final de la búsqueda híbrida. Para obtener más información sobre estas técnicas, consulta los siguientes artículos de Elasticsearch Labs:

Búsqueda híbrida Elasticsearch de Valentin Crettaz
Introducción a los modelos de Jina, su funcionalidad y usos en Elasticsearch de Scott Martens

También te animamos a consultar el ejemplo proporcionado y comenzar a crear tus propios agentes basados en datos con Mastra y Elasticsearch. Para más información sobre Mastra, puedes consultar la documentación oficial aquí.

Monitoreo de las vistas del dashboard de Kibana con flujos de trabajo de Elastic

Gustavo Llermaly — Fri, 03 Apr 2026 00:00:00 GMT

Kibana registra cuántas veces se visualiza cada dashboard, pero esos datos no se muestran de forma nativa en ningún dashboard integrado. En este artículo, usaremos los flujos de trabajo de Elastic para recopilar automáticamente esos datos cada 30 minutos e indexarlos en Elasticsearch, para poder crear nuestras propias analíticas sobre ellos.

Los flujos de trabajo de Elastic son un motor de automatización integrado dentro de Kibana que te permite definir procesos multipaso usando una configuración sencilla de YAML. Cada flujo de trabajo puede activarse según una programación o un evento, o como una herramienta en Elastic Agent Builder, y cada paso puede llamar a las API de Kibana, consultar Elasticsearch o transformar datos.

Usaremos los recuentos de vistas del dashboard como ejemplo concreto, pero el mismo patrón aplica a cualquier métrica expuesta a través de la API de objetos guardados de Kibana.

Requisitos previos

Elastic Cloud o un clúster autogestionado ejecutando la versión 9.3
Flujos de trabajo activados (Configuración avanzada)

Antes de crear cualquier cosa, entendamos qué datos tenemos. Kibana almacena la mayor parte de su configuración y metadatos como objetos guardados en un índice interno dedicado. Una de las cosas que Kibana rastrea de esta manera es el número de vistas del dashboard, mediante un tipo especial de objeto guardado llamado contadores de uso. Puedes consultarlas directamente desde las Herramientas de desarrollo:

GET kbn:/api/saved_objects/_find?type=usage-counter&filter=usage-counter.attributes.domainId:"dashboard"%20and%20usage-counter.attributes.counterType:"viewed"&per_page=10000

La respuesta tiene el siguiente aspecto:

{
  "page": 1,
  "per_page": 10000,
  "total": 1,
  "saved_objects": [
    {
      "type": "usage-counter",
      "id": "dashboard:346f3c64-ebca-484d-9d57-ec600067d596:viewed:server:20260310",
      "attributes": {
        "domainId": "dashboard",
        "counterName": "346f3c64-ebca-484d-9d57-ec600067d596",
        "counterType": "viewed",
        "source": "server",
        "count": 1
      },
      ...
    }
  ]

El campo counterName es el ID del dashboard y count es el recuento acumulado de vistas para ese dashboard en ese día específico. Kibana crea un objeto de contador por dashboard al día; puedes ver el sufijo de fecha en el ID del objeto (...viewed:server:20260310). El conteo aumenta a lo largo del día a medida que los usuarios abren el dashboard.

En lugar de replicar este modelo de documento diario en nuestro índice, crearemos un documento por cada ejecución del flujo de trabajo. Cada documento registra cuántas vistas había acumulado ese dashboard durante el día en el momento de la captura.

Paso 2: Crear el índice de destino

Necesitamos un índice para almacenar las snapshots de la vista del dashboard. El siguiente comando lo crea con mapeos explícitos para que podamos agregar y visualizar más tarde. Ejecuta esto en herramientas de desarrollo:

PUT dashboard-views
{
  "mappings": {
    "properties": {
      "captured_at": {
        "type": "date"
      },
      "dashboard_id": {
        "type": "keyword"
      },
      "dashboard_name": {
        "type": "keyword"
      },
      "view_count": {
        "type": "integer"
      }
    }
  }
}

Usarkeyword mapeos para ID y nombres permite agregaciones. Usar integer para view_count es un valor predeterminado seguro, ya que Kibana restablece el contador diariamente, por lo que alcanzar el límite de 32 bits (más de 2 mil millones de vistas en un solo día) no es una preocupación realista. Todavía admite operaciones numéricas, como max, avg y min, entre otras.

Paso 3: Crear el flujo de trabajo

Ve a Stack Management > Flujos de trabajo > Nuevo flujo de trabajo, y pega la siguiente configuración YAML del flujo de trabajo:

name: dashboard-views-ingestion
triggers:
  - type: scheduled
    with:
      every: 30m

steps:
  - name: fetch_dashboard_views
    type: kibana.request
    with:
      method: GET
      path: >-
        /api/saved_objects/_find?type=usage-counter&per_page=10000&filter=usage-counter.attributes.domainId:"dashboard"%20and%20usage-counter.attributes.counterType:"viewed"

  - name: index_each_dashboard
    type: foreach
    foreach: "{{ steps.fetch_dashboard_views.output.saved_objects }}"
    steps:
      - name: fetch_dashboard_name
        type: kibana.request
        with:
          method: GET
          path: /api/saved_objects/dashboard/{{ foreach.item.attributes.counterName }}
        on-failure:
          continue: true

      - name: index_doc
        type: elasticsearch.request
        with:
          method: POST
          path: /dashboard-views/_doc
          body:
            dashboard_id: "{{ foreach.item.attributes.counterName }}"
            dashboard_name: "{{ steps.fetch_dashboard_name.output.attributes.title }}"
            view_count: "${{ foreach.item.attributes.count | plus: 0 }}"
            captured_at: "{{ execution.startedAt | date: '%Y-%m-%dT%H:%M:%SZ' }}"

En la próxima sección, hagamos un desglose del flujo de trabajo paso a paso.

Cómo funciona el flujo de trabajo

Desencadenantes

El flujo de trabajo se ejecuta mediante un desencadenante programado cada 30 minutos. Esto nos proporciona datos temporales sin saturar la API.

fetch_dashboard_views

Usakibana.request para llamar a la API de objetos guardados de Kibana. No hace falta configurar la autenticación: el motor de flujos de trabajo añade automáticamente los encabezados correctos según el contexto de ejecución.

index_each_dashboard (foreach)

Itera sobre la matrizsaved_objects devuelta por el paso anterior. El elemento actual en cada iteración está disponible como foreach.item. Dentro del bucle, ejecutamos dos pasos anidados para cada dashboard.

1. fetch_dashboard_name:

Resuelve el título legible para los humanos del dashboard al llamar a GET /api/saved_objects/dashboard/{id}. Agregamos on-failure: continue: true para que, si un dashboard se eliminó pero aún tiene contadores de vistas, el bucle continúe en lugar de fallar toda la ejecución.

2. index_doc:

Indexa cada documento usando POST /dashboard-views/_doc (sin un ID explícito), lo que permite que Elasticsearch genere automáticamente los ID. Esto crea un nuevo documento en cada ejecución, lo que crea un historial del número de vistas a lo largo del tiempo en lugar de sobreescribir el snapshot anterior.

Dos cosas que vale la pena destacar:

El campo captured_at usa el filtro de fecha para formatear la marca de tiempo como ISO 8601. Sin ella, el valor sale como un texto de fechas en JavaScript, como Tue Mar 10 2026 05:03:47 GMT+0000, que Elasticsearch no asigna como fecha.
El view_count usa la sintaxis ${{ }} con | plus: 0 para preservar el tipo numérico. Usar {{ }} lo mostraría como un texto, lo que impediría realizar operaciones matemáticas en el dashboard.

La UI te permite depurar fácilmente cada uno de los pasos del flujo de trabajo.

Paso 4: Crea el dashboard de estadísticas

Una vez que el flujo de trabajo se haya ejecutado varias veces y se hayan recopilado los datos, crea un nuevo dashboard en Kibana usando la Data view de vistas del dashboard.

Algunos paneles para empezar:

Los dashboards más vistos: Usa un Gráfico de barras con dashboard_name en el eje X y last_value(view_count) en el eje Y. Aquí se muestra el número actual de vistas diarias por dashboard.
Vistas a lo largo del tiempo: usa un gráfico de líneas con captured_at en el eje X y last_value(view_count) en el eje Y, desglosado por dashboard_name. Dado que cada ejecución agrega un nuevo documento, usa el último valor para obtener el recuento máximo por cubetas de tiempo en lugar de sumar duplicados.
Snapshot actual: usa una tabla de datos con el captured_at más reciente para mostrar los recuentos de vistas más recientes en todos los dashboards.

Dado que cada flujo de trabajo crea un nuevo documento, puedes filtrar por intervalo de tiempo para analizar la actividad en períodos específicos, comparar semana a semana o configurar alertas cuando un dashboard caiga por debajo de un umbral de visitas.

Conclusión

Elastic Flujos de trabajo es una buena opción para este tipo de recopilación periódica de datos porque tanto el origen (API de Kibana) como el destino (Elasticsearch) son nativos, lo que significa cero gestión de credenciales. El motor de flujo de trabajo maneja la autenticación automáticamente para los pasos kibana.request y elasticsearch.request, por lo que lo único que escribes es la lógica.

Recursos

Cuando TSDS se une a ILM: diseñar flujos de datos temporales que no rechazan los datos tardíos

Bret Wortman — Thu, 02 Apr 2026 00:00:00 GMT

Recientemente, migré el clúster de métricas de un cliente de “todo en el nivel caliente” a una arquitectura de caliente/frío/congelado. Fue un cambio que había realizado docenas de veces antes. En cuestión de minutos, Logstash dejó de avanzar los datos por completo.

Elasticsearch rechazaba métricas que llegaban con retraso. Esos rechazos hicieron que el pipeline se retrasara, lo que dio como resultado más datos tardíos, lo que desencadenó aún más rechazos. Finalmente, el pipeline se detuvo por completo.

Tuvimos que restaurar desde un snapshot, reindexar los datos y rediseñar el pipeline de ingesta para recuperarnos.

La causa raíz no era la gestión del ciclo de vida de los índices (ILM) en sí. Eran los flujos de datos temporales (TSDS) y cómo imponen índices de respaldo acotados en el tiempo.

TSDS puede reducir las necesidades de almacenamiento para las métricas en un 40–70 %, pero los cambios de arquitectura que hacen que TSDS sea eficiente también alteran el comportamiento de los índices con el tiempo. Esos cambios importan al diseñar políticas de ILM o cuando tus Pipelines de ingesta pueden generar datos que llegan con retraso.

TL;DR

Al usar TSDS:

Los índices de respaldo solo aceptan documentos dentro de una ventana de tiempo específica.
Si llegan datos tardíos después de que un índice pasa a frío o congelado, Elasticsearch rechaza esos documentos o los envía al almacén de fallas, si está configurado.

Regla de diseño:

warm_min_age > rollover_max_age + maximum_expected_lateness

¿Qué es un flujo de datos temporales?

Un flujo de datos temporales (TSDS) es un flujo de datos especializado optimizado para datos de métricas. Los datos se distribuyen de manera que los documentos relacionados se encuentren dentro de los mismos fragmentos, lo que optimiza su búsqueda y recuperación. Así es como lo hace Elasticsearch:

Cada documento contiene:

Una marca de tiempo.
Campos de dimensión que identifican las series temporales.
Campos métricos que representan valores medidos.

Entre los ejemplos, se incluyen los siguientes:

Uso de CPU por host.
Latencia de las solicitudes por servicio.
Lecturas de temperatura por sensor.

Las dimensiones identifican lo que queremos medir, mientras que las métricas representan valores que cambian con el tiempo.

Dimensiones

Las dimensiones describen la entidad medida.

Ejemplos:

host.name
service.name
container.id

Los definimos en mapeos con:

time_series_dimension: true

Métricas

Las métricas representan valores numéricos y se definen mediante:

time_series_metric

Tipos comunes de métricas:

Indicador: valores que suben y bajan.
Contador: valores que aumentan hasta que se reinician.

Elastic Agent recopila principalmente métricas y datos de logs, por lo que, incluso si no has habilitado ningún índice TSDS manualmente, puedes tenerlos aún en tu clúster.

El campo _tsid

Elasticsearch genera internamente un valor _tsid a partir de campos dimensionales. Esto permite que los documentos con dimensiones idénticas se dirijan al mismo shard, lo que mejora:

Compresión.
Localidad de búsqueda.
Rendimiento de agregación.

La diferencia clave: índices de respaldo limitados en el tiempo

Los flujos de datos tradicionales siempre escriben en el índice de respaldo más reciente, llamado índice de escritura, pero TSDS se comporta de manera diferente.

Cada índice de respaldo TSDS tiene una ventana de tiempo definida y solo acepta documentos con @timestamp valores que se encuentren en esa ventana:

GET _data_stream/my-metrics-data-stream


     "index_mode": "time_series",
     "time_series": {
       "temporal_ranges": [
         {
           "start": "2026-01-15T14:35:50.000Z",
           "end": "2026-03-16T11:34:40.000Z"
         }
       ]
     }

Cuando se indexa un documento, Elasticsearch lo dirige al índice de respaldo responsable de esa marca de tiempo, lo que significa que, a diferencia de los índices tradicionales, un TSDS puede escribir en varios índices de respaldo al mismo tiempo.

Por ejemplo:

Datos en tiempo real → índice más reciente.
Datos tardíos → índice anterior que abarca ese intervalo de tiempo.

Diseño para datos con retraso

Las pipelines de ingesta reales rara vez entregan métricas perfectamente a tiempo. Las métricas pueden retrasarse por interrupciones de la red, retrasos en el camino, ingesta por batch y pérdida de dispositivos periféricos, que se vuelven a conectar y comienzan a ponerse al día.

Los índices tradicionales absorben silenciosamente esos retrasos. TSDS no lo hace.

Si la marca de tiempo de un documento queda fuera del intervalo de índices de respaldo con capacidad de escritura, Elasticsearch lo rechaza, lo que significa que tu política de ILM debe tener en cuenta los datos que llegan con retraso.

La restricción crítica

Los índices de respaldo deben mantenerse con permisos de escritura el tiempo suficiente para aceptar datos tardíos.

En términos prácticos:

time_until_readonly > maximum_expected_lateness

Debido a que ILM mide las antigüedades desde el desplazamiento, la regla operativa se convierte en:

warm_or_cold_min_age > rollover_max_age + maximum_expected_lateness

Por ejemplo, si las métricas pueden llegar con hasta seis horas de retraso, los índices deben permanecer editables al menos seis horas después de la transferencia.

No tener en cuenta esta restricción fue exactamente lo que causó la falla de ingesta descrita anteriormente. Los datos que llegaban tarde se dirigieron a un índice anterior, que ya estaba en el nivel frío y, por tanto, bloqueaba la escritura.

Gestión de documentos rechazados

Cuando TSDS rechaza un documento, Elasticsearch devuelve un error, lo que indica que la marca de tiempo no está dentro del rango de índices de escritura. La forma en que tu pipeline de ingesta maneja ese error determina si pierdes datos o si la ingesta se detiene.

El mecanismo principal para manejar documentos rechazados es el almacén de fallas.

Almacén de fallas (recomendado en Elasticsearch 9.1+)

Elasticsearch 9.1 introdujo el almacén de fallas, que captura automáticamente los documentos rechazados. En lugar de devolver errores a los clientes, Elasticsearch escribe los documentos rechazados en un índice de fallas dedicado dentro del flujo de datos.

Puedes inspeccionar las fallas usando:

GET metrics-myapp::failures/_search

Usar el almacén de fallas evita que los pipelines de ingesta se bloqueen por errores de rechazo, a la vez que conserva los datos fallidos para analizarlos o reindexarlos.

Monitoreo de problemas de rechazo

Los problemas de retraso suelen aparecer primero como anomalías de ingesta. Puedes notarlos primero como:

Caídas repentinas en la tasa de indexación.
Aumentos repentinos en el número de documentos rechazados.
Una cantidad cada vez mayor de entradas del almacén de fallas.
Discrepancias entre el número de entradas y salidas del pipeline.

Alertar sobre estas señales permite a los operadores detectar problemas antes de que los pipelines se detengan. Se pueden utilizar flujos de trabajo, tareas de machine learning y otros mecanismos para automatizar la detección y la notificación.

Lista de verificación de migración para TSDS + ILM

Si estás migrando un cluster de métricas a TSDS, introduciendo la organización en niveles con ILM o actualizando a una versión de Elasticsearch en la que las métricas son TSDS por defecto, revisa primero estos elementos.

1. Mide la latencia de la ingesta

Antes de cambiar las políticas de ILM, determina:

Retraso normal de ingesta.
Retraso en el peor de los casos durante incidentes.
Retrasos causados por pipelines de batch.

Tu diseño de ILM debe contemplar el retraso máximo realista.

2. Verifica las ventanas de tiempo de indexación

Inspecciona tus índices de respaldo TSDS:

GET _data_stream/

Busca:

time_series.start_time
time_series.end_time

Estos límites determinan qué índices pueden aceptar documentos. Entender estas ventanas puede ayudarte a determinar cuán tarde pueden llegar los datos antes de que se rechacen.

3. Dimensiona el nivel caliente para llegadas tardías

Garantiza que los índices de respaldo permanezcan con permisos de escritura el tiempo suficiente para los datos retrasados.

Regla operativa:

warm_min_age > rollover_max_age + maximum_expected_lateness

Recuerda, los índices deben permanecer en modo de escritura durante al menos seis horas si las métricas pueden llegar con seis horas de retraso.

4. Decide cómo manejar los documentos rechazados

Elige una estrategia antes de habilitar TSDS:

Almacén de fallas (recomendado en Elasticsearch 9.1+).
Cola de mensajes no procesados de Logstash.
Índice de respaldo para retrasos.
Aceptar la pérdida de datos limitada.

5. Monitorea el estado de la ingesta

Agrega alertas para:

La tasa de indexación disminuye.
Documentos rechazados.
Crecimiento del almacén de fallas.
Desajustes de entrada/salida en la pipeline.

Los problemas de datos tardíos a menudo aparecen primero como anomalías de ingesta.

Resumen

Los flujos de datos temporales ofrecen importantes mejoras de almacenamiento y rendimiento para las cargas de trabajo de métricas, pero introducen un cambio arquitectónico importante: los índices de respaldo están acotados en el tiempo, lo que afecta el comportamiento de ILM.

Al usar TSDS:

Los índices deben mantenerse con permisos de escritura el tiempo suficiente para aceptar datos tardíos.
Los pipelines de ingesta deben gestionar los documentos rechazados de forma segura.

La regla clave a recordar es:

warm_min_age > rollover_max_age + maximum_expected_lateness

Si diseñas políticas de ILM teniendo en cuenta esa limitación, TSDS funciona muy bien para cargas de trabajo de métricas.

Sin embargo, si lo ignoras, tu pipeline de ingesta puede descubrir esos límites de tiempo de la manera difícil.

LINQ a Elasticsearch ES|QL: escribir en C#, buscar en Elasticsearch

Florian Bernd, Martijn Laarman — Wed, 01 Apr 2026 00:00:00 GMT

A partir de v9.3.4 y v8.19.18, el cliente de Elasticsearch para .NET incluye un proveedor de Language Integrated Query (LINQ) que traduce las expresiones LINQ de C# a búsquedas del lenguaje de búsqueda de Elasticsearch (ES|QL) en tiempo de ejecución. En lugar de escribir textos de ES|QL manualmente, compones búsquedas con Where, Select, OrderBy, GroupBy y otros operadores estándar. El proveedor se encarga de la traducción, la parametrización y la deserialización de los resultados, incluido el streaming fila por fila, lo que mantiene el uso de memoria constante independientemente del tamaño del conjunto de resultados.

Tu primera búsqueda

Comienza por definir un objeto CLR (POCO) simple que se mapea a tu índice de Elasticsearch. Los nombres de las propiedades se resuelven a nombres de columnas ES|QL a través de atributos System.Text.Json estándar, como [JsonPropertyName], o a través de un JsonNamingPolicy configurado. Las mismas reglas de serialización de origen que se aplican en el resto del cliente también se aplican aquí.

using System.Text.Json.Serialization;

public class Product
{
    [JsonPropertyName("product_id")]
    public string Id { get; set; }

    public string Name { get; set; }

    public string Brand { get; set; }

    [JsonPropertyName("price_usd")]
    public double Price { get; set; }

    [JsonPropertyName("in_stock")]
    public bool InStock { get; set; }
}

Con el tipo ya definido, una consulta se ve así:

var minPrice = 100.0;
var brand = "TechCorp";

await foreach (var product in client.Esql.QueryAsync(q => q
    .From("products")
    .Where(p => p.InStock && p.Price >= minPrice && p.Brand == brand)
    .OrderByDescending(p => p.Price)
    .Take(10)))
{
    Console.WriteLine($"{product.Name}: ${product.Price}");
}

El proveedor traduce esto al siguiente ES|QL:

FROM products
| WHERE (in_stock == true AND price_usd >= ?minPrice AND brand == ?brand)
| SORT price_usd DESC
| LIMIT 10

Algunos detalles a tener en cuenta:

Resolución de nombres de propiedades: p.Price se vuelve price_usd debido al atributo [JsonPropertyName], y p.Brand se convierte en brand siguiendo la política predeterminada de nombres camelCase.
Captura de parámetros: Las variables C# minPrice y brand se capturan como parámetros nombrados (?minPrice, ?brand). Se envían por separado del texto de búsqueda en la carga útil JSON, lo que previene la inyección y habilita el almacenamiento en caché del plan de búsqueda del lado del servidor.
Streaming: QueryAsync devuelve IAsyncEnumerable. Las filas se materializan una a la vez a medida que llegan desde Elasticsearch.

También puedes inspeccionar la búsqueda generada y sus parámetros sin ejecutarla:

var query = client.Esql.CreateQuery()
    .Where(p => p.InStock && p.Price >= minPrice && p.Brand == brand)
    .OrderByDescending(p => p.Price)
    .Take(10);

Console.WriteLine(query.ToEsqlString());
// FROM products | WHERE (in_stock == true AND price_usd >= 100) | SORT price_usd DESC | LIMIT 10

Console.WriteLine(query.ToEsqlString(inlineParameters: false));
// FROM products | WHERE (in_stock == true AND price_usd >= ?minPrice AND brand == ?brand) | SORT price_usd DESC | LIMIT 10

var parameters = query.GetParameters();
// { "minPrice": 100.0, "brand": "TechCorp" }

¿Cómo funciona esto? Un repaso rápido de LINQ

El mecanismo que hace posibles los proveedores LINQ es la distinción entre IEnumerable y IQueryable.

Cuando llamas a .Where(p => p.Price > 100) en un IEnumerable, la lambda se compila en un Func, un delegado común que el runtime ejecuta en proceso. Esto es LINQ a objetos.

Cuando llamas al mismo método en un IQueryable, el compilador de C# encapsula la expresión lambda en un Expression> en su lugar. Esta es una estructura de datos que representa la estructura del código en lugar de su forma ejecutable. El árbol de expresión puede inspeccionarse, analizarse y traducirse a otro idioma en tiempo de ejecución.

// IEnumerable: the lambda is a compiled delegate
IEnumerable local = products.Where(p => p.Price > 100);

// IQueryable: the lambda is an expression tree, a data structure
IQueryable remote = queryable.Where(p => p.Price > 100);

La interfaz IQueryProvider es el punto de extensión. Cualquier proveedor puede implementar CreateQuery y Execute para traducir estos árboles de expresiones a un idioma destino. Entity Framework usa esto para emitir SQL. El proveedor de LINQ a ES|QL lo usa para emitir ES|QL.

El árbol de expresión para la búsqueda anterior se ve así:

Árbol de expresiones para la búsqueda de ejemplo.

El árbol está anidado al revés: Take envuelve OrderByDescending, que envuelve Where, que envuelve From, que envuelve la constante raíz EsqlQueryable. El predicado Where es en sí mismo un subárbol de BinaryExpression nodos para los operadores &&, >= y ==, con MemberExpression hojas para accesos a propiedades y capturas de cierre para las variables minPrice y brand. Esta es la estructura de datos que el proveedor recorre para producir el ES|QL final.

En detalle: el pipeline de traducción

La ruta de una expresión LINQ a los resultados de la búsqueda sigue un pipeline de seis etapas:

Visión general del pipeline de traducción.

1. Captura del árbol de expresiones

Cuando se encadenan .Where(), .OrderBy(), .Take() y otros operadores en un IQueryable, la infraestructura LINQ estándar crea un árbol de expresiones. EsqlQueryable implementa IQueryable y delega a EsqlQueryProvider.

2. Traducción

Cuando se ejecuta la búsqueda (al enumerar, llamar a ToList() o usar await foreach), EsqlExpressionVisitor recorre el árbol de expresiones de adentro hacia afuera. Envía cada llamada al método LINQ a un visitante especializado:

Visitante	Traduce	En
whereClauseVisitor	.Where(predicado)	Condición WHERE
SelectProjectionVisitor	.Select(selector)	EVAL + KEEP + RENAME
GroupByVisitor	.GroupBy().Select()	STATS ... BY
OrderByVisitor	.OrderBy() / .ThenBy()	Campo SORT [ASC\\|DESC]
EsqlFunctionTranslator	EsqlFunctions., Math., métodos de texto	Más de 80 funciones ES\|QL

Durante la traducción, las variables de C# a las que se hace referencia en las expresiones se capturan como parámetros con nombre.

3. Modelo de búsqueda

Los visitantes no producen textos directamente. En cambio, producen objetos QueryCommand, una representación intermedia inmutable. Un FromCommand, un WhereCommand, un SortCommand y un LimitCommand, cada uno representa un comando de procesamiento de ES|QL. Estos se recopilan en un modelo EsqlQuery.

Modelo de búsqueda y patrón de comandos.

Este modelo intermedio está desacoplado tanto del árbol de expresiones como del formato de salida. Se puede inspeccionar, interceptar (vía IEsqlQueryInterceptor) o modificar antes de dar formato.

4. Formato

EsqlFormatter visita cada QueryCommand en orden y produce el texto final de ES|QL. Cada comando se convierte en una línea, separada por el operador de barra vertical (|) que ES|QL usa para encadenar comandos de procesamiento. Los identificadores que contienen caracteres especiales se escapan automáticamente con comillas invertidas.

5. Ejecución

El texto ES|QL formateado y los parámetros capturados se envían al endpoint /_query de Elasticsearch como carga útil JSON. La interfaz IEsqlQueryExecutor abstrae la capa de transporte, que es donde entra en juego la arquitectura de paquetes en capas.

6. Materialización

EsqlResponseReader transmite la respuesta JSON sin almacenar en memoria todo el conjunto de resultados. Un árbol ColumnLayout, precomputado una vez por búsqueda, mapea nombres de columnas planas de ES|QL (como address.street, address.city) a propiedades anidadas de POCO. Cada fila se ensambla en una instancia T y se genera una a la vez a través de IEnumerable o IAsyncEnumerable.

La arquitectura en capas

La funcionalidad de LINQ a ES|QL se divide en tres paquetes:

Arquitectura de paquetes.
Elastic.Esql es el motor puro de traducción. No tiene dependencias HTTP y contiene los visitantes de expresiones, el modelo de búsqueda, el formateador y el lector de respuestas. Puedes usarlo de forma independiente para crear e inspeccionar búsquedas de ES|QL sin una conexión de Elasticsearch, lo que es útil para pruebas, logging de búsquedas o para crear tu propia capa de ejecución.

// Translation-only: no Elasticsearch connection needed
var provider = new EsqlQueryProvider();
var query = new EsqlQueryable(provider)
    .From("products")
    .Where(p => p.InStock)
    .OrderByDescending(p => p.Price);

Console.WriteLine(query.ToEsqlString());
// FROM products | WHERE in_stock == true | SORT price_usd DESC

Elastic.Clients.Esql es un cliente ES|QL ligero e independiente. Añade ejecución HTTP sobre Elastic.Esql a través de Elastic.Transport. Si tu aplicación solo necesita ES|QL y ninguna de las otras API de Elasticsearch, esta es la opción de dependencia mínima.

Elastic.Clients.Elasticsearch es el cliente completo de Elasticsearch .NET. También se basa en Elastic.Esql y expone al proveedor LINQ a través del espacio de nombres client.Esql. Este es el punto de entrada recomendado para la mayoría de las aplicaciones.

Ambos paquetes de capa de ejecución proporcionan su propia implementación de IEsqlQueryExecutor, la interfaz estratégica que une la traducción y el transporte.

Los tres paquetes son compatibles con Native AOT cuando se usan con un JsonSerializerContext generado por el código fuente. Para el cliente completo, consulta la documentación de Native AOT.

Mas allá de los conceptos básicos

El ejemplo anterior cubrió el filtrado, la clasificación y la paginación. El proveedor admite un conjunto más amplio de operaciones.

Agregaciones

GroupBy, combinado con funciones agregadas en Select, se traduce a ES|QL STATS ... BY:

var stats = client.Esql.Query(q => q
    .GroupBy(p => p.Brand)
    .Select(g => new
    {
        Brand = g.Key,
        Count = g.Count(),
        AvgPrice = g.Average(p => p.Price),
        MaxPrice = g.Max(p => p.Price)
    }));

// -> FROM products | STATS COUNT(*), AVG(price_usd), MAX(price_usd) BY brand

Proyecciones

Select, con tipos anónimos genera comandos EVAL, KEEP, y RENAME:

var query = client.Esql.CreateQuery()
    .Select(p => new { ProductName = p.Name, p.Price, p.InStock });

// -> FROM products | KEEP name, price_usd, in_stock | RENAME name AS ProductName

Biblioteca de funciones enriquecida

Hay más de 80 funciones ES|QL disponibles a través de la clase EsqlFunctions, que abarcan fecha/hora, texto, matemáticas, IP, coincidencia de patrones y puntuación. También se traducen los métodos estándar Math.* y string.*:

.Where(p => p.Name.Contains("Pro"))       // -> WHERE name LIKE "*Pro*"
.Where(p => EsqlFunctions.CidrMatch(      // -> WHERE CIDR_MATCH(ip, "10.0.0.0/8")
    p.IpAddress, "10.0.0.0/8"))

LOOKUP JOIN

Las consultas cruzadas de índices se traducen a ES|QL LOOKUP JOIN:

var enriched = client.Esql.Query(q => q
    .LookupJoin(
        "category-lookup-index",
        product => product.Id,
        category => category.CategoryId,
        (product, category) => new { product.Name, category!.CategoryLabel }));

Acceso directo a ES|QL sin procesar

Para las características de ES|QL que aún no están cubiertas por el proveedor de LINQ, puedes anexar fragmentos sin procesar:

var results = client.Esql.Query(q => q
    .Where(p => p.InStock)
    .RawEsql("| EVAL discounted = price_usd * 0.9"));

Búsquedas asíncronas del lado del servidor

Para búsquedas de ejecución prolongada, envíalas para procesamiento en segundo plano en el servidor:

await using var asyncQuery = await client.Esql.SubmitAsyncQueryAsync(
    q => q.Where(p => p.InStock),
    asyncQueryOptions: new EsqlAsyncQueryOptions
    {
        WaitForCompletionTimeout = TimeSpan.FromSeconds(5),
        KeepAlive = TimeSpan.FromMinutes(10)
    });

await asyncQuery.WaitForCompletionAsync();
await foreach (var product in asyncQuery.AsAsyncEnumerable())
    Console.WriteLine(product.Name);

Las búsquedas asíncronas del lado del servidor son especialmente útiles para búsquedas analíticas de larga duración/procesamiento de grandes sets de datos que pueden superar los umbrales típicos de tiempo de espera, o en entornos sensibles al tiempo de espera con balanceadores de carga, gateways API o proxies que imponen tiempos de espera HTTP estrictos. Las búsquedas asíncronas evitan las caídas de conexión al separar el envío de la solicitud de la recuperación de los resultados.

Primeros pasos

LINQ a ES|QL está disponible a partir de:

Elastic.Clients.Elasticsearch v9.3.4 (rama 9.x)
Elastic.Clients.Elasticsearch v8.19.18 (rama 8.x)

Instalar desde NuGet:

dotnet add package Elastic.Clients.Elasticsearch

Los puntos de entrada están en client.Esql:

Método	Devuelve	Caso de uso
Query(...)	IEnumerable	Ejecución sincrónica
QueryAsync(...)	IAsyncEnumerable	Transmisión asíncrona
CreateQuery()	IEsqlQueryable	Composición e inspección avanzadas
SubmitAsyncQueryAsync(...)	EsqlAsyncQuery	Búsquedas de larga ejecución del lado del servidor

Para consultar la referencia completa de características, incluidas las opciones de búsqueda, el acceso a múltiples campos, los objetos anidados y el manejo de campos de valores múltiples, consulta la documentación de LINQ a ES|QL.

Conclusión

LINQ a ES|QL aporta toda la expresividad de LINQ de C# al lenguaje de búsqueda ES|QL de Elasticsearch, lo que te permite realizar búsquedas con tipado fuerte y combinables sin crear manualmente cadenas de texto. Con captura automática de parámetros, materialización de streaming y una arquitectura de paquetes en capas que escala desde el paquete de traducción autónomo hasta el cliente completo de Elasticsearch, se adapta naturalmente a aplicaciones .NET de cualquier tamaño. Instala el cliente más reciente, dirige tus expresiones LINQ a un índice y deja que el proveedor se encargue del resto.

Cómo crear un servidor MCP de Elasticsearch con TypeScript

Jeffrey Rengifo — Fri, 27 Mar 2026 00:00:00 GMT

Cuando se trabaja con grandes bases de conocimiento en Elasticsearch, encontrar información es solo la mitad de la batalla. Los ingenieros suelen necesitar sintetizar resultados de varios documentos, generar resúmenes y rastrear las respuestas hasta sus fuentes. El protocolo de contexto de modelo (MCP) proporciona una manera estandarizada de conectar Elasticsearch con aplicaciones basadas en modelos de lenguaje grande (LLM) para lograr esto. Mientras que Elastic ofrece soluciones oficiales, como Elastic Agent Builder (que incluye un endpoint MCP entre sus características), construir un servidor MCP personalizado te brinda control total sobre la lógica de búsqueda, el formato de resultados y cómo se pasa el contenido recuperado a un LLM para síntesis, resúmenes y citas.

En este artículo, exploraremos las ventajas de construir un servidor MCP personalizado de Elasticsearch y mostraremos cómo crear uno en TypeScript que conecte Elasticsearch con aplicaciones impulsadas por LLM.

¿Por qué construir un servidor MCP personalizado de Elasticsearch?

Elastic ofrece algunas alternativas para los servidores MCP:

Si necesitas más control sobre cómo tu servidor MCP interactúa con Elasticsearch, construir tu propio servidor personalizado te da la flexibilidad de adaptarlo exactamente a tus necesidades. Por ejemplo, el endpoint MCP de Agent Builder está limitado a las consultas de lenguaje de búsqueda (ES|QL) de Elasticsearch, mientras que un servidor personalizado te permite usar el DSL de consulta completo. También obtienes control sobre cómo se formatean los resultados antes de pasarlos al LLM y puedes integrar pasos de procesamiento adicionales, como el resumen impulsado por OpenAI que implementaremos en este tutorial.

Al final de este artículo, tendrás un servidor MCP en TypeScript que busca información almacenada en un índice de Elasticsearch, la resume y proporciona citas. Usaremos Elasticsearch para la recuperación, el modelo gpt-4o-mini de OpenAI para resumir y generar citas, y Claude Desktop como cliente MCP y UI para recibir las búsquedas de los usuarios y dar respuestas. El resultado final es un asistente de conocimiento interno que ayuda a los ingenieros a descubrir y sintetizar las mejores prácticas en los documentos técnicos de su organización.

Requisitos previos:

Node.js 20 +
Elasticsearch
Clave de API de OpenAI
Claude Desktop

¿Qué es MCP?

MCP es un estándar abierto, creado por Anthropic, que ofrece conexiones seguras y bidireccionales entre los modelos de lenguaje grande (LLM) y sistemas externos, como Elasticsearch. Puedes leer más sobre el estado actual del MCP en este artículo.

El panorama de MCP evoluciona cada día, con servidores disponibles para una amplia gama de casos de uso. Además de eso, desarrollar tu propio servidor MCP personalizado es fácil, como te mostraremos en este artículo.

Clientes del MCP

Hay una larga lista de clientes del MCP disponibles, cada uno con sus propias características y limitaciones. Por su sencillez y popularidad, usaremos Claude Desktop como nuestro cliente MCP. Servirá como interfaz de chat en la que los usuarios podrán hacer preguntas en lenguaje natural e invocar automáticamente las herramientas expuestas por nuestro servidor MCP para buscar documentos y generar resúmenes.

Cómo crear un servidor MCP de Elasticsearch

Con el SDK de TypeScript, podemos crear fácilmente un servidor que entiende cómo hacer búsquedas en nuestros datos de Elasticsearch con base en la entrada de búsqueda del usuario.

Estos son los pasos en este artículo para integrar el servidor MCP de Elasticsearch con el cliente Claude Desktop:

Configurar el servidor MCP para Elasticsearch

Para comenzar, inicialicemos una aplicación de nodo:

npm init -y

Esto creará un archivo package.json y, con él, podremos empezar a instalar las dependencias necesarias para esta aplicación.

npm install @elastic/elasticsearch @modelcontextprotocol/sdk openai zod && npm install --save-dev ts-node @types/node typescript

@elastic/elasticsearch nos dará acceso a la biblioteca de Elasticsearch para Node.js.
@modelcontextprotocol/sdk proporciona las herramientas básicas para crear y administrar un servidor MCP, registrar herramientas y manejar la comunicación con los clientes de MCP.
openAI permite la interacción con modelos OpenAI para generar resúmenes o respuestas en lenguaje natural.
zod ayuda a definir y validar esquemas estructurados para los datos de entrada y salida en cada herramienta.

ts-node, @types/node y typescript se usarán durante el desarrollo para escribir el código y compilar los scripts.

Configura los sets de datos

Para proporcionar los datos que Claude Desktop puede consultar con nuestro servidor de MCP, utilizaremos un conjunto de datos de base de conocimiento interna simulado. Así es como se verá un documento de este sets de datos:

{
    "id": 5,
    "title": "Logging Standards for Microservices",
    "content": "Consistent logging across microservices helps with debugging and tracing. Use structured JSON logs and include request IDs and timestamps. Avoid logging sensitive information. Centralize logs in Elasticsearch or a similar system. Configure log rotation to prevent storage issues and ensure logs are searchable for at least 30 days.",
    "tags": ["logging", "microservices", "standards"]
}

Para cargar los datos, preparamos un script que cree un índice en Elasticsearch y cargue el set de datos en él. Puedes encontrarlo aquí.

Servidor MCP

Crea un archivo llamado index.ts y agrega el siguiente código para importar las dependencias y gestionar las variables de entorno:

// index.ts
import { z } from "zod";
import { Client } from "@elastic/elasticsearch";
import { McpServer } from "@modelcontextprotocol/sdk/server/mcp.js";
import { StdioServerTransport } from "@modelcontextprotocol/sdk/server/stdio.js";
import OpenAI from "openai";

const ELASTICSEARCH_ENDPOINT =
  process.env.ELASTICSEARCH_ENDPOINT ?? "http://localhost:9200";
const ELASTICSEARCH_API_KEY = process.env.ELASTICSEARCH_API_KEY ?? "";
const OPENAI_API_KEY = process.env.OPENAI_API_KEY ?? "";
const INDEX = "documents";

Además, preparemos a los clientes para que gestionen las llamadas a Elasticsearch y OpenAI:

const openai = new OpenAI({
  apiKey: OPENAI_API_KEY,
});

const _client = new Client({
  node: ELASTICSEARCH_ENDPOINT,
  auth: {
    apiKey: ELASTICSEARCH_API_KEY,
  },
});

Para hacer nuestra implementación más robusta y asegurar entradas y salidas estructuradas, definiremos esquemas usando zod. Esto nos permite validar los datos en tiempo de ejecución, detectar errores a tiempo y facilitar el procesamiento de las respuestas de la herramienta mediante código:

const DocumentSchema = z.object({
  id: z.number(),
  title: z.string(),
  content: z.string(),
  tags: z.array(z.string()),
});

const SearchResultSchema = z.object({
  id: z.number(),
  title: z.string(),
  content: z.string(),
  tags: z.array(z.string()),
  score: z.number(),
});

type Document = z.infer;
type SearchResult = z.infer;

Descubre más sobre las salidas estructuradas aquí.

Ahora vamos a inicializar el servidor MCP:

const server = new McpServer({
  name: "Elasticsearch RAG MCP",
  description:
    "A RAG server using Elasticsearch. Provides tools for document search, result summarization, and source citation.",
  version: "1.0.0",
});

Definición de las herramientas MCP

Ahora que ya tenemos todo configurado, podemos empezar a desarrollar las herramientas que ofrecerá nuestro servidor MCP. Este servidor ofrece dos herramientas:

search_docs: Búsquedas de documentos en Elasticsearch mediante la búsqueda de texto.
summarize_and_cite: Resume y sintetiza información de documentos previamente recuperados para responder a una pregunta del usuario. Esta herramienta también agrega citas que hacen referencia a los documentos originales.

Juntas, estas herramientas forman un flujo de trabajo simple de “recuperación y resumen”, donde una herramienta busca documentos relevantes y la otra usa esos documentos para generar una respuesta resumida y citada.

Formato de respuesta de herramienta

Cada herramienta puede aceptar parámetros de entrada arbitrarios, pero debe responder con la siguiente estructura:

Contenido: esta es la respuesta de la herramienta en un formato no estructurado. Este campo se suele usar para mostrar texto, imágenes, audio, enlaces o contenido incrustado. Para esta aplicación, se utilizará para devolver texto formateado con la información generada por las herramientas.
structuredContent: este es un retorno opcional que se usa para proporcionar los resultados de cada herramienta en un formato estructurado. Esto es útil para fines programáticos. Aunque no se usa en este servidor de MCP, puede ser útil si quieres desarrollar otras herramientas o procesar los resultados mediante programación.

Con esa estructura en mente, comencemos con cada herramienta en detalle.

Herramienta Search_docs

Esta herramienta realiza una búsqueda de texto completo en el índice de Elasticsearch para recuperar los documentos más relevantes según la consulta del usuario. Destaca los resultados clave y ofrece una visión general rápida con puntuaciones de relevancia.

server.registerTool(
  "search_docs",
  {
    title: "Search Documents",
    description:
      "Search for documents in Elasticsearch using full-text search. Returns the most relevant documents with their content, title, tags, and relevance score.",
    inputSchema: {
      query: z
        .string()
        .describe("The search query terms to find relevant documents"),
      max_results: z
        .number()
        .optional()
        .default(5)
        .describe("Maximum number of results to return"),
    },
    outputSchema: {
      results: z.array(SearchResultSchema),
      total: z.number(),
    },
  },
  async ({ query, max_results }) => {
    if (!query) {
      return {
        content: [
          {
            type: "text",
            text: "Query parameter is required",
          },
        ],
        isError: true,
      };
    }

    try {
      const response = await _client.search({
        index: INDEX,
        size: max_results,
        query: {
          bool: {
            must: [
              {
                multi_match: {
                  query: query,
                  fields: ["title^2", "content", "tags"],
                  fuzziness: "AUTO",
                },
              },
            ],
            should: [
              {
                match_phrase: {
                  title: {
                    query: query,
                    boost: 2,
                  },
                },
              },
            ],
          },
        },
        highlight: {
          fields: {
            title: {},
            content: {},
          },
        },
      });

      const results: SearchResult[] = response.hits.hits.map((hit: any) => {
        const source = hit._source as Document;

        return {
          id: source.id,
          title: source.title,
          content: source.content,
          tags: source.tags,
          score: hit._score ?? 0,
        };
      });

      const contentText = results
        .map(
          (r, i) =>
            `[${i + 1}] ${r.title} (score: ${r.score.toFixed(
              2,
            )})\n${r.content.substring(0, 200)}...`,
        )
        .join("\n\n");

      const totalHits =
        typeof response.hits.total === "number"
          ? response.hits.total
          : (response.hits.total?.value ?? 0);

      return {
        content: [
          {
            type: "text",
            text: `Found ${results.length} relevant documents:\n\n${contentText}`,
          },
        ],
        structuredContent: {
          results: results,
          total: totalHits,
        },
      };
    } catch (error: any) {
      console.log("Error during search:", error);

      return {
        content: [
          {
            type: "text",
            text: `Error searching documents: ${error.message}`,
          },
        ],
        isError: true,
      };
    }
  }
);

Configuramos fuzziness: “AUTO” para que tenga una tolerancia tipográfica variable basada en la longitud del token que se está analizando. También establecemos title^2 para aumentar la puntuación de los documentos donde se produce la coincidencia en el campo de título.

herramienta de resumen y cita: summarize_and_cite

Esta herramienta genera un resumen basado en los documentos recuperados en la búsqueda anterior. Usa el modelo gpt-4o-mini de OpenAI para sintetizar la información más relevante y responder a la pregunta del usuario para obtener respuestas derivadas directamente de los resultados de búsqueda. Además del resumen, también devuelve metadatos de citas para los documentos fuente utilizados.

server.registerTool(
  "summarize_and_cite",
  {
    title: "Summarize and Cite",
    description:
      "Summarize the provided search results to answer a question and return citation metadata for the sources used.",
    inputSchema: {
      results: z
        .array(SearchResultSchema)
        .describe("Array of search results from search_docs"),
      question: z.string().describe("The question to answer"),
      max_length: z
        .number()
        .optional()
        .default(500)
        .describe("Maximum length of the summary in characters"),
      max_docs: z
        .number()
        .optional()
        .default(5)
        .describe("Maximum number of documents to include in the context"),
    },
    outputSchema: {
      summary: z.string(),
      sources_used: z.number(),
      citations: z.array(
        z.object({
          id: z.number(),
          title: z.string(),
          tags: z.array(z.string()),
          relevance_score: z.number(),
        })
      ),
    },
  },
  async ({ results, question, max_length, max_docs }) => {
    if (!results || results.length === 0 || !question) {
      return {
        content: [
          {
            type: "text",
            text: "Both results and question parameters are required, and results must not be empty",
          },
        ],
        isError: true,
      };
    }

    try {
      const used = results.slice(0, max_docs);

      const context = used
        .map(
          (r: SearchResult, i: number) =>
            `[Document ${i + 1}: ${r.title}]\\n${r.content}`
        )
        .join("\n\n---\n\n");

      // Generate summary with OpenAI
      const completion = await openai.chat.completions.create({
        model: "gpt-4o-mini",
        messages: [
          {
            role: "system",
            content:
              "You are a helpful assistant that answers questions based on provided documents. Synthesize information from the documents to answer the user's question accurately and concisely. If the documents don't contain relevant information, say so.",
          },
          {
            role: "user",
            content: `Question: ${question}\\n\\nRelevant Documents:\\n${context}`,
          },
        ],
        max_tokens: Math.min(Math.ceil(max_length / 4), 1000),
        temperature: 0.3,
      });

      const summaryText =
        completion.choices[0]?.message?.content ?? "No summary generated.";

      const citations = used.map((r: SearchResult) => ({
        id: r.id,
        title: r.title,
        tags: r.tags,
        relevance_score: r.score,
      }));

      const citationText = citations
        .map(
          (c: any, i: number) =>
            `[${i + 1}] ID: ${c.id}, Title: "${c.title}", Tags: ${c.tags.join(
              ", ",
            )}, Score: ${c.relevance_score.toFixed(2)}`,
        )
        .join("\n");

      const combinedText = `Summary:\\n\\n${summaryText}\\n\\nSources used (${citations.length}):\\n\\n${citationText}`;

      return {
        content: [
          {
            type: "text",
            text: combinedText,
          },
        ],
        structuredContent: {
          summary: summaryText,
          sources_used: citations.length,
          citations: citations,
        },
      };
    } catch (error: any) {
      return {
        content: [
          {
            type: "text",
            text: `Error generating summary and citations: ${error.message}`,
          },
        ],
        isError: true,
      };
    }
  }
);

Finalmente, necesitamos iniciar el servidor a través de stdio. Esto significa que el cliente MCP se comunicará con nuestro servidor leyendo y escribiendo en sus flujos estándar de entrada y salida. stdio es la opción de transporte más sencilla y funciona bien para servidores MCP locales lanzados como subprocesos por el cliente. Agrega el siguiente código al final del archivo:

const transport = new StdioServerTransport();
server.connect(transport);

Ahora compila el proyecto usando el siguiente comando:

npx tsc index.ts --target ES2022 --module node16 --moduleResolution node16 --outDir ./dist --strict --esModuleInterop

Esto creará una carpeta dist y, dentro de ella, un archivo index.js.

Carga el servidor MCP en Claude Desktop

Sigue esta guía para configurar el servidor MCP con Claude Desktop. En el archivo de configuración de Claude, tienes que establecer los siguientes valores:

{
  "mcpServers": {
    "elasticsearch-rag-mcp": {
      "command": "node",
      "args": [   "/Users/user-name/app-dir/dist/index.js"
      ],
      "env": {
        "ELASTICSEARCH_ENDPOINT": "your-endpoint-here",
        "ELASTICSEARCH_API_KEY": "your-api-key-here",
        "OPENAI_API_KEY": "your-openai-key-here"
      }
    }
  }
}

El valor args debe apuntar al archivo compilado en la carpeta dist. También es necesario configurar las variables de entorno en el archivo de configuración con los mismos nombres exactos definidos en el código.

Pruébalo

Antes de ejecutar cada herramienta, haz clic en Búsqueda y herramientas para asegurarte de que las herramientas estén habilitadas. Aquí también puedes habilitar o deshabilitar cada una de ellas:

Finalmente, probemos el servidor MCP desde el chat de Claude Desktop y comencemos a hacer preguntas:

Para la consulta"Buscar documentos sobre métodos de autenticación y control de acceso basado en roles", se ejecuta la herramienta search_docs y arroja los siguientes resultados:

Most Relevant Documents:
Access Control and Role Management (highest relevance) - This document covers role-based access control (RBAC) principles, including ensuring users only have necessary permissions, regular auditing of user roles, revoking inactive accounts, and implementing just-in-time access for sensitive operations.
User Authentication with OAuth 2.0 - This document explains OAuth 2.0 authentication, which enables secure delegated access without credential sharing. It covers configuring identity providers, token management with limited scope and lifetime, and secure storage of refresh tokens.
Container Security Guidelines - While primarily about container security, this document touches on access control aspects like running containers as non-root users and avoiding embedded credentials.
Incident Response Playbook - This mentions role assignment during incidents (incident commander, communications lead, etc.), which relates to access control in emergency scenarios.
Logging Standards for Microservices - This document includes guidance on avoiding logging sensitive information, which is relevant to authentication security.

La respuesta es: “¡Genial! Encontré 5 documentos relevantes sobre métodos de autenticación y control de acceso basado en roles. Esto es lo que se encontró:”

La llamada a la herramienta devuelve los documentos de origen como parte de su carga útil de respuesta, que luego se utilizan para generar citas.

También es posible encadenar varias herramientas en una sola interacción. En este caso, Claude Desktop analiza la pregunta del usuario y determina que primero debe llamar a search_docs para recuperar documentos relevantes y luego pasar esos resultados a summarize_and_cite para generar la respuesta final, todo eso sin requerir indicaciones separadas del usuario:

En este caso, para la búsqueda: "¿Cuáles son las principales recomendaciones para mejorar la autenticación y el control de acceso en todos nuestros sistemas? Incluye referencias.", obtuvimos los siguientes resultados:

Based on the documentation, here are the main recommendations to improve authentication and access control across your systems:

Key Recommendations

1. Implement Role-Based Access Control (RBAC)
Ensure users have only the permissions necessary for their job functions. This principle of least privilege minimizes security risks by limiting access to what's truly needed. [1]

2. Regular Access Audits
Conduct regular audits of user roles and promptly revoke access for inactive accounts. This helps prevent unauthorized access from dormant or compromised accounts. [1]

3. Just-in-Time (JIT) Access
Implement just-in-time access for sensitive operations, where permissions are granted only when needed and for a limited duration. This reduces the attack surface by minimizing standing privileges. [1]

4. OAuth 2.0 for Secure Authentication
Use OAuth 2.0 to enable secure delegated access without sharing user credentials. This protocol allows third-party applications to access resources on behalf of users without exposing passwords. [2]

5. Token Security and Management
Configure your identity provider to issue tokens with limited scope and lifetime

Store refresh tokens securely
Validate access tokens consistently to maintain security [2]
References

Access Control and Role Management (Tags: security, access-control)
User Authentication with OAuth 2.0 (Tags: authentication, oauth)
These recommendations work together to create a defense-in-depth approach, where multiple security layers protect your systems from unauthorized access.

Al igual que en el paso anterior, podemos ver la respuesta de cada herramienta a esta pregunta:

Nota: si aparece un submenú que pregunta si apruebas el uso de cada herramienta, selecciona Permitir siempre o Permitir una vez.

Conclusión

Los servidores MCP representan un paso significativo hacia la estandarización de las herramientas LLM para aplicaciones tanto locales como remotas. Aunque la compatibilidad total todavía está en proceso, nos estamos moviendo rápido en esa dirección.

En este artículo, aprendimos cómo construir un servidor MCP personalizado en TypeScript que conecta Elasticsearch con aplicaciones impulsadas por modelos LLM. Nuestro servidor expone dos herramientas: search_docs para recuperar documentos relevantes con Query DSL y summarize_and_cite para generar resúmenes con citas a través de modelos de OpenAI y Claude Desktop como client UI.

El futuro de la compatibilidad entre los distintos proveedores de clientes y servidores parece prometedor. Los próximos pasos consisten en agregar más funcionalidades y flexibilidad a tu agente. Hay un artículo práctico sobre cómo puedes agregar parámetros a tus consultas a través de plantillas de búsqueda para ganar precisión y flexibilidad.

Anuncio de los permisos de solo lectura para los dashboards de Kibana

Fabio Busatto, Teresa Alvarez Soler — Thu, 26 Mar 2026 00:00:00 GMT

Te ha pasado. Pasas una hora creando el dashboard perfecto para monitorear tus logs: cada gráfico, cada filtro y cada etiqueta. Lo compartes con tu equipo. Unos días después, lo abres y algo no cuadra. Un colega modificó una búsqueda. O alguien cambió el rango de fecha. Quizá pensaron que estaban ayudando. Ahora tienes que indagar en las revisiones y dudando de cada número. ¿Te suena?

Esa es exactamente la razón por la que construimos dashboards de solo lectura. Es el control que estabas pidiendo. Comparte dashboards con confianza, sin preocuparte de que la próxima persona con acceso de edición los cambie o rompa.

Nota: los permisos de solo lectura están disponibles en Elastic Cloud Serverless y, a partir de la versión 9.3, en Elastic Cloud Hosted y Elastic Cloud Self-Managed.

Cuando "todos pueden editar" se interpone en el camino

En Kibana, compartir generalmente ha significado permisos a nivel de espacio. Si alguien puede crear dashboards en un espacio, también puede editar o eliminar los de cualquier otro. Eso es excelente para la colaboración hasta que deja de serlo. Un solo error accidental puede propagarse en decisiones equivocadas, pérdida de confianza y mucho trabajo de limpieza.

Hemos escuchado las soluciones alternativas: "Ponemos 'solo lectura' en el nombre del dashboard y esperamos que la gente lo note". O: "Los etiquetamos y cruzamos los dedos". Hope no es un modelo de permiso. Necesitabas una manera real de bloquear un dashboard sin bloquear a todos y dejarlos fuera del espacio.

¿Qué sale mal realmente?

Tanto Deb como Kevin tienen acceso de edición al dashboard de monitoreo de logs dentro del espacio de Operaciones. Kevin realiza algunos cambios en los gráficos. Cuando Deb vuelve, los números no coinciden con lo que ella presentó. Tiene que rastrear qué cambió (a menudo de memoria), corregirlo y preguntarse cuántos reportes se enviaron con datos incorrectos.

Dashboards de solo lectura: propiedad y control que tienen sentido

Los dashboards de solo lectura resuelven esto dándote el control para decidir si otros usuarios pueden editar el dashboard. Al compartir un dashboard, eliges: edit (editar, predeterminado, igual que hoy) o view (ver). En el modo view (ver), solo tú (y los administradores de Kibana) pueden cambiarlo o eliminarlo. Todos los demás pueden abrirlo, usarlo y confiar en él, pero no pueden modificarlo.

Lo que obtienes

Dashboard integrity: En el modo de visualización, los demás usuarios con acceso de edición en el espacio no pueden modificar ni eliminar el dashboard. Si lo intentan, se les indica que está bloqueado. Tus gráficos y lógica se mantienen tal como los dejaste.
Mantienes el control: Tú eres el propietario. Siempre puedes editar, refinar y actualizar. Compartir en modo de solo lectura no te impide el acceso; restringe la versión que ven los demás.
Ciclo de vida flexible: puedes volver a cambiar un dashboard a "puedes editar" en cualquier momento. Y los administradores de Kibana aún pueden gestionar todos los dashboards (por ejemplo, si el propietario se va). No hay callejón sin salida.

Puedes compartir ampliamente los dashboards finales críticos para la misión y saber que se mantendrán coherentes. Esto está disponible en todos los niveles y ofertas de Elastic, incluido Serverless.

¿Quién puede hacer qué?

Guía rápida por rol:

Dashboard owner: Propietario del Dashboard. Tú lo creaste; tienes acceso completo de edición.
Kibana admin: Administrador de Kibana. Puede administrar todos los dashboards.
User with space edit: Usuario con edición de espacio. Puede crear y editar sus dashboards; no puede editar o eliminar dashboards de solo visualización.
User with space view: Usuario con vista de espacio. Solo puede ver (y enumerar) dashboards.

Acción	Propietario del dashboard	Admin de Kibana	Usuario con edición de espacio	Usuario con vista de espacio
Ver y enumerar dashboards	✔	✔	✔	✔
Crear nuevos dashboards	✔	✔	✔	✘
Modificar/eliminar dashboards editables	✔	✔	✔	✘
Modificar/eliminar dashboards de solo lectura	✔	✔	✘	✘

Cómo activar el modo de solo lectura

Puedes configurar solo lectura cuando guardas un dashboard nuevo o más tarde desde el menú para compartir.

Al guardar un nuevo dashboard

Construye tu dashboard y haz clic en Guardar.
En el modal “Guardar como nuevo dashboard”, busca Permisos.
Cambia de Can edit (Puede editar) a Can view (Puede ver).
Haz clic en Save (Guardar). Listo. Es de solo lectura para todos los demás.

Para un dashboard que ya posees

Abre el dashboard.
Abre el menú Compartir dashboard.

En el modal de compartir, ve a Permissions (Permisos) y cambia a Can view (Puede ver). El cambio entra en vigor de inmediato; los demás usuarios del espacio ya no podrán editarlo ni borrarlo.

Puedes pasar el ratón sobre la acción Compartir para ver qué tipo de permisos tiene un dashboard determinado.

Ver qué dashboards están bloqueados

En la lista principal de dashboards, los dashboards que no puedes editar ni eliminar tienen una casilla de verificación de selección deshabilitada. Esto proporciona una forma sencilla de detectar lo que es solo de visualización.

En el dashboard, también encontrarás que la acción Editar está deshabilitada y aparecerá un mensaje emergente que explica que el dashboard se configuró como solo lectura.

Pruébalo

Los dashboards de solo lectura están disponibles ahora. Crea un dashboard, cambia a Can view (Puede ver) y compártelo. Tu equipo obtiene una única fuente de verdad, y tú obtienes tranquilidad. No más "por favor, no editar" en el título.

Nos encantaría saber cómo usas los dashboards de solo lectura. Comparte tus comentarios en nuestro foro de la comunidad.

La herramienta de shell no es una solución mágica para la ingeniería de contexto

Leonie Monigatti — Wed, 25 Mar 2026 00:00:00 GMT

Las herramientas más importantes con las que cuenta un agente son las herramientas de búsqueda que puede usar para construir su propio contexto. Publicaciones recientes de LlamaIndex y LangChain han desatado una discusión: ¿Son una herramienta shell y un sistema de archivos todo lo que un agente necesita para la ingeniería de contexto? Desafortunadamente, la discusión se desvió rápidamente hacia el enfoque equivocado: filesystem versus base de datos.

Esta publicación vuelve a centrarse en la pregunta:¿Cuáles son las interfaces de búsqueda adecuadas que necesita un agente para construir su propio contexto? Primero, cubre las disyuntivas entre las herramientas de shell y las herramientas de base de datos especiales. A partir de ahí, te ofrece un marco de trabajo práctico para encontrar las interfaces adecuadas a las necesidades de tu agente.

¿Qué significa realmente "construir contexto" para un agente?

En las primeras pipelines de retrieval augmented generation (RAG), el desarrollador diseñó un pipeline de recuperación fija y el modelo de lenguaje grande (LLM) era un receptor pasivo del contexto. Esta era una limitación fundamental: el contexto se recuperaba en cada consulta, fuera o no necesario, sin verificar que realmente ayudara.

Con el cambio a la RAG agéntica, los agentes ahora tienen acceso a un conjunto de herramientas de búsqueda para crear su propio contexto. Por ejemplo, tanto Claude Code [1] como Cursor [2] permiten que el agente elija entre diferentes herramientas de búsqueda e incluso las combine para consultas encadenadas, dependiendo de lo que la tarea realmente requiera.

¿Qué interfaces de búsqueda existen para la ingeniería del contexto?

El contexto puede estar en diferentes lugares, como en la web, en un sistema de archivos local o en una base de datos. Un agente puede interactuar con cada una de estas fuentes de datos fuera de contexto mediante diferentes herramientas:

Las herramientas de shell pueden ejecutar comandos de shell y tener acceso al sistema de archivos local. Algunos ejemplos de herramientas de shell integradas son la herramienta bash de Claude API, la herramienta ejecutiva de OpenClaw y la herramienta de shell de LangChain.
Las herramientas de base de datos especiales, como las herramientas de un servidor Model Context Protocol (MCP) (p. ej., el servidor MCP de Elastic Agent Builder) o las herramientas personalizadas (p. ej., run_esql(query) o db_list_index()), pueden consultar bases de datos.
Las herramientas especiales de búsqueda de archivos pueden buscar y leer archivos locales (o subidos) (sin acceso completo al shell). Algunos ejemplos de herramientas de búsqueda de archivos integradas son Herramienta de búsqueda de archivos de Gemini API o Herramienta de búsqueda de archivos de OpenAI.
Las herramientas de búsqueda web pueden recuperar información de la web.
Las herramientas de memoria almacenan y recuperan de la memoria a largo plazo (independientemente de cómo se almacene).

Como puedes ver, la herramienta shell es versátil y se puede usar para recuperar contexto de diferentes fuentes de datos, incluyendo:

Sistema de archivos: el agente explora la estructura de directorios (ls, find), busca contenido relevante (grep, cat) y repite hasta que ha construido suficiente contexto.
Base de datos: el agente puede usar herramientas de interfaz de línea de comandos (CLI) para bases de datos (por ejemplo, elasticsearch-sql-cli), llamar al HTTP de la API mediante curl o ejecutar scripts, lo cual resulta especialmente útil en combinación con las habilidades del agente, que son ejemplos reutilizables y documentados que se incorporan al contexto del agente para guiar el uso correcto de las herramientas (por ejemplo, Elastic Agent Skills para Elasticsearch).
Web: el agente puede ejecutar búsquedas web mediante un comando curl a través de la API de un proveedor de búsqueda.

Sin embargo, la herramienta de shell proporciona acceso directo al sistema y, por lo tanto, requiere medidas de seguridad, como ejecutarse en un entorno sandbox aislado y el logging de todos los comandos ejecutados.

Cuándo deberías usar ciertas interfaces de búsqueda

La interfaz de búsqueda adecuada depende de tus datos, tus patrones de consulta y tu caso de uso. Esta sección sirve como un punto de partida práctico.

Los sistemas de archivos no hacen que las bases de datos sean obsoletas.

La discusión entre sistemas de archivos y bases de datos no es sobre la capa de almacenamiento. Por ejemplo, LangChain explica que su sistema de memoria en realidad no almacena la memoria en un verdadero sistema de archivos. En su lugar, almacena la memoria en una base de datos y la representa como un conjunto de archivos para el agente [3].

Los sistemas de archivos son una opción natural para casos de uso nativos de archivos, como los agentes de codificación. También funcionan bien como bloc de notas temporal o memoria de trabajo, y en situaciones con un solo usuario o un solo agente en las que la concurrencia no es un problema. En estos casos, un sistema de archivos físico o representar los datos como un sistema de archivos te da flexibilidad antes de comprometerte con una interfaz diseñada específicamente para ello.

Pero el almacenamiento en sistemas de archivos tiene desventajas reales, como una concurrencia limitada, la aplicación manual de esquemas y las transacciones atómicas. Estos se vuelven más evidentes cuando tu aplicación necesita escalar o pasar a un escenario de múltiples agentes. Cualquiera que ignore estas desventajas está condenado a reinventar dolorosamente bases de datos peores sin las décadas de ingeniería detrás de la seguridad de transacciones o el control de acceso que las bases de datos de producción ya proporcionan. Además, en la mayoría de contextos empresariales, no eliges si usar una base de datos porque ya está ahí, almacenando datos críticos para el negocio.

Herramienta de shell + sistema de archivos

Una herramienta shell es el punto de partida natural para la búsqueda en sistemas de archivos. En la actualidad, los agentes de codificación están impulsando muchos avances en este campo. Como trabajan con código en archivos locales, son, por naturaleza, casos de uso que implican un gran volumen de archivos. Por lo tanto, los LLM se ajustan en la etapa posterior al entrenamiento para tareas de codificación. Es por eso que muchos LLMs no solo son buenos para escribir código, sino también para usar comandos de shell y navegar por sistemas de archivos.

Usar una herramienta de shell con CLI integradas, como ls y grep, para encontrar archivos es efectivo. Con grep, una consulta como "Encontrar todos los archivos que importan matplotlib" es rápida, precisa y económica. Pero cuando el agente necesita manejar consultas conceptuales, como "¿Cómo maneja nuestra app la falla de autenticación?", la coincidencia de patrones con grep puede alcanzar un límite rápidamente. Han surgido varias alternativas que incorporan capacidades de búsqueda semántica a la línea de comandos para cubrir esta carencia, incluidas jina-grep.

Sin embargo, grep y muchas de sus alternativas de búsqueda semántica se ejecutan en O(n) sobre el corpus. Para casos de uso sobre bases de código, esto podría estar bien. Sin embargo, si tus datos crecen, la latencia se notará. En este caso, un almacén de datos indexado se vuelve necesario para mantener el rendimiento.

Herramienta de shell + base de datos

Otra forma de agregar más capacidades de búsqueda, como la búsqueda semántica o híbrida, a tus datos es almacenarlos en una base de datos, como hace Cursor, por ejemplo. Además, cuando los datos requieren uniones relacionales o agregaciones complejas, una interfaz de base de datos es imprescindible.

Cuando los datos se almacenan en una base de datos en lugar de en el sistema de archivos, una herramienta de shell puede servir como una interfaz ligera de base de datos para ciertos casos de uso. Si tus consultas son lo suficientemente simples para una CLI o una llamada curl, una herramienta de base de datos especial podría añadir una complejidad innecesaria.

Este enfoque también es adecuado en las etapas iniciales de exploración, cuando aún no sabes qué patrones de consulta desarrollará tu agente. En este caso, Agent Skills puede darle al agente suficiente estructura para consultar correctamente sin comprometerse con una herramienta específica. Sin embargo, cuando el agente requiere muchas iteraciones para encontrar la forma correcta de consultar en la base de datos para tareas repetidas, la sobrecarga de tokens de usar una herramienta de línea de comandos como interfaz ya no justifica el beneficio de la simplicidad de evitar una herramienta adicional.

Herramienta especial de base de datos

Especialmente cuando los patrones de consulta repetidos son estructurados o analíticos, se hacen necesarias herramientas de base de datos especiales. Una publicación de blog de Vercel y Braintrust comparó a los agentes con diferentes conjuntos de herramientas de búsqueda para tareas de recuperación del mundo real en lugar de datos estructurados, como tickets de atención al cliente y transcripciones de llamadas de ventas (por ejemplo, “¿Cuántos problemas abiertos mencionan 'seguridad'?" o "¿Encontraste problemas en los que alguien reportó un error y luego alguien envió un PR diciendo que lo había arreglado?") [4].

Los agentes con herramientas de base de datos especiales utilizaron menos tokens, fueron más rápidos y cometieron menos errores que los agentes con solo una herramienta de shell y un sistema de archivos. La conclusión es que las herramientas de bases de datos directas son la opción correcta cuando la consulta requiere razonamiento analítico sobre datos semiestructurados.

Combinar interfaces de búsqueda

Ninguna interfaz de búsqueda gestiona bien todas las consultas. Por ejemplo, Cursor combina herramientas de shell (para búsquedas con grep) y herramientas de búsqueda semántica, y permite que el agente seleccione la herramienta correcta según el mensaje del usuario. Informa que el agente elige grep para hacer coincidir símbolos o textos específicos, búsqueda semántica para preguntas conceptuales o de comportamiento, y ambos para tareas exploratorias.

El experimento de Vercel presenta el mismo reporte: su agente híbrido con acceso tanto a una herramienta de shell como a una herramienta dedicada para bases de datos logró el mejor rendimiento de todos los agentes probados al usar primero las herramientas dedicadas para bases de datos y luego verificar los resultados mediante búsquedas con grep en el sistema de archivos. Sin embargo, este enfoque utiliza más tokens y tiempo para razonar sobre la elección de herramientas y la verificación.

El patrón en ambos ejemplos es el mismo: La combinación es superior a cualquier interfaz individual, pero conlleva un costo y una latencia adicionales.

Recomendaciones prácticas para encontrar el conjunto adecuado de herramientas

El conjunto adecuado de interfaces de búsqueda es pequeño, intencionado y específico para los patrones de consulta reales de tu agente. Las mejores prácticas actuales son tener un agente con la menor cantidad de herramientas posible en lugar de tener un agente con cientos de herramientas MCP. Esto se debe a que la desventaja de exponer todas las herramientas posibles de antemano es que infla la ventana de contexto y confunde al agente sobre qué herramienta usar realmente. Por ejemplo, se dice que Claude Code solo tiene unas 20 herramientas.

En cambio, la idea de la divulgación progresiva es comenzar con un conjunto mínimo de herramientas y dejar que el agente descubra capacidades adicionales solo cuando sea necesario. Investigaciones de Anthropic [5] y Cursor [6] demostraron que este enfoque genera un ahorro de tokens entre el 47%–85%. Claude Code, por ejemplo, implementa esto directamente, lo que permite al agente descubrir de forma incremental cómo consultar una API o una base de datos, sin que ese conocimiento consuma contexto en cada llamada al LLM.

Una vez que te familiarices con los patrones de búsqueda del agente, puedes volver a revisar el conjunto de herramientas de búsqueda a las que el agente tiene acceso de forma predeterminada. Una forma útil de pensar en este compromiso es el "principio de piso bajo, techo alto" para decidir qué herramientas son las adecuadas. Las herramientas de alto nivel no limitan el potencial del agente. Por ejemplo, una herramienta de shell versátil permite al agente escribir consultas de base de datos completas, incluidas las ambiguas, pero a costa de una mayor sobrecarga de razonamiento, latencia más alta y menor confiabilidad.

Las herramientas de bajo umbral son todo lo contrario. Son herramientas especializadas que encapsulan búsquedas específicas y son inmediatamente accesibles para el agente con una mínima sobrecarga de razonamiento, ofreciendo menor costo y mayor confiabilidad. No obstante, requieren ingeniería previa, no pueden cubrir cada posible consulta y pueden dificultar que el agente elija la herramienta correcta.

Piensa en cada herramienta en un espectro: las herramientas de bajo nivel son fáciles de usar correctamente para el agente, pero tienen un alcance limitado. Las herramientas de alto potencial son versátiles pero requieren más razonamiento para usarlas bien.

La mayoría de los agentes necesitan una combinación de diferentes herramientas de búsqueda. Pero cada herramienta necesita aportar algo. Recomendamos comenzar con una herramienta de búsqueda multiuso (por ejemplo, una herramienta search_database() o una herramienta de shell). Luego, reutiliza los registros de comandos que ya conservas por motivos de seguridad para rastrear lo que realmente hace tu agente, incluidas las llamadas a herramientas, los reintentos y el número de llamadas por consulta de usuario. Y, cuando ves que un patrón de consulta se repite o falla, esa es la señal para construir una herramienta especialmente diseñada para ello.

Resumen

El debate entre sistema de archivos y base de datos distrae de la pregunta real que los ingenieros deben hacerse: ¿Cuáles son las interfaces de búsqueda adecuadas que un agente necesita para construir su propio contexto? La respuesta es muy probable, no una sola.

Una herramienta de shell es una herramienta versátil para interactuar con diferentes fuentes fuera de contexto y, por lo tanto, un buen punto de partida. Sin embargo, resulta menos eficiente y precisa para casos de uso con consultas analíticas estructuradas que las herramientas de bases de datos especializadas.

El objetivo es encontrar el conjunto mínimo de herramientas de búsqueda que manejen bien los patrones reales de consulta de tu agente. Empieza con una herramienta de shell y registra lo que realmente hace tu agente. Cuando veas un patrón de consulta que se repite y falla, es momento de diseñar herramientas especializadas.

Referencias

1. Thariq (Anthropic). Lessons from Building Claude Code: Seeing like an Agent (2026).

2. Cursor: Documentation. Semantic & agentic search (2026).

3. Harrison Chase (LangChain). Cómo construimos el sistema de memoria de Agent Builder (2026).

4. Ankur Goyal (Braintrust) y Andrew Qu (Vercel). Testing if "bash is all you need" (2026).

5. Anthropic. Introducing advanced tool use on the Claude Developer Platform (2025).

6. Cursor. Dynamic context discovery (2026).

Réplicas de Elasticsearch para balanceo de carga en Serverless

Andrei Dan — Tue, 24 Mar 2026 00:00:00 GMT

En Elastic Cloud Serverless, ajustamos automáticamente el número de réplicas de tus índices en función de la carga de búsqueda, lo que garantiza un rendimiento óptimo de las consultas sin necesidad de realizar una configuración manual. En este blog, te mostraremos cómo se escalan las réplicas, cuándo el sistema las agrega o elimina, y qué significa esto para tus índices.

La fiesta se está llenando de gente

Organizas una fiesta de pizzas. Tienes a unos cuantos amigos que te ayudan a servirlas, cada uno en un lugar distinto de la sala. Le das a cada amigo una pizza y ellos empiezan a repartir rebanadas a los invitados hambrientos a medida que llegan.

Al principio, todo marcha sin problemas. Unos cuantos invitados van llegando de a poco, tus amigos sirven porciones y todos están contentos. Pero entonces se corre la voz sobre tus pizzas de masa madre. El timbre sigue sonando. Los invitados siguen llegando en masa. Pronto se forma una multitud alrededor de uno de tus amigos, el que lleva la pizza de pepperoni, que parece ser la que quieren todos.

Tu amigo con la pizza de pepperoni está abrumado. Los invitados están esperando, se ponen impacientes y se formó una larga cola. Mientras tanto, tu amiga que sostiene la pizza margherita está de pie con casi nadie pidiéndole una porción.

¿Qué haces?

Pides un par de pizzas de pepperoni más y se las das a otros amigos. Ahora tres amigos tienen pepperoni en lugar de uno. La multitud se dispersa y, de repente, puedes atender a tres veces más invitados a la vez.

A medida que organizas más fiestas, hay algunas cosas que se vuelven claras:

No todas las pizzas son igual de populares. Algunas tienen mucha demanda; otras tienen menos interesados. No necesitas "copias" adicionales de las menos populares. Necesitas más de las que todos esperan en cola.
Pide más pizzas antes de que la fila se haga demasiado larga. Si esperas hasta que tu amigo esté completamente abrumado y los invitados se estén yendo enojados, esperaste demasiado tiempo. Es mejor pedir una pizza más cuando ves que se está formando una multitud.
No deseches las pizzas demasiado rápido. Solo porque la multitud alrededor del pepperoni se redujo durante cinco minutos no significa que la avalancha haya terminado. Tal vez solo están sirviéndose bebidas, o incluso hablando entre ellos (¿eso todavía se hace?). Mantén las pizzas adicionales listas. Si la calma se mantiene por un rato, entonces puedes guardarlas.
Solo puedes repartir tantas pizzas como amigos tengas que te estén ayudando. Si solo tienes cuatro amigos ayudándote, diez pizzas no cambiarán el resultado. Solo se pueden servir cuatro a la vez. Haz coincidir tu cantidad de pizzas con tus manos disponibles.
Cuando un amigo se vaya, llévate su pizza. Si uno de tus amigos necesita salir, toma su pizza inmediatamente. No puedes dejar las pizzas sin supervisión. Dásela a otra persona, o guárdala.

Desde pizzas hasta réplicas

Vamos a mapear esto de vuelta a Elasticsearch.

En nuestra analogía, las pizzas son réplicas (copias de tus fragmentos de índice), tus colegas ayudando a servir son nodos de búsqueda, los invitados hambrientos son consultas de búsqueda, y esa pizza popular con mucha gente alrededor es un índice caliente con alta carga de búsqueda.

Cuando el tráfico de búsqueda aumenta en un índice en particular, creamos réplicas adicionales y las distribuimos en tus nodos de búsqueda. Cualquier réplica puede responder a cualquier consulta sobre ese índice, igual que cualquier amigo que tenga pepperoni puede repartir rebanadas de pepperoni. Más réplicas significan un mayor rendimiento: tres réplicas pueden manejar tres veces las consultas por segundo de una sola réplica.

Medir el hambre

Antes de decidir cuántas pizzas pedir, necesitamos saber qué tan hambrienta está la multitud.

Elasticsearch rastrea la carga de búsqueda de cada fragmento. Es una métrica que mide el volumen de actividad de búsqueda que gestiona un fragmento. Sumamos estos datos de todos los fragmentos de un índice para conocer la demanda total de búsquedas.

Lo que más importa es la carga de búsqueda relativa: ¿qué proporción del tráfico de búsqueda total de tu proyecto está llegando a cada índice? Si un índice recibe el 60 % de todas las búsquedas mientras que otro recibe el 5 %, sabemos dónde debemos aumentar la capacidad.

La matemática detrás de las pizzas

Calculamos el número óptimo de réplicas siguiendo esta fórmula:

desired_replicas = min(ceil(L × N / (S × X)), N)

Dónde:

L = la carga de búsqueda relativa del índice (entre 0 y 1).
N = el número de nodos de búsqueda deseados en tu proyecto.
S = la cantidad de fragmentos en el índice.
X = un umbral para evitar puntos calientes (predeterminado: 0,5).

Un ejemplo: cuatro nodos de búsqueda, un índice con dos fragmentos primarios que reciben el 80 % del tráfico de búsqueda:

desired_replicas = min(ceil(0.8 × 4 / (2 × 0.5)), 4)
                 = min(4, 4)
                 = 4

Este índice activo tiene cuatro réplicas distribuidas entre los nodos de búsqueda.

El umbral X (con un valor predeterminado de 0,5) es importante. No esperamos hasta que una réplica esté completamente saturada, sino que escalamos cuando está a la mitad de su capacidad. Reparte la pizza adicional cuando veas que la multitud empieza a formarse, no cuando los invitados ya se están yendo.

Escala rápido, reduce la escala lentamente

Cuando aumenta la carga de búsqueda, agregamos réplicas inmediatamente. No hay razón para hacer esperar a los usuarios.

Cuando la carga de búsqueda disminuye, esperamos un poco antes de tomar alguna acción. Necesitamos ver una demanda baja constante durante unos 30 minutos antes de reducir las réplicas. (Esto es para manejar el tráfico irregular donde un momento de calma no significa que la fiesta haya terminado.)

Esto importa porque agregar una réplica tiene un costo. La réplica nueva copia datos y calienta sus cachés antes de servir las consultas de manera eficiente. Si eliminas las réplicas con demasiada prisa, terminarás pagando este costo inicial constantemente, ya que el tráfico fluctúa de forma natural.

Respetando los límites de la topología

Las réplicas nunca pueden superar el número de nodos de búsqueda. Tener más réplicas que nodos no aporta ningún beneficio (solo puedes servir tantas pizzas como colegas que ayuden a servir las porciones).

Cuando se eliminan nodos de tu proyecto, reducimos las réplicas inmediatamente para que coincidan. Sin esperar el enfriamiento, ya que no puedes tener réplicas sin asignar. En cuanto un usuario se va, le quitamos la pizza.

El panorama general de Elastic Cloud Serverless

Las réplicas para el balanceo de carga de búsqueda funcionan junto con otros sistemas de autoescalado:

El escalado automático de búsqueda ajusta el número de nodos de búsqueda (cuántos amigos están ayudando).
Las réplicas para el balanceo de carga de búsqueda distribuyen el tráfico al ajustar la cantidad de réplicas por índice (cuántas pizzas de cada tipo necesitamos).
La fragmentación automática de flujos de datos optimiza el número de particiones para las operaciones de escritura (cómo cortar cada pizza, como se explicó en la publicación anterior).

Un principio de diseño importante: las réplicas para el equilibrio de carga no activan directamente el escalado automático de búsqueda. En cambio, distribuir las consultas de búsqueda entre más réplicas permite aumentar la utilización de recursos en todos tus nodos de búsqueda. Este mayor uso luego activa nuestra lógica de escalado automático existente para agregar capacidad si es necesario. Las réplicas para el balanceo de carga permiten que el autoescalado haga su trabajo, lo que asegura que tus nodos de búsqueda realmente se estén utilizando, en lugar de que todo el tráfico esté bloqueado en una sola réplica mientras otros nodos permanecen inactivos.

Qué significa esto para ti

No necesitas predecir qué índices serán populares. No necesitas ajustar manualmente las réplicas cuando cambian los patrones de tráfico. No necesitas despertarte a las 3 a. m. porque un aumento repentino sobrecargó tu índice más ocupado.

El sistema observa dónde se están formando colas y pide más pizzas para esos lugares. Los índices fríos no desperdician recursos en réplicas innecesarias. Los índices calientes obtienen la capacidad que necesitan. Tu presupuesto se destina a donde importa.

Conclusión

En la publicación sobre la autofragmentación (autosharding) nos aseguramos de que tus pizzas estén cortadas correctamente. Ahora, con réplicas para el equilibrio de carga de búsqueda, nos aseguramos de que tengas suficientes pizzas, en las manos adecuadas, cuando llegue la multitud hambrienta.

Prueba Elastic Cloud Serverless y déjanos encargarnos de la logística de la pizza.

Uso de la API de inferencia de Elasticsearch junto con modelos de Hugging Face

Jeffrey Rengifo — Mon, 23 Mar 2026 00:00:00 GMT

En actualizaciones recientes, Elasticsearch introdujo una integración nativa para conectar a modelos hospedados en el servicio de inferencia Hugging Face. En esta publicación, veremos cómo configurar esta integración y realizar inferencias mediante llamadas a la API sencillas utilizando un modelo de lenguaje grande (LLM). Usaremos SmolLM3-3B, un modelo ligero de propósito general con un buen equilibrio entre el uso de recursos y la calidad de las respuestas.

Requisitos previos

Elasticsearch 9.3 o Elastic Cloud Serverless: puedes crear un despliegue en la cloud siguiendo estas instrucciones, o bien puedes utilizar la guía de inicio rápido de start-local.
Python 3.12: Descarga Python aquí.
Token de acceso Hugging Face.

Finalización de chat usando un endpoint de inferencia de Hugging Face

Primero, vamos a crear un ejemplo práctico que conecte Elasticsearch con un endpoint de inferencia de Hugging Face para generar recomendaciones basadas en IA a partir de una colección de publicaciones de blog. Para la base de conocimientos de la app, usaremos un set de datos de artículos del blog de la compañía, que contiene información valiosa pero a menudo difícil de navegar.

Con este endpoint, la búsqueda semántica recupera los artículos más relevantes para una consulta dada, y un LLM de Hugging Face genera recomendaciones breves y contextuales basadas en esos resultados.

Echemos un vistazo a una visión general de alto nivel del flujo de información que vamos a construir:

En este artículo, probaremos la capacidad de SmolLM3-3B para combinar su tamaño compacto con fuertes capacidades multilingües de razonamiento y llamadas a herramientas. A partir de una búsqueda, enviaremos todo el contenido correspondiente (en inglés y español) al LLM para generar una lista de artículos recomendados con una descripción personalizada basada en la búsqueda y los resultados.

Así podría ser la UI de un sitio web de artículos con un sistema de generación de recomendaciones basado en inteligencia artificial.

Puedes encontrar la implementación completa de esta aplicación en el cuaderno adjunto.

Configurar endpoints de inferencia de Elasticsearch

Para usar el endpoint de inferencia Elasticsearch Hugging Face, necesitamos dos elementos importantes: una clave API de Hugging Face y una URL del endpoint de Hugging Face en funcionamiento. Debería verse así:

PUT _inference/chat_completions/hugging-face-smollm3-3b
{
    "service": "hugging_face",
    "service_settings": {
        "api_key": "hugging-face-access-token", 
        "url": "url-endpoint" 
    }
}

El endpoint de inferencia Hugging Face en Elasticsearch admite diferentes tipos de tareas: text_embedding, completion, chat_completion y rerank. En esta publicación de blog, usamos chat_completion porque necesitamos que el modelo genere recomendaciones conversacionales basadas en los resultados de búsqueda y una solicitud del sistema. Este endpoint nos permite realizar finalizaciones de chat directamente desde Elasticsearch de una manera sencilla empleando la API de Elasticsearch:

POST _inference/chat_completion/hugging-face-smollm3-3b/_stream
{
  "messages": [
      { "role": "user", "content": "" }
  ]
}

Esto servirá como núcleo de la aplicación, recibirá la indicación y los resultados de búsqueda que pasarán por el modelo. Ya abordamos la teoría, ahora comencemos a implementar la aplicación.

Configuración de un endpoint de inferencia en Hugging Face

Para desplegar el modelo de Hugging Face, vamos a usar despliegues con un clic de Hugging Face, un servicio fácil y rápido para desplegar endpoints de modelos. Ten en cuenta que este es un servicio de pago y que su uso puede generar costos adicionales. En este paso se creará la instancia del modelo que se usará para generar las recomendaciones de artículos.

Puedes elegir un modelo del catálogo de un clic:

Vamos a elegir el modelo SmolLM3-3B:

Desde aquí, copia la URL del endpoint de Hugging Face:

Como se menciona en la documentación de endpoints de inferencia Hugging Face de Elasticsearch, la generación de texto requiere un modelo compatible con la API de OpenAI. Por esa razón, necesitamos anexar la ruta secundaria /v1/chat/completions a la URL del endpoint de Hugging Face. El resultado final se verá así:

https://j2g31h0futopfkli.us-east-1.aws.endpoints.huggingface.cloud/v1/chat/completions

Ahora que está todo listo, podemos empezar a programar en un cuaderno de Python.

Generando clave API de Hugging Face

Crea una cuenta en Hugging Face y obtén un token de API siguiendo estas instrucciones. Puedes elegir entre tres tipos de token: detallado (recomendado para producción, ya que proporciona acceso solo a recursos específicos); lectura (para acceso de solo lectura); o escritura (para acceso de lectura y escritura). Para este tutorial, un token de lectura es suficiente, ya que solo necesitamos llamar al endpoint de inferencia. Guarda esta clave para el siguiente paso.

Configuración del endpoint de inferencia de Elasticsearch

Primero, declaremos un cliente de Python para Elasticsearch:

os.environ["ELASTICSEARCH_API_KEY"] = "your-elasticsearch-api-key"
os.environ["ELASTICSEARCH_URL"] = "https://xxxx.us-central1.gcp.cloud.es.io:443"

es_client = Elasticsearch(
    os.environ["ELASTICSEARCH_URL"], api_key=os.environ["ELASTICSEARCH_API_KEY"]
)

A continuación, vamos a crear un endpoint de inferencia de Elasticsearch que use el modelo Hugging Face. Este endpoint nos permitirá generar respuestas basadas en las entradas del blog y en el prompt que se pasó al modelo.

INFERENCE_ENDPOINT_ID = "smollm3-3b-pnz"

os.environ["HUGGING_FACE_INFERENCE_ENDPOINT_URL"] = (
 "https://j2g31h0futopfkli.us-east-1.aws.endpoints.huggingface.cloud/v1/chat/completions"
)
os.environ["HUGGING_FACE_API_KEY"] = "hf_xxxxx"

resp = es_client.inference.put(
        task_type="chat_completion",
        inference_id=INFERENCE_ENDPOINT_ID,
        body={
            "service": "hugging_face",
            "service_settings": {
                "api_key": os.environ["HUGGING_FACE_API_KEY"],
                "url": os.environ["HUGGING_FACE_INFERENCE_ENDPOINT_URL"],
            },
        },
    )

Set de datos

El conjunto de datos contiene las publicaciones de blog que se consultarán, representando un conjunto de contenido multilingüe utilizado a lo largo del flujo de trabajo:

// Articles dataset document example: 
{
    "id": "6",
    "title": "Complete guide to the new API: Endpoints and examples",
    "author": "Tomas Hernandez",
    "date": "2025-11-06",
    "category": "tutorial",
    "content": "This guide describes in detail all endpoints of the new API v2. It includes code examples in Python, JavaScript, and cURL for each endpoint. We cover authentication, resource creation, queries, updates, and deletion. We also explain error handling, rate limiting, and best practices. Complete documentation is available on our developer portal."
  }

Mappings de Elasticsearch

Una vez definido el set de datos, necesitamos crear un esquema de datos que se ajuste correctamente a la estructura de la publicación de blog. Se emplearán las siguientes mappings de índices para almacenar los datos en Elasticsearch:

INDEX_NAME = "blog-posts"

mapping = {
    "mappings": {
        "properties": {
            "id": {"type": "keyword"},
            "title": {
                "type": "object",
                "properties": {
                    "original": {
                        "type": "text",
                        "copy_to": "semantic_field",
                        "fields": {"keyword": {"type": "keyword"}},
                    },
                    "translated_title": {
                        "type": "text",
                        "fields": {"keyword": {"type": "keyword"}},
                    },
                },
            },
            "author": {"type": "keyword", "copy_to": "semantic_field"},
            "category": {"type": "keyword", "copy_to": "semantic_field"},
            "content": {"type": "text", "copy_to": "semantic_field"},
            "date": {"type": "date"},
            "semantic_field": {"type": "semantic_text"},
        }
    }
}


es_client.indices.create(index=INDEX_NAME, body=mapping)

Aquí, podemos ver mejor cómo se estructuran los datos. Usaremos la búsqueda semántica para recuperar resultados basados en lenguaje natural, junto con la propiedad copy_to para copiar el contenido del campo en el campo semantic_text. Además, el campo title contiene dos subcampos: el subcampo original almacena el título en inglés o español, dependiendo del idioma original del artículo; y el subcampo translated_title está presente solo para artículos en español y contiene la traducción al inglés del título original.

Ingesta de datos

El siguiente fragmento de código ingesta el conjunto de datos de las publicaciones de blog en Elasticsearch mediante la API de bulk:

def build_data(json_file, index_name):
    with open(json_file, "r") as f:
        data = json.load(f)

    for doc in data:
        action = {"_index": index_name, "_source": doc}
        yield action


try:
    success, failed = helpers.bulk(
        es_client,
        build_data("dataset.json", INDEX_NAME),
    )
    print(f"{success} documents indexed successfully")

    if failed:
        print(f"Errors: {failed}")
except Exception as e:
    print(f"Error: {str(e)}")

Ahora que tenemos los artículos ingeridos en Elasticsearch, necesitamos crear una función capaz de buscar en el campo semantic_text :

def perform_semantic_search(query_text, index_name=INDEX_NAME, size=5):
    try:
        query = {
            "query": {
                "match": {
                    "semantic_field": {
                        "query": query_text,
                    }
                }
            },
            "size": size,
        }

        response = es_client.search(index=index_name, body=query)
        hits = response["hits"]["hits"]

        return hits
    except Exception as e:
        print(f"Semantic search error: {str(e)}")
        return []

También necesitamos una función que llame al endpoint de inferencia. En este caso, llamaremos al endpoint usando el tipo de tarea chat_completion para obtener respuestas de transmisión:

def stream_chat_completion(messages: list, inference_id: str = INFERENCE_ENDPOINT_ID):
    url = f"{ELASTICSEARCH_URL}/_inference/chat_completion/{inference_id}/_stream"
    payload = {"messages": messages}
    headers = {
        "Authorization": f"ApiKey {ELASTICSEARCH_API_KEY}",
        "Content-Type": "application/json",
    }

    try:
        response = requests.post(url, json=payload, headers=headers, stream=True)
        response.raise_for_status()

        for line in response.iter_lines(decode_unicode=True):
            if line:
                line = line.strip()

                if line.startswith("event:"):
                    continue

                if line.startswith("data: "):
                    data_content = line[6:]

                    if not data_content.strip() or data_content.strip() == "[DONE]":
                        continue

                    try:
                        chunk_data = json.loads(data_content)

                        if "choices" in chunk_data and len(chunk_data["choices"]) > 0:
                            choice = chunk_data["choices"][0]
                            if "delta" in choice and "content" in choice["delta"]:
                                content = choice["delta"]["content"]
                                if content:
                                    yield content

                    except json.JSONDecodeError as json_err:
                        print(f"\nJSON decode error: {json_err}")
                        print(f"Problematic data: {data_content}")
                        continue

    except requests.exceptions.RequestException as e:
        yield f"Error: {str(e)}"

Ahora podemos escribir una función que llame a la función de búsqueda semántica, junto con el endpoint de inferencia chat_completions y el endpoint de recomendaciones, para generar los datos que se asignarán en las tarjetas:

def recommend_articles(search_query, index_name=INDEX_NAME, max_articles=5):
    print(f"\n{'='*80}")
    print(f"🔍 Search Query: {search_query}")
    print(f"{'='*80}\n")

    articles = perform_semantic_search(search_query, index_name, size=max_articles)

    if not articles:
        print("❌ No relevant articles found.")
        return None, None

    print(f"✅ Found {len(articles)} relevant articles\n")

    # Build context with found articles
    context = "Available blog articles:\n\n"
    for i, article in enumerate(articles, 1):
        source = article.get("_source", article)
        context += f"Article {i}:\n"
        context += f"- Title: {source.get('title', 'N/A')}\n"
        context += f"- Author: {source.get('author', 'N/A')}\n"
        context += f"- Category: {source.get('category', 'N/A')}\n"
        context += f"- Date: {source.get('date', 'N/A')}\n"
        context += f"- Content: {source.get('content', 'N/A')}\n\n"

    system_prompt = """You are an expert content curator that recommends blog articles.

    Write recommendations in a conversational style starting with phrases like:
    - "If you're interested in [topic], this article..."
    - "This post complements your search with..."
    - "For those looking into [topic], this article provides..."


    FORMAT REQUIREMENTS:
    - Return ONLY a JSON array
    - Each element must have EXACTLY these three fields: "article_number", "title", "recommendation"
    - If the original title is in spanish, use the "translated_title" subfield in the "title" field

    Keep each recommendation concise (2-3 sentences max) and focused on VALUE to the reader.

    EXAMPLE OF CORRECT FORMAT:
    [
        {"article_number": 1, "title": "Article title in english", "recommendation": "If you are interested in [topic], this article provides..."},
        {"article_number": 2, "title": "Article title in english", "recommendation": " for those looking into [topic], this article provides..."}
    ]

    Return ONLY the JSON array following this exact structure."""

    user_prompt = f"""Search query: "{search_query}"

    Generate recommendations for the following articles: {context}
    """

    messages = [
        {"role": "system", "content": "/no_think"},
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt},
    ]

    # LLM generation
    print(f"{'='*80}")
    print("🤖 Generating personalized recommendations...\n")

    full_response = ""

    for chunk in stream_chat_completion(messages):
        print(chunk, end="", flush=True)
        full_response += chunk

    return context, articles, full_response

Por último, extrae la información y dale formato para imprimirla:

def display_recommendation_cards(articles, recommendations_text):
    print("\n" + "=" * 100)
    print("📇 RECOMMENDED ARTICLES".center(100))
    print("=" * 100 + "\n")

    # Parse JSON recommendations - clean tags and extract JSON
    recommendations_list = []
    try:

        # Clean up  tags
        cleaned_text = re.sub(
            r".*?", "", recommendations_text, flags=re.DOTALL
        )
        # Remove markdown code blocks ( ... ``` or ``` ... ```)
        cleaned_text = re.sub(r"```(?:json)?", "", cleaned_text)
        cleaned_text = cleaned_text.strip()

        parsed = json.loads(cleaned_text)

        # Extract recommendations from list format
        for item in parsed:
            article_number = item.get("article_number")
            title = item.get("title", "")
            rec_text = item.get("recommendation", "")

            if article_number and rec_text:
                recommendations_list.append(
                    {
                        "article_number": article_number,
                        "title": title,
                        "recommendation": rec_text,
                    }
                )
    except json.JSONDecodeError as e:
        print(f"⚠️  Could not parse recommendations as JSON: {e}")
        return

    for i, article in enumerate(articles, 1):
        source = article.get("_source", article)

        # Card border
        print("┌" + "─" * 98 + "┐")

        # Find recommendation and title for this article number
        recommendation = None
        title = None
        for rec in recommendations_list:
            if rec.get("article_number") == i:
                recommendation = rec.get("recommendation")
                title = rec.get("title")
                break

        # Print title
        title_lines = textwrap.wrap(f"📌 {title}", width=94)
        for line in title_lines:
            print(f"│  {line}".ljust(99) + "│")

        # Card border
        print("├" + "─" * 98 + "┤")

        # Print recommendation
        if recommendation:
            recommendation_lines = textwrap.wrap(recommendation, width=94)
            for line in recommendation_lines:
                print(f"│  {line}".ljust(99) + "│")

        # Card bottom
        print("└" + "─" * 98 + "┘")

Pongámoslo a prueba haciendo una pregunta sobre las publicaciones de blog de seguridad:

search_query = "Security and vulnerabilities"

context, articles, recommendations = recommend_articles(search_query)

print("\nElasticsearch context:\n", context)

# Display visual cards
display_recommendation_cards(articles, recommendations)

Aquí podemos ver las tarjetas de la consola generadas por el flujo de trabajo:

Puedes ver los resultados completos, incluso todas las coincidencias y la respuesta del LLM, en este archivo.

Estamos solicitando artículos relacionados con: “Seguridad y vulnerabilidades”. Esta pregunta se emplea como consulta de búsqueda en los documentos almacenados en Elasticsearch. Los resultados obtenidos se pasan al modelo, el cual genera recomendaciones basadas en su contenido. Como podemos ver, el modelo hizo un excelente trabajo generando textos cortos y atractivos que pueden motivar al lector a hacer clic en ellos.

Conclusión

Este ejemplo muestra cómo se pueden combinar Elasticsearch y Hugging Face para crear un sistema centralizado rápido y eficiente para aplicaciones de IA. Este enfoque reduce el esfuerzo manual y proporciona flexibilidad, gracias al extenso catálogo de modelos de Hugging Face. El uso de SmolLM3-3B, en particular, muestra cómo los modelos compactos y multilingües aún pueden ofrecer razonamiento significativo y generación de contenido cuando se combinan con la búsqueda semántica. En conjunto, estas herramientas ofrecen una base escalable y eficaz para construir análisis de contenidos inteligentes y aplicaciones multilingües.

Rapidez vs. precisión: medición de recuperación de la búsqueda vectorial cuantificada

Jeff Vestal — Fri, 20 Mar 2026 00:00:00 GMT

Todos quieren que la búsqueda de vectores sea instantánea. Pero los vectores de alta dimensión son pesados. Un único vector float-32 de 1024 dimensiones ocupa una memoria significativa, y compararlo con millones de otros es computacionalmente costoso.

Para resolver esto, los motores de búsqueda como Elasticsearch usan dos estrategias principales de optimización:

Búsqueda aproximada (mundo pequeño jerárquico navegable [HNSW]): en lugar de examinar cada documento, construimos un grafo de navegación para saltar rápidamente al vecindario probable de la respuesta.
Cuantización: Comprimimos los vectores (por ejemplo, de flotantes de 32 bits a enteros de 8 bits o incluso valores binarios de 1 bit) para reducir el uso de memoria y acelerar los cálculos.

Pero la optimización a menudo tiene un precio: la precisión.

El miedo es válido: "Si comprimo mis datos y tomo atajos durante la búsqueda, ¿me perderé los mejores resultados?". "¿Esta optimización degrada la relevancia de mi motor de búsqueda?".

Para demostrar que la cuantificación de Elastic no degrada los resultados, construimos un marco de pruebas repetible mediante el conjunto de datos de DBPedia-14 para calcular exactamente cuánta precisión intercambiamos (específicamente, la recuperación) por velocidad al usar las optimizaciones predeterminadas en Elasticsearch.

Resumen: es probable que sea mucho menos de lo que piensas. Echa un vistazo al cuaderno aquí e inténtalo por tu cuenta

Las definiciones (para los no expertos)

Antes de ver el código, establezcamos algunos términos.

Relevancia versus recuperación: La relevancia es subjetiva (¿encontré cosas buenas?). La recuperación es matemática. Si hay 10 documentos en la base de datos que son las coincidencias matemáticas perfectas para tu consulta, y el motor de búsqueda encuentra nueve de ellos, tu recuperación es del 90 % (o 0,9).
Búsqueda exacta (plana): A veces denominado el método de "fuerza bruta". El motor de búsqueda analiza cada uno de los documentos de un índice y calcula la distancia.
- Pros: 100 % de recuperación perfecta.
- Contras: computacionalmente caro y lento en escala.
Búsqueda aproximada (HNSW): El método del "atajo". El motor de búsqueda crea un grafo HNSW. Recorre el grafo para encontrar a los vecinos más cercanos.
- Ventajas: extremadamente rápido y escalable.
- Desventajas: podrías perderte algún vecino si el recorrido del grafo se detiene demasiado pronto.

El experimento: exactitud versus aproximación

Para probar la recuperación, usamos el conjunto de datos DBPedia-14, un gran set de datos de títulos y resúmenes de 14 clases de ontología que normalmente se utilizan para entrenar y evaluar modelos de categorización de texto. En concreto, nos centraremos en la categoría de "Cine". Queríamos comparar los ajustes de producción optimizados con una verdad de base matemáticamente perfecta.

Para este experimento, utilizamos el modelo jina-embeddings-v5-text-small, un modelo multilingüe de última generación que lidera los estándares de la industria para la representación de texto. Elegimos este modelo porque define el estándar actual para embeddings de alto rendimiento. Al combinar la precisión de élite de Jina v5 con la cuantización nativa de Elasticsearch, podemos demostrar una arquitectura de búsqueda que es tanto computacionalmente eficiente como intransigente en la calidad de la recuperación.

Configuramos un índice con un mapeo doble. Ingerimos el mismo texto en dos campos diferentes de forma simultánea:

content.raw con el tipo: flat. Esto obliga a Elasticsearch a realizar un escaneo por fuerza bruta de los vectores Float32 completos. Esto devuelve resultados de coincidencia exacta y se utilizará para nuestra línea de base.
content con tipo semantic_text. Con valores predeterminados que utilizan HNSW + la mejor cuantificación binaria (BBQ). Esta es la configuración de producción estándar y optimizada para una coincidencia aproximada.

La prueba de recall@10

Para nuestra métrica, usamos Recall@10.

Elegimos 50 películas aleatorias y ejecutamos la misma consulta en ambos campos.

Si la búsqueda exacta (plana) indica que los 10 vecinos más cercanos son los ID [1, 2, 3... 10].
Y la búsqueda aproximada (HNSW) devuelve los ID [1, 2, 3... 9, 99].
Encontramos nueve de los 10 principales correctamente. La puntuación es 0,9.

Este es el mapeo que utilizamos:

# The "Control Group": Forces exact brute-force scan
"raw": {
    "type": "semantic_text",
    "inference_id": ".jina-embeddings-v5-text-small",
    "index_options": {
        "dense_vector": {
            "type": "flat"
        }
    }
}

Los resultados: la "línea plana" del éxito

Realizamos una prueba de escala, recargando el conjunto de datos completo y probando con tamaños de índice de entre 1000 y 40 000 documentos.

Esto es lo que sucedió con la puntuación de recuperación:

Documentos	Puntuación de recall@10
1000	1000 (100 %)
5000	0,998 (100 %)
10,000	0,992 (99,4 %)
20 000	0,999 (99,0 %)
40 000	0,992 (98,8 %)

Los resultados fueron increíblemente estables. Incluso a medida que escalábamos, la búsqueda aproximada coincidió con la búsqueda exacta de fuerza bruta >99 % del tiempo.

¿Por qué funcionó tan bien?

Podrías esperar que comprimir vectores a valores binarios perjudicaría más la precisión. La razón por la que esto no ocurre está en la forma en que Elasticsearch gestiona la recuperación.

La mayoría de los modelos de incrustación actuales dan como salida vectores Float32, que son grandes. Para hacer la búsqueda eficiente, Elasticsearch emplea cuantización para vectores de alta dimensión. Concretamente, desde la versión 9.2, usa BBQ por defecto.

BBQ usa un mecanismo de recalificación:

Recorrido: el motor de búsqueda utiliza los vectores comprimidos (cuantificados) para recorrer rápidamente el grafo HNSW. Como los vectores son pequeños, puedes realizar un sobremuestreo de manera eficiente, recopilando una lista más amplia de candidatos (por ejemplo, los 100 documentos más parecidos) sin que afecte al rendimiento.
Recálculo de la puntuación: una vez que obtiene esos candidatos, recupera los valores de precisión completa solo para esos pocos documentos para calcular la clasificación final y precisa.

Esto te brinda lo mejor de ambos mundos, la velocidad de la cuantización para el trabajo pesado y la precisión de los flotantes para la ordenación final.

¿Podemos hacerlo mejor?

Cabe destacar que los resultados que vemos aquí utilizan la configuración predeterminada y una muestra aleatoria de datos. Piensa en esto como un punto de partida de alto rendimiento. Aunque Jina v5 es una bestia, estas puntuaciones de recuperación no son una garantía de "talla única" para todos los conjuntos de datos. Cada conjunto de datos tiene sus propias peculiaridades, y aunque sin duda puedes seguir ajustando los parámetros para obtener un mejor rendimiento, siempre debes realizar pruebas con tus propios datos específicos para ver cuál es tu límite.

Conclusión

Esta es una prueba a muy pequeña escala. Pero el punto del ejercicio no es medir el modelo de incrustación o BBQ específicamente, sino demostrar cómo puedes medir fácilmente la recuperación de tu conjunto de datos con una configuración mínima.

Si quieres ejecutar esta prueba con tus propios datos, puedes consultar el cuaderno aquí e intentarlo por tu cuenta.

Extensión CLI de Gemini para Elasticsearch con herramientas y habilidades

Walter Rafelsberger, Enrico Zimuel — Tue, 17 Mar 2026 00:00:00 GMT

Nos complace anunciar el lanzamiento de nuestra extensión Elastic para la CLI de Gemini de Google, que trae todo el poder de Elasticsearch y Elastic Agent Builder directamente a tu flujo de trabajo de desarrollo de IA. Esta extensión también ofrece varias funciones de agente desarrolladas recientemente para interactuar con Elasticsearch.

La extensión está disponible como proyecto de open source aquí.

¿Qué es Gemini CLI y cómo lo instalas?

Gemini CLI es un agente open source de IA que lleva los modelos Gemini de Google directamente a la línea de comando. Permite a los desarrolladores interactuar con la IA desde la terminal para hacer tareas como generar código, editar archivos, ejecutar comandos de shell y obtener información de la web.

A diferencia de las interfaces de chat típicas, Gemini CLI se integra con tu entorno local de desarrollo, lo que significa que puede entender el contexto del proyecto, modificar archivos, ejecutar compilaciones o pruebas, y automatizar flujos de trabajo directamente dentro de la terminal. Esto lo hace útil para desarrolladores, ingenieros de confiabilidad del sitio (SRE) e ingenieros que buscan codificación y automatización asistidas por IA sin salir de su flujo de trabajo de línea de comandos.

Gemini CLI puede instalarse usando diversos gestores de paquetes. El método más común es a través de npm:

npm install -g @google/gemini-cli

Si quieres conocer opciones de instalación alternativas, consulta la página de instalación oficial.

Luego de la instalación, inicia la CLI ejecutando:

gemini

Verás una pantalla, como se muestra en la Figura 1:

Configurar Elasticsearch

Es necesario tener una instancia de Elasticsearch en funcionamiento. Si quieres usar el servidor Model Context Protocol (MCP), también necesitas instalar Kibana 9.3+. Para emplear la habilidad del lenguaje de búsqueda Elasticsearch (ES|QL) (esql) descrito más abajo, Kibana no es obligatorio.

Puedes activar una prueba gratis en Elastic Cloud o instalarlo localmente usando el script start-local:

curl -fsSL https://elastic.co/start-local | sh

Se instalarán Elasticsearch y Kibana en tu computadora y se generará una clave API que se utilizará para configurar Gemini CLI.

La clave de API se mostrará como salida del comando anterior y se almacenará en un archivo .env en la carpeta elastic-start-local.

Si usas Elasticsearch local (por ejemplo, usar start-local), y quieres usar Elastic Agent Builder con MCP, también necesitas conectar un modelo de lenguaje grande (LLM). Puedes leer esta página de documentación para entender las diferentes opciones.

Si usas Elastic Cloud (o sin servidor), ya tienes una conexión con el LLM preconstruida.

Instala la extensión de Elasticsearch

Puedes instalar la extensión de Elasticsearch para Gemini CLI con el siguiente comando:

gemini extensions install https://github.com/elastic/gemini-cli-elasticsearch

Puedes verificar que las extensiones se hayan instalado correctamente abriendo Gemini y ejecutando el siguiente comando:

/extensions list

Deberías ver la extensión de Elasticsearch disponible.

Si quieres usar la integración de MCP, necesitas tener instalada una versión de Elasticsearch 9.3 o superior. Necesitas la URL de tu servidor MCP de Kibana:

Obtén la URL del servidor MCP desde Agentes > Ver todas las herramientas > Administrar MCP > Copiar URL del servidor MCP.
La URL tendrá este formato: https://your-kibana-instance/api/agent_builder/mcp

Necesitas la URL del endpoint de Elasticsearch. Esta generalmente se informa en la parte superior de la página de Kibana Elasticsearch. Si estás ejecutando Elasticsearch con start-local, ya tienes el endpoint en la clave ES_LOCAL_URLen el archivo start-local.env .

También necesitas una clave API. Si estás ejecutando Elasticsearch con start-local, ya tienes ES_LOCAL_API_KEY en el archivo start-local .env . De lo contrario, puedes crear una clave API desde la interfaz de Kibana, como se indica aquí:

En Kibana: Stack Management > Seguridad > Claves de API > Crear clave de API.
Sugerimos establecer solo los privilegios de lectura para la clave API, habilitando el privilegio feature_agentBuilder.read como se informa aquí.
Copia el valor de la clave API codificada.

Configura las variables de entorno requeridas en tu shell:

export ELASTIC_URL="your-elasticsearch-url"
export ELASTIC_MCP_URL="your-elasticsearch-mcp-url"
export ELASTIC_API_KEY="your-encoded-api-key"

Instala el set de datos de ejemplo

Puedes instalar el set de datos de pedidos de comercio electrónico disponible desde Kibana. Incluye un único índice llamado kibana_sample_data_ecommerce, que contiene información sobre 4,675 pedidos de un sitio web de comercio electrónico. Para cada pedido, tenemos la siguiente información:

Información del cliente (nombre, identificación, fecha de nacimiento, correo electrónico y más).
Fecha del pedido.
ID de pedido.
Productos (lista de todos los productos con precio, cantidad, identificación, categoría, descuento y otros detalles).
SKU.
Precio total (sin impuestos, con impuestos).
Cantidad total.
Información geográfica (ciudad, país, continente, ubicación, región).

Para instalar los datos de muestra, abre la página Integraciones en Kibana (busca "Integración" en la barra superior de búsqueda) e instala los Datos de muestra. Para más detalles, consulta la documentación aquí.

El objetivo de este artículo es mostrar lo fácil que es configurar la CLI Gemini para conectarse a Elasticsearch e interactuar con el índice kibana_sample_data_ecommerce .

Cómo usar el MCP de Elasticsearch

Puedes comprobar la conexión usando el siguiente comando en Gemini:

/mcp list

Deberías ver el elastic-agent-builder activado, como se muestra en la Figura 2:

Elasticsearch proporciona un conjunto predeterminado de herramientas. Ve la descripción aquí.

Con estas herramientas, puedes interactuar con Elasticsearch y hacer preguntas como:

Give me the list of all the indexes available in Elasticsearch.
How many customers are based in the USA in the kibana_sample_data_ecommerce index of Elasticsearch?

Dependiendo de la pregunta, Gemini usará una o varias de las herramientas disponibles para intentar responderla.

Los comandos /elastic

En la extensión Elasticsearch para Gemini CLI, también agregamos comandos/elastic.

Si ejecutas el comando /help, verás todas las opciones /elastic disponibles (Figura 3):

Estos comandos pueden ser útiles si quieres ejecutar directamente una herramienta específica del servidor MCP elastic-agent-builder. Por ejemplo, usando el siguiente comando, puedes obtener el mapping del kibana_sample_data_ecommerce:

/elastic:get-mapping kibana_sample_data_ecommerce

Estos comandos son esencialmente atajos para ejecutar herramientas específicas, en lugar de depender del modelo Gemini para determinar qué herramienta debe invocarse.

Cómo usar las habilidades de Elasticsearch

Esta extensión también incluye una habilidad de agente para ES|QL, el lenguaje de búsqueda Elasticsearch disponible en Elasticsearch. Habilidades del Agente es un formato abierto que proporciona a los agentes de codificación de IA, como Gemini CLI, instrucciones personalizadas para tareas específicas. Utilizan un concepto llamado revelación progresiva, lo que significa que solo se agrega una breve descripción de la habilidad a la indicación inicial del sistema. Cuando le pides al agente que haga una tarea, como consultar Elasticsearch, hace coincidir la solicitud con la habilidad relevante y carga dinámicamente las instrucciones detalladas. Esta es una forma eficaz de gestionar los presupuestos de tokens y, al mismo tiempo, proporcionar a la IA exactamente el contexto que necesita.

La habilidadesql está diseñada para permitir que la CLI de Gemini escriba y ejecute consultas en ES|QL directamente en tu cluster. ES|QL es un poderoso lenguaje de búsqueda con barras verticales que hace que la exploración de datos, el análisis de logs y las agregaciones sean sumamente intuitivas. Con esta habilidad activada, no necesitas buscar la sintaxis de ES|QL; simplemente puedes hacer preguntas en lenguaje natural a la CLI de Gemini sobre tus datos, y el agente se encargará del resto.

Las ejecuciones se efectúan mediante comandos curl sencillos ejecutados en una terminal. Esto es posible porque Elasticsearch ofrece un amplio conjunto de API REST que se pueden utilizar fácilmente para integrar el sistema en cualquier arquitectura.

Lo que la habilidadesql ofrece:

Detección de índices y esquemas: El agente puede usar las herramientas integradas de la habilidad para mostrar los índices disponibles y obtener el mapping de campos. Por ejemplo, antes de escribir una consulta para el set de datos de comercio electrónico, el agente puede ejecutar una verificación de esquema en kibana_sample_data_ecommerce para comprender los campos disponibles, como taxful_total_price o category.
Traducción perfecta al lenguaje natural: la habilidad le da al agente algo más que un simple manual de referencia; proporciona una guía específica para interpretar la intención del usuario. Cuando escribes solicitudes en lenguaje natural, como "Mostrar el tiempo de respuesta promedio agrupado por servicio", el agente utiliza la función de coincidencia de patrones integrada en la habilidad para traducir al instante tus palabras en las agregaciones, filtros y comandos en ES|QL correctos.
Autocorrección: Si una consulta falla (por ejemplo, debido a una incompatibilidad de tipos o un error de sintaxis), la habilidad devuelve la consulta generada junto con el mensaje de error exacto de Elasticsearch, lo que permite al agente corregirla al instante y volver a intentarlo sin que tengas que intervenir.

Dado que la habilidad esql también está disponible como una herramienta en el servidor MCP elastic-agent-builder, necesitamos deshabilitar este servidor momentáneamente. Puedes usar el siguiente comando para desactivarlo:

/mcp disable elastic-agent-builder

Entonces puedes simplemente escribir un mensaje como este en tu CLI de Gemini:

Find the top 5 product categories by total sales revenue in the kibana_sample_data_ecommerce index

El agente deberá:

Reconoce la necesidad de la habilidad esql .
Verifica el esquema de kibana_sample_data_ecommerce.
Construye una consulta en ES|QL, como: FROM kibana_sample_data_ecommerce | STATS total_revenue = SUM(taxful_total_price) BY category.keyword | SORT total_revenue DESC | LIMIT 5.
Ejecutar la consulta en la API de Elasticsearch.
Presentar la respuesta final directamente en la terminal.

Aquí, presentamos un ejemplo de respuesta de Gemini al mensaje anterior:

───────────────────────────────────────────────────────────
> Find the top 5 product categories by total sales revenue in the kibana_sample_data_ecommerce index   ───────────────────────────────────────────────────────────
✓  Activate Skill "esql": Interact with Elasticsearch using ES|QL and curl. Use when querying, managing indices,  …
Skill esql activated. Resources loaded from /home/user/.gemini/extensions/elasticsearch/skills/esql: 
Showing up to 200 items (files + folders).                                                                     /home/user/.gemini/extensions/elasticsearch/skills/esql/                                                            ├───SKILL.md 
└───references/
├───esql-reference.md 
├───generation-tips.md 
└───query-patterns.md

✦ I will start by exploring the mapping of the kibana_sample_data_ecommerce index to identify the fields for product category and sales revenue. Then, I will construct and execute an ES|QL query to determine the top 5 product categories by total sales revenue.

✓  Shell curl -s "${ELASTIC_URL%/}/kibana_sample_data_ecommerce/_mapping" -H "Authorization: ApiKey $(printenv ELAS…                                                                                                                       {  
   "kibana_sample_data_ecommerce": { 
     "mappings": { 
       "properties": {
         "category": { 
           "type": "text", 
           "fields": {
             "keyword": {
               "type": "keyword"
             }
           }
         }, 
         "currency": {
           "type": "keyword"
         }, 

✦ Okay, I have the mapping. The category is products.category.keyword and sales revenue is taxful_total_price. I'll now execute the ES|QL query to get the top 5 categories by revenue.

✓  Shell curl -s -X POST "${ELASTIC_URL%/}/_query" \  -H "Authorization: ApiKey $(printenv ELASTIC_API_KEY)" \  -H …
{ 
   "took": 62,
   "is_partial": false, 
   "completion_time_in_millis": 1772805644164,
   "documents_found": 4675,
   "values_loaded": 12084, 
   "start_time_in_millis": 1772805644102, 
   "expiration_time_in_millis": 1773237644087,  
   "columns": [ 
     { 
       "name": "total_revenue",    
       "type": "double"  
     }, 
     {   
       "name": "products.category.keyword",

✦ The query for top 5 product categories by revenue was successful. I'll format the returned JSON values into a   user-friendly list.

 ✓  Shell 
                             
 Top 5 product categories by total sales revenue: 
 1. Men's Clothing: 149393.91
 2. Women's Clothing: 135099.91
 3. Women's Shoes: 105479.17
 4. Men's Shoes: 91797.92
 5. Women's Accessories: 60830.31 

✦ I've found the answer; now I'll format it for clarity.

 ✓  Shell 

 Here are the top 5 product categories by total sales revenue:                                                        
                                                                      
 | Rank | Category              | Total Revenue | 
 |------|-----------------------|---------------| 
 | 1    | Men's Clothing        | 149,393.91    |
 | 2    | Women's Clothing      | 135,099.91    |
 | 3    | Women's Shoes         | 105,479.17    |
 | 4    | Men's Shoes           | 91,797.92     | 
 | 5    | Women's Accessories   | 60,830.31     | 

✦ I've formatted and presented the answer. I'm finished.
 ───────────────────────────────────────────────────────────

Es interesante ver cómo el modelo Gemini genera la respuesta final mostrando todos los pasos que sigue. Aquí, puedes ver claramente la influencia de la habilidad en el proceso de razonamiento del modelo. La primera vez que el modelo reconoce que necesita usar una habilidad o ejecutar un comando de shell, pide permiso empleando el enfoque de intervención humana.

Al manejar el trabajo pesado de descubrimiento de esquemas, generación de consultas y ejecución, la habilidad esql te permite concentrarte completamente en las respuestas en lugar de en la mecánica para obtenerlas. Obtendrás los datos que necesitas, correctamente formateados y directamente en tu terminal, todo sin escribir una sola línea de sintaxis o cambiar de contexto a otra aplicación.

Conclusión

En este artículo, presentamos la extensión Elasticsearch para Gemini CLI que lanzamos recientemente. Esta extensión te permite interactuar con tu instancia de Elasticsearch mediante Gemini y el servidor MCP de Elasticsearch que ofrece Elastic Agent Builder, disponible a partir de la versión 9.3.0, así como el comando /elastic .

Además, la extensión también incluye una habilidad esql que convierte la solicitud del usuario de lenguaje natural en una consulta en ES|QL. Esta habilidad puede resultar especialmente útil cuando no se puede usar el servidor MCP, ya que la comunicación subyacente se gestiona mediante simples comandos curl ejecutados en una terminal. Elasticsearch ofrece un amplio conjunto de API REST que se pueden integrar fácilmente en cualquier proyecto. Esto es especialmente útil cuando se desarrollan aplicaciones de AI agéntica.

Para más información sobre nuestra extensión Gemini CLI, visita el repositorio del proyecto aquí.

Habilidades de agente para Elastic: convierte a tu agente de IA en un experto en Elastic

Graham Hudgins, Matt Ryan — Mon, 16 Mar 2026 00:00:00 GMT

Todos los desarrolladores, ingenieros de confiabilidad del sitio (SRE) o analistas que han intentado usar un agente de programación basado en IA con una plataforma especializada se han enfrentado al mismo obstáculo. Pides al agente que escriba una búsqueda, configure una alerta o realice una investigación y se acerca, pero no es del todo correcto. Elastic tiene una ventaja aquí: más de una década de documentación, publicaciones de blog y respuestas de la comunidad significa que los agentes de IA ya conocen Elastic mejor que la mayoría de las plataformas de datos. Pero esa profundidad viene con ruido. Las API obsoletas coexisten con las actuales. Los patrones desactualizados tienen tanta importancia como las mejores prácticas. El agente reproduce con confianza un enfoque que funcionó hace tres versiones, porque en sus datos de entrenamiento sí funcionó. El resultado es un costo de corrección: los usuarios ingresan manualmente la documentación en el contexto, corrigen la sintaxis alucinada y trabajan alrededor del agente en lugar de con él. Lo que es peor: las funciones avanzadas no se usan en absoluto, no porque los usuarios no las necesiten, sino porque el agente no sabe que existen.

Por eso estamos liberando el código de Elastic Agent Skills como open-source: experiencia nativa en plataformas para Elasticsearch, Kibana, Elastic Observability y Elastic Security. Insértalo en el tiempo de ejecución del agente que ya usas y cambia a tu agente de “generalista” que adivina mucha de la sintaxis a darle experiencia, como, por ejemplo, poder usar muchos de los estándares arquitectónicos como los propios equipos de ingeniería de Elastic. Esta versión inicial de vista previa técnica se centra en las habilidades con máxima compatibilidad para Elastic Cloud Serverless, pero evolucionará rápidamente para incluir un mejor soporte para versiones anteriores del stack.

Además, Elastic está abordando este problema desde ambos frentes. Para los agentes en la plataforma de Elastic, Elastic Agent Builder (ahora disponible en general) te permite crear y chatear con agentes de IA que heredan los controles de acceso de tus datos, usan herramientas integradas de búsqueda y análisis, y trabajan en contexto junto a tus dashboards, alertas e investigaciones. Estamos trabajando intensamente para asegurar experiencias agénticas increíbles en la plataforma de Elastic. Pero no todos los agentes están dentro de Elastic. Tu equipo ya usa Cursor, Claude Code u otros entornos de ejecución, y esos agentes también necesitan que Elastic funcione bien. Ahí es donde entra en juego Agent Skills.

Por qué los agentes tienen dificultades con plataformas especializadas

Los modelos de lenguaje grandes (LLM) son generalistas con capacidades extraordinarias. Pueden escribir Python, explicar los manifiestos de Kubernetes y refactorizar los componentes de React porque sus datos de entrenamiento están llenos de ejemplos. Pero cuando se trata de trabajo específico de la plataforma, del tipo que implica lenguajes de búsqueda patentados, superficies de API profundas y mejores prácticas específicas del dominio, muestran limitaciones previsibles.

En el caso de Elasticsearch, la diferencia se nota claramente:

El lenguaje de búsqueda de Elasticsearch (ES|QL) es un nuevo territorio. Los LLM están muy entrenados en SQL, pero ES|QL es un lenguaje de búsquedas con barras verticales, con sintaxis, funciones y semántica diferentes. Los agentes suelen escribir búsquedas que parecen razonables, pero no se pueden parsear. Confunden WHERE con | WHERE, inventan funciones que no existen y pierden por completo el modelo de composición basado en barras verticales.
Las superficies de API son anchas y profundas. Elasticsearch, Kibana y Elastic Security ofrecen cientos de API para búsqueda, ingesta, alertas, reglas de detección, gestión de casos, dashboards y mucho más. Un agente que solo cuenta con datos de entrenamiento generales tiene que adivinar a qué endpoint debe enviar la solicitud, cómo es el cuerpo de la solicitud y cómo gestionar la respuesta. Sus suposiciones son incorrectas con demasiada frecuencia como para erosionar la confianza.
Las mejores prácticas no están en los datos de entrenamiento. ¿Cuándo deberías usar semantic_text frente a una pipeline de incrustación personalizada? ¿Cómo deberías estructurar una pipeline de ingesta para un CSV de 10GB? ¿Cuál es la sintaxis correcta de reglas de detección para una técnica MITRE ATT&CK®? Los agentes de uso general no tienen, por defecto, conocimientos específicos de Elastic seleccionados y estructurados de forma confiable. Tendrían que buscarlo, y aunque lo hicieran, la documentación sin procesar no siempre codifica los juicios y mejores prácticas que ofrecen los profesionales calificados.

El resultado: los desarrolladores pasan más tiempo corrigiendo el resultado del agente que el que habrían dedicado a escribir el código ellos mismos. Esa es la experiencia para la que nadie se registró.

Agent Skills: conocimiento de la plataforma, empaquetado para los agentes

Agent Skills son directorios independientes que contienen instrucciones, scripts y material de referencia que los entornos de ejecución de agentes pueden cargar dinámicamente. Cuando una habilidad está activa, el agente tiene acceso al contexto adecuado en el momento oportuno: sintaxis de búsqueda, patrones de API, lógica de validación y ejemplos prácticos, lo que le permite completar las tareas correctamente desde el primer intento.

Cada habilidad sigue la especificación abierta agentskills.io: una carpeta con un archivo SKILL.md que contiene metadatos e instrucciones estructuradas. Sin formato propietario, sin dependencia del proveedor. Las habilidades funcionan en diferentes entornos de ejecución de agentes; esto incluye Cursor, Claude Code, GitHub Copilot, Windsurf, Gemini CLI, Cline, Codex y muchos más.

¿Qué hay en la versión inicial v0.1.0?

El primer conjunto de habilidades abarca cinco áreas del Elastic Stack:

Interactuar con las API de Elasticsearch (búsqueda, indexación, gestión de clústeres)
Crear y gestionar contenido de Kibana como dashboards, alertas, conectores y más
Especialización en el dominio para Elastic Observability
Pericia en la materia para Elastic Security
Cómo crear agentes eficaces en Agent Builder

Las habilidades son componibles

Las habilidades no son homogéneas. Son modulares por diseño. Tu agente carga solo las habilidades relevantes para la tarea en cuestión. ¿Estás trabajando en una búsqueda ES|QL? Se activa la habilidad ES|QL. ¿Necesitas crear un dashboard a partir de esos resultados? Aparece la habilidad de dashboard. ¿Estás evaluando el estado de tu aplicación? La habilidad de estado del servicio entra en juego. ¿Estás investigando una alerta de seguridad? La habilidad de triaje se asocia con habilidades de gestión de casos y respuesta a medida que avanza la investigación.

Esta capacidad de composición significa que no necesitas un único aviso masivo que intente cubrir todo. Cada habilidad lleva exactamente el contexto que tu dominio requiere, nada más, nada menos.

Para desarrolladores que crean aplicaciones de búsqueda e IA

Si estás cargando datos en Elasticsearch, escribiendo búsquedas o migrando índices, las habilidades reducen el ciclo de generación de código, errores y búsqueda de documentos a partir de los errores.

Pídele a tu agente que cargue un archivo CSV, y este utilizará una herramienta de ingesta en tiempo real que gestiona la contrapresión y deduce el mapping a partir de los datos. No es un bucle _bulk a medida que se queda sin memoria con el primer archivo grande. Pídele que realice búsquedas con ES|QL, y detectará los nombres reales de tus índices y los esquemas de los campos; luego generará búsquedas con barras verticales válidas, con la sintaxis correcta, las agregaciones adecuadas y una selección de características que tiene en cuenta la versión, en lugar de una conjetura al estilo SQL que requiere tres rondas de depuración. Si le pides que vuelva a indexar los clusters, sigue todo el flujo de trabajo operativo: crea el destino con mapping explícitos, configura los ajustes para el rendimiento, ejecuta el trabajo de forma asincrónica y restaura la configuración de producción cuando termina, no una llamada de _reindex que omite la mitad de los pasos que seguiría un operador experimentado.

En lugar de un agente que te da un punto de partida razonable que tienes que arreglar, obtienes uno que codifica la disciplina operativa que hace que el resultado realmente funcione.

Ejemplos de impactos del uso de Elastic Agent Skills

Eval	Qué cambió la habilidad
es-audit-query-failed-logins	Usó los patrones de búsqueda del log de auditoría de la habilidad en lugar de una búsqueda genérica
es-authz-role-mapping-ldap	Generó la estructura correcta de la llamada de API para el mapping de roles
esql-basic-query	Escribió la sintaxis de barras verticales ES\|QL en lugar de Query DSL
esql-error-handling	Primero el esquema, en lugar de adivinar los nombres de los campos
esql-schema-discovery	Nunca adivinó el nombre de un índice
es-ingest-csv-with-infer	Usó únicamente --infer-mappings, evitó combinarlo con --source-format csv, que genera un índice vacío.
es-ingest-json-file	Usó un método de ingesta sólido capaz de gestionar archivos de gran tamaño
es-reindex-local-async	Creó primero el índice de destino con réplicas: 0 y refresh_interval: "-1", luego la reindexación asíncrona. La línea base omitió cualquier preparación
es-seguridad-403-privilegios	Siguió el flujo de trabajo de diagnóstico de la herramienta para los errores de privilegios, en lugar de seguir consejos genéricos

Para equipos de seguridad

Los equipos de seguridad repiten los mismos flujos de trabajo operativos a diario: clasificación de alertas, ajuste de reglas de detección, gestión de casos. Las habilidades del agente codifican ese conocimiento de procesos para que tu agente de IA pueda ejecutar estos flujos de trabajo correctamente al llamar a las API adecuadas en el orden correcto con los nombres de campo correctos. Para una guía práctica que te lleva de cero a un entorno de Elastic Security completamente configurado sin salir de tu IDE, consulta Empieza con Elastic Security desde tu agente de IA.

Para equipos de observabilidad y operaciones

Las nuevas funciones de los agentes de Elastic Observability reducen la carga operativa que supone instrumentar sistemas complejos, gestionar los SLO, analizar datos complejos y evaluar el estado de los servicios. Incorporar la experiencia nativa de Elastic directamente en los agentes de IA permite a los equipos ejecutar flujos de trabajo complejos de observabilidad utilizando un lenguaje natural sencillo. Esto permite a los SRE y equipos de operaciones resolver incidentes más rápido y mantener sistemas fiables con mayor facilidad. Obtén más información en este blog.

Open source, especificación abierta, impulsado por la comunidad

Estamos lanzando Agent Skills bajo la licencia Apache 2.0 porque creemos que el conocimiento de los agentes debe ser abierto. La especificación agentskills.io que siguen las habilidades es un estándar abierto, no un formato propietario de Elastic. Queremos que las habilidades sean un esfuerzo comunitario, no un entorno cerrado.

Parte de un panorama más amplio

Agent Skills es una parte de una iniciativa más amplia para hacer de Elasticsearch la plataforma de datos disponible más preparada para los agentes. Para los agentes que están en la plataforma Elasticsearch, Agent Builder va más allá al heredar los controles de acceso y permisos de tus datos, ofrecer herramientas integradas y personalizadas para búsqueda y análisis, y permitir que los usuarios interactúen con los agentes en contexto junto con sus dashboards, alertas e investigaciones. Finalmente, el soporte para habilidades llegará pronto a Agent Builder, lo que permitirá a los desarrolladores la flexibilidad de aprovechar las habilidades de Elastic Agent, así como habilidades de cualquier otra fuente para habilitar chats y automatizaciones seguras y mejoradas por contexto en la plataforma Elasticsearch.

Para los agentes que viven en cualquier otro lugar, estamos invirtiendo en el ecosistema abierto:

Expansión del servidor del Model Context Protocol (MCP): Ampliando el endpoint MCP en Agent Builder con más herramientas, más allá de la búsqueda actual, ES|QL y operaciones de índice.
Mejoras en la autenticación: Facilitar a los agentes la conexión segura, con el objetivo de eliminar la necesidad de copiar y pegar manualmente las claves de API.
Documentación legible en LLM: publicar archivos llms.txt y AGENTS.md para que los agentes puedan descubrir y entender las API de Elastic por sí mismos.
Una interfaz de línea de comandos (CLI) para los flujos de trabajo de los agentes: Herramientas de línea de comandos que facilitan la gestión de conexiones y las operaciones comunes para los agentes.

Las habilidades son la capa que puedes usar hoy. El resto llegará más adelante.

Comenzar

Antes de que empieces: los agentes de programación con IA operan con credenciales reales, acceso real a la shell y, a menudo, con todos los permisos del usuario que los ejecuta. Cuando esos agentes se orientan a flujos de trabajo de seguridad, hay más en juego: le estás dando a un sistema automatizado acceso a la lógica de detección, las acciones de respuesta y la telemetría sensible. El perfil de riesgo de cada organización es diferente. Antes de habilitar los flujos de trabajo de seguridad impulsados por IA, evalúa a qué datos puede acceder el agente, qué acciones puede realizar y qué pasa si se comporta de forma inesperada.

Instala Elastic Agent Skills en el tiempo de ejecución de tu agente:

npx skills add elastic/agent-skills

Esto detecta automáticamente tus tiempos de ejecución del agente instalado y coloca las habilidades en el directorio de configuración correcto. Desde allí, tu agente los recoge automáticamente.

También puedes navegar directamente en el catálogo de habilidades e instalar habilidades individuales manualmente si copias la carpeta de la habilidad en el directorio de configuración de tu agente.

¿Aún no tienes un clúster de Elasticsearch? Comienza una prueba gratis de Elastic Cloud. Lleva aproximadamente un minuto obtener un entorno completamente configurado.

Explora el proyecto:

Resolución de entidades con Elasticsearch, parte 4: el desafío final

Jessica Moszkowicz — Fri, 13 Mar 2026 00:00:00 GMT

Ya hemos visto cómo se implementa la resolución inteligente de entidades de dos maneras. Ambos enfoques comienzan de la misma forma: preparación y extracción de entidades, seguidas de la recuperación de candidatos con Elasticsearch. A partir de ahí, evaluamos a esos candidatos usando un modelo de lenguaje grande (LLM), ya sea mediante generación de JSON basada en prompts o mediante llamadas de funciones, y exigimos que el modelo ofrezca una explicación transparente de su juicio.

Como vimos en la entrada anterior, la consistencia que aportan las llamadas a funciones no es solo una optimización interesante; es esencial. Una vez que eliminamos los errores estructurales del ciclo de evaluación, los resultados en escenarios estándar (como los de los sets de datos de nivel 4) mejoraron significativamente.

Sin embargo, queda una pregunta obvia por responder:

¿Funciona de igual manera este enfoque cuando todo se complica realmente?

La resolución de entidades del mundo real rara vez falla debido a casos simples. Falla cuando los nombres atraviesan idiomas, culturas, sistemas de escritura, períodos de tiempo y límites organizacionales. Falla cuando las personas se mencionan por sus cargos en lugar de por sus nombres, cuando las empresas cambian de nombre, cuando las transliteraciones no son consistentes y cuando el contexto (no la ortografía) es lo único que vincula una mención a una entidad del mundo real.

Así que, para la publicación final de esta serie, sometimos el sistema a lo que llamamos el desafío definitivo.

¿Qué hace que esto sea el desafío definitivo?

En evaluaciones anteriores, probamos el sistema con sets de datos cada vez más complejos. Para cuando llegamos al nivel 4, analizado en la publicación anterior, ya estábamos lidiando con una mezcla de apodos, cargos, nombres multilingües y referencias semánticas. Esas pruebas demostraron que la arquitectura en sí era estable, pero que los problemas de confiabilidad, especialmente el JSON mal formado, estaban reduciendo la capacidad de recuperación.

Con la llamada a funciones implementada, finalmente conseguimos una base estable. Eso nos dio la oportunidad de hacer una pregunta más interesante:

¿Puede una única pipeline unificada gestionar muchos tipos diferentes de problemas de resolución de entidades al mismo tiempo?

El set de datos del desafío final se diseñó precisamente para poner a prueba esa dimensión.

En lugar de centrarse en una sola dificultad (como apodos o transliteración), este sets de datos combina más de 50 tipos distintos de desafíos, incluyendo:

Convenciones de nomenclatura cultural.
Referencias basadas en cargos.
Relaciones comerciales y cambios históricos de nombre.
Menciones multilingües y entre sistemas de escritura.
Desafíos compuestos que mezclan varios de los anteriores.

Lo importante es que no se trata de optimizar para un solo caso de uso concreto. Se trata de probar si el patrón de diseño se mantiene cuando las reglas cambian de entidad a entidad.

Resumen del set de datos

El set de datos del desafío final consta de:

50 entidades, que abarcan personas, organizaciones e instituciones.
~60 artículos, con estructuras y complejidad lingüísticas variables.
51 categorías distintas de desafíos, agrupadas en términos generales en:
- Convenciones de nomenclatura cultural.
- Títulos y contexto profesional.
- Relaciones empresariales y organizacionales.
- Desafíos multilingües y de transliteración.
- Escenarios combinados y de casos límite.

Al principio de la serie, vimos que usar IA generativa (GenAI) para crear sets de datos puede tener pros y contras. Sin eso, sería muy difícil reunir datos de prueba lo suficientemente amplios y variados. Pero si no se controla, el modelo tiende a facilitar demasiado todo.

En una fase inicial de generación, por ejemplo, descubrimos que el modelo había incluido frases como «el presidente ruso» como alias explícitos para Vladimir Putin. Eso podría parecer razonable hoy en día, pero anula el propósito de probar la resolución contextual. ¿Qué pasa si el artículo habla de Rusia en la década de 1990? El sistema debería deducir la entidad correcta a partir del contexto, en lugar de basarse en un alias predefinido.

Por esa razón, este set de datos fue diseñado deliberadamente para que los atajos no funcionen. Los alias no se enumeran explícitamente cuando se espera que el sistema deduzca su significado. Las frases descriptivas no están previnculadas a entidades. Las coincidencias correctas suelen depender del contexto del artículo, no solo del texto local.

Nota importante: Aunque demostramos las capacidades del sistema en diversos escenarios, este sigue siendo un prototipo educativo. Los sistemas de producción que manejan el monitoreo de entidades sancionadas en el mundo real requerirían validación adicional, verificaciones de cumplimiento, pistas de auditoría y manejo especializado para casos de uso confidenciales.

¿Por qué estos escenarios son difíciles?

¡En la primera publicación de esta serie, presentamos un ejemplo simple pero ambiguo: “¡La nueva actualización de Swift está aquí!”! El desafío es que “Swift” puede resolverse en múltiples entidades del mundo real, dependiendo del contexto. Ese ejemplo refleja una verdad más amplia: el lenguaje natural es inherentemente ambiguo.

La resolución de entidades, por lo tanto, no es solo un problema de coincidencia de texto. Los humanos solemos basarnos en el conocimiento compartido, las normas culturales y el contexto de cada situación para interpretar las referencias, y casi nunca nos damos cuenta de que lo estamos haciendo.

Considera algunos casos comunes:

Un título como “el presidente” no tiene sentido sin contexto geopolítico y temporal.
El nombre de una empresa puede referirse a la empresa matriz, a una filial o a una marca anterior, dependiendo de cuándo se escribió el artículo.
El nombre de una persona puede aparecer en diferentes órdenes, sistemas de escritura o transcripciones, dependiendo del idioma y la cultura.
La misma frase puede referirse legítimamente a diferentes entidades en diferentes contextos, y el sistema debe ser capaz de rechazar coincidencias con la misma confianza con la que las acepta.

No existe un único conjunto de reglas que maneje todo esto de manera clara. Por eso este prototipo separa las responsabilidades de forma tan marcada:

Elasticsearch reduce el espacio de candidatos de manera eficiente y transparente.
El LLM se usa solo donde se requiere juicio y está obligado a explicarse a sí mismo.
La recuperación y el razonamiento siguen siendo pasos distintos.

Esta distinción cobra aún más importancia a medida que aumenta la variedad de tipos de desafíos.

Cómo el sistema gestiona la diversidad sin casos especiales

Uno de los resultados más interesantes de esta evaluación es lo que no cambió:

No agregamos lógica especial para nombres japoneses.
No agregamos reglas personalizadas para patronímicos árabes.
No agregamos mapeos codificados para nombres históricos de compañías.

En cambio, el sistema se basó en los mismos elementos principales presentados anteriormente en la serie:

Entidades enriquecidas con contexto indexadas para búsqueda semántica.
Recuperación híbrida (exacta, alias y semántica) en Elasticsearch.
Un conjunto pequeño y bien definido de posibles coincidencias.
El juicio del LLM está limitado por las llamadas a funciones y los esquemas mínimos.

Esto sugiere que la flexibilidad del sistema proviene de la representación y arquitectura, no de una colección cada vez mayor de reglas.

Cuando el sistema tiene éxito, es porque se recuperan los candidatos adecuados y el LLM tiene suficiente contexto para explicar por qué una referencia mapea (o no) a una entidad específica.

Resultados: ¿cómo funcionó?

En los sets de datos del desafío final, el sistema obtuvo los siguientes resultados generales:

Precisión: ~91 %
Recuperación: ~86 %
Puntuación F1: ~89 %
Tasa de aceptación en LLM: ~72 %

Rendimiento en los tipos de desafíos

El desglose de resultados por tipo de desafío revela fortalezas y limitaciones:

El mejor desempeño (100 % de puntuación F1) se observó en áreas como:

Coincidencia entre diferentes sistemas de escritura (entidades comerciales en cirílico, coreano y chino).
Escenarios hebreos (patronímicos, títulos profesionales, títulos religiosos, transliteración).
Jerarquías empresariales (aeroespacial, producción diversificada, corporaciones multidivisionales).
Títulos profesionales (académicos, militares, políticos, religiosos).
Escenarios japoneses combinados que involucran múltiples sistemas de escritura.

Fuerte rendimiento (80-99 % de puntuación F1) incluido:

Figuras políticas internacionales (98%).
Cambios de nombre históricos (90 %).
Jerarquías empresariales complejas (89 %).
Nombres de empresas japonesas (93 %).
Transliteración entre alfabetos (86 %).
Patronímicos árabes (86 %).

Las áreas más desafiantes fueron:

Transliteración avanzada (chino, coreano): 0 % F1.
Ciertos escenarios japoneses (honoríficos, orden de los nombres, variación del sistema de escritura): ~67 % F1.
Algunos escenarios árabes (nombres de empresas, referencias institucionales): ~40% F1.

Lo importante aquí es por qué el sistema tuvo dificultades en estos casos. Las fallas no se debieron a la ruptura del enfoque general, sino a limitaciones en componentes específicos, sobre todo el modelo vectorial denso utilizado para la búsqueda semántica en ciertos escenarios multilingües.

Como la recuperación y la evaluación están claramente separadas, para mejorar el rendimiento no hace falta reescribir el sistema. Si se sustituyera por un modelo de incrustación multilingüe más potente, se enriquecería el contexto de las entidades o se perfeccionarían las estrategias de recuperación, se mejorarían los resultados en todas estas categorías sin cambiar la arquitectura central.

Desde el punto de vista arquitectónico, esa es la verdadera medida del éxito.

Qué nos dice esto sobre el diseño

Si vemos nuevamente las series, se observan algunas tendencias:

La preparación importa más que la coincidencia inteligente. El enriquecimiento de entidades con contexto de antemano reduce drásticamente la ambigüedad posteriormente.
Los LLM son más valiosos como jueces, no como recuperadores. Pedirles que expliquen por qué una coincidencia tiene sentido es mucho más poderoso que pedirles que realicen una búsqueda.
La fiabilidad permite la precisión. La llamada a funciones no solo limpió el JSON; desbloqueó la memoria que ya estaba latente en el paso de recuperación.
La generalización supera a la especialización. Un pequeño número de abstracciones bien seleccionadas manejó decenas de tipos de desafío sin lógica personalizada.

Esta es la razón por la que el prototipo es intencionalmente nativo de Elasticsearch y es intencionalmente conservador en cómo utiliza los LLM. El objetivo no es reemplazar la búsqueda; es hacer que la búsqueda sea explicable en situaciones donde el significado importa.

Reflexiones finales

El desafío final no se trataba de perseguir métricas perfectas; se trataba de responder una pregunta más fundamental:

¿Puede una arquitectura transparente, centrada en la búsqueda y asistida por LLM, manejar la ambigüedad de entidades en el mundo real sin colapsar en reglas o cajas negras?

Para este prototipo educativo, la respuesta es sí, con claras advertencias sobre el fortalecimiento de la producción, el cumplimiento, el monitoreo y la calidad de los datos. Si estás creando sistemas que necesitan justificar por qué se hizo una coincidencia de entidades, este patrón merece ser considerado seriamente. Espero que esta serie haya demostrado que la resolución de entidades no tiene que ser misteriosa. Con una correcta separación de responsabilidades, se convierte en algo sobre lo que puedes razonar, medir y mejorar.

Este trabajo también sugiere un patrón arquitectónico más amplio. Lo que surge es una ligera pero importante evolución de la clásica Retrieval-Augmented Generation (RAG). En lugar de permitir que la recuperación alimente directamente la generación, introducimos un paso de evaluación explícito. El LLM se usa primero para juzgar y verificar el estado de los candidatos recuperados, y solo los resultados aprobados pueden incrementar la generación. Se puede pensar en esto como Generation-Augmented Retrieval-Augmented Generation with Evaluation, o GARAGE, porque a quién no le gusta un buen acrónimo.

¿Qué otros casos de uso podrían beneficiarse de este patrón? Los sistemas que requieren confianza, transparencia y razonamiento justificable son candidatos naturales. Los trabajos futuros en este ámbito deberían ser tan convincentes como los resultados que hemos visto aquí, y tengo muchas ganas de ver hacia dónde lo lleva la comunidad.

Próximos pasos: Pruébalo tú mismo

¿Quieres ver el desafío final en acción? Mira el cuaderno de desafío final para obtener una guía completa con implementaciones reales, explicaciones detalladas y ejemplos prácticos.

El pipeline completo de resolución de entidades demuestra los conceptos del núcleo y la arquitectura necesarios para uso en producción. Se puede usar como base para construir sistemas que monitoreen los artículos de noticias, rastreen las menciones de entidades y respondan preguntas sobre qué entidades aparecen en qué artículos, al tiempo que se mantiene la transparencia y la explicabilidad.

Terminación temprana adaptativa para HNSW en Elasticsearch

Tommaso Teofili — Mon, 02 Mar 2026 00:00:00 GMT

Elasticsearch utiliza el algoritmo Hierarchical Navigable Small World (HNSW) para realizar búsquedas de vectores en un grafo de proximidad. Se sabe que HNSW ofrece un buen equilibrio entre la calidad de los resultados del método k vecino más cercano (KNN) y el costo asociado.

En HNSW, la búsqueda avanza expandiendo iterativamente los nodos candidatos en el grafo, lo que mantiene un conjunto acotado de vecinos más cercanos descubiertos hasta ahora. Cada expansión tiene un costo (operaciones vectoriales, búsquedas aleatorias en el disco y más), y el beneficio marginal de ese costo tiende a disminuir a medida que avanza la búsqueda.

Una forma de optimizar el recorrido de grafos de HNSW es dejar de buscar cuando la probabilidad marginal de encontrar nuevos vecinos verdaderos no aumenta. Por esta razón, en Elasticsearch 9.2, introdujimos un nuevo mecanismo de terminación temprana. Esto detiene el proceso de búsqueda cuando visitar nodos del grafo no proporciona suficientes vecinos más cercanos nuevos, consecutivamente, para un número fijo de veces.

En este artículo, te orientamos sobre cómo mejoramos el mecanismo de terminación temprana mencionado en HNSW para hacerlo más adecuado para diferentes sets de datos y distribuciones de datos.

Terminación temprana en HNSW

En HNSW, la búsqueda avanza expandiendo iterativamente nodos candidatos en el grafo de proximidad, lo que mantiene un conjunto limitado de vecinos más cercanos descubiertos hasta el momento, hasta que haya visitado todo el grafo o cumpla con algunos criterios de terminación temprana.

Por lo tanto, la terminación temprana no siempre es necesariamente una optimización, sino que es parte del algoritmo de búsqueda en sí. El momento en que decidimos detenernos determina el equilibrio entre eficiencia y recuperación. En Elasticsearch, ya hay varias formas en que una consulta en HNSW puede terminar de forma temprana:

Se visita una cantidad máxima fija de nodos.
Se alcanza un tiempo de espera fijo.

Si bien son simples y previsibles, estas reglas son, en gran medida, independientes de lo que realmente está haciendo la búsqueda. También se emplean, principalmente, para garantizar que la búsqueda finalice en un tiempo razonable para el usuario final.

En una entrada anterior del blog, presentamos el concepto de redundancia en HNSW. En resumen, los cálculos redundantes ocurren cuando HNSW continúa evaluando nuevos nodos candidatos que no dan como resultado la búsqueda de más vecinos más cercanos.

Paciencia: medir el progreso en lugar del esfuerzo

La noción de paciencia replantea la terminación temprana en torno al progreso, en lugar del esfuerzo.

En lugar de preguntar:

“¿Cuántos pasos hemos dado?”

La nueva pregunta es:

“¿Qué cantidad de cómputo aceptamos desperdiciar hasta que perdemos la esperanza?”

Durante la búsqueda de HNSW, por lo general, la exploración temprana produce mejoras máximas en el conjunto de candidatos top-k. Durante los primeros pasos de la exploración de grafos de HNSW, el conjunto de vecinos se actualiza continuamente a medida que el algoritmo sigue descubriendo vecinos cada vez más cercanos al vector de búsqueda. Con el tiempo, estas mejoras se vuelven más raras a medida que la búsqueda converge. La terminación basada en la paciencia monitorea este patrón y finaliza la búsqueda una vez que las mejoras han cesado durante un período prolongado.

En la práctica, al visitar el grafo de HNSW, también calculamos la relación de saturación de la cola al saltar entre nodos candidatos. Esto mide el porcentaje de vecinos más cercanos que se dejaron sin cambios al visitar el nodo del grafo más reciente (o el inverso del número de nuevos vecinos introducidos durante la última iteración). Cuando esa proporción se vuelve demasiado grande para demasiadas iteraciones consecutivas, dejamos de visitar el grafo.

Conceptualmente, la paciencia trata la búsqueda de HNSW como un proceso de rendimientos decrecientes. Cuando los rendimientos se estabilizan, seguir analizando el grafo aporta pocos beneficios.

Esta estructura es poderosa porque vincula la terminación directamente a resultados observables, en lugar de a límites fijos arbitrarios.

El beneficio de usar esta técnica inteligente de terminación temprana es que las exploraciones del grafo de HNSW tienden a visitar un número menor de nodos del grafo, mientras mantienen una recuperación relativa casi perfecta.

Para visualizar esto, podemos graficar la cantidad de recuperación por nodo visitado que obtuvimos con la terminación temprana basada en la paciencia (etiquetada como et=static), en comparación con el comportamiento predeterminado de HNSW (etiquetado como et=no) en un par de sets de datos, FinancialQA y Quora, y modelos, JinaV3 y E5-small.

Umbrales estáticos y dinámicas de HNSW

En la práctica, en Elasticsearch esto se implementa utilizando umbrales estáticos. Un umbral se refiere al umbral de saturación, es decir, la proporción de saturación que consideramos subóptima. El otro umbral se refiere al número de nodos del grafo consecutivos que permitimos que se visiten sin dejar de tener una saturación de cola subóptima: es decir, el umbral de paciencia.

Cuando introdujimos esta estrategia de terminación temprana en Elasticsearch 9.2, decidimos optar por valores predeterminados conservadores, para permitir la recuperación tanto como fuera posible, mientras se mejora la latencia y el consumo de memoria. Por esta razón, establecemos el umbral de saturación al 100 % y el umbral de paciencia se establece como un 30 % (limitado) del num_candidates en la búsqueda de KNN.

En muchas situaciones, estas configuraciones resultaron funcionar bien; sin embargo, dos búsquedas que solicitan el mismo número de vecinos podrían tener comportamientos de convergencia radicalmente diferentes. Algunas búsquedas encuentran vecindarios locales densos y se saturan rápidamente; otras deben atravesar caminos largos y dispersos antes de encontrar candidatos competitivos. Estas últimas resultaron ser las más difíciles de manejar con eficacia.

Como resultado, a veces notamos lo siguiente:

Sobreexploración para búsquedas sencillas.
Terminación prematura para búsquedas difíciles.

Por lo tanto, consideramos que los valores de umbral fijos codifican suposiciones globales sobre la convergencia, mientras que podríamos hacer que HNSW se adapte mejor a diferentes dinámicas.

Hacer que la terminación temprana de HNSW sea adaptativa

La terminación temprana adaptativa aborda este problema desde otro ángulo. En lugar de imponer umbrales de parada predefinidos, el algoritmo infiere cuándo detenerse de la propia dinámica de búsqueda.

Entonces, en lugar de comparar la proporción de saturación de cola entre dos candidatos consecutivos, decidimos introducir una tasa de descubrimiento suavizada instantánea $d_{q,i} $ (cuántos vecinos nuevos se introdujeron para una búsqueda q en la última visita i) junto con el promedio móvil $\mu_{q,i}$ y la desviación estándar $\sigma_{q,i}$ de tal tasa de descubrimiento durante la visita del grafo (usando el algoritmo de Welford). Estas estadísticas sobre la tasa de descubrimiento se calculan por búsqueda, de modo que esta información pueda utilizarse para decidir diferentes grados de paciencia para cada búsqueda.

Los umbrales anteriormente estáticos se vuelven adaptativos a las estadísticas de tasa de descubrimiento: el umbral de saturación se convierte en el promedio móvil más la desviación estándar; mientras tanto, hacemos que la paciencia se adapte y escale inversamente con la desviación estándar.

Las reglas de salida anticipada siguen siendo las mismas; la saturación se produce cuando la tasa de descubrimiento instantáneo es menor que el umbral de saturación adaptativa. La visita al grafo se detiene si la saturación persiste durante un número de visitas consecutivas de candidatos que es mayor que la paciencia adaptativa.

De este modo, obtenemos un comportamiento que no depende del parámetro num_candidates en la búsqueda de KNN (que puede estar siempre establecido o dejado como predeterminado, independientemente de si sale pronto) y que se adapta mejor dinámicamente a cada consulta y distribución vectorial.

La recuperación por nodo visitado en FinancialQA y Quora con la estrategia adaptativa (etiquetada como et=adaptive) reporta una mayor recuperación por nodo visitado, en comparación con la estrategia estática (et=static) y el comportamiento predeterminado de HNSW (et=no).

La terminación temprana adaptativa está activada de manera predeterminada en Elasticsearch 9.3 para los campos vectoriales densos de HNSW (y, eventualmente, se puede desactivar a través de la misma configuración de nivel de índice).

Lenguaje de expresión común (CEL): cómo la entrada CEL mejora la recopilación de datos en las integraciones de Elastic Agent

Chris Berkhout — Fri, 27 Feb 2026 00:00:00 GMT

Las integraciones de Elastic Agent permiten a los usuarios realizar la ingesta de datos en Elasticsearch desde una amplia variedad de fuentes. Combinan la lógica de recopilación, canalizaciones de ingesta, dashboards y otros artefactos en un paquete que se puede instalar y administrar desde la interfaz web de Kibana.

Las integraciones configuran las entradas de Filebeat para realizar la recopilación de datos. Para recopilar datos de APIs HTTP, a menudo utilizamos la entrada HTTP JSON. Sin embargo, incluso las APIs básicas de listado pueden diferir mucho en los detalles, y el modelo de transformaciones configuradas en YAML de la entrada HTTP JSON puede hacer que sea engorroso y a veces imposible expresar la lógica de recopilación requerida.

Se introdujo la entrada del lenguaje de expresión común (CEL) para permitir una interacción más flexible con las APIs HTTP. CEL es un lenguaje diseñado para integrarse en aplicaciones que requieren una forma rápida, segura y extensible de expresar condiciones y transformaciones de datos. La entrada CEL permite a un creador de integraciones escribir una expresión que puede leer configuraciones, realizar un seguimiento de su propio estado, realizar solicitudes, procesar respuestas y, en última instancia, devolver eventos listos para su ingesta.

En este artículo, veremos cómo se diferencia el lenguaje de expresión común de otros lenguajes de programación, cómo lo ampliamos para la entrada del CEL, y la flexibilidad y el poder que te da para expresar tu lógica de recopilación de datos.

CEL y cómo funciona en la entrada

CEL es un lenguaje de expresión. No tiene declaraciones. Cuando escribes CEL, no le dices qué hacer al escribir declaraciones, sino que le dices qué valor producir al escribir una expresión. Cada expresión CEL produce un valor, y las expresiones más pequeñas pueden combinarse en una expresión mayor para producir un resultado según reglas más complejas. Más adelante veremos cómo usar expresiones que se pueden escribir con declaraciones en otros idiomas.

CEL es intencionadamente un lenguaje completo no Turing. No permite bucles ilimitados. Más adelante, veremos cómo puedes procesar listas y mapas mediante macros, pero al evitar bucles sin límites, el lenguaje garantiza un tiempo de ejecución predecible y limitado para expresiones individuales.

La entrada CEL está configurada con un programa CEL (una expresión) y un estado inicial. El estado se proporcionará como entrada al programa. El programa se evalúa para producir un estado de salida. Si el estado de salida incluye una lista de eventos, estos se eliminarán y se publicarán. El resto del estado de salida se usará como entrada para la próxima evaluación. Si el estado de salida incluye uno o más eventos y la advertencia want_more: true, la siguiente evaluación se realizará inmediatamente. De lo contrario, permanecerá en suspensión durante el resto del intervalo configurado antes de continuar. Aquí tienes un diagrama simplificado del flujo de control de la entrada:

La salida de cada evaluación se pasará como entrada a la siguiente evaluación, mientras se ejecute la entrada. Los datos de salida bajo la clave "cursor" se mantendrán en el disco y se volverán a cargar después de que la entrada se reinicie, pero el resto del estado no se conservará entre los reinicios.

El lenguaje CEL en sí tiene funcionalidades limitadas y evita efectos secundarios, pero es extensible. La implementación cel-go agrega algunas funcionalidades, como sintaxis y tipos opcionales. La biblioteca Mito se basa en cel-go y agrega más funcionalidades, como la capacidad de hacer solicitudes HTTP. La entrada CEL usa la versión de CEL de Mito.

Trabajando con Mito

Para construir o depurar una integración mediante una entrada CEL, lo más importante que debes entender es qué estado de salida producirá tu programa CEL para un estado de entrada dado. Durante el desarrollo, puede ser engorroso que tu programa CEL la ejecute la entrada, rodeada por toda la pila de Elastic Stack. Una forma de lograr un ciclo de retroalimentación más rápido es usar la herramienta de línea de comando de Mito, que te permitirá ejecutar un programa CEL directamente y ver la salida que produce para una entrada dada.

Mito está escrito en Go y se puede instalar de la siguiente manera:

go install github.com/elastic/mito/cmd/mito@latest

Cuando ejecutas un programa CEL con Mito, normalmente le asignas dos archivos: un archivo JSON con el estado inicial de entrada y otro archivo con el código fuente de tu programa CEL:

mito -data state.json src.cel

Para facilitar la copia y el pegado, los ejemplos en este artículo están escritos como comandos únicos que hacen que el shell cree archivos temporales al instante al envolver el contenido de cada archivo en <(echo '...content...'). En tu propio desarrollo, trabajar con archivos reales será más fácil.

Obtención de datos de incidencias desde GitHub

El siguiente ejemplo incluye un programa CEL completo que obtendrá datos sobre los problemas de la API de GitHub. Su estado de entrada inicial tiene una URL para el endpoint de la API y cierta información sobre cómo debe manejar la paginación. El programa CEL utiliza los datos del estado de entrada para generar una solicitud. Decodificará la respuesta, generará eventos a partir de ella y los devolverá como parte de su estado de salida.

mito -data <(echo '
  {
    "url": "https://api.github.com/repos/elastic/integrations/issues",
    "per_page": 3,
    "max_pages": 3
  }
') <(echo '
  int(state.?cursor.page.orValue(1)).as(page,
    (
      state.url + "?" + {
        "state": ["all"],
        "sort": ["created"],
        "direction": ["asc"],
        "per_page": [string(state.per_page)],
        "page": [string(page)],
      }.format_query()
    ).as(full_url,
      request("GET", full_url).with({
        "Header": {
          "Accept": ["application/vnd.github+json"],
          "X-GitHub-Api-Version": ["2022-11-28"],
        }
      }).do_request().as(resp,
        resp.Body.decode_json().as(data,
          state.with({
            "events": data.map(i, {
              "html_url": i.html_url,
              "title": i.title,
              "created_at": i.created_at,
            }),
            "cursor": { "page": page + 1 },
            "want_more": size(data) == state.per_page && page < state.max_pages,
          })
        )
      )
    )
  )
')

Su primera evaluación produce la siguiente salida:

{
  "cursor": {
    "page": 2
  },
  "events": [
    {
      "created_at": "2018-09-14T09:47:35Z",
      "html_url": "https://github.com/elastic/integrations/issues/3250",
      "title": "Increase support of log formats in haproxy filebeat module"
    },
    {
      "created_at": "2019-02-06T12:37:37Z",
      "html_url": "https://github.com/elastic/integrations/issues/487",
      "title": "ETCD Metricbeat module needs polishing and grooming"
    },
    {
      "created_at": "2019-08-13T11:33:11Z",
      "html_url": "https://github.com/elastic/integrations/pull/1",
      "title": "Initial structure"
    }
  ],
  "max_pages": 3,
  "per_page": 3,
  "url": "https://api.github.com/repos/elastic/integrations/issues",
  "want_more": true
}

Los eventos se eliminarán y, cuando se ejecuten en la entrada CEL, se publicarán para su ingesta. El resto de la salida se proporcionará a la siguiente evaluación del programa CEL como estado de entrada.

Para entender cómo funciona ese programa CEL, veremos algunos ejemplos más pequeños de CEL y hablaremos con más detalle sobre cómo funciona la entrada de CEL.

Conceptos básicos de CEL

En el lenguaje CEL, no hay declaraciones, solo hay expresiones. Cada expresión CEL exitosa se evalúa hasta un valor final. Esta es una de las expresiones CEL más pequeñas que puedes escribir, junto con su salida:

mito <(echo '
  "hello" + " " + "world"
')

"hello world"

Muchas expresiones simples son intuitivas. Las operaciones matemáticas solo se admiten en valores del mismo tipo (por ejemplo, int con int), así que convierte los tipos según necesites (aquí de int a double):

mito <(echo '
  double((1 + 2) * (3 + 4)) / 2.0
')

10.5

No existen variables en el lenguaje CEL, pero una expresión puede recibir un nombre y usarse en una expresión más amplia con la ayuda de la macro as de Mito. En este ejemplo, la expresión (1 + 1) evalúa al valor 2 y .as(n, ...) da a ese valor el nombre n para su uso en la expresión "one plus one is "+string(n):

mito <(echo '
  (1 + 1).as(n, "one plus one is "+string(n))
')

"one plus one is 2"

También es posible acumular información en un mapa y usarla más tarde en la expresión, como se demuestra aquí al usar with:

mito <(echo '
  { "key": "value" }.with({ "key2": "value2" }).as(data,
    {
      "data": data,
      "size": size(data),
    }
  )
')

{
  "data": {
    "key": "value",
    "key2": "value2"
  },
  "size": 2
}

Mira ese ejemplo otra vez. Observa que la parte anidada, ({ "data": data, "size": size(data), }), nos da la forma del valor final. Es un mapa con las claves "data" y "size". Los valores de esas claves dependen de data, que la define la parte exterior de la expresión. Leer las expresiones de CEL desde adentro hacia afuera puede ayudar a ver rápidamente qué devolverán.

CEL no tiene declaraciones de flujo de control, como if, pero la ramificación condicional se puede hacer con el operador ternario:

mito <(echo '
  1 + 1 < 12 ? "few" : "many"
')

"few"

Los bucles ilimitados y la recursión no son compatibles, ya que CEL no es un lenguaje de Turing completo. Esto hace que el tiempo de ejecución sea predecible y proporcional al tamaño de los datos de entrada y a la complejidad de la expresión.

Aunque los bucles sin límites no son posibles en expresiones CEL individuales, puedes procesar listas y mapas con macros como map:

mito <(echo '
  [1, 2, 3].map(x, x * 2)
')

[2, 4, 6]

En esta sección, abordamos los siguientes temas:

Textos, números, listas y mapas.
Concatenación de texto.
Operaciones matemáticas.
Conversión de tipos.
Condicionales.
Nombrando subexpresiones.
Procesando colecciones.

A continuación, veremos cómo hacer solicitudes HTTP.

Solicitudes

Mito extiende el CEL con la capacidad de realizar solicitudes HTTP:

mito <(echo '
  get("https://example.com").as(resp, string(resp.Body))
')

"Example Domain..."

Las solicitudes se pueden construir explícitamente antes de que se ejecuten. Esto permite utilizar diferentes métodos HTTP y agregar encabezados y un cuerpo.

En este ejemplo, construimos una URL con la ayuda de format_query, agregamos un encabezado a la solicitud y parseamos el cuerpo de la respuesta con decode_json. Cuando se te da la opción -log_requests, Mito registra información detallada en formato JSON sobre cada solicitud y respuesta.

mito -log_requests <(echo '
  request("GET",
    "https://postman-echo.com/get?" + {
        "q": ["query value"]
     }.format_query()
  ).with({
    "Header": { "Accept": ["application/json"] }
  }).do_request().as(resp, {
    "status": resp.StatusCode,
    "data": resp.Body.decode_json(),
  })
')

{"time":"...","level":"INFO","msg":"HTTP request",...}
{"time":"...","level":"INFO","msg":"HTTP response",...}
{
  "data": {
    "args": {
      "q": "query value"
    },
    "headers": {
      "accept": "application/json",
      "accept-encoding": "gzip, br",
      "host": "postman-echo.com",
      "user-agent": "Go-http-client/2.0",
      "x-forwarded-proto": "https"
    },
    "url": "https://postman-echo.com/get?q=query+value"
  },
  "status": 200
}

Gestión del estado y evaluaciones

Ahora que ya vimos cómo realizar solicitudes y los conceptos básicos de CEL necesarios para producir el estado de salida deseado, veamos más de cerca qué debemos incluir en el estado de salida y cómo eso nos permite dirigir el procesamiento posterior.

El programa CEL de una integración debe asegurarse de que su estado de salida sea adecuado para su uso como entrada de la siguiente evaluación. La configuración establece el estado inicial, y eso debe repetirse en la salida con los cambios apropiados. Una forma sencilla de hacerlo es usar state.with({ ... }), para repetir el mapa de estado con algunas sobrescrituras. Un patrón común para programas pequeños es envolver todo el programa en state.with(), para que la propagación de estados no tenga que repetirse en cada rama que genere datos de salida (por ejemplo: éxito, errores).

Cuando hay valores de estado que se inicializan mediante una evaluación en lugar de estar codificados de forma fija en el estado de entrada inicial, el programa tendrá que comprobar si existe un valor antes de establecer el inicial. Eso es algo en lo que el soporte para sintaxis y tipos opcionales puede ayudar. Al usar un signo de interrogación antes del nombre del campo en una clave de mapa, el acceso se vuelve opcional: puede o no resolver a un valor, pero son posibles accesos opcionales adicionales y es fácil proporcionar un valor por defecto si no hay un valor presente:

mito -data <(echo '{}') <(echo '
  int(state.?counter.orValue(0)).as(counter,
    state.with({
      "counter": counter + 1,
      "want_more": counter + 1 < 3,
    })
  )
')

{ "counter": 1, "want_more": true }
{ "counter": 2, "want_more": true }
{ "counter": 3, "want_more": false }

En ese ejemplo, el valor del contador leído desde el estado se convierte en int porque todos los números se serializan en el estado como números de coma flotante, de acuerdo con las convenciones establecidas por el tipo Number de JSON y JavaScript. También debe tenerse en cuenta que Mito honra "want_more": true, pero cuando se ejecuta en la entrada CEL, la evaluación solo se repetiría si la salida también contiene eventos.

Es un requisito de los programas CEL ejecutados por la entrada CEL que devuelvan una clave "events" en su mapa de salida. Su valor puede ser una lista de mapas de eventos, una lista vacía o un solo mapa de eventos. El caso de evento único generalmente se utiliza para errores. El evento se publicará mediante la entrada, pero su valor también se registrará y, si estableces un valor de error.message, se usará para actualizar el estado de salud de la Fleet de la integración. Si tu programa produce un solo evento sin error, es mejor envolverlo en una lista.

Echa otro vistazo a la salida de nuestro programa de problemas de GitHub de antes:

{
  "url": "https://api.github.com/repos/elastic/integrations/issues",
  "per_page": 3,
  "max_pages": 3,
  "cursor": {
    "page": 2
  },
  "events": [
    { ... },
    { ... },
    { ... }
  ],
  "want_more": true
}

El programa gestionó eficazmente su estado, mediante:

Valores de estado iniciales repetidos en url, per_pagey max_pages.
Agregar un estado que debería persistir durante los reinicios en cursor.page.
Devolver eventos listos para publicar en la lista events.
Solicito una reevaluación inmediata con want_more: true.

Ahora que entiendes el acceso opcional y la gestión de estados, así como los conceptos básicos de CEL y las solicitudes HTTP, deberías poder leer el programa completo de incidencias de GitHub. Intenta ejecutarlo con Mito y experimentar con algunos cambios.

Revisión y recursos

En este artículo, analizamos qué es el lenguaje CEL y cómo se ha extendido en la biblioteca Mito para su uso en la entrada CEL. Vimos la flexibilidad de CEL en un programa de ejemplo que obtiene información de incidencias de la API de GitHub, y repasamos todos los detalles necesarios para comprender ese programa, incluidos el acceso a la configuración en el estado inicial, la interacción con las API HTTP, el retorno de eventos para su ingesta y la gestión del estado para ejecuciones posteriores del programa.

Para aprender más y construir integraciones mediante la entrada CEL, hay varios recursos que valen la pena explorar:

Y quizás el recurso más valioso para crear integraciones con la entrada CEL sea el código CEL de las integraciones existentes de Elastic, que se puede encontrar en GitHub:

cel.yml.hbs archivos en el repositorio de integraciones de Elastic - GitHub

Resolución de entidades con Elasticsearch y LLMs, parte 2: emparejamiento de entidades con evaluación de LLM y búsqueda semántica

Jessica Moszkowicz — Thu, 26 Feb 2026 00:00:00 GMT

En Parte 1, preparamos nuestra lista de reproducción y extrajimos menciones de entidades. Ahora estamos listos para responder la pregunta difícil: ¿A qué entidad te refieres realmente con una mención? Volvamos al ejemplo del primer blog de esta serie, que establece por qué necesitamos la resolución de entidades: " ¡La actualización de Swift ya está aquí! " Imagina que este titular va acompañado de un poco más de contexto:

¡La nueva actualización de Swift está aquí! Los desarrolladores están ansiosos por probar las nuevas características.
¡La nueva actualización de Swift está aquí! El nuevo álbum se lanzará el próximo mes.

Con este contexto añadido, deberíamos ser capaces de resolver el nombre "Swift" a la entidad correcta.

En la publicación anterior, configuramos nuestra lista de seguimiento y enriquecimos las entidades con contexto adicional. Al ver nuestros ejemplos anteriores, necesitamos tener, al menos, las siguientes dos entidades en la lista: Taylor Swift y Swift Programming Language. También explicamos cómo extraemos las menciones de entidades del texto. Ambos ejemplos extraerían "Swift". Con estos ingredientes en su lugar, la lista de vigilancia enriquecida y las entidades extraídas, finalmente estamos listos para presentar la estrella del espectáculo: la coincidencia de entidades.

Recuerda: Este es un prototipo didáctico diseñado para enseñar conceptos de emparejar entidades. Los sistemas de producción pueden usar diferentes modelos de lenguaje grandes (LLM), reglas de coincidencia personalizadas, pipelines de evaluación especializados o enfoques conjuntos que combinan varias estrategias de coincidencia.

El problema: Por qué la coincidencia es difícil

El lenguaje humano es algo extraordinario. Una de sus propiedades más interesantes es su creatividad infinita. Podemos generar y entender un número infinito de frases nuevas. ¿Es de extrañar, entonces, que las coincidencias exactas en la resolución de entidades sean raras? Los autores se esfuerzan por ser creativos cuando pueden. Sería bastante tedioso si tuviéramos que escribir y leer nombres completos cada vez que se menciona una entidad. Entonces, si bien las coincidencias exactas son fáciles, la realidad es que necesitamos un enfoque más sofisticado para la resolución de entidades: uno que sea lo suficientemente robusto para manejar al menos parte de la creatividad ilimitada de los autores humanos. Por eso dividimos el problema en dos pasos: usar Elasticsearch para recuperar candidatos plausibles a escala, y luego usar un LLM para evaluar si esos candidatos realmente se refieren a la misma entidad del mundo real.

La solución: Emparejamiento en tres pasos con evaluaciones transparentes de LLM

Estamos en medio de un cambio de paradigma en la forma en que usamos las computadoras. Así como el auge de internet nos llevó de la computación localizada a una red globalmente conectada, la IA generativa (GenAI) está cambiando fundamentalmente la forma en que se crean el contenido, el código y la información. De hecho, el prototipo educativo que acompaña a esta serie fue casi exclusivamente "codificado con onda" usando un LLM con indicaciones cuidadosas del autor. Esto no quiere decir que los LLM tengan o incluso alcancen el tipo de productividad inherente al lenguaje humano, pero sí significa que ahora tenemos un recurso poderoso para ayudar con la resolución de entidades.

Un patrón común que usamos con GenAI es Retrieval-Augmented Generation (RAG). Aquí, recuperación significa recuperar candidatos de entidades (no generar respuestas), y el LLM se utiliza estrictamente para la evaluación y explicación de coincidencias. Si bien podríamos pedirle a un LLM que nos ayude con la resolución de entidades de extremo a extremo, ese es un enfoque costoso, tanto en términos de tiempo como de dinero. La RAG ayuda a los LLM a hacer su trabajo mediante el uso de formas más eficientes de proporcionar contexto al LLM, lo que permite que el LLM ayude de manera eficiente con la resolución de la entidad.

Para la parte de recuperación de RAG, volvemos a Elasticsearch. Primero encontramos posibles coincidencias usando una combinación de coincidencia exacta, coincidencia con alias y búsqueda híbrida, que combina búsqueda por palabras clave y búsqueda semántica. Una vez que encontramos estas posibles coincidencias, las enviamos a un LLM para su evaluación. El LLM actúa como el evaluador final de coincidencias. También hacemos que el LLM explique su razonamiento, un diferenciador importante con otros sistemas de resolución de entidades. Sin estas explicaciones, la resolución de entidades es una caja negra; con ellas, podemos ver por nosotros mismos por qué una coincidencia tiene sentido.

Conceptos clave: Coincidencia de tres pasos, búsqueda híbrida y evaluación transparente del LLM

¿Qué es la coincidencia de tres pasos? Al inicio de este proyecto, planteamos la hipótesis de que la búsqueda semántica sería una parte crucial del sistema, pero no todas las coincidencias requieren una búsqueda tan sofisticada. Para encontrar coincidencias de manera eficiente, adoptamos un enfoque progresivo para solucionar el problema. Primero, buscamos coincidencias exactas mediante la búsqueda por palabra clave. Si encontramos dicha coincidencia, nuestro trabajo está terminado y podemos seguir adelante. Si falla la coincidencia exacta, recurrimos a la coincidencia de alias. En el prototipo, la coincidencia de alias también se efectúa usando la coincidencia exacta con palabras clave, para simplificar. En producción, puedes ampliar este paso con normalización, reglas de transliteración, coincidencia difusa o tablas de alias seleccionadas. Si aún no hemos encontrado una posible coincidencia en los dos primeros pasos, entonces es hora de incorporar la búsqueda semántica a través de la búsqueda híbrida de Elasticsearch con fusión de rango recíproco (RRF, por sus siglas en inglés).

¿Qué es la búsqueda híbrida? En Elasticsearch, puedes utilizar la búsqueda semántica para encontrar coincidencias significativas que tengan en cuenta el contexto. Elasticsearch se emplea ampliamente para la búsqueda vectorial y la recuperación híbrida. La similitud semántica es muy útil para el significado, pero no sustituye al filtrado estructurado (por ejemplo, por rangos de tiempo, ubicaciones o identificadores), y a menudo es innecesaria cuando se dispone de una coincidencia exacta. Elasticsearch hizo su marca con la búsqueda léxica, que es excelente en tareas donde la búsqueda semántica no encaja. Para aprovechar al máximo ambos enfoques, utilizamos la búsqueda léxica junto con la búsqueda semántica en una única consulta híbrida. Luego combinamos los resultados para encontrar las coincidencias más probables usando RRF. En el prototipo, los dos primeros resultados se convierten en posibles coincidencias que pueden enviarse para la evaluación del LLM.

¿Por qué una evaluación del LLM? Las evaluaciones y explicaciones del LLM permiten que nuestro sistema maneje la ambigüedad y el contexto de manera transparente. Esto es vital para casos como "el presidente", que podría referirse a múltiples entidades, dependiendo del contexto, pero también hace que cosas como los apodos y las variaciones culturales funcionen bien en el sistema. Por último, cuando consideramos tareas de misión crítica, como identificar entidades de listas de sanciones, necesitamos saber por qué se aceptó una coincidencia para poder confiar en el sistema. Fundamentalmente, el LLM no busca en todo el corpus; evalúa solo el pequeño conjunto de candidatos devuelto por Elasticsearch.

Resultados del mundo real: Coincidencia con el razonamiento del LLM

Un gran desafío para cualquier tarea de procesamiento de lenguaje natural es la creación de un documento de referencia, una "clave de respuestas" que nos dice cuáles son los resultados previstos. Sin esto, es casi imposible evaluar el rendimiento de un sistema en una tarea, pero crear un documento de este tipo puede ser un proceso laborioso. Para el prototipo de resolución de entidades, volvimos a recurrir a la GenAI para ayudar a configurar datos contra los que pudiéramos probar.

Primero definimos varios tipos de desafíos, como apodos y transliteraciones, y luego pedimos al LLM que creara una colección escalonada de sets de datos que se hiciera progresivamente más grande y desafiante para el sistema. La creación de los sets de datos fue menos sencilla de lo que cabría esperar. El LLM tenía una fuerte tendencia a "hacer trampa" al hacer demasiado fácil obtener la respuesta correcta. Por ejemplo, uno de los tipos de desafíos se centró en el contexto semántico. Este tipo incluyó cosas como resolver "autor ruso" a "León Tolstói". El LLM colocó incorrectamente "autor ruso", como alias de "León Tolstói", lo que eliminó la necesidad de hacer una búsqueda híbrida para encontrar la coincidencia.

Después de varias refactorizaciones para solucionar problemas como este, teníamos cinco niveles de sets de datos con los que trabajar. Los niveles 1 a 4 eran progresivamente más amplios y presentaban más tipos de desafíos. El Nivel 5 fue el "desafío definitivo" de sets de datos, compuesto por los ejemplos más complicados de todos los tipos de desafíos. Todos los datos de las pruebas están disponibles en el directorio de evaluación exhaustiva.

Para evaluar nuestro enfoque de resolución de entidades basado en indicaciones, centramos nuestra atención en los sets de datos de nivel 4. Una nota importante es que la evaluación se hizo como un experimento controlado para que pudiéramos concentrarnos en la calidad de la coincidencia de entidades. Los datos de la lista de vigilancia se enriquecieron previamente con contexto y las entidades se extrajeron del artículo antes de tiempo. Así se garantizó que la evaluación se centrara en la coincidencia y no en la precisión de la extracción. Esto aísla la calidad de la coincidencia; el rendimiento de extremo a extremo dependería adicionalmente de la recuperación de la extracción y la calidad del enriquecimiento.

Sets de datos de evaluación

El set de datos de evaluación de nivel 4 proporciona una prueba integral de las capacidades del sistema:[1]

Entidades de la lista de vigilancia: 66 entidades de diversos tipos (personas, organizaciones, ubicaciones).
Artículos de prueba: 69 artículos que abarcan casos de resolución de entidades del mundo real.
Coincidencias esperadas: 206 coincidencias de entidades esperadas en todos los artículos.
Tipos de desafíos: 15 tipos diferentes de desafíos que evalúan varios aspectos de la resolución de entidades.

Los tipos de desafíos incluidos en los sets de datos son:

Apodos: "Bob Smith" → "Robert Smith" (siete artículos).
Títulos y honoríficos: "Dr. Sarah Williams" → "Sarah Williams" (cinco artículos).
Contexto semántico: "Autor ruso" → "León Tolstói" (ocho artículos).
Nombres multilingües: Manejo de nombres en diferentes escrituras (seis artículos).
Entidades comerciales: Variaciones del nombre corporativo (siete artículos).
Referencias ejecutivas: "CEO de Microsoft" → "Satya Nadella" (cinco artículos).
Líderes políticos: Referencias basadas en títulos (cinco artículos).
Iniciales: "J. Smith " → "John Smith" (tres artículos).
Variaciones en el orden de los nombres: Diferentes convenciones de ordenamiento de nombres (tres artículos).
Nombres truncados: Coincidencias parciales de nombres (tres artículos).
División de nombres: Nombres divididos en el texto (tres artículos).
Espacios/guiones faltantes: Variaciones de formato (dos artículos).
Transliteración: Coincidencia de nombres entre sistemas de escritura (dos artículos).
Desafíos combinados: Varios desafíos en un artículo (seis artículos).
Negocios complejos: Relaciones comerciales jerárquicas (cinco artículos).

Veamos cómo se desempeñó la resolución de entidades basada en indicaciones.

Rendimiento general

Los resultados muestran que la evaluación de coincidencias basada en LLM es muy prometedora, pero también revelan un importante problema de confiabilidad. Debido a que cada par de candidatos debe ser evaluado por el LLM, las fallas en la salida estructurada pueden suprimir la aceptación y la recuperación incluso cuando la recuperación está funcionando bien.

Métrica	Valor
Precisión	83.8 %
Recuperación	62.6 %
Puntuación F1	71,7%
Total de coincidencias encontradas	344
Tasa de aceptación de LLM	44,8%
Tasa de error	30.2%

El problema de la tasa de error

Recuerda que el primer paso que damos en el prototipo es crear posibles pares de coincidencia usando Elasticsearch. Cada una de estas posibles coincidencias necesita ser evaluada por el LLM. Para procesar eficientemente todas esas coincidencias, agrupamos las llamadas a los LLM en batches. Esto reduce los costos y la latencia de la API, pero también aumenta el riesgo de obtener JSON malformado en la salida. A medida que aumenta el tamaño del batch, el JSON se vuelve más largo y complejo, lo que aumenta la probabilidad de que el LLM genere un JSON no válido. De aquí proviene la tasa de error del 30 %. En la evaluación, usamos un tamaño de batch de cinco coincidencias por solicitud. Incluso con este tamaño de batch conservador, seguimos viendo fallos en el análisis de JSON, lo que distorsiona significativamente los resultados de la evaluación.

Lo que sigue: Optimización de la integración del LLM

Ahora que hemos emparejado entidades usando la búsqueda semántica y la evaluación a cargo del LLM, tenemos un pipeline completo de resolución de entidades. Sin embargo, este enfoque introduce un nuevo modo de fallo cuando la evaluación del modelo es correcta, pero su salida no es utilizable. Podemos optimizar la integración de los LLM para mejorar la fiabilidad y la eficiencia de costos. En la próxima publicación, analizaremos cómo usar la llamada de funciones para una salida estructurada, que proporciona una estructura y seguridad de tipo garantizadas a la vez que reduce errores y costos.

Pruébalo tú mismo

¿Quieres ver la coincidencia de entidades en acción? Mira el cuaderno de Entity Matching para obtener una guía completa con implementaciones reales, explicaciones detalladas y ejemplos prácticos. El cuaderno te muestra exactamente cómo hacer coincidir entidades empleando la búsqueda de tres pasos, la búsqueda híbrida con RRF y la evaluación impulsada por LLM con razonamiento.

Recuerda: Este es un prototipo didáctico diseñado para enseñar los conceptos. Al construir sistemas de producción, considera factores adicionales, como la selección del modelo, la optimización de costos, los requisitos de latencia, la validación de calidad, el manejo de errores y la monitorización, que no están cubiertos en este prototipo orientado al aprendizaje.

Notas

Estos sets de datos son sintéticos y están diseñados con fines didácticos; se aproximan a desafíos reales pero no son representativos de ningún dominio de producción específico.

La búsqueda de vectores de Elasticsearch es hasta 8 veces más rápida que OpenSearch

Sachin Frayne — Wed, 25 Feb 2026 00:00:00 GMT

¿Por qué es importante la velocidad de búsqueda para los agentes de IA y la ingeniería de contexto?

Nuestros benchmarks en un corpus de documentos de 20M muestran que Elasticsearch ofrece hasta 8 veces más rendimiento que OpenSearch para búsqueda vectorial filtrada, además de lograr mayores Recall@100 en las configuraciones que probamos. La ingeniería de contexto depende de más que la rápida recuperación de vectores. Los equipos también necesitan fuertes controles de relevancia, como búsqueda y filtrado híbridos, simplicidad operativa y rendimiento predecible, a medida que los flujos de trabajo se repiten. Pero como los agentes suelen ejecutar bucles de recuperación y razonamiento muchas veces por cada solicitud, la latencia de la recuperación se convierte en un factor multiplicador, por lo que las mejoras en este aspecto se traducen directamente en una mejor capacidad de respuesta de extremo a extremo y en un menor costo.

En la ingeniería de contexto, la recuperación no es un paso único. Los agentes y las aplicaciones ejecutan bucles repetidamente, como recuperar → razonar → recuperar, para refinar consultas, verificar hechos, reunir contexto fundamentado y completar tareas. Este patrón es común en los flujos de trabajo agénticos y en la Retrieval-Augmented Generation (RAG) iterativa. Como la recuperación puede invocarse muchas veces por cada consulta del usuario, agrega demora a la respuesta o aumenta los costos de infraestructura.

¿Por qué es crítico el rendimiento de la búsqueda de vectores?

Imagina un asistente de compras respondiendo la pregunta: "Necesito una mochila de equipaje de mano de menos de $60 que quepa una laptop de 15 pulgadas, sea resistente al agua y pueda llegar para el viernes".

En producción, el asistente rara vez emite una consulta vectorial y se detiene ahí. Ejecuta un ciclo de recuperación para crear el contexto correcto, y cada paso suele estar limitado por filtros, como disponibilidad, región, promesa de envío, reglas de marca y elegibilidad de políticas.

Paso 1: Interpretar la intención y traducirla a restricciones.

El agente convierte la solicitud en filtros estructurados y una consulta semántica, tales como:

Filtros: En stock, entregable al código postal del usuario, entrega antes del viernes, precio inferior a $60, listado válido
Consulta vectorial: "Mochila de equipaje de mano computadora portátil de 15 pulgadas resistente al agua"

Paso 2: Recuperar candidatos y luego refinar la selección.

A menudo repite la recuperación con variaciones para evitar perder buenas coincidencias:

"mochila de viaje de equipaje de mano con funda para computadora portátil"
"mochila de viaje resistente al agua de 15 pulgadas"
“mochila de cabina ligera”

Cada consulta utiliza los mismos filtros de elegibilidad, porque recuperar elementos irrelevantes o no disponibles es un desperdicio de contexto.

Paso 3: Expandir para confirmar detalles y reducir el riesgo.

A continuación, el agente vuelve a consultar para verificar los atributos clave que influyen en la respuesta final:

Palabras utilizadas para describir los materiales y la resistencia al agua
Dimensiones y ajuste del compartimento de la computadora portátil
Restricciones de la garantía o política de devolución
Opciones alternativas si hay poco inventario

Esto es ingeniería de contexto en múltiples pasos: recuperar, razonar, recuperar, ensamblar.

¿Por qué la latencia y la recuperación son importantes para la ingeniería de contexto?

Estas interacciones pueden implicar decenas de llamadas de recuperación filtradas por sesión de usuario. Eso hace que la latencia por llamada sea un multiplicador directo en el tiempo de respuesta de extremo a extremo, y la baja recuperación obliga a reintentos adicionales o hace que el agente pierda elementos elegibles, lo que degrada la calidad de la respuesta.

Conclusión: En sistemas diseñados con contexto, los vecinos más cercanos aproximados (ANN, por su sigla en inglés) filtrados no son una sola consulta. Es una operación repetida bajo restricciones, por lo que el rendimiento de la búsqueda vectorial se nota enseguida en la latencia, la capacidad de procesamiento y el costo, incluso cuando el modelo de lenguaje grande (LLM) es el componente más visible.

Evaluación comparativa

Resultados

En el grafo 2, cada punto representa una configuración de prueba. Los mejores resultados aparecen hacia la parte superior izquierda, lo que significa una mayor recuperación con menor latencia. Los resultados de Elasticsearch se sitúan sistemáticamente más cerca de la esquina superior izquierda que los de OpenSearch, lo que indica una mayor velocidad y precisión con los mismos ajustes de carga de trabajo.

Algunas ideas clave

s_n_r_value: La abreviatura de size_numCandidates_rescoreOversample (k y numCandidates iguales a numCandidates en estas pruebas), por ejemplo, 100_500_1 significa tamaño=100, numCandidates=500 y k=500, rescore oversample=1
Recuperación: Mide Recall@100 para esa configuración
Latencia promedio (ms): Latencia de extremo a extremo promedio por consulta
Rendimiento: Búsquedas por segundo
Recall %: Mejora relativa de recuperación de Elasticsearch frente a OpenSearch (Elasticsearch menos OpenSearch)/OpenSearch
Latencia Xs: Latencia promedio de OpenSearch dividida por la latencia media de Elasticsearch
Rendimiento Xs: rendimiento de Elasticsearch dividido por el rendimiento de OpenSearch

Motor	's_n_r_value'	Recuperación	Latencia promedio (ms)	Rendimiento	Porcentaje de recuperación	Latencia Xs	Rendimiento Xs
Elasticsearch	100_250_1	0.7704	25	534.75	9.70 %	2.28	1.91
OpenSearch	100_250_1	0.7023	57.08	279.58
Elasticsearch	100_500_1	0.8577	25.42	524.14	7.20 %	2.4	2
OpenSearch	100_500_1	0.8001	60.9	262.12
Elasticsearch	100_750_1	0.8947	29.67	528.09	5.72 %	2.25	2.21
OpenSearch	100_750_1	0.8463	66.76	239.11
Elasticsearch	100_1000_1	0.9156	29.65	534.5	4.66 %	2.46	2.44
OpenSearch	100_1000_1	0.8748	72.88	219.01
Elasticsearch	100_1500_1	0.9386	31.84	497.3	3.38 %	2.71	2.68
OpenSearch	100_1500_1	0.9079	86.16	185.4
Elasticsearch	100_2000_1	0,9507	34.69	457.2	2.57 %	2.98	2.96
OpenSearch	100_2000_1	0.9269	103.36	154.55
Elasticsearch	100_2500_1	0.9582	37.9	418.43	1.99 %	3.28	3.26
OpenSearch	100_2500_1	0.9395	124.29	128.53
Elasticsearch	100_3000_1	0.9636	41.86	379.4	1.62 %	3.46	3.44
OpenSearch	100_3000_1	0.9482	144.67	110.34
Elasticsearch	100_4000_1	0.9705	50.28	316.21	1,06%	3.87	3.85
OpenSearch	100_4000_1	0.9603	194.36	82.22
Elasticsearch	100_5000_1	0.9749	58.77	270.91	0.73 %	4.43	4.41
OpenSearch	100_5000_1	0.9678	260.33	61.38
Elasticsearch	100_6000_1	0.9781	66.75	238.59	0.52 %	4.91	4.89
OpenSearch	100_6000_1	0.973	327.44	48.81
Elasticsearch	100_7000_1	0.9804	74.64	213.49	0.38 %	5.28	5.27
OpenSearch	100_7000_1	0.9767	394.24	40.53
Elasticsearch	100_8000_1	0.9823	82.28	193.59	0.27 %	6.86	6.83
OpenSearch	100_8000_1	0.9797	564.14	28.33
Elasticsearch	100_9000_1	0.9837	90.08	176.96	0.16 %	7.63	7.61
OpenSearch	100_9000_1	0.9821	687.25	23.25
Elasticsearch	100_10000_1	0.9848	97.64	163.31	0.08 %	8.38	8.36
OpenSearch	100_10000_1	0.984	818.64	19.53

Por ejemplo, en 100_9000_1, OpenSearch tiene un promedio de 687 milisegundos por recuperación frente a 90 milisegundos en Elasticsearch, y en un bucle de recuperación de 10 pasos eso equivale a aproximadamente 10 × (687 - 90) = seis segundos de tiempo de espera adicional.

Consulta los resultados completos.

Metodología

Al usar Python para enviar las consultas y rastrear el tiempo de respuesta y otras estadísticas, enviamos las siguientes consultas a los motores. Ten en cuenta que el rendimiento de cualquier motor de búsqueda vectorial depende de cómo ajustes sus parámetros núcleo: cuántos candidatos considerar, cuán agresivamente volver a puntuar y cuánto contexto devolver. Estos ajustes afectan directamente tanto la exhaustividad (la probabilidad de encontrar la respuesta correcta) como la latencia (la rapidez con la que obtienes los resultados).

En nuestras pruebas comparativas, empleamos la misma configuración de candidatos, repuntuación y tamaño de resultados que normalmente ajustarías en un bucle de recuperación basado en agentes, y medimos el rendimiento de Elasticsearch bajo esa carga de trabajo. Luego ejecutamos OpenSearch con la misma configuración como referencia.

OpenSearch

GET /_search
{
  "query": {
    "knn": {
      "": {
        "vector": [...],
        "k": ,
        "method_parameters": {
          "ef_search": 
        },
        "rescore": {
          "oversample_factor": 
        },
        "filter": {
          
        }
      }
    }
  },
  "size": ,
  "_source": {
    "excludes": [
      ""
    ]
  }
}

"size": : Número de resultados devueltos al cliente. En esta prueba de rendimiento, el tamaño del conjunto de datos es 100 para calcular el Recall@100.
"k": : El número de candidatos a vecinos más cercanos.
"ef_search": : El número de vectores a examinar.
"oversample_factor": : ¿Cuántos vectores candidatos se recuperan antes de volver a calcular la puntuación?

Elasticsearch

GET /_search
{
  "query": {
    "knn": {
      "field": "",
      "query_vector": [...],
      "k": ,
      "num_candidates": ,
      "rescore_vector": {
        "oversample": 
      },
      "filter": {
        
      }
    }
  },
  "size": ,
  "_source": {
    "excludes": [
      ""
    ]
  }
}

"size": : Número de resultados devueltos al cliente. En esta prueba de rendimiento, el tamaño del conjunto de datos es 100 para calcular el Recall@100.
"k": : Número de vecinos más cercanos que se debe devolver desde cada shard.
"num_candidates": : Número de candidatos de vecinos más cercanos a considerar por shard mientras se realiza la búsqueda de knn.
"oversample": : ¿Cuántos vectores candidatos se recuperan antes de volver a calcular la puntuación?

Ejemplo

Knn la búsqueda, (100_500_1), sería de la siguiente manera:

OpenSearch

GET search_catalog_128/_search
{
  "query": {
    "knn": {
      "search_catalog_embedding": {
        "vector": [...],
        "k": 500,
        "method_parameters": {
          "ef_search": 500
        },
        "rescore": {
          "oversample_factor": 1
        },
        "filter": {
          "term": {
            "valid": true
          }
        }
      }
    }
  },
  "size": 100,
  "_source": {
    "excludes": [
      "search_catalog_embedding"
    ]
  }
}

Elasticsearch

GET search_catalog_128/_search
{
  "query": {
    "knn": {
      "field": "search_catalog_embedding",
      "query_vector": [...],
      "k": 500,
      "num_candidates": 500,
      "rescore_vector": {
        "oversample": 1
      },
      "filter": {
        "term": {
          "valid": true
        }
      }
    }
  },
  "size": 100,
  "_source": {
    "excludes": [
      "search_catalog_embedding"
    ]
  }
}

La configuración completa, junto con scripts de Terraform, manifiestos de Kubernetes y el código de benchmarking, está disponible en este repositorio en la carpeta es-9.3-vs-os-3.5-vector-search.

La configuración del cluster

Ejecutamos nuestras pruebas en seis servidores cloud e2-standard-16, cada uno con 16 vCPUs y 64 GB de RAM. En cada servidor, asignamos 15 vCPUs y 56 GB de RAM a cada pod de Kubernetes que ejecutaba el nodo del motor de búsqueda, con 28 GB reservados para el heap de JVM.

Los clústeres ejecutaban Elasticsearch 9.3.0 y OpenSearch 3.5.0 (Lucene 10.3.2). Dado que ambos sistemas emplean la misma versión de Lucene en esta prueba comparativa, las diferencias de rendimiento y latencia que observamos no pueden atribuirse únicamente a Lucene, sino que reflejan diferencias en la forma en que cada motor integra y ejecuta la recuperación y recalculación filtradas del algoritmo k-vecinos más cercanos (kNN). Usamos un único índice con tres shards primarios y una réplica (es decir, 6 shards en total, 1 por nodo).

También usamos un servidor independiente en la misma región para ejecutar el cliente de pruebas de rendimiento y recopilar estadísticas de tiempos.

El set de datos

Para este benchmark, empleamos un set de datos de incrustación de catálogos de tipo comercio electrónico a gran escala con 20 millones de documentos, diseñado para reflejar la recuperación vectorial filtrada a escala del mundo real.

Cada documento representa un artículo del catálogo e incluye:

Un vector denso incrustado de 128 dimensiones utilizado para la recuperación aproximada de kNN.
Campos estructurados de metadatos usados para filtrar (por ejemplo, validez y disponibilidad de artículos más otras restricciones del catálogo) que permiten el patrón común de producción de recuperar a los vecinos más cercanos, pero solo dentro de un subconjunto elegible.

Elegimos este set de datos porque captura el núcleo del desafío principal de rendimiento que vemos en sistemas agentes y de estilo RAG en producción: la similitud vectorial por sí sola no es suficiente, la recuperación está frecuentemente limitada por filtros y el sistema debe mantener una alta recuperación a la vez que mantiene baja la latencia bajo esas restricciones. En comparación con sets de datos más pequeños de estilo QA, un corpus de 20M de documentos también refleja mejor la escala y la presión de los candidatos que enfrentan los sistemas de ANN filtrados en la práctica.

Conclusión

En las arquitecturas de IA modernas, especialmente aquellas construidas alrededor de la ingeniería de contexto, la velocidad de búsqueda vectorial no es un detalle de implementación menor. Es un multiplicador. Cuando los agentes y los flujos de trabajo iteran a través de recuperar → razonar → recuperar, el rendimiento de la recuperación da forma directamente a la latencia de extremo a extremo, al rendimiento y a la calidad del contexto que se introduce en el modelo.

En nuestras pruebas de referencia, Elasticsearch ofreció consistentemente una mayor recuperación con menor latencia que OpenSearch en escenarios donde la corrección depende de recuperar el documento correcto, no solo de un vector similar. En un set de datos controlado, la diferencia es clara, y en producción esos avances se acumulan a lo largo de grandes volúmenes de llamadas de recuperación, lo que mejora la capacidad de respuesta, aumenta el margen de capacidad y reduce los costos de infraestructura.

Lecturas adicionales

jina-embeddings-v5-text: incrustaciones de texto compactas y de última generación para aplicaciones de búsqueda e inteligentes

Scott Martens, Sofia Vasileva — Mon, 23 Feb 2026 00:00:00 GMT

Jina AI y Elastic están lanzando jina-embeddings-v5-text, una familia de nuevos modelos compactos de incrustación de texto de alto rendimiento con un rendimiento de última generación para modelos de tamaño comparable en todos los tipos de tareas principales.

La familia incluye dos modelos:

jina-embeddings-v5-text-small
jina-embeddings-v5-text-nano

Estos modelos son el resultado exitoso de una receta de entrenamiento innovadora para modelos de incrustación. Ambos superan a modelos varias veces más grandes, lo que genera ahorros en memoria y recursos informáticos y responde más rápido a las solicitudes.

El modelo jina-embeddings-v5-text-small tiene 677 millones de parámetros, admite una ventana de contexto de entrada de 32 768 tokens y produce incrustaciones de 1024 dimensiones por defecto.

jina-embeddings-v5-text-nano Pesa aproximadamente un tercio del tamaño de su hermano, con 239 millones de parámetros y una ventana de contexto de entrada de 8192 tokens, lo que produce incrustaciones compactas de 768 dimensiones.

Nombre del modelo	Tamaño total	Tamaño de la ventana de contexto de entrada	Tamaño de incrustación
jina-v5-text-small	677M parámetros	32768 tokens	1024 dimensiones
jina-v5-text-nano	239M parámetros	8192 tokens	768 dimensiones

Estos dos modelos son los mejores en su categoría en cuanto al rendimiento general en la evaluación comparativa MMTEB (MTEB multilingüe). Entre los modelos con menos de 500 millones de parámetros, jina-embeddings-v5-text-nano es el de mejor rendimiento, a pesar de tener menos de 250 millones de parámetros, y el modelo jina-embeddings-v5-text-small es el líder entre los modelos de incrustación multilingüe con menos de 750 millones de parámetros.

Estos modelos están disponibles a través del Elastic Inference Service (EIS), mediante una API en línea y están disponibles para alojamiento local. Para obtener instrucciones sobre cómo acceder a los modelos jina-embeddings-v5-text, consulta la sección “Primeros pasos” a continuación.

Los modelos de incrustación y la indexación semántica aumentan considerablemente la precisión de los algoritmos de búsqueda, pero también tienen otros usos para tareas relacionadas con la similitud semántica y la extracción de significado, por ejemplo:

Búsqueda de textos duplicados.
Reconocimiento de paráfrasis y traducciones.
Descubrimiento de temas.
Motores de recomendación.
Análisis de sentimiento e intención.
Filtrado de spam.
Y muchos otros.

Características

Esta nueva familia de modelos cuenta con varias características diseñadas para mejorar la relevancia y reducir costos.

Optimización de tareas

Optimizamos los modelos jina-embeddings-v5-text para cuatro tipos generales de tareas:

Tarea	Ejemplos de casos de uso
Recuperación	Buscar con consultas en lenguaje natural y recuperar las coincidencias más relevantes en una colección de documentos.
Coincidencia de texto	Similitud semántica, deduplicación, paráfrasis y alineación de traducciones, y mucho más.
Agrupación	Descubrimiento de temas, organización automática de colecciones de documentos.
Clasificación	Categorización de documentos, detección de sentimientos e intenciones, tareas similares.

La optimización para una tarea suele implicar tener que renunciar a otra, por lo que la mayoría de los modelos de incrustación solo tienen un rendimiento competitivo para un tipo de tarea. Pero los modelos jina-embeddings-v5-text pueden especializarse en las cuatro áreas sin comprometer el entrenamiento de adaptadores de Low-Rank Adaptation (LoRA) específicos para cada tarea.

Los adaptadores de LoRA son un tipo de plugin para un modelo de AI que cambia drásticamente su comportamiento y solo aumenta ligeramente el tamaño total. En lugar de tener un modelo completo para cada tarea, cada uno con cientos de millones de parámetros, la familia de modelos jina-embeddings-v5-text te permite usar solo un modelo con un adaptador de LoRA compacto para cada tarea. Esto ahorra memoria, espacio de almacenamiento y costos de inferencia.

Incrustaciones truncadas

Entrenamos los modelos jina-embeddings-v5-text utilizando Aprendizaje de representación de Matryoshka, que te permite reducir tus incrustaciones a tamaños más pequeños con un costo mínimo para su calidad.

Por defecto, jina-embeddings-v5-text-small genera vectores de incrustación de 1024 dimensiones, cada uno representado por un número de 16 bits, lo que hace que cada incrustación tenga 2 KB de tamaño. En el caso de una gran colección de documentos, esto puede suponer una gran cantidad de datos que almacenar, y la búsqueda en una base de datos vectorial llena de incrustaciones es proporcional tanto al tamaño de la base de datos como al número de dimensiones que tiene cada vector almacenado.

Pero puedes simplemente reducir a la mitad el tamaño de las incrustaciones (desechar 512 de las 1024 dimensiones) y ocupar la mitad del espacio mientras duplicas las velocidades de búsqueda. Esto tiene un impacto en el rendimiento. Eliminar parte de la información reduce la precisión. Sin embargo, como muestra el grafo siguiente, incluso al eliminar la mitad de la incrustación, el rendimiento solo se reduce ligeramente:

Siempre y cuando tus incrustaciones tengan al menos 256 dimensiones, la pérdida de precisión debería ser bastante pequeña. Sin embargo, por debajo de ese nivel, la relevancia y la precisión se deterioran rápidamente.

Las incrustaciones truncadas como esta permiten a los usuarios gestionar sus propias compensaciones entre precisión y costos de computación. Te dan las herramientas para obtener grandes ganancias de eficiencia y grandes ahorros de costos de tu AI de búsqueda.

Cuantización robusta

La cuantización es otra forma de reducir el tamaño de las incrustaciones. En lugar de desechar parte de cada incrustación, la cuantización reduce la precisión de los números en la incrustación. Los modelos jina-embeddings-v5-text generan incrustaciones con números de 16 bits, pero podemos redondear esos números, reduciendo su precisión y la cantidad de bits necesarios para almacenarlos. En el caso más extremo, podemos reducir cada número a un bit (0 o 1), comprimiendo las incrustaciones predeterminadas de 1024 dimensiones jina-embeddings-v5-textde 2 kilobytes a 128 bytes, una reducción del 94 % solo por cuantización binaria. Al igual que para el truncamiento, esto produce grandes ahorros en memoria y costos de computación. Sin embargo, al igual que el truncamiento, la cuantización reduce la precisión de las incrustaciones.

Entrenamos los modelos de jina-embeddings-v5-text para que funcionen con Better Binary Quantization de Elasticsearch al minimizar esa pérdida de precisión, y las pruebas de evaluación comparativa de incrustaciones binarizadas de estos modelos muestran un rendimiento casi igual al de sus equivalentes no binarizados. Consulta el reporte técnico para obtener estudios detallados sobre el rendimiento de la binarización.

Rendimiento multilingüe

Muchos modelos de incrustación son multilingües porque se entrenaron con materiales que incluyen un gran número de idiomas. Pero eso no significa que todos funcionen igual de bien en todos los idiomas compatibles.

Identificamos 211 idiomas en la evaluación comparativa multilingüe MMTEB y los separamos para poder comparar nuestros modelos con modelos similares idioma por idioma. La imagen de abajo resume nuestros resultados como un mapa de calor. Cada parche es un idioma (identificado por su código ISO-639), y cuanto más verde sea, mejor rendimiento tuvo el modelo en comparación con el promedio de modelos similares:

Aunque la precisión varía entre idiomas, los modelos jina-embeddings-v5-text son de última generación o casi lo son en la mayoría de los idiomas del mundo.

Para obtener detalles sobre el rendimiento multilingüe, consulta el reporte técnico jina-embeddings-v5-text.

Jina en Elastic: IA nativa de última generación para búsqueda

Con los modelos jina-embeddings-v5-text en EIS, puedes ejecutar modelos de incrustación multilingüe de alto rendimiento de forma nativa en Elasticsearch, con inferencia totalmente gestionada y acelerada por GPU y sin infraestructura para aprovisionar o escalar. Los modelos jina-embeddings-v5-text amplían el creciente catálogo de modelos EIS con modelos compactos y multilingües impulsados por los últimos desarrollos en AI. Estos modelos tienen un rendimiento de última generación en recuperación de información y análisis de datos estándar, y ofrecen un soporte multilingüe inigualable que abarca todo el globo.

Con dos modelos de tamaños muy diferentes, los usuarios pueden determinar cuál es el más adecuado para sus aplicaciones y presupuestos. Además, con incrustaciones sólidas que siguen siendo eficientes cuando se truncan a tamaños más pequeños o se cuantifican con menor precisión, los modelos jina-embeddings-v5-text ofrecen oportunidades para ahorros concretos adicionales en costos de almacenamiento y computación, así como en latencia de procesamiento.

Con la familia jina-embeddings-v5-text , Jina Reranker y la rápida búsqueda vectorial y BM25 de Elastic, los usuarios ahora tienen acceso a la búsqueda híbrida de última generación de extremo a extremo de Elastic. Cuando necesitas los resultados más relevantes, ya sea para pipelines de Retrieval-Augmented Generation (RAG), aplicaciones de búsqueda o análisis de datos, Elastic con modelos de AI de búsqueda Jina ofrece una calidad estable y rentable.

Primeros pasos

Los modelos jina-embeddings-v5-text están completamente integrados en EIS y puedes usarlos al configurar el campotype en semantic_text al crear tu índice y especificar el modelo (jina-embeddings-v5-text-small o jina-embeddings-v5-text-nano) en el campo inference_id , como en este ejemplo:

PUT multilingual-semantic-index
{
  "mappings": {
    "properties": {
      "content": {
        "type": "semantic_text",
        "inference_id": ".jina-embeddings-v5-text-small"
      }
    }
  }
}

# Ingest data about France
POST multilingual-semantic-index/_doc
{
  "content": "The capital of France is Paris"}

GET multilingual-semantic-index/_search
{
  "query": {
    "semantic": {
      "field": "content",
      "query": "What is the French capital?"
    }
  }
}

Elasticsearch selecciona automáticamente el adaptador de LoRA adecuado durante la indexación y la recuperación. Las dimensiones de incrustación (consulta la sección “Incrustaciones truncadas” anterior) se pueden establecer al crear un endpoint de inferencia personalizado.

Consulta la documentación de Elasticsearch para obtener más información sobre el uso de modelos jina-embeddings-v5-text .

Más información

Para obtener más información sobre los modelos jina-embeddings-v5-text, lee las notas de lanzamiento en el blog de Jina AI y el reporte técnico, con información técnica más detallada sobre el rendimiento y el nuevo procedimiento de entrenamiento innovador de Jina AI. Para obtener información sobre cómo descargar y ejecutar estos modelos localmente, visita la jina-embeddings-v5-text página de la colección en Hugging Face.

Los modelos de Jina AI están disponibles bajo una licencia CC-BY-NC-4.0, así que puedes descargarlos y probarlos libremente, pero para uso comercial, ponte en contacto con Ventas de Elastic.

Garantizar la precisión semántica con una puntuación mínima

Mattias Brunnert — Fri, 20 Feb 2026 00:00:00 GMT

La búsqueda semántica ha abierto un mundo de oportunidades para la relevancia en la búsqueda. Los modelos dispersos y densos de alta calidad, como ELSER, E5 y Jina Embedding v4, devuelven resultados relevantes basados en el significado de las palabras, en lugar de la coincidencia de palabras clave. Sin embargo, la búsqueda semántica a veces devuelve resultados irrelevantes al final o para búsquedas que carecen de resultados relevantes en el índice. Esta propiedad de los modelos dispersos y densos puede confundir a los usuarios o desperdiciar valiosos tokens para los modelos de lenguaje grandes (LLM).

En este artículo, aprenderás cómo puedes utilizar el parámetro de puntuación mínima para aumentar la precisión de tus resultados de búsqueda semántica. Si deseas probar los ejemplos en esta publicación de blog, ve al cuaderno de Jupyter asociado.

Antecedentes: Precisión y recuperación

En la búsqueda, la relevancia, la precisión y la recuperación son conceptos clave. Se recomienda encarecidamente a todo lector que no esté familiarizado que se interiorice sobre estos conceptos. A continuación se presenta un resumen.

Precisión: La fracción de resultados de búsqueda devueltos que son relevantes para el usuario.
Recuerda: La fracción de todos los documentos relevantes del corpus que se incluyen en el conjunto de resultados de búsqueda.

O, en otras palabras, la precisión está devolviendo solo resultados relevantes; y la recuperación está devolviendo todos los resultados relevantes. Como puedes imaginar, estos son, a menudo, requisitos contradictorios. La búsqueda semántica tiende a tener una recuperación muy alta, pero puede tener dificultades con la precisión. Continúa leyendo para saber cómo moverte por esta propiedad.

Introducción del parámetro de puntaje mínimo

El parámetro "min_score" nos permite mejorar la precisión al establecer una puntuación mínima, lo que truncará el conjunto de resultados y eliminará cualquier coincidencia con una puntuación inferior al umbral definido. A continuación se muestra un ejemplo sencillo:

GET search-movies/_search
{
  "retriever": {
    "linear": {
      "min_score": 4,
      "retrievers": [
        ...
      ]
    }
  }
}

Normalizando la puntuación.

Establecer una puntuación mínima está bien; sin embargo, no todos los modelos semánticos devuelven una puntuación adecuada para un umbral estático. ELSER, por ejemplo, devuelve una puntuación que no tiene límite. Algunas puntuaciones de un modelo denso están estrechamente agrupadas y solo tienen sentido en el contexto de la consulta específica.

Para la mayoría de los casos de búsqueda semántica, recomendamos usar un enfoque de normalización antes de aplicar el "min_score". La normalización garantiza que la puntuación del documento esté dentro de un intervalo definido. Elasticsearch ofrece dos normalizadores, "l2_norm" y "minmax". El más comúnmente usado es "minmax", ya que es fácil de entender y funciona bien en muchos escenarios. Las propiedades clave de "minmax" incluyen:

Las puntuaciones de los documentos se distribuyen entre 0 y 1.
El documento con la puntuación más alta siempre tiene una puntuación de 1.
El documento con la puntuación más baja siempre tiene una puntuación de 0.
- Esto puede hacer que sea menos adecuado para la búsqueda por palabras clave. Consulta la sección “Búsqueda híbrida” para más información.

A continuación se muestra un ejemplo de una consulta semántica normalizada con min_score. El tamaño de la ventana de clasificación se ha aumentado a 500 para permitirnos devolver una lista más larga de resultados de búsqueda, comenzando en 100.

GET search-movies/_search
{
  "size": 100,
  "_source": [
    "title", "overview"
  ],
  "retriever": {
    "linear": {
      "rank_window_size": 500,
      "min_score": 0.25,
      "retrievers": [
        {
          "normalizer": "minmax",
          "retriever": {
            "standard": {
              "query": {
                "semantic": {
                  "field": "overview_vector",
                  "query": "superhero movie"
                }
              }
            }
          }
        }
      ]
    }
  }
}

El tamaño se ha establecido en un valor más alto de lo que normalmente se ve en producción. Esto es para que podamos inspeccionar la calidad de los resultados de búsqueda y ajustar los resultados.

Búsqueda híbrida usando el retriever lineal

Para la búsqueda híbrida, el enfoque más sencillo es normalizar todos las puntuaciones, asignar ponderaciones y aplicar una puntuación mínima. Ten en cuenta que al elegir ponderaciones con una suma de 1, mantienes la puntuación total dentro de un rango de 0–1. Esto hace que sea más fácil entender las puntuaciones finales y afinar min_score. A continuación se muestra un ejemplo:

GET search-movies/_search
{
  "size": 100,
  "_source": ["title", "overview","keywords"],
  "retriever": {
    "linear": {
      "rank_window_size": 500,
      "min_score": 0.25,
      "retrievers": [
        {
          "weight": 0.6,
          "normalizer": "minmax",
          "retriever": {
            "standard": {
              "query": {
                "semantic": {
                  "field": "overview_vector",
                  "query": "superhero movie"
                }
              }
            }
          }
        },
        {
          "weight": 0.4,
          "normalizer": "minmax",
          "retriever": {
            "standard": {
              "query": {
                "multi_match": {
                  "query": "superhero movie",
                  "fields": ["overview","keywords", "title"],
                  "type": "cross_fields",
                  "minimum_should_match": "2"
                }
              }
            }
          }
        }
      ]
    }
  }
}

Búsqueda híbrida usando RRF.

Con BM25, a menudo controlamos la precisión por otros medios, usando, por ejemplo, el operador de AND o minimum_should_match. Además, las consultas que consisten en términos únicos, precisos y poco frecuentes naturalmente generarán resultados con pocos resultados de búsqueda, a menudo todos muy relevantes. Esto puede llevar a:

Los resultados más lejanos en el resultado reciben una puntuación normalizada baja en el recuperador BM25, incluso si la puntuación absoluta de BM25 está cerca de las puntuaciones más altas.
Al agregar una puntuación BM25 muy baja a la puntuación semántica, el total puede aproximarse a la puntuación semántica.
La falta de contribución de la puntuación BM25 puede hacer que el documento sea descartado por el min_score threshold.

Como solución, podemos utilizar la fusión de rangos recíprocos (RRF) para combinar BM25 y los resultados semánticos. RRF consigue sortear el desafío de comparar puntuaciones de diferentes algoritmos de búsqueda al colocar el foco en la posición en cada conjunto de resultados. En este escenario, la min_score solo se aplica al recuperador semántico.

GET search-movies/_search
{
  "_source": ["title", "overview","keywords"],
  "retriever": {
    "rrf": {
      "rank_window_size": 500,
      "retrievers": [
        {
          "linear": {
            "rank_window_size": 500,
            "min_score": 0.25,
            "retrievers": [
              {
                "normalizer": "minmax",
                "retriever": {
                  "standard": {
                    "query": {
                      "semantic": {
                        "field": "overview_vector",
                        "query": "superhero movie"
                      }
                    }
                  }
                }
              }
            ]
          }
        },
        {
          "standard": {
            "query": {
              "multi_match": {
                "query": "superhero movie",
                "fields": ["overview", "keywords","title"],
                "type": "cross_fields",
                "minimum_should_match": "2"
              }
            }
          }
        }
      ]
    }
  }
}

Conclusión

Al usar min_score, hemos demostrado cómo podemos reducir el número de falsos positivos en nuestros conjuntos de resultados causados por la alta recuperación de algoritmos de búsqueda semántica. Para saber más sobre los recuperadores, consulta esta publicación de blog y la documentación de Elasticsearch.

Gestión de dependencias en Kubernetes

Nikos Fotiou — Thu, 19 Feb 2026 00:00:00 GMT

Así fue como construimos una plataforma de gestión de dependencias autohospedada mediante Kubernetes, Argo Workflows, Argo Events y Renovate CLI para automatizar actualizaciones, abordar rápidamente vulnerabilidades y exposiciones comunes (CVE), y propagar eficientemente nuevas versiones de paquetes en miles de repositorios.

Gestión de dependencias en Elastic

En Elastic, tenemos que gestionar cientos o incluso miles de repositorios, tanto privados como públicos. Cuando se descubre una CVE crítica, necesitamos respuestas y acciones inmediatas: ¿qué repositorios son vulnerables? ¿Con qué rapidez podemos solucionarlos? Además de la seguridad, surgen cuestiones relacionadas con la productividad: ¿cómo podemos propagar rápidamente el lanzamiento de una nueva versión de un paquete a todos los repositorios que dependen de él, sin dedicar demasiado tiempo a tareas manuales?

El disparador inicial para buscar formas de hacer la gestión de dependencias fue la necesidad de establecer una base segura con actualizaciones automatizadas para reducir los CVEs. Después de considerar cuidadosamente las soluciones para la gestión de dependencias, empezamos a trabajar en una infraestructura autohospedada. Usábamos nuestro propio clúster de Kubernetes para ejecutar Mend Renovate Community Self-Hosted. La idea era poder ofrecer una plataforma de gestión de dependencias a la que nuestros usuarios pudieran acceder de forma autónoma.

El experimento inicial tuvo éxito, así que cada vez más equipos comenzaron a implementar nuestra plataforma y usarla en el ciclo de vida de sus repositorios diarios para actualizaciones y parches CVE. Esto sucedió tan rápido que pronto alcanzamos el límite de nuestra instalación autohospedada.

El reto: ¿Cómo podemos escalar una plataforma de gestión de dependencias en una gran organización con una cantidad significativa de repositorios?

Nuestra plataforma de gestión de dependencias procesaba un repositorio a la vez, entonces el modelo de procesamiento secuencial no podía seguir el ritmo debido a la gran cantidad de repositorios que tenemos. Ya habíamos identificado que el problema residía en el concepto de que una sola instancia de nuestra herramienta de gestión de dependencias podría procesar nuestra gran y siempre creciente lista de repositorios. Los repositorios esperaban en una cola, a veces durante muchas horas. Más del 50 % de nuestros repositorios ni siquiera se procesaban diariamente. Eso significa que más del 50 % de nuestros repositorios esperaron más de 24 horas entre los escaneos.

Los grandes repositorios creaban cuellos de botella mayores, debido a sus grandes bases de código y a sus múltiples PRs abiertas. Los eventos de webhook de GitHub interrumpieron la secuencia. Automerge se volvió poco confiable debido a que el tiempo de escaneo era impredecible. Habíamos hecho una promesa a nuestros usuarios sobre la frecuencia de los escaneos y no pudimos cumplirla.

La decisión de integrarnos internamente: satisfacer las necesidades únicas de escalabilidad y seguridad de Elastic

Aunque considerábamos opciones comerciales, como la edición Renovate autohospedada empresarial de Mend, internamente en Elastic teníamos algunas iniciativas clave en marcha.

Nuestra decisión de crear una plataforma interna se basó en el reconocimiento de que solo una solución altamente personalizada podría satisfacer los requisitos específicos e innegociables de Elastic:

Inversión en nuestra plataforma interna para desarrolladores: en ese momento, ya habíamos comenzado a invertir considerablemente en nuestra plataforma interna para desarrolladores. Estábamos discutiendo y diseñando formas en las que cada uno de nuestros servicios pudiera encajar. Esto significaba que queríamos probar nuestras propias reglas y prácticas para nuestra plataforma de gestión de dependencias. Además de eso, entraban en juego nuevas pautas y queríamos diseñar la plataforma antes de los eventos.
Integración nativa y personalización del flujo de trabajo: requeríamos una integración directa con nuestras herramientas y procesos internos. Por ejemplo, queríamos centralizar la configuración como código con nuestro Catálogo de servicios (Backstage). Tenemos necesidades específicas sobre el uso de Backstage con las que queríamos que nuestra plataforma fuera compatible. Así que, aunque fuera posible usar las API de Renovate autohospedadas junto con nuestra automatización de Backstage, esto no cubriría completamente nuestros procesos internos.
Seguridad en profundidad específica de Elastic: nuestro cumplimiento de seguridad estricto requería mecanismos personalizados adaptados a nuestro ecosistema. Estábamos trabajando para fortalecer nuestro uso de “identidades no humanas”. Las medidas de seguridad implementadas implicaban que los métodos no estándar de autenticación en GitHub no funcionarían con una herramienta comercial que no fuera compatible con esta implementación interna. Nuestro flujo de trabajo incluía la implementación de un patrón de cifrado secreto de flujo de trabajo principal-secundario y el uso de tokens de GitHub transitorios y de un solo uso. La creación interna era la única forma práctica de integrar estas capas de seguridad únicas y minimizar la superficie de ataque en nuestro complejo entorno multinube.

La solución: Orquestación de flujo de trabajo para la gestión de dependencias

Nuestra solución partió del hecho de que queríamos basarnos en la herramienta de gestión de dependencias que ya usábamos, no reemplazarla y buscar otras soluciones. Había mostrado signos de su potencial, y su flexibilidad es importante para las distintas necesidades de toda nuestra organización. Consideramos diferentes soluciones, y lo que nos ayudó a decidir fueron las necesidades grandes y a veces especiales que tenemos que cubrir. Decidimos crear una plataforma de gestión de dependencias fiable y escalable, donde cada repositorio se procesa por sí mismo, lo que eliminaría los cuellos de botella y nos prepararía para crecer.

Diseñamos la plataforma mediante tres principios fundamentales:

1. Procesamiento en paralelo

Cada repositorio tiene su propio entorno de procesamiento de gestión de dependencias. No más colas. Nuestra concurrencia solo está limitada por la cantidad de recursos que gastamos. También aplicamos una programación distribuida inteligente para evitar que GitHub limite la velocidad.

2. Autoservicio

Usamos nuestro Catálogo de servicios (Backstage) para incorporar y gestionar automáticamente cualquier repositorio nuevo. Usamos nuestra propia definición de recursos para darle al usuario final la opción de seleccionar con qué frecuencia se procesará un repositorio, cuántos recursos quiere asignar a sus programaciones y si quiere desactivar o volver a activar el procesamiento por cualquier motivo. Planeamos agregar más opciones así a medida que las necesidades de nuestros usuarios evolucionen y se adapten mejor a la nueva instalación.

3. Alcance secreto reducido y aislamiento del espacio de nombres

Para aumentar la seguridad, suministramos a nuestros pods de gestión de dependencias tokens efímeros de GitHub que se generan al inicio de cada flujo de trabajo. Además, aislamos nuestras cargas de trabajo en espacios de nombres específicos para que solo se les proporcionen los secretos necesarios. Controlamos a qué secretos puede acceder cada uno de los flujos de trabajo de gestión de dependencias mediante Kubernetes RBAC. También utilizamos el cifrado para propagar el token de GitHub desde los flujos de trabajo principales a los secundarios.

Reconstruimos nuestra plataforma mediante Kubernetes y, al aprovechar el poder de Kubernetes, Argo Workflows impulsa la lógica de nuestros procesos, y Renovate CLI está configurado para escanear y procesar un repositorio a la vez.

La belleza: estamos utilizando proyectos de código abierto probados en batalla de una manera original, lo que ofrece nuevos ejemplos de trabajo para todos esos proyectos y, al mismo tiempo, aumenta la velocidad de desarrollo y consolida la reducción de CVE para nuestros equipos.

Arquitectura de gestión de dependencias: Cuatro microservicios

La plataforma cuenta con cuatro componentes personalizados:

Operador de los flujos de trabajo (Go/Kubebuilder)

Un operador de Kubernetes que gestiona el ciclo de vida del flujo de trabajo a través de tres definiciones de recursos personalizados (CRD):

CRD de RepoConfig: Única fuente de verdad para la configuración de repositorios.

Así es como se define RepoConfig en el operador:

// RepoConfig is the Schema for the repoconfigs API
type RepoConfig struct {
	metav1.TypeMeta `json:",inline"`

	// metadata is a standard object metadata
	// +optional
	metav1.ObjectMeta `json:"metadata,omitempty,omitzero"`

	// spec defines the desired state of RepoConfig
	// +required
	Spec RepoConfigSpec `json:"spec"`

	// status defines the observed state of RepoConfig
	// +optional
	Status RepoConfigStatus `json:"status,omitempty,omitzero"`
}

Y así es como se vería una instancia de RepoConfig:

apiVersion: workflows.elastic.co/v1
kind: RepoConfig
metadata:
  generation: 3
  name: elastic-test-repo
  namespace: dependency-management-operator
spec:
  owner: group:my-team
  renovate:
    config:
      resourceGroup: SMALL
      runFrequency: 4h
    enabled: true
  repository: elastic/test-repo

CRD principal: Gestiona CronWorkflows para escaneos programados.

Dentro del bucle de reconciliación del controlador principal, nos aseguramos de que los flujos de trabajo se creen y se mantengan actualizados o incluso se eliminen si es necesario.

En primer lugar, obtienes algunos ajustes configurados globalmente para los flujos de trabajo:

func (r *ParentReconciler) reconcileSubResources(ctx context.Context, req ctrl.Request, parent *workflowsv1.Parent) error {
	logger := logf.FromContext(ctx)
	logger.Info("Reconcile SubResources for Parent", "name", req.NamespacedName)
	wfSet := workflowsettings.WorkflowSettings{
		RunFrequency:   parent.Spec.RunFrequency,
		ResourceGroups: "parent",
	}

Se asegura de que un configmap de mutex esté actualizado para evitar que flujos de trabajo similares se ejecuten juntos:

	cfMngr := resources.NewConfigMapManager(r.Client, r.Scheme, r.OperatorConfig.ParentNamespace)
	err := cfMngr.CreateOrUpdateSyncMutexConfigmap(ctx, fmt.Sprintf("%s%s", r.OperatorConfig.ResourcesPrefix, r.OperatorConfig.SyncMutexCfgMapName), strings.TrimPrefix(parent.Spec.Repository, "elastic/"), r.OperatorConfig.SemaphoreConcurrencyLimit)

Luego crea un gestor de flujo de trabajo que es la estructura que creará o actualizará los CronWorkflows y las plantillas de flujo de trabajo:

	wfMngr := resources.NewArgoWorkflowManager(r.Client,
		r.Scheme,
		curateResourceName(
			strings.ReplaceAll(parent.Spec.Repository, "/", "-"),
		),
		parent.Namespace,
		"parent-workflow",
		false).
		WithOrganization(r.OperatorConfig.GitHubOrg).
		WithRepoName(parent.Spec.Repository).
		Init(true, true).
		WithPrefix(r.OperatorConfig.ResourcesPrefix).
		WithWfTemplateName(r.OperatorConfig.ParentWorkflowTemplate).
		WithResources(wfSet.GetResourceCategory()).
		WithSchedule(wfSet.GetCronSchedule()).
		WithImagePullSecrets([]corev1.LocalObjectReference{{
			Name: r.OperatorConfig.WorkflowImagePullSecrets,
		}}).
		AddArgument(true, true, "extra_cli_args").
		SetArgument(true, false, "extra_cli_args", "none").
		AddTemplate(resources.NewParentDAGTemplateInstance()).
		AddTemplate(resources.NewWorkflowsTemplateInstance("check-child-workflows", r.OperatorConfig.WorkflowImagePullPolicy, r.OperatorConfig.WorkflowNodeSelector)).
		AddTemplate(resources.NewWorkflowsTemplateInstance("security", r.OperatorConfig.WorkflowImagePullPolicy, r.OperatorConfig.WorkflowNodeSelector)).
		AddTemplate(resources.NewWorkflowsTemplateInstance("submit-child-workflow", r.OperatorConfig.WorkflowImagePullPolicy, r.OperatorConfig.WorkflowNodeSelector))
	wfMngr.OverWriteCommand("submit-child-workflow", r.OperatorConfig.ChildNamespace)
	wfMngr.OverwriteWfTemplateName("parent-wftmpl")
	wfMngr.AddSynchronization(fmt.Sprintf("%s%s", r.OperatorConfig.ResourcesPrefix, r.OperatorConfig.SyncMutexCfgMapName), "{{workflow.parameters.repo_name}}")
	err = wfMngr.CreateOrUpdateCronWorkflow(ctx)
	if err != nil {
		return fmt.Errorf("failed to create or update cron workflow: %w", err)
	}
	err = wfMngr.CreateOrUpdateWorkflowTemplate(ctx)
	if err != nil {
		return fmt.Errorf("failed to create or update workflow template: %w", err)
	}
	return nil

CRD infantil: Gestiona las plantillas de flujo de trabajo con recursos por repositorio.

El controlador secundario tiene un deber de reconciliación similar al del padre, pero esta vez es responsable de las plantillas de flujo de trabajo en el espacio de nombres secundario que se activarán por los flujos de trabajo principales.

func (r *ChildReconciler) reconcileSubResources(ctx context.Context, req ctrl.Request, child *workflowsv1.Child) error {
	logger := logf.FromContext(ctx)
	logger.Info("Reconcile SubResources for Child", "name", req.NamespacedName)
	wfSet := workflowsettings.WorkflowSettings{
		ResourceGroups: child.Spec.ResourceCategory,
	}
	wfMngr := resources.NewArgoWorkflowManager(r.Client,
		r.Scheme,
		curateResourceName(
			strings.ReplaceAll(child.Spec.Repository, "/", "-"),
		),
		child.Namespace,
		"runner",
		true).
		Init(false, true). // only manage workflow template
		WithPrefix(r.OperatorConfig.ResourcesPrefix).
		WithSuffix("-child-wftmpl").
		WithRepoName(child.Spec.Repository).
		WithOrganization(r.OperatorConfig.GitHubOrg).
		WithResources(wfSet.GetResourceCategory()). // will override resources of presets if set
		WithImagePullSecrets([]corev1.LocalObjectReference{{
			Name: r.OperatorConfig.WorkflowImagePullSecrets,
		}}).
		AddTemplate(resources.NewWorkflowsTemplateInstance("runner", r.OperatorConfig.WorkflowImagePullPolicy, r.OperatorConfig.WorkflowNodeSelector)).
		AddArgument(false, true, "repo_full_name").
		AddArgument(false, true, "repo_name").
		AddArgument(false, true, "encrypted_token").
		AddArgument(false, true, "extra_cli_args")
	wfMngr.OverWriteCommand("runner", r.OperatorConfig.ChildNamespace)
	err := wfMngr.CreateOrUpdateWorkflowTemplate(ctx)
	if err != nil {
		return fmt.Errorf("failed to create or update workflow template: %w", err)
	}
	return nil
}

El patrón de controlador múltiple proporciona una clara separación: el controlador RepoConfig maneja la incorporación/eliminación, el controlador principal administra la programación y el controlador secundario maneja las plantillas de ejecución.

Puerta de enlace de eventos de GitHub (Go)

Un proxy de webhook seguro que recibe webhooks de GitHub, verifica firmas, filtra por organización/repositorio y los redirige a Argo Events. Creamos 10 sensores distintos que respondían a interacciones en paneles de dependencias, eventos de relaciones públicas y actualizaciones de paquetes.

Este gateway permite la integración con las aplicaciones de GitHub de la siguiente manera:

Verifica las firmas entrantes de webhook de GitHub para mayor seguridad.
Reenvía eventos válidos al EventSource de Argo Events con todos los encabezados relevantes y la autenticación.
También configuramos un AuthSecret en EventSource y lo proporcionamos como un encabezado Bearer en las solicitudes reenviadas.
Proporcionamos logging, métricas y lógica de reintentos.

Realiza varias validaciones en cada solicitud de evento de GitHub.

Se asegura de que algunos atributos HTTP estén presentes:

// ValidateRequestMethod checks if the request method is POST.
func ValidateRequestMethod(r *http.Request) error {
	if r.Method != http.MethodPost {
		return fmt.Errorf("method not allowed, only POST is accepted")
	}
	return nil
}

// ValidateRequiredHeaders checks for required GitHub headers.
func ValidateRequiredHeaders(r *http.Request) error {
	eventType := r.Header.Get("X-GitHub-Event")
	deliveryID := r.Header.Get("X-GitHub-Delivery")
	signature := r.Header.Get("X-Hub-Signature-256")
	if eventType == "" || deliveryID == "" || signature == "" {
		return fmt.Errorf("missing required GitHub headers")
	}
	return nil
}

// ValidateUserAgent checks that the User-Agent header starts with GitHub-Hookshot/
func ValidateUserAgent(r *http.Request) error {
	userAgent := r.Header.Get("User-Agent")
	if !strings.HasPrefix(userAgent, "GitHub-Hookshot/") {
		return fmt.Errorf("invalid User-Agent")
	}
	return nil
}

Al mismo tiempo que valida la firma de cada solicitud y su organización:

// ValidateSignature verifies the GitHub webhook signature.
func ValidateSignature(r *http.Request, secret string) ([]byte, error) {
	payload, err := GitHub.ValidatePayload(r, []byte(secret))
	if err != nil {
		return nil, fmt.Errorf("invalid GitHub signature: %w", err)
	}
	return payload, nil
}

// ValidateAllowedOwner checks if the organization login is in the allowed organizations list.
func ValidateAllowedOwner(payload []byte, allowedGitHubOrganizations []string) (string, error) {
	var orgLogin string
	var payloadMap map[string]any
	if err := json.Unmarshal(payload, &payloadMap); err == nil {
		if orgObj, ok := payloadMap["organization"].(map[string]any); ok {
			if login, ok := orgObj["login"].(string); ok {
				orgLogin = login
			} else if name, ok := orgObj["name"].(string); ok {
				orgLogin = name
			}
		}
	}
	if !slices.Contains(allowedGitHubOrganizations, orgLogin) {
		return orgLogin, fmt.Errorf("organization login not allowed")
	}
	return orgLogin, nil
}

Por último, se redirige a Argo Events según el tipo de evento:

	// Map eventType to Argo `EventSource` path
	var endpoint string
	switch eventType {
	case "push":
		endpoint = "/push"
	case "issues":
		endpoint = "/issues"
	case "pull_request":
		endpoint = "/pull-requests"
	default:
		slog.Info("Ignoring unhandled event type", "event_type", eventType, "delivery_id", deliveryID)
		w.WriteHeader(http.StatusOK)
		_, _ = w.Write([]byte("ok"))
		return
	}
	forwardURL := h.config.ArgoEventSourceForwardURL + endpoint

En lo que respecta a Argo Events, 10 sensores vigilan el EventBus de Argo Events en busca de nuevos eventos.

apiVersion: argoproj.io/v1alpha1
kind: Sensor
metadata:
  name: {{ .Values.sensors.packageUpdateOnDefaultBranch.name }}
  namespace: {{ .Release.Namespace }}
spec:
  eventBusName: {{ .Values.eventBus.name }}

Luego, el script aplica la lógica de cada sensor:

script: |
          local e = event
          if not e or not e.body or not e.body.repository then
            return false
          end

          -- e.g., "refs/heads/main"
          local ref = e.body.ref
          local default_branch = e.body.repository.default_branch
          if not ref or not default_branch then
            return false
          end

          local expected = "refs/heads/" .. default_branch
          if ref ~= expected then
            return false
          end

        {{- if .Values.sensors.packageUpdateOnDefaultBranch.packageFiles }}
          patterns = { {{- range $i, $f := .Values.sensors.packageUpdateOnDefaultBranch.packageFiles }}{{ if $i }}, {{ end }}"{{ $f }}"{{- end }} }
        {{- end }}

          local function anyMatch(path)
            if type(path) ~= "string" then return false end
            for _, pat in ipairs(patterns) do
              -- match filename at repo root, or anywhere under subdirs
              if path:match(pat) or path:match(".+/" .. pat) then
                return true
              end
            end
            return false
          end

          local function filesContainPackage(paths)
            if type(paths) ~= "table" then return false end
            for _, p in ipairs(paths) do
              if anyMatch(p) then return true end
            end
            return false
          end

          -- Inspect all commits (GitHub includes added/modified/removed lists)
          local commits = e.body.commits
          if type(commits) ~= "table" then
            -- Fallback: some payloads include only head_commit
            commits = {}
            if type(e.body.head_commit) == "table" then
              table.insert(commits, e.body.head_commit)
            end
          end

          for _, c in ipairs(commits) do
            if filesContainPackage(c.added) or filesContainPackage(c.modified) or filesContainPackage(c.removed) then
              return true
            end
          end

          return false

Backstage Syncer (Go)

Esto sondea nuestro catálogo de servicios (Backstage) para las entidades de recursos reales del repositorio, las transforma en CRD de RepoConfig y mantiene la Platform sincronizada con los cambios de configuración. Los cambios se aplican en tres minutos.

repoMap := make(map[string]map[string]interface{})
			for i := range entities {
				entity := &entities[i]
				if entity.Spec.Type != "GitHub-repository" {
					continue
				}

				implRaw, err := json.Marshal(entity.Spec.Implementation)
				if err != nil {
					logger.Error("Failed to marshal implementation", "error", err)
					continue
				}

				var implMap map[string]interface{}
				err = json.Unmarshal(implRaw, &implMap)
				if err != nil {
					logger.Error("Failed to unmarshal implementation map", "error", err)
					continue
				}
				var repoName string
				if specMap, ok := implMap["spec"].(map[string]interface{}); ok {
					if repo, ok := specMap["repository"].(string); ok {
						repoName = repo
					}
				}
				if repoName == "" {
					continue
				}

				var workflowsRaw []byte
				if v, ok := implMap["spec"].(map[string]interface{}); ok {
					if r, ok := v["renovate"]; ok {
						workflowsRaw, _ = json.Marshal(r)
					} else {
						workflowsRaw = []byte(`{}`)
					}
				} else {
					workflowsRaw = []byte(`{}`)
				}

				var workflowsWithDefaults schema.WorkflowsMetadata
				err = json.Unmarshal(workflowsRaw, &rworkflowsWithDefaults)
				if err != nil {
					logger.Error("Failed to unmarshal workflows config", "error", err)
					continue
				}

				workflowsMap := map[string]interface{}{
					"enabled":        workflowsWithDefaults.Enabled,
					"require_pr":     workflowsWithDefaults.RequirePr,
					"resource_group": string(workflowsWithDefaults.ResourceGroup),
					"run_frequency":  string(workflowsWithDefaults.RunFrequency),
				}
				repoMap[repoName] = map[string]interface{}{
					"renovate": workflowsMap,
					"owner":    entity.Spec.Owner,
				}
			}
			logger.Info("Fetched GitHub Repository data from Backstage", "repository_count", len(repoMap), "status_code", resp.StatusCode)

Por último, escribe esos datos en instancias de RepoConfig.

Base de flujos de trabajo (mixta: JavaScript, Go, Helm)

La capa base contiene gráficos de Helm, configuraciones de JavaScript, un contenedor Go para Renovate CLI con soporte de cifrado y un indexador APK personalizado para paquetes Alpine.

Configuración de autoservicio

Los equipos configuran sus repositorios de manera declarativa a través de Backstage:

spec:
  renovate:
    enabled: true
    config:
      resourceGroup: LARGE      # SMALL | MEDIUM | LARGE  
      runFrequency: "0 */4 * * *"  # Every 4 hours

Los grupos de recursos asignan CPU y memoria en función del tamaño del repositorio:

PEQUEÑO: CPU de 500m, memoria 1Gi.
MEDIO: CPU 1000m, memoria 2Gi.
GRANDE: CPU de 2000 m, memoria de 4 Gi.

La configuración está bajo control de versiones, es auditable y se aplica automáticamente.

El patrón padre-hijo

El modelo de ejecución usa un patrón de flujo de trabajo primario y secundario:

Flujo de trabajo principal: CronWorkflow ligero que se ejecuta según lo programado. Cifra los secretos, determina si se debe ejecutar un escaneo y pasa la configuración al secundario.
Flujo de trabajo infantil: pod efímero donde se ejecuta Renovate CLI. Asigna recursos de forma dinámica, descifra secretos de forma aislada y se cierra al completar la tarea.

Esta separación proporciona seguridad (los secretos se cifran en el nivel superior), optimización de recursos (los niveles superiores utilizan recursos mínimos) y escalabilidad (los niveles inferiores se ejecutan en paralelo).

Los resultados

Transformación del rendimiento

Antes: Un repositorio a la vez, algunos repositorios no se procesaban posiblemente incluso por un día o más, menos de 1000 escaneos por día.
Después: más de 100 escaneos simultáneos, normalmente 8000 escaneos y hasta 10 000 escaneos registrados al día, limitados únicamente por la cantidad de recursos que estamos dispuestos a invertir y cómo gestionamos los límites de GitHub.

Rentabilidad

Sin embargo, por extraño que parezca, ejecutar 8000 pods al día puede darte el mismo resultado de forma mucho más económica que tener un pod de larga duración que intenta lograr los mismos resultados.

En la configuración anterior, ejecutábamos una sola instancia que, en un buen día, realizaba entre 500 y 600 escaneos. Al mismo tiempo, debido al hecho de que se ejecutarían diferentes tipos de repositorios en el mismo pod, necesitábamos dimensionar el pod para los más grandes. Ese tamaño sería mucho mayor que nuestra oferta extra grande actual, que usa 8 CPU para el pod y 16 GB de memoria.

Para cumplir con la salida diaria actual, el pod único tendría que ejecutarse durante 12 días. Entonces, al comparar el costo de un solo pod que funciona durante 12 días con 8000 pods de nuestro tamaño “MEDIO” funcionando cada día, nuestro nuevo diseño es mucho más eficiente para la misma salida de escaneos:

Métrica	Escenario A (Flujos de trabajo)	Escenario B (El pod único de larga duración)
Configuración	8000 pods (1 vCPU / 2 GB)	1 pod (8 vCPU / 16 GB)*
Duración	10 minutos cada uno	12 días continuos
Tiempo total de trabajo	1333 horas de procesamiento	288 horas de computación
Costo total	$65,83	$113,75

Sin embargo, tomemos en consideración que nuestro valor predeterminado para nuestras cargas de trabajo está configurado en “PEQUEÑO”, con la gran mayoría ejecutándose con éxito con 0.5 CPU y 1 G de RAM, y solo unos pocos necesitan cambiar a mediano y grande. Veamos qué sucede si el 60 % de nuestras cargas de trabajo se ejecutan en “PEQUEÑO”, el 30 % en “MEDIANO” y el 10 % en “GRANDE”, lo cual está más cerca de la realidad.

Métrica	Escenario A (Enjambre mixto)	Escenario B (El corredor de fondo)
Estrategia	8000 pods (tamaños mixtos)	1 pod (8 vCPU / 16 GB)*
Duración	10 minutos cada uno	12 días continuos
Costo total	$52,66	$113,75
Ahorros	$61,09 (54 % más barato)	—

Podemos ver que, con la misma salida, somos mucho más rentables en nuestra configuración actual.

Seguridad mejorada

Tokens efímeros de GitHub (minutos de exposición versus días).
Aislamiento del espacio de nombres con límites de control de acceso basado en roles (RBAC).
Cifrado secreto en reposo en flujos de trabajo principales.
Acceso directo a Vault eliminado.

Rendimiento previsible

Con una frecuencia de escaneo garantizada, finalmente podemos establecer Objetivos de nivel de servicio (SLO). La autofusión funciona de forma confiable. Los equipos confían en la plataforma para cumplir lo prometido.

Decisiones arquitectónicas clave

Aquí tienes algunas de las decisiones clave de diseño que moldearon el aspecto de la plataforma.

¿Por qué flujos de trabajo padre-hijo?

Adoptamos este patrón para aplicar una estrategia de defensa en profundidad. Al restringir las credenciales de alto valor (como los secretos de GitHub App) a un espacio de nombres dedicado y bloqueado, usamos RBAC para asegurarnos de que los pods de ejecución efímeros no puedan acceder arbitrariamente a datos confidenciales. Las vulnerabilidades recientes de la cadena de suministro (por ejemplo, los ataques "Shai Hulud" de integración continua/entrega continua [CI/CD]) han demostrado la importancia de aislar entornos de ejecución que ejecutan scripts dinámicos desde el almacén de credenciales.

Simultáneamente, este desacoplamiento permite una optimización granular de recursos. Los flujos de trabajo "primarios" actúan como orquestadores ligeros con una huella mínima, mientras que los flujos de trabajo "secundarios" manejan el escaneo de dependencia con uso intensivo de computación. Esta separación simplifica la gestión de ciclo de vida al permitirnos aplicar una lógica de reconciliación distinta a cada capa, lo que brinda a los usuarios control sobre los parámetros de ejecución (hijo) mientras conservamos el control administrativo sobre la programación y la infraestructura de seguridad (principal).

¿Por qué es de autoservicio?

Eliminar a nuestro equipo como un cuello de botella para la configuración del repositorio fue un requisito crítico. Nuestra misión era diseñar una plataforma escalable y de autoservicio capaz de admitir diversos casos de uso. Nos dimos cuenta de que actuar como filtros para cada cambio de configuración era insostenible, dado el gran volumen de repositorios. En su lugar, adoptamos una filosofía de habilitación: proporcionar los “rieles” (infraestructura y barandillas) mientras capacitamos a los usuarios para conducir los “trenes” (ejecución y personalización). Creemos que este cambio hacia la autonomía del equipo mejora significativamente la productividad al permitir a los usuarios adaptar el sistema a sus necesidades operativas específicas.

¿Por qué el patrón de Kubernetes Operator?

Como se mencionó anteriormente, un principio de diseño fundamental era garantizar que la plataforma fuera completamente de autoservicio. Necesitábamos un mecanismo automatizado para capturar la intención de los usuarios (como alternar escaneos, ajustar la frecuencia de programación o ajustar los límites de recursos de tiempo de ejecución) y propagar instantáneamente esos cambios a los flujos de trabajo subyacentes. Al anticipar los requisitos futuros, el sistema también necesitaba ser fácilmente extensible.

Para lograr esto, desarrollamos un Operador de Kubernetes para la gestión de dependencias personalizado. Al utilizar CRD como interfaz para la configuración, establecimos un bucle de reconciliación nativo de Kubernetes. Este operador monitoriza continuamente el estado deseado definido por el usuario y orquesta automáticamente las actualizaciones necesarias en la infraestructura del flujo de trabajo. Esto asegura una operación fluida y basada en eventos, donde la lógica de la plataforma maneja toda la complejidad detrás de escena.

¿Para qué sirve diseñar una puerta de enlace de eventos de GitHub?

Adoptar una arquitectura impulsada por eventos (EDA) fue esencial para la capacidad de respuesta de la plataforma. Aunque CronWorkflows proporcionaba un calendario de referencia fiable, requeríamos la agilidad para gestionar ejecuciones ad hoc, como que los usuarios activaran escaneos manualmente a través del panel. Para lograr esto, necesitábamos una puerta de enlace de ingestión dedicada para validar la integridad de la carga útil y enrutar las solicitudes de manera inteligente.

Evaluamos las soluciones existentes, incluido el GitHub EventSource nativo para Argo, pero identificamos riesgos significativos en cuanto a la sobrecarga operativa y las estrictas cuotas de la API de GitHub (por ejemplo, los límites de webhook por repositorio). En consecuencia, creamos una puerta de enlace personalizada para desacoplar nuestra infraestructura de estas limitaciones.

Crucialmente, esta puerta de enlace sirvió como un punto de control de tráfico estratégico durante nuestra migración. Actuó como un interruptor, lo que nos permitió realizar una implementación gradual y granular (cambio de tráfico) del sistema heredado a la nueva infraestructura. Esto garantizó que la incorporación de miles de repositorios fuera un proceso controlado y sin riesgos, en lugar de un cambio radical.

Lecciones aprendidas

Algunas lecciones que hemos aprendido van de la mano con el código fuente de Elastic:

El cliente primero: las plataformas están diseñadas para los usuarios. Por eso es importante tener las necesidades de los usuarios como prioridad número uno. Esto moldea la plataforma en una infraestructura y aplicaciones diseñadas de manera eficiente que reducen la fricción con los usuarios, simplifican el escalado de la plataforma y facilitan la adopción.
Espacio-tiempo: a veces el camino de menor resistencia lleva a arenas movedizas. Inicialmente, intentamos optimizar el modelo de procesamiento secuencial existente, pero esto no resolvió nuestros problemas. De hecho, solo introdujo más complejidad y cabos sueltos. La audaz decisión de rediseñar la plataforma con procesamiento paralelo requirió un esfuerzo inicial significativo. Sin embargo, finalmente allanó el camino para un crecimiento sostenible de la plataforma y prácticamente eliminó el tedioso trabajo administrativo diario.
Depende: una plataforma no puede operar de forma aislada. Su éxito depende de qué tan bien se integre con el ecosistema más amplio. En nuestro caso, la integración con Backstage fue crítica, ya que sirve como la única fuente de verdad para la incorporación fluida de servicios. Del mismo modo, conectarnos a Artifactory nos permitió gestionar las actualizaciones de paquetes privados de manera eficiente, y la lista de integraciones esenciales continúa.
Progreso, perfección simple: a lo largo de la implementación, sometimos constantemente a prueba nuestras hipótesis iniciales y nos adaptamos a los nuevos obstáculos que iban surgiendo. En lugar de quedar paralizados por el perfeccionismo, adoptamos un enfoque iterativo, abordamos los desafíos uno por uno y ajustamos nuestra estrategia de migración para cumplir con las condiciones del mundo real.

Lo que se viene

La entrega de la plataforma nos permite realizar un trabajo más significativo que nos ayudará a mejorar la UX y la eficiencia de nuestra plataforma. Algunos ejemplos son:

Aumento y protección de la adopción de la fusión automática

La característica de fusión automática acelera significativamente la velocidad del equipo al eliminar las tareas manuales tediosas. Sin embargo, tenemos que asegurarnos de que haya barreras estrictas para garantizar que este aumento de velocidad no se haga a expensas de la seguridad.

Mejora la observabilidad en torno a la experiencia del usuario final

Una prioridad fundamental de nuestra hoja de ruta es mejorar la observabilidad, no solo a nivel de plataforma, sino también específicamente desde la perspectiva del usuario final. Aunque capturar métricas de infraestructura es sencillo, comprender la experiencia real del usuario requiere conocimientos más profundos. Estamos trabajando para definir los indicadores de rendimiento (KPI) centrados en el usuario de núcleo para que nuestra telemetría pueda detectar los puntos de fricción y los problemas de rendimiento antes de que se conviertan en quejas de los usuarios.

Elimina obstáculos para una mayor adopción

De cara al futuro, nuestra prioridad es identificar y eliminar cualquier barrera que dificulte la adopción de plataformas. Ya sea que esto requiera desarrollar nuevas integraciones o desplegar conjuntos de características específicas, estamos comprometidos con la planificación basada en datos. Construimos con éxito una plataforma diseñada para escalar; nuestro enfoque ahora cambia a maximizar su potencial.

El panorama general

El proyecto de flujos de trabajo de gestión de dependencias demuestra un principio más amplio: cuando necesites escalar herramientas de código abierto más allá de su modelo de despliegue predeterminado, los patrones nativos de Kubernetes proporcionan un camino a seguir.

Al adoptar:

CRDs para configuración.
Operadores para la gestión de ciclo de vida.
Arquitectura basada en eventos para mayor capacidad de respuesta.
GitOps para el despliegue.

Creamos una orquestación que escala independientemente de la cantidad de repositorios que gestiona. El rendimiento de escanear un solo repositorio es el mismo tanto si gestionamos 100 como si gestionamos 1000.

Cuando se anuncia un CVE crítico, ahora tenemos respuestas en minutos, no en horas. Esa es la diferencia entre un cuello de botella y una ventaja competitiva.

Agradecimientos

Esta plataforma se basa en excelentes herramientas de código abierto:

Kubebuilder: el marco de trabajo de código abierto que usamos para poner en marcha nuestros operadores Kubernetes que inician y orquestan nuestros flujos de trabajo. [1][2]
Backstage: el marco de trabajo de código abierto sobre el cual hemos construido nuestro catálogo de servicios y que utilizamos como nuestra fuente de la verdad. [1][2]
Argo Workflows y Argo Events: la suite de código abierto que usábamos para orquestar procesos complejos y agregar procesamiento dinámico basado en eventos. [1][2][3][4]
Renovate CLI: la herramienta de gestión de dependencias de código abierto que procesa nuestros repositorios. [1][2]

* El modelo de precios de AWS Fargate se usó como referencia para el costo de un solo pod, aunque nuestras cargas de trabajo no se ejecutan necesariamente en AWS y se ejecutan en clústeres de Kubernetes completos.

Mejora el rendimiento de búsqueda con `best_compression`

Sherry Ger, Ryan Eno — Fri, 23 Jan 2026 00:00:00 GMT

Al ajustar Elasticsearch para cargas de trabajo de alta concurrencia, el enfoque estándar es maximizar la RAM para mantener el conjunto de documentos en la memoria y lograr una baja latencia de búsqueda. En consecuencia, best_compression rara vez se considera para cargas de trabajo de búsqueda, ya que se ve principalmente como una medida de ahorro de almacenamiento para casos de uso de Elastic Observability y Elastic Security donde la eficiencia del almacenamiento tiene prioridad.

En este blog, demostramos que cuando el tamaño de los sets de datos supera significativamente la caché de la página del sistema operativo, best_compression mejora el rendimiento de búsqueda y la eficiencia de los recursos al reducir el cuello de botella de las E/S.

La configuración

Nuestro caso de uso es una aplicación de búsqueda de alta concurrencia que se ejecuta en instancias optimizadas para CPU de Elastic Cloud.

Volumen de datos: ~500 millones de documentos
Infraestructura: 6 instancias de Elastic Cloud (Elasticsearch Service) (cada instancia: 1,76 TB de almacenamiento | 60 GB de RAM | 31,9 vCPU).
Proporción de memoria a almacenamiento: ~5 % del total de sets de datos que cabe en la RAM

Los síntomas: alta latencia

Observamos que cuando el número de solicitudes actuales aumenta alrededor de las 19:00, la latencia de búsqueda se deteriora significativamente. Como se muestra en la figura 1 y la figura 2, mientras que el tráfico alcanza un máximo de 400 solicitudes por minuto por instancia de Elasticsearch, el tiempo promedio del servicio de consulta se degrada a más de 60 ms.

El uso de la CPU seguía siendo relativamente bajo tras el manejo inicial de las conexiones, lo que indica que el cálculo no era el cuello de botella.

Surgió una fuerte correlación entre el volumen de búsquedas y los errores de página. A medida que aumentaban las solicitudes, observamos un incremento proporcional en los errores de página, que alcanzaron un pico de alrededor de 400k/minuto. Esto indicaba que el set de datos activo no podía caber en la caché de la página.

Al mismo tiempo, el uso del heap de JVM parecía ser normal y saludable. Esto descartó problemas de recolección de basura y confirmó que el cuello de botella era de E/S.

El diagnóstico: limitado por E/S

El sistema estaba vinculado a E/S. Elasticsearch se basa en la caché de páginas del sistema operativo para servir datos de índice desde la memoria. Cuando el índice es demasiado grande para la caché, las consultas desencadenan lecturas de disco costosas. Aunque la solución habitual es escalar horizontalmente (agregar nodos/RAM), quisimos agotar primero las mejoras de eficiencia de nuestros recursos existentes.

La solución

De forma predeterminada, Elasticsearch utiliza la compresión LZ4 para sus segmentos de índice, que logra un equilibrio entre la velocidad y el tamaño. Planteamos la hipótesis de que cambiarse a best_compression (que usa zstd) reduciría el tamaño de los índices. Un espacio más pequeño permite que un mayor porcentaje del índice encaje en la caché de páginas, lo que cambia un aumento insignificante en la CPU (para la descompresión) por una reducción en la E/S del disco.

Para habilitar best_compression, reindexamos los datos con la configuración de índice index.codec: best_compression. Alternativamente, el mismo resultado podría lograrse al cerrar el índice, que restablece el códec de índice a best_compression, y luego realiza una fusión de segmentos.

POST my-index/_close
PUT my-index/_settings
{
    "codec": "best_compression"
}
  
POST my-index/_open  
POST my-index/_forcemerge?max_num_segments=1

Los resultados

Los resultados confirmaron nuestra hipótesis: la eficiencia mejorada del almacenamiento se tradujo directamente en un aumento sustancial en el rendimiento de búsqueda sin un aumento asociado en la utilización de la CPU.

La aplicación de best_compression redujo el tamaño del índice en aproximadamente un 25 %. Aunque es menor que la reducción observada en los datos de log repetitivos, esta reducción del 25 % aumentó efectivamente nuestra capacidad de caché de página en el mismo margen.

Durante la siguiente prueba de carga (que comenzó a las 17:00), el tráfico fue aún mayor, y alcanzó un pico de 500 solicitudes por minuto por nodo de Elasticsearch.

A pesar de la mayor carga, la utilización de la CPU fue menor que en la ejecución anterior. El uso elevado en la prueba anterior probablemente se debió a la sobrecarga del manejo excesivo de errores de página y la gestión de E/S del disco.

Lo más importante es que los errores de página disminuyeron significativamente. Incluso a un rendimiento más alto, los errores rondaron los <200k por minuto, en comparación con >300k en la prueba de referencia.

Aunque los resultados del error de página aún fueron menos que óptimos, el tiempo de servicio de consulta se redujo en aproximadamente un 50 %, y se mantuvo por debajo de los 30 ms incluso bajo una carga más pesada.

La conclusión: best_compression para la búsqueda

Para casos de uso donde el volumen de datos supera la memoria física disponible, best_compression es una palanca poderosa para ajustar el rendimiento.

La solución convencional a los errores de caché es escalar para aumentar la RAM. Sin embargo, al reducir la huella del índice, logramos el mismo objetivo: maximizar el recuento de documentos en la memoria caché de páginas. Nuestro siguiente paso es explorar la clasificación de índices para optimizar aún más el almacenamiento y obtener más rendimiento de los recursos existentes.

Agent Builder ya está disponible para el público en general: envía agentes según el contexto en cuestión de minutos

Anish Mathur, Evan Castle — Thu, 22 Jan 2026 00:00:00 GMT

Nos complace anunciar la disponibilidad general de Agent Builder en Elastic Cloud Serverless y en la próxima versión 9.3. Agent Builder aprovecha el poder de Elasticsearch como plataforma de ingeniería del contexto para desarrollar rápidamente agentes de IA contextuales y centrados en los datos.

Los agentes están ganando terreno impulsados por su potencial para ofrecer aumentos en la eficiencia y mejores experiencias del cliente. Pero en la práctica, ofrecer a los agentes el contexto adecuado es difícil, especialmente cuando se opera sobre datos empresariales desordenados y no estructurados. Los desarrolladores deben gestionar herramientas, indicaciones, estados, lógica de razonamiento, modelos y, lo que es más importante, recuperar el contexto relevante de las fuentes empresariales para ofrecer resultados y acciones precisos. Elastic Agent Builder ofrece estos componentes centrales para desarrollar agentes seguros, confiables y basados en el contexto.

Capacidades centrales de Agent Builder

Agent Builder aprovecha las inversiones a largo plazo de Elastic en relevancia de búsqueda y retrieval-augmented generation, y trabaja para convertir a Elasticsearch en la mejor base de datos vectorial que simplifique el desarrollo de agentes de IA contextuales y centrados en datos.

Agent Builder te permite:

Comienza inmediatamente con un agente conversacional integrado que pueda responder preguntas, realizar análisis e impulsar investigaciones sobre cualquier dato en Elasticsearch.
Pasa rápidamente de datos complejos y datos no estructurados a un agente personalizado con una experiencia de desarrollo basada en la configuración.
Aprovecha la mejor relevancia de búsqueda híbrida de su clase mediante ES|QL integrado o herramientas personalizadas para mejorar la calidad del contexto y la confiabilidad del agente.
Ejecuta flujos de trabajo complejos (vista previa) como herramientas reutilizables para enriquecer datos, actualizar registros, enviar mensajes y mucho más para la automatización basada en reglas.
Conéctate a fuentes de datos fuera de Elasticsearch usando flujos de trabajo y MCP para correlacionar y combinar el contexto para los agentes.
Integra con cualquier marco de trabajo de aplicación o agente utilizando herramientas integradas y personalizadas expuestas a través de MCP, y la capacidad de conectarte a MCP externo (vista previa), soporte para A2A y soporte completo de API.
Amplía las capacidades de Agent Builder con la integración de soluciones de terceros, como LlamaIndex para el procesamiento de documentos complejos, o Arcade.dev para un acceso seguro y estructurado a las herramientas.

Para ampliar aún más la funcionalidad de Agent Builder, presentamos Elastic Workflows, nuestras nuevas capacidades de automatización basadas en reglas, ahora en versión preliminar técnica. Para las tareas organizacionales, los agentes a veces necesitan certeza y confiabilidad en las acciones basadas en reglas, que a menudo son necesarias para implementar una lógica de negocio específica. Elastic Workflows ofrece a los agentes una forma sencilla y declarativa de orquestar sistemas internos y externos para realizar acciones, recopilar y transformar datos y contexto. Los flujos de trabajo son totalmente componibles, orientados a eventos y flexibles, y pueden exponerse como herramientas a un agente mediante MCP.

De los datos al agente en minutos

El desarrollo de agentes puede llevar semanas de trabajo previo para consolidar almacenes de datos separados, construir pipelines manuales, ajustar búsquedas y gestionar una orquestación compleja. Agent Builder reduce el tiempo de desarrollo de agentes al eliminar la necesidad de almacenes de datos separados, bases de datos vectoriales, pipelines RAG, capas de búsqueda, traductores de búsquedas y orquestadores de herramientas, lo que te permite centrarte en la lógica de agentes y la entrega de aplicaciones.

Agent Builder integra de forma nativa las primitivas de la plataforma Elasticsearch para que el desarrollo de agentes sea rápido.

Comienza con un agente conversacional integrado que pueda chatear inmediatamente y razonar con tus datos indexados.
Integra agentes en aplicaciones, dashboards o sistemas CI/CD con acceso interactivo a través de Kibana, API o MCP y A2A.
Construye con herramientas predeterminadas para entender tu estructura de datos, selecciona el índice adecuado, genera búsquedas híbridas, semánticas y estructuradas optimizadas, y crea visualizaciones configurables usando ES|QL basado en prompts de lenguaje natural.

Para profundizar más, prueba un recorrido práctico completo.

Desarrolla sobre Elasticsearch, una plataforma de datos completa para la ingeniería de contexto

Para los agentes de IA, la calidad del contexto es esencial para brindar un razonamiento eficaz y reducir los riesgos de alucinación. Para muchos agentes de IA empresarial, los datos comerciales necesarios para realizar una tarea son el contexto más decisivo. Como almacén de datos masivamente escalable, base de datos vectorial y líder en relevancia, Elasticsearch ya ofrece muchas primitivas sólidas de ingeniería de contexto. La ingeniería de contexto va más allá de la simple retrieval-augmented generation, ya que te permite adaptar y escalar la forma en que los datos se recuperan, se clasifican, se filtran y se presentan a los agentes, lo que ayuda a reducir el ruido y la ambigüedad.

Elasticsearch ofrece un motor de contexto que combina búsqueda léxica, búsqueda vectorial y filtrado estructurado para la recuperación, lo cual mejora sustancialmente el rendimiento de los LLM al garantizar que el modelo opere en un contexto relevante y preciso. Esta capacidad está respaldada por recuperación agente, junto con herramientas integradas y lógica de búsqueda que seleccionan automáticamente los índices correctos y transforman el lenguaje natural en búsquedas optimizadas para el contexto.

Con Agent Builder, puedes asegurarte de que los agentes reciban primero el contexto más útil con controles de relevancia y clasificación, lo que te permite ajustar la lógica de calificación, clasificación y filtrado. Elasticsearch te permite controlar qué importa, por qué importa y cómo se prioriza, en lugar de depender de un comportamiento de recuperación opaco. Todo esto está respaldado por Elasticsearch como una plataforma de datos escalable para almacenar y escalar todos tus datos, desde texto, vectores, metadatos, logs y más en una plataforma, lo que facilita la gestión del contexto para los agentes.

Ejecutar flujos de trabajo complejos como herramientas reutilizables

Aunque los agentes de IA permiten razonar tareas complejas, gran parte de la automatización depende de ejecutar de forma confiable acciones basadas en reglas que impongan una lógica de negocio específica. Elastic Workflows ofrece una forma sencilla y declarativa de orquestar sistemas internos y externos para realizar acciones, recopilar contexto o datos e integrarlos como parte de los agentes. Definidos en YAML, los flujos de trabajo son totalmente componibles, lo que permite que sean tan simples o complejos como requiera el trabajo. Esto ofrece a los agentes una forma eficiente de actuar en toda la plataforma y soluciones de Elasticsearch, así como con aplicaciones de terceros.

La integración de un flujo de trabajo con Agent Builder se puede realizar en tres pasos (requisito previo: habilitar los flujos de trabajo con los detalles que aparecen aquí).

1. Crea y guarda un nuevo flujo de trabajo usando el sencillo editor basado en YAML con función de autocompletado y pruebas integradas.

2. Crea una nueva herramienta en Agent Builder con el tipo “flujo de trabajo” e ingresa una descripción para ayudar al agente a determinar cuándo usar la herramienta de flujo de trabajo.

3. Agrega la herramienta de flujo de trabajo a tu agente personalizado.

4. ¡Eso es todo! Ahora el agente puede llamar al flujo de trabajo desde una conversación.

Tu agente, tus reglas

Agent Builder no te limita a un solo paradigma de desarrollo. En cambio, está diseñado para permitir enfoques de desarrollo abiertos y flexibles para los agentes, con control total sobre los datos, la relevancia, los modelos, la interoperabilidad, la seguridad y el diseño de los agentes.

Las definiciones personalizadas de agentes te permiten elegir exactamente a qué herramientas puede acceder un agente, incorporar avisos personalizados del sistema, adaptar las instrucciones del agente y definir los límites de seguridad. Los agentes siguen siendo independientes del modelo, lo que te permite configurar de manera flexible un LLM de preferencia, tanto nativo como en todo el ecosistema más amplio, sin estar limitado a un solo proveedor.

Desarrolla herramientas extensibles que encapsulen lógica específica de dominio (por ejemplo, filtros de índice específicos, ES|QL joins, pipelines analíticas), y aplica limitaciones para un uso seguro en producción. El soporte completo de API permite la interoperabilidad con otros marcos de trabajo agentes, con soporte nativo para Model Context Protocol (MCP). La integración A2A significa que puedes exponer tus Elastic Agent a otros marcos de trabajo, servicios y apps de clientes, reutilizando los mismos datos y la lógica de ingeniería de contexto a través de las integraciones.

Agent Builder permite un desarrollo flexible y abierto y está diseñado para integrarse fácilmente con marcos de trabajo y plataformas populares de agentes. Estas integraciones pueden ser esenciales para ofrecer agentes efectivos. Como describe Sam Partee, cofundador de Arcade.dev,

“Los sistemas agénticos fallan hoy porque conectar la IA a herramientas y datos es complejo. Elastic Agent Builder con Arcade.dev ofrece a los desarrolladores una forma estructurada y segura de manejar cómo los agentes recuperan el contexto, la razón y la acción, lo que lleva a los agentes de la demostración al grado de producción".

Agent Builder también aprovecha la extensibilidad de Elasticsearch para manejar datos complejos. Como describe Jerry Liu, CEO de LlamaIndex,

“Desbloquear el contexto empresarial de las fuentes de datos no estructurados es clave para construir agentes efectivos. El procesamiento de documentos complejos de Elastic Agent Builder combinado de LlamaIndex fortalece la capa de contexto crítico, lo que ayuda a los equipos a recuperar, procesar y preparar datos para que los agentes puedan razonar con mayor precisión y ofrecer mejores resultados”.

¿Qué puedes construir?

Agent Builder ya se está utilizando para una variedad de casos de uso. A continuación, se muestran algunos ejemplos y arquitecturas de referencia para empezar a utilizar los agentes:

Automatizar la infraestructura: En escenarios de soporte, los agentes se han utilizado para leer, pensar y chatear, pero hasta la fecha, no pueden comunicarse y contactarse con la infraestructura que puede que sea necesario administrar. El equipo de ingeniería de Elastic creó un agente para la gestión automatizada de la infraestructura como parte de un hackatón. El agente investiga activamente los problemas relacionados con la infraestructura de la aplicación y toma medidas automatizadas. Utiliza flujos de trabajo para optimizar configuraciones, responder a problemas y escalar recursos, todo ello basado en una comprensión inteligente de los logs de infraestructura.
Análisis de amenazas a la seguridad: Se desarrolló un agente de vulnerabilidad de seguridad con Elastic Agent Builder, MCP y Elasticsearch. Automatiza el análisis de amenazas correlacionando datos de seguridad interna con inteligencia de amenazas externas. El agente realiza búsquedas semánticas sobre incidentes y configuraciones históricas, incrementa los resultados con datos en tiempo real de Internet y aplica razonamientos LLM para evaluar la relevancia ambiental, priorizar riesgos y producir remediaciones accionables. Consulta la arquitectura de referencia.
Soporte técnico al cliente: Los agentes pueden realizar múltiples tareas de soporte, incluyendo resumen de casos, desduplicación y creación de problemas, e investigación técnica profunda. Agent Builder permite esto mediante una búsqueda híbrida de varios pasos para encontrar solo los problemas, soluciones y procedimientos relacionados más relevantes, y formular hipótesis de causa raíz y planes de remediación. Agent Builder puede simplificar la arquitectura de sistemas de soporte complejos y acelerar el tiempo de entrega.
Descubrimiento de productos y contenido: Agent Builder simplifica el proceso de exponer catálogos de productos complejos para experiencias conversacionales, al tiempo que permite a las organizaciones mantener la flexibilidad para incluir sus propios requisitos y lógica de negocio.
Haz tu propio desarrollo: Únete al Agent Builder Hackathon, que se celebrará del 22 de enero al 27 de febrero de 2026. Trabaja con la comunidad para crear agentes de IA basados en el contexto y en varios pasos que combinen búsqueda, flujos de trabajo, herramientas y razonamiento para automatizar tareas del mundo real*

Comienza a construir agentes personalizados ahora

Comienza con una prueba de Elastic Cloud y revisa la documentación aquí. Para los clientes existentes, Agent Builder está disponible en Cloud Serverless y en el nivel Empresarial en Elastic Cloud Hosted y es autoadministrado.

* Haz clic aquí para conocer los términos, condiciones y requisitos de elegibilidad completos para la hackatón

Crear agentes de voz con Elastic Agent Builder

Kenneth Kreindler — Thu, 22 Jan 2026 00:00:00 GMT

La AI ha estado atrapada en una caja de cristal. Escribes comandos, te responde con texto y eso es todo. Es útil, pero distante, como ver a alguien moverse detrás de una pantalla. Este año, 2026, será el año en que las empresas romperán ese cristal y llevarán a los agentes de AI a los productos, donde realmente aportan valor.

Una de las formas en que se romperá el “cristal” es mediante la adopción de agentes de voz, que son agentes de AI que reconocen el habla humana y sintetizan audio generado por computadora. Esto se ha vuelto posible gracias al auge de las transcripciones de baja latencia, los modelos de lenguaje grandes (LLM) rápidos y los modelos de texto a voz que suenan humanos.

Los agentes de voz también necesitan acceso a los datos empresariales para ser realmente valiosos. En este blog, aprenderemos cómo funcionan los agentes de voz y diseñaremos uno para ElasticSport, una tienda ficticia de equipamiento deportivo al aire libre, con LiveKit y Elastic Agent Builder. Nuestro agente de voz será consciente del contexto y trabajará con nuestros datos.

Cómo funciona

Existen dos paradigmas en el mundo de los agentes de voz: el primero usa modelos de voz a voz, y el segundo usa un pipeline de voz compuesto por voz a texto, LLM y texto a voz. Los modelos de voz a voz tienen sus propios beneficios, pero los pipelines de voz ofrecen mucha más personalización sobre las tecnologías utilizadas y cómo se gestiona el contexto, además de un mayor control sobre el comportamiento del agente. Nos enfocaremos en el modelo de pipeline de voz.

Componentes clave

Transcripción (voz a texto)

La transcripción es el punto de entrada del pipeline de voz. El componente de transcripción toma como entrada fragmentos de audio sin procesar, transcribe el habla en texto y entrega ese texto como salida. El texto transcrito se almacena en un búfer hasta que el sistema detecta que el habla del usuario ha terminado; en ese momento, se inicia la generación del LLM. Varios proveedores externos ofrecen transcripciones de baja latencia. Al seleccionar uno, considera la latencia y la precisión de la transcripción, y asegúrate de que soporten transcripciones en streaming.

Ejemplos de API de terceros: AssemblyAI, Deepgram, OpenAI, ElevenLabs

Detección de turnos

La detección de turnos es el componente del pipeline que detecta cuándo el hablante ha terminado de hablar y la generación debería comenzar. Una forma común de hacer esto es mediante un modelo de detección de actividad vocal (VAD), como Silero VAD. El VAD utiliza los niveles de energía del audio para detectar cuándo contiene habla y cuándo ha terminado. Sin embargo, el VAD por sí solo no puede identificar la diferencia entre una pausa y el final del discurso. Por eso, a menudo se combina con un modelo de fin de enunciado que predice si el hablante ha terminado de hablar, basándose en la transcripción provisional o el audio sin procesar.

Ejemplos (Hugging Face): livekit/turn-detector, pipecat-ai/smart-turn-v3

Agente

El agente es el núcleo de un pipeline de voz. Es responsable de entender la intención, reunir el contexto adecuado y formular una respuesta en formato de texto. Elastic Agent Builder, con sus capacidades de razonamiento integradas, su biblioteca de herramientas y la integración de flujos de trabajo, permite crear un agente que puede trabajar sobre tus datos e interactuar con servicios externos.

LLM (texto a texto)

Al seleccionar un LLM para Elastic Agent Builder, hay dos características principales a considerar: las evaluaciones de razonamiento del LLM y el tiempo hasta el primer token (TTFT).

Las evaluaciones de razonamiento indican qué tan bien el LLM es capaz de generar respuestas correctas. Las evaluaciones que considerar son aquellas que evalúan la adherencia a las conversaciones de varios turnos y las de inteligencia, como MT-Bench y el set de datos Humanity's Last Exam, respectivamente.

Las evaluaciones de TTFT evalúan qué tan rápido produce el modelo su primer token de salida. Existen otros tipos de evaluaciones de latencia, pero el TTFT es particularmente importante para los agentes de voz, ya que la síntesis de audio puede comenzar tan pronto como se recibe el primer token, lo que resulta en una menor latencia entre turnos y una conversación que se siente natural.

Por lo general, hay que elegir un equilibrio entre estas dos características, ya que los modelos más rápidos suelen tener un peor desempeño en las evaluaciones de razonamiento.

Ejemplos (Hugging Face): openai/gpt-oss-20b, openai/gpt-oss-120b

Síntesis (texto a voz)

La parte final del pipeline es el modelo de texto a voz. Este componente es responsable de convertir la salida de texto del LLM en audio audible. Al igual que con el LLM, la latencia es una característica para tener en cuenta al momento de seleccionar un proveedor de texto a voz. La latencia de texto a voz se mide por el tiempo hasta el primer byte (TTFB). Es el tiempo que tarda en recibirse el primer byte de audio. Un TTFB más bajo también reduce la latencia entre turnos.

Ejemplos: ElevenLabs, Cartesia, Rime

Desarrollar el pipeline de voz

Elastic Agent Builder puede integrarse en un pipeline de voz en varios niveles diferentes:

Solo herramientas de Agent Builder: voz a texto → LLM (con herramientas de Agent Builder) → texto a voz
Agent Builder como MCP: conversión de voz a texto → LLM (con acceso a Agent Builder a través de MCP) → conversión de texto a voz
Agent Builder como núcleo: voz a texto → Agent Builder → texto a voz

Para este proyecto, elegí Agent Builder como el enfoque núcleo. Con este enfoque, se puede usar toda la funcionalidad de Agent Builder y los flujos de trabajo. El proyecto usa LiveKit para orquestar voz a texto, detección de turnos y texto a voz, e implementa un nodo LLM personalizado que se integra directamente con Agent Builder.

Agente de voz de soporte de Elastic

Vamos a construir un agente de voz de soporte personalizado para una tienda de deportes ficticia llamada ElasticSport. Los clientes podrán llamar a la línea de ayuda, pedir recomendaciones de productos, buscar detalles de artículos, consultar el estado de sus pedidos y pedir que se les envíe la información del pedido por mensaje de texto. Para lograr esto, primero necesitamos configurar un agente personalizado y crear herramientas para ejecutar consultas y flujos de trabajo en el lenguaje de búsqueda de Elasticsearch (ES|QL).

Watch video on Vidyard

Configurar el agente

Indicación

La indicación le señala al agente qué personalidad debe adoptar y cómo responder. Es importante destacar que hay algunas indicaciones específicas para voz que garantizan que las respuestas se sinteticen correctamente en audio y que los malentendidos se resuelvan con elegancia.

You are a Sales Assistant at ElasticSport, an outdoor sport shop specialized in hiking and winter equipment. 

[Profile]
- name: Iva
- company: ElasticSport
- role: Sales Assistant
- language: en-GB
- description: ElasticSport virtual sales assistant

[Context]
- Ask clarifying questions to understand the context.
- Use available tools to answer the user's question.
- Use the knowledge base to retrieve general information

[Style]
- Be informative and comprehensive.
- Maintain a professional, friendly and polite tone.
- Mimic human behavior and speech patterns.
- Be concise. Do not over explain initially

[Response Guideline]
- Present dates in spelled-out month date format (e.g., January fifteenth, two thousand and twenty-four).
- Avoid the use of unpronounceable punctuation such as bullet points, tables, emojis.
- Respond in plain text, avoid any formatting.
- Spell out numbers as words for more natural-sounding speech.
- Respond in short and concise sentences. Responses should be 1 or 2 sentences long.

[ERROR RECOVERY]
### Misunderstanding Protocol
1. Acknowledge potential misunderstanding
2. Request specific clarification

Flujos de trabajo

Agregaremos un pequeño flujo de trabajo para enviar un SMS a través de la API de mensajería de Twilio. El flujo de trabajo se expondrá al agente personalizado como una herramienta, lo que dará como resultado una experiencia de usuario donde el agente puede enviar al usuario un SMS mientras está en la llamada. Esto permite que quien llama pueda decir, por ejemplo: “¿Puedes enviarme más detalles sobre X por mensaje de texto?”.

name: send sms
enabled: true
triggers:
  - type: manual
inputs:
  - name: message
    type: string
    description: The message to send to the phone number.

  - name: phone_number
    type: string
    description: The phone number to send the message to.

consts:
  TWILIO_ACCOUNT: "****"
  BASIC_AUTH: "****"
  FROM_PHONE_NNUMBER: "****"
steps:
  - name: http_step
    type: http
    with:
      url: https://api.twilio.com/2010-04-01/Accounts/{{consts.TWILIO_ACCOUNT}}/Messages.json
      method: POST
      headers:
        Content-Type: application/x-www-form-urlencoded
        Authorization: Basic {{consts.BASIC_AUTH | base64_encode}}
      body: From={{consts.FROM_PHONE_NNUMBER}}&To={{inputs.phone_number}}&Body={{inputs.message}}
      timeout: 30s

Herramientas ES|QL

Las siguientes herramientas permiten que el agente proporcione respuestas relevantes basadas en datos reales. El repositorio de ejemplo contiene un script de configuración para inicializar Kibana con sets de datos de productos, pedidos y base de conocimientos.

Product.search

El set de datos de productos contiene 65 productos ficticios. Este es un documento de ejemplo:

{
      "sku": "ort3M7k",
      "name": "Ortovox Free Rider 26 Backpack",
      "price": 189,
      "currency": "USD",
      "image": "https://via.placeholder.com/150",
      "description": "The Ortovox Free Rider 26 is a technical freeride backpack with a dedicated safety compartment and diagonal ski carry system. Perfect for backcountry missions.\n\nKey Features:\n- 26L capacity\n- Diagonal ski carry system\n- Safety equipment compartment\n- Helmet holder\n- Hydration system compatible",
      "category": "Accessories",
      "subCategory": "Backpacks",
      "brand": "Ortovox",
      "sizes": ["One Size"],
      "colors": ["Black", "Blue", "Orange"],
      "materials": ["Nylon", "Polyester"]
    }

Los campos de nombre y descripción se mapean como semantic_text, lo que permite al LLM usar la búsqueda semántica a través de ES|QL para recuperar productos relevantes. La consulta de búsqueda híbrida realiza una coincidencia semántica en ambos campos, aplicando un peso ligeramente mayor a las coincidencias en el campo de nombre mediante un refuerzo.

La búsqueda primero recupera los 20 mejores resultados clasificados por su puntuación de relevancia inicial. Luego, estos resultados se reclasifican basándose en su campo de descripción utilizando el modelo de inferencia .rerank-v1-elasticsearch y, finalmente, se reducen a los cinco productos más relevantes.

type: ES|QL
toolId: products.search
description: Use this tool to search through the product catalogue by keywords.
query: |
    FROM products
        METADATA _score
      | WHERE
          MATCH(name, ?query, {"boost": 0.6}) OR
            MATCH(description, ?query, {"boost": 0.4})
      | SORT _score DESC
      | LIMIT 20
      | RERANK ?query
            ON description
            WITH {"inference_id": ".rerank-v1-elasticsearch"}
      | LIMIT 5

parameters:
    query: space separated keywords to search for in catalogue

Knowledgebase.search

Los sets de datos de la base de conocimientos contienen documentos con la siguiente estructura, en los que los campos de título y contenido se almacenan como texto semántico:

{
        id: "8273645",
        createdAt: "2025-11-14",
        title: "International Orders",
        content: `International orders are processed through our international shipping partner. Below are the countries we ship to and average delivery times.
        Germany: 3-5 working days
        France: 3-5 working days
        Italy: 3-5 working days
        Spain: 3-5 working days
        United Kingdom: 3-5 working days
        United States: 3-5 working days
        Canada: 3-5 working days
        Australia: 3-5 working days
        New Zealand: 3-5 working days
        `
}

Y la herramienta usa una búsqueda similar a la herramienta product.search:

type: "ES|QL"
toolId: knowledgebase.search
description: Use this tool to search the knowledgebase.
query: |
  FROM knowledge_base
    METADATA _score
  | WHERE
      MATCH(title, ?query, {"boost": 0.6}) OR
      MATCH(content, ?query, {"boost": 0.4})
  | SORT _score DESC
  | LIMIT 20
  | RERANK ?query
      ON content
      WITH {"inference_id": ".rerank-v1-elasticsearch"}
  | LIMIT 5

parameters:
  query: space separated keywords or natural language phrase to semantically search for in the knowledge base

Orders.search

La herramienta final que agregaremos es la que se usa para recuperar pedidos por order_id:

type: "ES|QL"
toolId: order.search
description: Use this tool to retrieve an order by its ID.
query: |
  FROM orders
    METADATA _score
  | WHERE order_id == ?order_id
  | SORT _score DESC
  | LIMIT 1

parameters:
  order_id: "the ID of the order"

Después de configurar el agente y vincular estos flujos de trabajo y herramientas ES|QL, puedes probar al agente dentro de Kibana.

Además de desarrollar un agente de soporte para ElasticSport, el agente, los flujos de trabajo y las herramientas pueden adaptarse a otros casos de uso, como un agente de ventas que califica clientes potenciales, un agente de servicio para reparaciones del hogar, reservas para un restaurante o un agente para agendar citas.

La parte final es conectar el agente que acabamos de crear con LiveKit, los modelos de texto a voz y de voz a texto. El repositorio enlazado al final de este blog contiene un nodo de LLM personalizado de Elastic Agent Builder que se puede usar con LiveKit. Solo hay que sustituir el AGENT_ID por el tuyo propio y enlazarlo con tu instancia de Kibana.

Primeros pasos

Echa un vistazo al código, y pruébalo tú mismo aquí.

Agent Builder, más allá del chat: presentamos la infraestructura aumentada

Alexander Wert, Bill Easton, Gil Raphaelli, Graham Hudgins, Norrie Taylor — Thu, 22 Jan 2026 00:00:00 GMT

Esto no es una especulación. Es un hecho.

Todos somos testigos del auge de los agentes de IA. Son fantásticos para resumir texto, escribir fragmentos de código y responder preguntas basadas en la documentación. Pero para quienes trabajamos en DevOps y en ingeniería de confiabilidad de sitios (SRE), existe una limitación frustrante. La mayoría de los agentes están atrapados en el paradigma del centro de llamadas, lo que significa que pueden leer, pensar y chatear, pero no pueden interactuar con la infraestructura que se supone que deben administrar.

Para nuestro último proyecto de hackathon, decidimos superar esa limitación.

Desarrollamos infraestructura aumentada: un copiloto de infraestructura que no solo te da consejos, sino que también crea, despliega, monitorea y corrige el entorno en vivo.

El problema: copiar, reformatear, pegar

Los agentes estándar operan en el vacío. Si una app se cae y le cuesta a la compañía $5 millones, un agente estándar puede leerte el libro de apuntes sobre cómo arreglarlo. Pero sigue siendo tu responsabilidad hacer el trabajo. Ahora solo tienes que copiar el código, adaptarlo al entorno y pegarlo en tu terminal.

Queríamos crear un agente que entendiera la diferencia entre hablar de Kubernetes y configurar Kubernetes.

El motor: ¿Qué es Elastic Agent Builder?

Para desarrollarlo no empezamos desde cero. Partimos de Elastic Agent Builder. Para quienes no lo conozcan, Elastic Agent Builder es un marco de trabajo diseñado para desarrollar agentes de forma rápida, y actúa como puente entre un gran modelo de lenguaje (LLM) (en nuestra demo usamos Google Gemini) y los datos privados almacenados en Elasticsearch.

Agent Builder se puede usar para la IA conversacional si se lo basa en datos internos, como documentos o registros. Pero su característica más poderosa es la capacidad de asignar herramientas. Estas herramientas permiten al LLM salir de la interfaz de chat para realizar tareas específicas. Nos dimos cuenta de que si llevábamos esta característica al límite, podíamos transformar Agent Builder en una potencia de automatización.

Cómo hacerlo funcionar: desarrollo de la primera versión

Cuando empezamos el proyecto, sabíamos que queríamos que los agentes pudieran cambiar el mundo exterior. Pensamos lo siguiente: ¿y si construimos algún software “runner” (para ejecutar cualquier comando que el agente pueda pensar en el host)? Y luego: ¿qué pasaría si los runners, Elastic Agent Builder y el usuario estuvieran en una llamada los tres?

Empezamos desarrollando un proyecto en Python, Augmented Infrastructure Runners, que era esencialmente un bucle de while(true) que consultaba la API de conversaciones de Elastic Agent Builder cada segundo y verificaba una sintaxis especial que habíamos creado:

{
	"tool_name": "my_tool",
       "tool_arguments": "\{stringified json arguments\}"
}

Luego actualizamos la indicación para enseñarle sobre nuestra nueva sintaxis de llamada de herramienta. Bill es uno de los mantenedores de FastMCP, el marco de trabajo más popular para crear servidores del Protocolo de Contexto de Modelo (MCP) en Python. Se propuso trabajar usando el cliente FastMCP con este nuevo software runner para montar servidores MCP y poner sus herramientas a disposición del runner. Cuando el agente veía esto, ejecutaba la llamada a la herramienta y POST enviaba los resultados de vuelta a la conversación como si el usuario hubiera enviado los resultados. Esto hizo que el LLM respondiera al resultado, ¡y seguimos adelante!

Fue genial, pero tuvo dos problemas principales:

El agente soltaba todo este JSON directamente a la conversación con el usuario.
El primer momento en el que los mensajes se podían ver a través de la API de conversaciones era cuando se completaba una ronda de conversación (es decir, cuando el LLM respondía).

Así que nos propusimos descubrir cómo llevarlo a segundo plano.

Luego probamos darle al agente una herramienta llamada call_external_tool con dos argumentos: el argumento de la herramienta tool_name y la herramienta JSON en strings. Esta llamada a la herramienta externa no devolvía nada, pero lo importante es que era visible en la solicitud GET a la API de conversaciones. Luego dimos licencia a los runners para escribir documentos directamente en Elasticsearch, los cuales el agente de Elastic Agent Builder podía recuperar según fuera necesario. El agente siempre está operando en respuesta a un mensaje del usuario, por lo que necesitamos iniciar el agente con un mensaje del usuario para que busque resultados y continúe con el procesamiento. Así que hicimos que los agentes insertaran un pequeño mensaje en el chat para reanudar la conversación:

Así que ya teníamos llamadas a herramientas externas. Sin embargo, debido al segundo problema mencionado anteriormente, tuvimos que deshacernos de esa parte final de arranque. De lo contrario, ¡cada llamada a una herramienta externa requería una ronda completa de conversación para recuperar los resultados!

Llevarlo a otro nivel: introducción a los flujos de trabajo

Además de las llamadas al lenguaje de búsqueda de Elasticsearch (ES|QL) y a las herramientas de búsqueda de índices, los agentes de Agent Builder pueden llamar a herramientas basadas en flujo de trabajo de Elastic. Los flujos de trabajo de Elastic ofrecen una forma flexible y fácil de gestionar para ejecutar una secuencia y una lógica de acciones arbitrarias. Para nuestros objetivos, todo lo que necesitamos que haga el flujo de trabajo es almacenar una solicitud externa de herramienta en Elasticsearch y devolver un ID para consultar los resultados. Esto da lugar a la siguiente definición sencilla de flujo de trabajo:

name: ai-tool-call
enabled: true
triggers:
  - type: manual
inputs:
  - name: runner_id
    type: string
  - name: tool_calls
    type: string

steps:
  - name: store_request
    type: elasticsearch.create
    with:
      index: distributed-tool-requests
      id: "{{inputs.runner_id}}_{{ execution.id }}"
      document:
        request_id: "{{ execution.id }}"
        runner_id: "{{inputs.runner_id}}"
        tool_call: "{{inputs.tool_calls}}"
        status: "unhandled"

  - name: output_result
    type: console
    with:
      message: "Called tool, with execution id: {{ execution.id }}. Use this ID to poll the results."

Con eso, en lugar de depender de que la solicitud de llamada a la herramienta se escriba en la conversación, los runners pueden simplemente consultar el índice de distributed-tool-requests de Elasticsearch para nuevas solicitudes externas de herramienta y hacer el reporte de los resultados en otro índice de Elasticsearch con la execution.id proporcionada.

Esto elimina los dos problemas principales mencionados anteriormente:

El historial de conversaciones ya no está lleno de datos de las llamadas a herramientas externas.
Como los runners consultan el índice de Elasticsearch en lugar del historial de conversaciones, no están bloqueados por la ronda de conversación que debe completarse para que las solicitudes de herramientas externas se hagan visibles.

El segundo punto tiene la gran ventaja de que el procesamiento de las llamadas a herramientas externas comienza dentro de la fase de pensamiento del agente (y no cuando se ha completado la ronda de conversación). Esto nos permite indicarle al modelo de lenguaje grande (LLM) en la indicación del sistema que consulte los resultados de la herramienta externa hasta que estén disponibles, lo que elimina la necesidad del mensaje de inicio. En general, esto tiene el efecto positivo de que la conversación se siente más natural: el LLM puede procesar varias solicitudes de herramienta externa dentro de una sola ronda de conversación (en vez de requerir una ronda de conversación por cada solicitud de herramienta) y, por tanto, puede realizar solicitudes de usuario más complejas de una sola vez.

Todo integrado

Para cerrar la brecha entre el LLM y el rack de servidores, desarrollamos una arquitectura específica empleando las capacidades de la herramienta de Agent Builder:

Runners de infraestructura aumentada: desplegamos runners ligeros dentro de los entornos de destino (servidores, clústeres de Kubernetes, cuentas en la cloud). Estos runners se conectan directamente a Elastic, utilizando endpoints seguros y secretos solo disponibles para cada uno de los runners.
ES|QL retrieval: el copiloto utiliza ES|QL de Elastic para realizar búsquedas híbridas. No solo realiza una búsqueda en base de conocimientos sino también de capacidades. Consulta a los runners conectados para ver qué herramientas están disponibles (por ejemplo, list_ec2_instances, install_helm_chart).
Ejecución del flujo de trabajo: una vez que el agente decide un curso de acción, crea un flujo de trabajo estructurado.
Ciclo de retroalimentación: los runners ejecutan el comando de forma local y envían los resultados de vuelta a Elasticsearch. El copiloto lee el resultado del índice y decide el siguiente paso.

La demo: de interrupción a observabilidad

Watch video on Vidyard

En el video, mostramos dos casos distintos que demuestran la potencia de esta arquitectura.

Escenario 1: Rescate de DevOps

Empezamos con un usuario que estaba preocupado por una interrupción de 5 millones de dólares causada por un punto ciego en su clúster de Kubernetes.

La solicitud: "¿Cómo me aseguro de que esto no vuelva a suceder?"
La acción: el agente no solo proporcionó un tutorial. Identificó el clúster, creó los espacios de nombres necesarios, generó secretos de Kubernetes, instaló el operador OpenTelemetry e instantáneamente proporcionó un enlace a un dashboard APM en vivo.
El resultado: observabilidad completa de Kubernetes e información de aplicación sin que el usuario escriba ni una sola línea de YAML.

Caso 2: entrega de Security

Una regla fundamental de la seguridad de infraestructuras es que no puedes proteger lo que no puedes ver. Mientras llevamos a cabo nuestra intervención de DevOps, el agente ve una oportunidad para mejorar la seguridad del entorno.

Con una alerta iniciada tras una investigación previa relacionada con Elastic Observability, demostramos cómo un profesional de seguridad puede comunicarse directamente con su infraestructura: primero, para enumerar los activos y recursos en su entorno cloud; y segundo, para desplegar las herramientas necesarias para asegurarse de que el entorno esté protegido.

Descubrimiento: el copiloto enumeró los recursos de AWS para el profesional de la seguridad e identificó una brecha crítica: una instancia de Amazon Elastic Compute Cloud (EC2) y un clúster de Amazon Elastic Kubernetes Service (EKS) con terminales públicos que no tienen protección para endpoints.
Remediación: con una simple aprobación, el copiloto desplegó Elastic Security detección y respuesta extendida (XDR) y detección y respuesta en el cloud (CDR) a los activos vulnerables, asegurando el entorno en tiempo real.
El resultado: protección de los activos y recursos de AWS desplegados con seguridad en tiempo de ejecución completa.

El futuro: todo aumentado

Este proyecto demuestra que Elastic Agent Builder puede ser el cerebro central de las operaciones distribuidas. No nos limitamos solo a infraestructura. Nuestra tecnología runner puede impulsar:

Synthetics aumentados: diagnosticar errores de TLS en runners globales.
Desarrollo aumentado: crear pull requests e implementar CAPTCHAs en servicios frontend.
Operaciones aumentadas: reconfiguración automática de los servidores DNS durante una interrupción.

Pruébalo tú mismo

Creemos que el futuro de la IA no se trata solo de soporte por chat; se trata de infraestructura aumentada. Se trata de tener un socio que pueda desplegar, arreglar, observar y proteger a la par tuya.

¡Descubre el código y pruébalo tú mismo con runners distribuidos (GitHub) más Elastic Agent Builder en Elastic Cloud Serverless hoy mismo!

Crea un proyecto serverless en Elastic Cloud.
Despliega el código en un ejecutor.
Configura el runner.
Configura tu archivo mcp.json.
Inicia el runner, el cual creará de forma automática tu agente y sus herramientas.
¡Chatea con un agente que puede razonar, planificar y ejecutar acciones en tus runners distribuidos!

El equipo: Alex, Bill, Gil, Graham, & Norrie

Estadísticas ES|QL más rápidas con tablas hash de estilo suizo

Chris Hegarty, Matthew Alp, Nik Everet — Mon, 19 Jan 2026 00:00:00 GMT

Recientemente reemplazamos partes clave de la implementación de tablas hash de Elasticsearch por un diseño de estilo suizo y observamos tiempos de construcción e iteración hasta 2–3 veces más rápidos en cargas de trabajo uniformes y de alta cardinalidad. El resultado es una latencia más baja, un mejor rendimiento y un desempeño más predecible para las operaciones de estadísticas y análisis del lenguaje de búsqueda de Elasticsearch (ES|QL).

¿Por qué importa esto?

La mayoría de los flujos de trabajo analíticos típicos acaban reduciéndose a agrupar datos. Ya sea para calcular el promedio de bytes por host, contar eventos por usuario o agregar métricas en diferentes dimensiones, la operación de núcleo es la misma: asignar claves a grupos y actualizar los agregados en ejecución.

A pequeña escala, casi cualquier tabla hash razonable funciona bien. A gran escala (cientos de millones de documentos y millones de grupos distintos), los detalles empiezan a importar. Los factores de carga, la estrategia de sondeo, el diseño de la memoria y el comportamiento de la memoria caché pueden marcar la diferencia entre un rendimiento lineal y una barrera de fallos de caché.

Elasticsearch ha soportado estas cargas de trabajo durante años, pero siempre estamos buscando oportunidades para modernizar los algoritmos de núcleo. Por lo tanto, evaluamos un enfoque más reciente inspirado en las tablas suizas y lo aplicamos a cómo ES|QL calcula las estadísticas.

¿Qué son realmente las tablas suizas?

Las tablas suizas son una familia de tablas hash modernas popularizadas por la SwissTable de Google y posteriormente adoptadas en Abseil y otras bibliotecas.

Las tablas hash tradicionales pasan mucho tiempo persiguiendo punteros o cargando claves solo para descubrir que no coinciden. La característica definitoria de las tablas suizas es la capacidad de rechazar la mayoría de las sondas usando una pequeña estructura de matriz residente en caché, almacenada separadamente de las claves y valores, llamadas bytes de control, para reducir significativamente el tráfico de memoria.

Cada byte de control representa un solo slot y, en nuestro caso, codifica dos cosas: si el slot está vacío y una huella corta derivada del hash. Estos bytes de control están dispuestos de forma continua en la memoria, típicamente en grupos de 16, lo que los hace ideales para el procesamiento de una sola instrucción y múltiples datos (SIMD).

En lugar de sondear una ranura a la vez, las tablas suizas escanean todo un bloque de bytes de control utilizando instrucciones vectoriales. En una sola operación, la CPU compara la huella digital de la clave entrante con 16 ranuras y filtra las entradas vacías. Solo los pocos candidatos que sobreviven a esta ruta rápida requieren cargar y comparar las claves reales.

Este diseño intercambia una pequeña cantidad de metadatos adicionales por una mejor localización de caché y muchas menos cargas aleatorias. A medida que la tabla crece y las cadenas de sonda se alargan, esas propiedades se vuelven cada vez más valiosas.

SIMD en el centro

La verdadera estrella del espectáculo es SIMD.

Los bytes de control no solo son compactos, sino que también están diseñados explícitamente para ser procesados con instrucciones vectoriales. Una sola comparación SIMD puede verificar 16 huellas dactilares a la vez, lo que convierte lo que normalmente sería un bucle en un puñado de operaciones amplias. Por ejemplo:

En la práctica, esto significa:

Menos ramas.
Cadenas de sondeo más cortas.
Menos cargas de la memoria de claves y valores.
Mucho mejor utilización de las unidades de ejecución de la CPU.

La mayoría de las búsquedas nunca pasan del escaneo de bytes de control. Cuando lo hacen, el trabajo restante es enfocado y previsible. Este es precisamente el tipo de carga de trabajo en el que destacan las CPU modernas.

SIMD bajo el capó

Para los lectores a quienes les gusta echar un vistazo por dentro, aquí está lo que sucede al insertar una nueva clave en la tabla. Utilizamos la API Panama Vector con vectores de 128 bits, por lo que opera en 16 bytes de control en paralelo.

El siguiente fragmento muestra el código generado en un Intel Rocket Lake con AVX-512. Aunque las instrucciones reflejan ese entorno, el diseño no depende de AVX-512. Las mismas operaciones vectoriales de alto nivel se emiten en otras plataformas usando instrucciones equivalentes (por ejemplo, AVX2, SSE o NEON).

; Load 16 control bytes from the control block
vmovdqu xmm0, XMMWORD PTR [r9+r10*1+0x10]

; Broadcast the 7-bit fingerprint of the new key across the vector
vpbroadcastb xmm1, r11d

; Compare all 16 control bytes to the new fingerprint
vpcmpeqb k7, xmm0, xmm1
kmovq rbx, k7

; Check if any matches were found
test rbx, rbx
jne

Cada instrucción tiene una función clara en el proceso de inserción:

vmovdqu: Carga 16 bytes de control consecutivos en el registro xmm0 de 128 bits.
vpbroadcastb:Replica la huella digital de 7 bits de la nueva clave en todos los carriles del registro xmm1.
vpcmpeqb: Compara cada byte de control con la huella digital transmitida, lo que genera una máscara de posibles coincidencias.
kmovq + test: Mueve la máscara a un registro de propósito general y comprueba rápidamente si existe una coincidencia.

Finalmente, decidimos sondear grupos de 16 bytes de control a la vez, ya que las pruebas de rendimiento mostraron que expandirse a 32 o 64 bytes con registros más amplios no proporcionaba ningún beneficio de rendimiento medible.

Integración en ES|QL

Adoptar el hash al estilo suizo en Elasticsearch no fue solo un reemplazo inmediato. ES|QL tiene exigencias estrictas en cuanto a contabilidad de memoria, seguridad e integración con el resto del motor de cálculo.

Integramos la nueva tabla hash estrechamente con la gestión de memoria de Elasticsearch, que incluye el reciclador de páginas y la contabilidad del interruptor de circuito, lo que garantiza que las asignaciones permanezcan visibles y limitadas. Las agregaciones de Elasticsearch se almacenan densamente y se indexan por un ID de grupo, lo que mantiene el diseño de memoria compacto y rápido para la iteración, además de habilitar ciertas optimizaciones de rendimiento al permitir el acceso aleatorio.

Para las claves de bytes de longitud variable, almacenamos en caché el hash completo junto con el ID del grupo. Esto evita la recomputación de costosos códigos hash durante el sondeo y mejora la localidad de la caché al mantener los metadatos relacionados juntos. Durante el reprocesamiento, podemos confiar en el hash en caché y en los bytes de control sin inspeccionar los valores en sí, lo que mantiene bajos los costos de redimensionamiento.

Una simplificación importante en nuestra implementación es que las entradas nunca se eliminan. Esto elimina la necesidad de marcadores (marcadores para identificar ranuras previamente ocupadas) y permite que las ranuras vacías permanezcan verdaderamente vacías, lo que mejora aún más el comportamiento de la sonda y mantiene eficientes los escaneos de bytes de control.

El resultado es un diseño que se ajusta naturalmente al modelo de ejecución de Elasticsearch a la vez que preserva las características de rendimiento que hacen atractivas a las tablas suizas.

¿Cómo funciona?

En cardinalidades pequeñas, las tablas suizas rinden aproximadamente al mismo nivel que la implementación existente. Esto es lo que se espera: cuando las tablas son pequeñas, los efectos de la caché tienen menos importancia y hay poco que optimizar.

A medida que aumenta la cardinalidad, la imagen cambia rápidamente.

El mapa de calor anterior traza los factores de mejora del tiempo para diferentes tamaños de clave (8, 32, 64 y 128 bytes) en cardinalidades desde 1,000 hasta 10,000,000 de grupos. A medida que aumenta la cardinalidad, el factor de mejora aumenta constantemente, y llega a hasta 2–3x para distribuciones uniformes.

Esta tendencia es exactamente lo que predice el diseño. Una cardinalidad más alta conduce a cadenas de sondeo más largas en las tablas hash tradicionales, mientras que el sondeo de estilo suizo continúa resolviendo la mayoría de las búsquedas dentro de los bloques de bytes de control amigables con SIMD.

El comportamiento de la caché cuenta la historia

Para comprender mejor las aceleraciones, ejecutamos el mismo JMH benchmarks en Linux perf y capturamos estadísticas de caché y TLB.

En comparación con la implementación original, la versión suiza realiza aproximadamente un 60% menos de referencias de caché en general. Las cargas de la caché de último nivel disminuyen más de 4 veces, y los fallos de carga de la LLC caen en más de 6 veces. Dado que las omisiones de LLC a menudo se traducen directamente en accesos a la memoria principal, esta reducción por sí sola explica una gran parte de la mejora de extremo a extremo.

Más cerca de la CPU, vemos menos pérdidas de caché de datos L1 y casi 6 veces menos pérdidas TLB de datos, lo que apunta a una localidad espacial más estrecha y patrones de acceso a la memoria más predecibles.

Esta es la recompensa práctica de los bytes de control compatibles con SIMD. En lugar de cargar repetidamente claves y valores desde ubicaciones de memoria dispersas, la mayoría de las pruebas se resuelven escaneando una estructura compacta residente en la caché. Menos memoria afectada significa menos fallos, y menos fallos significan consultas más rápidas.

Resumen

Al adoptar un diseño de tabla hash al estilo suizo y al inclinarnos por el sondeo amigable con SIMD, logramos una velocidad de 2 a 3 veces mayor para cargas de trabajo de estadísticas ES|QL de alta cardinalidad, junto con un rendimiento más estable y predecible.

Este trabajo destaca cómo las estructuras de datos modernas con conocimiento de CPU pueden desbloquear ganancias sustanciales, incluso para problemas bien conocidos, como las tablas hash. Hay más para explorar aquí, como especializaciones adicionales de tipo primitivo y el uso en otras rutas de alta cardinalidad, como las uniones, que son solo parte del esfuerzo más amplio y continuo para modernizar continuamente los internos de Elasticsearch.

Si te interesan los detalles o quieres seguir el trabajo, echa un vistazo a esta solicitud de extracción y problema meta en Github.

¡Feliz hash!

Gestión de la memoria agentic con Elasticsearch

Someshwaran Mohankumar — Fri, 16 Jan 2026 00:00:00 GMT

En la disciplina emergente de ingeniería de contexto, proporcionar a los agentes de IA la información correcta en el momento adecuado es crucial. Uno de los aspectos más importantes de la ingeniería de contexto es gestionar la memoria de una IA. Al igual que los seres humanos, los sistemas de IA dependen tanto de la memoria a corto plazo como de la memoria a largo plazo para recordar información. Si queremos que los agentes de grandes modelos de lenguaje (LLM) mantengan conversaciones lógicas, recuerden las preferencias del usuario o construyan sobre resultados o respuestas previas, necesitamos equiparlos con mecanismos de memoria efectivos.

Después de todo, todo en el contexto influye en las respuestas de la IA. Es cierto lo que dicen: "Lo que das es lo que recibes".

En este artículo, presentaremos lo que significan la memoria a corto y a largo plazo para los agentes de IA, específicamente:

La diferencia entre la memoria a corto y a largo plazo.
Cómo se relacionan con las técnicas de RAG con bases de datos vectoriales, como Elasticsearch, y por qué es necesaria una gestión cuidadosa de la memoria.
Los riesgos de descuidar la memoria, como el desbordamiento de contexto y el envenenamiento por contexto.
Las mejores prácticas, como podar el contexto, resumir y recuperar solo lo relevante, para mantener la memoria de un agente útil y segura.
Finalmente, hablaremos sobre cómo compartir y propagar la memoria en sistemas multiagente para que los agentes colaboren sin confusión mediante Elasticsearch.

Memoria a corto plazo frente a memoria a largo plazo en los agentes de IA

La memoria a corto plazo en un agente de IA suele referirse al contexto o estado conversacional inmediato, es decir, al historial de chat actual o a los mensajes recientes de la sesión activa. Esto incluye la última consulta del usuario y los intercambios recientes. Es muy similar a la información que una persona tiene en mente durante una conversación.

Los marcos de trabajo de IA suelen mantener esta memoria transitoria como parte del estado del agente (por ejemplo, al utilizar un checkpointer para almacenar el estado de la conversación, como se muestra en este ejemplo de LangGraph). La memoria a corto plazo es de sesión; es decir, existe dentro de una sola conversación o tarea y se restablece o borra cuando esa sesión termina, a menos que se guarde explícitamente en otro lugar. Un ejemplo de memoria a corto plazo limitada a sesiones sería el chat temporal disponible en ChatGPT.

Memoria a largo plazo, por otro lado, se refiere a la información que persiste a través de conversaciones o sesiones. Este es el conocimiento que un agente conserva a lo largo del tiempo, los datos que aprendió antes, las preferencias del usuario o cualquier dato que le hayamos dicho que recuerde permanentemente.

La memoria a largo plazo generalmente se implementa almacenándola y recuperándola de una fuente externa, como un archivo o una base de datos vectorial que está fuera de la ventana de contexto inmediata. A diferencia de la memoria de chat a corto plazo, la memoria a largo plazo no se incluye automáticamente en cada solicitud. En cambio, basado en un escenario dado, el agente debe recuperarla u obtenerla cuando se invocan las herramientas relevantes. En la práctica, la memoria a largo plazo puede incluir la información del perfil del usuario, respuestas o análisis previos realizados por el agente, o una base de conocimientos que el agente puede consultar.

Por ejemplo, si tienes un agente planificador de viajes, la memoria a corto plazo contendría detalles de la consulta actual del viaje (fechas, destino, presupuesto) y cualquier pregunta de seguimiento en esa conversación; mientras que la memoria a largo plazo podría almacenar las preferencias generales de viaje del usuario, itinerarios pasados y otros datos compartidos en sesiones anteriores. Cuando el usuario regresa más tarde, el agente puede extraer de este almacenamiento a largo plazo (por ejemplo, al usuario le encantan las playas y las montañas, tiene un presupuesto promedio de 100 000 INR, tiene una lista de deseos de lugares para visitar y prefiere experimentar la historia y la cultura en lugar de atracciones para niños) de modo que no trate al usuario como una pizarra en blanco todo el tiempo.

La memoria a corto plazo (historial de chat) proporciona un contexto inmediato y continuidad, mientras que la memoria a largo plazo proporciona un contexto más amplio del que el agente puede extraer cuando sea necesario. La mayoría de los marcos de trabajo de agentes de IA avanzados permiten ambas posibilidades: realizan un seguimiento de los diálogos recientes para mantener el contexto y ofrecen mecanismos para buscar o almacenar información en un repositorio a más largo plazo. La gestión de la memoria a corto plazo garantiza que se mantenga dentro de la ventana de contexto, mientras que la gestión de la memoria a largo plazo ayuda al agente a fundamentar las respuestas basadas en interacciones previas y personalidades.

Memoria y RAG en ingeniería de contexto

¿Cómo le damos a un agente de IA una memoria útil a largo plazo en la práctica?

Un enfoque destacado para la memoria a largo plazo es la memoria semántica, que a menudo se implementa mediante generación aumentada de recuperación (RAG). Esto implica acoplar el LLM con una tienda de conocimiento externa o un almacén de datos habilitado para vectores, como Elasticsearch. Cuando el LLM necesita información más allá de lo que aparece en el prompt o en su entrenamiento integrado, realiza una recuperación semántica contra Elasticsearch e inyecta los resultados más relevantes en el prompt como contexto. De esta manera, el contexto efectivo del modelo incluye no solo la conversación reciente (memoria a corto plazo), sino también datos pertinentes a largo plazo que se obtienen sobre la marcha. A continuación, el LLM basa su respuesta tanto en su propio razonamiento como en la información recuperada, combinando eficazmente la memoria a corto plazo y la memoria a largo plazo para producir una respuesta más precisa y consciente del contexto.

Elasticsearch puede emplearse para implementar memoria a largo plazo para agentes de IA. Aquí hay un ejemplo de alto nivel de cómo se puede recuperar el contexto de Elasticsearch para la memoria a largo plazo.

De esta manera, el agente "recuerda" al buscar datos relevantes en lugar de almacenar todo en su limitado prompt, lo que conduce a diferentes riesgos.

Usar RAG con Elasticsearch o cualquier almacén vectorial ofrece múltiples beneficios:

Primero, amplía el conocimiento del modelo más allá de su límite de entrenamiento. El agente puede recuperar información actualizada o datos específicos del dominio que el LLM podría desconocer. Esto es crucial para preguntas sobre eventos recientes o temas especializados.

Segundo, obtener contexto bajo demanda ayuda a reducir las alucinaciones, especialmente porque los LLM no están capacitados con datos propietarios o altamente especializados en relación con tu caso de uso específico, lo que probablemente los exponga a alucinaciones. En lugar de que el LLM adivine o invente nueva información como se incentivó mediante la evaluación, como se destaca en un reciente artículo de OpenAI (Por qué alucinan los modelos de lenguaje), el modelo puede basarse en referencias factuales de Elasticsearch. Naturalmente, el LLM depende de la fiabilidad de los datos almacenados en el vector para realmente prevenir la desinformación, y los datos relevantes se recuperan según las medidas de relevancia de núcleo.

Tercero, la RAG permite que un agente trabaje con bases de conocimientos mucho más grandes de lo que podrías incluir en un prompt. En lugar de enviar documentos completos, como largos trabajos de investigación o documentos de políticas, a la ventana de contexto y correr el riesgo de que la sobrecarga o el contexto de información irrelevante envenene el razonamiento del modelo, la RAG se basa en la fragmentación. Los documentos grandes se dividen en piezas más pequeñas y semánticamente significativas, y el sistema recupera solo los fragmentos más relevantes para la consulta. De esta manera, el modelo no necesita un contexto de un millón de tokens para parecer conocedor; solo necesita acceso a los fragmentos correctos de un corpus mucho más grande.

Vale la pena señalar que, a medida que las ventanas de contexto de LLM crecieron (algunos modelos ahora admiten cientos de miles o incluso millones de tokens), surgió un debate sobre si la RAG está "muerta". ¿Por qué no enviar todos los datos al prompt? Si te preguntas lo mismo, consulta este maravilloso artículo de mis colegas, Jeffrey Rengifo y Eduard Martin, Contexto más largo ≠ mejor: Por qué la RAG sigue siendo importante. Esto evita el problema de la "Lo que das es lo que recibes": El LLM se mantiene enfocado en los pocos fragmentos que importan, en lugar de ejecutarse a través del ruido.

Dicho esto, integrar Elasticsearch o cualquier almacén vectorial en una arquitectura de agente de IA proporciona memoria a largo plazo. El agente almacena el conocimiento externamente y lo recupera como contexto de memoria cuando es necesario. Esto se podría implementar como una arquitectura, en la que, tras cada consulta de usuario, el agente realiza una búsqueda en Elasticsearch para obtener información relevante y luego agrega los primeros resultados al prompt antes de llamar al LLM. La respuesta también podría guardarse en el almacén a largo plazo si contiene nueva información útil (lo que crea un bucle de retroalimentación de aprendizaje). Al usar una memoria basada en recuperación, el agente se mantiene informado y actualizado, sin tener que abarrotar todo lo que sabe en cada solicitud, a pesar de que la ventana de contexto admite un millón de tokens. Esta técnica es una piedra angular de la ingeniería de contexto, ya que combina las ventajas de la recuperación de información y la IA generativa.

Aquí hay un ejemplo de un estado de conversación gestionado en memoria usando el sistema de puntos de control de LangGraph para la memoria a corto plazo durante la sesión. (Consulta nuestra app de ingeniería de contexto de apoyo).

# Initialize chat memory (Note: This is in-memory only, not persistent)
memory = MemorySaver()

# Create a LangGraph agent
langgraph_agent = create_react_agent(model=llm, tools=tools, checkpointer=memory)

...
...
# Only process and display checkpoints if verbose mode is enabled
if args.verbose:
    # List all checkpoints that match a given configuration
    checkpoints = memory.list({"configurable": {"thread_id": "1"}})
    # Process the checkpoints
    process_checkpoints(checkpoints)

Así es como almacena los puntos de control:

Checkpoint:
Timestamp: 2025-12-30T09:19:41.691087+00:00
Checkpoint ID: 1f0e560a-c2fa-69ec-8001-14ee5373f9cf
User: Hi I'm Som, how are you? (Message ID: ad0a8415-5392-4a58-85ad-84154875bbf2)
Agent: Hi Som! I'm doing well, thank you! How about you? (Message ID: 
56d31efb-14e3-4148-806e-24a839799ece)
Agent:  (Message ID: lc_run--019b6e8e-553f-7b52-8796-a8b1fbb206a4-0)

Checkpoint:
Timestamp: 2025-12-30T09:19:40.350507+00:00
Checkpoint ID: 1f0e560a-b631-6a08-8000-7796d108109a
User: Hi I'm Som, how are you? (Message ID: ad0a8415-5392-4a58-85ad-84154875bbf2)
Agent: Hi Som! I'm doing well, thank you! How about you? (Message ID: 
56d31efb-14e3-4148-806e-24a839799ece)

Checkpoint:
Timestamp: 2025-12-30T09:19:40.349027+00:00
Checkpoint ID: 1f0e560a-b62e-6010-bfff-cbebe1d865f6

Para la memoria a largo plazo, así es como realizamos la búsqueda semántica en Elasticsearch para recuperar conversaciones previas relevantes usando embeddings vectoriales tras resumir e indexar los puntos de control en Elasticsearch.

Functions: 
retrieve_from_elasticsearch() 

# Enhanced Elasticsearch retrieval with rank_window and verbose display
def retrieve_from_elasticsearch(query: str, k: int = 5, rank_window: int = None) -> tuple[List[Dict[str, Any]], str]:
    """
    Retrieve context from Elasticsearch with score-based ranking
    
    Args:
        query: Search query
        k: Number of results to return
        rank_window: Number of candidates to retrieve before ranking (default: args.rank_window)
        
    Returns:
        Tuple of (retrieved_documents, formatted_context_string)
    """
    if not es_client or not es_index_name:
        return [], "Elasticsearch is not available. Cannot search long-term memory."
    
    if rank_window is None:
        rank_window = args.rank_window
    
    try:
        # Check if index exists and has documents
        if not es_client.indices.exists(index=es_index_name):
            return [], "No previous conversations stored in long-term memory yet."
        
        # Get document count
        try:
            doc_count = es_client.count(index=es_index_name)["count"]
            if doc_count == 0:
                return [], "Long-term memory is empty. No previous conversations to search."
        except Exception as e:
            return [], f"Error checking memory: {str(e)}"
        
        # Generate embedding for the query
        try:
            query_embedding = embeddings.embed_query(query)
        except Exception as e:
            return [], f"Error generating embedding: {str(e)}"
        
        # Perform semantic search using kNN with rank_window
        try:
            search_body = {
                "knn": {
                    "field": "vector",
                    "query_vector": query_embedding,
                    "k": k,
                    "num_candidates": rank_window  # Retrieve more candidates, then rank top k
                },
                "_source": ["text", "content", "message_type", "timestamp", "thread_id"],
                "size": k
            }
            
            response = es_client.search(index=es_index_name, body=search_body)
            
            if not response.get("hits") or len(response["hits"]["hits"]) == 0:
                return [], "No relevant previous conversations found in long-term memory."
            
            # Extract documents with scores
            retrieved_docs = []
            for hit in response["hits"]["hits"]:
                source = hit["_source"]
                score = hit["_score"]
                retrieved_docs.append({
                    "content": source.get("content", source.get("text", "")),
                    "message_type": source.get("message_type", "unknown"),
                    "timestamp": source.get("timestamp", "unknown"),
                    "thread_id": source.get("thread_id", "unknown"),
                    "score": score
                })
            
            # Format context string
            context_parts = []
            for i, doc in enumerate(retrieved_docs, 1):
                context_parts.append(doc["content"])
            
            context_string = "\n\n".join(context_parts)
            
            # Verbose display
            if args.verbose:
                rich.print(f"\n[bold yellow]🔍 RETRIEVAL ANALYSIS[/bold yellow]")
                rich.print("="*80)
                rich.print(f"[blue]Query:[/blue] {query}")
                rich.print(f"[blue]Retrieved:[/blue] {len(retrieved_docs)} documents (from {rank_window} candidates)")
                rich.print(f"[blue]Total context length:[/blue] {len(context_string)} characters\n")
                
                for i, doc in enumerate(retrieved_docs, 1):
                    rich.print(f"[cyan]📄 Document {i} | Score: {doc['score']:.4f} | Type: {doc['message_type']}[/cyan]")
                    rich.print(f"[cyan]   Timestamp: {doc['timestamp']} | Thread: {doc['thread_id']}[/cyan]")
                    content_preview = doc['content'][:200] + "..." if len(doc['content']) > 200 else doc['content']
                    rich.print(f"[cyan]   Content: {content_preview}[/cyan]")
                    rich.print("-" * 80)
            
            return retrieved_docs, context_string
            
        except Exception as e:
            return [], f"Error searching memory: {str(e)}"
            
    except Exception as e:
        return [], f"Error accessing long-term memory: {str(e)}"

Ahora que hemos explorado cómo se indexan y recuperan la memoria a corto y largo plazo usando los puntos de control de LangGraph en Elasticsearch, tomemos un momento para entender por qué indexar y eliminar las conversaciones completas puede ser riesgoso.

Riesgos de no gestionar la memoria de contexto

Como hablamos mucho sobre ingeniería de contexto, junto con la memoria a corto y largo plazo, entendamos qué sucede si no gestionamos bien la memoria y el contexto de un agente.

Desafortunadamente, muchas cosas pueden salir mal cuando el contexto de una IA se vuelve extremadamente largo o contiene información errónea. A medida que las ventanas de contexto se agrandan, surgen nuevos tipos de falla, como:

Envenenamiento por contexto
Distracción del contexto
Confusión de contexto
Choque de contexto
Fuga de contexto y conflictos de conocimiento
Alucinaciones e información errónea

Hagamos un desglose de estos problemas y otros riesgos que surgen de una mala gestión del contexto:

Envenenamiento por contexto

El envenenamiento por contexto se refiere a cuando la información incorrecta o dañina termina en el contexto y "envenena" las salidas posteriores del modelo. Un ejemplo común es una alucinación del modelo que se trata como un hecho y se inserta en el historial de conversaciones. El modelo podría entonces aprovechar ese error en respuestas posteriores, lo que agravaría el error. En los bucles iterativos de agentes, una vez que una información falsa se introduce en el contexto compartido (por ejemplo, en un resumen de las notas de trabajo del agente), puede reforzarse una y otra vez.

Los investigadores de DeepMind, en la publicación del reporte Gemini 2.5 (TL;DR, consulta aquí), observaron esto en un agente que jugaba a Pokémondesde hacía mucho tiempo: si el agente alucinaba un estado de juego erróneo y eso quedaba registrado en su contexto (su memoria de objetivos), el agente formaba estrategias sin sentido en torno a un objetivo imposible y se quedaba atascado. En otras palabras, un recuerdo contaminado puede llevar al agente por el camino equivocado de forma indefinida.

El envenenamiento del contexto puede ocurrir de forma inocente (por error) o incluso maliciosa, por ejemplo, mediante ataques de inyección de prompt donde un usuario o un tercero introduce una instrucción oculta o un hecho falso que el agente luego recuerda y sigue.

Contramedidas recomendadas:

Basándose en la información de Wiz, Zerlo y Anthropic, las contramedidas para el envenenamiento del contexto se centran en prevenir que la información errónea o engañosa entre en la ventana de contexto, el pipeline de recuperación o la ventana de contexto de un LLM. Los pasos clave incluyen:

Revisa el contexto constantemente: monitoriza la conversación o el texto recuperado para detectar cualquier cosa sospechosa o dañina, no solo el prompt inicial.
Utiliza fuentes confiables: Puntúa o etiqueta los documentos según su credibilidad para que el sistema prefiera la información confiable e ignore los datos con baja puntuación.
Detecta datos inusuales: usa herramientas que detecten contenido extraño, fuera de lugar o manipulado, y elimínalo antes de que el modelo lo use.
Filtra entradas y salidas: Añade salvaguardas para que el texto dañino o engañoso no pueda entrar fácilmente en el sistema ni ser repetido por el modelo.
Mantén el modelo actualizado con datos limpios: actualiza regularmente el sistema con información verificada para contrarrestar cualquier dato incorrecto que haya pasado desapercibido.
Intervención humana: Haz que las personas revisen las salidas importantes o las comparen con fuentes conocidas y confiables.

Los hábitos sencillos de los usuarios también ayudan, como restablecer los chats largos, compartir solo información relevante, dividir las tareas complejas en pasos más pequeños y mantener notas claras fuera del modelo.

En conjunto, estas medidas crean una defensa en capas que protege a los LLMs del envenenamiento del contexto y mantiene las salidas precisas y fiables.

Sin contramedidas como las mencionadas aquí, un agente podría recordar instrucciones, como ignorar directrices previas o datos triviales que un atacante introdujo, lo que podría provocar salidas dañinas.

Distracción del contexto

Distracción por contexto es cuando un contexto crece tanto que el modelo se sobreenfoca en el contexto, y descuida lo que aprendió durante el entrenamiento. En casos extremos, esto se asemeja al olvido catastrófico; es decir, el modelo efectivamente "olvida" su conocimiento subyacente y se apega demasiado a la información colocada frente a él. Estudios previos han demostrado que los LLM a menudo pierden el enfoque cuando la solicitud es extremadamente larga.

El agente Gemini 2.5, por ejemplo, admitía una ventana de un millón de tokens, pero una vez que su contexto creció más allá de cierto punto (del orden de 100 000 tokens en un experimento), comenzó a fijarse en repetir sus acciones pasadas en lugar de encontrar nuevas soluciones. En cierto sentido, el agente se convirtió en prisionero de su extensa historia. Siguió mirando su largo log de movimientos anteriores (el contexto) e imitándolos, en lugar de usar su conocimiento de entrenamiento subyacente para diseñar estrategias nuevas y novedosas.

Esto es contraproducente. Queremos que el modelo emplee el contexto relevante para ayudar al razonamiento, no para anular su capacidad de pensamiento. Cabe destacar que incluso los modelos con ventanas enormes presentan esta podredumbre contextual: su rendimiento se degrada de forma no uniforme a medida que se agregan más tokens. Parece haber un presupuesto de atención. Al igual que los humanos con memoria de trabajo limitada, un LLM tiene una capacidad finita para atender a los tokens, y a medida que ese presupuesto se estira, su precisión y enfoque disminuyen.

Como medida de mitigación, puedes prevenir la distracción del contexto usando fragmentación, ingeniería de la información correcta, resumen regular del contexto y técnicas de evaluación y seguimiento para medir la precisión de la respuesta mediante puntaje.

Estos métodos mantienen el modelo basado tanto en el contexto relevante como en su entrenamiento subyacente, lo que reduce el riesgo de distracción y mejora la calidad general del razonamiento.

Confusión de contexto

La confusión de contexto ocurre cuando el modelo emplea contenido superfluo en el contexto para generar una respuesta de baja calidad. Un ejemplo claro es dar a un agente un gran conjunto de herramientas o definiciones de API que podría emplear. Si muchas de esas herramientas no están relacionadas con la tarea actual, el modelo puede intentar usarlas de forma inapropiada, simplemente porque están presentes en contexto. Los experimentos demostraron que proporcionar más herramientas o documentos puede perjudicar el rendimiento si no se necesitan todos. El agente empieza a cometer errores, como llamar a la función equivocada o referenciar texto irrelevante.

En un caso, un pequeño modelo Llama 3.1 8B falló en una tarea cuando se le dieron 46 herramientas para considerar, pero tuvo éxito cuando se le dieron solo 19 herramientas. Las herramientas adicionales crearon confusión, a pesar de que el contexto se ajustaba a los límites de longitud. El problema subyacente es que cualquier información en el mensaje será atendida por el modelo. Si no sabe ignorar algo, ese algo podría influir en su salida de maneras no deseadas. Los elementos irrelevantes pueden "robar" parte de la atención del modelo y llevarlo por el camino equivocado (por ejemplo, un documento irrelevante podría hacer que el agente responda a una pregunta diferente a la que se le hizo). La confusión contextual a menudo se manifiesta cuando el modelo produce una respuesta de baja calidad que integra contextos no relacionados. Consulta el artículo de investigación: Menos es más: optimización de la llamada de funciones para la ejecución de LLM en dispositivos periféricos.

Nos recuerda que más contexto no siempre es mejor, especialmente si no está curado para que sea relevante.

Choque de contexto

Choque de contexto ocurre cuando partes del contexto se contradicen entre sí, lo que causa inconsistencias internas que desvían el razonamiento del modelo. Puede producir un choque si el agente acumula múltiples piezas de información que están en conflicto.

Por ejemplo, imagina un agente que obtuvo datos de dos fuentes: una dice que el vuelo A sale a las 5 p. m. y la otra dice que el vuelo A sale a las 6 p. m. Si ambos hechos terminan en el contexto, el pobre modelo no tiene forma de saber cuál es el correcto; puede confundirse o producir una respuesta incorrecta o no similar.

El choque de contexto también ocurre frecuentemente en conversaciones de múltiples turnos donde los intentos anteriores del modelo de responder todavía persisten en el contexto junto con información refinada posterior.

Un estudio de investigación realizado por Microsoft y Salesforce muestra que si divides una consulta compleja en múltiples turnos de chatbot (agregando detalles gradualmente), la precisión final disminuye significativamente, en comparación con dar todos los detalles en un solo mensaje. ¿Por qué? Porque las primeras vueltas contienen respuestas intermedias parciales o incorrectas del modelo, y estas permanecen en el contexto. Cuando el modelo luego intenta responder con toda la información, su memoria aún incluye esos intentos incorrectos, que entran en conflicto con la información corregida y lo desvían del camino. Básicamente, el contexto de la conversación entra en conflicto consigo mismo. El modelo puede usar inadvertidamente una pieza de contexto desactualizada (de un turno anterior) que no se aplica después de que se agrega nueva información.

En los sistemas de agentes, el choque de contexto es especialmente peligroso porque un agente puede combinar las salidas de diferentes herramientas o subagentes. Si esas salidas no coinciden, el contexto agregado es inconsistente. El agente podría entonces quedarse atascado o producir resultados absurdos al tratar de conciliar las contradicciones. La prevención del choque de contexto implica asegurarse de que el contexto sea fresco y consistente, por ejemplo, borrar o actualizar cualquier información obsoleta y no mezclar fuentes que no hayan sido objeto de un estudio de consistencia.

Fuga de contexto y conflictos de conocimiento

En los sistemas en los que varios agentes o usuarios comparten un almacén de memoria, existe el riesgo de que la información se filtre entre contextos.

Por ejemplo, si las incrustaciones de datos de dos usuarios distintos residen en la misma base de datos vectorial sin un control de acceso adecuado, un agente que responda a la consulta del usuario A podría recuperar accidentalmente parte de la memoria del usuario B. Esta fuga entre contextos puede exponer información privada o simplemente crear confusión en las respuestas.

Según el Top 10 de OWASP para aplicaciones LLM, las bases de datos vectoriales de usuarios múltiples deben protegerse contra este tipo de fugas:

Según LLM08:2025 Debilidades de Vectores y Embedding, uno de los riesgos comunes es la fuga de contexto:

En entornos de múltiples usuarios donde varias clases de usuarios o aplicaciones comparten la misma base de datos vectorial, existe el riesgo de pérdida de contexto entre usuarios o consultas. Los errores de conflicto de conocimiento en la federación de datos pueden ocurrir cuando los datos de múltiples fuentes se contradicen entre sí. Esto también puede suceder cuando un LLM no puede reemplazar el conocimiento antiguo que aprendió durante el entrenamiento con los nuevos datos de generación aumentada.

Otro aspecto es que un LLM podría tener problemas para anular su conocimiento integrado con nueva información de memoria. Si el modelo fue entrenado con algún hecho y el contexto recuperado dice lo contrario, el modelo puede confundirse sobre cuál confiar. Sin un diseño adecuado, el agente podría confundir contextos o no actualizar el conocimiento antiguo con nueva evidencia, lo que llevaría a respuestas obsoletas o incorrectas.

Alucinaciones e información errónea

Mientras que una alucinación (el LLM inventa información plausible pero falsa) es un problema conocido incluso sin contextos largos, una mala gestión de la memoria puede amplificarlo.

Si la memoria del agente carece de un hecho crucial, el modelo puede llenar el vacío con una suposición, y si esa suposición entra en el contexto (envenenándolo), el error persiste.

El informe de seguridad de los LLM OWASP (LLM09:2025 Desinformación) destaca la desinformación como una vulnerabilidad de núcleo: los LLM pueden ofrecer respuestas seguras pero fabricadas, y los usuarios pueden confiar demasiado en ellos. Un agente con una memoria a largo plazo deficiente o desactualizada podría citar con confianza algo que era cierto el año pasado pero que ahora es falso, a menos que su memoria se mantenga actualizada.

La dependencia excesiva en la salida de la IA (ya sea por parte de los usuarios o del propio agente en un bucle) puede empeorar esta situación. Si nadie revisa nunca la información almacenada en la memoria, el agente puede acumular falsedades. Esta es la razón por la que la RAG se usa a menudo para reducir las alucinaciones: al recuperar una fuente autorizada, el modelo no tiene que inventar hechos. Pero si tu recuperación trae el documento incorrecto (digamos, uno que contiene información errónea) o si una alucinación temprana no se poda, el sistema puede propagar esa información errónea a través de sus acciones.

La conclusión: no administrar la memoria puede conducir a salidas incorrectas y engañosas, lo que puede ser perjudicial, especialmente si hay mucho en juego (por ejemplo, malos consejos en un dominio financiero o médico). Un agente necesita mecanismos para verificar o corregir su contenido de memoria, no solo confiar incondicionalmente en lo que esté en el contexto.

En resumen, darle a un agente de IA una memoria infinitamente larga o volcar cada cosa posible en su contexto no es una receta para el éxito.

Mejores prácticas para la gestión de memoria en aplicaciones LLM

Para evitar las trampas anteriores, los desarrolladores e investigadores idearon una serie de mejores prácticas para administrar el contexto y la memoria en sistemas de IA. Estas prácticas tienen como objetivo mantener el contexto de trabajo de la IA ágil, relevante y actualizado. Aquí hay algunas de las estrategias clave, junto con ejemplos de cómo ayudan.

RAG: Utiliza un contexto específico.

Gran parte de la RAG ya se ha cubierto en la sección anterior, así que esto sirve como un conjunto conciso de recordatorios prácticos:

Usa la recuperación dirigida, no la carga masiva: Recupera solo los fragmentos más relevantes en lugar de insertar documentos enteros o historiales de conversación completos en el prompt.
Trata la RAG como una recuperación de memoria justo a tiempo: Obtén el contexto solo cuando sea necesario, en lugar de traer todo en cada turno.
Prefiere estrategias de recuperación conscientes de la relevancia: enfoques como la búsqueda semántica top-k, la fusión de rango recíproco o el filtrado de carga de herramientas ayudan a reducir el ruido y mejorar la conexión a tierra.
Las ventanas de contexto más grandes no eliminan la necesidad de RAG: dos párrafos muy relevantes son casi siempre más efectivos que 20 páginas poco relacionadas.

Dicho esto, la RAG no se trata de agregar más contexto; se trata de agregar el contexto adecuado.

Carga de herramientas

Configuración de herramientas se trata de darle a un modelo solo las herramientas que realmente necesita para una tarea. El término proviene de los juegos: Eliges un equipo que se ajuste a la situación. Demasiadas herramientas te ralentizan; las incorrectas causan fallas. Los LLM se comportan de la misma manera, según el documento de investigación Menos es más. Una vez que pasas de unas 30 herramientas, las descripciones empiezan a solaparse y el modelo se confunde. Después de ~100 herramientas, el fracaso está casi garantizado. Esto no es un problema de ventana de contexto, es confusión de contexto.

Una solución simple y efectiva es RAG-MCP. En lugar de poner todas las herramientas en el mensaje, las descripciones de las herramientas se almacenan en una base de datos vectorial y solo se recuperan las más relevantes por solicitud. En la práctica, esto permite mantener un equipamiento reducido y específico, acorta considerablemente los tiempos de respuesta y puede mejorar hasta tres veces la precisión en la selección de herramientas.

Los modelos más pequeños alcanzan este límite incluso antes. La investigación muestra que un modelo 8B falla con docenas de herramientas, pero tiene éxito una vez que se reduce la carga. La selección dinámica de herramientas, a veces con un LLM primero, razonando sobre lo que cree que necesita, puede aumentar el rendimiento en un 44%, al tiempo que reduce el uso de poder y la latencia. La clave es que la mayoría de los agentes solo necesitan unas pocas herramientas, pero a medida que tu sistema crece, la carga de herramientas y el RAG-MCP se convierten en decisiones de diseño de primer orden.

Poda de contexto: limita la duración del historial de chat

Si una conversación se prolonga durante muchos turnos, el historial de chat acumulado puede llegar a ser demasiado grande para caber, lo que provoca un desbordamiento del contexto o distrae demasiado al modelo.

Recortar significa eliminar o acortar programáticamente las partes menos importantes del diálogo a medida que crece. Una forma simple es descartar los turnos más antiguos de la conversación cuando alcanzas un cierto límite, manteniendo solo los últimos N mensajes. Una poda más sofisticada podría eliminar digresiones irrelevantes o instrucciones previas que ya no son necesarias. El objetivo es mantener la ventana de contexto despejada de noticias antiguas.

Por ejemplo, si el agente resolvió un subproblema hace 10 turnos y hemos seguido adelante desde entonces, podríamos eliminar esa parte del historial del contexto (asumiendo que ya no será necesaria). Muchas implementaciones basadas en chat hacen esto: mantienen una ventana móvil con los mensajes recientes.

Recortar puede ser tan simple como "olvidar" las primeras partes de una conversación una vez que se han resumido o se consideran irrelevantes. De esta manera, reducimos el riesgo de errores por exceso de contexto y también reducimos la distracción del contexto, por lo que el modelo no verá contenido antiguo o fuera de tema ni se distraerá con él. Este enfoque es muy similar a cómo los humanos podrían no recordar cada palabra de una charla de una hora, pero retendrán los puntos destacados.

Si tienes dudas acerca de la poda de contexto, como lo destaca el autor Drew Breunig aquí, el uso del modelo Provence (`naver/provence-reranker-debertav3-v1`), un podador de contexto ligero (1.75 GB), eficiente y preciso para la respuesta a preguntas, puede marcar la diferencia. Puedes reducir documentos grandes a solo el texto más relevante para una búsqueda determinada. Puedes llamarlo en intervalos específicos.

Así es como invocamos el modelo `provence-reranker` en nuestro código para podar el contexto:

# Context pruning with Provence
def prune_with_provence(query: str, context: str, threshold: Optional[float] = None) -> str:
    """
    Prune context using Provence reranker model
    
    Args:
        query: User's query/question
        context: Original context to prune
        threshold: Relevance threshold (0-1) for Provence reranker.
                   If None, uses args.pruning_threshold.
                   0.1 = conservative (recommended, no performance drop)
                   0.3-0.5 = moderate to aggressive pruning
    
    Returns:
        Pruned context with only relevant sentences
    """
    if provence_model is None:
        return context
    
    if threshold is None:
        threshold = args.pruning_threshold
    
    try:
        # Use Provence's process method
        provence_output = provence_model.process(
            question=query,
            context=context,
            threshold=threshold,
            always_select_title=False,
            enable_warnings=False
        )
        
        # Extract pruned context from output
        pruned_context = provence_output.get('pruned_context', context)
        reranking_score = provence_output.get('reranking_score', 0.0)
        
        # Log statistics
        original_length = len(context)
        pruned_length = len(pruned_context)
        reduction_pct = ((original_length - pruned_length) / original_length * 100) if original_length > 0 else 0
        
        if args.verbose:
            rich.print(f"[cyan]📊 Pruning stats: {pruned_length}/{original_length} chars ({reduction_pct:.1f}% reduction, threshold={threshold:.2f}, rerank_score={reranking_score:.3f})[/cyan]")
        
        return pruned_context if pruned_context else context
        
    except Exception as e:
        rich.print(f"[yellow]⚠️ Error in Provence pruning: {str(e)}[/yellow]")
        rich.print(f"[yellow]⚠️ Falling back to original context[/yellow]")
        return context

Empleamos el modelo de reranking de Provenza (`naver/provence-reranker-debertav3-v1`) para calificar la relevancia de las oraciones. El filtrado basado en umbrales mantiene las oraciones por encima del umbral de relevancia. Además, introducimos un mecanismo de respaldo, donde volvemos al contexto original si la poda falla. Finalmente, el logging de estadísticas rastrea el porcentaje de reducción en el modo detallado.

Resumen de contexto: Condensa la información antigua en lugar de eliminarla por completo

El resumen es un complemento al recorte. Cuando la historia o la base de conocimientos se vuelve demasiado grande, puedes emplear el LLM para generar un breve resumen de los puntos importantes y usar ese resumen en lugar del contenido completo en el futuro, como realizamos en nuestro código anterior.

Por ejemplo, si un asistente de IA tuvo una conversación de 50 turnos, en lugar de enviar los 50 turnos al modelo en el turno 51 (que probablemente no encaje), el sistema podría tomar los turnos 1 a 40, hacer que el modelo los resuma en un párrafo y luego solo proporcionar ese resumen más los últimos 10 turnos en el siguiente mensaje. De esta manera, el modelo aún sabe lo que se discutió sin necesidad de conocer todos los detalles. Los primeros usuarios del chatbot lo hacían manualmente preguntando: "¿Puedes resumir lo que hablamos hasta ahora?" y luego continuaban en una nueva sesión con el resumen. Ahora se puede automatizar. El resumen no solo ahorra espacio en la ventana de contexto, sino que también puede reducir la confusión y distracción del contexto al eliminar detalles adicionales y conservar solo los hechos más importantes.

Aquí es cómo usamos los modelos de OpenAI (puedes usar cualquier LLM) para condensar el contexto a la vez que preservamos toda la información relevante, lo que elimina la redundancia y la duplicación.

# Context summarization
def summarize_context(query: str, context: str) -> str:
    """
    Summarize context using LLM to reduce duplication and focus on relevant information
    
    Args:
        query: User's query/question
        context: Context to summarize
        
    Returns:
        Summarized context
    """
    try:
        summary_prompt = f"""You are an expert at summarizing conversation context.

Your task: Analyze the provided conversation context and produce a condensed summary that fully answers or supports the user's specific question.

The summary must:
1. Preserve every fact, detail, and information that directly relates to the question
2. Eliminate redundancy and duplicate information
3. Maintain chronological flow when relevant
4. Focus on information that helps answer: "{query}"

Context to summarize:
{context}

Provide a concise summary that preserves all relevant information:"""

        summary = llm.invoke(summary_prompt).content
        
        if args.verbose:
            original_length = len(context)
            summary_length = len(summary)
            reduction_pct = ((original_length - summary_length) / original_length * 100) if original_length > 0 else 0
            rich.print(f"[cyan]📝 Summarization stats: {summary_length}/{original_length} chars ({reduction_pct:.1f}% reduction)[/cyan]")
        
        return summary
        
    except Exception as e:
        rich.print(f"[yellow]⚠️ Error in context summarization: {str(e)}[/yellow]")
        rich.print(f"[yellow]⚠️ Falling back to original context[/yellow]")
        return context

Es importante destacar que cuando se resume el contexto, es menos probable que el modelo se vea abrumado por detalles triviales o errores pasados (suponiendo que el resumen sea exacto).

Sin embargo, el resumen debe hacerse con cuidado. Un mal resumen puede omitir un detalle crucial o incluso provocar un error. Es esencialmente otro mensaje para el modelo ("resume esto"), por lo que puede alucinar o perder matices. La mejor práctica es resumir de forma incremental y quizás mantener algunos hechos canónicos sin resumir.

No obstante, ha demostrado ser muy útil. En el escenario del agente Gemini, resumir el contexto cada ~100k tokens era una forma de contrarrestar la tendencia del modelo a repetir. El resumen actúa como una memoria comprimida de la conversación o los datos. Como desarrolladores, podemos implementar esto haciendo que un agente llame periódicamente a una función de resumen (tal vez un LLM más pequeño o una rutina dedicada) en el historial de la conversación o en un documento largo. El resumen resultante reemplaza el contenido original en el prompt. Esta táctica se utiliza ampliamente para mantener los contextos dentro de unos límites y sintetizar la información.

Cuarentena de contexto: aislar los contextos cuando sea posible

Esto es más relevante en sistemas de agentes complejos o flujos de trabajo de varios pasos. La idea de la segmentación del contexto es dividir una tarea grande en tareas más pequeñas e independientes, cada una con su propio contexto, para que nunca acumules un contexto enorme que lo contenga todo. Cada subagente o subtarea trabaja en una parte del problema con un contexto enfocado, y luego un agente de nivel superior, o supervisor o coordinador integra los resultados.

La estrategia de investigación de Anthropic emplea múltiples subagentes, cada uno investigando un aspecto diferente de una pregunta, con sus propias ventanas de contexto, y un agente principal que lee los resultados destilados de esos subagentes. Este enfoque paralelo y modular significa que ninguna ventana de contexto individual se vuelve demasiado voluminosa. También reduce la posibilidad de que se mezcle información irrelevante, cada hilo se mantiene en el tema (sin confusión de contexto) y no lleva equipaje innecesario al responder su subpregunta específica. En cierto sentido, es como ejecutar hilos separados de pensamiento que solo comparten sus resultados, no todo su proceso de pensamiento.

En sistemas multiagente, este enfoque es esencial. Si el agente A se encarga de la tarea A y el agente B se encarga de la tarea B, no hay razón para que ninguno de los dos consuma todo el contexto del otro, a menos que sea realmente necesario. En cambio, los agentes pueden intercambiar solo la información necesaria. Por ejemplo, el agente A puede pasar un resumen consolidado de sus hallazgos al agente B a través de un agente supervisor, mientras que cada subagente mantiene su propio hilo de contexto dedicado. Esta configuración no requiere intervención humana; se basa en un agente supervisor con herramientas habilitadas y con un intercambio de contexto mínimo y controlado.

No obstante, diseñar tu sistema de manera que los agentes o herramientas operen con la mínima superposición de contexto necesaria puede mejorar considerablemente la claridad y el rendimiento. Piensa en ello como microservicios para IA, cada componente se ocupa de su contexto y pasa mensajes entre ellos de una manera controlada, en lugar de un contexto monolítico. Estas mejores prácticas a menudo se usan en combinación. Además, esto te da la flexibilidad de recortar historiales triviales, resumir mensajes o conversaciones antiguas importantes, transferir los registros detallados a Elasticsearch para contexto a largo plazo y usar la recuperación para recuperar cualquier cosa relevante cuando sea necesario.

Como se mencionó aquí, el principio rector es que el contexto es un recurso limitado y valioso. Quieres que cada token del prompt se gane su conservación, lo que significa que debería contribuir a la calidad de la salida. Si algo en la memoria no está cumpliendo con su función (o peor aún, está causando confusión), entonces debe ser eliminado, resumido o descartado.

Como desarrolladores, ahora podemos programar el contexto igual que programamos el código, decidiendo qué información incluir, cómo formatearla y cuándo omitirla o actualizarla. Siguiendo estas prácticas, podemos proporcionar a los agentes LLM el contexto necesario para realizar tareas sin caer en los modos de fallo descritos anteriormente. El resultado son agentes que recuerdan lo que deben, olvidan lo que no necesitan y recuperan lo que requieren justo a tiempo.

Conclusión

La memoria no es algo que añades a un agente; es algo que diseñas. La memoria a corto plazo es el bloc de notas de trabajo del agente, y la memoria a largo plazo es su almacén duradero de conocimiento. La RAG es el puente entre los dos, ya que convierte un almacén de datos pasivo, como Elasticsearch, en un mecanismo de recuperación activo que puede conectar a tierra las salidas y mantener el agente actualizado.

Pero la memoria es un arma de doble filo. En el momento en que dejas que el contexto crezca sin control, invitas al envenenamiento, la distracción, la confusión y los choques, y en los sistemas compartidos, incluso la fuga de datos. Por eso, el trabajo de memoria más importante no es "almacenar más", sino "seleccionar mejor": recuperar selectivamente, podar agresivamente, resumir cuidadosamente y evitar mezclar contextos no relacionados a menos que la tarea realmente lo demande.

En la práctica, una buena ingeniería de contexto parece un buen diseño de sistemas: contextos más pequeños y suficientes, interfaces controladas entre componentes y una clara separación entre el estado crudo y el estado destilado que realmente quieres que vea el modelo. Si se hace correctamente, no terminas con un agente que lo recuerda todo, sino con un agente que recuerda las cosas adecuadas, en el momento adecuado, por la razón correcta.

Mayor rendimiento y menor latencia: Elastic Cloud Serverless en AWS recibe un aumento significativo del rendimiento

Pete Galeotti, Yuvraj Gupta, Rachel Forshee — Wed, 14 Jan 2026 00:00:00 GMT

Elastic Cloud Serverless ya es la solución definitiva para los desarrolladores que desean crear aplicaciones eficientes de búsqueda e inteligencia artificial sin la carga operativa que supone la gestión de la infraestructura. Ahora, estamos llevando el rendimiento de tus proyectos sin servidor a un nivel completamente nuevo.

Completamos una importante actualización de infraestructura para todos los proyectos de Elastic Cloud Serverless que funcionan en AWS, al migrar a hardware más nuevo y rápido. Este cambio se ha implementado automáticamente en todos los proyectos sin servidor. Ofrece mayor rendimiento y menor latencia para proyectos serverless de Elasticsearch, Elastic Observability y Elastic Security en AWS.

Beneficios clave de rendimiento para desarrolladores

La nueva infraestructura de hardware de AWS sustenta todo lo que haces con Elastic Cloud Serverless, lo que se traduce en beneficios tangibles para la velocidad y la capacidad de respuesta de tus aplicaciones.

Latencia de consulta reducida… rendimiento aumentado.

El hardware mejorado aumenta drásticamente la velocidad de los recursos informáticos, lo que significa que tus consultas de búsqueda se procesan más rápido que nunca.

Búsqueda y búsqueda vectorial: ya sea que estés ejecutando búsquedas de texto tradicionales o empleando una búsqueda vectorial de vanguardia para tus aplicaciones de inteligencia artificial generativa y RAG, verás una marcada disminución en la latencia. La evaluación interna mostró una disminución promedio del 35% en la latencia de búsqueda.
Indexación más rápida: Las tasas de ingesta de datos están optimizadas, lo que te permite indexar volúmenes masivos de datos y documentos complejos con mayor rendimiento. Esto es crucial para las aplicaciones que requieren visibilidad de datos casi en tiempo real. La evaluación comparativa interna mostró un aumento promedio del 26% en el rendimiento al indexar.

Rendimiento constante bajo carga

Elastic Cloud Serverless está diseñado para escalar dinámicamente en tiempo real y satisfacer la demanda, lo que minimiza la latencia, independientemente de tu carga de trabajo. Gracias a esta actualización de hardware, ahora el escalado es más eficaz y ofrece una mayor capacidad de respuesta.

Manejar los picos con facilidad: ya sea que te enfrentes a un aumento repentino en el tráfico de usuarios o a una ingesta masiva de datos batch, la nueva infraestructura garantiza que tus recursos de búsqueda e indexación se escalen de manera más eficiente para mantener una latencia constantemente baja.
Desacoplamiento optimizado de computación y almacenamiento: La arquitectura serverless separa computación y almacenamiento, lo que permite que las cargas de trabajo escalen de forma independiente para lograr un rendimiento óptimo y eficiencia de costos. El hardware más rápido mejora la capa de cómputo, lo que maximiza la eficiencia de este diseño desacoplado.

Por dentro: Resultados de evaluación comparativa interna

Para cuantificar el impacto de la actualización de nuestra infraestructura de AWS, el equipo de ingeniería de Elastic llevó a cabo una exhaustiva evaluación comparativa interna con una serie de cargas de trabajo sin servidor. Estas cargas de trabajo proporcionaron evidencia empírica de mejoras de rendimiento que puedes esperar en todas tus aplicaciones, independientemente de tu caso de uso.

El enfoque comparativo

Centramos nuestras pruebas en las métricas clave que afectan directamente a la experiencia de los desarrolladores y a la capacidad de respuesta de las aplicaciones: el tiempo de respuesta (es decir, la latencia) y el rendimiento en las operaciones de búsqueda e indexación.

Cargas de trabajo probadas: Las pruebas incluyeron operaciones de búsqueda de alta concurrencia típicas de las aplicaciones orientadas al usuario, consultas de búsqueda vectorial complejas y la ingesta/indexación de grandes volúmenes de datos para casos de uso de observabilidad y seguridad. En concreto, nuestra metodología de pruebas utilizó sets de datos disponibles públicamente para Rally, la herramienta de evaluación comparativa de Elastic.
- wikipedia: Un conjunto de datos derivado de un snapshot del contenido textual de Wikipedia, para medir el rendimiento de la búsqueda de texto de propósito general.
- MSMARCO-Passage-Ranking: Un conjunto de datos derivado de la comprensión de lectura automática de Microsoft (MS MARCO), para medir el rendimiento de búsqueda en campos vectoriales dispersos.
- OpenAI_Vector: Un set de datos derivado del NQ de BEIR y enriquecido con incrustaciones generadas por el modelo text-embedding-ada-002 de OpenAI, para medir el rendimiento de búsqueda en campos vectoriales densos.
Medición: Comparamos el rendimiento en la infraestructura antigua y nueva, al medir la latencia en el percentil 99 (P99) para capturar el peor de los casos, el rendimiento de latencia en la cola y las operaciones por segundo. Cada pista se ejecutó cinco veces para cada perfil de hardware para garantizar la consistencia en los resultados.
El objetivo: nuestro objetivo era validar la capacidad de la infraestructura para ofrecer un rendimiento más rápido y predecible de forma constante en todos los ámbitos, incluso durante los periodos de autoescalado rápido.

Resumen de datos de rendimiento

Los resultados confirman un aumento significativo en la eficiencia y la velocidad. Estas ganancias se traducen directamente en tiempos de respuesta más bajos para tus usuarios y menores costos operativos como resultado de la capacidad de completar la misma cantidad de trabajo con menos recursos de cómputo.

Las siguientes tablas detallan las mejoras cuantitativas. Los valores más altos son mejores para el rendimiento; los valores más bajos son mejores para la latencia.

Búsqueda de resultados del índice de referencia:

Benchmark	Comparación	Infraestructura antigua	Nueva infraestructura	Diferencial
`wikipedia` (texto sin formato)	Rendimiento de operaciones de búsqueda (ops/s)	729	1107	+52 %
`wikipedia` (texto sin formato)	Latencia de la operación de búsqueda (p99, ms)	56	35	-37 %
`MSMARCO-Passage-Ranking` (vectores dispersos)	Rendimiento de operaciones de búsqueda (ops/s)	22	31	+40 %
`MSMARCO-Passage-Ranking` (vectores dispersos)	Latencia de la operación de búsqueda (p99, ms)	108	67	-38 %
`OpenAI_Vector` (vectores densos)	Rendimiento de operaciones de búsqueda (ops/s)	475	624	+31 %
`OpenAI_Vector` (vectores densos)	Latencia de la operación de búsqueda (p99, ms)	35	22	-37 %

Resultados de referencia de indexación:

Benchmark	Comparación	Infraestructura antigua	Nueva infraestructura	Diferencial
`wikipedia` (texto sin formato)	Rendimiento de operaciones de búsqueda (ops/s)	2845	3220	+13 %
`wikipedia` (texto sin formato)	Latencia de la operación de búsqueda (p99, ms)	1769	1120	-37 %
`MSMARCO-Passage-Ranking` (vectores dispersos)	Rendimiento de operaciones de búsqueda (ops/s)	7087	8900	+26 %
`MSMARCO-Passage-Ranking` (vectores dispersos)	Latencia de la operación de búsqueda (p99, ms)	824	677	-18 %
`OpenAI_Vector` (vectores densos)	Rendimiento de operaciones de búsqueda (ops/s)	2972	3187	+7 %
`OpenAI_Vector` (vectores densos)	Latencia de la operación de búsqueda (p99, ms)	2946	2944	0 %

La ventaja adicional: reducción de costos

Aunque nuestro objetivo es ofrecer un rendimiento de baja latencia, la eficiencia del nuevo hardware también tiene un impacto directo y positivo en los costos de los proyectos de Elasticsearch.

El precio de Elasticsearch Serverless se basa en el uso, lo que significa que solo pagas por los recursos de ingesta y búsqueda que consumes. Debido a que el hardware más nuevo y rápido es más eficiente, tus cargas de trabajo a menudo completarán tareas empleando menos recursos, lo que genera una reducción de costos inherente para la mayoría de los proyectos. Obtendrás un aumento de rendimiento superior sin un precio premium: la definición de eficiencia optimizada.

¿Qué significa esto para ti, el desarrollador?

Esta actualización de infraestructura está gestionada íntegramente por Elastic, así que no tienes que mover un dedo: no hay migraciones ni cambios de configuración. La mejora es inmediata y automática en todos tus proyectos serverless basados en AWS.

Esta actualización te permite:

Crea aplicaciones más rápidas: concéntrate en la velocidad de las características, sabiendo que tu plataforma de búsqueda subyacente ofrece la velocidad que exigen tus usuarios.
Innova con confianza: despliega nuevas características de búsqueda, observabilidad y seguridad, incluidas capacidades complejas de IA, como búsqueda vectorial y clasificación de relevancia, con la seguridad de que la Platform puede manejar la carga al máximo rendimiento.
Simplifica tu stack: Usa un servicio totalmente gestionado que gestione la infraestructura, la planificación de la capacidad y el escalado, para que puedas centrarte en tu código y datos.

Automatización del análisis de logs en Streams con ML.

Nastia Havriushenko — Fri, 02 Jan 2026 00:00:00 GMT

En las pilas de observabilidad modernas, la ingesta de logs no estructurados de diversos proveedores de datos en plataformas como Elasticsearch sigue siendo un reto. La dependencia de reglas de análisis creadas manualmente crea pipelines frágiles, donde incluso las actualizaciones menores de código ascendente conducen a fallas en los análisis y datos no indexados. Esta fragilidad se agrava con el desafío de la escalabilidad: en entornos dinámicos de microservicios, la incorporación continua de nuevos servicios convierte el mantenimiento manual de las reglas en una pesadilla operativa.

Nuestro objetivo era pasar a un enfoque automatizado y adaptable capaz de gestionar tanto el análisis de logs (extracción de campos) como la partición de logs (identificación de las fuentes). Planteamos la hipótesis de que los modelos de lenguaje grandes (LLMs), con su comprensión inherente de la sintaxis del código y los patrones semánticos, podrían automatizar estas tareas con una intervención humana mínima.

¡Nos complace anunciar que esta característica ya está disponible en Streams!

Descripción de los sets de datos

Elegimos un conjunto de logs Loghub para fines de prueba de concepto (POC). Para nuestra investigación, seleccionamos muestras representativas de las siguientes áreas clave:

Sistemas distribuidos: utilizamos los sets de datos HDFS (Hadoop Distributed File System) y Spark. Estas contienen una mezcla de mensajes de información, depuración y error típicos de las plataformas de big data.
Aplicaciones de servidor y web: los logs de los servidores web Apache y OpenSSH proporcionaron una fuente de acceso, error y eventos relevantes para la seguridad. Son fundamentales para supervisar el tráfico web y detectar posibles amenazas.
Sistemas operativos: incluimos logs de Linux y Windows. Estos sets de datos representan los eventos comunes y semiestructurados a nivel de sistema que los equipos de operaciones encuentran a diario.
Sistemas móviles: para asegurarnos de que nuestro modelo pueda manejar logs de entornos móviles, incluimos los sets de datos de Android. Estos logs suelen ser muy detallados y recogen una amplia gama de actividades a nivel de aplicación y de sistema en los dispositivos móviles.
Supercomputadoras: para probar el rendimiento en entornos de computación de alto rendimiento (HPC), incorporamos el conjunto de datos BGL (Blue Gene/L), que presenta logs altamente estructurados con terminología específica de dominio.

Una ventaja clave de la colección Loghub es que los logs están en gran medida sin depurar y sin etiquetar, lo que refleja un entorno de producción en vivo ruidoso con arquitectura de microservicios.

Ejemplos de logs:

[Sun Dec 04 20:34:21 2005] [notice] jk2_init() Found child 2008 in scoreboard slot 6
[Sun Dec 04 20:34:25 2005] [notice] workerEnv.init() ok /etc/httpd/conf/workers2.properties
[Mon Dec 05 11:06:51 2005] [notice] workerEnv.init() ok /etc/httpd/conf/workers2.properties
17/06/09 20:10:58 INFO output.FileOutputCommitter: Saved output of task 'attempt_201706092018_0024_m_000083_1138' to hdfs://10.10.34.11:9000/pjhe/test/1/_temporary/0/task_201706092018_0024_m_000083
17/06/09 20:10:58 INFO mapred.SparkHadoopMapRedUtil: attempt_201706092018_0024_m_000083_1138: Committed

Además, creamos un clúster Kubernetes con una aplicación web típica y una base de datos configurada para extraer logs adicionales en el dominio más común.

Ejemplo de campos comunes de log: marca de tiempo, nivel de log (INFO, WARN, ERROR), fuente, mensaje.

Análisis de logs con pocos ejemplos con un LLM

Nuestro primer conjunto de experimentos se centró en una pregunta fundamental: ¿puede un LLM identificar de manera confiable los campos clave y generar reglas de análisis consistentes para extraerlos?

Pedimos a un modelo que analizara muestras de log sin procesar y generara reglas de análisis de log en formatos de expresión regular (regex) y Grok. Nuestros resultados demostraron que este enfoque tiene un gran potencial, pero también plantea desafíos importantes de implementación.

Alta confianza y conciencia del contexto

Los resultados iniciales fueron prometedores. El LLM demostró una gran capacidad para generar reglas de análisis sintáctico que coincidieran con los pocos ejemplos proporcionados con un alto grado de confianza. Además de la simple comparación de patrones, el modelo demostró su capacidad para comprender los logs: podía identificar y nombrar correctamente la fuente del log (por ejemplo, la aplicación de seguimiento de salud, la aplicación web Nginx, la base de datos Mongo).

El dilema "Goldilocks" de las muestras de entrada

Nuestros experimentos revelaron rápidamente una falta significativa de solidez debido a la extrema sensibilidad a la muestra de entrada. El rendimiento del modelo fluctúa drásticamente en función de los ejemplos específicos de logs que se incluyan en el prompt. Observamos un problema similar de log en el que la muestra debe incluir logs lo suficientemente diversos :

Demasiado homogéneo (sobreajuste): si los registros de entrada son demasiado similares, el LLM tiende a sobreespecificar. Trata datos variables (como nombres de clases Java específicas en un seguimiento de pila) como partes estáticas de la plantilla. Esto genera reglas frágiles que cubren una proporción pequeña de logs y extraen campos inutilizables.
Demasiado heterogéneo (confusión): por el contrario, si la muestra contiene una variación significativa de formato, o peor aún, "trash logs" como barras de progreso, tablas de memoria o arte ASCII, el modelo tendrá dificultades para encontrar un denominador común. Suele recurrir a generar regexes complejos y rotos o a generalizar descuidadamente toda la línea en un solo campo de mensajes.

La restricción de la ventana de contexto

También encontramos un cuello de botella en la ventana de contexto. Cuando los logs de entrada eran largos, heterogéneos o ricos en campos extraíbles, la salida del modelo solía deteriorarse, y se "desordenaba" o era demasiado larga para caber en la ventana de contexto de salida. Naturalmente, la fragmentación (chunking) ayuda en este caso. Al dividir los logs mediante delimitadores basados en caracteres y entidades, podríamos ayudar al modelo a centrarse en extraer los campos principales sin sentirse abrumado por el ruido.

La brecha de consistencia y estandarización

Incluso cuando el modelo genera reglas correctamente, notamos ligeras inconsistencias:

Variaciones en la denominación de servicios: el modelo propone diferentes nombres para la misma entidad (por ejemplo, etiquetar la fuente como "Spark", "Apache Spark" y "Spark Log Analytics" en diferentes ejecuciones).
Variaciones en los nombres de los campos: los nombres de los campos carecían de estandarización (p. ej.: id vs. service.id vs. device.id). Normalizamos los nombres al utilizar una nomenclatura de campos de Elastic estandarizada.
Variación de la resolución: la resolución de la extracción de campos variaba en función del grado de similitud entre los logs de entrada.

Huella digital en formato de log

Para abordar el reto de la similitud de logs, presentamos una heurística de alto rendimiento: la huella digital en formato de log (LFF).

En lugar de alimentar logs crudos y ruidosos directamente a un LLM, primero aplicamos una transformación determinista para revelar la estructura subyacente de cada mensaje. Este paso de preprocesamiento abstrae los datos de las variables y genera una "huella digital" simplificada que nos permite agrupar logs relacionados.

La lógica de mapping es sencilla para garantizar la velocidad y la consistencia:

Abstracción de dígitos: cualquier secuencia de dígitos (0-9) se reemplaza por un solo "0".
Abstracción de texto: cualquier secuencia de caracteres alfabéticos con espacios en blanco se reemplaza por una sola "a".
Normalización de espacios en blanco: todas las secuencias de espacios en blanco (espacios, tabulaciones, saltos de línea) se colapsan en un solo espacio.
Conservación de símbolos: se conservan los signos de puntuación y los caracteres especiales (por ejemplo: :, [, ], /), ya que suelen ser los indicadores más claros de la estructura del log.

Presentamos el enfoque de mapping de logs. Los patrones básicos de mapping incluyen lo siguiente:

Dígitos de 0-9 de cualquier longitud -> a "0".
Texto (caracteres alfabéticos con espacios) de cualquier longitud -> a "a".
Espacios en blanco, tabulaciones y líneas nuevas -> a un solo espacio.

Veamos un ejemplo de cómo este mapping nos permite transformar los logs.

Como resultado, obtenemos las siguientes máscaras de log:

Mira las huellas dactilares de los dos primeros logs. A pesar de las diferentes marcas de tiempo, clases de origen y contenido de mensajes, sus prefijos (0/0/0 0:0:0 a a.a:) son idénticos. Esta alineación estructural nos permite agrupar automáticamente estos logs en el mismo clúster.

Sin embargo, el tercer log produce una huella digital completamente divergente (0-0-0...). Esto nos permite separarlo algorítmicamente del primer grupo antes de que invoquemos un LLM.

Parte adicional: Implementación instantánea con ES|QL

Es tan fácil como ingresar esta búsqueda en Discover.

FROM loghub |
EVAL pattern = REPLACE(REPLACE(REPLACE(REPLACE(raw_message, "[ \t\n]+", " "), "[A-Za-z]+", "a"), "[0-9]+", "0"), "a( a)+", "a") |
STATS total_count = COUNT(), ratio = COUNT() / 2000.0, datasources=VALUES(filename), example=TOP(raw_message, 3, "desc") BY SUBSTRING(pattern, 0, 15) |
SORT total_count DESC |
LIMIT 100

Desglose de la búsqueda:

DE loghub: Se dirige a nuestro índice que contiene los datos de log sin procesar.

EVAL pattern = …: La lógica de mapping del núcleo. Encadenamos las funciones REPLACE para realizar la abstracción (por ejemplo, dígitos a '0', texto a 'a', etc.) y guardamos el resultado en un campo de “patrón”.

STATS[columna1 =] expresión1, … POR SUBSTRING(patrón, 0, 15):

Este es un paso de agrupación. Agrupamos logs que comparten los primeros 15 caracteres de su patrón y creamos campos agregados como recuento total de logs por grupo, lista de fuentes de datos de log, prefijo de patrón, 3 ejemplos de log

SORT total_count DESC | LIMIT 100: Destaca los 100 patrones log más frecuentes

A continuación, se muestran los resultados de la búsqueda en LogHub:

Como aparece en la visualización, este enfoque “sin LLM” particiona los logs con alta precisión. Agrupó con éxito 10 de las 16 fuentes de datos (basadas en etiquetas de LogHub) por completo (>90 %) y logró un agrupamiento mayoritario en 13 de 16 fuentes (>60 %), todo ello sin necesidad de realizar una limpieza, preprocesamiento o ajustes finos adicionales.

El formato de huella de log ofrece una alternativa pragmática y de alto impacto, además de soluciones sofisticadas de ML como el Análisis de patrones de log. Aporta información inmediata sobre las relaciones entre los log y gestiona de forma eficaz grandes grupos de logs.

Versatilidad como primitiva

Gracias a la implementación de ES|QL, LFF sirve como una herramienta independiente para diagnósticos y visualizaciones de datos rápidos y como un componente básico en los pipelines de análisis de registros para casos de uso de gran volumen.

Flexibilidad

LFF es fácil de personalizar y ampliar para capturar patrones específicos, es decir, números hexadecimales y direcciones IP.

Estabilidad determinista

A diferencia de los algoritmos de agrupamiento basados en ML, la lógica LFF es sencilla y determinista. Los nuevos logs entrantes no afectan retroactivamente a los grupos de logs existentes.

Rendimiento y mMemory

Requiere memoria mínima, sin entrenamiento ni GPU, lo que lo hace ideal para entornos de alto rendimiento en tiempo real.

Combinación de la huella digital del formato de log con un LLM

Para validar la arquitectura híbrida propuesta, cada experimento contenía un subconjunto aleatorio del 20 % de los logs de cada fuente de datos. Esta restricción simula un entorno de producción real donde los logs se procesan en lotes en lugar de como un vertido histórico monolítico.

El objetivo era demostrar que el LFF actúa como una capa de compresión eficaz. Nuestro objetivo fue demostrar que las reglas de análisis de alta cobertura podrían generarse a partir de muestras pequeñas y seleccionadas, y generalizarse con éxito a todo el set de datos.

Pipeline de ejecución

Implementamos un pipeline de varias etapas que filtra, agrupa y aplica un muestreo estratificado a los datos antes de que lleguen al LLM.

1. Agrupamiento jerárquico en dos etapas

Subclases (coincidencia exacta): los logs se agregan por huellas idénticas. Cada log en una subclase comparte exactamente la misma estructura de formato.
Limpieza de valores atípicos. Descartamos cualquier subclase que represente menos del 5 % del volumen total del log. Esto asegura que el LLM se centre en la señal dominante y no se desvíe por ruido o logs mal formados.
Metaclases (coincidencia de prefijo): las subclases restantes se agrupan en metaclases por los primeros caracteres N del formato de coincidencia de huellas dactilares. Esta estrategia de agrupación divide efectivamente formatos léxicamente similares bajo un mismo paraguas. Elegimos N=5 para el análisis de log y N=15 para la partición de log cuando las fuentes de datos son desconocidas.

2. Muestreo estratificado. Una vez construido el árbol jerárquico, construimos la muestra de log para el LLM. El objetivo estratégico es maximizar la cobertura de las variaciones y minimizar el uso de tokens.

Seleccionamos logs representativos de cada subclase válida dentro de la metaclase más amplia.
Para gestionar un caso extremo de demasiadas subclases, aplicamos un muestreo aleatorio reducido para ajustarse al tamaño de la ventana objetivo.

3. Generación de reglas. Finalmente, le pedimos al LLM que genere una regla de análisis de regex que se ajuste a todos los logs de la muestra proporcionada para cada metaclase. Para nuestra prueba de concepto, utilizamos el modelo GPT-4o mini.

Resultados experimentales y observaciones

Logramos una precisión de análisis del 94 % y una precisión de partición del 91 % en los sets de datos de Loghub.

La matriz de confusión anterior ilustra los resultados de la partición de logs. El eje vertical representa las fuentes de datos reales, y el eje horizontal representa las fuentes de datos previstas. La intensidad del mapa de calor corresponde al volumen de logs, con mosaicos más ligeros que indican un recuento más alto. La alineación diagonal demuestra la alta fidelidad del modelo en la atribución de fuentes, con una dispersión mínima.

Nuestra información sobre los parámetros de rendimiento:

Línea de base óptima: una ventana de contexto de 30–40 muestras de log por categoría demostró ser el "punto óptimo", que produce consistentemente un análisis robusto con patrones tanto de Regex como de Grok.
Minimización de entrada: pusimos el tamaño de entrada a 10 logs por categoría para los patrones Regex y observamos solo una caída del 2 % en el rendimiento de análisis, lo que confirma que el muestreo basado en la diversidad es más crítico que el volumen bruto.

Introducción a los modelos de Jina, su funcionalidad y usos en Elasticsearch

Scott Martens — Thu, 01 Jan 2026 00:00:00 GMT

Jina de Elastic proporciona modelos fundamentales de búsqueda para aplicaciones y una automatización de procesos empresariales. Estos modelos proporcionan funcionalidad del núcleo para llevar la IA a las aplicaciones de Elasticsearch y a los proyectos innovadores de IA.

Los modelos de Jina se dividen en tres amplias categorías diseñadas para apoyar el procesamiento, la organización y la recuperación de información:

Modelos de incrustación semántica
Modelos de reordenamiento
Pequeños modelos de lenguaje generativo

Modelos de incrustación semántica

La idea detrás de las incrustaciones semánticas es que un modelo de IA puede aprender a representar aspectos del significado de sus entradas en términos de la geometría de espacios de alta dimensión.

Puedes pensar en una incrustación semántica como un punto (técnicamente un vector) en un espacio de alta dimensión. Un modelo de incrustación es una red neuronal que toma algunos datos digitales como entrada (potencialmente cualquier cosa, pero con mayor frecuencia un texto o una imagen) y genera la ubicación de un punto de alta dimensión correspondiente como un conjunto de coordenadas numéricas. Si el modelo funciona bien, la distancia entre dos incrustaciones semánticas es proporcional a la medida en que sus objetos digitales correspondientes significan lo mismo.

Para entender cómo esto es importante para las aplicaciones de búsqueda, imagina una incrustación para la palabra “perro” y una para la palabra “gato” como puntos en el espacio:

Un buen modelo de incrustación debe generar una para la palabra “felino” que esté mucho más cerca de “gato” que de “perro”, y “canino” debe tener una incrustación mucho más cercana a “perro” que de “gato”, porque esas palabras significan casi lo mismo:

Si un modelo es multilingüe, esperaríamos lo mismo para las traducciones de “gato” y “perro”:

Los modelos de incrustación traducen la similitud o diferencia en el significado entre las cosas en relaciones espaciales entre incrustaciones. Las imágenes anteriores solo tienen dos dimensiones para que puedas verlas en una pantalla, pero los modelos de incrustación producen vectores con docenas o miles de dimensiones. Esto les permite codificar sutilezas de significado para textos completos y asignar un punto en un espacio que tenga cientos o miles de dimensiones para documentos de miles de palabras o más.

Incrustaciones multimodales

Los modelos multimodales amplían el concepto de incrustaciones semánticas a otros elementos, además de los textos, especialmente a las imágenes. Esperaríamos que una incrustación para una imagen esté cerca de una incrustación de una descripción fiel de la imagen:

Las incrustaciones semánticas tienen muchos usos. Entre otras cosas, puedes utilizarlos para crear clasificadores eficientes, agrupar datos y llevar a cabo una variedad de tareas, como la deduplicación de datos y la investigación de la diversidad de datos, ambas importantes para aplicaciones de big data que implican trabajar con demasiados datos para gestionarlos manualmente.

El mayor uso directo de las incrustaciones es en la recuperación de información. Elasticsearch puede almacenar objetos de recuperación con incrustaciones como claves. Las consultas se convierten en vectores de incrustación y una búsqueda devuelve los objetos almacenados cuyas claves son las más cercanas a la incrustación de la consulta.

Donde la recuperación tradicional basada en vectores (a veces llamada recuperación de vectores dispersos) utiliza vectores basados en palabras o metadatos en documentos y búsquedas, la recuperación basada en incrustaciones (también conocida como recuperación de vectores densos) utiliza significados evaluados por la IA en lugar de palabras. Esto los hace, en general, mucho más flexibles y precisos que los métodos de búsqueda tradicionales.

Aprendizaje de representación de Matryoshka

El número de dimensiones que tiene una incrustación y la precisión de los números que contiene tienen un impacto significativo en el rendimiento. Los espacios de muy alta dimensión y los números extremadamente de alta precisión pueden representar información muy detallada y compleja, pero exigen modelos de IA más grandes que sean más caros de entrenar y de ejecutar. Los vectores que generan requieren más espacio de almacenamiento y se necesitan más ciclos de computación para calcular las distancias entre ellos. El uso de modelos de incrustación semántica implica hacer compensaciones importantes entre la precisión y el consumo de recursos.

Para maximizar la flexibilidad para los usuarios, los modelos de Jina se entrenan con una técnica llamada Aprendizaje de representación de Matryoshka. Esto hace que los modelos carguen las distinciones semánticas más importantes en las primeras dimensiones del vector de incrustación para que simplemente puedas cortar las dimensiones superiores y aún obtener un buen rendimiento.

En la práctica, esto significa que los usuarios de los modelos de Jina pueden elegir cuántas dimensiones desean que tengan sus incrustaciones. Elegir menos dimensiones reduce la precisión, pero la degradación en el rendimiento es menor. En la mayoría de las tareas, las métricas de rendimiento de los modelos de Jina disminuyen entre un 1 % y un 2 % cada vez que reduces el tamaño de la incrustación en un 50 %, hasta aproximadamente una reducción del 95 % en el tamaño.

Recuperación asimétrica

La similitud semántica usualmente se mide de manera simétrica. El valor que obtienes al comparar “gato” con “perro” es el mismo que el valor que obtendrías al comparar “perro” con “gato”. Pero cuando usas incrustaciones para la recuperación de información, funcionan mejor si rompes la simetría y codificas las búsquedas de manera diferente a como codificas los objetos de recuperación.

Esto se debe a la forma en que entrenamos los modelos de incrustación. Los datos de entrenamiento contienen ejemplos de los mismos elementos, como palabras, en muchos contextos diferentes, y los modelos aprenden semántica al comparar las similitudes y diferencias contextuales entre los elementos.

Entonces, por ejemplo, podríamos encontrar que la palabra “animal” no aparece en muchos de los mismos contextos que “gato” o “perro”, y por lo tanto, la incrustación para “animal” podría no estar particularmente cerca de “gato” o “perro”:

Esto hace que sea menos probable que una búsqueda de "animal" recupere documentos sobre gatos y perros, lo cual es lo opuesto a nuestro objetivo. Así que, en su lugar, codificamos "animal" de forma diferente cuando es una consulta que cuando es un objetivo para la recuperación:

La recuperación asimétrica significa usar un modelo diferente para las búsquedas o entrenar especialmente un modelo de incrustación para codificar cosas de una manera cuando se almacenan para su recuperación y para codificar consultas de otra manera.

Incrustaciones multivectoriales

Las incrustaciones únicas son buenas para la recuperación de información porque se ajustan al marco de trabajo básico de una base de datos indexada: almacenamos objetos para su recuperación con un único vector de incrustación como clave de recuperación. Cuando los usuarios consultan el almacén de documentos, sus búsquedas se traducen en vectores de incrustación y los documentos cuyas claves están más cercanas a la incrustación de búsquedas (en el espacio de incrustación de alta dimensión) se recuperan como posibles coincidencias.

Las incrustaciones multivectoriales funcionan un poco diferente. En lugar de generar un vector de longitud fija para representar una búsqueda y un objeto almacenado completo, producen una secuencia de incrustaciones que representan partes más pequeñas de ellos. Las partes suelen ser tokens o palabras para textos y son mosaicos de imagen para datos visuales. Estas incrustaciones reflejan el significado de la parte en su contexto.

Por ejemplo, considera estas oraciones:

Ella tenía un corazón de oro.
Ella cambió de opinión con el corazón.
Ella tuvo un ataque al corazón.

Superficialmente, se ven muy similares, pero un modelo multivectorial probablemente generaría incrustaciones muy diferentes para cada instancia de "corazón", representando cómo cada una significa algo diferente en el contexto de la oración completa:

La comparación de dos objetos a través de sus incrustaciones multivectoriales a menudo implica medir su distancia de chaflán: comparar cada parte de una incrustación multivectorial con cada parte de otra y sumar las distancias mínimas entre ellas. Otros sistemas, incluidos los Jina Rerankers que se describen a continuación, los incluyen en un modelo de IA entrenado específicamente para evaluar su similitud. Ambos enfoques suelen tener mayor precisión que la simple comparación de incrustaciones de un solo vector, ya que las incrustaciones multivectoriales contienen información mucho más detallada que las de un solo vector.

Sin embargo, las incrustaciones multivectoriales no son adecuadas para indexar. A menudo se utilizan en tareas de reclasificación, como se describe para el modelo de jina-colbert-v2 en la siguiente sección.

Modelos de incrustación de Jina

Jina embeddings v4

jina-embeddings-v4 es un modelo de incrustación multilingüe y multimodal de 3.8 mil millones (3.8×10⁹) de parámetros que admite imágenes y textos en una variedad de idiomas ampliamente utilizados. Utiliza una arquitectura novedosa para aprovechar el conocimiento visual y el conocimiento del lenguaje para mejorar el rendimiento en ambas tareas, lo que le permite sobresalir en la recuperación de imágenes y especialmente en la recuperación visual de documentos. Esto significa que maneja imágenes como gráficos, diapositivas, mapas, capturas de pantalla, escaneos de páginas y diagramas, tipos comunes de imágenes que a menudo contienen texto importante incrustado y que quedan fuera del alcance de los modelos de visión artificial entrenados con imágenes de escenas del mundo real.

Hemos optimizado este modelo para varias tareas diferentes a través de adaptadores de Low-Rank Adaptation (LoRA) compactos. Esto nos permite entrenar un único modelo para que se especialice en varias tareas, sin comprometer el rendimiento en ninguna de ellas, con un costo adicional mínimo en memoria o procesamiento.

Las características principales incluyen las siguientes:

Rendimiento de vanguardia en la recuperación visual de documentos, junto con texto multilingüe e imágenes regulares que superan significativamente a modelos mucho más grandes.
El soporte para un gran tamaño de contexto de entrada: 32.768 tokens equivale aproximadamente a 80 páginas de texto en inglés a doble espacio, y 20 megapíxeles equivalen a una imagen de 4.500 x 4.500 píxeles.
Tamaños de incrustación seleccionados por el usuario, desde un máximo de 2048 dimensiones hasta 128 dimensiones. Descubrimos empíricamente que el rendimiento se degrada significativamente por debajo de ese umbral.
Soporte para ambas incrustaciones simples y multivector. En el caso de los textos, la salida multivectorial consiste en una incrustación de 128 dimensiones para cada token de entrada. Para las imágenes, produce una incrustación de 128 dimensiones para cada mosaico de 28x28 píxeles necesario para cubrir la imagen.
Optimización para la recuperación asimétrica mediante un par de adaptadores LoRA entrenados específicamente para tal fin.
Un adaptador LoRA optimizado para el cálculo de similitud semántica.
Soporte especial para lenguajes de programación informática y marcos de trabajo de TI, también a través de un adaptador LoRA.

Desarrollamos jina-embeddings-v4 para servir como una herramienta general y multipropósito para una amplia variedad de tareas de búsqueda común, comprensión del lenguaje natural y análisis de IA. Es un modelo relativamente pequeño teniendo en cuenta sus capacidades, pero su despliegue requiere recursos considerables y es más adecuado para su uso a través de una API en la nube o en un entorno de gran volumen.

Jina embeddings v3

jina-embeddings-v3 es un modelo de incrustación compacto, de alto rendimiento, multilingüe y solo de texto con menos de 600 millones de parámetros. Admite hasta 8192 tokens de entrada de texto y genera incrustaciones de vector único con tamaños elegidos por el usuario, desde un valor predeterminado de 1024 dimensiones hasta 64.

Capacitamos a jina-embeddings-v3 para una variedad de tareas de texto. No solo para la recuperación de información y la similitud semántica, sino también para tareas de clasificación, como análisis de sentimiento y moderación de contenido, así como tareas de agrupar, como agregación de noticias y recomendaciones. Al igual que jina-embeddings-v4, este modelo proporciona adaptadores LoRA especializados para las siguientes categorías de uso:

Recuperación asimétrica
Similitud semántica
Clasificación
Agrupación

jina-embeddings-v3 es un modelo mucho más pequeño que jina-embeddings-v4 con un tamaño de contexto de entrada significativamente reducido, pero su funcionamiento cuesta menos. No obstante, tiene un rendimiento muy competitivo, aunque solo para textos, y es una mejor opción para muchos casos de uso.

Inmercaciones del código Jina

Los modelos especializados de incrustación de código de Jina, jina-code-embeddings (0.5b y 1.5b), admiten 15 esquemas y marcos de trabajo de programación, así como textos en inglés relacionados con la informática y la tecnología de la información. Son modelos compactos con quinientos millones (0.5x10⁹) y mil quinientos millones (1.5x10⁹) de parámetros, respectivamente. Ambos modelos admiten tamaños de contexto de entrada de hasta 32.768 tokens y permiten a los usuarios seleccionar los tamaños de su incrustación de salida, desde 896 hasta 64 dimensiones para el modelo más pequeño y 1536 hasta 128 para el modelo más grande.

Estos modelos admiten la recuperación asimétrica para cinco especializaciones específicas de tareas, mediante el ajuste de prefijos en lugar de adaptadores LoRA:

Código a código. Recupera un código similar en todos los lenguajes de programación. Esto se utiliza para la alineación de códigos, deduplicación de códigos y soporte para la traslación y refactorización.
Lenguaje natural para programar. Recupera códigos para hacer coincidir consultas, comentarios, descripciones y documentación en lenguaje natural.
Código a lenguaje natural. Haz coincidir el código con la documentación u otros textos en lenguaje natural.
Finalización de código a código. Sugiere un código relevante para completar o mejorar el código existente.
Preguntas y respuestas técnicas. Identifica las respuestas en lenguaje natural a las preguntas sobre tecnologías de la información, que son ideales para casos de uso de soporte técnico.

Estos modelos ofrecen un rendimiento superior para tareas relacionadas con documentación informática y materiales de programación con un costo computacional relativamente bajo. Son muy adecuados para integrarse en entornos de desarrollo y asistentes de código.

Jina ColBERT v2

jina-colbert-v2 es un modelo de incrustación de texto multivectorial de 560 millones de parámetros. Es multilingüe, entrenado con materiales en 89 idiomas, y soporta tamaños de incrustación variables y recuperación asimétrica.

Como se ha señalado anteriormente, las incrustaciones multivectoriales no son adecuadas para la indexación, pero resultan muy útiles para aumentar la precisión de los resultados de otras estrategias de búsqueda. Mediante jina-colbert-v2, puedes calcular incrustaciones multivector de antemano y luego usarlas para reclasificar candidatos de recuperación al momento de la búsqueda. Este enfoque es menos preciso que usar uno de los modelos de reclasificación en la siguiente sección, pero es mucho más eficiente porque simplemente implica comparar incrustaciones multivectoriales almacenadas en lugar de invocar todo el modelo de IA para cada búsqueda y coincidencia posible. Es ideal para casos de uso en los que la latencia y la sobrecarga computacional que supone el uso de modelos de reclasificación son demasiado grandes, o cuando el número de candidatos que comparar es demasiado elevado para los modelos de reclasificación.

Este modelo genera una secuencia de incrustaciones, una por token de entrada, y los usuarios pueden seleccionar incrustaciones de token de 128, 96 o 64 dimensiones. Las coincidencias de texto de candidatos están limitadas a 8,192 tokens. Las búsquedas se codifican de manera asimétrica, por lo que los usuarios deben especificar si un texto es una búsqueda o una coincidencia candidata y deben limitar las búsquedas a 32 tokens.

Jina CLIP v2

Jina-Clip-V2 es un modelo de incrustación multimodal de 900 millones de parámetros, y está capacitado para que los textos e imágenes produzcan incrustaciones muy cercanas si el texto describe el contenido de la imagen. Su uso principal es para recuperar imágenes basadas en consultas de textura, pero también es un modelo de solo texto de alto rendimiento, lo que reduce los costos de usuario porque no necesitas modelos separados para la recuperación de texto a texto y de texto a imagen.

Este modelo admite un contexto de entrada de texto de 8,192 tokens, y las imágenes se escalan a 512x512 píxeles antes de generar incrustaciones.

Las arquitecturas de preentrenamiento de lenguaje-imagen contrastivo (CLIP) son fáciles de entrenar y operar y pueden producir modelos muy compactos, pero tienen algunas limitaciones fundamentales. No pueden utilizar los conocimientos adquiridos en un medio para mejorar su rendimiento en otro. No pueden usar un medio para mejorar su rendimiento en otro. Así que, aunque pueda saber que las palabras "perro" y "gato" están más cercanas en significado que a "auto", no necesariamente sabrá que una foto de un perro y una de un gato están más relacionadas que cualquiera de las dos con una foto de un auto.

También sufren de lo que se llama la brecha de modalidad: es probable que una incrustación de un texto sobre perros esté más cerca de una incrustación de un texto sobre gatos que de una incrustación de una imagen de perros. Debido a esta limitación, te recomendamos utilizar CLIP como modelo de recuperación de texto a imagen o como modelo de solo texto, pero sin mezclar los dos en una sola búsqueda.

Modelos de reordenamiento

Los modelos de reclasificación toman una o más coincidencias candidatas, junto con una consulta como entrada al modelo, y las comparan directamente, produciendo coincidencias de mucha mayor precisión.

En principio, podrías usar un reranker directamente para la recuperación de información al comparar cada búsqueda con cada documento almacenado, pero esto sería muy costoso desde el punto de vista computacional y no es práctico para cualquier colección excepto para las más pequeñas. Como resultado, los rerankers tienden a usarse para evaluar listas relativamente cortas de coincidencias de candidatos encontradas por otros medios, como la búsqueda basada en incrustaciones u otros algoritmos de recuperación. Los modelos de reclasificación son ideales para esquemas de búsqueda híbridos y federados, donde realizar una búsqueda puede significar que las consultas se envían a sistemas de búsqueda separadas con conjuntos de datos distintos, cada una devolviendo resultados distintos. Funcionan muy bien al combinar resultados diversos en un único resultado de alta calidad.

La búsqueda basada en incrustaciones puede ser un gran compromiso, ya que implica reindexar todos tus datos almacenados y cambiar las expectativas del usuario sobre los resultados. Agregar un reranker a un esquema de búsqueda existente puede sumar muchos de los beneficios de la IA sin necesidad de rediseñar toda tu solución de búsqueda.

Modelos de reordenación de Jina

Jina Reranker m0

jina-reranker-m0 es un reranker multimodal de 2.4 mil millones (2.4x10⁹) de parámetros que admite consultas textuales y coincidencias candidatas que consisten en textos y/o imágenes. Es el modelo líder en recuperación visual de documentos, lo que lo convierte en una solución ideal para almacenar archivos PDF, escaneos de texto, capturas de pantalla y otras imágenes generadas o modificadas por computadora que contengan texto u otra información semiestructurada, así como datos mixtos que consistan en documentos de texto e imágenes.

Este modelo toma una búsqueda única y una coincidencia candidata y devuelve una puntuación. Cuando la misma consulta se usa con diferentes candidatos, las puntuaciones son comparables y pueden usarse para clasificarlas. Soporta un tamaño total de entrada de hasta 10 240 tokens, incluido el texto de la consulta y el texto o imagen candidata. Cada mosaico de 28x28 píxeles necesario para cubrir una imagen cuenta como un token para calcular el tamaño de entrada.

Jina Reranker v3

jina-reranker-v3 es un reranker de texto de 600 millones de parámetros con rendimiento de vanguardia para modelos de tamaño comparable. A diferencia de jina-reranker-m0, toma una sola búsqueda y una lista de hasta 64 candidatos coincidentes y devuelve el orden de clasificación. Tiene un contexto de entrada de 131 000 tokens, incluida la consulta y todos los candidatos de texto.

Jina Reranker v2

jina-reranker-v2-base-multilingual es un reranker muy compacto y de uso general con características adicionales diseñadas para admitir llamadas a funciones y consultas SQL. Con un peso inferior a 300 millones de parámetros, proporciona una reclasificación de texto multilingüe rápido, eficiente y preciso, con soporte adicional para seleccionar tablas SQL y funciones externas que coincidan con consultas de texto, lo que lo hace adecuado para casos de uso de agentes.

Pequeños modelos de lenguaje generativo

Los modelos de lenguaje generativo son modelos como ChatGPT de OpenAI, Google Gemini y Claude de Anthropic que toman entradas de texto o multimedia y responden con salidas de texto. No existe una línea bien definida que separe los modelos de lenguaje grandes (LLM) de los modelos de lenguaje pequeños (SLM), pero los problemas prácticos de desarrollar, operar y utilizar LLM de primera línea son bien conocidos. Los más conocidos no se distribuyen públicamente, por lo que solo podemos estimar su tamaño, pero se espera que ChatGPT, Gemini y Claude estén en el rango de parámetros de 1 a 3 billones (1–3x10¹²).

Ejecutar estos modelos, incluso si están disponibles públicamente, está muy lejos del alcance del hardware convencional, que requiere los chips más avanzados dispuestos en grandes matrices paralelas. Puedes acceder a LLMs a través de API pagas, pero esto conlleva costos significativos, tiene una gran latencia y es difícil de alinear con las demandas de protección de datos, la soberanía digital y la repatriación en la nube. Además, los costos relacionados con la capacitación y la personalización de modelos de ese tamaño pueden ser considerables.

En consecuencia, se han realizado numerosas investigaciones para desarrollar modelos más pequeños que, aunque carecen de todas las capacidades de los LLM más grandes, pueden realizar determinados tipos de tareas con la misma eficacia y a un menor costo. Las empresas generalmente despliegan software para abordar problemas específicos, y el software de IA no es diferente, por lo que las soluciones basadas en SLM se suelen preferir a las de LLM. Por lo general, pueden ejecutarse en hardware básico, son más rápidos y consumen menos energía para ejecutarse, y son mucho más fáciles de personalizar.

Las ofertas de SLM de Jina están creciendo a medida que nos enfocamos en la mejor manera de llevar la IA a soluciones de búsqueda prácticas.

Jina SLM

ReaderLM v2

ReaderLM-v2 es un modelo de lenguaje generativo que convierte HTML en Markdown o JSON, según los esquemas JSON proporcionados por el usuario y las instrucciones en lenguaje natural.

El preprocesamiento y la normalización de datos son una parte esencial del desarrollo de buenas soluciones de búsqueda para datos digitales, pero los datos del mundo real, especialmente la información derivada de la web, suelen ser caóticos, y las estrategias de conversión simples a menudo resultan ser muy frágiles. En cambio, ReaderLM-v2 ofrece una solución de modelo de IA inteligente que puede entender el caos de un volcado de árbol DOM de una página web e identificar de manera segura elementos útiles.

Con 1500 millones (1,5 x 10⁹) de parámetros, es tres órdenes de magnitud más compacto que los LLM de última generación, pero su rendimiento es similar al de estos en esta tarea específica.

Jina VLM

jina-vlm es un modelo de lenguaje generativo con 2400 millones (2,4 x 10⁹) de parámetros que está entrenado para responder preguntas en lenguaje natural sobre imágenes. Tiene un fuerte soporte para el análisis visual de documentos, es decir, responder preguntas sobre escaneos, capturas de pantalla, diapositivas, diagramas y datos similares de imágenes no naturales.

Por ejemplo:

También es muy bueno para leer texto en imágenes:

Pero donde jina-vlm realmente se destaca es en entender el contenido de las imágenes informativas y creadas por el hombre:

jina-vlm es adecuado para la generación automática de subtítulos, descripciones de productos, texto alternativo de imágenes y aplicaciones de accesibilidad para personas con discapacidad visual. También crea posibilidades para que los sistemas de generación aumentada por recuperación (RAG) utilicen información visual y para que los agentes de IA procesen imágenes sin ayuda humana.

Primeros pasos con Elastic Agent Builder y Strands Agents SDK

Jonathan Simon — Mon, 15 Dec 2025 00:00:00 GMT

¿Tienes una idea para un agente de IA? Probablemente implica hacer algo con datos porque, si un agente va a iniciar una acción útil, necesita tomar una decisión y necesita los datos correctos para tomar la decisión correcta.

Elastic Agent Builder facilita la creación de agentes de IA conectados a datos. Te mostraremos cómo hacerlo en esta publicación de blog. Veamos todos los pasos necesarios para crear un agente con una herramienta MCP que acceda a los datos almacenados en Elastic. Luego usaremos el SDK de Strands Agents y sus capacidades Agent2Agent (A2A) para operar el agente. El SDK de Strands Agents es una plataforma de desarrollo de IA multiagente que puedes usar para crear apps de agentes con el código justo para asegurarte de obtener el resultado que quieres.

Construyamos un agente de IA que juegue el juego de RPS+, que es una versión del clásico juego de "Piedra, papel o tijeras" con un toque adicional; les da a los jugadores del juego un par de opciones adicionales.

Requisitos previos

Aquí está lo que se requiere para seguir los pasos en esta publicación de blog:

Un editor de texto ejecutándose en tu computadora local
- Visual Studio Code es lo que usaremos para las instrucciones de ejemplo en esta publicación de blog
Python 3.10 o superior funcionando en tu computadora local

Crea un proyecto Serverless

Lo primero que necesitamos es un proyecto Elasticsearch Serverless, que incluye Elastic Agent Builder.

Ve a cloud.elastic.co y crea un nuevo proyecto de Elasticsearch Serverless.

Crea un índice y agrega datos

A continuación, vamos a agregar algunos datos a nuestro proyecto de Elasticsearch. Abre Developer Tools, donde podemos ejecutar comandos para crear un nuevo índice e insertar algunos datos en él. Selecciona Herramientas para desarrolladores en el menú de navegación de nivel superior.

Copia y pega el siguiente comando PUT en el área de entrada de solicitud de la consola de Developer Tools. Esta declaración crea un índice de Elasticsearch llamado “game-docs”.

PUT /game-docs
{
  "mappings": {
    "properties": {
      "title": { "type": "text" },
      "content": { 
        "type": "text"
      },
      "filename": { "type": "keyword" },
      "last_modified": { "type": "date" }
    }
  }
}

Haz clic en el botón Enviar solicitud que aparece en el lado derecho de la declaración en Herramientas para desarrolladores. Deberías ver una notificación que confirme que el índice game-docs se creó en el área de respuesta de Herramientas para desarrolladores.

Un índice llamado game-docs es el lugar ideal para almacenar los datos del juego que estamos creando. Pongamos un documento llamado rps+-md en este índice que contiene todos los datos que requiere nuestro juego. Copia y pega el siguiente comando PUT en la consola de Herramientas para desarrolladores.

PUT /game-docs/_doc/rps+-md
{
  "title": "Rock Paper Scissors +",
  "content": "
# Game Name
RPS+

# Starting Prompt
Let's play RPS+ !
---
What do you choose?

# Game Objects
1. Rock 🪨 👊
2. Paper 📜 🖐
3. Scissors ✄ ✌️
4. Light ☼ 👍
5. Dark Energy ☄ 🫱

# Judgement of Victory
* Rock beats Scissors
  * because rocks break scissors
* Paper beats Rock
  * because paper covers rock
* Scissors beat Paper
  * because scissors cut paper
* Rock beats Light
  * because you can build a rock structure to block out light
* Paper beats Light
  * because knowledge stored in files and paper books helps us understand light
* Light beats Dark Energy
  * because light enables humans to lighten up and laugh in the face of dark energy as it causes the eventual heat death of the universe
* Light beats Scissors
  * because light is needed to use scissors safely
* Dark Energy beats Rock
  * because dark energy rocks more than rocks. It rocks rocks and everything else in its expansion of the universe
* Dark Energy beats Paper
  * because humans, with their knowledge stored in files and paper books, can't explain dark energy 
* Scissors beat Dark Energy
  * because a human running with scissors is darker than dark energy

# Invalid Input
I was hoping for an worthy opponent
  - but alas it appears that time has past
  - but alas there's little time for your todo list when [todo:fix this] is so vast

# Cancel Game
The future belongs to the bold. Goodbye..
",
  "filename": "RPS+.md",
  "last_modified": "2025-11-25T12:00:00Z"
}

Haz clic en el botón Enviar solicitud junto a la instrucción para ejecutarlo y agregar el documento rps+-md al índice de documentación del juego.

Ahora deberíamos tener algunos datos para consultar, y con Agent Builder, eso es más simple que nunca.

Selecciona Agentes en el menú de navegación superior.

Luego, todo lo que tienes que hacer es preguntarle al agente de Elastic AI predeterminado: "¿Qué datos tengo?".

El agente de Elastic AI evalúa los datos y devuelve una explicación concisa de los datos que tenemos.

Crear una herramienta

Listo, ahora tenemos algunos datos en Elastic; vamos a ponerlos en práctica. Agent Builder incluye soporte integrado para crear herramientas MCP que ayudan a los agentes a acceder a los datos que necesitan para tener el contexto adecuado para su tarea. Vamos a crear una herramienta sencilla que recupere los datos de nuestro juego.

Haz clic en el menú de acciones de Agent Builder.

Selecciona Ver todas las herramientas en las opciones del menú.

Haz clic en + Nueva herramienta.

En el formulario Crear herramienta, selecciona ES|QL como Tipo de herramienta e ingresa los siguientes valores.

Para el ID de la herramienta:

example.get_game_docs

Para la Descripción:

Get RPS+ doc from Elasticsearch game-docs index.

Para la configuración, ingresa la siguiente consulta en el área de texto Consulta ES|QL :

FROM game-docs | WHERE filename == "RPS+.md"

Tu formulario completado de Crear herramienta debería verse así. Haz clic en Guardar para crear la herramienta.

Tenemos una nueva herramienta disponible en el estante de herramientas. Las herramientas no deberían estar colgadas perpetuamente en un estante; hay que darles un uso digno. Creemos un agente que pueda emplear nuestra nueva herramienta personalizada.

Crea un agente y asígnale una herramienta

Crear un agente es sorprendentemente sencillo con Agent Builder. Solo tienes que ingresar las instrucciones del agente con algunos detalles y eso es todo lo que necesitas. Vamos a crear un agente ahora.

Haz clic en Gestionar agentes.

Haz clic en + Nuevo agente.

Introduce la siguiente información en el formulario Nuevo agente.

Para ID de agente, ingresa el texto a continuación:

rps_plus_agent

En el área de texto de Instrucciones personalizadas , ingresa las siguientes instrucciones:

When prompted, if the prompt contains an integer, then select the corresponding numbered item in the list of "Game Objects" from your documents. Otherwise select a random game object. This is your chosen game object for a single round of the game.

# General Game Rules
* 2 players
    - the user: the person playing the game
    - you: the agent playing the game and serving as the game master
* Each player chooses a game object which will be compared and cause them to tie, win or lose.

# Start the game
1. This is the way each new game always starts. You make the first line of your response only the name of your chosen game object. 

2. The remainder of your response should be the "Starting Prompt" text from your documents and generate a list of "Game Objects" for the person playing the game to choose a game object from.  

# End of Game: The game ends in one of the following three outcomes:
1. Invalid Input: If the player responds with an invalid game object choice, respond with variations of the "Invalid Input" text from your documents and then end the game.

2. Tie: The game ends in a tie if the user chooses the same game object as your game object choice.

3. Win or Lose: The game winner is decided based on the "Judgement of Victory" conditions from your documents. Compare the user's game object choice and your game object choice and determine who chose the winning game object.

# Game conclusion
Respond with a declaration of the winner of the game by outputting the corresponding text in the "Judgement of Victory" section of your documents.

Para el Nombre de visualización, ingresa el texto a continuación:

RPS+ Agent

Para la Descripción de la pantalla, ingresa el texto a continuación:

An agent that plays the game RPS+

Brinda al agente la herramienta personalizada que creamos previamente al hacer clic en la pestaña Herramientas.

Selecciona solo la herramienta example.get_game_docs que creamos anteriormente.

Haz clic en Guardar para crear el nuevo agente.

Probemos nuestro nuevo agente. Hay un enlace útil para iniciar un chat con cualquier agente de la lista de agentes.

Simplemente ingresa “iniciar juego” y el juego comenzará. ¡Funciona!

Puedes ver que el agente muestra su elección de objeto de juego en la parte superior de su respuesta. Esto es útil porque podemos ver la elección del agente y confirmar que el juego funciona como se espera. Sin embargo, conocer la elección de tu oponente antes de elegir no lo convierte en un juego muy divertido de "Piedra, papel o tijeras". Para pulir y perfeccionar el juego hasta su forma final, podemos usar una plataforma de orquestación de agentes que pueda controlar a los agentes con código.

El SDK de Strands Agents entra al chat.

SDK de agentes de Strands

Si tienes curiosidad por probar nuevos marcos de trabajo de desarrollo de agentes, entonces vale la pena probar el SDK de Strands Agents. El SDK de Strands Agents fue lanzado por AWS (mayo de 2025) como una implementación de open source Python, y ahora también hay una versión en Typescript.

Introducción al SDK de Strands Agents en Python

Enciende tus motores de programación, ahora vamos a pasar rápidamente por el proceso de clonación y ejecución de una app de ejemplo que usa Strands Agents para controlar el agente de RPS+ mediante el protocolo A2A. Vamos a crear una versión ajustada del juego RPS+ para que la elección del agente se revele después de que hagas tu elección, porque, después de todo, es la adivinación y el resultado sorpresa lo que hace que juegos como "Piedra, papel o tijeras" sean divertidos.

En tu computadora local, abre Visual Studio Code y abre una nueva terminal.

En la terminal recién abierta, ejecuta el siguiente comando para clonar el repositorio de Elasticsearch Labs:

git clone https://github.com/elastic/elasticsearch-labs

Ejecuta el siguiente comando cd para cambiar el directorio al directorio elasticsearch-labs:

cd elasticsearch-labs

A continuación, ejecuta el siguiente comando para abrir el repositorio en Visual Studio Code:

code .

En el Explorador de archivos de Visual Studio, expande las carpetas supporting-blog-content y agent-builder-a2a-strands-agents y luego abre el archivo elastic_agent_builder_a2a_rps+.py. Así es como se ve el archivo abierto en Visual Studio Code:

Aquí tienes el contenido de elastic_agent_builder_a2a_rps+.py que deberías ver en tu editor de texto:

import asyncio
from dotenv import load_dotenv
from uuid import uuid4
import httpx
import os
import random
from a2a.client import A2ACardResolver, ClientConfig, ClientFactory
from a2a.types import Message, Part, Role, TextPart

DEFAULT_TIMEOUT = 60  # set request timeout to 1 minute


def create_message(*, role: Role = Role.user, text: str, context_id=None) -> Message:
    return Message(
        kind="message",
        role="user",
        parts=[Part(TextPart(kind="text", text=text))],
        message_id=uuid4().hex,
        context_id=context_id,
    )


async def main():
    load_dotenv()
    a2a_agent_host = os.getenv("ES_AGENT_URL")
    a2a_agent_key = os.getenv("ES_API_KEY")
    custom_headers = {"Authorization": f"ApiKey {a2a_agent_key}"}

    async with httpx.AsyncClient(
        timeout=DEFAULT_TIMEOUT, headers=custom_headers
    ) as httpx_client:
        # Get agent card
        resolver = A2ACardResolver(httpx_client=httpx_client, base_url=a2a_agent_host)
        agent_card = await resolver.get_agent_card(
            relative_card_path="/rps_plus_agent.json"
        )
        # Create client using factory
        config = ClientConfig(
            httpx_client=httpx_client,
            streaming=True,
        )
        factory = ClientFactory(config)
        client = factory.create(agent_card)
        # Use the client to communicate with the agent
        print("\nSending 'start game' message to Elastic A2A agent...")
        random_game_object = random.randint(1, 5)
        msg = create_message(text=f"start with game object {random_game_object}")
        async for event in client.send_message(msg):
            if isinstance(event, Message):
                context_id = event.context_id
                response_complete = event.parts[0].root.text
                # Get agent choice from the first line of the response
                parsed_response = response_complete.split("\n", 1)
                agent_choice = parsed_response[0]
                print(parsed_response[1])
        # User choice sent for game results from the agent
        prompt = input("Your Choice  : ")
        msg = create_message(text=prompt, context_id=context_id)
        async for event in client.send_message(msg):
            if isinstance(event, Message):
                print(f"Agent Choice : {agent_choice}")
                print(event.parts[0].root.text)


if __name__ == "__main__":
    asyncio.run(main())

Repasemos qué está pasando en este código. A partir del método main() , el código comienza accediendo a las variables de entorno para la URL del agente y la clave de API. Luego, usamos esos valores para crear un httpx client que podamos usar para obtener la tarjeta de agente para el agente. El cliente luego usa los detalles de la tarjeta del agente para enviar una solicitud de "iniciar juego" al agente. Un aspecto interesante a tener en cuenta aquí es que incluimos un valor random_game_object como parte de la solicitud "start game". Este valor es un número aleatorio generado con el módulo aleatorio de la biblioteca estándar de Python. La razón para hacerlo es que resulta que los poderosos LLM (que hacen posibles a los agentes de IA) no son muy buenos en la aleatoriedad. No hay problema, Python viene al rescate.

Continuando con la programación, una vez que el agente responde a la solicitud de "iniciar juego", el código elimina la selección del objeto de juego del agente y lo guarda en la variable agent_choice. El resto de la respuesta se muestra como texto para el usuario final. Luego, se le solicita al usuario su entrada de elección de objeto de juego, la cual se envía al agente. El código muestra la elección del objeto del juego del agente junto con la determinación final del agente sobre el resultado del juego.

Establecer la URL de tu agente y la clave de API como variables de entorno

Dado que la app de ejemplo se ejecutará en tu computadora local, para comunicarla con nuestro agente Agent Builder, debemos proporcionar al SDK de Strands Agents una URL A2A y una clave API para el agente. La app de ejemplo emplea un archivo llamado .env para almacenar estos valores.

Haz una copia del archivo env.example y nombra el nuevo archivo .env

Vuelve a Elastic Agent Builder, donde podrás obtener los dos valores que necesitas.

Selecciona Ver todas las herramientas en el menú de acciones de Agent Builder en la parte superior derecha de la página.

Haz clic en el menú desplegable servidor MCP en la parte superior de la página Herramientas y selecciona Copiar URL del servidor MCP.

Pega la URL del servidor MCP en el archivo .env como reemplazo para el valor de marcador de posición . Ahora necesitamos hacer una actualización a la URL, es decir, reemplazar el texto final “mcp” con “a2a” porque el protocolo A2A es lo que usará el Agent Strands SDK para comunicarse con el agente que se ejecuta en Elastic Agent Builder.

La URL editada debería verse así:

https://rps-game-project-12345a.kb.us-east-1.aws.elastic.cloud/api/agent_builder/a2a

El otro valor que necesitamos obtener mientras estamos aquí en Elastic Cloud es una clave API. Haz clic en Elasticsearch en el menú de navegación superior.

Haz clic en el botón Copiar clave API para copiar la clave API.

Ahora, de vuelta en Visual Studio Code, pega la clave API en el archivo .env para reemplazar el texto del marcador de posición . Tu archivo .env debería verse algo así:

Ejecuta la app de ejemplo

Abre una nueva terminal en Visual Studio Code.

Empieza ejecutando el siguiente comando cd en la terminal:

cd elasticsearch-labs/supporting-blog-content/agent-builder-a2a-strands-agents

Ejecuta el siguiente comando para crear un entorno virtual en Python.

python -m venv .venv

Dependiendo del sistema operativo de tu computadora local, ejecuta el siguiente comando para activar el entorno virtual.

MacOS/Linux

source .venv/bin/activate

Windows

.venv\Scripts\activate

La app de ejemplo utiliza Strands Agents SDK, y ahora nos encontramos en el punto de este tutorial en el que debes instalarlo. Ejecuta el siguiente comando para instalar el SDK de Strands Agents junto con todas tus dependencias requeridas de la biblioteca de Python.

pip install -r requirements.txt

Es hora de limpiar la plataforma de lanzamiento y comenzar la cuenta regresiva. Estamos listos para lanzar esta app. Retírate. Vamos a ejecutarla usando el siguiente comando:

python elastic_agent_builder_a2a_rps+.py

Deberías desafiarte con un juego de RPS+. ¡Bien hecho y mucha suerte!

Crea tus apps de IA con contexto relevante

Crear un agente con IA es ahora una habilidad en tu caja de herramientas. Y has visto lo fácil que es usar agentes de Elastic Agent Builder a través de A2A en marcos de trabajo de agentes como Strands Agents SDK. Prueba Elastic para crear agentes de IA conectados al contexto relevante en tus datos personalizados.

Introducción del soporte de Elasticsearch en Google MCP Toolbox for Databases

Enrico Zimuel, Laurent Saint-Félix — Fri, 12 Dec 2025 00:00:00 GMT

En este artículo, explicaremos cómo usar Google MCP Toolbox con Elasticsearch para crear una herramienta sencilla que permita extraer información de un índice de Elasticsearch.

Recientemente contribuimos al proyecto open source Google MCP Toolbox for Databases agregando soporte para Elasticsearch como base de datos.

Con esta nueva característica, ahora puedes usar Google MCP Toolbox para conectarte a Elasticsearch y “conversar” directamente con tus datos.

Elasticsearch

Es necesario tener una instancia de Elasticsearch en funcionamiento. Puedes activar una prueba gratuita en Elastic Cloud o instalarla localmente utilizando el script start-local:

curl -fsSL https://elastic.co/start-local | sh

Esto instalará Elasticsearch y Kibana en tu computadora y generará una clave API que se utilizará para configurar Google MCP Toolbox.

La clave de API se mostrará como salida del comando anterior y se almacenará en un archivo .env. en la carpeta elastic-start-local.

Instala el set de datos de ejemplo

Tras la instalación, puedes iniciar sesión en Kibana con el nombre de usuario elastic y la contraseña generada por el script start-local (almacenada en un archivo .env).

Puedes instalar el conjunto de datos de pedidos de comercio electrónico disponible desde Kibana. Incluye un único índice llamado kibana_sample_data_ecommerce que contiene información sobre 4675 pedidos de un sitio web de comercio electrónico. Para cada pedido, tenemos la siguiente información:

Información del cliente (nombre, identificación, fecha de nacimiento, correo electrónico, etc.)
Fecha del pedido
ID de pedido
Productos (lista de todos los productos con precio, cantidad, identificación, categoría, descuento, etc.)
SKU
Precio total (sin impuestos, con impuestos)
Cantidad total
Información geográfica (ciudad, país, continente, ubicación, región)

Para instalar los datos de muestra, abre la página Integraciones en Kibana (busca “Integración” en la barra superior de búsqueda) e instala los “Datos de muestra”. Para obtener más detalles, consulta la documentación aquí: https://www.elastic.co/docs/explore-analyze/#gs-get-data-into-kibana.

El objetivo de este artículo es mostrar lo fácil que es configurar Google MCP Toolbox para conectarse a Elasticsearch e interactuar con el índice de kibana_sample_data_ecommerce usando lenguaje natural.

Google MCP Toolbox

Google MCP Toolbox es un servidor MCP open source diseñado para facilitar la interacción segura y eficiente de aplicaciones y agentes de IA con bases de datos. El proyecto, anteriormente conocido como el “GenAI Toolbox for Databases”, cambió su denominación después de adoptar la compatibilidad total con el Protocolo de contexto de modelo (MCP). Su propósito es eliminar el trabajo pesado que tradicionalmente se requiere al conectar agentes con bases de datos, gestionando la agrupación de conexiones, autenticación, observabilidad y otras preocupaciones operativas en segundo plano.

Esencialmente, Toolbox permite a los desarrolladores definir herramientas reutilizables de alto nivel que encapsulan las interacciones con la base de datos. Estas herramientas pueden ser invocadas por cualquier cliente compatible con MCP (como un agente de IA) sin requerir que el cliente implemente consultas SQL de bajo nivel o administre conexiones de base de datos. Este enfoque reduce drásticamente la cantidad de código repetitivo necesario para crear agentes compatibles con bases de datos, lo que permite integrar operaciones de datos avanzadas en solo unas pocas líneas de lógica de aplicación. Una vez definida una herramienta, se puede compartir entre varios agentes, marcos de trabajo o lenguajes (Figura 1).

Una de las ventajas principales de usar la Toolbox es el modelo de seguridad integrado. Los flujos de autenticación como OAuth2 y OIDC son compatibles de forma nativa, lo que permite a los desarrolladores evitar manejar o almacenar credenciales confidenciales de bases de datos en agentes. La plataforma también ofrece características de observabilidad (como métricas y rastreo) a través de OpenTelemetry, que es esencial para la depuración, la supervisión y los despliegues de producción. En conjunto, MCP Toolbox sirve como una interfaz unificada, segura y extensible para interactuar con tus datos desde cualquier sistema compatible con MCP.

Cómo instalar MCP Toolbox

Puedes instalar el servidor MCP Toolbox en Linux usando el siguiente comando:

export VERSION=0.21.0
curl -L -o toolbox https://storage.googleapis.com/genai-toolbox/v$VERSION/linux/amd64/toolbox
chmod +x toolbox

Si quieres instalarlo en macOS o Windows, puedes seguir las instrucciones detalladas aquí.

Configura la Toolbox para Elasticsearch

Para configurar el MCP Toolbox para Elasticsearch, necesitamos crear un archivo tools.yaml, de la siguiente manera:

sources:
  my-cluster:
    kind: elasticsearch
    addresses:
      - http://localhost:9200
    apikey: 

tools:
  customer-orders:
    kind: elasticsearch-esql
    source: my-cluster
    description: Get the orders made by a customer identified by name.
    query: |
    	FROM kibana_sample_data_ecommerce | WHERE MATCH(customer_full_name, ?name, {"operator": "AND"})
    parameters:
      - name: name
        type: string
        description: The customer name.

toolsets:
  elasticsearch-tools:
    - customer-orders

Debes reemplazar el valor por una clave API válida de Elasticsearch. Si estás ejecutando Elasticsearch localmente usando start-local, puedes encontrar la clave de API en el archivo.env generado por start-local, bajo la variable ES_LOCAL_API_KEY . Si usas Elastic Cloud, puedes generar una clave API siguiendo el procedimiento descrito aquí.

Las herramientas anteriores contienen la siguiente consulta ES|QL para Elasticsearch:

FROM kibana_sample_data_ecommerce | WHERE MATCH(customer_full_name, ?name)

Si no estás familiarizado con ES|QL, es un lenguaje de búsqueda desarrollado por Elastic, similar a SQL, que puedes usar para buscar en uno o más índices. Puedes leer más sobre ES|QL en la documentación oficial aquí.

La búsqueda anterior busca todos los pedidos almacenados en el índice kibana_sample_data_ecommerce que contienen el nombre del cliente especificado, usando el parámetro ?name (el signo de interrogación indica un parámetro).

El nombre del cliente se define en la configuración YAML anterior empleando el texto de tipo y la descripción "El nombre del cliente".

Esta herramienta se puede usar para responder preguntas sobre los pedidos de un cliente, por ejemplo: ¿Cuántos pedidos realizó el cliente Foo en octubre de 2025?

Las descripciones de las herramientas y sus parámetros son esenciales para extraer la información relevante de la solicitud en lenguaje natural del usuario. Esta extracción se realiza utilizando la capacidad de llamada de función de un modelo de lenguaje grande (LLM). En la práctica, un LLM puede determinar qué función (herramienta) debe ejecutar para obtener la información necesaria, junto con los parámetros apropiados para esa función.

Para más información sobre las llamadas a funciones, sugerimos leer el artículo de OpenAI sobre llamadas a funciones con Elasticsearch de Ashish Tiwari.

Ejecuta el servidor de Toolbox

Puedes ejecutar la MCP Toolbox usando el archivo tools.yaml anterior con el siguiente comando:

./toolbox --tools-file tools.yaml --ui

El parámetro –ui ejecuta una aplicación sitio web en http://127.0.0.1:5000/ui (Figura 2).

Puedes seleccionar la Herramientas > pedidos-clientes e insertar un nombre de cliente en el parámetro nombre (por ejemplo, Gwen Sanders) y haz clic en el botón Ejecutar herramienta. Deberías ver una respuesta JSON como se indica en la Figura 3.

La configuración se ha completado y MCP Toolbox puede ejecutar la herramienta de pedidos de clientes para comunicarse con Elasticsearch, ejecutando la consulta ES|QL.

Usar la herramienta MCP Toolbox con Gemini CLI

Podemos usar cualquier cliente del MCP para comunicarnos con MCP Toolbox for Database. Por ejemplo, podemos usar Gemini CLI, una herramienta de línea de comandos, para usar Gemini. Puedes instalar Gemini CLI siguiendo las instrucciones indicadas aquí.

Gemini CLI ofrece una extensión preconfigurada para MCP Toolbox, disponible en gemini-cli-extensions/mcp-toolbox. Puedes instalar esta extensión ejecutando el comando siguiente:

gemini extensions install https://github.com/gemini-cli-extensions/mcp-toolbox

Tras la instalación, debes ir al directorio donde almacenaste el archivo de configuración tools.yaml para MCP Toolbox y ejecutar la CLI Gemini de la siguiente manera (este paso es necesario para que la CLI Gemini se configure automáticamente con MCP Toolbox):

gemini

Deberías ver un anuncio de salida como el que se muestra en la Figura 4.

Puedes comprobar si MCP Toolbox está conectada usando el siguiente comando:

/mcp list

Deberías ver el mcp_toolbox con las herramientas de customer-orders listadas (Figura 5).

Si el MCP Toolbox está conectado a la CLI de Gemini, ahora podemos intentar hacer algunas preguntas, como: “Dame los pedidos del cliente Gwen Sanders”. La CLI de Gemini solicitará entonces permiso para ejecutar la herramienta de pedidos de clientes desde el servidor mcp_toolbox (ver Figura 6).

Tras la confirmación, Gemini CLI ejecutará la solicitud a MCP Toolbox, obteniendo una respuesta JSON como resultado y utilizándola para dar formato a la respuesta (Figura 7).

La respuesta de Gemini CLI será un reporte que indica que Gwen Sanders hizo solo un pedido de 2 productos, por un precio total de 132 euros.

SDK de MCP Toolbox

Google MCP Toolbox también ofrece un SDK para acceder a todas las funcionalidades desde un programa escrito en Go, Python y Javascript.

Por ejemplo, el SDK de Python está disponible en Github en la siguiente página: https://github.com/googleapis/mcp-toolbox-sdk-python.

Es necesario crear un agente simple para conectarnos a MCP Toolbox. Debemos instalar los siguientes paquetes:

pip install toolbox-core
pip install google-adk

Además, crear un nuevo proyecto de agente usando los siguientes comandos:

adk create my_agent

Esto creará un nuevo directorio llamado my_agent con un archivo agent.py.

Actualiza my_agent/agent.py con el siguiente contenido para conectar con Toolbox:

from google.adk import Agent
from google.adk.apps import App
from toolbox_core import ToolboxSyncClient

client = ToolboxSyncClient("http://127.0.0.1:5000")

root_agent = Agent(
    name='root_agent',
    model='gemini-2.5-flash',
    instruction="You are a helpful AI assistant designed to search information about a dataset of ecommerce orders.",
    tools=client.load_toolset(),
)

app = App(root_agent=root_agent, name="my_agent")

Crea un archivo .env con tu clave de API de Google:

echo 'GOOGLE_API_KEY="YOUR_API_KEY"' > my_agent/.env

Finalmente, podemos ejecutar el agente y observar los resultados. Para ejecutar el agente, puedes ejecutar el siguiente comando:

adk run my_agent

O bien, puedes servirlo a través de una interfaz web:

adk web --port 8000

En ambos casos, puedes interactuar con MCP Toolbox usando una interfaz de preguntas frecuentes. Por ejemplo, puedes hacer la pregunta anterior: Dame las órdenes de la cliente Gwen Sanders.

Para más información sobre los diferentes SDK, puedes consultar esta página de documentación.

Conclusión

En este artículo, hemos mostrado la integración de Elasticsearch con Google MCP Toolbox for Databases. Mediante un sencillo archivo de configuración YAML, podemos definir un conjunto de herramientas que traducen preguntas en lenguaje natural a consultas de Elasticsearch utilizando el lenguaje ES|QL.

Mostramos cómo interactuar con el set de datos kibana_sample_data_ecommerce, que contiene pedidos de un sitio web de comercio electrónico. Con este archivo de configuración, podemos simplemente ejecutar el servidor MCP Toolbox y conectarnos a él desde cualquier cliente MCP.

Por último, mostramos cómo utilizar la CLI de Gemini como cliente para conectarse a MCP Toolbox for Databases y consultar los datos de comercio electrónico almacenados en Elasticsearch. Ejecutamos una consulta en lenguaje natural para recuperar información sobre pedidos para un cliente específico identificado por su nombre.

A medida que el ecosistema MCP sigue creciendo, este patrón (definiciones ligeras de herramientas respaldadas por infraestructuras seguras y listas para producción) crea nuevas oportunidades para construir agentes cada vez más capaces y conscientes de los datos con un esfuerzo mínimo. Ya sea que experimentes localmente con los sets de datos de muestra de Elastic o integres capacidades de búsqueda en una aplicación más amplia, MCP Toolbox ofrece una base fiable y extensible para interactuar con tus datos de Elasticsearch usando lenguaje natural.

Para obtener más información sobre el desarrollo de aplicaciones de IA agentic, puedes leer el artículo Creación de flujos de trabajo de IA agentic con Elasticsearch de Anish Mathur y Dana Juratoni.

Para obtener más información sobre Google MCP Toolbox, puedes visitar https://googleapis.github.io/genai-toolbox/getting-started/introduction/.

Evaluación de la relevancia de las consultas de búsqueda con listas de evaluaciones

Jhon Guzmán — Thu, 11 Dec 2025 00:00:00 GMT

Los desarrolladores que trabajan en motores de búsqueda a menudo se encuentran con el mismo problema: el equipo empresarial no está satisfecho con una búsqueda concreta porque los documentos que esperan que estén en la parte superior de los resultados de búsqueda aparecen en tercer o cuarto lugar en la lista de resultados.

Sin embargo, cuando solucionas este problema, accidentalmente rompes otras consultas porque no pudiste probar todos los casos manualmente. Pero, ¿cómo puedes tú o tu equipo de control de calidad comprobar si un cambio en una consulta tiene un efecto dominó en otras consultas? O aún más importante, ¿cómo puedes estar seguro de que tus cambios realmente mejoraron una consulta?

Hacia una evaluación sistemática

Aquí es donde las listas de evaluación resultan útiles. En lugar de depender de pruebas manuales y subjetivas cada vez que realices un cambio, puedes definir un conjunto fijo de búsquedas que sean relevantes para tu caso de negocio, junto con sus resultados relevantes.

Este conjunto se convierte en tu referencia. Cada vez que implementas un cambio, lo utilizas para evaluar si tu búsqueda realmente mejoró o no.

El valor de este enfoque radica en que:

Elimina la incertidumbre: ya no necesitas preguntarte si tus cambios afectan a otras consultas; los datos te lo dirán.
Detiene las pruebas manuales: una vez que se registran los conjuntos de evaluación, la prueba es automática.
Soporta cambios: puedes mostrar métricas claras que respaldan los beneficios de un cambio.

Cómo empezar a crear tu lista de evaluaciones

Una de las maneras más fáciles de comenzar es tomar una búsqueda representativa y seleccionar manualmente los documentos relevantes. Hay dos formas de hacer esta lista:

Evaluaciones binarias: cada documento asociado con una búsqueda recibe una etiqueta simple: relevante (generalmente con una puntuación de “1”) y no relevante (“0”).
Evaluaciones graduadas: aquí, cada documento obtiene una puntuación con diferentes niveles. Por ejemplo: establecer un escala de 0 a 4, similar a un escala Likert, donde 0 = “nada relevante” y 4 = “totalmente relevante”, con variaciones como “relevante”, “algo relevante”, etc.

Los juicios binarios funcionan bien cuando la intención de búsqueda tiene límites claros: ¿Debería este documento estar en los resultados o no?

Las evaluaciones graduadas son más útiles cuando hay áreas grises: algunos resultados son mejores que otros, así que puedes obtener resultados “muy buenos”, “buenos” e “inútiles” y usar métricas que valoren el orden de los resultados y los comentarios del usuario. Sin embargo, las escalas graduadas también presentan inconvenientes: diferentes revisores pueden usar los niveles de puntuación de manera diferente, lo que hace que las evaluaciones sean menos consistentes. Y debido a que las métricas graduadas dan más peso a las puntuaciones más altas, incluso un pequeño cambio (como calificar algo con un 3 en lugar de un 4) puede crear un cambio mucho mayor en la métrica de lo que el revisor pretendía. Esta subjetividad añadida hace que las evaluaciones graduadas sean más complicadas y difíciles de manejar con el tiempo.

¿Necesito clasificar los documentos por mi cuenta?

No necesariamente, ya que hay diferentes formas de crear tu lista de evaluaciones, cada una con sus propias ventajas y desventajas:

Evaluaciones explícitas: aquí, los expertos revisan cada búsqueda/documento y deciden manualmente si es relevante (o qué tan relevante es). Si bien esto proporciona calidad y control, tiene menos escalabilidad.
Evaluaciones implícitas: con este método, infieres los documentos relevantes en función del comportamiento real del usuario, como clics, tasa de rebote y compras, entre otros. Este enfoque te permite recopilar datos automáticamente, aunque puede estar sesgado. Por ejemplo, los usuarios tienden a hacer clic en los primeros resultados con más frecuencia, incluso si no son relevantes.
Evaluaciones generadas por IA: esta última opción utiliza modelos (como LLM) para evaluar automáticamente consultas y documentos, a menudo referidos como jurados de LLM. Es rápido y fácil de escalar, pero la calidad de los datos depende de la calidad del modelo que estés utilizando y de qué tan bien los datos de entrenamiento de LLM se alinean con tus intereses comerciales. Al igual que con las calificaciones humanas, los jurados LLM pueden introducir sus propios sesgos o inconsistencias, por lo que es importante validar su salida contra un conjunto más pequeño de evaluaciones confiables. Los modelos LLM son probabilísticos por naturaleza, por lo que no es raro ver un modelo LLM dando diferentes calificaciones al mismo resultado independientemente de que el parámetro de temperatura sea 0.

A continuación, se incluyen algunas recomendaciones para elegir el mejor método para crear tu conjunto de evaluaciones:

Decide cuán importantes son para ti algunas características que solo los usuarios puedan juzgar correctamente (como precio, marca, idioma, estilo y detalles del producto). Si esos son críticos, necesitas evaluaciones explícitas para al menos alguna parte de tu lista de evaluaciones.
Usa evaluaciones implícitas cuando tu motor de búsqueda ya tenga suficiente tráfico para que puedas usar clics, conversiones y métricas de tiempo persistente para detectar tendencias de uso. Aun así, deberías interpretarlos con cuidado, contrastándolos con tus evaluaciones explícitas para prevenir sesgos (por ejemplo: los usuarios tienden a hacer clic más a menudo en los resultados mejor clasificados, incluso si los de menor rango son más relevantes)

Para abordar esto, las técnicas de eliminación del sesgo de posición ajustan o reponderan los datos de clics para reflejar mejor el verdadero interés del usuario. Algunos enfoques incluyen:

Reordenación de resultados: cambia el orden de los resultados de búsqueda para un subconjunto de usuarios con el fin de estimar cómo afecta la posición a los clics.
Los modelos de clics incluyen la red bayesiana dinámica (DBN) y el modelo de navegación del usuario (UBM). Estos modelos estadísticos estiman la probabilidad de que un clic refleje un interés real en lugar de solo la posición, utilizando patrones como el desplazamiento, el tiempo de permanencia, la secuencia de clics y el retorno a la página de resultados.

Ejemplo: app de valoración de películas

Requisitos previos

Para ejecutar este ejemplo, necesitas un cluster Elasticsearch 8.x en funcionamiento, localmente o Elastic Cloud Hosted (alojado o sin servidor), y acceso a la API REST o Kibana.

Imagina una app en la que los usuarios puedan realizar el monitoreo de tiempo de actividad de sus opiniones sobre películas y también hacer una búsqueda de películas para ver. Como los textos son escritos por los propios usuarios, pueden contener errores tipográficos y muchas variaciones en cuanto a la expresión. Por eso es fundamental que el motor de búsqueda sea capaz de interpretar esa diversidad y ofrecer resultados útiles para los usuarios.

Para poder repetir consultas sin afectar el comportamiento general de búsqueda, el equipo de negocios de tu empresa creó el siguiente conjunto de evaluaciones binarias, basado en las búsquedas más frecuentes:

Búsqueda	DocID	Texto
Actuación de DiCaprio	doc1	La actuación de DiCaprio en El renacido fue impresionante.
Actuación de DiCaprio	doc2	El origen muestra a Leonardo DiCaprio en uno de sus papeles más icónicos.
Actuación de DiCaprio	doc3	Brad Pitt ofrece una actuación estable en este thriller policial.
Actuación de DiCaprio	doc4	Una aventura llena de acción con impresionantes efectos visuales.
películas tristes que te hacen llorar	doc5	Una historia desgarradora de amor y pérdida que me hizo llorar durante horas.
películas tristes que te hacen llorar	doc6	Una de las películas más tristes de todos los tiempos: ¡trae pañuelos!
películas tristes que te hacen llorar	doc7	Una comedia ligera que te hará reír
películas tristes que te hacen llorar	doc8	Una epopeya de ciencia ficción llena de acción y emoción.

Creación del índice:

PUT movies
{
  "mappings": {
    "properties": {
      "text": {
        "type": "text"
      }
    }
  }
}

Solicitud en masa:

POST /movies/_bulk
{ "index": { "_id": "doc1" } }
{ "text": "DiCaprio performance in The Revenant was breathtaking." }
{ "index": { "_id": "doc2" } }
{ "text": "Inception shows Leonardo DiCaprio in one of his most iconic roles." }
{ "index": { "_id": "doc3" } }
{ "text": "Brad Pitt delivers a solid performance in this crime thriller." }
{ "index": { "_id": "doc4" } }
{ "text": "An action-packed adventure with stunning visual effects." }
{ "index": { "_id": "doc5" } }
{ "text": "A heartbreaking story of love and loss that made me cry for hours." }
{ "index": { "_id": "doc6" } }
{ "text": "One of the saddest movies ever made -- bring tissues!" }
{ "index": { "_id": "doc7" } }
{ "text": "A lighthearted comedy that will make you laugh." }
{ "index": { "_id": "doc8" } }
{ "text": "A science-fiction epic full of action and excitement." }

A continuación se muestra la consulta Elasticsearch que emplea la app:

GET movies/_search
{
 "query": {
   "match": {
     "text": {
       "query": "DiCaprio performance",
       "minimum_should_match": "100%"
     }
   }
 }
}

De juicio a métricas

Por sí solas, las listas de evaluaciones no proporcionan mucha información; son solo una expectativa de los resultados de nuestras consultas. Donde realmente destacan es cuando los usamos para calcular métricas objetivo que midan nuestro rendimiento en búsqueda.

Actualmente, la mayoría de las métricas populares incluyen

Precisión: mide la proporción de resultados que son realmente relevantes dentro de todos los resultados de búsqueda.
Recuperación: mide la proporción de resultados relevantes que el motor de búsqueda encontró entre x resultados.
Ganancia acumulada descontada (DCG): mide la calidad de la clasificación del resultado, considerando que los resultados más relevantes deben estar en la parte superior.
Rango recíproco medio (MRR): mide la posición del primer resultado relevante. Cuanto más alto estés en la lista, mayor será tu puntuación.

Usando la misma app de clasificación de películas como ejemplo, calcularemos la métrica de recuperación para ver si hay alguna información que se esté excluyendo de nuestras consultas.

En Elasticsearch, podemos usar las listas de evaluaciones para calcular métricas mediante la API de Evaluación de Rankings. Esta API recibe como entrada la lista de evaluaciones, la consulta y la métrica que deseas evaluar, y devuelve un valor, que es una comparación del resultado de la consulta con la lista de evaluaciones.

Vamos a ejecutar la lista de evaluaciones para las dos consultas que tenemos:

POST /movies/_rank_eval
{
 "requests": [
   {
     "id": "dicaprio-performance",
     "request": {
       "query": {
         "match": {
           "text": {
             "query": "DiCaprio performance",
             "minimum_should_match": "100%"
           }
         }
       }
     },
     "ratings": [
       {
         "_index": "movies",
         "_id": "doc1",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc2",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc3",
         "rating": 0
       },
       {
         "_index": "movies",
         "_id": "doc4",
         "rating": 0
       }
     ]
   },
   {
     "id": "sad-movies",
     "request": {
       "query": {
         "match": {
           "text": {
             "query": "sad movies that make you cry",
             "minimum_should_match": "100%"
           }
         }
       }
     },
     "ratings": [
       {
         "_index": "movies",
         "_id": "doc5",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc6",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc7",
         "rating": 0
       },
       {
         "_index": "movies",
         "_id": "doc8",
         "rating": 0
       }
     ]
   }
 ],
 "metric": {
   "recall": {
     "k": 10,
     "relevant_rating_threshold": 1
     }
 }
}

Usaremos dos solicitudes para _rank_eval: una para la búsqueda de DiCaprio y otra para películas tristes. Cada solicitud incluye una búsqueda y su lista de evaluaciones (calificaciones). No necesitamos calificar todos los documentos ya que los que no se incluyen en las calificaciones se consideran sin evaluación. Para realizar los cálculos, recuerda que la recuperación solo considera “el conjunto relevante”, los documentos que se consideran relevantes en la clasificación.

En este caso, la búsqueda de DiCaprio tiene una recuperación de 1, mientras que las películas tristes obtuvieron 0. Esto significa que para la primera búsqueda, pudimos obtener todos los resultados relevantes, mientras que en la segunda búsqueda, no obtuvimos ninguno. Por tanto, la recuperación medio es de 0,5.

{
 "metric_score": 0.5,
 "details": {
   "dicaprio-performance": {
     "metric_score": 1,
     "unrated_docs": [],
     "hits": [
       {
         "hit": {
           "_index": "movies",
           "_id": "doc1",
           "_score": 2.4826927
         },
         "rating": 1
       },
       {
         "hit": {
           "_index": "movies",
           "_id": "doc2",
           "_score": 2.0780432
         },
         "rating": 1
       }
     ],
     "metric_details": {
       "recall": {
         "relevant_docs_retrieved": 2,
         "relevant_docs": 2
       }
     }
   },
   "sad-movies": {
     "metric_score": 0,
     "unrated_docs": [],
     "hits": [],
     "metric_details": {
       "recall": {
         "relevant_docs_retrieved": 0,
         "relevant_docs": 2
       }
     }
   }
 },
 "failures": {}
}

Tal vez estamos siendo demasiado estrictos con el parámetro minimum_should_match ya que al exigir que el 100 % de las palabras en la consulta se encuentren en los documentos, probablemente estamos excluyendo resultados relevantes. Eliminemos el parámetro minimum_should_match para que un documento se considere relevante si solo se encuentra una palabra de la consulta en él.

POST /movies/_rank_eval
{
 "requests": [
   {
     "id": "dicaprio-performance",
     "request": {
       "query": {
         "match": {
           "text": {
             "query": "DiCaprio performance"
           }
         }
       }
     },
     "ratings": [
       {
         "_index": "movies",
         "_id": "doc1",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc2",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc3",
         "rating": 0
       },
       {
         "_index": "movies",
         "_id": "doc4",
         "rating": 0
       }
     ]
   },
   {
     "id": "sad-movies",
     "request": {
       "query": {
         "match": {
           "text": {
             "query": "sad movies that make you cry"
           }
         }
       }
     },
     "ratings": [
       {
         "_index": "movies",
         "_id": "doc5",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc6",
         "rating": 1
       },
       {
         "_index": "movies",
         "_id": "doc7",
         "rating": 0
       },
       {
         "_index": "movies",
         "_id": "doc8",
         "rating": 0
       }
     ]
   }
 ],
 "metric": {
   "recall": {
     "k": 10,
     "relevant_rating_threshold": 1
     }
 }
}

Como puedes ver, al eliminar el parámetro minimum_should_match en una de las dos consultas, ahora obtenemos una recuperación promedio de 1 en ambas.

{
  "metric_score": 1,
  "details": {
    "dicaprio-performance": {
      "metric_score": 1,
      "unrated_docs": [],
      "hits": [
        {
          "hit": {
            "_index": "movies",
            "_id": "doc1",
            "_score": 2.0661702
          },
          "rating": 1
        },
        {
          "hit": {
            "_index": "movies",
            "_id": "doc3",
            "_score": 0.732218
          },
          "rating": 0
        },
        {
          "hit": {
            "_index": "movies",
            "_id": "doc2",
            "_score": 0.6271719
          },
          "rating": 1
        }
      ],
      "metric_details": {
        "recall": {
          "relevant_docs_retrieved": 2,
          "relevant_docs": 2
        }
      }
    },
    "sad-movies": {
      "metric_score": 1,
      "unrated_docs": [],
      "hits": [
        {
          "hit": {
            "_index": "movies",
            "_id": "doc7",
            "_score": 2.1307156
          },
          "rating": 0
        },
        {
          "hit": {
            "_index": "movies",
            "_id": "doc5",
            "_score": 1.3160692
          },
          "rating": 1
        },
        {
          "hit": {
            "_index": "movies",
            "_id": "doc6",
            "_score": 1.190063
          },
          "rating": 1
        }
      ],
      "metric_details": {
        "recall": {
          "relevant_docs_retrieved": 2,
          "relevant_docs": 2
        }
      }
    }
  },
  "failures": {}
}

En resumen, al eliminar la cláusula minimum_should_match: 100%, podemos obtener una recuperación perfecta para ambas búsquedas.

¡Lo logramos! ¿Cierto?

¡No tan rápido!

Al mejorar la memoria, abrimos la puerta a un rango más amplio de resultados. Sin embargo, cada ajuste implica una compensación. Por esto es importante definir casos de prueba completos, utilizando diferentes métricas para evaluar los cambios.

El uso de listas de evaluaciones y métricas previene que hagas cambios a ciegas, ya que ahora tienes datos para respaldarlos. La validación ya no es manual y repetitiva, y puedes probar tus cambios en más de un caso de uso. Además, las pruebas A/B te permiten probar en tiempo real qué configuración funciona mejor para tus usuarios y tu caso de negocio, cerrando así la brecha entre métricas técnicas y métricas reales.

Recomendaciones finales para el uso de listas de evaluaciones

Trabajar con listas de evaluaciones no solo consiste en medir, sino también en crear un marco de trabajo que te permita iterar con confianza. Para lograr esto, puedes seguir estas recomendaciones:

Empieza poco a poco, pero empieza. No es necesario que tengas 10 000 consultas con 50 listas de evaluaciones cada una. Solo necesitas identificar las 5 a 10 consultas más críticas para tu caso de negocio y definir qué documentos esperas ver en la parte superior de los resultados. Esto ya te da una base. Por lo general, te conviene comenzar con las consultas principales y las consultas sin resultados. También puedes comenzar a probar con una métrica fácil de configurar como Precisión y luego ir aumentando la complejidad.
Valida con los usuarios. Complementa los números con pruebas A/B en producción. De esta manera, sabrás si los cambios que se ven bien en las métricas también están generando un impacto real.
Haz un mantenimiento de la lista. Tu caso de negocio evolucionará, y también lo harán tus consultas críticas. Actualiza tu evaluación de forma periódica para reflejar las necesidades nuevas.
Haz que sea parte del flujo. Integra listas de evaluaciones en tus pipelines de desarrollo. Asegúrate de que cada cambio de configuración, sinónimo o análisis de texto se valide automáticamente contra tu lista base.
Conecta conocimientos técnicos con estrategia. No te limites a medir parámetros técnicos como la precisión o la recuperación. Usa tus resultados de la evaluación para influir en los resultados comerciales.

Construye un flujo de trabajo de búsqueda de IA financiera utilizando LangGraph.js y Elasticsearch

Jeffrey Rengifo — Fri, 05 Dec 2025 00:00:00 GMT

Construir aplicaciones de búsqueda con IA suele implicar la coordinación de múltiples tareas, la recuperación de datos y la extracción de datos en un flujo de trabajo sin problemas. LangGraph simplifica este proceso permitiendo a los desarrolladores orquestar agentes de IA mediante una estructura basada en nodes. En este artículo, explicaremos cómo construir una solución financiera usando LangGraph.js

¿Qué es LangGraph?

LangGraph es un marco de trabajo para construir agentes de IA y orquestarlos en un flujo de trabajo para crear aplicaciones asistidas por IA. LangGraph tiene una arquitectura de nodes donde podemos declarar funciones que representan tareas y asignarlas como nodes del flujo de trabajo. El resultado de la interacción de varios nodes será un grafo. LangGraph es parte del ecosistema más amplio LangChain, que proporciona herramientas para construir sistemas de IA modulares y componibles.

Para explicar mejor por qué LangGraph es útil, vamos a usarlo para resolver una situación problemática.

Visión general de la solución

En una firma de capital de riesgo, los inversores tienen acceso a una gran base de datos con muchas opciones de filtrado, pero cuando uno quiere combinar criterios, se vuelve difícil y lento. Esto puede hacer que algunas iniciativas relevantes no se encuentren para la inversión. Además, implica pasar muchas horas intentando identificar a los mejores candidatos, o incluso perder oportunidades.

Con LangGraph y Elasticsearch, podemos realizar búsquedas filtradas utilizando lenguaje natural, eliminando la necesidad de que los usuarios construyan manualmente solicitudes complejas con docenas de filtros. Para hacerlo más flexible, el flujo de trabajo decide automáticamente (basándose en la entrada del usuario) entre dos tipos de consulta:

Consultas centradas en la inversión: estas se dirigen a aspectos financieros y de financiación de las startups, como rondas de financiación, valoración o ingresos. Ejemplo: “Encuentra startups con financiamiento Serie A o Serie B entre $8M y $25M e ingresos mensuales superiores a $500K”.
Consultas centradas en el mercado: estas se concentran en verticales de la industria, mercados geográficos o modelos de negocio, ayudando a identificar oportunidades en sectores o regiones específicos. Ejemplo: “Encuentra startups de fintech y salud en San Francisco, Nueva York o Boston”.

Para mantener la solidez de las consultas, haremos que el LLM cree plantillas de búsqueda en lugar de consultas DSL completas. De esta manera, siempre obtienes la consulta que deseas, y el LLM solo tiene que completar los espacios en blanco y no cargar con la responsabilidad de construir la consulta que necesitas cada vez.

Lo que necesitas para comenzar

Clave de API de Elasticsearch
Clave de API de OpenAPI
Node 18 o más reciente

Instrucciones paso a paso

En esta sección, mostramos cómo se verá la app. Para ello, emplearemos TypeScript, un superconjunto de JavaScript que agrega tipos estáticos para hacer el código más fiable, fácil de mantener y seguro, detectando errores pronto mientras se mantiene totalmente compatible con el JavaScript existente.

El flujo de los nodos será el siguiente:

La imagen de arriba es generada por LangGraph y representa el flujo de trabajo que define el orden de ejecución y la lógica condicional entre nodos:

decideStrategy: utiliza un LLM para analizar la consulta del usuario y decidir entre dos estrategias de búsqueda especializadas, como centrada en la inversión u orientada al mercado.
prepareInvestmentSearch: extrae valores de filtro de la consulta y construye una plantilla predefinida que destaca los parámetros financieros y de financiación.
prepareMarketSearch: extrae también los valores del filtro, pero construye dinámicamente parámetros que enfatizan el mercado, la industria y el contexto geográfico.
executeSearch: envía la consulta construida a Elasticsearch usando una plantilla de búsqueda y recupera los documentos de startups correspondientes.
visualizarResultados: formatea los resultados finales en un resumen claro y legible que muestre atributos clave de la startup, como financiación, industria e ingresos.

Este flujo incluye una ramificación condicional, que funciona como una declaración “si” que determina si se debe usar la ruta de búsqueda de inversión o de mercado según la entrada del usuario. Esta lógica de decisión, impulsada por el LLM, hace que el flujo de trabajo sea adaptativo y consciente del contexto, un mecanismo que exploraremos con más detalle en las siguientes secciones.

Estado de LangGraph

Antes de ver cada node individualmente, necesitamos entender cómo se comunican y comparten datos. Para ello, LangGraph nos permite definir el estado del flujo de trabajo. Esto define el estado compartido que se pasará entre los nodes.

El estado actúa como un contenedor compartido que almacena datos intermedios a lo largo del flujo de trabajo: comienza con la consulta en lenguaje natural del usuario, luego guarda la estrategia de búsqueda seleccionada, los parámetros preparados para Elasticsearch, los resultados de búsqueda recuperados y, finalmente, la salida formateada.

Esta estructura permite que cada node lea y actualice el estado, asegurando un flujo coherente de información desde la entrada del usuario hasta la visualización final.

const VCState = Annotation.Root({
  input: Annotation(), // User's natural language query
  searchStrategy: Annotation(), // Search strategy chosen by LLM
  searchParams: Annotation(), // Prepared search parameters
  results: Annotation(), // Search results
  final: Annotation(), // Final formatted response
});

Configure la aplicación

Todo el código de esta sección se puede encontrar en el repositorio elasticsearch-labs.

Abra un terminal en la carpeta donde estará la app e inicialice una aplicación Node.js con el comando:

npm init -y

Ahora podemos instalar las dependencias necesarias para este proyecto:

npm install @elastic/elasticsearch @langchain/langgraph @langchain/openai @langchain/core dotenv zod && npm install --save-dev @types/node tsx typescript

@elastic/elasticsearch: nos ayuda a gestionar las solicitudes de Elasticsearch, como la ingesta y la recuperación de datos.
@langchain/langgraph: Dependencia de JS para proporcionar todas las herramientas de LangGraph.
@langchain/openai: cliente de OpenAI LLM para LangChain.
@langchain/core: proporciona los bloques fundamentales del núcleo para las apps de LangChain, incluidas las plantillas de prompts.
dotenv: dependencia necesaria para usar variables de entorno en JavaScript.
zod: dependencia para escribir datos.

@types/node tsx typescript nos permite escribir y ejecutar código TypeScript.

Ahora crea los siguientes archivos:

elasticsearchSetup.ts: creará los mapping de índice, cargará el conjunto de datos desde un archivo JSON e ingerirá los datos en Elasticsearch.
main.ts: incluirá la aplicación LangGraph.
.env: archivo para almacenar las variables de entorno

En el archivo .env, agreguemos las siguientes variables de entorno:

ELASTICSEARCH_ENDPOINT="your-endpoint-here"
ELASTICSEARCH_API_KEY="your-key-here"
OPENAI_API_KEY="your-key-here"

La clave API de OpenAPI no se usará directamente en el código; en su lugar, se usará internamente por la biblioteca @langchain/openai.

Toda la lógica relacionada con la creación de mapping, la creación de plantillas de búsqueda y la ingesta de sets de datos se encuentra en el archivo elasticsearchSetup.ts. En los próximos pasos, nos centraremos en el archivo main.ts . Además, puedes consultar los sets de datos para entender mejor cómo se ven los datos en el dataset.json.

Aplicación LangGraph

En el archivo main.ts, vamos a importar algunas dependencias necesarias para consolidar la aplicación LangGraph. En este archivo, también debes incluir las funciones del node y la declaración de estado. La declaración del grafo se realizará en un método main en los siguientes pasos. El archivo elasticsearchSetup.ts contendrá ayudantes de Elasticsearch que vamos a usar dentro de los nodes en los próximos pasos.

import { writeFileSync } from "node:fs";
import { StateGraph, Annotation, START, END } from "@langchain/langgraph";
import { ChatOpenAI } from "@langchain/openai";
import { z } from "zod";
import {
  esClient,
  ingestDocuments,
  createSearchTemplates,
  INDEX_NAME,
  INVESTMENT_FOCUSED_TEMPLATE,
  MARKET_FOCUSED_TEMPLATE,
  createIndex,
} from "./elasticsearchSetup.js";

const llm = new ChatOpenAI({ model: "gpt-4o-mini" });

Como se mencionó anteriormente, el cliente LLM se utilizará para generar los parámetros de la plantilla de búsqueda de Elasticsearch basados en la pregunta del usuario.

async function saveGraphImage(app: any): Promise {
  try {
    const drawableGraph = app.getGraph();
    const image = await drawableGraph.drawMermaidPng();
    const arrayBuffer = await image.arrayBuffer();

    const filePath = "./workflow_graph.png";
    writeFileSync(filePath, new Uint8Array(arrayBuffer));
    console.log(`📊 Workflow graph saved as: ${filePath}`);
  } catch (error: any) {
    console.log("⚠️  Could not save graph image:", error.message);
  }
}

El método anterior genera la imagen del grafo en formato png y utiliza la API de Mermaid.INK en segundo plano. Esto es útil si deseas ver cómo interactúan los nodes de la app con una visualización estilizada.

Nodes LangGraph

Ahora veamos cada node en detalle:

node decideSearchStrategy

El decideSearchStrategy node analiza la entrada del usuario y determina si realizar una búsqueda centrada en la inversión o en el mercado. Utiliza un LLM con un esquema de salida estructurado (definido con Zod) para clasificar el tipo de consulta. Antes de tomar la decisión, recupera los filtros disponibles del índice mediante una agregación, lo que garantiza que el modelo cuente con información actualizada sobre sectores, ubicaciones y datos de financiación.

Para extraer los posibles valores de los filtros y enviarlos al LLM, usemos una consulta de agregación para obtenerlos directamente del índice de Elasticsearch. Esta lógica se encuentra en un método llamado getAvailableFilters:

async function getAvailableFilters() {
  try {
    const response = await esClient.search({
      index: INDEX_NAME,
      size: 0,
      aggs: {
        industries: {
          terms: { field: "industry", size: 100 },
        },
        locations: {
          terms: { field: "location", size: 100 },
        },
        funding_stages: {
          terms: { field: "funding_stage", size: 20 },
        },
        business_models: {
          terms: { field: "business_model", size: 10 },
        },
        lead_investors: {
          terms: { field: "lead_investor", size: 100 },
        },
        funding_amount_stats: {
          stats: { field: "funding_amount" },
        },
      },
    });

    return response.aggregations;
  } catch (error) {
    console.error("❌ Error getting available filters:", error);
    return {};
  }
}

Con la consulta de agregación anterior, tenemos los siguientes resultados:

{
  "industries": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
      {
        "key": "logistics",
        "doc_count": 5
      },
      ...
    ]
  },
  "locations": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
      {
        "key": "San Francisco, CA",
        "doc_count": 4
      },
      {
        "key": "New York, NY",
        "doc_count": 3
      },
      ...
    ]
  },
  "funding_stages": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
      {
        "key": "Series A",
        "doc_count": 8
      },
      ...
    ]
  },
  "business_models": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
      {
        "key": "B2B",
        "doc_count": 13
      },
      ...
    ]
  },
  "lead_investors": {
    "doc_count_error_upper_bound": 0,
    "sum_other_doc_count": 0,
    "buckets": [
      {
        "key": "Battery Ventures",
        "doc_count": 1
      },
      {
        "key": "Benchmark Capital",
        "doc_count": 1
      },
      ...
    ]
  },
  "funding_amount_stats": {
    "count": 20,
    "min": 4500000,
    "max": 35000000,
    "avg": 14075000,
    "sum": 281500000
  }
}

Vea todos los resultados aquí.

Para ambas estrategias, utilizaremos la búsqueda híbrida para detectar tanto la parte estructurada de la pregunta (filtros) como las partes más subjetivas (semántica). A continuación se muestra un ejemplo de ambas consultas utilizando plantillas de búsqueda:

await esClient.putScript({
      id: INVESTMENT_FOCUSED_TEMPLATE,
      script: {
        lang: "mustache",
        source: `{
          "size": 5,
          "retriever": {
            "rrf": {
              "retrievers": [
                {
                  "standard": {
                    "query": {
                      "semantic": {
                        "field": "semantic_field",
                        "query": "{{query_text}}"
                      }
                    }
                  }
                },
                {
                  "standard": {
                    "query": {
                      "bool": {
                        "filter": [
                          {"terms": {"funding_stage": {{#join}}{{#toJson}}funding_stage{{/toJson}}{{/join}}}},
                          {"range": {"funding_amount": {"gte": {{funding_amount_gte}}{{#funding_amount_lte}},"lte": {{funding_amount_lte}}{{/funding_amount_lte}}}}},
                          {"terms": {"lead_investor": {{#join}}{{#toJson}}lead_investor{{/toJson}}{{/join}}}},
                          {"range": {"monthly_revenue": {"gte": {{monthly_revenue_gte}}{{#monthly_revenue_lte}},"lte": {{monthly_revenue_lte}}{{/monthly_revenue_lte}}}}}
                        ]
                      }
                    }
                  }
                }
              ],
              "rank_window_size": 100,
              "rank_constant": 20
            }
          }
        }`,
      },
    });

Vea las consultas detalladas en el archivo elasticsearchSetup.ts . En el siguiente node, se decidirá cuál de las dos consultas se empleará:

// Node 1: Decide search strategy using LLM
async function decideSearchStrategy(state: typeof VCState.State) {
  // Zod schema for specialized search strategy decision
  const SearchDecisionSchema = z.object({
    search_type: z
      .enum(["investment_focused", "market_focused"])
      .describe("Type of specialized search strategy to use"),
    reasoning: z
      .string()
      .describe("Brief explanation of why this search strategy was chosen"),
  });

  const decisionLLM = llm.withStructuredOutput(SearchDecisionSchema);

  // Get dynamic filters from Elasticsearch
  const availableFilters = await getAvailableFilters();

  const prompt = `Query: "${state.input}"
    Available filters: ${JSON.stringify(availableFilters, null, 2)}

    Choose between two specialized search strategies:
    
    - investment_focused: For queries about funding stages, funding amounts, monthly revenue, lead investors, financial performance
    
    - market_focused: For queries about industries, locations, business models, market segments, geographic markets
    
    Analyze the query intent and choose the most appropriate strategy.
  `;

  try {
    const result = await decisionLLM.invoke(prompt);
    console.log(
      `🤔 Search strategy: ${result.search_type} - ${result.reasoning}`
    );

    return {
      searchStrategy: result.search_type,
    };
  } catch (error: any) {
    console.error("❌ Error in decideSearchStrategy:", error.message);
    return {
      searchStrategy: "investment_focused",
    };
  }
}

Nodes prepareInvestmentSearch y prepareMarketSearch

Ambos nodos emplean una función auxiliar compartida, extractFilterValues, que aprovecha el LLM para identificar los filtros relevantes mencionados en la entrada del usuario, como la industria, la ubicación, la etapa de financiación, el modelo de negocio, etc. Estamos utilizando este esquema para crear nuestra plantilla de búsqueda.

// Extract all possible filter values from user input
async function extractFilterValues(input: string) {
  const FilterValuesSchema = z.object({
    // Investment-focused filters
    funding_stage: z
      .array(z.string())
      .default([])
      .describe("Funding stage values mentioned in query"),
    funding_amount_gte: z
      .number()
      .default(0)
      .describe("Minimum funding amount in USD"),
    funding_amount_lte: z
      .number()
      .default(100000000)
      .describe("Maximum funding amount in USD"),
    lead_investor: z
      .array(z.string())
      .default([])
      .describe("Lead investor values mentioned in query"),
    monthly_revenue_gte: z
      .number()
      .default(0)
      .describe("Minimum monthly revenue in USD"),
    monthly_revenue_lte: z
      .number()
      .default(10000000)
      .describe("Maximum monthly revenue in USD"),
    industry: z
      .array(z.string())
      .default([])
      .describe("Industry values mentioned in query"),
    location: z
      .array(z.string())
      .default([])
      .describe("Location values mentioned in query"),
    business_model: z
      .array(z.string())
      .default([])
      .describe("Business model values mentioned in query"),
  });

  const extractorLLM = llm.withStructuredOutput(FilterValuesSchema);
  const availableFilters = await getAvailableFilters();

  const extractPrompt = `Extract ALL relevant filter values from: "${input}"
    Available options: ${JSON.stringify(availableFilters, null, 2)}
    Extract only values explicitly mentioned in the query. Leave fields empty if not mentioned.`;

  return await extractorLLM.invoke(extractPrompt);
}

Según de la intención detectada, el flujo de trabajo selecciona una de dos rutas:

prepareInvestmentSearch: desarrolla parámetros de búsqueda orientados a la financiación, incluyendo la etapa de financiación, el importe de la inversión, el inversionista y la información de renovación. Puedes encontrar la plantilla completa de consulta en el archivo elasticsearchSetup.ts :

// Node 2A: Prepare Investment-Focused Search Parameters 
async function prepareInvestmentSearch(state: typeof VCState.State) {
  console.log(
    "💰 Preparing INVESTMENT-FOCUSED search parameters with financial emphasis..."
  );

  try {
    // Extract all filter values from input
    const values = await extractFilterValues(state.input);

    let searchParams: any = {
      template_id: INVESTMENT_FOCUSED_TEMPLATE,
      query_text: state.input,
      ...values,
    };

    return { searchParams };
  } catch (error) {
    console.error("❌ Error preparing investment-focused params:", error);
    return {
      searchParams: {},
    };
  }
}

prepareMarketSearch: crea parámetros orientados al mercado centrados en industrias, geografías y modelos de negocio. Ver la consulta completa en el archivo elasticsearchSetup.ts:

// Node 2B: Prepare Market-Focused Search Parameters
async function prepareMarketSearch(state: typeof VCState.State) {
  console.log(
    "🔍 Preparing MARKET-FOCUSED search parameters with market emphasis..."
  );

  try {
    // Extract all filter values from input
    const values = await extractFilterValues(state.input);

    let searchParams: any = {
      template_id: MARKET_FOCUSED_TEMPLATE,
      query_text: state.input,
      ...values,
    };

    return { searchParams };
  } catch (error) {
    console.error("❌ Error preparing market-focused params:", error);
    return {};
  }
}

Node executeSearch

Este node toma los parámetros de búsqueda generados del estado y los envía primero a Elasticsearch, usando la _render API para visualizar la consulta con fines de depuración, y luego envía una petición para recuperar los resultados.

// Node 3: Execute Search
async function executeSearch(state: typeof VCState.State) {
  const { searchParams } = state;

  try {
    // getting formed query from template for debugging
    const renderedTemplate = await esClient.renderSearchTemplate({
      id: searchParams.template_id,
      params: searchParams,
    });

    console.log(
      "📋 Complete query:",
      JSON.stringify(renderedTemplate.template_output, null, 2)
    );

    const results = await esClient.searchTemplate({
      index: INDEX_NAME,
      id: searchParams.template_id,
      params: searchParams,
    });

    return {
      results: results.hits.hits.map((hit: any) => hit._source),
    };
  } catch (error: any) {
    console.error(`❌ ${state.searchParams.search_type} search error:`, error);
    return { results: [] };
  }
}

node visualizarResultados

Finalmente, este nodo muestra los resultados de Elasticsearch.

// Node 4: Visualize results
async function visualizeResults(state: typeof VCState.State) {
  const results = state.results || [];

  let formattedResults = `🎯 Found ${results.length} startups matching your criteria:\n\n`;

  results.forEach((startup: any, index: number) => {
    formattedResults += `${index + 1}. **${startup.company_name}**\n`;
    formattedResults += `   📍 ${startup.location} | 🏢 ${startup.industry} | 💼 ${startup.business_model}\n`;
    formattedResults += `   💰 ${startup.funding_stage} - $${(
      startup.funding_amount / 1000000
    ).toFixed(1)}M\n`;
    formattedResults += `   👥 ${startup.employee_count} employees | 📈 $${(
      startup.monthly_revenue / 1000
    ).toFixed(0)}K MRR\n`;
    formattedResults += `   🏦 Lead: ${startup.lead_investor}\n`;
    formattedResults += `   📝 ${startup.description}\n\n`;
  });

  return {
    final: formattedResults,
  };
}

Programáticamente, todo el grafo se ve así:

  const workflow = new StateGraph(VCState)
    // Register nodes - these are the processing functions
    .addNode("decideStrategy", decideSearchStrategy)
    .addNode("prepareInvestment", prepareInvestmentSearch)
    .addNode("prepareMarket", prepareMarketSearch)
    .addNode("executeSearch", executeSearch)
    .addNode("visualizeResults", visualizeResults)
    // Define execution flow with conditional branching
    .addEdge(START, "decideStrategy") // Start with strategy decision
    .addConditionalEdges(
      "decideStrategy",
      (state: typeof VCState.State) => state.searchStrategy, // Conditional function
      {
        investment_focused: "prepareInvestment", // If investment focused -> RRF template preparation
        market_focused: "prepareMarket", // If market focused -> dynamic query preparation
      }
    )
    .addEdge("prepareInvestment", "executeSearch") // Investment prep -> execute
    .addEdge("prepareMarket", "executeSearch") // Market prep -> execute
    .addEdge("executeSearch", "visualizeResults") // Execute -> visualize
    .addEdge("visualizeResults", END); // End workflow

Como puede ver, tenemos una aplicación condicional donde la aplicación decide qué “ruta” o node ejecutar a continuación. Esta característica es útil cuando los flujos de trabajo necesitan lógica de ramificación, como elegir entre múltiples herramientas o incluir un paso con intervención de una persona.

Con las características básicas del núcleo de LangGraph entendidas, podemos configurar la aplicación donde se ejecutará el código:

Juntando todo en un flujo de trabajo main, aquí declaramos el grafo con todos los elementos bajo la variable flujo de trabajo:

async function main() {
  await createIndex();
  await createSearchTemplates();
  await ingestDocuments();

  // Create the workflow graph with shared state
  const workflow = new StateGraph(VCState)
    // Register nodes - these are the processing functions
    .addNode("decideStrategy", decideSearchStrategy)
    .addNode("prepareInvestment", prepareInvestmentSearch)
    .addNode("prepareMarket", prepareMarketSearch)
    .addNode("executeSearch", executeSearch)
    .addNode("visualizeResults", visualizeResults)
    // Define execution flow with conditional branching
    .addEdge(START, "decideStrategy") // Start with strategy decision
    .addConditionalEdges(
      "decideStrategy",
      (state: typeof VCState.State) => state.searchStrategy, // Conditional function
      {
        investment_focused: "prepareInvestment", // If investment focused -> RRF template preparation
        market_focused: "prepareMarket", // If market focused -> dynamic query preparation
      }
    )
    .addEdge("prepareInvestment", "executeSearch") // Investment prep -> execute
    .addEdge("prepareMarket", "executeSearch") // Market prep -> execute
    .addEdge("executeSearch", "visualizeResults") // Execute -> visualize
    .addEdge("visualizeResults", END); // End workflow


  const app = workflow.compile();

  await saveGraphImage(app);

  const query =
    "Find startups with Series A or Series B funding between $8M-$25M and monthly revenue above $500K";

  const marketResult = await app.invoke({ input: query });
  console.log(marketResult.final);
}

La variable de consulta simula la entrada del usuario introducida en una barra de búsqueda hipotética:

De la frase en lenguaje natural “Encuentra startups con financiamiento de Serie A o Serie B entre $8M y $25M, e ingresos mensuales superiores a $500K” se extraerán todos los filtros.

Finalmente, invoca el método principal:

main().catch(console.error);

Resultados

🔍 Checking if index exists...
🏗️ Creating index...
✅ Index created successfully!
Ingesting documents...
✅ Documents ingested successfully!
✅ Investment-focused template created successfully!
✅ Market-focused template created successfully!

📊 Workflow graph saved as: ./workflow_graph.png

🔍 Query: "Find startups with Series A or Series B funding between $8M-$25M and monthly revenue above $500K"

🤔 Search strategy: investment_focused - The query specifically seeks profitable fintech startups with defined funding amounts and high monthly revenue, which aligns closely with financial performance metrics and investment-related criteria.

💰 Preparing INVESTMENT-FOCUSED search parameters with financial emphasis...

📋 Complete query: {
  "size": 5,
  "retriever": {
    "rrf": {
      "retrievers": [
        {
          "standard": {
            "query": {
              "semantic": {
                "field": "semantic_field",
                "query": "Find startups with Series A or Series B funding between $8M-$25M and monthly revenue above $500K"
              }
            }
          }
        },
        {
          "standard": {
            "query": {
              "bool": {
                "filter": [
                  {
                    "terms": {
                      "funding_stage": [
                        "Series A",
                        "Series B"
                      ]
                    }
                  },
                  {
                    "range": {
                      "funding_amount": {
                        "gte": 8000000,
                        "lte": 25000000
                      }
                    }
                  },
                  {
                    "terms": {
                      "lead_investor": []
                    }
                  },
                  {
                    "range": {
                      "monthly_revenue": {
                        "gte": 500000,
                        "lte": 0
                      }
                    }
                  }
                ]
              }
            }
          }
        }
      ],
      "rank_window_size": 100,
      "rank_constant": 20
    }
  }
}
🎯 Found 5 startups matching your criteria:

1. **TechFlow**
   📍 San Francisco, CA | 🏢 logistics | 💼 B2B
   💰 Series A - $8.0M
   👥 45 employees | 📈 $500K MRR
   🏦 Lead: Sequoia Capital
   📝 TechFlow optimizes supply chain operations using AI-powered route optimization and real-time tracking. Founded in 2023, shows remarkable growth with $500K monthly revenue.

2. **DataViz**
   📍 New York, NY | 🏢 enterprise software | 💼 B2B
   💰 Series A - $10.0M
   👥 42 employees | 📈 $450K MRR
   🏦 Lead: Battery Ventures
   📝 DataViz creates intuitive data visualization tools for enterprise customers. No-code platform allows business users to create dashboards without technical expertise.

3. **FinanceAI**
   📍 San Francisco, CA | 🏢 fintech | 💼 B2C
   💰 Series C - $25.0M
   👥 120 employees | 📈 $1200K MRR
   🏦 Lead: Tiger Global Management
   📝 FinanceAI provides AI-powered investment advisory services to retail investors. Uses machine learning to analyze market trends with over 100,000 active users.

4. **UrbanMobility**
   📍 New York, NY | 🏢 logistics | 💼 B2B2C
   💰 Series B - $15.0M
   👥 78 employees | 📈 $750K MRR
   🏦 Lead: Kleiner Perkins
   📝 UrbanMobility revolutionizes urban transportation through autonomous delivery drones and smart logistics hubs. Partners with major retailers for same-day delivery across Manhattan and Brooklyn.

5. **HealthTech Solutions**
   📍 Boston, MA | 🏢 healthcare | 💼 B2B
   💰 Series B - $18.0M
   👥 95 employees | 📈 $900K MRR
   🏦 Lead: General Catalyst
   📝 HealthTech Solutions develops medical devices and software for remote patient monitoring. Comprehensive telehealth platform reducing hospital readmissions by 30%.

✨  Done in 18.80s.

Para la entrada enviada, la aplicación elige la ruta centrada en la inversión y, como resultado, podemos ver la consulta de Elasticsearch generada por el flujo de trabajo de LangGraph, que extrae los valores y los rangos de la entrada del usuario. También podemos ver la consulta enviada a Elasticsearch con los valores extraídos aplicados y, finalmente, los resultados formateados por el node visualizeResults con los resultados.

Ahora vamos a probar el node centrado en el mercado usando la consulta “Encuentre startups de fintech y salud en San Francisco, Nueva York o Boston”:

...

🔍 Query: Find fintech and healthcare startups in San Francisco, New York, or Boston

🤔 Search strategy: market_focused - The query is focused on finding fintech startups in San Francisco that are disrupting traditional banking and payment systems, which pertains to specific industries (fintech) and locations (San Francisco). Thus, a market-focused strategy is more appropriate.

🔍 Preparing MARKET-FOCUSED search parameters with market emphasis...

📋 Complete query: {
  "size": 5,
  "retriever": {
    "rrf": {
      "retrievers": [
        {
          "standard": {
            "query": {
              "semantic": {
                "field": "semantic_field",
                "query": "Find fintech and healthcare startups in San Francisco, New York, or Boston"
              }
            }
          }
        },
        {
          "standard": {
            "query": {
              "bool": {
                "filter": [
                  {
                    "terms": {
                      "industry": [
                        "fintech",
                        "healthcare"
                      ]
                    }
                  },
                  {
                    "terms": {
                      "location": [
                        "San Francisco, CA",
                        "New York, NY",
                        "Boston, MA"
                      ]
                    }
                  },
                  {
                    "terms": {
                      "business_model": []
                    }
                  }
                ]
              }
            }
          }
        }
      ],
      "rank_window_size": 50,
      "rank_constant": 10
    }
  }
}
🎯 Found 5 startups matching your criteria:

1. **FinanceAI**
   📍 San Francisco, CA | 🏢 fintech | 💼 B2C
   💰 Series C - $25.0M
   👥 120 employees | 📈 $1200K MRR
   🏦 Lead: Tiger Global Management
   📝 FinanceAI provides AI-powered investment advisory services to retail investors. Uses machine learning to analyze market trends with over 100,000 active users.

2. **CryptoWallet**
   📍 Miami, FL | 🏢 fintech | 💼 B2C
   💰 Series B - $16.0M
   👥 73 employees | 📈 $820K MRR
   🏦 Lead: Coinbase Ventures
   📝 CryptoWallet provides secure digital wallet solutions for cryptocurrency trading and storage. Multi-chain support with enterprise-grade security features.

...

✨  Done in 7.41s.

Aprendizajes

Durante el proceso de escritura aprendí:

Debemos mostrar al LLM los valores exactos de los filtros; de lo contrario, dependemos de que el usuario escriba los valores exactos de las cosas. Para baja cardinalidad, este enfoque está bien, pero cuando la cardinalidad es alta, necesitamos algún mecanismo para filtrar los resultados.
El uso de plantillas de búsqueda hace que los resultados sean mucho más consistentes que dejar que el LLM escriba la consulta de Elasticsearch, y también es más rápido.
Los bordes condicionales son un mecanismo potente para crear aplicaciones con múltiples variantes y rutas de ramificación.
La salida estructurada es extremadamente útil cuando se genera información con LLM porque impone respuestas predecibles y de tipo seguro. Esto mejora la confiabilidad y reduce las interpretaciones incorrectas de los prompts.

La combinación de búsqueda semántica y estructurada a través de la recuperación híbrida produce resultados mejores y más relevantes, equilibrando la precisión y la comprensión del contexto.

Conclusión

En este ejemplo, combinamos LangGraph.js con Elasticsearch para crear un flujo de trabajo dinámico capaz de interpretar consultas en lenguaje natural y decidir entre estrategias de búsqueda financieras u orientadas al mercado. Este enfoque reduce la complejidad de la creación de consultas manuales, al tiempo que mejora la flexibilidad y la precisión para los analistas de capital de riesgo.

Mejorar la interactividad del dashboard de Kibana con controles variables

Teresa Alvarez Soler — Thu, 04 Dec 2025 00:00:00 GMT

¡Nos complace compartir que los controles variables ahora están disponibles en los dashboards de Kibana a partir de la versión 8.18 y en toda la serie 9.x! Esta característica ha sido una de las mejoras más solicitadas con más frecuencia por los usuarios de los dashboards—y finalmente está aquí 🎉 Durante los últimos meses, hemos continuado expandiendo y refinando controles de variables, por lo que este es el momento perfecto para dedicarles su propia publicación en el blog.

¿Qué son los controles variables?

Si has trabajado antes con los dashboards de Kibana, probablemente conozcas nuestros controles clásicos de dashboard: esos prácticos menús desplegables que muestran valores de tus datos para que puedas aplicar filtros con un par de clics.

A simple vista, los controles variables son parecidos , pero tienen un giro ingenioso: en lugar de filtrar automáticamente cada panel en tu dashboard, pueden conectarse directamente a búsquedas ES|QL dentro de visualizaciones individuales.

Eso significa que tú decides dónde se aplica cada control. Y aún más, puedes usarlos para todo tipo de trucos creativos, como ajustar intervalos de tiempo, cambiar campos de desglose o modificar parámetros de visualización en el momento. Básicamente, ofrecen a tus dashboards una experiencia realmente interactiva, lo que permite obtener tu información de manera más rápida y fácil.

Casos de uso para controles variables

Muy bien, los controles variables parecen útiles, pero ¿para qué sirven realmente? A continuación se muestran algunos ejemplos de cómo mejorar tus dashboards:

Filtrar visualizaciones seleccionadas.

¿Quieres filtrar algunas visualizaciones sin cambiar otras? Los controles de variables te permiten hacer exactamente eso. Selecciona los paneles a los que deseas responder y conéctalos en las búsquedas de ES|QL detrás de tus visualizaciones.

Selecciona diferentes intervalos de tiempo

Otorga a tus usuarios el poder de cambiar entre “5 minutos”, “1 hora”, “1 día” o cualquier cubeta de tiempo que tenga sentido. Crea un control variable con intervalos predefinidos y conéctalo a tu búsqueda de series temporales.

Cambiar funciones

En lugar de crear múltiples gráficos para cada operación, permite que los usuarios del dashboard elijan si quieren ver el máximo, el promedio, diferentes percentiles o cualquier otro agregador.

Agrupar por diferentes campos

A veces necesitas desglosar los datos por diferentes dimensiones durante una investigación. Con controles variables, puedes definir múltiples campos “agrupar por” y permitir que los usuarios del dashboard elijan cuál les permite descubrir su información.

¿Cómo puedes crearlos?

La manera más sencilla (y probablemente más amena) de crear un control de variable es directamente desde el editor de búsquedas ES|QL en tu visualización. Simplemente comienza a escribir tu búsqueda, usa el menú de autocompletado y Kibana configurará el control de una manera que te resulte útil.

Pero si prefieres empezar desde la variable en sí, también puedes ir a: Agregar panel → Controles → Control de variables y agregar la variable a tus visualizaciones después de crear el control.

Ejemplo 1: Control de filtrado con selección de múltiples valores.

1. Elija una visualización que se realice a partir de una búsqueda ES|QL y haga clic en “Crear control” dentro de la cláusula WHERE.

2. Serás redirigido automáticamente al elemento flotante de creación de variables, donde se seleccionará el tipo “Valores de una búsqueda” para ti, y el nombre de la variable ya estará previamente completado. Recuerda que el nombre de un control siempre debe comenzar con “?...” para que funcione en la búsqueda de visualización.

Normalmente necesitarás una búsqueda como esta para obtener los valores de un campo y actualizarlos según el rango de tiempo seleccionado en el dashboard:

FROM 
| WHERE @timestamp <=?_tend and @timestamp >?_tstart
| STATS BY

3. Al guardar el control, lo verás aparecer en la parte superior del dashboard y tu búsqueda de visualización se actualizará con el nombre del control variable.

4. Si deseas agregar una selección de valores múltiples al control, debes usar la función MV_CONTAINS en la búsqueda y seleccionar “Permitir selecciones múltiples” durante la creación del control en el paso 2 (disponible desde la versión 9.3).

Ejemplo 2: Control de intervalos de tiempo.

Si estás creando una serie temporal, puedes agregar fácilmente un control variable en el intervalo de histograma de fecha:

1. Cuando escribas una búsqueda ES|QL para tu serie temporal, haz clic en “Crear control”. Al construir una variable para intervalos, es mejor usar TBUCKET en lugar de BUCKET para que acepte intervalos más legibles como “1 hora”, “1 día”, etc. Pronto habrá una opción automática para TBUCKET que se adaptará automáticamente a los intervalos de tiempo.

2. Define los intervalos para completar las opciones en el menú desplegable.

3. Selecciona diferentes intervalos en el menú desplegable y observa cómo cambia tu visualización.

Ejemplo 3: variables para funciones

Crea una variable usando el tipo de control “Valores estáticos” y agrega nombres de funciones a los valores de tu menú desplegable. Es importante usar un nombre para la variable que comience con “??...” para reemplazar funciones.

2. Incluye el nombre de la variable en la búsqueda ES|QL.

Ejemplo 4: variables para campos

Puedes usar el tipo de control “Valores estáticos” y escribir los nombres de los campos que desees. Es importante usar un nombre de variable que comience con “??...” para que funcione en los campos.

2. Crea una referencia a la variable donde la necesites en la búsqueda de la visualización.

Controles de variables en Discover

Los controles variables no son solo una característica del dashboard: también están disponibles directamente en el editor de ES|QL en Discover. Puede crear controles para obtener una experiencia de exploración de datos más rápida en Discover, llevarlos al dashboard y viceversa.

Detalles técnicos

A estas alturas, probablemente hayas notado que los controles de variables incluyen algunas reglas, como a qué partes de una búsqueda pueden hacer referencia y los prefijos de nombres que necesitas usar (“?...” para valores y “??...” para campos o funciones). Eso se debe a que las variables no son simplemente reemplazos de texto que ocurren en el cliente. En realidad, son ciudadanos de primera clase en el propio lenguaje de búsquedas (conocidos como parámetros en ES|QL).

Este diseño ofrece grandes ventajas. Por un lado, Kibana puede entender el contexto de cada variable, lo que nos permite generar y completar previamente, de manera automática, su configuración. Además, es mucho más seguro: debido a que el lenguaje valida estrictamente las entradas de variables, previene las inyecciones maliciosas y genera errores fácilmente, si algo parece incorrecto. Asimismo, mejora el rendimiento y la estabilidad al trasladar la compleja validación y el manejo de errores al servidor en lugar de al cliente. Recordatorio sobre el rendimiento: una de las mejores prácticas es crear variables que incluyan búsquedas rápidas, ya que se cargan antes que el dashboard, por lo que las búsquedas lentas pueden afectar al rendimiento de todo el dashboard.

Por supuesto, esta arquitectura también tiene algunas limitaciones—por ahora. Las variables aún no admiten una opción “Cualquiera” para filtrar, y actualmente no se pueden usar con ciertos operadores como LIKE o FROM (para cambiar fuentes de datos). ¿La buena noticia? Estamos trabajando activamente para agregar estas funciones.

Qué depara el futuro para los controles

¡Este no es el final! Algunas de las mejoras importantes incluyen:

✨ La capacidad de colocar controles en cualquier lugar del dashboard

✨ Encadenar tus controles, lo que significa que la salida de un control se convierte en la entrada para el siguiente

✨ Mejores opciones de selección como la opción “Cualquiera” para variables.

✨ Nuevos tipos de control (control de tipo búsqueda y variables para tus fuentes de datos)

✨ Y otras mejoras en la experiencia del usuario que han estado solicitando, como el filtro previo de controles normales.

Si tienes ideas o comentarios, nos encantaría saber de ti.

Indexación vectorial hasta 12 veces más rápida en Elasticsearch con NVIDIA cuVS: aceleración por GPU, capítulo 2

Wed, 03 Dec 2025 00:00:00 GMT

A principios de este año, Elastic anunció la colaboración con NVIDIA para llevar la aceleración por GPU a Elasticsearch, integrándola con NVIDIA cuVS, como se detalló en una sesión en NVIDIA GTC y en varios blogs. Esta publicación es una actualización sobre el esfuerzo de co-ingeniería con el equipo de búsqueda de vectores de NVIDIA.

Resumen

Primero, pongámonos al día. Elasticsearch se consolidó como una poderosa base de datos vectorial, que ofrece un amplio conjunto de características y un sólido rendimiento para la búsqueda de similitudes a gran escala. Con capacidades como la cuantificación escalar, Better Binary Quantization (BBQ), operaciones vectoriales SIMD y algoritmos más eficientes en disco como DiskBBQ, ya ofrece opciones eficientes y flexibles para gestionar cargas de trabajo vectoriales.

Al integrar NVIDIA cuVS como un módulo invocable para tareas de búsqueda vectorial, nuestro objetivo es ofrecer beneficios significativos en el rendimiento y la eficiencia de la indexación vectorial para soportar mejor las cargas de trabajo vectoriales a gran escala.

El desafío

Uno de los mayores desafíos al construir una base de datos vectorial de alto rendimiento es construir el índice vectorial: el grafo HNSW. La construcción de índices se ve dominada con rapidez por millones o incluso miles de millones de operaciones aritméticas a medida que cada vector se compara con muchos otros. Además, las operaciones del ciclo de vida del índice, como la compactación y las fusiones, pueden aumentar aún más la sobrecarga total de cálculo de la indexación. A medida que los volúmenes de datos y las incrustaciones vectoriales asociadas crecen de manera exponencial, las GPU de cómputo acelerado, diseñadas para el paralelismo masivo y las matemáticas de alto rendimiento, se posicionan idealmente para manejar estas cargas de trabajo.

Ingresa al plugin Elasticsearch-GPU

NVIDIA cuVS es una biblioteca open source de CUDA-X para la búsqueda vectorial acelerada por GPU y la agrupación de datos, que permite una rápida construcción de índices y recuperación de incrustaciones para cargas de trabajo de AI y de sistemas de recomendación.

Elasticsearch utiliza cuVS a través de cuvs-java, una biblioteca open source desarrollada por la comunidad y que mantiene NVIDIA. La biblioteca cuvs-java es ligera, se basa en la API C de cuVS y usa la función externa del Proyecto Panamá para exponer las características de cuVS de una manera idiomática en Java, al tiempo que es moderna y presenta un alto rendimiento.

La biblioteca cuvs-java está integrada en un nuevo plugin de Elasticsearch; por lo tanto, la indexación vectorial en la GPU puede ocurrir en el mismo nodo y proceso de Elasticsearch, sin la necesidad de provisionar ningún código o hardware externo. Durante la construcción del índice, si se instala la biblioteca cuVS y hay una GPU presente y configurada, Elasticsearch usará la GPU para acelerar el proceso de indexación vectorial. Los vectores se asignan a la GPU, que construye un grafo CAGRA. Este grafo se convierte entonces al formato HNSW, y hace que esté disponible de inmediato para la búsqueda vectorial en la CPU. El formato final del grafo construido es el mismo que el que se construiría en la CPU; esto permite a Elasticsearch aprovechar las GPU para indexar vectores de alto rendimiento cuando el hardware subyacente lo admite, al tiempo que libera poder de la CPU para otras tareas (búsqueda simultánea, procesamiento de datos, etc.).

Aceleración en la generación de índices

Como parte de la integración de la aceleración de GPU en Elasticsearch, se realizaron varias mejoras en cuvs-java, centradas en la entrada/salida eficiente de datos y la invocación de funciones. Una mejora clave es el uso de cuVSMatrix para modelar vectores de forma transparente, ya sea que residan en la memoria heap de Java, fuera de la memoria heap o en la memoria de la GPU. Esto permite que los datos se muevan de manera eficiente entre la memoria y la GPU, lo que evita copias innecesarias de potencialmente miles de millones de vectores.

Gracias a esta abstracción subyacente de copia cero, tanto la transferencia a la memoria de la GPU como la recuperación del grafo se pueden realizar directamente. Durante la indexación, los vectores se almacenan primero en búfer en la memoria heap de Java, y luego se envían a la GPU para construir el grafo CAGRA. Después, el grafo se recupera de la GPU, se convierte al formato HNSW y se mantiene en el disco.

En el momento de la fusión, los vectores ya están almacenados en disco, sin pasar por la memoria heap de Java. Los archivos de índice se mapean en memoria, y los datos se transfieren directamente a la memoria de la GPU. El diseño también se adapta fácilmente a diferentes anchos de bits, como float32 o int8, y se extiende de forma natural a otros esquemas de cuantificación.

Redoble de tambores… entonces, ¿cómo se funciona?

Antes de entrar en los números, un poco de contexto es útil. La fusión de segmentos en Elasticsearch suele ejecutarse automáticamente en segundo plano durante la indexación, lo que dificulta hacer benchmarks de forma aislada. Para obtener resultados reproducibles, utilizamos la fusión forzosa para activar explícitamente la combinación de segmentos en un experimento controlado. Dado que la fusión forzosa hace las mismas operaciones de fusión subyacentes que la fusión en segundo plano, su rendimiento sirve como un indicador útil de las mejoras esperadas, aunque las ganancias exactas pueden diferir en las cargas de trabajo de indexación del mundo real.

Ahora, veamos los números.

Nuestros resultados iniciales de evaluaciones comparativas son muy prometedores. Ejecutamos la evaluación comparativa en una instancia de AWS g6.4xlarge con almacenamiento NVMe conectado a nivel local. Se configuró un único nodo de Elasticsearch para que use el número predeterminado y óptimo de subprocesos de indexación (8, uno por cada núcleo físico) y deshabilite la limitación de la fusión (que es menos aplicable con discos NVMe rápidos).

Para el conjunto de datos, utilizamos 2,6 millones de vectores con 1536 dimensiones del vector de pista de Rally de OpenAI, codificados como cadenas de texto base64 e indexados como float32 hnsw. En todos los escenarios, los grafos construidos alcanzan niveles de recuperación de hasta el 95 %. A continuación, presentamos nuestros hallazgos:

Rendimiento de indexación: al trasladar la construcción de grafos a la GPU durante los vaciados de búferes en memoria, aumentamos el rendimiento en aproximadamente 12 veces.
Fusión forzada: una vez que finaliza la indexación, la GPU continúa acelerando la fusión de segmentos, lo que acelera la fase de fusión forzada en alrededor de 7 veces.

Uso de la CPU: descargar la construcción de grafos a la GPU reduce de manera significativa el uso promedio y máximo de la CPU. Los grafos a continuación ilustran el uso de la CPU durante la indexación y la fusión, y permiten ver cuánto menor es cuando estas operaciones se ejecutan en la GPU. Un menor uso de la CPU durante la indexación por GPU libera ciclos de CPU que pueden redirigirse para mejorar el rendimiento de la búsqueda.

Recuperación: la precisión se mantiene prácticamente igual entre las ejecuciones de CPU y GPU, y el grafo construido por la GPU alcanza una recuperación un poco mayor.

Comparación en otra dimensión: el precio

La comparación anterior utilizaba intencionalmente hardware idéntico, y la única diferencia era si se usaba la GPU durante la indexación o no. Esa configuración es útil para aislar los efectos de la computación en bruto, pero también podemos analizar la comparación desde una perspectiva de costos.

A un precio horario similar al de la configuración acelerada por GPU, se puede provisionar una configuración de solo CPU con aproximadamente el doble de recursos comparables de CPU y memoria: 32 vCPUs (AMD EPYC) y 64 GB de RAM, lo que permite duplicar el número de hilos de indexación a 16.

Para mantener la comparación justa y consistente, ejecutamos este experimento solo de CPU en una instancia AWS g6.8xlarge, con la GPU explícitamente desactivada. Esto nos permitió mantener constantes todas las demás características del hardware mientras evaluábamos la compensación entre costo y rendimiento de la aceleración de GPU frente al indexado solo con CPU.

Como era de esperar, la instancia de CPU más potente sí muestra un mejor rendimiento en comparación con las evaluaciones comparativas de la sección anterior. Sin embargo, cuando comparamos esta instancia de CPU más potente con los resultados acelerados por GPU originales, la GPU aún ofrece beneficios sustanciales en cuanto al rendimiento: ~ 5 veces de mejora en el rendimiento de indexación y ~ 6 veces en la fusión forzada, todo ello mientras se construyen grafos que alcanzan niveles de recuperación de hasta un 95 %.

Conclusión

En escenarios completos, la aceleración por GPU con NVIDIA cuVS ofrece una mejora de casi 12 veces en el rendimiento de la indexación y una disminución de 7 veces en la latencia de fusión forzada, con un uso de CPU significativamente menor. Esto demuestra que la indexación vectorial y las cargas de trabajo de fusión se benefician de manera significativa de la aceleración por GPU. En una comparación ajustada por costos, la aceleración por GPU continúa mostrando beneficios sustanciales en cuanto al rendimiento, con alrededor de 5 veces más rendimiento de indexación y 6 veces más rapidez en las operaciones de fusión forzada.

La indexación vectorial acelerada por GPU tiene planificada hoy en día una vista previa técnica en Elasticsearch 9.3, cuyo lanzamiento está programado para principios de 2026.

Mantente atento a lo que viene.

ES|QL en la versión 9.2: incorporación de la búsqueda inteligente (Lookup Joins) y compatibilidad con series temporales

Tyler Perkins, Kostas Krikellas, Julian Kiryakov — Tue, 02 Dec 2025 00:00:00 GMT

Elasticsearch 9.2, lanzado en octubre, está repleto de avances significativos que hacen que el análisis de tus datos sea más rápido, más flexible y más accesible que nunca. En el corazón de esta versión se encuentran importantes mejoras a ES|QL, nuestro lenguaje de búsqueda canalizado, diseñado para brindar aún más valor directamente a los usuarios finales.

A continuación, se muestran las características de Elasticsearch 9.2 que transformarán tus flujos de trabajo de análisis de datos con ES|QL.

Revolucionando la correlación de datos: Lookup Join más inteligente, rápido y flexible

El comando LOOKUP JOIN en ES|QL experimentó una transformación significativa en Elasticsearch 9.2, y se volvió mucho más eficiente y versátil. Lookup JOIN combina datos de la tabla de resultados de búsquedas ES|QL con registros coincidentes de un índice de modo de consulta especificado. Agrega campos del índice de búsqueda como nuevas columnas a la tabla de resultados en función de los valores coincidentes en el campo de combinación. Anteriormente, la unión de datos se limitaba a un solo campo y a una igualdad simple. ¡Ya no! Estas mejoras te permiten abordar escenarios complejos de correlación de datos con facilidad.

Las mejoras clave de Lookup Join incluyen:

Uniones de múltiples campos: únete fácilmente a varios campos. Por ejemplo, para unir application_logs con service_registry en service_name, environment y version:

FROM application_logs
| LOOKUP JOIN service_registry ON service_name, environment, version

Utilización de predicados de unión complejos con expresiones (vista previa técnica):

Ya no estás limitado a la igualdad simple. LOOKUP JOIN ahora permite especificar múltiples criterios de correlación e incorporar una variedad de operadores binarios, como ==, !=, <, >, <= y >=. Esto significa que puedes crear condiciones de unión muy matizadas, lo que te permite plantear preguntas mucho más complejas sobre tus datos.

Ejemplo 1: Búsqueda de métricas de aplicaciones con umbrales de SLA por servicio

FROM application_metrics
| LOOKUP JOIN sla_thresholds
      ON service_name == sla_service AND response_time > sla_response_time

Ejemplo 2: Esta búsqueda calcula el monto adeudado, basado en políticas de precios regionales que cambian con el tiempo. Une tres sets de datos basados en condiciones complejas de rango de fechas e igualdad para calcular un due_amount final. La segunda unión de búsqueda utiliza el campo measurement_date del índice de meter_readings y el campo region_id del índice de customers para unirse al índice de pricing_policies y encontrar la política de precios correcta según la region y la measurement_dateparticular.

FROM meter_readings
| LOOKUP JOIN customers
      ON meter_id
| LOOKUP JOIN pricing_policies
      ON
        region_id == region AND
          measurement_date >= policy_begin_date AND
          measurement_date < policy_end_date
| EVAL due_amount = (kwh_consumed * rate_per_kwh + base_charge) * (1 + tax_rate)
| EVAL period = policy_name
| KEEP customer_name, period, due_amount, measurement_date, kwh_consumed,
    rate_per_kwh, base_charge, tax_rate
| SORT measurement_date

Grandes ganancias de rendimiento para uniones filtradas:

Hemos mejorado el rendimiento de las "uniones en expansión" que se filtran al utilizar condiciones de tabla de búsqueda. Las uniones expansivas producen múltiples coincidencias por fila de entrada, lo que puede generar grandes conjuntos de resultados intermedios. Esto empeora cuando muchas de esas filas se descartan mediante un filtro posterior. En la versión 9.2, optimizamos estas uniones al filtrar las filas innecesarias cuando se aplica un filtro a los datos de búsqueda, lo que evita procesar filas que se descartarían. ¡En algunos casos, estas uniones pueden ser hasta 1000 veces más rápidas!

Esta optimización es crucial cuando se trata de "uniones en expansión", en las que una búsqueda podría generar inicialmente muchas coincidencias potenciales. Al aplicar filtros de forma inteligente, solo se procesan los datos relevantes, lo que reduce drásticamente el tiempo de ejecución de las consultas y permite realizar análisis en tiempo real en sets de datos masivos. Esto significa que obtienes tu información mucho más rápido, incluso con operaciones de unión muy grandes o complejas.

Compatibilidad de la búsqueda de agrupación con Cross-Cluster Search (CCS):

Cuando Lookup Join se lanzó al mercado en las versiones 8.19 y 9.1, carecía de compatibilidad con Cross-Cluster Search (CCS). Para organizaciones que operan en múltiples agrupaciones, LOOKUP JOIN ahora se integra perfectamente con CCS en la versión 9.2. Simplemente coloca tu índice de búsqueda en todos los clústeres remotos donde desees realizar una unión, y ES|QL aprovechará automáticamente estos índices de búsqueda para unirse a sus datos remotos. Esto simplifica el análisis distribuido de datos y garantiza un enriquecimiento consistente en todo el despliegue de Elasticsearch.

Estas mejoras permiten correlacionar diversos conjuntos de datos con una precisión, velocidad y facilidad sin precedentes, lo que permite obtener información más profunda y útil sin necesidad de soluciones alternativas complejas ni pasos de preprocesamiento.

Enriquece tus datos con facilidad: Kibana Discover UX para índices de búsqueda

El enriquecimiento de datos debe ser sencillo, no un obstáculo. Introdujimos una experiencia de usuario fantástica en Discover de Kibana para crear y gestionar índices de búsqueda.

Flujo de trabajo intuitivo: el autocompletado integral de Discover te guiará a través del proceso y te sugerirá índices de búsqueda y campos de unión en el editor ES|QL, lo que hace que sea increíblemente fácil conectar tus datos de monitoreo del tiempo de actividad con índices existentes. Escribe el nombre de un índice de búsqueda que no exista y obtén acceso directo al editor de búsqueda con un clic para crear el índice. Escribe el nombre de un índice de búsqueda existente y te sugeriremos una opción para editarlo:

Gestión en línea (CRUD): mantén actualizados tus sets de datos de referencia con las funciones de edición en línea (crear, leer, actualizar, eliminar) directamente en Discover.

Carga de archivos sin esfuerzo: ahora puedes subir archivos directamente, como CSVs, dentro de Discover y usarlos instantáneamente en LOOKUP JOIN. ¡Ya no es necesario cambiar de contexto al saltar de un área a otra de Kibana!

Ya sea que estés usando mapping de IDs de usuario a nombres, agregando metadatos empresariales o uniendo archivos de referencia estáticos, esta característica democratiza el enriquecimiento de datos, lo que pone el poder de las uniones directamente en manos de cada usuario de forma rápida, sencilla y en un solo lugar.

Preserva tu contexto: presentación de INLINE STATS (versión preliminar de tecnología)

La agregación de datos es crucial, pero a veces necesitas ver los agregados junto a tus datos originales. Nos complace presentar INLINE STATS como una característica de vista previa técnica.

A diferencia del comando STATS, que reemplaza tus campos de entrada por una salida agregada, INLINE STATS conserva todos tus campos de entrada originales y simplemente agrega los nuevos campos agregados. Esto te permite realizar más operaciones en tus campos de entrada originales después de la agregación, lo que genera un flujo de trabajo de análisis más continuo y flexible.

Por ejemplo, para calcular la distancia promedio de vuelo mientras se mantienen las filas de vuelo individuales:

FROM kibana_sample_data_flights
 | KEEP Carrier, Dest, DistanceMiles
 | INLINE STATS avgDist = ROUND(AVG(DistanceMiles))
       BY Dest
 | WHERE DistanceMiles > avgDist

En esta consulta, se agrega avgDist a cada fila con el Destcorrespondiente (ination) por el que agrupamos y, como aún tenemos las columnas de información de vuelo, podemos filtrar los resultados a los vuelos con una distancia mayor que la media.

Compatibilidad con series temporales en ES|QL (vista previa técnica)

Elasticsearch usa flujos de datos temporales para almacenar métricas. Estamos agregando soporte para agregaciones de series temporales en ES|QL, a través del comando fuente TS. Esto está disponible en Elastic Cloud Serverless y la versión 9.2 básica como vista previa técnica.

El análisis de series temporales se basa en gran medida en consultas de agregación que resumen los valores métricos a lo largo de las cubetas de tiempo, divididos por una o más dimensiones de filtrado. La mayoría de las consultas de agregación se basan en un procesamiento de dos pasos, con (a) una función de agregación interna que resume los valores por serie temporal y (b) una función de agregación externa, que combina los resultados de (a) en todas las series temporales.

El comando de origen TS, combinado con STATS, proporciona una forma concisa, pero efectiva de expresar tales consultas sobre series temporales. Más concretamente, considera el siguiente ejemplo para calcular la tasa total de solicitudes por host y hora:

TS my_metrics
| WHERE @timestamp > NOW() - 1 day
| STATS SUM(RATE(requests))
      BY host, TBUCKET(1h)

En este caso, la función de agregación de seriales temporales RATE se evalúa primero por series temporales y hora. Los agregados parciales producidos se combinan luego al usar SUM para calcular los valores agregados finales por host y por hora.

Puedes consultar la lista de funciones de agregación de series temporales disponibles aquí. Ahora se admite la tasa de contador, posiblemente la función de agregación más importante para procesar contadores.

El comando fuente TS está diseñado para combinarse con STATS, con ejecución ajustada para soportar eficientemente agregaciones de series temporales. Por ejemplo, los datos se ordenan antes de pasar a las STATS. Actualmente, no se permiten comandos de procesamiento que puedan enriquecer o alterar los datos temporales o su orden, como FORK o INLINE STATS, entre TS y STATS. Esta limitación podría eliminarse en el futuro.

La salida tabular STATS se puede procesar aún más con cualquier comando aplicable. Por ejemplo, la siguiente búsqueda calcula la relación del promedio de cpu_usage por host hospedado y hora con el valor máximo por host:

TS my_metrics
| STATS avg_usage = AVG(AVG_OVER_TIME(cpu_usage))
      BY host, time_bucket = TBUCKET(1h)
| INLINE STATS max_avg_usage = MAX(avg_usage)
      BY host
| EVAL ratio = avg_usage / max_avg_usage
| KEEP host, time_bucket, ratio
| SORT host, time_bucket DESC

Los datos temporales se almacenan en nuestro motor de almacenamiento columnar subyacente que funciona con los valores de documentos de Lucene. El comando TS agrega ejecución de consultas vectorizadas a través del motor de cómputo ES|QL. El rendimiento de las búsquedas a menudo se mejora en más de un orden de magnitud, en comparación con las consultas DSL equivalentes, y está a la par con los sistemas establecidos específicos de métricas. En el futuro ofreceremos un análisis detallado de arquitectura y rendimiento, así que mantente alerta.

Ampliación de tu conjunto de herramientas: funciones nuevas de ES|QL

Manipulación de cadenas: CONTAINS, MV_CONTAINS, URL_ENCODE, URL_ENCODE_COMPONENT, URL_DECODE para un procesamiento más robusto de texto y URL.

Serie temporal y geoespacial: TBUCKET para cubetas de tiempo flexibles, TO_DENSE_VECTOR para operaciones vectoriales y un conjunto completo de funciones geoespaciales como ST_GEOHASH, ST_GEOTILE, ST_GEOHEX, TO_GEOHASH, TO_GEOTILE, TO_GEOHEX para un análisis avanzado basado en la ubicación.

Formato de fechas: DAY_NAME, MONTH_NAME para representaciones de fechas más legibles.

Estas funciones te proporcionan un conjunto más completo de herramientas para manipular y analizar tus datos directamente dentro de ES|QL.

Bajo el capó: Más rendimiento y eficiencia

Más allá de las características destacadas, Elasticsearch 9.2 incluye varias optimizaciones de rendimiento en ES|QL. Aceleramos RLIKE (LIST) con pushdown en casos en los que la función reemplaza múltiples consultas RLIKE similares. Con RLIKE (LIST), podemos fusionar esas búsquedas en un único autómata y aplicar un autómata en vez de varios. También tenemos una carga más rápida de los campos de palabras clave con ordenamientos de índice y optimizaciones generales de consultas; estas mejoras aseguran que tus consultas ES|QL se ejecuten más eficientemente que nunca.

¡Comienza hoy mismo!

Elasticsearch 9.2 representa un avance significativo para ES|QL, ya que brinda un poder y flexibilidad sin precedentes a sus flujos de trabajo de análisis de datos. Te invitamos a explorar estas funciones nuevas y a experimentar la diferencia que generan.

Para obtener una lista completa de todos los cambios y mejoras de Elasticsearch 9.2, consulte las notas de lanzamiento oficiales. ¡Feliz búsqueda!

Crear un conector de ChatGPT con Elasticsearch para buscar incidencias de GitHub.

Tomás Murúa — Mon, 01 Dec 2025 00:00:00 GMT

Recientemente, OpenAI anunció la característica de conectores personalizados para ChatGPT en los planes Pro/Business/Enterprise y Edu. Además de los conectores listos para usar que permiten acceder a datos en Gmail, GitHub, Dropbox, etc. Es posible crear conectores personalizados utilizando servidores MCP.

Los conectores personalizados te permiten combinar tus conectores de ChatGPT existentes con otras fuentes de datos como Elasticsearch para obtener respuestas integrales.

En este artículo, crearemos un servidor MCP que conecta ChatGPT a un índice de Elasticsearch que contiene información sobre incidencias internas de GitHub y solicitudes de extracción. Esto permite responder a búsquedas en lenguaje natural mediante los datos de Elasticsearch.

Desplegaremos el servidor MCP utilizando FastMCP en Google Colab con ngrok para obtener una URL pública a la que ChatGPT pueda conectarse, lo que eliminará la necesidad de una infraestructura compleja.

Para una visión general del MCP y su ecosistema, consulta El estado actual de MCP.

Prerrequisitos

Antes de comenzar, necesitarás:

Clúster de Elasticsearch (8.X o superior).
Clave API de Elasticsearch con acceso de lectura a tu índice.
Cuenta de Google (para Google Colab)
Cuenta de Ngrok (el nivel gratuito funciona)
Cuenta de ChatGPT con plan Pro/Enterprise/Business o Edu.

Comprensión de los requisitos del conector MCP de ChatGPT.

Los conectores MCP de ChatGPT requieren la implementación de dos herramientas: search y fetch. Para más detalles, consulta OpenAI Docs.

Herramienta de búsqueda

Devuelve una lista de resultados relevantes de tu índice de Elasticsearch según la búsqueda del usuario.

Lo que recibe:

Un solo texto con la búsqueda de lenguaje natural del usuario.
Ejemplo: “Encuentra incidencias relacionadas con la migración de Elasticsearch”.

Lo que devuelve:

Un objeto con una clave result que contiene un arreglo de objetos de resultado. Cada resultado incluye:
- id - Identificador único de documentos.
- title - Título de la incidencia o PR.
- url - Enlace a la incidencia o PR.

En nuestra implementación:

return {
    "results": [
        {
            "id": "PR-612",
            "title": "Fix memory leak in WebSocket notification service",
            "url": "https://internal-git.techcorp.com/pulls/612"
        },
        # ... more results
    ]
}

Herramienta de extracción

Recupera el contenido completo de un documento específico.

Lo que recibe:

Una sola cadena de texto con el ID del documento de Elasticsearch del resultado de la búsqueda.
Ejemplo: “Consígueme los detalles de PR-578”.

Lo que devuelve:

Un objeto de documento completo con:
- id - Identificador único de documentos.
- title - Título de la incidencia o PR.
- text - Descripción completa del problema/PR y sus detalles
- url - Enlace a la incidencia o PR.
- type - Tipo de documento (incidencia, pull_request).
- status - Estado actual (abierto, en progreso, resuelto)
- priority - Nivel de prioridad (bajo, medio, alto, crítico)
- assignee - Persona asignada al problema/PR
- created_date - Fecha de creación.
- resolved_date - Cuando se resolvió (si procede)
- labels - Etiquetas asociadas al documento
- related_pr - ID de solicitud de extracción relacionado

return {
    "id": "PR-578",
    "title": "Security hotfix: Patch SQL injection vulnerabilities",
    "text": "Description: CRITICAL SECURITY FIX for ISSUE-1889. Patches SQL...",
    "url": "https://internal-git.techcorp.com/pulls/578",
    "type": "pull_request",
    "status": "closed",
    "priority": "critical",
    "assignee": "sarah_dev",
    "created_date": "2025-09-19",
    "resolved_date": "2025-09-19",
    "labels": "security, hotfix, sql",
    "related_pr": null
}

Nota: Este ejemplo usa una estructura plana donde todos los campos están en el nivel raíz. Los requisitos de OpenAI son flexibles y también admiten objetos de metadatos anidados.

Sets de datos de incidencias y PR de GitHub

Para este tutorial, vamos a usar un set de datos interno de GitHub que contenga incidencias y solicitudes de extracción. Esto representa un escenario en el que deseas buscar datos internos privados a través de ChatGPT.

Los sets de datos se pueden encontrar aquí. Y actualizaremos el índice de los datos mediante la API de bulk.

Este sets de datos incluye:

Problemas con descripciones, estado, prioridad y responsables.
Solicitudes de extracción con cambios de código, revisiones e información de despliegue.
Relaciones entre incidencias y PR (p. ej., PR-578 soluciona ISSUE-1889).
Etiquetas, fechas y otros metadatos

Mappings de índices

El índice utiliza los siguientes mappings para brindar soporte a la búsqueda híbrida con ELSER. El campo text_semantic se utiliza para la búsqueda semántica, mientras que los demás campos permiten la búsqueda por palabras clave.

{
  "mappings": {
    "properties": {
      "id": {
        "type": "keyword"
      },
      "title": {
        "type": "text"
      },
      "text": {
        "type": "text"
      },
      "text_semantic": {
        "type": "semantic_text",
        "inference_id": ".elser-2-elasticsearch"
      },
      "url": {
        "type": "keyword"
      },
      "type": {
        "type": "keyword"
      },
      "status": {
        "type": "keyword"
      },
      "priority": {
        "type": "keyword"
      },
      "assignee": {
        "type": "keyword"
      },
      "created_date": {
        "type": "date",
        "format": "iso8601"
      },
      "resolved_date": {
        "type": "date",
        "format": "iso8601"
      },
      "labels": {
        "type": "keyword"
      },
      "related_pr": {
        "type": "keyword"
      }
    }
  }
}

Construye el servidor MCP

Nuestro servidor MCP implementa dos herramientas que siguen las especificaciones de OpenAI, y utilizan búsquedas híbridas para combinar coincidencia semántica y textual para obtener mejores resultados.

Herramienta de búsqueda

Usa la búsqueda híbrida con RRF (Fusión de Rango Recíproco), combinando la búsqueda semántica con la coincidencia de texto:

@mcp.tool()
    async def search(query: str) -> Dict[str, List[Dict[str, Any]]]:
        """
        Search for internal issues and PRs using hybrid search (semantic + text with RRF).
        Returns list with id, title, and url per OpenAI spec.
        """
        if not query or not query.strip():
            return {"results": []}

        logger.info(f"Searching for: '{query}'")

        try:
            # Hybrid search with RRF (Reciprocal Rank Fusion)
            response = es_client.search(
                index=ELASTICSEARCH_INDEX,
                size=10,
                source=["id", "title", "url", "type", "priority"],
                retriever={
                    "rrf": {
                        "retrievers": [
                            {
                                # Semantic search with ELSER
                                "standard": {
                                    "query": {
                                        "semantic": {
                                            "field": "text_semantic",
                                            "query": query
                                        }
                                    }
                                }
                            },
                            {
                                # Text search (BM25) for keyword matching
                                "standard": {
                                    "query": {
                                        "multi_match": {
                                            "query": query,
                                            "fields": [
                                                "title^3",
                                                "text^2",
                                                "assignee^2",
                                                "type",
                                                "labels",
                                                "priority"
                                            ],
                                            "type": "best_fields",
                                            "fuzziness": "AUTO"
                                        }
                                    }
                                }
                            }
                        ],
                        "rank_window_size": 50,
                        "rank_constant": 60
                    }
                }
            )

            results = []
            if response and 'hits' in response:
                for hit in response['hits']['hits']:
                    source = hit['_source']
                    results.append({
                        "id": source.get('id', hit['_id']),
                        "title": source.get('title', 'Unknown'),
                        "url": source.get('url', '')
                    })

            logger.info(f"Found {len(results)} results")
            return {"results": results}

        except Exception as e:
            logger.error(f"Search error: {e}")
            raise ValueError(f"Search failed: {str(e)}")

Puntos clave:

Búsqueda híbrida con RRF: Combina búsqueda semántica (ELSER) y búsqueda por texto (BM25) para mejores resultados.
Búsqueda de múltiples coincidencias: Busca en múltiples campos con mejores ponderaciones (título^3, texto^2, responsable^2). El símbolo de intercalación (^) multiplica las puntuaciones de relevancia, y prioriza las coincidencias en los títulos sobre el contenido.
Correspondencia aproximada: fuzziness: AUTO maneja los errores tipográficos y ortográficos al permitir coincidencias aproximadas.
Ajuste de parámetros de RRF:
- rank_window_size: 50 - Especifica cuántos resultados principales de cada recuperador (semántico y textual) se consideran antes de combinarlos.
- rank_constant: 60 - Este valor determina cuánta influencia tienen los documentos en los conjuntos de resultados individuales sobre el resultado final clasificado.
Solo devuelve los campos obligatorios: id, title, url según la especificación de OpenAI, y evita exponer otros campos innecesariamente.

Herramienta de extracción

Recupera los detalles del documento por ID de documento, si existe:

@mcp.tool()
    async def fetch(id: str) -> Dict[str, Any]:
        """
        Retrieve complete issue/PR details by ID.
        Returns id, title, text, url.
        """
        if not id:
            raise ValueError("ID is required")

        logger.info(f"Fetching: {id}")

        try:
            # Search by the 'id' field (not _id) since IDs are stored as a field
            response = es_client.search(
                index=ELASTICSEARCH_INDEX,
                body={
                    "query": {
                        "term": {
                            "id": id  # Search by your custom 'id' field
                        }
                    },
                    "size": 1
                }
            )

            if not response or not response['hits']['hits']:
                raise ValueError(f"Document with id '{id}' not found")

            hit = response['hits']['hits'][0]
            source = hit['_source']

            result = {
                "id": source.get('id', id),
                "title": source.get('title', 'Unknown'),
                "text": source.get('text', ''),
                "url": source.get('url', ''),
                "type": source.get('type', ''),
                "status": source.get('status', ''),
                "priority": source.get('priority', ''),
                "assignee": source.get('assignee', ''),
                "created_date": source.get('created_date', ''),
                "resolved_date": source.get('resolved_date', ''),
                "labels": source.get('labels', ''),
                "related_pr": source.get('related_pr', '')
            }

            logger.info(f"Fetched: {result['title']}")
            return result

        except Exception as e:
            logger.error(f"Fetch error: {e}")
            raise ValueError(f"Failed to fetch '{id}': {str(e)}")

Puntos clave:

Búsqueda por campo de ID de documento: usa la búsqueda de término en el campo personalizado id.
Devuelve el documento completo: incluye el campo completo text con todo el contenido.
Estructura plana: todos los campos en el nivel raíz, coincidiendo con la estructura de documentos de Elasticsearch.

Desplegar en Google Colab

Usaremos Google Colab para ejecutar nuestro servidor MCP y ngrok para exponerlo públicamente de forma tal que ChatGPT pueda conectarse.

Paso 1: Abre el cuaderno de Google Colab.

Accede a nuestro cuaderno preconfigurado Elasticsearch MCP para ChatGPT.

Paso 2: Configura tus credenciales

Necesitarás tres datos:

URL de Elasticsearch: Tu URL del cluster de Elasticsearch.
Clave API de Elasticsearch: Clave API con acceso de lectura a tu índice.
Token de autenticación ngrok: Token gratis de ngrok. Usaremos ngrok para exponer la URL de MCP a internet y así ChatGPT pueda conectarse.

Obtener tu token ngrok

Regístrate para una cuenta gratis en ngrok
Ve a tu dashboard de ngrok
Copia tu token de autenticación

Agregar secretos a Google Colab

En el cuaderno de Google Colab:

Haz clic en el icono de llave en la barra lateral izquierda para abrir Secretos.
Añade estos tres secretos:

ELASTICSEARCH_URL=https://your-cluster.elastic.com:443
ELASTICSEARCH_API_KEY=your-api-key
NGROK_TOKEN=your-ngrok-token

3. Habilitar el acceso al cuaderno para cada secreto

Paso 3: Ejecutar el cuaderno

Haz clic en Tiempo de ejecución y, a continuación, en Ejecutar todo para ejecutar todas las celdas.
Espera que el servidor se inicie (aproximadamente 30 segundos).
Busque la salida que muestre su URL pública de ngrok

4. La salida mostrará algo como:

Conéctate a ChatGPT.

Ahora conectaremos el servidor MCP a tu cuenta de ChatGPT.

Abre ChatGPT y ve a Configuración.
Navega a Conectores.Si estás usando una cuenta Pro, debes activar el modo de desarrollador en los conectores.

Si estás usando la versión Enterprise o Business de ChatGPT, debes publicar el conector en tu lugar de trabajo.

3. Haz clic en Crear.

Nota: En los espacios de trabajo Business, Enterprise y Edu, solo los propietarios, administradores y usuarios que tengan habilitada la correspondiente configuración (para Enterprise/Edu) pueden agregar conectores personalizados. Los usuarios con un rol de miembro común no tienen la capacidad de agregar conectores personalizados por su cuenta.

Una vez que un propietario o usuario administrador agrega un conector y lo habilita, estará disponible para que lo usen todos los miembros del espacio de trabajo.

4. Introduce la información requerida y la URL de tu ngrok que termina en /sse/. Recuerda la “/” después de “sse”. No funcionará si no la agregas:

Nombre: Elasticsearch MCP
Descripción: MCP personalizado para buscar y extraer información interna de GitHub.

5. Presione Crear para guardar el MCP personalizado.

La conexión es instantánea si tu servidor está en funcionamiento. No se necesita ninguna otra autenticación, ya que la clave API de Elasticsearch está configurada en tu servidor.

Prueba el servidor MCP

Antes de hacer preguntas, necesitas seleccionar qué conector ChatGPT debe usar.

Indicación 1: Buscar incidencias

Pregunta: “Encuentre incidencias relacionadas con la migración de Elasticsearch” y confirma la llamada a la herramienta de acciones.

ChatGPT llamará a la herramienta search con tu búsqueda. Puedes ver que está buscando herramientas disponibles y preparándose para llamar a la herramienta Elasticsearch y confirma con el usuario antes de tomar cualquier acción en relación con la herramienta.

Solicitud de llamada a la herramienta:

{
  "query": "Elasticsearch migration issues"
}

Respuesta de la herramienta:

{
  "results": [
    {
      "id": "PR-598",
      "title": "Elasticsearch 8.x migration - Application code changes",
      "url": "https://internal-git.techcorp.com/pulls/598"
    },
    {
      "id": "ISSUE-1712",
      "title": "Migrate from Elasticsearch 7.x to 8.x",
      "url": "https://internal-git.techcorp.com/issues/1712"
    },
    {
      "id": "RFC-045",
      "title": "Design Proposal: Microservices Migration Architecture",
      "url": "https://internal-git.techcorp.com/rfcs/045"
    }
    // ... 7 more results
  ]
}

ChatGPT procesa los resultados y los presenta en un formato natural y conocido.

Entre bastidores

Indicación: “Busca incidencias relacionadas con la migración de Elasticsearch”

1. Llamadas de ChatGPT search(“Elasticsearch migration”)

2. Elasticsearch realiza una búsqueda híbrida

La búsqueda semántica entiende conceptos como “actualización” y “compatibilidad de versiones”.
La búsqueda de texto encuentra coincidencias exactas de "Elasticsearch" y "migración".
RRF combina y clasifica los resultados de ambos enfoques

3. Devuelve los 10 mejores eventos que coinciden con id, title, url

4. ChatGPT identifica “ISSUE-1712: migrar de Elasticsearch 7.x a 8.x” como el resultado más relevante.

Indicación 2: Obtén los detalles completos

Pregunta: “Obtén detalles de ISSUE-1889”

ChatGPT reconoce que deseas información detallada sobre una incidencia específica, llama a la herramienta fetch y confirma con el usuario antes de tomar cualquier acción con la herramienta.

Solicitud de llamada a la herramienta:

{
  "id": "ISSUE-1889"
}

Respuesta de la herramienta:

{
  "id": "ISSUE-1889",
  "title": "SQL injection vulnerability in search endpoint",
  "text": "Description: Security audit identified SQL injection vulnerability in /api/v1/search endpoint. User input from query parameter is not properly sanitized before being used in raw SQL query. Severity: HIGH - Immediate action required Affected Code: - File: services/search/query_builder.py - Line: 145-152 - Issue: String concatenation used instead of parameterized queries Investigation: - @security_team_alice: Confirmed exploitable with UNION-based injection - @sarah_dev: Checking all other endpoints for similar patterns - @john_backend: Found 3 more instances in legacy codebase Remediation: - Rewrite using SQLAlchemy ORM or parameterized queries - Add input validation and sanitization - Implement WAF rules as additional layer - Security regression tests Comments: - @tech_lead_mike: Stop all other work, this is P0 - @sarah_dev: PR-578 ready with fixes for all 4 vulnerable endpoints - @alex_devops: Deployed hotfix to production 2025-09-19 at 14:30 UTC - @security_team_alice: Verified fix, conducting full pentest next week Resolution: All vulnerable endpoints patched. Added pre-commit hooks to catch raw SQL queries. Security training scheduled for team.",
  "url": "https://internal-git.techcorp.com/issues/1889",
  "type": "issue",
  "status": "closed",
  "priority": "critical",
  "assignee": "sarah_dev",
  "created_date": "2025-09-18",
  "resolved_date": "2025-09-19",
  "labels": "security, vulnerability, bug, sql",
  "related_pr": "PR-578"
}

ChatGPT sintetiza la información y la presenta de manera clara.

Entre bastidores

Indicación: «Obtén los detalles de ISSUE-1889»

Llamadas de ChatGPT fetch(“ISSUE-1889”)
Elasticsearch recupera el documento completo
Devuelve un documento completo con todos los campos a nivel raíz.
ChatGPT sintetiza la información y responde con citas adecuadas.

Conclusión

En este artículo, creamos un servidor MCP personalizado que conecta ChatGPT a Elasticsearch con herramientas MCP dedicadas de búsqueda y extracción, lo cual permite realizar búsquedas en lenguaje natural sobre datos privados.

Este patrón MCP funciona para cualquier índice, documentación, productos, logs o cualquier otro dato de Elasticsearch que quieras buscar mediante lenguaje natural.

Desarrollo de un asistente RAG agente usando LangChain y Elasticsearch

Kirti Sodhi — Fri, 28 Nov 2025 00:00:00 GMT

Esta entrada de blog profundiza en los flujos de trabajo de RAG agentes, explicando sus características clave y patrones de diseño habituales. Además, demuestra cómo implementar estos flujos de trabajo mediante un ejemplo práctico que emplea Elasticsearch como almacén vectorial y LangChain para construir el marco agente RAG. Finalmente, el artículo analiza brevemente las mejores prácticas y los desafíos asociados al diseño e implementación de dichas arquitecturas. Puedes seguir el proceso para crear una pipeline agente RAG sencilla con este cuaderno Jupyter.

Introducción al RAG agente

La Generación Aumentada por Recuperación (RAG) se convirtió en una piedra angular en aplicaciones basadas en LLM, permitiendo a los modelos proporcionar respuestas óptimas al recuperar el contexto relevante basado en las consultas de los usuarios. Los sistemas RAG mejoran la precisión y el contexto de las respuestas de los LLM al aprovechar información externa de APIs o almacenes de datos, en lugar de limitar al conocimiento preentrenado de los LLM. Por otro lado, los agentes de IA operan de forma autónoma, tomando decisiones y tomando medidas para alcanzar sus objetivos designados.

El RAG agente es un marco que unifica las fortalezas tanto de la generación aumentada por recuperación como del razonamiento agentivo. Integra RAG en el proceso de toma de decisiones del agente, permitiendo al sistema elegir dinámicamente fuentes de datos, refinar consultas para una mejor recuperación de contexto, generar respuestas más precisas y aplicar un bucle de retroalimentación para mejorar continuamente la calidad de la salida.

Características clave del RAG agente

El marco RAG agente supone un avance importante respecto a los sistemas RAG tradicionales. En lugar de seguir un proceso de recuperación fijo, aprovecha agentes dinámicos capaces de planear, ejecutar y optimizar resultados en tiempo real.

Veamos algunas de las características clave que distinguen a las pipelines RAG agenticas:

Toma de decisiones dinámica: El RAG agente emplea un mecanismo de razonamiento para entender la intención del usuario y enrutar cada consulta a la fuente de datos más relevante, produciendo respuestas precisas y conscientes del contexto.
Análisis exhaustivo de consultas: Agentic RAG analiza en profundidad las consultas de los usuarios, incluyendo subpreguntas y su intención general. Evalúa la complejidad de las consultas y selecciona dinámicamente las fuentes de datos más relevantes para obtener información, cerciorando respuestas precisas y completas.
Colaboración en varias etapas: Este marco permite la colaboración en varias etapas a través de una red de agentes especializados. Cada agente gestiona una parte específica de un objetivo mayor, trabajando de forma secuencial o simultánea para lograr un resultado coherente.
Mecanismos de autoevaluación: La cadena agente RAG emplea la autorreflexión para evaluar documentos recuperados y respuestas generadas. Puede comprobar si la información recuperada responde completamente a la consulta y luego revisar la salida para comprobar su exactitud, completitud y consistencia fáctica.
Integración con herramientas externas: Este flujo de trabajo puede interactuar con APIs externas, bases de datos y fuentes de información en tiempo real, incorporando información actualizada y adaptar dinámicamente a los datos en evolución.

Patrones de flujo de trabajo del RAG agente

Los patrones de flujo de trabajo definen cómo la IA agente estructura, gestiona y orquesta aplicaciones basadas en LLM de manera fiable y eficiente. Varios frameworks y plataformas, como LangChain, LangGraph, CrewAI y LlamaIndex, pueden emplear para implementar estos flujos de trabajo agentes.

Cadena de recuperación secuencial: Los flujos de trabajo secuenciales dividen tareas complejas en pasos simples y ordenados. Cada paso mejora la entrada para el siguiente, lo que conduce a mejores resultados. Por ejemplo, al crear un perfil de cliente, un agente puede extraer datos básicos de un CRM, otro obtener el historial de compras de una base de datos de transacciones y un agente final combinar esta información para generar un perfil completo de recomendaciones o reportes.
Cadena de recuperación de enrutamiento: En este patrón de flujo de trabajo, un agente router analiza la entrada y la dirige al proceso o fuente de datos más adecuada. Este enfoque es especialmente eficaz cuando existen múltiples fuentes de datos distintas con una superposición mínima. Por ejemplo, en un sistema de atención al cliente, el agente del router categoriza las solicitudes entrantes, como problemas técnicos, reembolsos o reclamaciones, y las encamina al departamento correspondiente para su gestión eficiente.
Cadena de recuperación paralela: En este patrón de flujo de trabajo, se ejecutan simultáneamente múltiples subtareas independientes y sus salidas se agregan posteriormente para generar una respuesta final. Este enfoque reduce significativamente el tiempo de procesamiento y aumenta la eficiencia del flujo de trabajo. Por ejemplo, en un flujo de trabajo paralelo de atención al cliente, un agente recupera solicitudes pasadas similares y otro consulta artículos relevantes de la base de conocimiento. Un agregador combina entonces estas salidas para generar una resolución completa.
Cadena de trabajadores Orchestrator: Este flujo de trabajo comparte similitudes con la paralelización debido a su utilización de subtareas independientes. Sin embargo, una distinción clave radica en la integración de un agente orquestador. Este agente es responsable de analizar las consultas de los usuarios, segmentarlas dinámicamente en subtareas durante la ejecución e identificar los procesos o herramientas adecuadas necesarias para formular una respuesta precisa.

Construyendo una pipeline RAG agentica desde cero

Para ilustrar los principios del RAG agente, diseñemos un flujo de trabajo usando LangChain y Elasticsearch. Este flujo de trabajo adopta una arquitectura basada en enrutamiento, donde varios agentes colaboran para analizar consultas, recuperar información relevante, evaluar resultados y generar respuestas coherentes. Podrías consultar este cuaderno Jupyter para seguir este ejemplo.

El flujo de trabajo comienza con el agente router, que analiza la consulta del usuario para seleccionar el método óptimo de recuperación, es decir, un enfoque vectorstore, websearcho composite . La vectorstore se encarga de la recuperación tradicional de documentos basada en RAG, la búsqueda sitio web obtiene la información más reciente que no está almacenada en la vectorstore, y el enfoque compuesto combina ambas cuando se necesita información de múltiples fuentes.

Si los documentos se consideran adecuados, el agente de resumen genera una respuesta clara y contextualmente adecuada. Sin embargo, si los documentos son insuficientes o irrelevantes, el agente de reescritura de la consulta reformula la consulta para mejorar la búsqueda. Esta consulta revisada resetear entonces el proceso de enrutamiento, permitiendo al sistema refinar su búsqueda y mejorar la salida final.

Prerrequisitos

Este flujo de trabajo se basa en los siguientes componentes clave para ejecutar el ejemplo de forma eficaz:

Python 3.10
Cuaderno Jupyter
Azure OpenAI
Elasticsearch
LangChain

Antes de continuar, se te pedirá que configures el siguiente conjunto de variables de entorno requeridas para este ejemplo.

AZURE_OPENAI_ENDPOINT="Add your azure openai endpoint"
AZURE_OPENAI_KEY="Add your azure openai key"
AZURE_OPENAI_DEPLOYMENT="gpt-4.1"
AZURE_OPENAI_API_VERSION="Add your azure openai api version"

ES_ENDPOINT = "Add your Elasticsearch ENDPOINT"
ES_API_KEY = "Add your Elasticsearch API KEY"

Fuentes de datos

Este flujo de trabajo se ilustra empleando un subconjunto del conjunto de datos de AG News. El conjunto de datos comprende artículos de noticias en diversas categorías, como Internacional, Deportes, Negocios y Ciencia/Tecnología.

dataset = load_dataset("ag_news", split="train[:1000]")
docs = [
    Document(
        page_content=sample["text"],
        metadata={"category": sample["label"]}
    )
    for sample in dataset
]

El módulo ElasticsearchStore se emplea desde el langchain_elasticsearch como nuestro almacén vectorial. Para la recuperación, implementamos SparseVectorStrategy, empleando ELSER, el modelo propietario de incrustación de Elastic. Es esencial confirmar que el modelo ELSER está correctamente instalado y desplegado en tu entorno Elasticsearch antes de iniciar el almacén vectorial.

elastic_vectorstore = ElasticsearchStore.from_documents(
    docs,
    es_url=ES_ENDPOINT,
    es_api_key=ES_API_KEY,
    index_name=index_name,
    strategy=SparseVectorStrategy(model_id=".elser_model_2"),
)

elastic_vectorstore.client.indices.refresh(index=index_name)

La funcionalidad de búsqueda sitio web se implementa usando DuckDuckGoSearchRun de las herramientas comunitarias LangChain, lo que permite al sistema recuperar información en tiempo real de la web de forma eficiente. También puedes considerar usar otras APIs de búsqueda que puedan ofrecer resultados más relevantes. Esta herramienta fue elegida porque permite búsquedas sin necesidad de clave API.

duckduckgo = DuckDuckGoSearchRun(description= "A custom DuckDuckGo search tool for finding latest news stories.", verbose=True)
def websearch_retriever(query):
    results = duckduckgo.run(f"{query}")
    return results

El retriever compuesto está diseñado para consultas que requieren una combinación de fuentes. Se emplea para proporcionar una respuesta completa y contextualmente precisa al recuperar datos en tiempo real de la web y consultar noticias históricas del almacén vectorial.

def composite_retriever(query):
    related_docs = vectorstore_retriever(query)
    related_docs += websearch_retriever(query)
    return related_docs

Preparando a los agentes

En el siguiente paso, los agentes LLM se definen para proporcionar capacidades de razonamiento y toma de decisiones dentro de este flujo de trabajo. Las cadenas de LLM que crearemos incluyen: router_chain, grade_docs_chain, rewrite_query_chainy summary_chain.

El agente router emplea un asistente LLM para determinar la fuente de datos más adecuada para una consulta determinada en tiempo de ejecución. El agente evaluador evalúa la relevancia de los documentos recuperados. Si los documentos se consideran relevantes, se entregan al agente de resumen para que genere un resumen. De lo contrario, el agente de consulta de reescritura reformula la consulta y la envía de vuelta al proceso de enrutamiento para otro intento de recuperación. Puedes encontrar las instrucciones de todos los agentes en la sección de cadenas de LLM del cuaderno.

class RouteQuery(BaseModel):
    datasource: Literal["vectorstore", "websearch", "composite"] = Field(
        ...,
        description="Choose to route the query to web search, vectorstore or composite."
    )

router_prompt = ChatPromptTemplate.from_template("""You are an assistant that decides the best data source for questions based on news articles.
Choose one of the following options:
- 'vectorstore': for general, background, or historical news articles.
- 'websearch': for recent discoveries, 'latest', 'current', or '2025' type queries.
- 'composite': when the question needs both historical and current knowledge on news articles.

Question: {query}

Return one word: 'vectorstore', 'websearch', or 'composite'.
""")
router_structured = llm.with_structured_output(RouteQuery)
router_chain: RunnableSequence = router_prompt | router_structured

La llm.with_structured_output limita la salida del modelo para seguir un esquema predefinido definido por el BaseModel bajo la clase RouteQuery , cerciorando la consistencia de los resultados. La segunda línea compone una RunnableSequence conectando router_prompt con router_structured, formando una tubería en la que el modelo de lenguaje procesa el prompt de entrada para producir resultados estructurados y compatibles con el esquema.

Definir nodos de grafo

Esta parte implica definir los estados del grafo, que representan los datos que fluyen entre los diferentes componentes del sistema. Una especificación clara de estos estados cerciora que cada nodo del flujo de trabajo sepa qué información puede acceder y actualizar.

class RAGState(TypedDict):
    query: str
    docs: List[Document]
    router: str
    summary: str
    self_reflection: bool
    retry_count: int = 0

Una vez definidos los estados, el siguiente paso es definir los nodos del grafo. Los nodos son como las unidades funcionales del grafo que realizan operaciones específicas sobre los datos. Hay 7 nodos diferentes en nuestra pipeline.

def router(state: RAGState):
   router = router_chain.invoke({'query': state["query"]})
   logger.info(f"Router selected the datasource: {router.datasource}")
   logger.info(f"User query: {state['query']}")
   return {"router": router.datasource}

def vectorstore(state: RAGState):
   return {"docs": vectorstore_retriever(state["query"])}

def websearch(state: RAGState):
   return {"docs": websearch_retriever(state["query"])}

def composite(state: RAGState):
   return {"docs": composite_retriever(state["query"])}

def self_reflection(state: RAGState):
   evaluation = grade_docs_chain.invoke(
       {"query": state["query"], "docs": state["docs"]}
   )
   if evaluation.binary_score:
       logger.info(f"Self-reflection passed -- binary_score={evaluation.binary_score}")
   else:
       logger.info(f"Self-reflection failed -- binary_score={evaluation.binary_score}")

   return {
       "self_reflection": evaluation.binary_score,
   }

def query_rewriter(state: RAGState):
   retry_count = state.get("retry_count", 0) + 1
   new_query = rewrite_query_chain.invoke({"query": state["query"]})
   logger.info(f"Query rewritten: {new_query}, retry_count: {retry_count}")
   return {
       "query": new_query,
       "retry_count": retry_count,
   }

def summarize(state: RAGState):
   summary = summarize_chain.run(
       query=state["query"],
       docs=state["docs"],
   )
   return {"summary": summary}

El nodo query_rewriter cumple dos funciones en el flujo de trabajo. Primero, reescribe la consulta del usuario usando el rewrite_query_chain para mejorar la recuperación cuando los documentos evaluados por el agente autorreflexivo se consideran insuficientes o irrelevantes. Segundo, actúa como un contador que registra cuántas veces se reescribió la consulta.

Cada vez que se invoca el nodo, incrementa la retry_count almacenada en el estado del flujo de trabajo. Este mecanismo impide que el flujo de trabajo entre en un bucle infinito. Si el retry_count supera un umbral predefinido, el sistema puede recurrir a un estado de error, una respuesta por defecto o cualquier otra condición predefinida que elijas.

Compilación del grafo

El último paso es definir las aristas del grafo y agregar las condiciones necesarias antes de compilarlo. Cada grafo debe comenzar desde un nodo inicial designado, que sirve como punto de entrada para el flujo de trabajo. Las aristas en el gráfico representan el flujo de datos entre nodos y pueden ser de dos tipos:

Aristas rectas: Estas definen un flujo directo e incondicional de un nodo a otro. Cada vez que el primer nodo completa su tarea, el flujo de trabajo avanza automáticamente al siguiente nodo a lo largo de la arista recta.
Aristas condicionales: Estas permiten que el flujo de trabajo se ramifice según el estado actual o los resultados del cálculo de un nodo. El siguiente nodo se selecciona dinámicamente en función de condiciones como resultados de evaluación, decisiones de enrutamiento o recuentos de intentos.

graph.add_edge(START, "router")

def after_router(state: RAGState):
   route = state.get("router", None)
   if route == "vectorstore":
       return "vectorstore"
   elif route == "websearch":
       return "websearch"
   else:
       return "composite"

def after_self_reflection(state: RAGState):
   if state["self_reflection"]:
           return "summarize"
   return "query_rewriter"

def after_query_rewriter(state: RAGState):
   while state['retry_count'] <= 3:
           return "router"
   raise RuntimeError("Maximum retries (3) reached -- evaluation failed.")

graph.add_conditional_edges(
   "router",
   after_router,
   {
       "vectorstore": "vectorstore",
       "websearch": "websearch",
       "composite": "composite"
   }
)

graph.add_edge("vectorstore", "self_reflection")
graph.add_edge("websearch", "self_reflection")
graph.add_edge("composite", "self_reflection")
graph.add_conditional_edges(
   "self_reflection",
   after_self_reflection,
   {
       "summarize": "summarize",
       "query_rewriter": "query_rewriter"
   }
)
graph.add_conditional_edges("query_rewriter", after_query_rewriter, {"router": "router"})
graph.add_edge("summarize", END)
agent=graph.compile()

Con eso, tu primera pipeline de RAG agente está lista y puede probar usando el agente compilado.

result = agent.invoke({"query": query1})
logger.info(f"\nFinal Summary:\n: {result['summary']}")

Prueba de la tubería agente RAG

Ahora probaremos esta canalización usando tres tipos distintos de consultas como se indica a continuación. Ten en cuenta que los resultados pueden variar, y los ejemplos que se muestran a continuación ilustran solo un posible resultado.

query1="What are the latest AI models released this month?"
query2="What technological innovations are discussed in Sci/Tech news?"
query3="Compare a Sci/Tech article from the dataset with a current web article about AI trends."

Para la primera consulta, el router selecciona websearch como fuente de datos. La consulta no supera la evaluación de autorreflexión y posteriormente se redirige a la etapa de reescritura de la consulta, como se muestra en el resultado.

INFO     | __main__:router:11 - Router selected the datasource: websearch
INFO     | __main__:router:12 - User query: What are the latest AI models released this month?
Latest Singapore news, including the city state's relationships with Malaysia and Mahathir, China and Xi Jinping, and the rest of Southeast Asia. 3 days ago · The latest military news, insights and analysis from China. All the latest news, opinions and analysis on Hong Kong, China, Asia and around the world Latest news, in-depth features and opinion on Malaysia, covering politics, economy, society and the Asean member-nation's relationships with China, Singapore, and other Southeast Asian ... Oct 12, 2025 · Brics (an acronym for Brazil, Russia, India, China and South Africa) refers to an association of 10 leading emerging markets. The other member states are Egypt, Ethiopia, ...
INFO     | __main__:self_reflection:31 - Self-reflection failed -- binary_score=False
INFO     | __main__:query_rewriter:40 - Query rewritten: query='Which AI models have been officially released in June 2024?', retry_count: 1
INFO     | __main__:router:11 - Router selected the datasource: websearch
INFO     | __main__:router:12 - User query: query='Which AI models have been officially released in June 2024?'
Dream Machine is a text-to-video model created by Luma Labs and launched in June 2024 . It generates video output based on user prompts or still images. Dream Machine has been noted for its ability to realistically capture motion... Released in June 2023. In June 2024 , Baidu announced Ernie 4.0 Turbo. In April 2025, Ernie 4.5 Turbo and X1 Turbo were released . These models are optimized for faster response times and lower operational costs.[28][29]. The meaning of QUERY is question, inquiry. How to use query in a sentence. Synonym Discussion of Query. QUERY definition: 1. a question, often expressing doubt about something or looking for an answer from an authority.... Learn more. Query definition: a question; an inquiry.. See examples of QUERY used in a sentence.
INFO     | __main__:self_reflection:29 - Self-reflection passed -- binary_score=True
INFO     | __main__::2 - 
Final Summary:
: In June 2024, two AI models were officially released: Dream Machine, a text-to-video model launched by Luma Labs, and Ernie 4.0 Turbo, announced by Baidu, which is optimized for faster response times and lower operational costs.

A continuación, examinamos un ejemplo en el que se emplea vectorstore recuperación, demostrado con la segunda consulta.

INFO     | __main__:router:11 - Router selected the datasource: vectorstore
INFO     | __main__:router:12 - User query: What technological innovations are discussed in Sci/Tech news?
INFO     | __main__:self_reflection:29 - Self-reflection passed -- binary_score=True
INFO     | __main__::2 - 
Final Summary:
: Recent Sci/Tech news highlights several technological innovations: NASA is collaborating with Silicon Valley firms to build a powerful Linux-based supercomputer to support theoretical research and shuttle engineering; new chromatin transfer techniques have enabled the cloning of cats; cybersecurity advancements are being discussed in relation to protecting personal technology; Princeton University scientists assert that existing technologies can be used immediately to stabilize global warming; and a set of GameBoy micro-games has been recognized for innovation in game design.

La consulta final se dirige a la recuperación compuesta, que emplea tanto la vectorstore como la búsqueda sitio web.

INFO     | __main__:router:11 - Router selected the datasource: composite
INFO     | __main__:router:12 - User query: Compare a Sci/Tech article from the dataset with a current web article about AI trends.
Atlas currently only available on macOS, built on Chromium with planned features like ad-blocking still in development. OpenAI's Atlas browser launched with bold promises of AI -powered web browsing, but early real-world testing reveals a different story. Career-long data are updated to end-of-2024 and single recent year data pertain to citations received during calendar year 2024. The selection is based on the top 100,000 scientists by c-score (with and without self-citations) or a percentile rank of 2% or above in the sub-field. In this article I list 45 AI tools across 21 different categories. After exploring all the available options in each category, I've carefully selected the best tools based on my personal experience. Reading a complex technical article ? Simply highlight confusing terminology and ask "what's this?" to receive instant explanations. compare browsers. Comparison showing traditional browser navigation versus OpenAI Atlas AI -powered workflows. After putting Gemini, ChatGPT, Grok, and DeepSeek through rigorous testing in October 2025, it's clear that there isn't one AI that reigns supreme across all categories.
INFO     | __main__:self_reflection:29 - Self-reflection passed -- binary_score=True
INFO     | __main__::2 - 
Final Summary:
: A Sci/Tech article from the dataset highlights NASA's development of robust artificial intelligence software for planetary rovers, aiming to make them more self-reliant and capable of decision-making during missions. In contrast, a current web article about AI trends focuses on the proliferation of AI-powered tools across various categories, including browsers like OpenAI Atlas, and compares leading models such as Gemini, ChatGPT, Grok, and DeepSeek, noting that no single AI currently excels in all areas. While the NASA article emphasizes specialized AI applications for autonomous robotics in space exploration, the current trends article showcases the broadening impact of AI across consumer and professional technologies, with ongoing competition and rapid innovation among major AI platforms.

En el flujo de trabajo anterior, el RAG agente determina de forma inteligente qué fuente de datos emplear al recuperar información para una consulta de usuario, mejorando así la precisión y relevancia de la respuesta. Puedes crear ejemplos adicionales para probar al agente y revisar los resultados para ver si dan resultados interesantes.

Mejores prácticas para construir flujos de trabajo agenticos RAG

Ahora que entendemos cómo funciona el RAG agente, veamos algunas buenas prácticas para construir estos flujos de trabajo. Seguir estas directrices ayudará a mantener el sistema eficiente y fácil de mantener.

Prepárate para los recursos de respaldo: Planea estrategias de respaldo con antelación para escenarios en los que algún paso del flujo de trabajo falle. Estos pueden incluir devolver respuestas por defecto, activar estados de error o emplear herramientas alternativas. Esto garantiza que el sistema gestione los fallos con elegancia sin romper el flujo de trabajo global.
Implementa registros completos: Prueba a implementar registros en cada etapa del flujo de trabajo, como intentos, salidas generadas, elecciones de enrutamiento y reescrituras de consultas. Estos registros ayudan a mejorar la transparencia, facilitan la depuración y ayudan a refinar los prompts, el comportamiento de los agentes y las estrategias de recuperación con el tiempo.
Selecciona el patrón de flujo de trabajo adecuado: Examina tu caso de uso y selecciona el patrón que mejor se adapte a tus necesidades. Emplea flujos de trabajo secuenciales para razonamiento paso a paso, flujos de trabajo paralelos para fuentes de datos independientes y patrones orquestador-trabajador para consultas multiherramienta o complejas.
Incorpora estrategias de evaluación: Integra mecanismos de evaluación en diferentes etapas del flujo de trabajo. Estos pueden incluir agentes de autorreflexión, calificación de documentos recuperados o controles automáticos de calidad. La evaluación ayuda a verificar que los documentos recuperados son relevantes, que las respuestas son precisas y que todas las partes de una consulta compleja están abordadas.

Desafíos

Aunque los sistemas RAG agenticos ofrecen beneficios significativos en términos de adaptabilidad, precisión y razonamiento dinámico, también presentan ciertos desafíos que deben abordar durante sus etapas de diseño e implementación. Algunos de los principales retos incluyen:

Flujos de trabajo complejos: A medida que se agregan más agentes y puntos de decisión, el flujo de trabajo global se vuelve cada vez más complejo. Esto puede llevar a mayores probabilidades de errores o fallos en tiempo de ejecución. Siempre que sea posible, prioriza flujos de trabajo optimizados eliminando agentes redundantes y puntos de decisión innecesarios.
Escalabilidad: Puede ser complicado escalar sistemas RAG agentes para manejar grandes conjuntos de datos y grandes volúmenes de consultas. Incorpora estrategias eficientes de indexación, caché y procesamiento distribuido para mantener el rendimiento a gran escala.
Orquestación y sobrecarga computacional: La ejecución de flujos de trabajo con múltiples agentes requiere orquestación avanzada. Esto incluye una planeación cuidadosa, gestión de dependencias y coordinación de agentes para evitar cuellos de botella y conflictos, todo lo cual contribuye a la complejidad general del sistema.
Complejidad de la evaluación: La evaluación de estos flujos de trabajo presenta desafíos inherentes, ya que cada etapa requiere una estrategia de evaluación distinta. Por ejemplo, la etapa RAG debe evaluar para verificar la relevancia y completitud de los documentos recuperados, mientras que los resúmenes generados deben verificar para garantizar su calidad y precisión. Del mismo modo, la efectividad de la reformulación de consultas requiere una lógica de evaluación separada para determinar si la consulta reescrita mejora los resultados de recuperación.

Conclusión

En esta entrada de blog, presentamos el concepto de RAG agente y destacamos cómo mejora el marco tradicional de RAG al incorporar capacidades autónomas de la IA agente. Exploramos las características principales de RAG agente y demostramos estas características mediante un ejemplo práctico, construyendo un asistente de noticias usando Elasticsearch como almacén vectorial y LangChain para crear el marco agente.

Además, discutimos las mejores prácticas y los principales retos a considerar al diseñar e implementar una pipeline agentica RAG. Estos conocimientos están destinados a guiar a los desarrolladores en la creación de sistemas agentivos robustos, escalables y eficientes que combinen eficazmente la recuperación, el razonamiento y la toma de decisiones.

¿Qué sigue ahora?

El flujo de trabajo que creamos es sencillo, dejando amplio margen para mejoras y experimentación. Podemos mejorar esto experimentando con varios modelos de incrustación y refinando estrategias de recuperación. Además, integrar a un agente de reclasificación para priorizar los documentos recuperados podría ser beneficioso. Otra área de exploración implica desarrollar estrategias de evaluación para marcos agentivos, identificando específicamente enfoques comunes y reutilizables aplicables a diferentes tipos de marcos. Por último, experimentar con estos marcos en conjuntos de datos grandes y más complejos.

Mientras tanto, si tienes experimentos similares que compartir, ¡nos encantaría saberlos! No dudes en dar tus opiniones o conectar con nosotros a través de nuestro canal comunitario de Slack o foros de discusión.

Recursos

Búsqueda híbrida sin dolores de cabeza: simplificando la búsqueda híbrida con retrievers

Mike Pellegrini — Thu, 27 Nov 2025 00:00:00 GMT

La búsqueda híbrida es ampliamente reconocida como un enfoque de búsqueda poderosa, que combina la precisión y rapidez de la búsqueda léxica con las capacidades de lenguaje natural de la búsqueda semántica. Sin embargo, aplicarlo en la práctica puede ser complicado, ya que a menudo requiere un conocimiento profundo del índice y la construcción de consultas extensas con configuraciones no triviales. En este blog, exploraremos cómo el formato de consulta multicampo para retrievers lineales y RRF hace que la búsqueda híbrida sea más sencilla y accesible, eliminando los dolores de cabeza comunes y permitiéndote aprovechar todo su poder con mayor facilidad. También revisaremos cómo el formato de consulta multicampo te permite realizar consultas de búsqueda híbridas sin conocimiento previo de tu índice.

El problema del rango de puntaje

Para contextualizar, repasemos una de las principales razones por las que la búsqueda híbrida puede ser difícil: los rangos de puntaje variables. Nuestro viejo amigo BM25 produce puntajes ilimitados. En otras palabras, BM25 puede generar puntajes que van desde cerca de 0 hasta (teóricamente) infinitas. En cambio, las consultas contra dense_vector campos producirán puntajes acotados entre 0 y 1. Para empeorar este problema, semantic_text ofusca el tipo de campo empleado para indexar incrustaciones, así que a menos que tengas un conocimiento detallado sobre tu configuración de índices y endpoints de inferencia, puede ser difícil saber cuál será el rango de puntaje de tu consulta. Esto presenta un problema al intentar entrecalar resultados de búsqueda léxica y semántica, ya que los resultados léxicos pueden tener prioridad sobre los semánticos incluso si los resultados semánticos son más relevantes. La solución generalmente aceptada para este problema es normalizar los puntajes antes de entrelazar los resultados. Elasticsearch dispone de dos herramientas para esto: los retrievers lineales y RRF .

El recuperador RRF aplica el algoritmo RRF, usando el rango del documento como medida de relevancia y descartando el puntaje. Como el puntaje no se tiene en cuenta, las discrepancias en el rango de puntaje no son un problema.

El retriever lineal emplea una combinación lineal para determinar el puntaje final de un documento. Esto implica tomar el puntaje de cada consulta componente para el documento, normalizarla y sumarla para generar el puntaje total. Matemáticamente, la operación puede expresar como:

Total Score = 𝚺(N(Sx))

Donde N es la función de normalización, y SX es el puntaje para la consulta X. La función de normalización es clave aquí, ya que transforma el puntaje de cada consulta para usar el mismo rango. Puedes aprender más sobre el retriever lineal aquí.

Desglosándolo

Los usuarios pueden implementar una búsqueda híbrida eficaz con estas herramientas, pero requiere cierto conocimiento sobre tu índice. Veamos un ejemplo con el retriever lineal, donde consultaremos un índice con dos campos:

PUT linear_retriever_example
{
  "mappings": {
    "properties": {
      "semantic_text_field": { <1>
        "type": "semantic_text",
        "inference_id": ".multilingual-e5-small-elasticsearch"
      },
      "text_field": { <2>
        "type": "text"
      }
    }
  }
}

1. semantic_text_field es un campo semantic_text que emplea E5, un modelo de incrustación de texto

2. text_field es un campo estándar de text

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "retrievers": [
        {
          "retriever": {
            "standard": {
              "query": {
                "match": { <1>
                  "semantic_text_field": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        },
        {
          "retriever": {
            "standard": {
              "query": {
                "match": {
                  "text_field": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        }
      ]
    }
  }
}

1. Usamos una consulta match en nuestro campo semantic_text , para la que agregamos soporte en Elasticsearch 8.18/9.0

Al construir la consulta, debemos tener en cuenta que semantic_text_field emplea un modelo de incrustación de texto, por lo que cualquier consulta generará un puntaje entre 0 y 1. También necesitamos saber que text_field es un campo de text estándar y, por tanto, las consultas sobre él generarán un puntaje no acotada. Para crear un conjunto de resultados con la relevancia adecuada, necesitamos usar un retriever que normalice los puntajes de consulta antes de combinarlas. En este ejemplo, usamos el retriever lineal con minmax normalización, que normaliza el puntaje de cada consulta a un valor entre 0 y 1.

La construcción de la consulta en este ejemplo es bastante sencilla porque solo están involucrados dos campos. Sin embargo, puede complicar muy rápido a medida que se agregan más campos, y de diferentes tipos. Esto demuestra cómo escribir una consulta híbrida eficaz suele requerir un conocimiento más profundo del índice que se consulta, de modo que los puntajes de los componentes se normalicen correctamente antes de la combinación. Esto supone una barrera para la adopción más amplia de la búsqueda híbrida.

Agrupación de consultas

Ampliemos el ejemplo: ¿Y si quisiéramos consultar un campo text y dos campos semantic_text ? Podríamos construir una consulta así:

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "retrievers": [
        {
          "retriever": {
            "standard": {
              "query": {
                "semantic": {
                  "field": "semantic_text_field_1",
                  "query": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        },
        {
          "retriever": {
            "standard": {
              "query": {
                "semantic": {
                  "field": "semantic_text_field_2",
                  "query": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        },
        {
          "retriever": {
            "standard": {
              "query": {
                "match": {
                  "text_field": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        }
      ]
    }
  }
}

Eso parece bueno a simple vista, pero hay un posible problema. Ahora los semantic_text partidos de campo representan dos tercios del total del puntaje:

Total Score = N(semantic_text_field_1 score) + N(semantic_text_field_2 score) + N(text_field score)

Probablemente esto no es lo que buscas porque crea un puntaje desequilibrado. Los efectos pueden no ser tan evidentes en un ejemplo como este con solo 3 campos, pero se vuelve problemático cuando se consultan más campos. Por ejemplo, la mayoría de los índices contienen muchos más cuerpos léxicos que la semántica (es decir, dense_vector, sparse_vector, o semantic_text). ¿Y si consultáramos un índice con 9 campos léxicos y 1 campo semántico usando el patrón anterior? Las coincidencias léxicas representarían el 90% del puntaje, lo que reduce la efectividad de la búsqueda semántica.

Una forma común de abordar esto es agrupar las consultas en categorías léxicas y semánticas y ponderar ambas de forma uniforme. Esto impide que cualquiera de las dos categorías domine el puntaje total.

Pongámoslo en práctica. ¿Cómo sería este enfoque de consultas agrupadas en este ejemplo al usar el retriever lineal?

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "retrievers": [
        {
          "retriever": {
            "linear": {
              "retrievers": [
                {
                  "retriever": {
                    "standard": {
                      "query": {
                        "semantic": {
                          "field": "semantic_text_field_1",
                          "query": "foo"
                        }
                      }
                    }
                  },
                  "normalizer": "minmax"
                },
                {
                  "retriever": {
                    "standard": {
                      "query": {
                        "semantic": {
                          "field": "semantic_text_field_2",
                          "query": "foo"
                        }
                      }
                    }
                  },
                  "normalizer": "minmax"
                }
              ]
            }
          },
          "normalizer": "minmax"
        },
        {
          "retriever": {
            "standard": {
              "query": {
                "match": {
                  "text_field": "foo"
                }
              }
            }
          },
          "normalizer": "minmax"
        }
      ]
    }
  }
}

¡Vaya, esto se está poniendo muy extenso! ¡Puede que incluso tuviste que desplazarte arriba y abajo varias veces para revisar toda la consulta! Aquí, usamos dos niveles de normalización para crear los grupos de consultas. Matemáticamente, puede expresar como:

Total Score = N(N(semantic_text_field_1 score) + N(semantic_text_field_2 score)) + N(text_field score)

Este segundo nivel de normalización garantiza que las consultas contra los campos semantic_text y text campo tengan un peso uniforme. Ten en cuenta que en este ejemplo omitimos la normalización de segundo nivel para text_field ya que solo hay un cuerpo léxico, lo que te ahorra aún más verbosidad.

Esta estructura de consulta ya es engorrosa y solo estamos consultando tres campos. Se vuelve cada vez más inmanejable, incluso para los profesionales experimentados en búsqueda, a medida que consultas más campos.

El formato de consulta multicampo

Agregamos el formato de consulta multicampo para los retrievers lineales y RRF en Elasticsearch 8.19, 9.1 y serverless para simplificar todo esto. Ahora puedes realizar la misma consulta que antes con simplemente:

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "fields": [ "semantic_text_field_1", "semantic_text_field_2", "text_field" ],
      "query": "foo",
      "normalizer": "minmax"
    }
  }
}

¡Lo que reduce la consulta de 55 líneas a solo 9! Elasticsearch emplea automáticamente los mapeos de índice para:

Determinar el tipo de cada campo consultado
Agrupa cada cuerpo en una categoría léxica o semántica
Pondera cada categoría de forma equitativa en el puntaje final

Esto permite a cualquiera ejecutar una consulta híbrida eficaz sin necesidad de conocer detalles sobre el índice o los endpoints de inferencia empleados.

Al usar RRF, puedes omitir la normalizer, ya que rango se usa como indicador de relevancia:

GET rrf_retriever_example/_search
{
  "retriever": {
    "rrf": {
      "fields": [ "semantic_text_field_1", "semantic_text_field_2", "text_field" ],
      "query": "foo"
    }
  }
}

Impulso por campo

Al usar el retriever lineal, puedes aplicar un aumento por campo para ajustar la importancia de los combates en ciertos campos. Por ejemplo, supongamos que consultas cuatro campos: dos campos semantic_text y dos campos text :

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "fields": [ "semantic_text_field_1", "semantic_text_field_2", "text_field_1", "text_field_2" ],
      "query": "foo",
      "normalizer": "minmax"
    }
  }
}

Por defecto, cada cuerpo tiene un peso igual en su grupo (léxico o semántico). El desglose del puntaje es el siguiente:

En otras palabras, cada campo representa el 25% del puntaje total.

Podemos usar la sintaxis field^boost para agregar un impulso por campo a cualquier campo. Vamos a aplicar un aumento de 2 a semantic_text_field_1 y text_field_1:

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "fields": [ "semantic_text_field_1^2", "semantic_text_field_2", "text_field_1^2", "text_field_2" ]
      "query": "foo",
      "normalizer": "minmax"
    }
  }
}

Ahora el desglose del puntaje es así:

Cada grupo de consulta sigue teniendo un peso igual, pero ahora el peso del campo dentro de los grupos cambió:

semantic_text_field_1 es el 66% del puntaje del grupo de consultas semánticas, 33% del puntaje total
text_field_1 es el 66% del puntaje del grupo de consultas léxicas, 33% del puntaje total

i️ Ten en cuenta que el rango total de puntaje no cambiará cuando se aplica un aumento por campo. Este es un efecto secundario previsto de la normalización de puntajes, que garantiza que los puntajes de consulta léxica y semántica sigan siendo directamente comparables entre sí.

i️ El aumento por campo también puede usar con el recuperador RRF en Elasticsearch 9.2+

Resolución comodín

Puedes usar el comodín * en el parámetro fields para que coincida con varios campos. Continuando con el ejemplo anterior, esta consulta es funcionalmente equivalente a consultar semantic_text_field_1, semantic_text_field_2, y text_field_1 explícitamente:

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "fields": [ "semantic_text_field_*", "*_field_1" ],
      "query": "foo",
      "normalizer": "minmax"
    }
  }
}

Es interesante notar que el patrón de *_field_1 coincide tanto con text_field_1 como con semantic_text_field_1. Esto se gestiona automáticamente; La consulta se ejecutará como si cada uno de los campos fuera consultado explícitamente. También está bien que el semantic_text_field_1 coincida con ambos patrones; Todas las coincidencias de nombres de campo se deduplican antes de la ejecución de la consulta.

Puedes usar el comodín de varias maneras:

Coincidencia de prefijos (ej: *_text_field)
Emparejamiento en línea (ej: semantic_*_field)
Coincidencia de sufijos (ej: semantic_text_field_*)

También puedes usar varios comodines para aplicar una combinación de lo anterior, como *_text_field_*.

Campos de consulta predeterminados

El formato de consulta multicampo también te permite consultar un índice del que no sabes nada. Si omites el parámetro fields , consultará todos los campos especificados por la configuración de índice index.query.default_field:

GET linear_retriever_example/_search
{
  "retriever": {
    "linear": {
      "query": "foo",
      "normalizer": "minmax"
    }
  }
}

Por defecto, index.query.default_field está configurado como *. Este comodín se resolverá a todos los tipos de campo del índice que admitan consultas de término, que es la mayoría. Las excepciones son:

dense_vector Campos
rank_vector Campos
Campos geométricos: geo_point, shape

Esta funcionalidad es especialmente útil cuando se quiere realizar una consulta de búsqueda híbrida sobre un índice proporcionado por un tercero. El formato de consulta multicampo permite ejecutar una consulta adecuada de forma sencilla. Simplemente excluye el parámetro fields y se consultarán todos los campos aplicables.

Conclusión

El problema del rango de puntaje puede hacer que la búsqueda híbrida efectiva sea un dolor de cabeza de implementar, especialmente cuando hay poca comprensión del índice que se consulta o de los endpoints de inferencia empleados. El formato de consulta multicampo para los retrievers lineales y RRF alivia este problema al empaquetar un enfoque automatizado de búsqueda híbrida basado en agrupación de consultas en una API simple y accesible. Funcionalidades adicionales, como el aumento por campo, la resolución de comodines y los campos de consulta por defecto, amplían la funcionalidad para cubrir muchos casos de uso.

Prueba hoy el formato de consulta multicampo

Puedes consultar los retrievers lineales y RRF con el formato de consulta multicampo en proyectos Serverless totalmente gestionados de Elasticsearch con una prueba gratis. También está disponible en versiones de pila a partir de la 8.19 y 9.1.

Empieza en minutos en tu entorno local con un solo comando:

curl -fsSL https://elastic.co/start-local | sh

Construir un agente de IA para RRHH con Elastic Agent Builder y GPT-OSS

Tomás Murúa — Wed, 26 Nov 2025 00:00:00 GMT

Introducción

Este artículo te mostrará cómo construir un agente de IA para RRHH usando GPT-OSS y Elastic Agent Builder. El agente puede responder a tus preguntas sin enviar datos a OpenAI, Anthropic ni ningún servicio externo.

Usaremos LM Studio para servir GPT-OSS localmente y lo conectaremos a Elastic Agent Builder.

Al final de este artículo, tendrás un agente de IA personalizado que podrá responder preguntas en lenguaje natural sobre los datos de tus empleados manteniendo el control total sobre tu información y modelo.

Prerrequisitos

Para este artículo, necesitas:

Elastic Cloud alojaba la versión 9.2, despliegue serverless o local
Máquina con 32GB de RAM recomendada (mínimo 16GB para GPT-OSS 20B)
LM Studio instalado
Escritorio Docker Instalado

¿Por qué usar GPT-OSS?

Con un LLM local tienes el control para desplegarlo en tu propia infraestructura y ajustarlo para adaptarlo a tus propias necesidades. Todo esto manteniendo el control sobre los datos que compartes con el modelo y, por supuesto, no tienes que pagar una tasa de licencia a un proveedor externo.

OpenAI lanzó GPT-OSS el 5 de agosto de 2025, como parte de su compromiso con el ecosistema del modelo abierto.

El modelo de parámetros 20B ofrece:

Capacidades de uso de herramientas
Inferencia eficiente
Compatible con SDK OpenAI
Compatible con flujos de trabajo agentes

Comparación de referencias:

Arquitectura de soluciones

La arquitectura funciona completamente en tu máquina local. Elastic (que funciona en Docker) se comunica directamente con tu LLM local a través de LM Studio, y Elastic Agent Builder emplea esta conexión para crear agentes de IA personalizados que pueden consultar los datos de tus empleados.

Para más detalles, consulte esta documentación.

Construir un agente de IA para RRHH: Pasos

Dividiremos la implementación en 5 pasos:

Configurar LM Studio con un modelo local
Despliega Elastic Local con Docker
Crea el conector OpenAI en Elastic
Sube los datos de los empleados a Elasticsearch
Construye y prueba tu agente de IA

Paso 1: Configurar LM Studio con GPT-OSS 20B

LM Studio es una aplicación fácil de usar que te permite ejecutar grandes modelos de lenguaje localmente en tu computadora. Proporciona un servidor API compatible con OpenAI, lo que facilita su integración con herramientas como Elastic sin un proceso de configuración complejo. Para más detalles, consulta la documentación de LM Studio.

Primero, descarga e instala LM Studio desde el sitio web oficial. Una vez instalado, abre la aplicación.

En la interfaz de LM Studio:

Ve a la pestaña de búsqueda y busca "GPT-OSS"
Selecciona el openai/gpt-oss-20b de OpenAI
Haz clic en descargar

El tamaño de este modelo debería ser aproximadamente 12,10GB. La descarga puede tardar unos minutos, dependiendo de tu conexión a Internet.

Una vez descargado el modelo:

Ve a la pestaña del servidor local
Selecciona el openai/gpt-oss-20b
Usa el puerto predeterminado 1234
En el panel derecho, ve a Cargar y establece la longitud de contexto en 40K o más

5. Haz clic en iniciar servidor

Deberías ver esto si el servidor está funcionando.

[LM STUDIO SERVER] Success! HTTP server listening on port 1234
[LM STUDIO SERVER] Supported endpoints:
[LM STUDIO SERVER] ->	GET  http://localhost:1234/v1/models
[LM STUDIO SERVER] ->	POST http://localhost:1234/v1/responses
[LM STUDIO SERVER] ->	POST http://localhost:1234/v1/chat/completions
[LM STUDIO SERVER] ->	POST http://localhost:1234/v1/completions
[LM STUDIO SERVER] ->	POST http://localhost:1234/v1/embeddings
Server started.

Paso 2: Desplegar Elastic Local con Docker

Ahora configuraremos Elasticsearch y Kibana localmente usando Docker. Elastic proporciona un script conveniente que gestiona todo el proceso de configuración. Para más detalles, consulte la documentación oficial.

Ejecuta el script de inicio local

Ejecuta el siguiente comando en tu terminal:

curl -fsSL https://elastic.co/start-local | sh

Este guion será:

Descargar y configurar Elasticsearch y Kibana
Inicia ambos servicios usando Docker Compose
Activa automáticamente una licencia de prueba Platinum de 30 días

Producción esperada

Solo espera el siguiente mensaje y almacena la contraseña y la clave API que se muestra; los necesitarás para acceder a Kibana:

🎉 Congrats, Elasticsearch and Kibana are installed and running in Docker!
🌐 Open your browser at http://localhost:5601
   Username: elastic
   Password: KSUlOMNr
🔌 Elasticsearch API endpoint: http://localhost:9200
🔑 API key: cnJGX0pwb0JhOG00cmNJVklUNXg6cnNJdXZWMnM4bncwMllpQlFlUTlWdw==
Learn more at https://github.com/elastic/start-local

Acceso a Kibana

Abre tu navegador y navega a:

http://localhost:5601

Inicia sesión usando las credenciales obtenidas en la salida del terminal.

Habilitar Agent Builder

Una vez iniciado sesión en Kibana, navega a Management > AI > Agent Builder y activa el Agent Builder.

Paso 3: Crea el conector OpenAI en Elastic

Ahora configuraremos Elastic para que use tu LLM local.

Conectores de acceso

En Kibana
Ve a Configuración > Gestión del Proyecto
En Alertas e Información, selecciona Conectores
Haz clic en Crear conector

Configurar el conector

Selecciona OpenAI de la lista de conectores. LM Studio emplea el SDK OpenAI, lo que lo hace compatible.

Diligencia el espacio con estos valores:

Nombre del conector: LM Studio - GPT-OSS 20B
Selecciona un proveedor de OpenAI: Otros (Servicio compatible con OpenAI)
URL: http://host.docker.internal:1234/v1/chat/completions
Modelo por defecto: openai/gpt-oss-20b
API Key: testkey-123 (cualquier texto funciona, porque LM Studio Server no requiere autenticación.)

Para terminar la configuración, haz clic en Almacenar y probar.

Importante: Activa la opción "Habilitar la llamada a funciones nativas"; esto es necesario para que el Constructor de Agentes funcione correctamente. Si no activas esto, te aparecerá un error de No tool calls found in the response .

Prueba la conexión

El elástico debería probar automáticamente la conexión. Si todo está configurado correctamente, verás un mensaje de éxito como este:

Respuesta:

{
  "status": "ok",
  "data": {
    "id": "chatcmpl-flj9h0hy4wcx4bfson00an",
    "object": "chat.completion",
    "created": 1761189456,
    "model": "openai/gpt-oss-20b",
    "choices": [
      {
        "index": 0,
        "message": {
          "role": "assistant",
          "content": "Hello! 👋 How can I assist you today?",
          "reasoning": "Just greet.",
          "tool_calls": []
        },
        "logprobs": null,
        "finish_reason": "stop"
      }
    ],
    "usage": {
      "prompt_tokens": 69,
      "completion_tokens": 23,
      "total_tokens": 92
    },
    "stats": {},
    "system_fingerprint": "openai/gpt-oss-20b"
  },
  "actionId": "ee1c3aaf-bad0-4ada-8149-118f52dad757"
}

Paso 4: Subir los datos de los empleados a Elasticsearch

Ahora subiremos el conjunto de datos de empleados de RRHH para demostrar cómo el agente trabaja con datos sensibles. Generé un conjunto de datos ficticio con esta estructura.

Estructura del conjunto de datos

{
  "employee_id": "0f4dce68-2a09-4cb1-b2af-6bcb4821539b",
  "full_name": "Daffi Stiebler",
  "email": "lscutchings0@huffingtonpost.com",
  "date_of_birth": "1975-06-20T15:39:36Z",
  "hire_date": "2025-07-28T00:10:45Z",
  "job_title": "Physical Therapy Assistant",
  "department": "HR",
  "salary": "108455",
  "performance_rating": "Needs Improvement",
  "years_of_experience": 2,
  "skills": "Java",
  "education_level": "Master's Degree",
  "manager": "Carl MacGibbon",
  "emergency_contact": "Leigha Scutchings",
  "home_address": "5571 6th Park"
}

Crea el índice con mapeos

Primero, crea el índice con mapeos adecuados. Ten en cuenta que estamos usando semantic_text campos para algunos campos clave; Esto permite capacidades de búsqueda semántica para nuestro índice.

PUT hr-employees
{
  "mappings": {
    "properties": {
      "@timestamp": {
        "type": "date"
      },
      "employee_id": {
        "type": "keyword"
      },
      "full_name": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "email": {
        "type": "keyword"
      },
      "date_of_birth": {
        "type": "date",
        "format": "iso8601"
      },
      "hire_date": {
        "type": "date",
        "format": "iso8601"
      },
      "job_title": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "department": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "salary": {
        "type": "double"
      },
      "performance_rating": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "years_of_experience": {
        "type": "long"
      },
      "skills": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "education_level": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "manager": {
        "type": "text",
        "copy_to": "employee_semantic"
      },
      "emergency_contact": {
        "type": "keyword"
      },
      "home_address": {
        "type": "keyword"
      },
      "employee_semantic": {
        "type": "semantic_text"
      }
    }
  }
}

Índice con API Bulk

Copia y pega el conjunto de datos en tus Dev Tools en Kibana y ejecutalo:

POST hr-employees/_bulk
{"index": {}}
{"employee_id": "57728b91-e5d7-4fa8-954a-2384040d3886", "full_name": "Filide Gane", "email": "vhallahan1@booking.com", "job_title": "Business Systems Development Analyst", "department": "Marketing", "salary": "$52330.27", "performance_rating": "Meets Expectations", "years_of_experience": 12, "skills": "Java", "education_level": "Bachelor's Degree", "date_of_birth": "2000-02-07T16:49:32Z", "hire_date": "2023-11-07T13:03:16Z", "manager": "Freedman Kings", "emergency_contact": "Vilhelmina Hallahan", "home_address": "75 Dennis Junction"}
{"index": {}}
{"employee_id": "...", ...}

Verifica los datos

Realiza una consulta para verificar:

GET hr-employees/_search

Paso 5: Construye y prueba tu agente de IA

Con todo configurado, es hora de crear un agente de IA personalizado usando Elastic Agent Builder. Para más detalles, consulte la documentación de Elastic.

Agregar el conector

Antes de poder crear nuestro nuevo agente, tenemos que configurar nuestro constructor de agentes para usar nuestro conector personalizado llamado LM Studio - GPT-OSS 20B porque el predeterminado es el Elastic Managed LLM. Para eso, necesitamos ir a Configuración > Gestión de Proyectos > Configuración de GenAI; ahora seleccionamos la que creamos y hacemos clic en Almacenar.

Constructor de Agentes de Acceso

Ir a Agentes
Haz clic en Crear un nuevo agente

Configurar el agente

Para crear un nuevo agente, los campos requeridos son el ID del agente, el nombre de visualización y las instrucciones de visualización.

Pero hay más opciones de personalización, como las Instrucciones Personalizadas que guían cómo se comportará tu agente e interactuará con tus herramientas, similar a una indicación del sistema, pero para nuestro agente personalizado. Las etiquetas ayudan a organizar tus agentes, el color del avatar y el símbolo del avatar.

Los que elegí para nuestro agente basándome en el conjunto de datos son:

ID del agente: hr_assistant

Instrucciones personalizadas:

You are an HR Analytics Assistant that helps answer questions about employee data.
When responding to queries:
- Provide clear, concise answers
- Include relevant employee details (name, department, salary, skills)
- Format monetary values with currency symbols
- Be professional and maintain data confidentiality

Etiquetas: Human Resources y GPT-OSS

Nombre de visualización: HR Analytics Assistant

Descripción de la exposición:

A specialized AI assistant for Human Resources that helps analyze employee data, compensation, performance metrics, and talent management. Ask questions about employees, departments, salaries, or performance analytics.

Con todos los datos ahí, podemos hacer clic en Almacenar a nuestro nuevo agente.

Prueba al agente

Ahora puedes hacer preguntas en lenguaje natural sobre los datos de tus empleados, y GPT-OSS 20B entenderá la intención y generará una respuesta adecuada.

Pronto:

Which employee is the one with the highest salary in the hr-employees index?

Respuesta:

El proceso de Agente fue:

1. Entiende tu pregunta usando el conector GPT-OSS

2. Generar la consulta Elasticsearch adecuada (usando las herramientas integradas o ES| personalizadoQL)

3. Recuperar los registros de empleados coincidentes

4. Presentar resultados en lenguaje natural con un formato adecuado

A diferencia de la búsqueda léxica tradicional, el agente impulsado por GPT-OSS entiende la intención y el contexto, facilitando encontrar información sin conocer los nombres exactos de los campos o la sintaxis de la consulta. Para más detalles sobre el proceso de pensamiento del agente, consulta este artículo.

Conclusión

En este artículo, creamos un agente de IA personalizado usando el Agent Builder de Elastic para conectarse al modelo OpenAI GPT-OSS que se ejecuta localmente. Al desplegar tanto Elastic como el LLM en tu máquina local, esta arquitectura te permite aprovechar las capacidades de IA generativa manteniendo el control total sobre tus datos, todo ello sin enviar información a servicios externos.

Usamos GPT-OSS 20B como experimento, pero aquí se hacen referencia a los modelos oficialmente recomendados para Elastic Agent Builder. Si necesitas capacidades de razonamiento más avanzadas, también está la variante de parámetros 120B que rinde mejor para escenarios complejos, aunque requiere una máquina de especificaciones más altas para ejecutar localmente. Para más detalles, consulte la documentación oficial de OpenAI.

Los principales proyectos y aprendizajes de Elastic Agent Builder de Cal Hacks 12.0

JD Armada — Tue, 25 Nov 2025 00:00:00 GMT

Watch video on YouTube

Hace unas semanas, tuvimos la asombrosa oportunidad de patrocinar Cal Hacks 12.0, uno de los hackatones presenciales más grandes con más de 2000 participantes de todo el mundo. Ofrecimos una pista dedicada al mejor uso de Elastic Agent Builder en Serverless, y la respuesta fue fenomenal. En solo 36 horas, recibimos 29 envíos que usaban Agent Builder de formas creativas, desde la creación de herramientas de inteligencia contra incendios forestales hasta validadores StackOverflow.

Más allá de los impresionantes proyectos, la experiencia en Cal Hacks 12.0 también nos dio algo igualmente valioso: comentarios rápidos y sin filtros de desarrolladores que se encuentran con nuestra Stack por primera vez. Los hackathons son pruebas de presión únicas con plazos ajustados, cero familiaridad previa y obstáculos impredecibles (como los famosos cortes de WiFi). Exponen exactamente dónde brilla la experiencia del desarrollador y dónde aún necesita mejoras. Esto importa aún más ahora, ya que los desarrolladores interactúan con el Elastic Stack de nuevas maneras, cada vez más a través de flujos de trabajo impulsados por LLM. En esta entrada del blog, profundizaremos en lo que los participantes construyeron con Agent Builder y lo que aprendimos en el proceso.

Los proyectos ganadores

Primer puesto: AgentOverflow

Stack Overflow reconstruido para la era de los LLM y los agentes.

Lee más sobre AgentOverflow aquí.

AgentOverflow aborda un problema que la mayoría de los desarrolladores de IA enfrentan: los LLMs alucinan, los historiales de chat desaparecen y los desarrolladores pierden tiempo resolviendo los mismos problemas.

AgentOverflow captura, valida y reactiva pares reales problema-solución, para que los desarrolladores puedan romper la espiral de alucinaciones y enviar más rápido.

Cómo funciona:

1. Compartir JSON - el "Esquema de Solución".

Un clic desde un recurso compartido de Claude extraerá, extrae y ensamblará un JSON de Solución de Compartir, que es un formato estructurado que contiene:

Problema
Contexto
Código
Etiquetas
Pasos verificados de la solución.

Un validador (LAVA) comprueba y aplica la estructura, el usuario agrega una línea de contexto extra y luego se almacena e indexa dentro de Elasticsearch.

2. Encontrar solución

Cuando te quedes atascado, haz clic en Find Solution y AgentOverflow extraerá tu conversación actual, la usará para crear una consulta y ejecutará una búsqueda híbrida en Elasticsearch para que aparezca:

Arreglos clasificados y validados por la comunidad
Los exactos prompts que originalmente resolvieron el problema

Esto permite a los desarrolladores copiar, pegar y desbloquear rápidamente su sesión actual.

3. MCP - inyección de contexto para LLMs

Al conectarse a las soluciones estructuradas almacenadas dentro de Elasticsearch a través de MCP (Model Context Protocol), los LLM reciben un contexto de alta señal (código, registros, configuraciones, correcciones previas) en tiempo de ejecución sin ruido adicional.

AgentOverflow emplea Agent Builder con Elasticsearch como una capa de memoria estructurada que inyecta el contexto relevante en los LLMs. Esto los transforma de chatbots pasivos en solucionadores de problemas conscientes del contexto.

Segundo puesto: MarketMind

Una visión interpretable en tiempo real de la energía del mercado, impulsada por seis Agentes Elásticos.

Lee más sobre MarketMind aquí.

MarketMind consiguió su spot al ofrecer a los traders novatos una plataforma que convierte datos de mercado fragmentados en señales claras y en tiempo real. En lugar de compaginar la acción del precio, los fundamentos, el sentimiento y la volatilidad entre diferentes herramientas, MarketMind consolida toda esta información en una sola plataforma, ayudando a los traders a obtener información útil. Este proyecto también empleó algunos complejos ES|QL consulta al construir sus agentes.

Cómo funciona:

1. Recopilar datos de mercado en tiempo real

MarketMind extrae métricas de precio-acción, fundamentos, sentimiento, volatilidad y riesgo de Yahoo Finance. Estos datos se ingieren y organizan en múltiples índices de Elasticsearch.

2. Seis agentes especializados analizan el mercado

Cada agente, construido con Agent Builder, se centra en una capa diferente del mercado. Leen desde un índice de Elasticsearch, calculan sus propias métricas específicas de dominio y generan una salida JSON estandarizada con puntajes y razonamientos.

3. Agregar señales en un modelo unificado de "energía de mercado"

Las salidas combinadas aparecen como pulsos brillantes alrededor de cada acción, ilustrando si el impulso está creciendo, el riesgo está aumentando o el sentimiento está cambiando.

4. Visualizar percepciones

El frontend se construyó con React y Next.js, usando TypeScript, gráficos basados en física SVG y Chart.js para gráficos en tiempo real con candelabros. Esto convierte el análisis en bruto en feedback accionable en tiempo real.

Otros proyectos interesantes:

Aquí tienes otros candidatos fuertes que usaron Elastic en diferentes partes de su stack:

Encuentra aquí la lista completa de proyectos que se presentaron a nuestra especialidad.

Lo que aprendimos de los desarrolladores

Agent Builder es fácil de usar:

La mayoría de los equipos nunca usaron Elastic antes y aún así podían crear agentes rápidamente con poco apoyo. Organizamos un taller para quienes necesitaban más orientación, pero la mayoría pudo absorber sus datos y crear un agente para realizar acciones sobre esos datos.

Los LLMs son excelentes en kNN consultas, pero aún necesitan orientación para generar ES|QL:

Pidiendo a ChatGPT-5 que genere ES|Las consultas QL devolvían información incorrecta, a menudo mezclando ES|QL y SQL. Alimentar al LLM la documentación en un archivo de markdown parecía una solución viable.

ES| solo para instantáneasFunciones QL filtradas en documentos:

Las próximas funciones de agregación FIRST y LAST pasaron sin querer a nuestro ES|Documentos de QL. Como enviamos esa documentación a ChatGPT, el modelo empleó fielmente estas funciones, aunque aún no estén disponibles en Serverless. Gracias a los comentarios del grupo, ingeniería abrió y fusionó rápidamente una corrección para eliminar las funciones de la documentación publicada (PR #137341).

Falta orientación específica para Serverless:

Un equipo intentó activar LOOKUP JOIN en un índice que no se creó en modo búsqueda. El mensaje de error les hizo perseguir comandos que no existen en Serverless. Transmitimos esto al equipo de producto, que inmediatamente abrió una corrección para un mensaje específico y accionable para Serverless. A largo plazo, la visión es ocultar por completo la complejidad del reindexado (Número #4838).

Valor de los eventos presenciales:

Los hackathons online son geniales, pero nada iguala el bucle de retroalimentación rápida que tienes cuando depuras codo a codo con los constructores. Vimos cómo los equipos integraban Agent Builder en diferentes casos de uso, y detectamos la experiencia de los desarrolladores con ES|QL podría mejorar y solucionar los problemas mucho más rápido que intentar hacerlo por canales asincrónicos.

Conclusión

Cal Hacks 12.0 nos ofreció más que un fin de semana de demos chulas; también nos dio una visión de cómo los nuevos desarrolladores interactúan con el Elastic Stack. En tan solo 36 horas, vimos a los equipos adquirir Agent Builder, incorporar datos en Elasticsearch, diseñar sistemas multiagente y probar nuestras funcionalidades de diversas maneras. El evento también nos recordó por qué son importantes los eventos presenciales. Los rápidos bucles de retroalimentación, las conversaciones reales y la depuración práctica nos ayudaron a entender las necesidades actuales de los desarrolladores. Estamos entusiasmados por devolver lo aprendido al equipo de ingeniería. Nos vemos en el próximo hackathon.

Creación de una redacción de agentes LLM con protocolo A2A y MCP en Elasticsearch: Parte II

Justin Castilla — Mon, 24 Nov 2025 00:00:00 GMT

A2A y MCP: el código en acción

Este es el artículo complementario al artículo "¡Creando una redacción para agentes LLM con protocolo A2A y MCP en Elasticsearch!", que explicaba los beneficios de implementar tanto las arquitecturas A2A como MCP dentro del mismo agente para aprovechar realmente los beneficios únicos de ambos frameworks. Hay un repositorio disponible si deseas ejecutar la demo por tu cuenta.

Vamos a repasar cómo colaboran nuestros agentes de redacción empleando tanto A2A como MCP para producir un artículo de noticias. El repositorio adjunto para ver a los agentes en acción se puede encontrar aquí.

Paso 1: Asignación de la historia

El Jefe de Noticias (actuando como cliente) asigna una noticia:

{
  "message_type": "task_request",
  "sender": "news_chief",
  "receiver": "reporter_agent",
  "payload": {
    "task_id": "story_renewable_energy_2024",
    "assignment": {
      "topic": "Renewable Energy Adoption in Europe",
      "angle": "Policy changes driving solar and wind expansion",
      "target_length": 1200,
      "deadline": "2025-09-30T18:00:00Z"
    }
  }
}

Paso 2: El reportero aplicar investigación

El Agente Reportero reconoce que necesita información de fondo y delega al Agente Investigador mediante A2A:

{
  "message_type": "task_request",
  "sender": "reporter_agent",
  "receiver": "researcher_agent",
  "payload": {
    "task_id": "research_eu_renewable_2024",
    "parent_task_id": "story_renewable_energy_2024",
    "capability": "fact_gathering",
    "parameters": {
      "queries": [
        "EU renewable energy capacity 2024",
        "Solar installations growth Europe",
        "Wind energy policy changes 2024"
      ],
      "depth": "comprehensive"
    }
  }
}

Paso 3: El reportero aplicar contexto histórico al Agente de Archivo

El Reporter Agent reconoce que el contexto histórico fortalecería la historia. Delega al Agente de Archivo (impulsado por el Agente A2A de Elastic) a través de A2A para buscar en el archivo de artículos impulsado por Elasticsearch de la redacción:

{
  "message_type": "task_request",
  "sender": "reporter_agent",
  "receiver": "archive_agent",
  "payload": {
    "task_id": "archive_search_renewable_2024",
    "parent_task_id": "story_renewable_energy_2024",
    "capability": "search_archive",
    "parameters": {
      "query": "European renewable energy policy changes and adoption trends over past 5 years",
      "focus_areas": ["solar", "wind", "policy", "Germany", "France"],
      "time_range": "2019-2024",
      "result_count": 10
    }
  }
}

Paso 4: El Agente de Archivo emplea el Agente Elastic A2A con MCP

El Archive Agent emplea el A2A Agent de Elastic, que a su vez emplea MCP para acceder a las herramientas de Elasticsearch. Esto demuestra la arquitectura híbrida donde A2A permite la colaboración entre agentes mientras que MCP proporciona acceso a herramientas:

# Archive Agent using Elastic A2A Agent
async def search_historical_articles(self, query_params):
    # The Archive Agent sends a request to Elastic's A2A Agent
    elastic_response = await self.a2a_client.send_request(
        agent="elastic_agent",
        capability="search_and_analyze",
        parameters={
            "natural_language_query": query_params["query"],
            "index_pattern": "newsroom-articles-*",
            "filters": {
                "topics": query_params["focus_areas"],
                "date_range": query_params["time_range"]
            },
            "analysis_type": "trend_analysis"
        }
    )
    
    # Elastic's A2A Agent internally uses MCP tools:
    # - platform.core.search (to find relevant articles)
    # - platform.core.generate_esql (to analyze trends)
    # - platform.core.index_explorer (to identify relevant indices)
    
    return elastic_response

El Agente de Archivo recibe datos históricos completos del Agente A2A de Elastic y los devuelve al Reportero:

{
  "message_type": "task_response",
  "sender": "archive_agent",
  "receiver": "reporter_agent",
  "payload": {
    "task_id": "archive_search_renewable_2024",
    "status": "completed",
    "archive_data": {
      "historical_articles": [
        {
          "title": "Germany's Energiewende: Five Years of Solar Growth",
          "published": "2022-06-15",
          "key_points": [
            "Germany added 7 GW annually 2020-2022",
            "Policy subsidies drove 60% of growth"
          ],
          "relevance_score": 0.94
        },
        {
          "title": "France Balances Nuclear and Renewables",
          "published": "2023-03-20",
          "key_points": [
            "France increased renewable target to 40% by 2030",
            "Solar capacity doubled 2021-2023"
          ],
          "relevance_score": 0.89
        }
      ],
      "trend_analysis": {
        "coverage_frequency": "EU renewable stories increased 150% since 2019",
        "emerging_themes": ["policy incentives", "grid modernization", "battery storage"],
        "coverage_gaps": ["Small member states", "offshore wind permitting"]
      },
      "total_articles_found": 47,
      "search_confidence": 0.91
    }
  }
}

Este paso demuestra cómo el Agente A2A de Elastic se integra en el flujo de trabajo de la redacción. El Agente de Archivo (un agente específico de redacción) coordina con el Agente A2A de Elastic (un especialista externo) para aprovechar las poderosas capacidades de búsqueda y análisis de Elasticsearch. El agente de Elastic emplea MCP internamente para acceder a las herramientas de Elasticsearch, mostrando la separación limpia entre la coordinación del agente (A2A) y el acceso a la herramienta (MCP).

Paso 5: El investigador emplea servidores MCP

El Agente Investigador accede a múltiples servidores MCP para recopilar información:

# Researcher Agent using MCP to access tools
async def gather_facts(self, queries):
    results = []
    
    # Use News API MCP Server
    news_data = await self.mcp_client.invoke_tool(
        server="news_api_mcp",
        tool="search_articles",
        parameters={
            "query": queries[0],
            "date_range": "2024-01-01 to 2024-09-30",
            "sources": ["reuters", "bloomberg", "euractiv"]
        }
    )
    
    # Use Statistics MCP Server
    stats_data = await self.mcp_client.invoke_tool(
        server="eurostat_mcp",
        tool="get_energy_statistics",
        parameters={
            "metrics": ["solar_capacity_mw", "wind_capacity_mw"],
            "countries": ["EU27"],
            "year": 2024
        }
    )
    
    # Use Fact-Checking MCP Server
    verified_facts = await self.mcp_client.invoke_tool(
        server="factcheck_mcp",
        tool="verify_claims",
        parameters={
            "claims": [
                "EU solar capacity increased 40% in 2024",
                "Germany leads in wind installations"
            ]
        }
    )
    
    return self._synthesize_research(news_data, stats_data, verified_facts)

Paso 6: El investigador devuelve los datos al Reportero

El Agente Investigador envía una investigación exhaustiva de vuelta a través de A2A:

{
  "message_type": "task_response",
  "sender": "researcher_agent",
  "receiver": "reporter_agent",
  "payload": {
    "task_id": "research_eu_renewable_2024",
    "status": "completed",
    "research_data": {
      "key_facts": [
        {
          "claim": "EU solar capacity reached 260 GW in 2024",
          "source": "Eurostat Q3 2024 Report",
          "confidence": 0.95,
          "verified": true
        },
        {
          "claim": "Germany installed 12 GW of wind capacity in 2024",
          "source": "German Federal Network Agency",
          "confidence": 0.92,
          "verified": true
        }
      ],
      "statistics": {
        "solar_growth_rate": "35%",
        "wind_growth_rate": "28%"
      },
      "sources_count": 15
    }
  }
}

Paso 7: Reportero escribe artículo

El Reporter Agent emplea los datos de investigación y sus propias capacidades de LLM para redactar el artículo. Durante la redacción, el Reportero emplea los servidores MCP para el estilo y las plantillas:

# Reporter Agent writing with MCP assistance
async def write_article(self, research_data, assignment):
    # Get style guidelines via MCP
    style_guide = await self.mcp_client.get_resource(
        server="newsroom_mcp",
        resource="style://editorial/ap_style_guide"
    )
    
    # Get article template via MCP
    template = await self.mcp_client.get_resource(
        server="newsroom_mcp",
        resource="template://articles/news_story"
    )
    
    # Generate article using LLM + research + style
    draft = await self.llm.generate(
        prompt=f"""
        Write a news article following these guidelines:
        {style_guide}
        
        Using this template:
        {template}
        
        Based on this research:
        {research_data}
        
        Assignment: {assignment}
        """
    )
    
    # Self-evaluate confidence in claims
    confidence_check = await self._evaluate_confidence(draft)
    
    return draft, confidence_check

Paso 8: la baja confianza desencadena la re-investigación

El Agente Reportero evalúa su borrador y encuentra que una afirmación tiene baja confianza. Envía otra solicitud al Agente Investigador:

{
  "message_type": "collaboration_request",
  "sender": "reporter_agent",
  "receiver": "researcher_agent",
  "payload": {
    "request_type": "fact_verification",
    "claims": [
      {
        "text": "France's nuclear phase-down contributed to 15% increase in renewable capacity",
        "context": "Discussing policy drivers for renewable growth",
        "current_confidence": 0.45,
        "required_confidence": 0.80
      }
    ],
    "urgency": "high"
  }
}

El investigador verifica la afirmación empleando servidores MCP de verificación de hechos y devuelve información actualizada:

{
  "message_type": "collaboration_response",
  "sender": "researcher_agent",
  "receiver": "reporter_agent",
  "payload": {
    "verified_claims": [
      {
        "original_claim": "France's nuclear phase-down contributed to 15% increase...",
        "verified_claim": "France's renewable capacity increased 18% in 2024, partially offsetting reduced nuclear output",
        "confidence": 0.88,
        "corrections": "Percentage was 18%, not 15%; nuclear phase-down is gradual, not primary driver",
        "sources": ["RTE France", "French Energy Ministry Report 2024"]
      }
    ]
  }
}

Paso 9: El reportero revisa y envía al editor

El Reportero incorpora los hechos verificados y envía el borrador completo al Agente Editor a través de A2A:

{
  "message_type": "task_request",
  "sender": "reporter_agent",
  "receiver": "editor_agent",
  "payload": {
    "task_id": "edit_renewable_story",
    "parent_task_id": "story_renewable_energy_2024",
    "content": {
      "headline": "Europe's Renewable Revolution: Solar and Wind Surge 30% in 2024",
      "body": "[Full article text...]",
      "word_count": 1185,
      "sources": [/* array of sources */]
    },
    "editing_requirements": {
      "check_style": true,
      "check_facts": true,
      "check_seo": true
    }
  }
}

Paso 10: Revisiones del editor usando herramientas MCP

El Editor Agent emplea múltiples servidores MCP para revisar el artículo:

# Editor Agent using MCP for quality checks
async def review_article(self, content):
    # Grammar and style check
    grammar_issues = await self.mcp_client.invoke_tool(
        server="grammarly_mcp",
        tool="check_document",
        parameters={"text": content["body"]}
    )
    
    # SEO optimization check
    seo_analysis = await self.mcp_client.invoke_tool(
        server="seo_mcp",
        tool="analyze_content",
        parameters={
            "headline": content["headline"],
            "body": content["body"],
            "target_keywords": ["renewable energy", "Europe", "solar", "wind"]
        }
    )
    
    # Plagiarism check
    originality = await self.mcp_client.invoke_tool(
        server="plagiarism_mcp",
        tool="check_originality",
        parameters={"text": content["body"]}
    )
    
    # Generate editorial feedback
    feedback = await self._generate_feedback(
        grammar_issues, 
        seo_analysis, 
        originality
    )
    
    return feedback

El editor aprueba el artículo y lo envía hacia adelante:

{
  "message_type": "task_response",
  "sender": "editor_agent",
  "receiver": "reporter_agent",
  "payload": {
    "status": "approved",
    "quality_score": 9.2,
    "minor_edits": [
      "Changed 'surge' to 'increased' in paragraph 3 for AP style consistency",
      "Added Oxford comma in list of countries"
    ],
    "approved_content": "[Final edited article]"
  }
}

Paso 11: El editor publica vía CI/CD

Finalmente, el Agente de Impresora publica el artículo aprobado empleando los servidores MCP para la tubería CMS y CI/CD:

# Publisher Agent publishing via MCP
async def publish_article(self, content, metadata):
    # Upload to CMS via MCP
    cms_result = await self.mcp_client.invoke_tool(
        server="wordpress_mcp",
        tool="create_post",
        parameters={
            "title": content["headline"],
            "body": content["body"],
            "status": "draft",
            "categories": metadata["categories"],
            "tags": metadata["tags"],
            "featured_image_url": metadata["image_url"]
        }
    )
    
    post_id = cms_result["post_id"]
    
    # Trigger CI/CD deployment via MCP
    deploy_result = await self.mcp_client.invoke_tool(
        server="cicd_mcp",
        tool="trigger_deployment",
        parameters={
            "pipeline": "publish_article",
            "environment": "production",
            "post_id": post_id,
            "schedule": "immediate"
        }
    )
    
    # Track analytics
    await self.mcp_client.invoke_tool(
        server="analytics_mcp",
        tool="register_publication",
        parameters={
            "post_id": post_id,
            "publish_time": datetime.now().isoformat(),
            "story_id": metadata["story_id"]
        }
    )
    
    return {
        "status": "published",
        "post_id": post_id,
        "url": f"https://newsroom.example.com/articles/{post_id}",
        "deployment_id": deploy_result["deployment_id"]
    }

El editor confirma la publicación a través de A2A:

{
  "message_type": "task_complete",
  "sender": "printer_agent",
  "receiver": "news_chief",
  "payload": {
    "task_id": "story_renewable_energy_2024",
    "status": "published",
    "publication": {
      "url": "https://newsroom.example.com/articles/renewable-europe-2024",
      "published_at": "2025-09-30T17:45:00Z",
      "post_id": "12345"
    },
    "workflow_metrics": {
      "total_time_minutes": 45,
      "agents_involved": ["reporter", "researcher", "archive", "editor", "printer"],
      "iterations": 2,
      "mcp_calls": 12
    }
  }
}

Aquí está la secuencia completa del flujo de trabajo A2A en el repositorio adjunto usando los mismos Agentes descritos anteriormente.

#	De	Para	Acción	Protocolo	Descripción
1	Usuario	Jefe de Noticias	Asignar historia	HTTP POST	El usuario presenta la historia, tema y ángulo
2	Jefe de Noticias	Interno	Crear historia	-	Crea un registro de historia con un ID único
3	Jefe de Noticias	Reportero	Asignación de Delegados	A2A	Envía asignación de historia mediante el protocolo A2A
4	Reportero	Interno	Aceptar Asignación	-	Asignación interna de almacenes
5	Reportero	Servidor MCP	Generar esquema	MCP/HTTP	Crea un esquema de artículos y preguntas de investigación
6A	Reportero	Investigador	Solicitud de investigación	A2A	Envía preguntas (paralelo con 6b)
6b	Reportero	Archivero	Archivo de búsqueda	A2A JSONRPC	Busca en artículos históricos (paralelo con 6a)
7	Investigador	Servidor MCP	Preguntas de investigación	MCP/HTTP	Emplea Anthropic vía MCP para responder preguntas
8	Investigador	Reportero	Investigación de Retorno	A2A	Respuestas de investigación de retornos
9	Archivero	Elasticsearch	Índice de búsqueda	ES REST API	Consultas news_archive índice
10	Archivero	Reportero	Archivo de retorno	A2A JSONRPC	Devuelve resultados históricos de búsqueda
11	Reportero	Servidor MCP	Generar artículo	MCP/HTTP	Crea un artículo con contexto de investigación/archivo
12	Reportero	Interno	Tiro de la tienda	-	Salvamentos en el draft interno
13	Reportero	Jefe de Noticias	Enviar Borrador	A2A	Entrega borrador completado
14	Jefe de Noticias	Interno	Actualización de la historia	-	Borrador de la tienda, actualiza el estado a "draft_submitted"
15	Jefe de Noticias	Editor	Borrador de revisión	A2A	Rutas automáticas al Editor para su revisión
16	Editor	Servidor MCP	Artículo de revisión	MCP/HTTP	Analiza contenido usando Anthropic a través de MCP
17	Editor	Jefe de Noticias	Reseña de Retorno	A2A	Envía comentarios y sugerencias editoriales
18	Jefe de Noticias	Interno	Reseña de la tienda	-	Comentarios sobre el editor de tiendas
19	Jefe de Noticias	Reportero	Aplicar ediciones	A2A	Comentarios de la revisión de rutas al Reportero
20	Reportero	Servidor MCP	Aplicar ediciones	MCP/HTTP	Revisa el artículo basar en los comentarios
21	Reportero	Interno	Actualización del borrador	-	Borrador de actualizaciones con revisiones
22	Reportero	Jefe de Noticias	Devolución revisada	A2A	Artículo revisado de declaraciones
23	Jefe de Noticias	Interno	Actualización de la historia	-	Borrador revisado de las tiendas, estado a "revisado"
24	Jefe de Noticias	Editor	Publicar artículo	A2A	Rutas automáticas hacia el editor
25	Editor	Servidor MCP	Generar etiquetas	MCP/HTTP	Crea etiquetas y categorías
26	Editor	Elasticsearch	Artículo índice	ES REST API	Índice de artículos a índice news_archive
27	Editor	Sistema de archivos	Almacenar Markdown	E/S de archivos	Almacena el artículo como .md archivo en /articles
28	Editor	Jefe de Noticias	Confirmar publicación	A2A	Resultados de éxito
29	Jefe de Noticias	Interno	Actualización de la historia	-	Actualiza el estado de la noticia a "publicado"

Conclusión

Tanto A2A como MCP tienen papeles importantes en el paradigma moderno de infraestructura de LLM aumentado. A2A ofrece flexibilidad para sistemas complejos multiagente, pero potencialmente menos portabilidad y mayor complejidad operativa. MCP ofrece un enfoque estandarizado para la integración de herramientas que es más sencillo de implementar y mantener, aunque no está diseñado para manejar orquestación multiagente.

La elección no es binaria. Como demuestra nuestro ejemplo de redacción, los sistemas respaldados por LLM más sofisticados y efectivos suelen combinar ambos enfoques: los agentes coordinan y se especializan mediante protocolos A2A mientras acceden a sus herramientas y recursos a través de servidores MCP. Esta arquitectura híbrida ofrece los beneficios organizacionales de los sistemas multiagente junto con los beneficios de estandarización y ecosistema del MCP. Esto sugiere que puede que no sea necesario elegir en absoluto: simplemente usar ambos como un enfoque estándar

Depende de ti, como desarrollador o arquitecto, probar y determinar la mejor combinación de ambas soluciones para crear el resultado adecuado para tu caso de uso específico. Comprender las fortalezas, limitaciones y aplicaciones adecuadas de cada enfoque te permitirá construir sistemas de IA más eficaces, mantenibles y escalables.

Ya sea que estés construyendo una redacción digital, una plataforma de atención al cliente, un asistente de investigación o cualquier otra aplicación impulsada por LLM, considerar cuidadosamente tus necesidades de coordinación (A2A) y requisitos de acceso a herramientas (MCP) te pondrá en el camino hacia el éxito.

Recursos adicionales

Constructor de agentes Elasticsearch: https://www.elastic.co/docs/solutions/search/elastic-agent-builder
Especificación A2A: https://a2a-protocol.org/latest/specification/
Integración de A2A y MCP: https://a2a-protocol.org/latest/topics/a2a-and-mcp/
Protocolo de Contexto del Modelo: https://modelcontextprotocol.io

Ya sabes, para contexto - Parte III: El poder de la búsqueda híbrida en ingeniería de contexto

Woody Walton — Thu, 20 Nov 2025 00:00:00 GMT

Hablamos tanto de búsqueda híbrida (Parte I) como de ingeniería del contexto (Parte II); Ahora, vamos a profundizar en cómo trabajan juntos para lograr el mayor efecto en proporcionar contexto dirigido a las operaciones de IA RAG y agente.

La búsqueda no está muerta, solo se movió

Así que tuvimos este cambio de buscar principalmente contexto a través de un cuadro de texto y usar la información (el contexto) que devuelven para construir las respuestas nosotros mismos, a ahora usar lenguaje natural para decirle a un agente lo que queremos y dejar que él investigue y compile automáticamente la respuesta por nosotros. Muchos en el mundo tecnológico señalan este cambio y proclaman que "la búsqueda está muerta" (bueno, el mundo del SEO y las palabras publicitarias definitivamente está cambiando: ¿ alguien quiere GEO ?), pero la búsqueda sigue siendo absolutamente crítica para las operaciones agenticas — solo que ahora se realiza en gran medida fuera de la vista a través de las herramientas.

Anteriormente, los humanos eran los principales árbitros de relevancia subjetiva: cada usuario tiene sus propios motivos para realizar la búsqueda, y su experiencia personal influye en la precisión relativa de los resultados. Si queremos confiar en que los agentes pueden llegar a la misma conclusión (o mejor) que nosotros, debemos cerciorarnos de que la información contextual a la que tienen acceso esté lo más cerca posible de nuestra intención subjetiva. ¡Tenemos que diseñar el contexto que proporcionamos a los LLMs para ese objetivo!

Generación de contexto con recuperación de búsqueda híbrida

Solo un recordatorio de la Parte I de que la búsqueda híbrida de Elastic combina las fortalezas de la búsqueda tradicional basada en palabras clave (flexibilidad sintaxis, precisión de palabras clave y puntaje de relevancia) con la comprensión semántica de la búsqueda por similitud vectorial, y ofrece múltiples técnicas de reclasificación. Esta sinergia (¡nunca se encontró un uso más verdadero de esa palabra!) Permite resultados muy relevantes, con consultas que pueden ser mucho más matizadas en cómo dirigen el contenido. No es solo que puedas aplicar la relevancia subjetiva como una de tus etapas de recuperación; En realidad, la recuperación de la primera etapa puede incluir puntaje de relevancia junto con todos esos otros modos a la vez.

Precisión y eficiencia superiores

Emplear una plataforma de datos que pueda ofrecer búsqueda, recuperación y reclasificación distribuidas como tu principal motor de recuperación de contexto tiene mucho sentido. Puedes usar sintaxis avanzada de consulta para agregar el componente que falta de la intención subjetiva y filtrar contenido que pueda distraer o enturbiar el valor de la información contextual devuelta. Puedes seleccionar cualquiera de las opciones sintácticas individuales disponibles, o combinar modalidades en una única búsqueda que se dirija a cada tipo de datos de la manera que mejor entienda, y luego combinarlas o reordenarlas con el reclasificamiento. Puedes filtrar la respuesta para incluir solo los campos/valores que quieres, manteniendo a distancia los datos superfluos. En servicio de los agentes, esa flexibilidad de segmentación te permite construir herramientas extremadamente precisas en cómo recuperan el contexto.

Refinamiento del contexto (agregaciones y señales no de contenido)

Las agregaciones pueden ser especialmente útiles para moldear el contenido que una herramienta entrega a la ventana de contexto. Las agregaciones proporcionan naturalmente datos numéricos sobre la forma de los datos contextuales devueltos, lo que facilita y hace más preciso que los LLMs razonen. Como las agregaciones pueden anidar jerárquicamente, es una forma sencilla de agregar detalles multinivel para que el LLM genere una comprensión más matizada. Las agregaciones también pueden ayudar a gestionar el tamaño de la ventana de contexto — puedes reducir fácilmente un resultado de consulta de 100k documentos a unos pocos cientos de tokens de insights agregados.

Las señales no relacionadas con el contenido son los indicadores inherentes a tus datos que te muestran una visión general de lo que estás viendo; Son las características adicionales de los resultados, como popularidad, frescura, geolocalización, categorías, diversidad de anfitriones o bandas de precios. Estos datos pueden ser útiles para informar al agente sobre cómo valora la importancia del contexto que recibió. Algunos ejemplos sencillos podrían ayudar a ilustrar esto mejor:

Potenciar contenido publicado recientemente y popular - Imagina que tienes una base de conocimientos de artículos. Quieres encontrar artículos relevantes para la consulta de un usuario, pero también potenciar artículos que sean recientes y que fueron útiles por otros usuarios (por ejemplo, que tengan un alto número de "me gusta"). En este escenario, podemos usar una búsqueda híbrida para encontrar artículos relevantes y luego reclasificarlos en función de una combinación de su fecha de publicación y popularidad.
Búsqueda de comercio electrónico con ajustes de ventas y stock - En un entorno de comercio electrónico, quieres mostrar a los clientes productos que coincidan con su término de búsqueda, pero también quieres promocionar productos que se venden bien y estén en stock. También podrías bajar el rango de productos con poco stock para evitar frustraciones del cliente.
Priorizar los problemas de alta gravedad en un rastreador de errores : para un equipo de desarrollo de software, al buscar problemas, es fundamental destacar primero los problemas de alta gravedad, alta prioridad y actualizados recientemente. Puedes usar no señales como 'criticidad' y 'más debatido' para sopesar diferentes factores de forma independiente, cerciorando que los temas más críticos y debatidos salgan a la superficie

Estas consultas de ejemplo y más se pueden encontrar en la página de contenido de Elasticsearch Labs que la acompaña.

Aplicación de la seguridad

Un beneficio crítico de aprovechar una capa de velocidad basada en búsqueda como Elastic para la ingeniería de contexto es su marco de seguridad integrado. La plataforma de Elastic garantiza que el contexto entregado a las operaciones de IA agente y generativa respete y proteja la información privada sensible mediante un control de acceso basado en roles (RBAC) y un control de acceso basado en atributos (ABAC). Esto significa que no solo las consultas se gestionan con eficiencia, sino que los resultados se filtran según las licencias específicas del agente o del usuario que inicia la solicitud.

Los agentes se ejecutan como el usuario autenticado, por lo que la seguridad se aplica implícitamente a través de las características de seguridad integradas en la plataforma:

Licencias detalladas: Define el acceso a nivel de documento, campo o incluso término, cerciorando que los agentes de IA solo reciban los datos que están autorizados a ver.
Control de acceso basado en roles (RBAC): Asignar roles a agentes o usuarios, otorgando acceso a conjuntos de datos o funcionalidades específicas según sus responsabilidades definidas.
Control de acceso basado en atributos (ABAC): Implementar políticas de acceso dinámicas basadas en los atributos de los datos, del usuario o del entorno, permitiendo una seguridad altamente adaptable y consciente del contexto.
Seguridad a nivel de documento (DLS) y seguridad a nivel de campo (FLS): Estas capacidades cercioran que, incluso dentro de un documento recuperado, solo sean visibles las partes autorizadas, evitando que se exponga información sensible.
Integración con la seguridad empresarial: Integra sin problemas con los sistemas de gestión de identidades existentes (como LDAP, SAML, OIDC) para hacer cumplir políticas de seguridad coherentes en toda la organización.

Al integrar estas medidas de seguridad directamente en el mecanismo de recuperación de contexto, Elastic actúa como un guardián seguro, cerciorando que los agentes de IA operen dentro de límites de datos definidos, evitando exposiciones no autorizadas y manteniendo el cumplimiento de las normativas de privacidad de datos. Esto es fundamental para generar confianza en sistemas de IA agente que manejan información confidencial o propietaria.

Como beneficio adicional, al usar una capa unificada de velocidad de datos sobre las fuentes de datos de tu compañía, alivias las cargas inesperadas de consultas ad hoc en esos repositorios que crearían las herramientas agentes. Tienes un único lugar para buscar todo casi en tiempo real, y un lugar para aplicar controles de seguridad y gobernanza.

Herramientas híbridas basadas en búsqueda

Hay algunas características fundamentales (y cada vez van más y más) de la plataforma Elastic que impulsan mucho la búsqueda de la ingeniería de contexto. Lo principal aquí es que la plataforma ofrece multitud de formas de lograr cosas, con la flexibilidad de adaptar, cambiar y ampliar métodos a medida que avanza el ecosistema de IA.

Presentando Agent Builder

Elastic Agent Builder es nuestra primera incursión en el ámbito de herramientas de IA agente diseñadas para comunicar con los datos que ya almacenas en Elastic. Agent Builder ofrece una interfaz de chat que permite a los usuarios crear y gestionar sus propios agentes y herramientas dentro de Kibana. Incluye servidores MCP y A2A integrados, APIs programáticas y un conjunto de herramientas de sistema prediseñadas para consultar y explorar índices de Elasticsearch, así como para generar ES|Consultas QL desde lenguaje natural. Agent Builder te permite crear herramientas personalizadas que dirigen y esculpen los datos contextuales devueltos al agente a través de ES| expresivoSintaxis de consultas QL .

¿Cómo funciona ES|¿Quieres que QL realice búsqueda híbrida, preguntas? La capacidad principal se logra mediante la combinación del tipo de campo semantic_text y los comandos FORK/FUSE (FUSE usa RRF por defecto para fusionar los resultados de cada bifurcación). Aquí tienes un ejemplo sencillo de una búsqueda ficticia de producto:

FROM products
| FORK
  (MATCH description "high performance gaming laptop" | EVAL search_type = "bm25"),
  (MATCH description_semantic "high performance gaming laptop" | EVAL search_type = "semantic")
| FUSE 
| LIMIT 20
| KEEP product_name, description, _score, search_type

La cláusula EVAL incluida con cada una de las ramas FORK en el ejemplo anterior no es estrictamente necesaria; Solo se incluye para demostrar cómo se puede rastrear de qué modalidad de búsqueda se devuelve un resultado determinado.

Plantillas de búsqueda

Supongamos que quieres apuntar tus propias herramientas de agencia externa a tu despliegue de Elastic. Y en lugar de ES|QL, quieres usar recuperadores multietapa o reutilizar la sintaxis DSL existente que desarrollaste, y también quieres poder controlar las entradas que acepta la consulta, la sintaxis usada para ejecutar la búsqueda y los campos devueltos en la salida. Las plantillas de búsqueda permiten a los usuarios definir estructuras predefinidas para patrones de búsqueda comunes, mejorando la eficiencia y la consistencia en la obtención de datos. Esto es especialmente beneficioso para herramientas agentes que interactúan con APIs de búsqueda, ya que ayudan a estandarizar el código estándar y permiten una iteración más rápida de la lógica de búsqueda. Y si alguna vez necesitas ajustar alguno de esos factores, solo actualizas la plantilla de búsqueda y voilà que los cambios se implementan. Si buscas un ejemplo de plantillas de búsqueda en acción con herramientas agentes, echa un vistazo al blog de Elasticsearch Labs 'MCP for intelligent search', que emplea una plantilla de búsqueda detrás de una llamada a herramienta desde un servidor MCP externo.

Flujos de trabajo integrados (¡por la primera vez!)

Una de las cosas más difíciles de navegar en nuestro nuevo mundo de IA agente es la naturaleza no determinista de agentes "razonamientos" semi-autónomos y autodirigidos. La ingeniería de contexto es una disciplina crítica para la IA agentica: son las técnicas que ayudan a reducir las posibles conclusiones que puede generar nuestro agente a lo que sabemos de la verdad fundamental. Incluso con una ventana de contexto altamente precisa y relevante (cuando salimos del ámbito de los hechos numéricos) seguimos faltando esa pequeña garantía de que la respuesta del agente es totalmente repetible y fiable.

Cuando envías la misma solicitud a un agente varias veces, las respuestas pueden ser esencialmente las mismas con solo una pequeña diferencia en la respuesta. Eso suele estar bien para consultas simples, quizá apenas perceptibles, y podemos intentar moldear el resultado con técnicas de ingeniería de contexto. Pero a medida que las tareas que pedimos a nuestros agentes se vuelven más complejas, existe más probabilidad de que una o más de las subtareas introduzcan una variación que cambie ligeramente el resultado final. Probablemente empeorará a medida que empecemos a depender más de las comunicaciones agente a agente, y esas variaciones se acumularán. Esto vuelve a la idea de que las herramientas con las que interactúan nuestros agentes deben ser muy flexibles y ajustables para dirigir con precisión los datos contextuales, y que deben responder en un formato de salida esperado. También indica que, en muchos casos de uso, necesitamos dirigir las interacciones entre agentes y herramientas — ¡aquí es donde entran en juego los flujos de trabajo!

Elastic pronto tendrá flujos de trabajo completamente personalizables integrados en el núcleo de la plataforma. Estos flujos de trabajo podrán operar con agentes y herramientas de forma bidireccional, por lo que los flujos de trabajo podrán llamar a agentes y herramientas, y agentes y herramientas podrán llamar a flujos de trabajo. Tener estas capacidades totalmente integradas en la misma plataforma de IA de búsqueda, donde todos tus datos viven siendo transformadores, ¡el potencial de los flujos de trabajo es extremadamente emocionante! ¡Pronto, muy pronto!

Elastic como banco de memoria unificado

Al ser una plataforma de datos distribuida diseñada para búsquedas casi en tiempo real, Elastic realiza naturalmente las funciones de memoria a largo plazo para sistemas de IA agente. Con la experiencia de chat integrada en Agent Builder, también tenemos seguimiento y gestión de la memoria a corto plazo y el historial de chat. Y dado que toda la plataforma es API-first, es extremadamente fácil emplear Elastic como plataforma para mantener la salida contextual de una herramienta (y poder consultar ella después) que podría saturar la ventana de contexto del agente; Esta técnica a veces se denomina "toma de notas" en círculos de ingeniería contextual.

Tener memoria a corto y largo plazo en la misma plataforma de búsqueda aporta muchos beneficios intrínsecos: imagina poder usar historiales de chat y respuestas contextuales persistentes como parte de los influencers semánticos para futuras interacciones en chat, o para realizar análisis de amenazas, o para crear productos de datos persistentes que se generan automáticamente a partir de llamadas a herramientas repetidas con frecuencia... ¡Las posibilidades son infinitas!

Conclusión

La aparición de grandes modelos de lenguaje cambió la forma en que podemos comparar contenido y los métodos que empleamos para analizar nuestros datos. Nos estamos alejando rápidamente de nuestro mundo actual, donde los humanos realizan la investigación, la consideración contextual y el razonamiento lógico para responder a sus propias preguntas, a uno donde esos pasos están en gran medida automatizados mediante IA agente. Para confiar en las respuestas generadas que recibimos, necesitamos la seguridad de que el agente consideró toda la información más relevante (incluido el factor de relevancia subjetiva) al generar su respuesta. Nuestro método principal para hacer que la IA agente sea fiable es fundamentar las herramientas que recuperan contexto adicional mediante técnicas de RAG e ingeniería contextual, pero cómo esas herramientas realizan la recuperación inicial puede ser crucial para la precisión de la respuesta.

La plataforma Elastic Search AI ofrece la flexibilidad y beneficio de la búsqueda híbrida, junto con varias funciones integradas que ayudan a la IA agente en términos de precisión, rendimiento y escalabilidad; en otras palabras, Elastic es una plataforma fantástica para varios aspectos de la ingeniería de contexto. Al estandarizar la recuperación de contexto a través de una plataforma de búsqueda, simplificamos las operaciones de las herramientas agenticas en varios frentes — y, similar al oxímoron de "ralentizar para ir más rápido", la simplicidad en la capa de generación de contexto significa una IA agente más rápida y fiable.

Ya sabes, para contextualizar - Parte II: IA agente y la necesidad de la ingeniería del contexto

Woody Walton — Tue, 18 Nov 2025 00:00:00 GMT

Con ese conocimiento (bastante extenso) sobre cómo los LLMs cambiaron los procesos subyacentes de recuperación de información, veamos cómo también cambiaron la forma en que consultamos datos.

Una nueva forma de interactuar con los datos

La IA generativa (genIA) y la IA agente hacen las cosas de forma diferente a la búsqueda tradicional. Mientras que la forma en que empezábamos a investigar la información era buscando ("déjame buscar en Google..."), la acción inicial tanto para la IA de generación como para los Agentes suele ser mediante lenguaje natural introducido en una interfaz de chat. La interfaz de chat es una discusión con un LLM que emplea su comprensión semántica para convertir nuestra pregunta en una respuesta destilada, una respuesta resumida que aparentemente proviene de un oráculo que tiene un amplio conocimiento de todo tipo de información. Lo que realmente lo vende es la capacidad del LLM para generar frases coherentes y reflexivas que enlazan los fragmentos de conocimiento que saca a la luz — incluso cuando son inexactas o totalmente alucinadas, tienen cierta veracidad .

Esa vieja barra de búsqueda con la que estábamos tan acostumbrados a interactuar puede considerar el motor RAG que usábamos cuando nosotros mismos éramos el agente de razonamiento. Ahora, incluso los motores de búsqueda de Internet están convirtiendo nuestra experiencia léxica de búsqueda "caza y picotea" en una visión general impulsada por IA que responde a la consulta con un resumen de los resultados, ayudando a los usuarios a evitar la necesidad de hacer clic y evaluar los resultados individuales por sí mismos.

IA generativa y RAG

La IA generativa intenta usar su comprensión semántica del mundo para analizar la intención subjetiva expresada a través de una solicitud de chat, y luego emplea sus habilidades de inferencia para crear una respuesta experta sobre la marcha. Hay varias partes en una interacción generativa con IA: comienza con la entrada/consulta del usuario, conversaciones previas en la sesión de chat pueden usar como contexto adicional, y el prompt instructivo que indica al LLM cómo razonar y qué procedimientos seguir para construir la respuesta. Los prompts evolucionaron desde simples "explícame esto como si tuviera cinco años" a desglosar completos sobre cómo procesar solicitudes. Estos desgloses suelen incluir secciones distintas que describen detalles de la persona/rol de la IA, razonamiento pregeneración/proceso de pensamiento interno, criterios objetivos, restricciones, formato de salida, audiencia, así como ejemplos para ayudar a demostrar los resultados esperados.

Además de la consulta del usuario y el prompt del sistema, la generación aumentada por recuperación (RAG) proporciona información contextual adicional en lo que se denomina una "ventana de contexto". RAG fue una adición fundamental a la arquitectura; es lo que usamos para informar al LLM sobre las piezas que faltan en su comprensión semántica del mundo.

Las ventanas de contexto pueden ser un poco quisquillosas en cuanto a qué, dónde y cuánto les das. Qué contexto se selecciona es muy importante, por supuesto, pero también importa la relación señal-ruido del contexto proporcionado, así como la duración de la ventana.

Muy poca información

Proporcionar muy poca información en una consulta, una indicación o una ventana de contexto puede provocar alucinaciones porque el LLM no puede determinar con precisión el contexto semántico correcto desde el que generar una respuesta. También existen problemas con la similitud vectorial de los tamaños de fragmentos de documentos: una pregunta corta y sencilla puede no coincidir semánticamente con los documentos completos y detallados que encontramos en nuestras bases de conocimiento vectorizadas. Se desarrollaron técnicas de expansión de consultas como los Embeddings de Documentos Hipotéticos (HyDE) que emplean LLMs para generar una respuesta hipotética más rica y expresiva que la consulta corta. El peligro aquí, por supuesto, es que el documento hipotético es en sí mismo una alucinación que aleja aún más al LLM del contexto correcto.

Demasiada información

Al igual que nos pasa a los humanos, demasiada información en una ventana de contexto puede abrumar y confundir a un LLM sobre cuáles deberían ser las partes importantes. El desbordamiento de contexto (o "podredumbre del contexto") afecta a la calidad y el rendimiento de las operaciones de IA generativa; afecta enormemente a la "cotización de atención" del LLM (su memoria de trabajo) y diluye la relevancia entre muchos tokens competidores. El concepto de "podredumbre del contexto" también incluye la observación de que los LLMs tienden a tener un sesgo posicional : prefieren el contenido al principio o al final de una ventana de contexto sobre el contenido de la sección central.

Información que distrae o contradice

Cuanto más grande es una ventana de contexto, más posibilidades hay de que incluya información superflua o contradictoria que pueda distraer al LLM de seleccionar y procesar el contexto correcto. En cierto modo, se convierte en un problema de basura entrando y saliendo basura: simplemente volcar un conjunto de documentos resulta en una ventana de contexto le da al LLM mucha información para analizar (potencialmente demasiado), pero dependiendo de cómo se seleccionó el contexto hay una mayor posibilidad de que se filtre información contradictoria o irrelevante.

Agentic AI

Te dije que había mucho por cubrir, pero lo conseguimos — ¡por fin estamos hablando de temas de IA agente! La IA Agente es un uso muy emocionante de las interfaces de chat LLM que amplía la capacidad de la IA generativa (¿podemos llamarla ya "legado"?) para sintetizar respuestas basar en su propio conocimiento y la información contextual que proporcionas. A medida que la IA generativa maduraba, nos dimos cuenta de que había un cierto nivel de tareas y automatización que podíamos hacer con los LLMs, inicialmente relegados a actividades tediosas y de bajo riesgo que un humano podía comprobar o validar fácilmente. En un corto periodo de tiempo, ese alcance inicial creció: una ventana de chat de un LLM puede ahora ser la chispa que envíe a un agente de IA para planear, ejecutar y evaluar iterativamente su plan para lograr su objetivo especificado. Los agentes tienen acceso al razonamiento propio de sus LLMs, al historial de chat y a la memoria de pensamiento (tal como es), y también disponen de herramientas específicas que pueden emplear para ese objetivo. También estamos viendo arquitecturas que permiten a un agente de alto nivel actuar como orquestador de múltiples subagentes, cada uno con sus propias cadenas lógicas, conjuntos de instrucciones, contexto y herramientas.

Los agentes son el punto de entrada a un flujo de trabajo mayormente automatizado: son autodirigidos en el sentido de que pueden chatear con un usuario y luego usar la 'lógica' para determinar qué herramientas tienen disponibles para ayudar a responder a la pregunta del usuario. Las herramientas suelen considerar pasivas en comparación con los agentes y están diseñadas para realizar un solo tipo de tarea. Los tipos de tareas que una herramienta puede realizar son bastante ilimitados (¡lo cual es realmente emocionante!), pero una tarea principal que realizan las herramientas es recopilar información contextual para que un agente la tenga en cuenta al ejecutar su flujo de trabajo.

Como tecnología, la IA agente aún está en pañezas y propensa al equivalente LLM del trastorno por déficit de atención: olvida fácilmente lo que se le pide hacer y a menudo se escapa a hacer otras cosas que no formaban parte del encargo. Bajo la aparente magia, las habilidades de "razonamiento" de los LLM siguen basar en predecir el siguiente token más probable en una secuencia. Para que el razonamiento (o algún día, la inteligencia artificial general (AGI)) sea fiable y digno de confianza, necesitamos poder verificar que, cuando se nos da la información correcta y más actualizada, razonarán como esperamos (y quizás nos darán ese poco más que quizá no pensamos). Para que eso ocurra, las arquitecturas agenticas necesitarán la capacidad de comunicar claramente (protocolos), adherir a los flujos de trabajo y restricciones que les damos (barreras de seguridad), recordar en qué punto de una tarea (estado) se sienten, gestionar su espacio de memoria disponible y validar que sus respuestas son precisas y cumplen los criterios de la tarea.

Háblame en un idioma que pueda entender

Como es habitual en nuevas áreas de desarrollo (especialmente en el mundo de los LLM), inicialmente existían bastantes enfoques para la comunicación agente-herramienta, pero rápidamente convergieron hacia el Protocolo de Contexto del Modelo (MCP) como estándar de facto. La definición de Protocolo de Contexto de Modelo está realmente en el nombre: es el protocolo que emplea un modelo para aplicar y recibir información contextual . MCP actúa como un adaptador universal para que los agentes LLM se conecten a herramientas externas y fuentes de datos; simplifica y estandariza las APIs para que diferentes frameworks y herramientas de LLM puedan interoperar fácilmente. Eso convierte a MCP en una especie de punto de pivote entre la lógica de orquestación y los indicios del sistema dados a un agente para actuar de forma autónoma al servicio de sus objetivos, y las operaciones enviadas a las herramientas para que se ejecuten de forma más aislada (aislada al menos respecto al agente iniciador).

Este ecosistema es tan nuevo que cada dirección de expansión se siente como una nueva frontera. Tenemos protocolos similares para interacciones agente a agente (Agent2Agent (A2A , por supuesto!) así como otros proyectos para mejorar la memoria de razonamiento de agentes (ReasoningBank), para seleccionar el mejor servidor MCP para el trabajo en cuestión (RAG-MCP), y usar análisis semántico como la clasificación zero-shot y la detección de patrones en entrada y salida como Guardrails para controlar sobre qué puede operar un agente.

Quizá notaste que la intención subyacente de cada uno de estos proyectos es mejorar la calidad y el control de la información que se devuelve en una ventana de contexto agente/genAI. Aunque el ecosistema de IA agente continúa desarrollando la capacidad de manejar mejor esa información contextual (para controlarla, gestionar y operar sobre ella), siempre habrá necesidad de recuperar la información contextual más relevante como materia para que el agente siga adelante.

¡Bienvenido a la ingeniería de contexto!

Si conoces los términos de IA generativa, probablemente oíste hablar de la 'ingeniería de prompts'; a estas alturas, es casi una pseudociencia en sí misma. La ingeniería de prompts se emplea para encontrar las mejores y más eficientes formas de describir proactivamente los comportamientos que quieres que el LLM emplee para generar su respuesta. La 'ingeniería de contexto' extiende las técnicas de 'ingeniería de prompts' más allá del lado del agente para cubrir también las fuentes y sistemas de contexto disponibles en el lado de herramientas del protocolo MCP, e incluye los temas generales de gestión, procesamiento y generación de contexto:

Gestión del contexto - Relacionada con mantener el estado y la eficiencia del contexto en flujos de trabajo agentivos de larga duración y/o más complejos. Planeación iterativa, seguimiento y orquestación de tareas y llamada a herramientas para lograr los objetivos del agente. Debido a la limitada "cotización de atención" que los agentes deben trabajar, la gestión del contexto se centra principalmente en técnicas que ayudan a refinar la ventana de contexto para capturar tanto el alcance más completo como los aspectos más importantes del contexto (¡su precisión frente a la memoria!). Las técnicas incluyen compresión, resumen y persistencia de contexto de pasos previos o llamadas a herramientas para dejar espacio en la memoria de trabajo para contexto adicional en los pasos posteriores.
Procesamiento de contexto : los pasos lógicos y, con suerte, mayormente programáticos para integrar, normalizar o refinar el contexto adquirido de fuentes dispares, de modo que el agente pueda razonar a través de todo el contexto de manera más o menos uniforme. El trabajo subyacente consiste en hacer que el contexto de todas las fuentes (prompts, RAG, memoria, etc.), todo sea consumible por el agente de la forma más eficiente posible.
Generación de contexto - Si el procesamiento de contexto consiste en hacer que el contexto recuperado sea utilizable para el agente, entonces la generación de contexto le da al agente el alcance para aplicar y recibir esa información contextual adicional a voluntad, pero también con restricciones.

Los distintos efímeros de las aplicaciones de chat LLM se corresponden directamente (y a veces de formas superpuestas) a esas funciones de alto nivel de la ingeniería del contexto:

Instrucciones / prompt del sistema - Los prompts son el marco de cómo la actividad generativa (o agente) de IA dirigirá su pensamiento hacia el logro del objetivo del usuario. Los prompts son contexto en sí mismos; No son solo instrucciones tonales: también suelen incluir lógica de ejecución de tareas y reglas para cosas como "pensar paso a paso" o "respirar hondo" antes de responder para validar que la respuesta responde completamente a la petición del usuario. Pruebas recientes demostraron que los lenguajes de marcado son muy eficaces para enmarcar las diferentes partes de un prompt, pero también hay que tener cuidado de calibrar las instrucciones para que quede en un punto óptimo entre demasiado vago y demasiado específico; queremos dar suficiente instrucción para que el LLM encuentre el contexto adecuado, pero sin ser tan prescriptivo que pierda ideas inesperadas.
Memoria a corto plazo (estado/historial) - La memoria a corto plazo es esencialmente la interacción de la sesión de chat entre el usuario y el LLM. Estos son útiles para refinar el contexto en sesiones en tiempo real y pueden almacenar para su recuperación y continuación futuras.
Memoria a largo plazo - La memoria a largo plazo debe consistir en información útil a lo largo de varias sesiones. Y no solo se accede a bases de conocimiento específicas de dominio a través de RAG; investigaciones recientes emplean los resultados de solicitudes previas de IA agente/generativa para aprender y referenciar dentro de las interacciones agentices actuales. Algunas de las innovaciones más interesantes en el ámbito de la memoria a largo plazo están relacionadas con ajustar cómo se almacena y enlaza el estado para que los agentes puedan retomar donde lo dejaron.
Salida estructurada - La cognición requiere esfuerzo, así que probablemente no sea de extrañar que, incluso con capacidades de razonamiento, los LLMs (igual que los humanos) quieran gastar menos esfuerzo al pensar, y en ausencia de una API o protocolo definido, tener un mapa (un esquema) para leer los datos devueltos de una llamada a una herramienta es de gran ayuda. La inclusión de Salidas Estructuradas como parte del marco agential ayuda a hacer que estas interacciones máquina a máquina sean más rápidas y fiables, con menos necesidad de análisis sintáctico impulsado por el pensamiento.
Herramientas disponibles - Las herramientas pueden hacer todo tipo de cosas, desde recopilar información adicional (por ejemplo, enviar consultas RAG a repositorios de datos empresariales o a través de APIs en línea) hasta realizar acciones automatizadas en nombre del agente (como reservar una habitación de hotel según los criterios de la solicitud del agente). Las herramientas también podrían ser subagentes con sus propias cadenas de procesamiento agenticos.
Generación Aumentada por Recuperación (RAG) - Me gusta mucho la descripción de RAG como "integración dinámica del conocimiento". Como se describió antes, RAG es la técnica para proporcionar la información adicional a la que el LLM no tenía acceso cuando fue capacitado, o es una reiteración de las ideas que consideramos más importantes para obtener la respuesta correcta — la que es más relevante para nuestra consulta subjetiva.

¡Un poder cósmico fenomenal, un espacio vital diminuto!

¡La IA Agente tiene tantos reinos nuevos fascinantes y emocionantes por explorar! Todavía quedan muchos de los problemas tradicionales de recuperación y procesamiento de datos por resolver, pero también nuevas clases de desafíos que solo ahora se están exponiendo a la luz en la nueva era de los LLM. Muchos de los problemas inmediatos con los que lidiamos hoy están relacionados con la ingeniería de contexto, es decir, conseguir que los LLMs reciban la información contextual adicional que necesitan sin saturar su limitado espacio de memoria de trabajo.

La flexibilidad de los agentes semiautónomos que tienen acceso a una variedad de herramientas (y otros agentes) da lugar a tantas ideas nuevas para implementar IA que es difícil imaginar las diferentes formas en que podríamos unir las piezas. La mayor parte de la investigación actual se centra en el campo de la ingeniería del contexto y se centra en construir estructuras de gestión de memoria capaces de manejar y rastrear mayores cantidades de contexto — esto se debe a que los problemas de pensamiento profundo que realmente queremos que resuelvan los LLMs presentan una mayor complejidad y pasos de pensamiento multifásicos y de larga duración, donde la memoria es extremadamente importante.

Gran parte de la experimentación continua en el campo consiste en intentar encontrar la gestión óptima de tareas y configuraciones de herramientas para alimentar la boca agente. Cada llamada a una herramienta en la cadena de razonamiento de un agente genera un costo acumulado, tanto en términos de cálculo para realizar la función de esa herramienta como del impacto en la ventana de contexto limitada. Algunas de las técnicas más recientes para gestionar el contexto de agentes LLM provocaron efectos de cadena no intencionados como el "colapso del contexto", donde comprimir/resumir el contexto acumulado para tareas de larga duración se vuelve demasiado perdiente. El resultado deseado son herramientas que devuelvan un contexto conciso y preciso, sin que información extraña se filtre en el valioso espacio de memoria de la ventana de contexto.

Demasiadas posibilidades

Queremos separación de tareas con flexibilidad para reutilizar herramientas/componentes, así que tiene todo el sentido crear herramientas agentes dedicadas para conectar a fuentes de datos específicas: cada herramienta puede especializar en consultar un tipo de repositorio, un tipo de flujo de datos o incluso un caso de uso. Pero cuidado: en la lucha por ahorrar tiempo/dinero/demostrar que algo es posible, va a haber una fuerte tentación de usar los LLMs como herramienta de federación... Intenta no hacerlo, ¡ya pasamos por eso antes! La consulta federada actúa como un "traductor universal" que convierte una consulta entrante en la sintaxis que el repositorio remoto entiende, y luego tiene que racionalizar de alguna manera los resultados de múltiples fuentes para obtener una respuesta coherente. La federación como técnica funciona bien a pequeña escala, pero a gran escala y especialmente cuando los datos son multimodales, la federación intenta salvar brechas que son demasiado amplias.

En el mundo agente, el agente sería el federador y las herramientas (a través de MCP) serían las conexiones definidas manualmente con recursos dispares. Emplear herramientas dedicadas para llegar a fuentes de datos no conectadas puede parecer una forma poderosa de unir dinámicamente diferentes flujos de datos por consulta, pero usar herramientas para hacer la misma pregunta a múltiples fuentes probablemente acabará causando más problemas de los que resuelve. Cada una de esas fuentes de datos probablemente sean diferentes tipos de repositorios debajo, cada uno con sus propias capacidades para recuperar, clasificar y cerciorar los datos que contienen. Esas variaciones o "desajustes de impedancia" entre repositorios agregan carga de procesamiento, por supuesto. También pueden introducir información o señales contradictorias, donde algo aparentemente inocuo como un desalineamiento de puntaje podría desajustar radicalmente la importancia dada a un poco de contexto devuelto y afectar la relevancia de la respuesta generada al final.

El cambio de contexto también es difícil para las computadoras

Cuando envías a un agente en una misión, a menudo su primera tarea es encontrar todos los datos relevantes a los que tiene acceso. Al igual que ocurre con los humanos, si cada fuente de datos que el agente conecta a respuestas con respuestas disímiles y desagregadas, habrá carga cognitiva (aunque no exactamente del mismo tipo) asociada a extraer los fragmentos contextuales salientes del contenido recuperado. Eso lleva tiempo/cálculo, y cada pequeño detalle se acumula en la cadena lógica agentica. Esto lleva a la conclusión de que, al igual que se discute sobre MCP, la mayoría de las herramientas agenticas deberían comportar más como APIs — funciones aisladas con entradas y salidas conocidas, ajustadas para soportar las necesidades de diferentes tipos de agentes. Incluso nos estamos dando cuenta de que los LLM necesitan contexto para contexto — son mucho mejores conectando los puntos semánticos, especialmente cuando es una tarea como traducir lenguaje natural a sintaxis estructurada, cuando tienen un esquema al que referir (¡RTFM, sin duda!).

¡Séptima entrada!

Ahora cubrimos el impacto que los LLMs tuvieron en la recuperación y consulta de datos, así como cómo la ventana de chat está madurando hacia la experiencia de IA agente. Pongamos los dos temas juntos y veamos cómo podemos emplear nuestras nuevas capacidades de búsqueda y recuperación para mejorar nuestros resultados en ingeniería de contexto. ¡Pasando a la Parte III: ¡El poder de la búsqueda híbrida en la ingeniería de contexto!

Cómo desplegar Elasticsearch en Azure AKS Automatic

Eduard Martin — Fri, 14 Nov 2025 00:00:00 GMT

Este artículo forma parte de un serial en la que aprenderemos a instalar Elasticsearch usando diferentes infraestructuras.

ECK requiere mucho más esfuerzo que las soluciones Elastic Cloud basadas en el Marketplace, pero es más automatizado que desplegar VMs por tu cuenta, porque el operador Kubernetes se encargará de la orquestación del sistema y el escalado de nodos.

Esta vez, vamos a trabajar con el Azure Kubernetes Service (AKS), usando Automático. En los otros artículos aprenderás a usar Azure VM y Azure Marketplace.

¿Qué es AKS Automático?

Azure Kubernetes Service (AKS) gestiona automáticamente la configuración del clúster, asigna dinámicamente los recursos e integra las mejores prácticas de seguridad mientras preserva la flexibilidad de Kubernetes, permitiendo a los desarrolladores pasar de la imagen del contenedor a la aplicación desplegada en cuestión de minutos.

AKS Automatic elimina la mayor parte de la gestión del cluster y logra un buen equilibrio entre simplicidad y flexibilidad. La elección correcta depende de tu caso de uso, pero la decisión es más fácil si planeas:

Despliega un entorno de pruebas: El despliegue es rápido y sencillo, lo que lo hace ideal para experimentos rápidos o clústeres de corta duración.
Trabajar sin requisitos estrictos de máquinas virtuales, almacenamiento o redes: AKS Automatic ofrece valores predeterminados, así que si esos se ajustan a tus necesidades, te ahorra más configuraciones.
Empieza por Kubernetes por primera vez: Al gestionar gran parte de la configuración del clúster, AKS Automatic reduce la curva de aprendizaje y permite a los equipos centrar en sus aplicaciones.

Para Elasticsearch, vamos a usar Elastic Cloud on Kubernetes (ECK), que es el operador oficial de Elastic Kubernetes que simplifica la orquestación de despliegues de Kubernetes en Elastic Stack.

Cómo configurar AKS Automatic

1. Iniciar sesión en el Portal Microsoft Azure.

2. En la parte superior derecha, haz clic en el botón Cloud Shell para acceder a la consola y desplegar el clúster AKS desde allí. Alternativamente, puedes usar Azure Cloud Shell.

Recuerda actualizar el ID del proyecto con el tuyo durante el tutorial.

Abrir el AKS debería ver como en la captura de pantalla de arriba.

3. Instalar la extensión aks-preview de Azure CLI. Esta versión previa nos permitirá seleccionar --sku automatic en la creación del clúster, lo que habilita la función AKS Automática.

az extension add --name aks-preview

Si ves este mensaje, significa que la extensión AKS se instaló correctamente.

4. Registrar banderas de características usando el comando az feature register

az feature register --namespace Microsoft.ContainerService --name AutomaticSKUPreview

Veréis los detalles sobre la subscripción a la función que acabamos de crear:

Verifica el estado del registro hasta que cambie de "Registrado" a "Registrado". Puede tardar unos minutos en terminar el registro.

az feature show --namespace Microsoft.ContainerService --name AutomaticSKUPreview

Ejecuta az provider register para propagar los cambios.

az provider register --namespace Microsoft.ContainerService

5. Crear un grupo de recursos

Un grupo de recursos es un grupo lógico de recursos Azure que deben gestionar y desplegar.

az group create --name elastic-resource --location eastus

6. Crear un clúster de Autopilot. Lo llamaremos myAKSAutomaticCluster y usaremos el grupo de recursos que acabamos de crear. Cerciórate de tener disponibles 16 vCPUs en cualquiera de los siguientes tamaños de VM: Standard_D4pds_v5, Standard_D4lds_v5, Standard_D4ads_v5, Standard_D4ds_v5, Standard_D4d_v5, Standard_D4d_v4, Standard_DS3_v2 Standard_DS12_v2 para que AKS asigne recursos.

az aks create \
    --resource-group elastic-resource \
    --name myAKSAutomaticCluster \
    --sku automatic \
    --generate-ssh-keys

* Si aparecen MissingSubscriptionRegistration errores, vuelve al paso 4 con las subscripciones que faltan. Por ejemplo, The subscription is not registered to use namespace 'microsoft.insights' requiere correr az provider register --namespace Microsoft.Insights.

Sigue el inicio de sesión interactivo:

Aparecerá un mensaje pidiendo ejecutar "az login". Tienes que ejecutar ese comando y luego esperar.

7. Esperar a que esté listo. Tarda unos 10 minutos en crear.

8. Configurar el acceso en línea de comandos de kubectl.

az aks get-credentials --resource-group elastic-resource --name myAKSAutomaticCluster

Ten en cuenta que la extensión que instalamos está habilitando AKS Automatic.

9. Confirmar que los nodos se desplegaron.

kubectl get nodes

Verás un mensaje de error prohibido; copia el ID de usuario del error.

10. Agregar a tu usuario al control de acceso de AKS.

Consigue el ID AKS. Copia la salida del comando.

az aks show --resource-group elastic-resource  --name myAKSAutomaticCluster --query id --output tsv

Crea una asignación de roles usando el ID AKS y el ID principal de tu usuario.

az role assignment create --role "Azure Kubernetes Service RBAC Cluster Admin" --assignee  --scope

11. Intenta confirmar que los nodos se desplegaron de nuevo.

kubectl get nodes

12. Instalar la Nube Elástica en el operador Kubernetes (ECK).

# Install ECK Custom Resource Definitions
kubectl create -f https://download.elastic.co/downloads/eck/2.16.1/crds.yaml

# Install the ECK operator
kubectl apply -f https://download.elastic.co/downloads/eck/2.16.1/operator.yaml

13. Vamos a crear una instancia de Elasticsearch de un solo nodo con los valores predeterminados.

cat <

Desactivamos nmap porque la máquina AKS predeterminada tiene un valor de vm.max_map_count demasiado bajo. No se recomienda desactivarlo para la producción, pero sí aumentar el valor de vm.max_map_count. Puedes leer más sobre cómo hacerlo aquí.

14. Desplieguemos también un clúster Kibana de un solo nodo. Para Kibana, agregaremos un balanceador de carga, que nos dará una IP externa que podremos usar para llegar a Kibana desde nuestro dispositivo.

cat <

Por defecto, AKS Automatic configurará el balanceador de carga como público; Puedes cambiar el comportamiento configurando la anotación de metadatos:

service.beta.kubernetes.io/azure-load-balancer-internal: "true"

15. Comprueba que tus cápsulas estén funcionando.

kubectl get pods

16. También puedes ejecutar kubectl get elasticsearch y kubectl get kibana para estadísticas más específicas como la versión de Elasticsearch, nodos y salud.

17. Accede a tus servicios.

kubectl get svc

Esto te mostrará la URL externa de Kibana bajo EXTERNAL-IP. Puede que el balanceador de carga tarde unos minutos en provisionarse. Copia el valor de EXTERNAL-IP.

18. Consigue la contraseña de Elasticsearch para el usuario 'elastic':

kubectl get secret quickstart-es-elastic-user -o=jsonpath='{.data.elastic}' | base64 --decode

19. Accede a Kibana desde tu navegador:

a. URL: https://:5601

b. Nombre de usuario:elastic

c. Contraseña:c44A295CaEt44D6xIzN6Zs5m (del paso anterior)

20. Al acceder a Elastic Cloud desde tu navegador, verás la pantalla de bienvenida.

Si quieres cambiar las especificaciones del clúster de Elasticsearch, como cambiar o redimensionar nodos, puedes volver a aplicar el manifiesto YML con la nueva configuración:

cat <

En este ejemplo, vamos a agregar un nodo más y modificar la RAM y la CPU. Como puedes ver, ahora kubectl get elasticsearch muestra 2 nodos:

Lo mismo ocurre con Kibana:

cat <

Podemos ajustar la CPU/RAM del contenedor y también el uso de Node.js memoria (máximo-tamaño de espacio antiguo)

Ten en cuenta que las reclamaciones de volumen existentes no pueden reducir. Tras aplicar la actualización, el operador realizará los cambios con un tiempo de interrupción mínimo.

Recuerda eliminar el clúster cuando termines de hacer pruebas para evitar costos innecesarios.

az aks delete --name myAKSAutomaticCluster --resource-group elastic-resource

`Conclusión`

Emplear Azure AKS Automatic con ECK proporciona una solución equilibrada para desplegar Elasticsearch y Kibana: reduce la complejidad operativa, garantiza escalado y actualizaciones automatizadas, y aprovecha la flexibilidad de Kubernetes. Este enfoque es ideal para equipos que buscan un proceso de despliegue fiable, repetible y manteniendo sin gestionar manualmente cada detalle de la infraestructura, lo que lo convierte en una opción práctica tanto para entornos de pruebas como de producción.

`Pasos siguientes`

Si quieres leer más sobre Kubernetes, puedes consultar la documentación oficial aquí:



Creando una sala de redacción de un agente LLM con protocolo A2A y MCP en Elasticsearch: Parte I
Justin Castilla — Thu, 13 Nov 2025 00:00:00 GMT
Introducción
Los sistemas actuales respaldados por LLM están evolucionando rápidamente más allá de aplicaciones de modelo único hacia redes complejas donde agentes especializados trabajan juntos para realizar tareas que la informática moderna nunca antes consideró posibles. A medida que estos sistemas se vuelven más complejos, la infraestructura que permite la comunicación de agentes y el acceso a herramientas se convierte en el principal foco de desarrollo. Surgieron dos enfoques complementarios para abordar estas necesidades: los protocolos Agent2Agent (A2A) para la coordinación multiagente y el Protocolo de Contexto del Modelo (MCP) para el acceso estandarizado a herramientas y recursos.
Entender cuándo usar cada uno en armonía con y sin el otro puede afectar significativamente la escalabilidad, mantenibilidad y efectividad de tus aplicaciones. Este artículo explora los conceptos e implementaciones de A2A dentro del ejemplo práctico de una redacción digital, donde agentes especializados en LLM colaboran para investigar, escribir, editar y publicar artículos de noticias.
Aquí se puede encontrar un repositorio adjunto, y examinaremos ejemplos concretos de A2A en acción cerca del final del artículo en la Sección 5.
Prerrequisitos
El repositorio consiste en implementaciones basadas en Python de los agentes A2A. Flask proporciona un servidor API, así como un servicio de mensajería personalizado en Python llamado Event Hub, que enruta mensajes para registro y actualizaciones de la interfaz. Por último, se dispone de una interfaz React para el uso independiente de las funciones de la redacción. Todo está contenido dentro de una imagen Docker para facilitar su implementación. Si quieres ejecutar los servicios directamente con tu máquina, querrás cerciorarte de tener estas tecnologías instaladas:
Lenguajes y tiempos de ejecución
Python 13.12 - Lenguaje central de backend
Node.js 18+ - Interfaz de React opcional
Frameworks y SDKS básicos:
A2A SDK 0.3.8 - Coordinación y comunicación de agentes
SDK Anthropic - Integración de Claude para generación de IA
Uvicorn - servidor ASGI para ejecutar agentes
FastMCP 2.12.5+ - Implementación del servidor MCP
React 18.2 - Marco de interfaz de usuario frontend
Datos y búsqueda
Elasticsearch 9.1.1+ - Indexación y búsqueda de artículos
Despliegue en Docker (opcional, pero recomendado)
Docker 28.5.1+
Sección 1: ¿Qué es Agent2Agent (A2A)?
Definición y conceptos fundamentales
Unknown block type "block", specify a component for it in the `components.types` option
Especificaciones oficiales: https://a2a-protocol.org/latest/specification/
Orígenes y evolución
El concepto de comunicación Agent2Agent, o sistemas multiagente, tiene raíces en sistemas distribuidos, microservicios e investigación multiagente que se remontan a décadas atrás. Los primeros trabajos en inteligencia artificial distribuida sentaron las bases para agentes capaces de negociar, coordinar y colaborar. Estos primeros sistemas estaban dedicados a simulaciones sociales a gran escala, investigación académica y gestión de redes eléctricas.
Con la llegada de la disponibilidad de LLMs y la reducción del costo operativo, los sistemas multiagente estuvieron disponibles para los mercados "prosumers", con el respaldo de Google y la comunidad de investigación en IA en general. Ahora conocido como sistemas Agent2Agent, la incorporación del protocolo A2A evolucionó hasta convertir en un estándar moderno diseñado específicamente para la era de múltiples grandes modelos de lenguaje coordinando esfuerzos y tareas.
El protocolo A2A garantiza una comunicación y coordinación fluidas entre agentes aplicando estándares y principios consistentes a los puntos de interacción donde los LLMs se conectan y comunican. Esta estandarización permite que agentes de diferentes desarrolladores —empleando distintos modelos subyacentes— trabajen juntos de forma eficaz.
Los protocolos de comunicación no son nuevos y tienen raíces ampliamente arraigadas en casi todas las transacciones digitales realizadas en Internet. Si escribiste https://www.elastic.co/search-labs en un navegador para acceder a este artículo, las probabilidades son altas de que se ejecutaron protocolos TCP/IP, transporte HTTP y consulta DNS, cerciorando una experiencia de navegación coherente para nosotros.
Características clave
Los sistemas A2A se basan en varios principios fundamentales para garantizar una comunicación fluida. Construir sobre estos principios garantiza que diferentes agentes, basados en distintos LLMs, frameworks y lenguajes de programación, interactúen de forma fluida.
Estos son los cuatro principios principales:
Paso de mensajes: Los agentes se comunican mediante mensajes estructurados con propiedades y formatos bien definidos
Coordinación: Los agentes orquestan flujos de trabajo complejos delegando tareas entre sí y gestionando dependencias sin bloquear a otros agentes
Especialización: Cada agente se centra en un dominio o capacidad específica, convertir en un experto en su área y ofreciendo la realización de tareas basar en ese conjunto de habilidades
Estado distribuido: El estado y el conocimiento se distribuyen entre agentes en lugar de centralizar, con los agentes con la capacidad de actualizar mutuamente sobre el progreso con el estado de la tarea y retornos parciales (artefactos)
La redacción: Un ejemplo recurrente
Imagina una redacción digital impulsada por agentes de IA, cada uno especializado en un aspecto diferente del periodismo:
Jefe de Noticias (coordinador/cliente): Asigna historias y monitorear el flujo de trabajo
Agente reportero: Escribe artículos basados en investigaciones y entrevistas
Agente Investigador: recopila datos, estadísticas e información de fondo
Archive Agent: Busca en artículos históricos e identifica tendencias usando Elasticsearch
Editor Agent: Reseña artículos para calidad, estilo y optimización SEO
Agente editorial: Publica artículos aprobados en la plataforma de blogs vía CI/CD
Estos agentes no actúan de forma aislada; cuando el Jefe de Noticias asigna una noticia sobre la adopción de energías renovables, el Reportero necesita que el Investigador recopile estadísticas, que el Editor revise el borrador y que el Editor publique el texto final. Esta coordinación se realiza a través de protocolos A2A.
Sección 2: comprensión de la arquitectura A2A
Roles de Agente de Cliente y Agente Remoto
En la arquitectura A2A, los agentes asumen dos roles principales. El Agente Cliente es responsable de formular y comunicar tareas a otros agentes del sistema. Identifica a los agentes remotos y sus capacidades, empleando esta información para tomar decisiones informadas sobre la delegación de tareas. El agente cliente coordina el flujo de trabajo general, cerciorando que las tareas se distribuyan correctamente y que el sistema avance hacia sus objetivos.
El Agente Remoto, en cambio, actúa en tareas delegadas por los clientes. Proporciona información o toma acciones específicas en respuesta a solicitudes, pero no inicia acciones de forma independiente. Los agentes remotos también pueden comunicar con otros agentes remotos según sea necesario para cumplir con sus responsabilidades asignadas, creando una red colaborativa de capacidades especializadas.
En nuestra redacción, el Jefe de Noticias actúa como agente cliente, mientras que el Reportero, el Investigador, el Editor y el Editor son agentes remotos que responden a las solicitudes y coordinan entre sí.
Capacidades básicas de A2A
Los protocolos A2A definen varias capacidades que permiten la colaboración multiagente:
1. Descubrimiento
Los servidores A2A deben anunciar sus capacidades para que los clientes sepan cuándo y cómo emplearlas para tareas específicas. Esto se logra mediante Tarjetas de Agente—documentos JSON que describen las habilidades, entradas y salidas de un agente. Las Tarjetas de Agente están disponibles en puntos finales consistentes y conocidos (como el recomendado /.well-known/agent-card.json endpoint), permitiendo a los clientes descubrir y consultar las capacidades de un agente antes de iniciar la colaboración.
A continuación hay un ejemplo de Tarjeta de Agente para el Agente de Archivo personalizado de Elastic, "Archie Archivist". Ten en cuenta que proveedores de software como Elastic alojan sus agentes A2A y proporcionan una URL para el acceso:
{
  "name": "Archie Archivist",
  "description": "Helps find historical news documents in the Elasticsearch Index of archived news articles and content.",
  "url": "https://xxxxxxxxxxxxx-abc123.kb.us-central1.gcp.elastic.cloud/api/agent_builder/a2a/archive-agent",
  "provider": {
    "organization": "Elastic",
    "url": "https://elastic.co"
  },
  "version": "0.1.0",
  "protocolVersion": "0.3.0",
  "preferred_transport": "JSONRPC",
  "documentationURL": "https://www.elastic.co/docs/solutions/search/agent-builder/a2a-server"
  "capabilities": {
    "streaming": false,
    "pushNotifications": false,
    "stateTransitionHistory": false
  },
  "skills": [
    {
      "id": "platform.core.search",
      "name": "platform.core.search",
      "description": "A powerful tool for searching and analyzing data within your Elasticsearch cluster.",
      "inputModes": ["text/plain", "application/json"],
      "outputModes": ["text/plain", "application/json"]
    },
    {
      "id": "platform.core.index_explorer",
      "name": "platform.core.index_explorer",
      "description": "List relevant indices, aliases and datastreams based on a natural language query.",
      "inputModes": ["text/plain", "application/json"],
      "outputModes": ["text/plain", "application/json"]
    }
  ],
  "defaultInputModes": ["text/plain"],
  "defaultOutputModes": ["text/plain"]
}
Esta Tarjeta de Agente revela varios aspectos importantes del Agente de Archivo de Elastic. El agente se identifica como "Archie Archivist" y deja claro su propósito: ayudar a encontrar documentos históricos de noticias en un índice de Elasticsearch. La tarjeta especifica el proveedor (Elastic) y la versión del protocolo (0.3.0), cerciorando la compatibilidad con otros agentes compatibles con A2A. Lo más importante es que el skills array enumera las capacidades específicas que ofrece este agente, incluyendo una poderosa funcionalidad de búsqueda y una exploración inteligente de índices. Cada habilidad define qué modos de entrada y salida soporta, permitiendo a los clientes entender exactamente cómo comunicar con este agente. Este agente deriva del servicio Agent Builder de Elastic, que ofrece un conjunto de herramientas nativas respaldadas por LLM y endpoints API para mantener una conversación con tu almacén de datos, no solo para recuperarlo de él. El acceso a los agentes A2A en Elasticsearch puede encontrar aquí.
2. Negociación
Clientes y agentes deben acordar los métodos de comunicación —ya sea que las interacciones se realicen mediante texto, formularios, iframes o incluso audio/video— para garantizar una interacción adecuada del usuario y el intercambio de datos. Esta negociación ocurre al inicio de la colaboración entre agentes y establece los protocolos que gobernarán su interacción a lo largo del flujo de trabajo. Por ejemplo, un agente de atención al cliente basado en voz podría negociar para comunicar mediante flujos de audio, mientras que un agente de análisis de datos podría preferir JSON estructurado. El proceso de negociación garantiza que ambas partes puedan intercambiar información de forma eficaz en un formato que se adapte a sus capacidades y a los requisitos de la tarea en cuestión.
Las capacidades listadas en el fragmento JSON anterior tienen todas esquemas de entrada y salida; Estos establecen una expectativa de cómo interactuar con este agente por parte de otros agentes.
3. Gestión de tareas y estado
Los clientes y agentes necesitan mecanismos para comunicar el estado de la tarea, cambios y dependencias a lo largo de la ejecución. Esto incluye gestionar todo el ciclo de vida de una tarea, desde su creación y asignación hasta las actualizaciones de progreso y los cambios de estado. Los estados típicos incluyen estados pendientes, en curso, completados o fallidos. El sistema también debe hacer un seguimiento de las dependencias entre tareas para cerciorar que el trabajo previo se complete antes de que comiencen las tareas dependientes. El manejo de errores y la lógica de reintentos también son componentes esenciales, que permiten al sistema recuperar de forma elegante tras fallos y seguir avanzando hacia el objetivo principal.
Ejemplo de mensaje de tarea:
{
  "message_id": "msg_789xyz",
  "message_type": "task_request",
  "sender": "news_chief",
  "receiver": "researcher_agent",
  "timestamp": "2025-09-30T10:15:00Z",
  "payload": {
    "task_id": "task_456abc",
    "capability": "fact_gathering",
    "parameters": {
      "query": "renewable energy adoption rates in Europe 2024",
      "sources": ["eurostat", "iea", "ember"],
      "depth": "comprehensive"
    },
    "context": {
      "story_id": "story_123",
      "deadline": "2025-09-30T18:00:00Z",
      "priority": "high"
    }
  }
}
Este mensaje de tarea de ejemplo demuestra varios aspectos clave de la comunicación A2A.
La estructura del mensaje incluye metadatos como un identificador único del mensaje, el tipo de mensaje enviado, la identificación del remitente y receptor, y una marca de tiempo para el seguimiento y la depuración.
La carga útil contiene la información real de la tarea, especificando qué capacidad se está invocando en el agente remoto y proporcionando los parámetros necesarios para ejecutar dicha capacidad.
La sección de contexto proporciona información adicional que ayuda al agente receptor a comprender el flujo de trabajo más amplio, incluyendo plazos y niveles de prioridad que informan sobre cómo debe asignar sus recursos y programar su trabajo.
4. Colaboración
Clientes y agentes deben apoyar una interacción dinámica pero estructurada, permitiendo a los agentes aplicar aclaraciones, información o subacciones al cliente, otros agentes o usuarios. Esto crea un entorno colaborativo donde los agentes pueden hacer preguntas de seguimiento cuando las instrucciones iniciales son ambiguas, aplicar contexto adicional para tomar mejores decisiones, delegar subtareas a otros agentes con experiencia más adecuada y proporcionar resultados intermedios para recibir retroalimentación antes de proceder con la tarea completa. Esta comunicación multidireccional cerciora que los agentes no actúen de forma aislada, sino que participen en un diálogo continuo que conduce a mejores resultados.
Comunicación distribuida entre pares
A2A permite la comunicación distribuida donde los agentes pueden ser alojados por diferentes organizaciones, con algunos agentes mantenidos internamente mientras que otros son proporcionados por servicios externos. Estos agentes pueden funcionar en diferentes infraestructuras, potencialmente abarcando múltiples proveedores de nube o centros de datos locales. Pueden usar diferentes LLMs subyacentes, con algunos agentes impulsados por modelos GPT, otros por Claude y otros más por alternativas de código abierto. Los agentes incluso podrían operar en diferentes regiones geográficas para cumplir con los requisitos de soberanía de datos o reducir la latencia. A pesar de esta diversidad, todos los agentes acuerdan un protocolo de comunicación común para el intercambio de información, garantizando la interoperabilidad independientemente de los detalles de la implementación. Esta arquitectura distribuida ofrece flexibilidad en la construcción y despliegue de los sistemas, permitiendo a las organizaciones combinar los mejores agentes e infraestructuras según sus necesidades específicas.
Esta es la arquitectura final de la aplicación de redacción:
Sección 3: Protocolo de Contexto de Modelo (MCP)
Definición y propósito
El Protocolo de Contexto del Modelo (MCP) es un protocolo estandarizado desarrollado por Anthropic para mejorar y potenciar un LLM individual con herramientas, recursos y prompts definidos por el usuario, entre otras adiciones suplementarias a la base de código. MCP proporciona una interfaz universal entre los modelos de lenguaje y los recursos externos que necesitan para completar tareas de manera eficaz. Este artículo describe el estado actual de MCP con ejemplos de casos de uso, tendencias emergentes y la propia implementación de Elastic.
Conceptos centrales de MCP
MCP opera sobre una arquitectura cliente-servidor con tres componentes principales:
Clientes: aplicaciones (como Claude Desktop o aplicaciones de IA personalizadas) que se conectan a servidores MCP para acceder a sus capacidades.
Servidores: aplicaciones que exponen recursos, herramientas y prompts a modelos de lenguaje. Cada servidor se especializa en proporcionar acceso a capacidades o fuentes de datos específicas.Herramientas: funciones definidas por el usuario que los modelos pueden invocar para realizar acciones, como bases de datos de búsqueda, llamar a APIs externas o transformaciones de ejecución sobre datos
Recursos: fuentes de datos de las que los modelos pueden leer, que se sirven con datos dinámicos o estáticos y se acceden mediante patrones URI (similares a rutas REST)
Prompts: plantillas reutilizables de prompts con variables que guían el modelo para realizar tareas específicas.
Patrón de petición-respuesta
MCP sigue un patrón de interacción petición-respuesta familiar similar a las APIs REST. El cliente (LLM) aplicar un recurso o invoca una herramienta, luego el servidor MCP procesa la solicitud y devuelve el resultado, que el LLM emplea para continuar su tarea. Este modelo centralizado con servidores periféricos proporciona un patrón de integración más sencillo en comparación con la comunicación entre agentes entre iguales.
MCP en la redacción
En nuestro ejemplo de redacción, los agentes individuales emplean servidores MCP para acceder a las herramientas y datos que necesitan:
Utilizaciones de Researcher Agent :Servidor MCP de la API de Noticias (acceso a bases de datos de noticias)
Verificación de hechos del servidor MCP (verificar afirmaciones frente a fuentes confiables)
Servidor MCP de la base de datos académica (artículos académicos e investigaciones)
Reporter Agent emplea:Guía de estilo MCP Server (estándares de redacción para redacción)
Servidor MCP de plantillas (plantillas y formatos de artículos)
Servidor MCP de Biblioteca de Imágenes (fotos de archivo y gráficos)
Editor Agent emplea:Grammar Checker MCP Server (herramientas de calidad del lenguaje)
Servidor MCP de detección de plagio (verificación de originalidad)
Análisis SEO Servidor MCP (optimización de titulares y palabras clave)
Utilizaciones del Agente de la Editorial :CMS MCP Server (API del sistema de gestión de contenidos)
Servidor CI/CD MCP (Pipeline de despliegue)
Servidor MCP de Análisis (seguimiento y monitorización)

Sección 4: comparación de arquitectura
Cuándo usar A2A
La arquitectura A2A destaca en escenarios que requieren colaboración genuina entre múltiples agentes. Los flujos de trabajo de varios pasos que requieren coordinación se benefician enormemente de A2A, especialmente cuando las tareas implican múltiples pasos secuenciales o paralelos, flujos de trabajo que requieren iteración y refinamiento, y procesos con puntos de control y necesidades de validación. En nuestro ejemplo de redacción, el flujo de trabajo de la historia requiere que el Reportero escriba, pero puede que tenga que iterar de nuevo al Investigador si la confianza en ciertos hechos es baja, luego proceder al Editor y finalmente al Editor.
La especialización específica de dominio en múltiples áreas es otro caso de uso estable para A2A. Cuando se necesitan múltiples expertos en distintos campos para realizar una tarea mayor, con cada agente aportando un profundo conocimiento del dominio y capacidades de razonamiento especializadas para distintos aspectos, A2A proporciona el marco de coordinación necesario para establecer esas conexiones. La redacción lo ejemplifica perfectamente: el investigador se especializa en la recopilación de información, el reportero en la escritura y el editor en el control de calidad, cada uno con una experiencia distinta.
La necesidad de un comportamiento autónomo de agentes hace que A2A sea especialmente valioso. Los agentes que pueden tomar decisiones independientes, mostrar un comportamiento proactivo basado en condiciones cambiantes y adaptar dinámicamente a los requisitos del flujo de trabajo prosperan en una arquitectura A2A. La escalada horizontal de funciones especializadas es otro beneficio clave: en lugar de tener un único maestro de todos los oficios, múltiples agentes especializados trabajan coordinados, y múltiples instancias del mismo agente pueden manejar subtareas de forma asíncrona. Durante noticias de última hora en nuestra redacción, por ejemplo, varios agentes de Reporter pueden trabajar simultáneamente en diferentes ángulos de la misma historia.
Por último, las tareas que requieren colaboración genuina entre múltiples agentes son ideales para A2A. Esto incluye mecanismos de evaluación de los LLM como jurado , sistemas de construcción de consenso y votación, y la resolución colaborativa de problemas donde se necesitan múltiples perspectivas para alcanzar el mejor resultado.
Cuándo usar MCP
El Protocolo de Contexto del Modelo es ideal para ampliar las capacidades de un solo modelo de IA. Cuando un único modelo de IA necesita acceso a múltiples herramientas y fuentes de datos, MCP ofrece la solución perfecta con razonamiento centralizado combinado con herramientas distribuidas e integración sencilla de herramientas. En nuestro ejemplo de redacción, el Agente de Investigación (un modelo) necesita acceso a múltiples fuentes de datos, incluyendo News API, servicios de verificación de hechos y bases de datos académicas, todo ello accedido a través de servidores MCP estandarizados.
La integración estandarizada de herramientas se convierte en una prioridad cuando la ampliación de la compartición y la reutilización de las integraciones de herramientas importan. MCP destaca aquí con su ecosistema de servidores MCP preconstruidos que reducen significativamente el tiempo de desarrollo para integraciones comunes. Cuando se requiere simplicidad y mantenibilidad, los patrones de solicitud-respuesta de MCP son familiares para los desarrolladores, más fáciles de entender y depurar que los sistemas distribuidos, y tienen una menor complejidad operativa.
Por último, MCP suele ser ofrecido por proveedores de software para facilitar la comunicación remota con sus sistemas. Estos servidores MCP ofrecidos por el proveedor reducen significativamente el tiempo de incorporación y desarrollo, al tiempo que ofrecen una interfaz estandarizada con sistemas propietarios, haciendo que la integración sea mucho más sencilla que el desarrollo de APIs personalizadas.
Cuándo usar ambos (MCP de A2A ❤️)
Muchos sistemas sofisticados se benefician de combinar A2A y MCP, como se indica en la documentación de A2A sobre integración MCP. Los sistemas que requieren tanto coordinación como estandarización son candidatos ideales para un enfoque híbrido. A2A se encarga de la coordinación de agentes y la orquestación de flujos de trabajo, mientras que MCP proporciona acceso a herramientas individuales a los agentes. En nuestro ejemplo de redacción, los agentes coordinan mediante A2A; con el flujo de trabajo pasando de reportero a investigador, luego editor y luego editor. Sin embargo, cada agente emplea servidores MCP para sus herramientas especializadas, creando una separación arquitectónica limpia.
Múltiples agentes especializados, cada uno usando MCP para acceder a herramientas, representan un patrón común donde hay una capa de coordinación de agentes gestionada por A2A y una capa de acceso a herramientas gestionada por MCP. Esta clara separación de preocupaciones facilita la comprensión y el mantenimiento de los sistemas.
Los beneficios de combinar ambos enfoques son sustanciales. Obtienes los beneficios organizacionales de los sistemas multiagente, incluyendo especialización, autonomía y procesamiento en paralelo, además de disfrutar de los beneficios de estandarización y ecosistema del MCP, como la integración de herramientas y el acceso a recursos. Hay una clara separación entre la coordinación de agentes (A2A) y el acceso a recursos (MCP), y lo importante es que A2A no es necesario solo para tareas pequeñas como el acceso a API—MCP las gestiona de forma eficiente sin la sobrecarga de la orquestación multiagente.
Preguntas frecuentes: A2A vs. MCP - Casos de uso
            
              
                
                    
                      Característica Agent2Agent (A2A) Protocolo de Contexto de Modelo (MCP) Híbrido (A2A + MCP)
                    
                    
                      Objetivo principal Coordinación Multiagente: Permite que un equipo de agentes especializados trabaje juntos en flujos de trabajo complejos y de varios pasos. Mejora de un solo agente: Extiende la capacidad de un único LLM/Agente con herramientas, recursos y datos externos. Fuerza combinada: A2A gestiona el flujo de trabajo del equipo, mientras que MCP proporciona herramientas a cada miembro del equipo.
                    
                    
                      Ejemplo de equipo de redacción La cadena de flujo de trabajo: Jefe de Noticias → Reportero → Investigador → Editor → Editor. Esta es la capa de coordinación. Herramientas individuales del agente: El Agente Reportero accede al servidor de la guía de estilo y al servidor de plantillas (a través de MCP). Esta es la capa de acceso a herramientas. El sistema completo: el reportero coordina con el editor (A2A), y el reportero emplea el servidor MCP de la Biblioteca de Imágenes para encontrar un gráfico para la historia.
                    
                    
                      Cuándo usar cuál Cuando necesitas colaboración genuina, iteración y refinamiento, o experiencia especializada repartida entre varios agentes. Cuando un solo agente necesita acceso a múltiples herramientas y fuentes de datos o requiere integración estandarizada con sistemas propietarios. Cuando necesitas los beneficios organizacionales de los sistemas multiagente y los beneficios de estandarización y ecosistema del MCP.
                    
                    
                      Beneficio fundamental Autonomía y escalado: Los agentes pueden tomar decisiones independientes, y el sistema permite la escalado horizontal de funciones especializadas. Simplicidad y estandarización: Más fácil de depurar y mantener gracias al razonamiento centralizado, y proporciona una interfaz universal para los recursos. Separación clara de preocupaciones: Facilita la comprensión del sistema: A2A = trabajo en equipo, MCP = acceso a la herramienta.
                    
              
            
          Conclusión
Esta es la primera sección de dos partes que cubren la implementación de agentes basados en A2A reforzados con servidores MCP para proporcionar soporte y acceso externo a datos y herramientas. El siguiente artículo explorará el código real para demostrar que trabajan juntos para emular las actividades en una redacción online. Aunque ambos sistemas son extremadamente capaces y flexibles por sí mismos, verás cuánto se complementan cuando trabajan en conjunto.


Para contexto, Parte I: La evolución de la búsqueda híbrida y la ingeniería del contexto
Woody Walton — Wed, 12 Nov 2025 00:00:00 GMT
Nuestro nuevo mundo de IA agente
Como muchos de nosotros, me siento a la vez eufórico y asombrado por el ritmo al que evolucionan las capacidades de la IA. Primero vimos cómo los grandes modelos de lenguaje (LLMs) y la búsqueda vectorial nos lanzaron a la revolución semántica, donde ya no buscábamos ni explorábamos palabras clave para encontrar cosas. Después, los LLMs nos mostraron nuevas formas de interactuar con nuestros datos, usando interfaces de chat para transformar solicitudes en lenguaje natural en respuestas que destilan vastas bases de conocimiento en resúmenes fáciles de consumir. Ya sabemos (¡ya!) tienen los inicios de la lógica automatizada impulsada por LLM en forma de flujos de trabajo de "IA agente" que pueden entender semánticamente una petición entrante, razonar los pasos a seguir y luego elegir entre las herramientas disponibles para ejecutar iterativamente acciones y alcanzar esos objetivos.
La promesa de la IA agente nos está obligando a evolucionar desde el uso principal de 'ingeniería de prompts' para moldear nuestras interacciones generativas con IA, hasta centrarnos en cómo podemos ayudar a las herramientas agenticas a obtener la información adicional más relevante y eficiente que el LLM debe tener en cuenta al generar sus respuestas — la 'ingeniería de contexto' es la próxima frontera. La búsqueda híbrida es, con diferencia, el medio más poderoso y flexible para sacar a la luz el contexto relevante, y la plataforma de Search AI de Elastic abre una nueva vía para aprovechar los datos en servicio de la ingeniería contextual. En este artículo, vamos a hablar de cómo los LLM cambiaron el mundo de la recuperación de información desde dos ángulos, y luego de cómo pueden trabajar juntos para obtener mejores resultados. Hay bastante terreno que cubrir...
Parte I: Cómo cambiaron los LLM la búsqueda
Empecemos desde el ángulo de cómo los LLM cambiaron la forma en que accedemos y recuperamos información.
Nuestro legado léxico
Todos vivimos en el mundo de la búsqueda léxica algo limitado (bastante bien, en la medida de lo posible) durante mucho tiempo. La búsqueda es la primera herramienta a la que recurrimos cuando investigamos o empezamos un nuevo proyecto, y hasta hace poco, nos correspondía formular nuestras consultas de una manera que un motor de búsqueda léxico comprenda. La búsqueda léxica se basa en asociar algún tipo de término de consulta con palabras clave que se encuentran en un corpus documental — independientemente de si el contenido es no estructurado o no estructurado. Para que una búsqueda léxica devuelva un documento como resultado, debe coincidir con esa palabra clave (o tener un vocabulario controlado como una lista de sinónimos o diccionario para establecer la conexión conceptual para nosotros).
POST my-index/_search
{
  "size": 10,
  "query": {
    "semantic": {
      "query": "machine learning applications",
      "field": "semantic-content-field"
    }
  }
}
Un ejemplo de consulta léxica multi-match 
Al menos los motores de búsqueda tienen la capacidad de devolver resultados con un puntaje de relevancia. Los motores de búsqueda ofrecen una gran variedad de opciones de sintaxis de consulta para dirigir eficazmente los datos indexados y algoritmos de relevancia incorporados que puntuan los resultados en función de la intención de la sintaxis de consulta del usuario. Los motores de búsqueda se benefician de décadas de avances en algoritmos de clasificación de relevancia, y eso los convierte en una plataforma eficiente de recuperación de datos capaz de ofrecer resultados puntuados y ordenados según su relevancia para la consulta. Las bases de datos y otros sistemas que emplean SQL como su método principal para recuperar datos están en desventaja aquí: no existe un concepto de relevancia en una consulta de base de datos; Lo mejor que pueden hacer es ordenar los resultados alfabéticamente o numéricamente. La buena noticia es que obtendrás todos los resultados (recordación) con esas palabras clave, pero no necesariamente están en un orden útil respecto al motivo por el que las pediste (precisión). Es un punto importante, como veremos en breve...
Entra en escena el dragón (semántico)
El potencial de las representaciones vectoriales de la información como alternativa a la búsqueda por palabras clave se investigó durante bastante tiempo. Los vectores tienen mucho potencial porque nos sacan del modo de emparejamiento de contenido basado solo en palabras clave — al ser representaciones numéricas de términos y pesos, los vectores permiten que los conceptos sean matemáticamente cercanos según la comprensión que tiene un modelo de lenguaje sobre cómo se relacionan los términos entre sí en el ámbito de entrenamiento. El largo retraso en la búsqueda vectorial de propósito general se debió a que los modelos estaban mayormente limitados a dominios específicos, simplemente no eran lo suficientemente grandes para comprender suficientemente los muchos conceptos diferentes que un término podría representar en distintos contextos.
No fue hasta que los Grandes Modelos de Lenguaje (LLMs) aparecieron hace unos años, con su capacidad de capacitar con cantidades mucho mayores de datos (usando transformadores y atención), que la búsqueda vectorial se volvió práctica: el tamaño y la profundidad de los LLMs finalmente permitieron que los vectores almacenaran suficiente matiz para captar realmente el significado semántico. Ese aumento repentino en la profundidad de comprensión permitió que los LLMs ahora sirvieran a un gran número de funciones de procesamiento del lenguaje natural (PLN) que antes estaban bloqueadas, siendo quizás la más impactante la capacidad de inferir el siguiente término más probable de una secuencia dado el contexto de lo que hay en la secuencia hasta ese momento. La inferencia es el proceso que otorga a la IA generativa su capacidad casi humana para producir texto. El texto generado por IA se basa en la comprensión que tiene el LLM sobre cómo se relacionan los términos dentro de sus datos de entrenamiento y también emplea la redacción de la petición para desambiguar entre diferentes contextos en los que los términos pueden aparecer.
Por mágica que sea la IA generativa , existen limitaciones en los LLM que causan errores de calidad y precisión, comúnmente llamados alucinaciones. Las alucinaciones ocurren cuando el LLM no tiene acceso a la información (o no es guiado al contexto correcto) para basar su respuesta en la verdad, por lo que, siendo útil, generará en su lugar una respuesta segura y plausible que es inventada. Parte de la causa es que, aunque los LLMs aprenden el uso del lenguaje dentro de grandes dominios de información diversa, tienen que dejar de capacitar en un momento determinado, por lo que su comprensión tiene un factor de puntualidad — es decir, que el modelo solo puede saber qué era preciso hasta el momento en que dejó de capacitar. Otro factor para las alucinaciones es que el modelo normalmente no conoce datos privados (datos no disponibles en Internet público), y eso es especialmente significativo cuando esos datos contienen términos y nomenclatura específicos.
Bases de datos vectoriales
Los LLM vectorizan el contenido a su espacio de modelo empleando una técnica llamada incrustación de texto, que se refiere a incrustar o mapear el significado semántico del contenido dentro de la visión del mundo del modelo en función del entrenamiento recibido. Hay varios pasos para preparar y procesar contenido para incrustar, incluyendo el chunking y la tokenización (y tokenización de subpalabras). El resultado suele ser un conjunto de vectores densos que representan la comprensión del modelo sobre el significado de ese fragmento de contenido dentro de su espacio vectorial. El chunking es un proceso inexacto que pretende encajar el contenido en las limitaciones de las restricciones de procesamiento de un modelo para generar incrustaciones, mientras intenta agrupar texto relacionado en un bloque usando construcciones semánticas como indicadores de oraciones y párrafos.
La necesidad de hacer chunks puede crear cierta flexibilidad semántica en un documento incrustado porque los chunks individuales no están completamente asociados con otros chunks del mismo documento. La opacidad inherente de las redes neuronales puede empeorar esta flexibilidad: un LLM es realmente una "caja negra" donde las conexiones entre términos y conceptos establecidas durante el entrenamiento no son deterministas y no pueden interpretar para los humanos. Esto genera problemas de explicabilidad, repetibilidad, sesgos inconscientes y, potencialmente, pérdida de confianza y precisión. Aun así, la capacidad de conectar ideas semánticamente, sin estar atado a palabras clave específicas al enviar consultas, es extremadamente poderosa:
POST my-index/_search 
{
  "size": 10, 
  "query": {
    "semantic": {
      "query": "machine learning applications",
      "field": "semantic-content-field"
    }
  }
} 
Un ejemplo de consulta semántica
Hay un aspecto más a considerar para las bases de datos vectoriales: ¡no son motores de búsqueda, son bases de datos! Cuando se realiza una búsqueda de similitud vectorial , los términos de consulta se codifican para encontrar un conjunto de coordenadas (incrustadas) dentro del espacio vectorial del modelo. Esas coordenadas se emplean entonces como el centro para encontrar los documentos que son los "vecinos más cercanos" al centro — es decir, el rango (o la posición en los resultados) de un documento se determina por la distancia de similitud calculada de las coordenadas de ese documento respecto a las coordenadas de la consulta. ¿En qué dirección debe prevalecer el ranking, cuál de los posibles contextos está más cerca de la intención del usuario? La imagen con la que la comparo es una escena de la película Stargate, donde tenemos los seis puntos de coordenada que se cruzan para indicarnos el destino (el centro), pero no podemos llegar sin conocer el "séptimo símbolo" — las coordenadas del punto de partida que representan la intención subjetiva del usuario. Así que, en lugar de que la clasificación relativa de los vectores se base en una esfera de similitud en constante expansión e indiferenciada, al considerar la intención subjetiva de la consulta mediante la sintaxis expresiva y el puntaje de relevancia, podemos obtener algo que se asemeje a un cilindro de relevancia subjetiva graduada.
Las capacidades de inferencia de un LLM podrían ayudar a identificar el contexto más probable que tiene para la consulta, pero el problema es que sin ayuda, las coordenadas de la consulta entrante solo pueden determinar por cómo se capacitó originalmente el modelo.
En cierto modo, se podría decir que la similitud vectorial va al extremo opuesto a una coincidencia estricta de palabras clave — su fortaleza radica en su capacidad para superar los problemas de desajuste de términos, pero casi en exceso: los LLM tienden a unificar conceptos relacionados en lugar de diferenciarlos. La similitud vectorial mejora nuestra capacidad para emparejar contenido semánticamente, pero no garantiza precisión porque puede pasar por alto palabras clave exactas y detalles específicos que el modelo no desambiguó lo suficiente. La búsqueda por similitud vectorial es poderosa en sí misma, pero necesitamos formas de correlacionar los resultados que recuperamos de una base de datos vectorial con los resultados de otros métodos de recuperación.
Técnicas de reclasificación
Ahora es un buen momento para mencionar una técnica general llamada reclasificación, que vuelve a puntuar o normalizar conjuntos de resultados a un orden de rangos unificado. La necesidad de reclasificar podría deber a que los resultados de múltiples fuentes o métodos de recuperación tengan mecanismos de clasificación/puntaje diferentes (¡o ninguno, SQL!), o bien se podría usar la reclasificación para alinear semánticamente los resultados de fuentes no semánticas con la consulta del usuario. La reclasificación es una operación de segunda etapa, es decir, un conjunto de resultados que fueron recogidos mediante algún método inicial de recuperación (es decir, SQL, búsqueda léxica, búsqueda vectorial) se reordenan con un método de puntaje diferente.
Existen varios enfoques disponibles, incluyendo Learning-To-Rank (LTR) y Reciprocal Rank Fusion (RRF) — LTR es útil para capturar características de los resultados de búsqueda (me gusta, valoraciones, clics, etc.) y usarlas para puntuar y potenciar o sesgar resultados. RRF es perfecto para fusionar resultados retornados de diferentes modalidades de consulta (por ejemplo, búsquedas en bases de datos léxicas y vectoriales) juntas en una única lista de resultados. Elastic también ofrece la flexibilidad de ajustar los puntajes mediante métodos de reclasificación lineal .
Sin embargo, una de las técnicas de reclasificación más efectivas es la reclasificación semántica, que emplea la comprensión semántica de un LLM para analizar las incrustaciones vectoriales tanto de la consulta como de los resultados juntos, y luego aplicar el puntaje/repuntuación de relevancia para determinar el orden final. El reranking semántico requiere, por supuesto, una conexión a un modelo de reclasificación, y Elasticsearch proporciona una API de inferencia que permite crear endpoints de reclasificación que aprovechan modelos integrados (Elastic Rerank), modelos importados de terceros o servicios alojados externamente como Cohere o Google Vertex AI. Luego puedes realizar un reordenamiento mediante la sintaxis de abstracción de la consulta del retriever :
POST my-index/_search 
{
  "size": 10,
  "retriever": {
    "text_similarity_reranker": {
      "retriever": {
        "rrf": {
          "retrievers": [
            {
              "standard": {
                "query": {
                  "multi_match": {
                    "query": "machine learning applications",
                    "fields": ["title", "content"]
                  }
                }
              }
            },
            {
              "knn": {
                "field": "semantic-content-field",
                "k": 10,
                "num_candidates": 100,
                "query_vector_builder": {
                  "text_embedding": {
                    "model_id": "my-text-embedding-model",
                    "model_text": "machine learning applications"
                  }
                }
              }
            }
          ],
          "rank_window_size": 50,
          "rank_constant": 20
        }
      }
    },
    "field": "content",
    "inference_id": "my-reranker",
    "inference_text": "machine learning applications",
    "rank_window_size": 20
  }
}
Un ejemplo de operación de reclasificación de recuperadores en varias etapas
Suena genial, ¿verdad? Podemos realizar reclasificaciones con resultados de fuentes dispares y acercarnos a una comprensión semántica de todo tipo de contenido... La reclasificación semántica puede ser costosa tanto computacionalmente como en el tiempo de procesamiento requerido, y por ello, la reclasificación semántica solo puede hacer con un número limitado de resultados, lo que significa que la forma en que se recuperan esos resultados iniciales es importante.
El método de recuperación del contexto es importante
La intención subjetiva es un factor importante para determinar la precisión de un resultado y para valorar su relevancia. Sin la capacidad de considerar la intención del usuario para realizar la consulta (expresada mediante sintaxis flexible, o mediante reclasificación en la segunda etapa), solo podemos seleccionar de los contextos existentes ya codificados dentro del espacio del modelo. La forma en que normalmente abordamos esta falta de contexto es mediante técnicas como la Generación de Aumentos por Recuperación (RAG). El funcionamiento de RAG es que desplaza efectivamente las coordenadas de la consulta al incluir términos relacionados adicionales devueltos de una consulta previa para datos contextualmente relevantes. ¡Eso hace que el motor que proporciona ese contexto adicional y su método inicial para realizar la recuperación sean aún más importantes para la precisión del contexto!
Repasemos los diferentes métodos de recuperación de contexto y cómo pueden ayudar o perjudicar a una operación RAG:
La recuperación de búsqueda híbrida sin motor de búsqueda sigue careciendo de relevancia subjetiva. Si la plataforma que proporciona RAG es principalmente SQL (lo que incluye la mayoría de las plataformas "data lake"), carece de puntaje de relevancia en la fase inicial de recuperación. Muchas plataformas de data lake ofrecen su propia versión de recuperación híbrida (no de búsqueda), normalmente combinando técnicas de reclasificación como la reclasificación semántica y la RRF en sus resultados de recuperación basada en SQL y bases de datos vectoriales. Un ordenamiento simple es obviamente insuficiente para la clasificación subjetiva, pero incluso cuando se usa como base para una operación de reclasificación semántica de segunda etapa, SQL como recuperación de primera etapa se convierte en un problema cuando el reclasificación semántica se realiza solo en los "k primeros resultados" — sin alguna forma de puntuar resultados en la recuperación, ¿qué garantía tenemos de que los mejores resultados estén realmente en los primeros resultados?
La similitud vectorial por sí sola no es suficiente para RAGs. Realmente se debe a un conjunto de problemas que se acumulan: es la rapidez del embedding, junto con métodos ingenuos de fragmentación, cómo se calcula la similitud y el componente crucial que falta de la intención subjetiva. Uno de los principales objetivos de RAG es fundamentar las interacciones generativas de IA en la verdad objetiva, tanto para prevenir alucinaciones como para informar al LLM sobre la información privada que no conocía durante el entrenamiento. Podemos emplear el contexto adicional proporcionado por RAG para restringir y dirigir a los LLMs a considerar las conexiones y detalles que sabemos que son más importantes para responder a la pregunta que nos planteamos. Para ello, necesitamos usar tanto enfoques semánticos como léxicos.
RAG grep/regex basado en archivos. Hay algunos sectores del universo de IA agente que apuntan al uso de ventanas de contexto enormemente ampliadas que acceden a archivos locales mediante grep y regex para RAG en lugar de plataformas externas de recuperación. La idea es que, con una ventana de contexto mucho más amplia disponible, los LLMs podrán establecer conexiones conceptuales dentro de su propio espacio de pensamiento en lugar de depender de fragmentos y múltiples métodos/plataformas de recuperación para recopilar información relevante. Aunque en teoría es cierto que tener un documento completo ofrece una imagen más completa que los segmentos del documento, esto solo puede funcionar en pequeños dominios de datos (o, por ejemplo, al suministrar archivos para vibecoding), y aun así, el método inicial de recuperación es un escaneo de todos los documentos con una coincidencia solo por palabra clave.
La búsqueda es más que una recuperación
Los motores de búsqueda están diseñados específicamente para hacer que las consultas sean lo más rápidas y flexibles posible. Internamente, emplean estructuras de datos especializadas para almacenar y recuperar diferentes tipos de datos de manera que se adapten a esos tipos de datos. Elasticsearch proporciona almacenamiento y consulta optimizados de prácticamente todo tipo de datos, incluyendo búsqueda léxica no estructurada/texto completo (coincidencia, frase, proximidad, multi-coincidencia), coincidencia y filtrado rápido de palabras clave (coincidencia exacta), rangos numéricos, fechas, direcciones IP, y es muy flexible en cómo almacena las estructuras de documentos (por ejemplo, Docs anidados o aplanados). Elasticsearch es también una base de datos vectorial nativa que puede almacenar y consultar tanto tipos vectoriales dispersos como densos, y seguimos explorando formas innovadoras (por ejemplo, Better Binary Quantization (BBQ) y DiskBBQ) para mantener la fidelidad de búsqueda mientras mejoramos la velocidad, escalabilidad y costos asociados al contenido vectorizado. La plataforma Elasticsearch también proporciona resiliencia y alta disponibilidad de datos integradas, e incluye capacidades de gestión del ciclo de vida de los datos como Searchable Snapshots que permiten mantener datos de poca frecuencia o de retención a largo plazo en un almacenamiento de objetos rentable, pero aún totalmente buscables.
La búsqueda híbrida es lo mejor de todos los mundos
Búsqueda híbrida (¡no solo recuperación híbrida!) combina las fortalezas de la búsqueda léxica tradicional con la comprensión semántica de los LLMs y la búsqueda por similitud vectorial. Esta sinergia permite dirigir resultados altamente relevantes en la fase de recuperación mediante cualquiera de las opciones flexibles de sintaxis de consulta que ofrece un motor de búsqueda: opciones de sintaxis impulsadas por intención y puntaje de relevancia, recuperación de datos multimodales, filtrado, agregaciones y sesgos. Con sintaxis de búsqueda como ES|QL y recuperadores de varias etapas, podemos combinar de forma flexible la búsqueda tradicional con búsqueda semántica, filtros y múltiples técnicas de reclasificación, todo en una sola petición.
Uno de los mayores beneficios de la búsqueda híbrida es que tus consultas pueden usar sintaxis especializada para múltiples tipos de datos diferentes simultáneamente. Esas diferentes sintaxis de consulta pueden usar no solo para encontrar resultados, sino también como filtros o agregaciones en los resultados. Por ejemplo, uno de los tipos de consulta más comunes que frecuentemente se combina con otra sintaxis es el análisis geoespacial. Puedes hacer cosas como consultar resultados que tengan coordenadas geográficas dentro de una distancia especificada de un punto, o aplicar agregaciones de tus resultados por región, o agregaciones para rastrear y alertar sobre movimientos dentro o fuera de una zona. Con la búsqueda híbrida tienes la flexibilidad de combinar sintaxis para dirigir los resultados de la manera más precisa, para recuperar el contenido más cercano a tu contexto.
Entreacto
Esta primera parte cuenta la historia de cómo la búsqueda vectorial cambió la forma en que podemos recuperar datos y sienta el terreno para los cambios que los LLMs trajeron a los mecanismos de consulta que empleamos para interactuar con los datos. Vamos a fingir que tuvimos que descomponer esto en varias partes para que los LLM pudieran entenderlo sin perder el contexto... ;-) Aprendamos más sobre por qué esto es importante en la Parte II: IA Agente y la necesidad de ingeniería de contexto, y en la Parte III volveremos a nuestra discusión sobre la búsqueda híbrida.


Configuración del fragmento recursivo para documentos estructurados en Elasticsearch
Daniel Rubinstein — Tue, 11 Nov 2025 00:00:00 GMT
Desde la versión 8.16, los usuarios pudieron configurar la estrategia de fragmentación empleada al ingirir documentos largos en campos de texto semánticos. A partir de 9.1 / 8.19, introdujimos una nueva estrategia configurable de fragmentación recursiva que emplea una lista de expresiones regulares para fragmentar el documento. El objetivo del chunking es dividir un documento largo en secciones que encapsulen contenido relacionado. Nuestras estrategias actuales dividirán el texto en un detalle de palabras/oraciones, pero los documentos escritos en formatos estructurados (por ejemplo, Markdown) a menudo contienen contenido relacionado dentro de secciones definidas por algunas cadenas de separación (por ejemplo, cabeceras). Para este tipo de documentos, introducimos la estrategia de fragmentación recursiva para aprovechar el formato de documentos estructurados y crear mejores fragmentos.
¿Qué es el chunking recursivo?
El fragmento recursivo iterará a través de una lista de secciones proporcionadas que separan patrones para dividir progresivamente un documento en segmentos más pequeños hasta alcanzar el tamaño máximo deseado del fragmento.
¿Cómo configuro el chunking recursivo?
A continuación se presentan los valores configurables proporcionados por el usuario para el fragmento recursivo:
(requerido) max_chunk_size: El número máximo de palabras en un bloque.
Cualquiera de:separators: Una lista de patrones de cadenas regex que se usarán para dividir el documento en bloques.
separator_group: Una cadena que se mapea a una lista predeterminada de separadores definida por Elastic para usar en tipos específicos de documentos. Actualmente, hay markdown y plaintext disponibles.
¿Cómo funciona el chunking recursivo?
El proceso de fragmentación recursiva dado un documento de entrada, una max_chunk_size (medida en palabras) y una lista de cadenas de separadores es el siguiente:
Si el documento de entrada ya está dentro del tamaño máximo del bloque, devuelva un solo bloque que cubra toda la entrada.
Divide el texto en posibles fragmentos según la aparición del separador. Para cada segmento potencial:Si el chunk potencial está dentro del tamaño máximo del chunk, agrégalo a la lista de chunks para devolverlos al usuario.
De lo contrario, repite desde el paso 2, usando solo el texto del posible fragmento y dividiendo usando el siguiente separador de la lista. Si ya no quedan separadores por probar, recurre a fragmentos basados en frases.
Ejemplos de configuración del chunking recursivo
Además del tamaño del bloque, la configuración principal para el fragmento recursivo es seleccionar qué separadores deben usar para dividir tus documentos. Si no sabes por dónde empezar, Elasticsearch ofrece algunos grupos de separadores por defecto que se pueden usar en casos de uso comunes.
Utilización de grupos separadores
Para emplear un grupo separador, simplemente indica el nombre del grupo que quieres usar al configurar la configuración de fragmentos. Por ejemplo:
"chunking_settings": {
    "strategy": "recursive",
    "max_chunk_size": 25,
    "separator_group": "plaintext"
}
Esto te dará una estrategia de fragmentación recursiva que emplea la lista de separadores ["(?. Esto funciona bien para aplicaciones genéricas de texto plano, dividiendo en 2 caracteres de nueva línea, seguidos de 1 carácter de nueva línea.
También ofrecemos un grupo de separadores markdown que empleará la lista de separadores:
[
"\n# ",
       "\n## ",
       "\n### ",
       "\n#### ",
       "\n##### ",
       "\n###### ",
       "\n^(?!\\s*$).*\\n-{1,}\\n",
       "\n^(?!\\s*$).*\\n={1,}\\n"
]
Esta lista de separadores funcionará bien para casos generales de reducción de categorías, dividiendo en cada uno de los 6 niveles de encabezado y en los caracteres que rompen secciones.
Al crear un recurso (extremo de inferencia/campo de texto semántico), la lista de separadores correspondiente al grupo de separadores en ese momento se almacenará en tus configuraciones. Si el grupo separador se actualiza más adelante, no cambiará el comportamiento de los recursos ya creados.
Empleando una lista de separadores personalizada
Si uno de los grupos de separadores predefinidos no funciona para tu caso de uso, puedes definir una lista personalizada de separadores que se adapte a tus necesidades. Ten en cuenta que las expresiones regulares pueden proporcionar dentro de la lista de separadores. A continuación se muestra un ejemplo de configuración de fragmentación configurada con separadores personalizados:
"chunking_settings": {
    "strategy": "recursive",
    "max_chunk_size": 25,
    "separators": ["\n\n", "\n", ""]
}
La estrategia de fragmentación anterior se dividirá en 2 caracteres de nueva línea, seguidos de 1 carácter de nueva línea y, por último, en una cadena “”.
Un ejemplo de fragmentación recursiva en acción
Veamos un ejemplo de fragmentación recursiva en acción. Para este ejemplo, usaremos los siguientes ajustes de fragmentación con una lista personalizada de separadores que dividen un documento markdown usando los dos niveles superiores de cabecera:
"chunking_settings": {
    "strategy": "recursive",
    "max_chunk_size": 25,
    "separators": ["\n# ", "\n## "]
}
Veamos un documento sencillo de Markdown sin fragmentos:
Ahora usemos los ajustes de fragmentación definidos arriba para fragmentar el documento:
Nota: La nueva línea al final de cada bloque (excepto el Fragmento 3) no está resaltada, pero sí se incluye dentro de los límites reales del bloque.
¡Empieza hoy mismo con el chunking recursivo!
Para más información sobre cómo emplear esta función, consulta la documentación sobre cómo configurar la configuración de fragmentos.



Introducción de la interfaz de reglas de consulta Elasticsearch en Kibana
Jhon Guzmán — Fri, 07 Nov 2025 00:00:00 GMT
La función de un motor de búsqueda es devolver resultados relevantes. Sin embargo, hay necesidades empresariales que van más allá de eso, como destacar las ventas, priorizar productos de temporada o mostrar artículos patrocinados, y los desarrolladores no siempre pueden hacer esto en la consulta de búsqueda.
Además, estos casos de uso suelen ser sensibles al tiempo, y pasar por las etapas típicas de desarrollo (crear una rama de código y luego esperar una nueva versión) es un proceso que consume mucho tiempo.
Entonces, ¿y si pudiéramos hacer todo este proceso solo con una llamada a la API, o mejor aún, con solo unos clics en Kibana?
Interfaz de Reglas de Consulta
Elasticsearch 8.10 introdujo Reglas de Consulta y Retriever de Reglas. Estas son herramientas diseñadas para inyectar resultados fijados en las consultas sin afectar la clasificación de los resultados orgánicos según reglas. Solo agregan lógica de negocio encima de los resultados de forma declarativa y sencilla.
Algunos casos de uso comunes para las Reglas de Consulta son:
Destacar anuncios u ofertas promocionadas: Mostrar artículos en oferta o patrocinados en la parte superior.
Excluyendo por contexto o geolocalización: ocultar ciertos objetos cuando la normativa local no permite mostrarlos.
Priorizar los resultados clave: Cerciorar de que las búsquedas populares o fijas estén siempre en la cima, independientemente del ranking orgánico.
Para acceder a la interfaz e interactuar con estas herramientas, necesitas hacer clic en el menú lateral de Kibana e ir a Reglas de consulta, en Relevancia:
Cuando aparezca el menú de reglas de consulta, haz clic en Crear tu primer conjunto de reglas:
A continuación, tienes que nombrar tu conjunto de normas.
La forma para definir cada regla tiene tres componentes clave:
Criterios: Las condiciones que deben cumplir para que la norma se aplique. Por ejemplo, "cuando el campo query_string contiene el valor Christmas" o "cuando el campo del país es CO."
Acción: Esto es lo que quieres que ocurra cuando se cumplan las condiciones. Puede fijar (fijar un documento a los resultados superiores) o excluir (ocultar un documento).
Metadatos: Estos son los campos que acompañan la consulta cuando se ejecuta. Pueden incluir la información del usuario (como ubicación o idioma), así como datos de búsqueda (query_string). Estos son los valores que emplean los criterios para decidir si aplicar o no una regla.
Ejemplo: objetos populares
Imaginemos que tenemos un sitio de comercio electrónico con diferentes artículos. Al analizar las métricas, observamos que uno de los artículos más vendidos en la categoría de consolas es el "DualShock 4 Wireless Controller", especialmente cuando los usuarios buscan las palabras clave "PS4" o "PlayStation 4". Así que decidimos poner este producto encima de los resultados cada vez que un usuario busque esas palabras clave.
Primero, indexemos los documentos de cada elemento usando una solicitud Bulk API:
POST _bulk
{ "index": { "_index": "products", "_id": "1" } }
{ "id": "1", "name": "PlayStation 4 Slim 1TB", "category": "console", "brand": "Sony", "price": 1200 }
{ "index": { "_index": "products", "_id": "2" } }
{ "id": "2", "name": "DualShock 4 Wireless Controller", "category": "accessory", "brand": "Sony", "price": 250 }
{ "index": { "_index": "products", "_id": "3" } }
{ "id": "3", "name": "PlayStation 4 Camera", "category": "accessory", "brand": "Sony", "price": 200 }
{ "index": { "_index": "products", "_id": "4" } }
{ "id": "4", "name": "PlayStation 4 VR Headset", "category": "accessory", "brand": "Sony", "price": 900 }
{ "index": { "_index": "products", "_id": "5" } }
{ "id": "5", "name": "Charging Station for DualShock 4", "category": "accessory", "brand": "Sony", "price": 80 }
Si no intervenimos en la consulta, el elemento suele aparecer en cuarto lugar. Aquí está la pregunta:
GET products/_search
{
 "query": {
   "match": {
     "name": "PlayStation 4"
   }
 }
}
Y aquí están los resultados
{
 "took": 1,
 "timed_out": false,
 "_shards": {
   "total": 1,
   "successful": 1,
   "skipped": 0,
   "failed": 0
 },
 "hits": {
   "total": {
     "value": 5,
     "relation": "eq"
   },
   "max_score": 0.6973252,
   "hits": [
     {
       "_index": "products",
       "_id": "3",
       "_score": 0.6973252,
       "_source": {
         "id": "3",
         "name": "PlayStation 4 Camera",
         "category": "accessory",
         "brand": "Sony",
         "price": 200
       }
     },
     {
       "_index": "products",
       "_id": "1",
       "_score": 0.6260078,
       "_source": {
         "id": "1",
         "name": "PlayStation 4 Slim 1TB",
         "category": "console",
         "brand": "Sony",
         "price": 1200
       }
     },
     {
       "_index": "products",
       "_id": "4",
       "_score": 0.6260078,
       "_source": {
         "id": "4",
         "name": "PlayStation 4 VR Headset",
         "category": "accessory",
         "brand": "Sony",
         "price": 900
       }
     },
     {
       "_index": "products",
       "_id": "2",
       "_score": 0.08701137,
       "_source": {
         "id": "2",
         "name": "DualShock 4 Wireless Controller",
         "category": "accessory",
         "brand": "Sony",
         "price": 250
       }
     },
     {
       "_index": "products",
       "_id": "5",
       "_score": 0.07893815,
       "_source": {
         "id": "5",
         "name": "Charging Station for DualShock 4",
         "category": "accessory",
         "brand": "Sony",
         "price": 80
       }
     }
   ]
 }
}
Vamos a crear una regla de consulta para cambiar esto. Primero, vamos a agregarlo al reglamento de esta manera:
O solicitud API equivalente:
PUT _query_rules/my-rules
{
  "rules": [
    {
      "rule_id": "rule-1232",
      "type": "pinned",
      "criteria": [
        {
          "type": "exact",
          "metadata": "query_string",
          "values": [
            "PS4",
            "PlayStation 4"
          ]
        }
      ],
      "actions": {
        "docs": [
          {
            "_index": "products",
            "_id": "2"
          }
        ]
      }
    }
  ]
}
Para usar el conjunto de reglas en nuestra consulta, debemos usar un tipo de regla de consulta. Este tipo de consulta se compone de dos partes principales:
GET /products/_search
{
 "retriever": {
   "rule": {
     "retriever": {
       "standard": {
         "query": {
           "match": { "name": "PlayStation 4" }
         }
       }
     },
     "match_criteria": {
       "query_string": "PlayStation 4"
     },
     "ruleset_ids": ["my-rules"]
   }
 }
}
match_criteria: Estos son los metadatos que se emplean para comparar con la consulta del usuario. En este ejemplo, el conjunto de reglas se activa cuando el campo query_string tiene el valor "PlayStation 4."
Consulta: La consulta real que se usará para buscar y obtener los resultados orgánicos.
De este modo, primero ejecutas la consulta orgánica y luego Elasticsearch aplica las reglas de tu conjunto de reglas:
{
 "took": 17,
 "timed_out": false,
 "_shards": {
   "total": 1,
   "successful": 1,
   "skipped": 0,
   "failed": 0
 },
 "hits": {
   "total": {
     "value": 5,
     "relation": "eq"
   },
   "max_score": 1.7014122e+38,
   "hits": [
     {
       "_index": "products",
       "_id": "2",
       "_score": 1.7014122e+38,
       "_source": {
         "id": "2",
         "name": "DualShock 4 Wireless Controller",
         "category": "accessory",
         "brand": "Sony",
         "price": 250
       }
     },
     {
       "_index": "products",
       "_id": "3",
       "_score": 0.6973252,
       "_source": {
         "id": "3",
         "name": "PlayStation 4 Camera",
         "category": "accessory",
         "brand": "Sony",
         "price": 200
       }
     },
     {
       "_index": "products",
       "_id": "1",
       "_score": 0.6260078,
       "_source": {
         "id": "1",
         "name": "PlayStation 4 Slim 1TB",
         "category": "console",
         "brand": "Sony",
         "price": 1200
       }
     },
     {
       "_index": "products",
       "_id": "4",
       "_score": 0.6260078,
       "_source": {
         "id": "4",
         "name": "PlayStation 4 VR Headset",
         "category": "accessory",
         "brand": "Sony",
         "price": 900
       }
     },
     {
       "_index": "products",
       "_id": "5",
       "_score": 0.07893815,
       "_source": {
         "id": "5",
         "name": "Charging Station for DualShock 4",
         "category": "accessory",
         "brand": "Sony",
         "price": 80
       }
     }
   ]
 }
}
Ejemplo: metadatos basados en el usuario
Otra aplicación interesante de las Reglas de Consulta es usar metadatos para mostrar documentos específicos basar en información contextual del usuario o del sitio web.
Por ejemplo, imaginemos que queremos destacar artículos o ventas personalizadas basándonos en el nivel de fidelidad del usuario, representado como un valor numérico.
Podemos hacerlo ingiriendo estos metadatos directamente en la consulta para que las reglas se activen cuando dicho valor cumple ciertos criterios.
Primero, indexaremos un documento que solo los usuarios con un alto nivel de lealtad puedan ver:
POST _bulk
{ "index": { "_index": "products", "_id": "6" } }
{ "id": "6", "name": "PlayStation Plus Deluxe Card - 12 months", "category": "membership", "brand": "Sony", "price": 300 }
Ahora, creemos una nueva regla dentro del mismo conjunto de reglas para que cuando el loyalty_level sea igual o superior a 80, el elemento aparezca encima de los resultados.
Almacena la regla y el reglamento.
Aquí está la solicitud REST equivalente:
PUT _query_rules/my-rules
{
  "rules": [
    {
      "rule_id": "pin-premiun-user",
      "type": "pinned",
      "criteria": [
        {
          "type": "gte",
          "metadata": "loyalty_level",
          "values": [
            80
          ]
        }
      ],
      "actions": {
        "docs": [
          {
            "_index": "products",
            "_id": "6"
          }
        ]
      }
    }
  ]
}
Ahora, al ejecutar una consulta, necesitamos incluir el nuevo parámetro loyalty_level en los metadatos. Si se cumple la condición de la regla, el nuevo documento aparecerá encima de los resultados.
Por ejemplo, al enviar una consulta donde el loyalty_level es 80:
POST /products/_search
{
  "retriever": {
    "rule": {
      "retriever": {
        "standard": {
          "query": {
            "match": {
              "name": "PlayStation"
            }
          }
        }
      },
      "match_criteria": {
        "query_string": "PlayStation",
        "loyalty_level": 80
      },
      "ruleset_ids": ["my-rules"]
    }
  }
}
Veremos el documento de lealtad encima de los resultados:
{
  "took": 31,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 4,
      "relation": "eq"
    },
    "max_score": 1.7014122e+38,
    "hits": [
      {
        "_index": "products",
        "_id": "6",
        "_score": 1.7014122e+38,
        "_source": {
          "id": "6",
          "name": "PlayStation Plus Deluxe Card - 12 months",
          "category": "membership",
          "brand": "Sony",
          "price": 300
        }
      },
      {
        "_index": "products",
        "_id": "3",
        "_score": 0.5054567,
        "_source": {
          "id": "3",
          "name": "PlayStation 4 Camera",
          "category": "accessory",
          "brand": "Sony",
          "price": 200
        }
      },
      {
        "_index": "products",
        "_id": "1",
        "_score": 0.45618832,
        "_source": {
          "id": "1",
          "name": "PlayStation 4 Slim 1TB",
          "category": "console",
          "brand": "Sony",
          "price": 1200
        }
      },
      {
        "_index": "products",
        "_id": "4",
        "_score": 0.45618832,
        "_source": {
          "id": "4",
          "name": "PlayStation 4 VR Headset",
          "category": "accessory",
          "brand": "Sony",
          "price": 900
        }
      }
    ]
  }
}
En el caso siguiente, dado que el nivel de lealtad es 70, la regla no se cumple y el objeto no debería aparecer arriba:
POST /products/_search
{
  "retriever": {
    "rule": {
      "retriever": {
        "standard": {
          "query": {
            "match": {
              "name": "PlayStation"
            }
          }
        }
      },
      "match_criteria": {
        "query_string": "PlayStation",
        "loyalty_level": 70
      },
      "ruleset_ids": ["my-rules"]
    }
  }
}
Aquí están los resultados:
{
  "took": 7,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 4,
      "relation": "eq"
    },
    "max_score": 0.5054567,
    "hits": [
      {
        "_index": "products",
        "_id": "3",
        "_score": 0.5054567,
        "_source": {
          "id": "3",
          "name": "PlayStation 4 Camera",
          "category": "accessory",
          "brand": "Sony",
          "price": 200
        }
      },
      {
        "_index": "products",
        "_id": "1",
        "_score": 0.45618832,
        "_source": {
          "id": "1",
          "name": "PlayStation 4 Slim 1TB",
          "category": "console",
          "brand": "Sony",
          "price": 1200
        }
      },
      {
        "_index": "products",
        "_id": "4",
        "_score": 0.45618832,
        "_source": {
          "id": "4",
          "name": "PlayStation 4 VR Headset",
          "category": "accessory",
          "brand": "Sony",
          "price": 900
        }
      },
      {
        "_index": "products",
        "_id": "6",
        "_score": 0.3817649,
        "_source": {
          "id": "6",
          "name": "PlayStation Plus Deluxe Card - 12 months",
          "category": "membership",
          "brand": "Sony",
          "price": 300
        }
      }
    ]
  }
}
Ejemplo: exclusión inmediata
Supongamos que nuestro mando inalámbrico DualShock 4 (ID 2) está temporalmente indisponible y no puede vender. Así que, en lugar de eliminar manualmente el documento o esperar a que algún proceso de datos se active, el equipo de negocio decide eliminarlo de los resultados de búsqueda mientras tanto.
Usaremos un proceso similar al que acabamos de aplicar a los objetos populares, pero esta vez en lugar de seleccionar Fijado, elegiremos Excluir. Esta regla funciona como una especie de lista negra. Cambia los criterios a Siempre para que la exclusión funcione cada vez que se ejecute la consulta.
La regla debería ser así:
Almacena la regla y el conjunto de reglas para aplicar los cambios. Aquí está la solicitud REST equivalente:
PUT _query_rules/my-rules
{
  "rules": [
    {
      "rule_id": "rule-6358",
      "type": "pinned",
      "criteria": [
        {
          "type": "always"
        }
      ],
      "actions": {
        "docs": [
          {
            "_index": "products",
            "_id": "2"
          }
        ]
      }
    }
  ]
}
Ahora, cuando ejecutamos la consulta de nuevo, verás que el elemento ya no aparece en los resultados, aunque la regla anterior sea fijarlo. Esto se debe a que las exclusiones tienen prioridad sobre los resultados de fijación.
{
 "took": 6,
 "timed_out": false,
 "_shards": {
   "total": 1,
   "successful": 1,
   "skipped": 0,
   "failed": 0
 },
 "hits": {
   "total": {
     "value": 4,
     "relation": "eq"
   },
   "max_score": 2.205655,
   "hits": [
     {
       "_index": "products",
       "_id": "3",
       "_score": 2.205655,
       "_source": {
         "id": "3",
         "name": "PlayStation 4 Camera",
         "category": "accessory",
         "brand": "Sony",
         "price": 200
       }
     },
     {
       "_index": "products",
       "_id": "1",
       "_score": 1.9738505,
       "_source": {
         "id": "1",
         "name": "PlayStation 4 Slim 1TB",
         "category": "console",
         "brand": "Sony",
         "price": 1200
       }
     },
     {
       "_index": "products",
       "_id": "4",
       "_score": 1.9738505,
       "_source": {
         "id": "4",
         "name": "PlayStation 4 VR Headset",
         "category": "accessory",
         "brand": "Sony",
         "price": 900
       }
     },
     {
       "_index": "products",
       "_id": "5",
       "_score": 0.69247496,
       "_source": {
         "id": "5",
         "name": "Charging Station for DualShock 4",
         "category": "accessory",
         "brand": "Sony",
         "price": 80
       }
     }
   ]
 }
}
Conclusión
Las Reglas de Consulta facilitan mucho ajustar la relevancia sin ningún cambio en el código. La nueva interfaz Kibana  te permite realizar estos cambios en cuestión de segundos, dándote a ti y a tu equipo empresarial más control sobre los resultados de búsqueda.
Más allá del comercio electrónico, las Reglas de Consulta pueden impulsar muchos otros escenarios: destacar guías de resolución de problemas en portales de soporte, mostrar documentos internos clave en bases de conocimiento, promover noticias de última hora en sitios de noticias o filtrar ofertas de empleo o contenido caducado. Incluso pueden hacer cumplir normas de cumplimiento, como ocultar material restringido por rol de usuario o región.


Construir un agente de conocimiento con recordación semántica usando Mastra y Elasticsearch
JD Armada — Thu, 06 Nov 2025 00:00:00 GMT
La Ingeniería del Contexto está ganando cada vez más importancia para construir agentes y arquitecturas de IA fiables. A medida que los modelos mejoran, su eficacia y fiabilidad dependen menos de sus datos capacitados y más de lo bien que estén fundamentados en el contexto adecuado. Los agentes que pueden recuperar y aplicar la información más relevante en el momento adecuado tienen muchas más probabilidades de producir resultados precisos y fiables.
En este blog, emplearemos Mastra para construir un agente de conocimiento que recuerda lo que dicen los usuarios y puede recuperar información relevante más adelante, empleando Elasticsearch como backend de memoria y recuperación. Puedes extender fácilmente este mismo concepto a casos de uso reales, piensa en agentes de soporte que puedan recordar conversaciones y resoluciones pasadas, permitiéndoles adaptar las respuestas a usuarios específicos o a soluciones superficiales más rápido basar en contextos previos.
Sigue aquí para ver cómo construirlo paso a paso. Si te pierdes o simplemente quieres ejecutar un ejemplo terminado, echa un vistazo al repositorio aquí.
¿Qué es Mastra?
Mastra es un framework TypeScript de código abierto para construir agentes de IA con partes intercambiables para razonamiento, memoria y herramientas. Su función de recuperación semántica permite a los agentes recordar y recuperar interacciones pasadas almacenando mensajes como incrustaciones en una base de datos vectorial. Esto permite a los agentes mantener el contexto y la continuidad de la conversación a largo plazo. Elasticsearch es un excelente almacén vectorial para habilitar esta función, ya que soporta una búsqueda vectorial densa eficiente. Cuando se activa la recuperación semántica, el agente extrae mensajes pasados relevantes en la ventana de contexto del modelo, permitiendo que el modelo emplee ese contexto recuperado como base para su razonamiento y respuestas.
Lo que necesitas para empezar
Nodo v18+
Elasticsearch (versión 8.15 o posterior)
Clave API de Elasticsearch
Clave API de OpenAI
Nota: Necesitarás esto porque la demo usa el proveedor OpenAI, pero Mastra soporta otros SDKs de IA y proveedores de modelos comunitarios, así que puedes cambiarlo fácilmente según tu configuración.
Construyendo un proyecto de Mastra
Emplearemos la CLI integrada de Mamra para proporcionar el andamiaje de nuestro proyecto. Ejecuta el comando:
npm create mastra@latest
Recibirás un conjunto de indicaciones, que empiezan por:
1. Pon un nombre a tu proyecto.
2. Podemos mantener este valor predeterminado; No dudes en dejar esto en blanco.
3. Para este proyecto, emplearemos un modelo proporcionado por OpenAI.
4. Selecciona la opción "Saltar por ahora" porque almacenaremos todas nuestras variables de entorno en un archivo '.env' que configuraremos en un paso posterior.
5. También podemos saltar esta opción.
Una vez que termines de inicializar, podemos pasar al siguiente paso.
Instalación de dependencias
A continuación, necesitamos instalar algunas dependencias:
npm install ai @ai-sdk/openai @elastic/elasticsearch dotenv
ai - Paquete básico de SDK de IA que proporciona herramientas para gestionar modelos de IA, prompts y flujos de trabajo en JavaScript/TypeScript. Mastra está construido sobre el SDK de IA por Vercel, así que necesitamos esta dependencia para permitir la interacción del modelo con tu agente.
@ai-sdk/openai - Plugin que conecta el SDK de IA con modelos OpenAI (como GPT-4, GPT-4o, etc.), habilitando llamadas API usando tu clave API OpenAI.
@elastic/elasticsearch - Cliente oficial de Elasticsearch para Node.js, se emplea para conectarse a tu Elastic Cloud o a un clúster local para operaciones de indexación, búsqueda y vectores.
dotenv - Carga variables de entorno desde un .env archivar en process.env, permitiendo inyectar de forma segura credenciales como claves API y endpoints Elasticsearch.
Configuración de variables de entorno
Crea un archivo .env en el directorio raíz de tu proyecto si aún no ves uno. Alternativamente, puedes copiar y renombrar el ejemplo .env que proporcioné en el repositorio. En este archivo, podemos agregar las siguientes variables:
ELASTICSEARCH_ENDPOINT="your-endpoint-here"
ELASTICSEARCH_API_KEY="your-key-here"
OPENAI_API_KEY="your-key-here"
Eso concluye la configuración básica. Desde aquí, ya puedes empezar a construir y orquestar agentes. Vamos un paso más allá y agregaremos Elasticsearch como la capa de almacenamiento y búsqueda vectorial.
Agregar Elasticsearch como almacenamiento vectorial
Crea una nueva carpeta llamada stores y dentro, agrega este archivo. Antes de que Mastra y Elastic lanzaran una integración oficial de almacenamiento vectorial de Elasticsearch, Abhi Aiyer(CTO de Mestra) compartió esta clase prototipo temprana llamada ElasticVector. Simplemente, conecta la abstracción de memoria de Mamra con las densas capacidades vectoriales de Elasticsearch, para que los desarrolladores puedan incluir Elasticsearch como base de datos vectorial para sus agentes.
Echemos un vistazo más profundo a las partes importantes de la integración:
Ingestión del cliente Elasticsearch
Esta sección define la clase ElasticVector y configura la conexión cliente de Elasticsearch con soporte tanto para despliegues estándar como serverless.
export interface ElasticVectorConfig extends ClientOptions {
    /**
     * Explicitly specify if connecting to Elasticsearch Serverless.
     * If not provided, will be auto-detected on first use.
     */
    isServerless?: boolean;
    
    /**
     * Maximum documents to count accurately when describing indices.
     * Higher values provide accurate counts but may impact performance on large indices.
     * 
     * @default 10000
     */
    maxCountAccuracy?: number;
}

export class ElasticVector extends MastraVector {
    private client: Client;
    private isServerless: boolean | undefined;
    private deploymentChecked: boolean = false;
    private readonly maxCountAccuracy: number;

    constructor(config: ElasticVectorConfig) {
        super();
        this.client = new Client(config);
        this.isServerless = config.isServerless;
        this.maxCountAccuracy = config.maxCountAccuracy ?? 10000;
    }
}
ElasticVectorConfig extends ClientOptions: Esto crea una nueva interfaz de configuración que hereda todas las opciones del cliente de Elasticsearch (como node, auth, requestTimeout) y agrega nuestras propiedades personalizadas. Esto significa que los usuarios pueden pasar cualquier configuración válida de Elasticsearch junto con nuestras opciones específicas para serverless.
extends MastraVector: Esto permite ElasticVector heredar de la clase base de MastraVector de Mastra, que es una interfaz común a la que se ajustan todas las integraciones de almacenamiento vectorial. Esto garantiza que Elasticsearch se comporte como cualquier otro backend de vectores Mastra desde la perspectiva del agente.
private client: Client: Esta es una propiedad privada que contiene una instancia del cliente JavaScript Elasticsearch. Esto permite que la clase hable directamente con tu grupo.
isServerless y deploymentChecked: Estas propiedades trabajan juntas para detectar y almacenar en caché si estamos conectados a un despliegue serverless o estándar de Elasticsearch. Esta detección ocurre automáticamente en el primer uso, o puede configurar explícitamente.
constructor(config: ClientOptions): Este constructor toma un objeto de configuración (que contiene tus credenciales de Elasticsearch y configuraciones opcionales de serverless) y lo emplea para inicializar el cliente en la línea this.client = new Client(config).
super(): Esto llama constructor base de Mastra, por lo que hereda el registro, los asistentes de validación y otros ganchos internos.
En este punto, Mastra sabe que hay un nuevo almacén vectorial llamado ElasticVector
Detección del tipo de despliegue
Antes de crear índices, el adaptador detecta automáticamente si estás usando Elasticsearch estándar o Elasticsearch Serverless. Esto es importante porque los despliegues serverless no permiten la configuración manual de shards.
private async detectServerless(): Promise {
    // Return cached result if already detected
    if (this.deploymentChecked) {
        return this.isServerless ?? false;
    }

    // Use explicit configuration if provided
    if (this.isServerless !== undefined) {
        this.deploymentChecked = true;
        this.logger?.info(
            `Using explicit deployment type: ${this.isServerless ? 'Serverless' : 'Standard'}`
        );
        return this.isServerless;
    }

    try {
        const info = await this.client.info();
        
        // Primary detection: build flavor (most reliable)
        const isBuildFlavorServerless = info.version?.build_flavor === 'serverless';
        
        // Secondary detection: tagline (fallback)
        const isTaglineServerless = info.tagline?.toLowerCase().includes('serverless') ?? false;
        
        this.isServerless = isBuildFlavorServerless || isTaglineServerless;
        this.deploymentChecked = true;
        
        this.logger?.info(
            `Auto-detected ${this.isServerless ? 'Serverless' : 'Standard'} Elasticsearch deployment`,
            { 
                buildFlavor: info.version?.build_flavor, 
                version: info.version?.number,
                detectionMethod: isBuildFlavorServerless ? 'build_flavor' : 'tagline'
            }
        );
        
        return this.isServerless;
    } catch (error) {
        this.logger?.warn(
            'Could not auto-detect deployment type, assuming Standard Elasticsearch. ' +
            'Set isServerless: true explicitly in config if using Serverless.',
            { error: error instanceof Error ? error.message : String(error) }
        );
        this.isServerless = false;
        this.deploymentChecked = true;
        return false;
    }
}
Qué pasa:
Primero comprueba si pusiste explícitamente isServerless en la configuración (se salta la auto-detección).
Llama a la API info() de Elasticsearch para obtener información del clúster
Comprueba el build_flavor field (los despliegues serverless devuelven serverless)
Vuelve a revisar el lema si no hay variedad de build disponible
Almacena en caché el resultado para evitar llamadas repetidas a la API
Por defecto se aplica al despliegue estándar si falla la detección
 Ejemplo de uso:
// Option 1: Auto-detect (recommended)
const vector = new ElasticVector({
    node: 'https://your-cluster.es.cloud',
    auth: { apiKey: 'your-api-key' }
});
// Detection happens automatically on first index operation

// Option 2: Explicit configuration (faster startup)
const vector = new ElasticVector({
    node: 'https://your-serverless.es.cloud',
    auth: { apiKey: 'your-api-key' },
    isServerless: true  // Skips auto-detection
});
Creación del almacén de "memoria" en Elasticsearch
La función siguiente establece un índice Elasticsearch para almacenar incrustaciones. Comprueba si el índice ya existe. Si no, crea uno con el mapeo que aparece abajo y contiene un campo dense_vector para almacenar incrustaciones y métricas de similitud personalizadas.
Algunas cosas a tener en cuenta:
El parámetro dimension es la longitud de cada vector de incrustación, que depende del modelo de incrustación que estés usando. En nuestro caso, generaremos incrustaciones usando el modelo text-embedding-3-small de OpenAI, que genera vectores de tamaño 1536. Usaremos esto como nuestro valor por defecto.
La variable similarity empleada en el mapeo a continuación se define a partir de la función auxiliar const similarity = this.mapMetricToSimilarity(metric), que toma el valor del parámetro metric y lo convierte en una palabra clave compatible con Elasticsearch para la métrica de distancia elegida.Por ejemplo: Mastra emplea términos generales para similitud vectorial como cosine, euclidean, y dotproduct. Si pasáramos la métrica euclidean directamente al mapeo de Elasticsearch, generaría un error porque Elasticsearch espera que la palabra clave l2_norm represente la distancia euclidiana.
Compatibilidad sin servidor: El código omite automáticamente los ajustes de shard y réplica para despliegues sin servidor, ya que estos son gestionados automáticamente por Elasticsearch Serverless.
async createIndex(params: CreateIndexParams): Promise {
    const { indexName, dimension = 1536, metric = 'cosine' } = params;

    try {
        const exists = await this.client.indices.exists({ index: indexName });

        if (exists) {
            try {
                await this.validateExistingIndex(indexName, dimension, metric);
                this.logger?.info(`Index "${indexName}" already exists and is valid`);
                return;
            } catch (validationError) {
                throw new Error(
                    `Index "${indexName}" exists but does not match the required configuration: ${
                        validationError instanceof Error ? validationError.message : String(validationError)
                    }`
                );
            }
        }

        const isServerless = await this.detectServerless();
        const similarity = this.mapMetricToSimilarity(metric);

        const indexConfig: any = {
            index: indexName,
            mappings: {
                properties: {
                    vector: {
                        type: 'dense_vector',
                        dims: dimension,
                        index: true,
                        similarity: similarity,
                    },
                    metadata: {
                        type: 'object',
                        enabled: true,
                        dynamic: true, // Allows flexible metadata structures
                    },
                },
            },
        };

        // Only configure shards/replicas for non-serverless deployments
        // Serverless manages infrastructure automatically
        if (!isServerless) {
            indexConfig.settings = {
                number_of_shards: 1,
                number_of_replicas: 0, // Increase for production HA deployments
            };
        }

        await this.client.indices.create(indexConfig);

        this.logger?.info(
            `Created ${isServerless ? 'Serverless' : 'Standard'} Elasticsearch index "${indexName}"`,
            { dimension, metric, similarity }
        );
    } catch (error) {
        const errorMessage = error instanceof Error ? error.message : String(error);
        this.logger?.error(`Failed to create index "${indexName}": ${errorMessage}`);
        throw new Error(`Failed to create index "${indexName}": ${errorMessage}`);
    }
}
Almacenar una nueva recordación o nota tras una interacción
Esta función toma nuevas incrustaciones generadas tras cada interacción, junto con los metadatos, y luego las inserta o actualiza en el índice usando la API bulk de Elastic. La API bulk agrupa múltiples operaciones de escritura en una sola solicitud; Esta mejora en nuestro rendimiento de indexación garantiza que las actualizaciones se mantengan eficientes a medida que la memoria de nuestro agente sigue creciendo.
async upsert(params: UpsertVectorParams): Promise {
    const { indexName, vectors, metadata = [], ids } = params;

    try {
        // Generate unique IDs if not provided
        const vectorIds = ids || vectors.map((_, i) => 
            `vec_${Date.now()}_${i}_${Math.random().toString(36).substr(2, 9)}`
        );

        const operations = vectors.flatMap((vec, index) => [
            { index: { _index: indexName, _id: vectorIds[index] } },
            {
                vector: vec,
                metadata: metadata[index] || {},
            },
        ]);

        const response = await this.client.bulk({
            refresh: true,
            operations,
        });

        if (response.errors) {
            const erroredItems = response.items.filter((item: any) => item.index?.error);
            const erroredIds = erroredItems.map((item: any) => item.index?._id);
            const errorDetails = erroredItems.slice(0, 3).map((item: any) => ({
                id: item.index?._id,
                error: item.index?.error?.reason || item.index?.error,
                type: item.index?.error?.type
            }));
            
            const errorMessage = `Failed to upsert ${erroredIds.length}/${vectors.length} vectors`;
            console.error(`${errorMessage}. Sample errors:`, JSON.stringify(errorDetails, null, 2));
            this.logger?.error(errorMessage, { 
                failedCount: erroredIds.length, 
                totalCount: vectors.length,
                sampleErrors: errorDetails 
            });
            
            // Still return successfully inserted IDs
            const successfulIds = vectorIds.filter((id, idx) => 
                !erroredIds.includes(id)
            );
            
            if (successfulIds.length === 0) {
                throw new Error(`${errorMessage}. All operations failed. See logs for details.`);
            }
            
            return successfulIds;
        }

        this.logger?.info(`Successfully upserted ${vectors.length} vectors to "${indexName}"`);
        return vectorIds;
    } catch (error) {
        const errorMessage = error instanceof Error ? error.message : String(error);
        this.logger?.error(`Failed to upsert vectors to "${indexName}": ${errorMessage}`);
        throw new Error(`Failed to upsert vectors to "${indexName}": ${errorMessage}`);
    }
}
Consulta de vectores similares para la recuperación semántica
Esta función es el núcleo de la característica de recuperación semántica. El agente emplea búsqueda vectorial para encontrar incrustaciones almacenadas similares dentro de nuestro índice.
async query(params: QueryVectorParams): Promise {
    const { indexName, queryVector, topK = 10, filter, includeVector = false } = params;

    try {
        const knnQuery: any = {
            field: 'vector',
            query_vector: queryVector,
            k: topK,
            num_candidates: Math.max(topK * 10, 100), // Search more candidates for better recall
        };

        // Apply metadata filters if provided
        if (filter) {
            knnQuery.filter = this.buildElasticFilter(filter);
        }

        const sourceFields = ['metadata'];
        if (includeVector) {
            sourceFields.push('vector');
        }

        const response = await this.client.search({
            index: indexName,
            knn: knnQuery,
            size: topK,
            _source: sourceFields,
        });

        const results = response.hits.hits.map((hit: any) => ({
            id: hit._id,
            score: hit._score || 0,
            metadata: hit._source?.metadata || {},
            vector: includeVector ? hit._source?.vector : undefined,
        }));

        this.logger?.debug(`Query returned ${results.length} results from "${indexName}"`);
        return results;
    } catch (error) {
        const errorMessage = error instanceof Error ? error.message : String(error);
        this.logger?.error(`Failed to query vectors from "${indexName}": ${errorMessage}`);
        throw new Error(`Failed to query vectors from "${indexName}": ${errorMessage}`);
    }
}
Bajo el capó:
Ejecuta una consulta kNN (k-vecinos más cercanos) usando la API knn en Elasticsearch.
Recupera los vectores top-K similares al vector de consulta de entrada.
Opcionalmente, aplica filtros de metadatos para reducir resultados (por ejemplo, buscar solo dentro de una categoría o rango de tiempo específico)
Devuelve resultados estructurados que incluyen el ID del documento, el puntaje de similitud y los metadatos almacenados.
Creación del agente del conocimiento
Ahora que vimos la conexión entre Mastra y Elasticsearch a través de la integración ElasticVector , creemos el propio Knowledge Agent.
Dentro de la carpeta agents, crea un archivo llamado knowledge-agent.ts. Podemos empezar conectando nuestras variables de entorno e inicializando el cliente Elasticsearch.
import { Agent } from '@mastra/core/agent';
import { Memory } from '@mastra/memory';
import { openai } from '@ai-sdk/openai';
import { Client } from '@elastic/elasticsearch';
import { ElasticVector } from '../stores/elastic-store';
import dotenv from "dotenv";

dotenv.config();

const ELASTICSEARCH_ENDPOINT = process.env.ELASTICSEARCH_ENDPOINT;
const ELASTICSEARCH_API_KEY = process.env.ELASTICSEARCH_API_KEY;

//Error check for undefined credentials
if (!ELASTICSEARCH_ENDPOINT || !ELASTICSEARCH_API_KEY) {
  throw new Error('Missing Elasticsearch credentials');
}

//Check to see if a connection can be established
const testClient = new Client({
  node: ELASTICSEARCH_ENDPOINT,
  auth: { 
    apiKey: ELASTICSEARCH_API_KEY 
  },
});

try {
  await testClient.ping();
  console.log('Connected to Elasticsearch successfully');
} catch (error: unknown) {
  if (error instanceof Error) {
    console.error('Failed to connect to Elasticsearch:', error.message);
  } else {
    console.error('Failed to connect to Elasticsearch:', error);
  }
  process.exit(1);
}
//Initialize the Elasticsearch vector store
const vectorStore = new ElasticVector({
  node: ELASTICSEARCH_ENDPOINT,
  auth: {
    apiKey: ELASTICSEARCH_API_KEY,
  },
//Optional: Explicitly set to true if using Elasticsearch Serverless to skip auto-detection and improve startup time
//isServerless: true,
});
Aquí, nosotros:
Usa dotenv para cargar nuestras variables desde nuestro archivo .env .
Comprueba si las credenciales de Elasticsearch se están inyectando correctamente y podemos establecer una conexión exitosa con el cliente.
Pasa el endpoint de Elasticsearch y la clave API al constructor ElasticVector para crear una instancia de nuestro almacén vectorial que definimos antes.
Opcionalmente, especifica isServerless: true si usas Elasticsearch Serverless. Esto omite el paso de detección automática y mejora el tiempo de arranque. Si se omite, el adaptador detectará automáticamente el tipo de despliegue en el primer uso.
A continuación, podemos definir el agente usando la clase Agent de Mastra.
export const knowledgeAgent = new Agent({
    name: 'KnowledgeAgent',
    instructions: 'You are a helpful knowledge assistant.',
    model: openai('gpt-4o'),
    memory: new Memory({

        vector: vectorStore,

        //embedder used to create embeddings for each message
        embedder: 'openai/text-embedding-3-small',

        //set semantic recall options
        options: {
            semanticRecall: {
                topK: 3, // retrieve 3 similar messages
                messageRange: 2, // include 2 messages before/after each match
                scope: 'resource',
            },
        },
    }),
});
Los campos que podemos definir son:
name y instructions: Darle una identidad y función primaria.
model: Estamos usando la gpt-4o de OpenAI a través del paquete @ai-sdk/openai .
memory:vector: Apunta a nuestra tienda Elasticsearch, así que los embeddings se almacenan y recuperan desde allí.
embedder: Qué modelo usar para generar incrustaciones
semanticRecall Las opciones deciden cómo funciona la retirada:topK: Cuántos mensajes semánticamente similares recuperar.
messageRange: Cuánto de la conversación incluir en cada partido.
scope: Define el límite de la memoria.
Casi termino. Solo tenemos que agregar este agente recién creado a nuestra configuración de Mestra. En el archivo llamado index.ts, importa el agente de conocimiento e insértalo en el campo agents .
export const mastra = new Mastra({
  agents: { knowledgeAgent },
  storage: new LibSQLStore({
    // stores observability, scores, ... into memory storage, if it needs to persist, change to file:../mastra.db
    url: ":memory:",
  }),
  logger: new PinoLogger({
    name: 'Mastra',
    level: 'info',
  }),
  telemetry: {
    // Telemetry is deprecated and will be removed in the Nov 4th release
    enabled: false, 
  },
  observability: {
    // Enables DefaultExporter and CloudExporter for AI tracing
    default: { enabled: true }, 
  },
});
Los otros campos incluyen:
storage: Este es el almacén interno de datos de Mamra para historial de ejecuciones, métricas de observabilidad, puntajes y cachés. Para más información sobre el almacenamiento de mastras, visita aquí.
logger: Mastra emplea Pino, que es un registrador JSON estructurado y ligero. Captura eventos como inicios y atajada de agentes, llamadas y resultados de herramientas, errores y tiempos de respuesta de los LLM.
observability: Controla el rastreo de IA y la visibilidad de ejecución de los agentes. Sigue lo siguiente:Inicio/final de cada paso de razonamiento.
Qué modelo o herramienta se empleó.
Entradas y salidas.
Puntajes y evaluaciones
Probando al agente con Mastra Studio
¡Felicidades! Si llegaste hasta aquí, estás listo para ejecutar este agente y probar sus capacidades semánticas de recuperación. Por suerte, Mastra ofrece una interfaz de chat integrada para que no tengamos que crear la nuestra.
Para iniciar el servidor de desarrollo de Mestra, abre un terminal y ejecuta el siguiente comando:
npm run dev
Tras el empaquetado y el arranque inicial del servidor, debería proporcionarte una dirección del Playground.
Pega esta dirección en tu navegador y te recibirás con Mastra Studio.
Selecciona la opción de knowledgeAgent y charla sin parar.
Para una prueba rápida y ver si todo está correctamente cableado, dale información como: "El equipo anunció que el rendimiento de ventas en octubre subió un 12%, impulsado principalmente por renovaciones empresariales. El siguiente paso es ampliar su alcance a clientes de gama media." Después, inicia un nuevo chat y haz una pregunta como: "¿En qué segmento de clientes dijimos que debemos centrarnos a continuación?" El agente de conocimiento debería ser capaz de recordar la información que le diste en el primer chat. Deberías ver una respuesta como:
Ver una respuesta así significa que el agente almacenó con éxito nuestro mensaje anterior como incrustaciones en Elasticsearch y lo recuperó después usando búsqueda vectorial.
Inspección del almacenamiento de memoria a largo plazo del agente
Ve a la pestaña memory en la configuración de tu agente en Mastra Studio. Esto te permite ver lo que tu agente aprendió con el tiempo. Cada mensaje, respuesta e interacción que se incrusta y almacena en Elasticsearch pasa a formar parte de esta memoria a largo plazo. Puedes buscar semánticamente en interacciones pasadas para encontrar rápidamente información o contexto recordado que el agente aprendió antes. Este es esencialmente el mismo mecanismo que emplea el agente durante la recuperación semántica, pero aquí puedes inspeccionarlo directamente. En nuestro ejemplo a continuación, buscamos el término "ventas" y recibimos cada interacción que incluyera algo relacionado con las ventas.
Conclusión
Al conectar Mastra y Elasticsearch, podemos dar memoria a nuestros agentes, que es una capa clave en la ingeniería de contexto. Con la memoria semántica, los agentes pueden construir contexto con el tiempo, basando sus respuestas en lo que aprendieron. Eso significa interacciones más precisas, fiables y naturales.
Esta integración temprana es solo el punto de partida. El mismo patrón aquí puede permitir que los agentes de soporte recuerden tiquetes anteriores, bots internos que recuperen la documentación relevante o asistentes de IA que puedan recuperar detalles de los clientes en medio de una conversación. También estamos trabajando en una integración oficial de Mestra, haciendo que esta pareja sea aún más fluida en un futuro próximo.
Estamos deseando ver qué construyes a continuación. Pruébalo, explora Mastra y sus funciones de memoria, y siéntete libre de compartir lo que descubras con la comunidad.


Búsqueda multimodal de picos montañosos con Elasticsearch y SigLIP-2 
Navneet Kumar — Tue, 04 Nov 2025 00:00:00 GMT
¿Alguna vez quisiste buscar en tu álbum de fotos por significado? Prueba con preguntas como "muéstrame mis fotos donde llevo una chaqueta azul y estoy sentado en un banco", "muéstrame fotos del Monte Everest" o "sake y sushi". Toma una taza de café (o tu bebida favorita) y sigue leyendo. En este blog, te mostramos cómo construir una aplicación de búsqueda híbrida multimodal. Multimodal significa que la app puede entender y buscar entre diferentes tipos de entradas—texto, imágenes y audio—no solo palabras. Híbrido significa que combina técnicas como la coincidencia de palabras clave, la búsqueda vectorial kNN y el geofencing para ofrecer resultados más precisos.
Para lograrlo, empleamos SigLIP-2 de Google para generar incrustaciones vectoriales tanto para imágenes como para texto, y las almacenamos en la base de datos vectorial Elasticsearch. En el momento de la consulta, convertimos la entrada de búsqueda, texto o imagen, en incrustaciones y realizamos búsquedas rápidas con vectores kNN para obtener resultados. Esta configuración permite una búsqueda eficiente de texto a imagen y de imagen a imagen. Una interfaz Streamlit da vida a este proyecto proporcionándonos una interfaz no solo para hacer búsquedas por texto para encontrar y ver las fotos coincidentes del álbum, sino también para identificar la cima de la montaña a partir de la imagen subida y ver otras fotos de esa montaña en el álbum.
También cubrimos los pasos que seguimos para mejorar la precisión de las búsquedas, junto con consejos y trucos prácticos. Para una exploración más profunda, proporcionamos un repositorio de GitHub y un cuaderno de Colab.
Cómo empezó todo
Esta entrada del blog fue inspirada por un niño de 10 años que me pidió que les mostrara todas las fotos del Monte Ama Dablam de mi travesía al campamento base del Everest. Mientras revisábamos el álbum de fotos, también me pidieron que identificara varias otras cumbres montañosas, algunas de las cuales no podía nombrar.
Eso me dio la idea de que esto puede ser un proyecto divertido de visión por computadora. Lo que queríamos conseguir:
Encuentra fotos de un pico montañoso por nombre
Adivina el nombre de la cima de la montaña a partir de una imagen y también encuentra picos similares en el álbum de fotos
Haz que las consultas conceptuales funcionen (persona, río, banderas de oración, etc.)
Formando el equipo soñado: SigLIP-2, Elasticsearch y Streamlit
Pronto quedó claro que, para que esto funcionara, tendríamos que convertir tanto el texto ("Ama Dablam") como las imágenes (fotos de mi álbum) en vectores que puedan comparar de forma significativa, es decir, en el mismo espacio vectorial. Una vez que hacemos eso, la búsqueda es simplemente "encontrar a los vecinos más cercanos".
Unknown block type "block", specify a component for it in the `components.types` option
SigLIP-2, lanzado recientemente por Google, encaja bien aquí. Puede generar incrustaciones sin entrenamiento específico de tarea (un ajuste de cero disparos ) y funciona bien para nuestro caso: fotos sin etiqueta y picos con diferentes nombres e idiomas. Como está capacitado para la coincidencia de imágenes de texto ↔, una foto de montaña de la travesía y un breve prompt de texto acaban siendo similares a incrustaciones, incluso cuando el idioma de consulta o la ortografía varían.
SigLIP-2 ofrece un fuerte equilibrio calidad-velocidad, soporta múltiples resoluciones de entrada y funciona tanto en CPU como en GPU. El SigLIP-2 está diseñado para ser más robusto para fotos exteriores en comparación con modelos anteriores como el CLIP original. Durante nuestras pruebas, SigLIP-2 generó resultados fiables de forma constante. Además, está muy bien apoyado, lo que lo convierte en la opción obvia para este proyecto.
A continuación, necesitamos una base de datos vectorial para almacenar los embebidos y la búsqueda de potencia. Debe soportar no solo búsqueda kNN coseno sobre incrustaciones de imágenes, sino también aplicar filtros de geocerca y texto en una sola consulta. Elasticsearch encaja bien aquí: maneja vectores (HNSW kNN en campos dense_vector), soporta búsqueda híbrida que combina texto, vectores y consultas geográficas, y ofrece filtrado y ordenación desde el principio. Además, escala horizontalmente, lo que facilita crecer de unas pocas fotos a miles. El cliente oficial de Python de Elasticsearch mantiene la fontanería sencilla y se integra perfectamente con el proyecto. Por último, necesitamos un frontend ligero donde podamos introducir consultas de búsqueda y ver resultados. Para una demostración rápida basada en Python, Streamlit es una opción ideal. Proporciona las primitivas que necesitamos: carga de archivos, una cuadrícula de imágenes responsiva y menús desplegables para ordenar y geovaller. Es fácil de clonar y ejecutar localmente, y también funciona en un cuaderno de Colab.
Implementación
Diseño y estrategia de indexación de Elasticsearch
Emplearemos dos índices para este proyecto: peaks_catalog y photos.
Peaks_catalog índice
Este índice sirve como un catálogo compacto de picos montañosos prominentes visibles durante la travesía al Campamento Base del Everest. Cada documento de este índice corresponde a una sola cima montañosa, como el Monte Everest. Para cada documento de pico de montaña, almacenamos nombres/alias, coordenadas opcionales de latitud-longitud y un único vector prototipo construido mediante la mezcla de prompts de texto SigLIP-2 (+ imágenes de referencia opcionales).
Mapeo indexado:
            
              
                
                    
                      Campo Tipo Ejemplo Propósito/Notas Vector/Indexación
                    
                    
                      identificación palabra clave ama-dablam Slug/id estable —
                    
                    
                      Nombres Subcampo texto + palabra clave ["Ama Dablam","Amadablam"] Alias / nombres multilingües; names.raw para filtros exactos —
                    
                    
                      Latlon geo_point {"lat":27.8617,"lon":86.8614} Coordenadas GPS de pico como combinación de latitud/longitud (opcional) —
                    
                    
                      elev_m entero 6812 Elevación (opcional) —
                    
                    
                      text_embed dense_vector 768 Prototipo mezclado (prompts y, opcionalmente, 1–3 imágenes de referencia) para este pico Index:True, Similitud:"Coseno", index_options:{type:"hnsw", m:16, ef_construction:128}
                    
              
            
          Este índice se emplea principalmente para búsquedas imagen a imagen, como identificar picos montañosos a partir de imágenes. También empleamos este índice para mejorar los resultados de búsqueda de texto a imagen.
En resumen, el peaks_catalog transforma la pregunta "¿Qué montaña es esta?" en un problema enfocado del vecino más cercano, separando efectivamente la comprensión conceptual de las complejidades de los datos de imagen.
Estrategia de indexación para el índice peaks_catalog: Comenzamos creando una lista de los picos más destacados visibles durante la travesía por el EBC. Para cada pico, almacenamos su ubicación geográfica, nombre, sinónimos y elevación en un archivo yaml. El siguiente paso es generar la incrustación de cada pico y almacenarla en text_embed campo. Para generar incrustaciones robustas, empleamos la siguiente técnica:
Crea un prototipo de texto usando:Nombres de los picos
Conjunto de prompts (usando varios prompts diferentes para intentar responder a la misma pregunta), por ejemplo:"una foto natural de la cima de la montaña {name} en el Himalaya, Nepal"
"{name} pico emblemático en la región del Khumbu, paisaje alpino"
"{name} cima de montaña, nieve, cresta rocosa"
anticoncepto opcional (indicar a SigLIP-2 en qué no debe coincidir): resta un pequeño vector para "pintura, ilustración, afiche, mapa, logo" para inclinarnos hacia fotos reales.
Opcionalmente , crea un prototipo de imagen si se proporcionan imágenes de referencia del pico.
Luego mezclamos el prototipo de texto e imagen para generar la incrustación final. Finalmente, el documento está indexado con todos los campos requeridos:
def l2norm(v: np.ndarray) -> np.ndarray:
    return v / (np.linalg.norm(v) + 1e-12)
def compute_blended_peak_vec(
        emb: Siglip2,
        names: List[str],
        peak_id: str,
        peaks_images_root: str,
        alpha_text: float = 0.5,
        max_images: int = 3,
) -> Tuple[np.ndarray, int, int, List[str]]:
    """
    Build blended vector for a single peak.

    Returns:
      vec           : np.ndarray (L2-normalized)
      found_count   : number of reference images discovered
      used_count    : number of references used (<= max_images)
      used_filenames: list of filenames used (for logging)
    """
    # 1) TEXT vector
    tv = embed_text_blend(emb, names)

    # 2) IMAGE refs: prefer folder by id; fallback to slug of the primary name
    root = Path(peaks_images_root)
    candidates = [root / peak_id]
    if names:
        candidates.append(root / slugify(names[0]))

    all_refs: List[Path] = []
    for c in candidates:
        if c.exists() and c.is_dir():
            all_refs = list_ref_images(c)
            if all_refs:
                break

    found = len(all_refs)
    used_list = all_refs[:max_images] if (max_images and found > max_images) else all_refs
    used = len(used_list)

    img_v = embed_image_mean(emb, used_list) if used_list else None

    # 3) Blend TEXT and IMAGE vectors, clamp alpha to [0,1]
    a = max(0.0, min(1.0, float(alpha_text)))
    vec = l2norm(tv if img_v is None else (a * tv + (1.0 - a) * img_v)).astype("float32")
    return vec, found, used, [p.name for p in used_list]
Documento de ejemplo de peaks_catalog índice:
Índice de fotos
Este índice principal almacena información detallada sobre todas las fotos del álbum. Cada documento representa una sola foto, que contiene la siguiente información:
Camino relativo a la foto del álbum. Esto puede usar para ver la imagen correspondiente o cargarla en la interfaz de búsqueda.
GPS e información horaria de la imagen.
Vector denso para codificación de imágenes generado por SigLIP-2.
predicted_peaks Eso nos permite filtrar por nombre de pico.

Mapeo de índices
            
              
                
                    
                      Campo Tipo Ejemplo Propósito/Notas Vector / Indexación
                    
                    
                      camino palabra clave datos/imágenes/IMG_1234.HEIC Cómo se abre la interfaz en miniatura/imagen completa —
                    
                    
                      clip_image dense_vector 768 Incrustación de imágenes SigLIP-2 Index:True, Similitud:"Coseno", index_options:{type:"hnsw", m:16, ef_construction:128}
                    
                    
                      predicted_peaks palabra clave ["ama-dablam", "pumori"] Top-K suposiciones en el tiempo del índice (filtro UX barato / facet) —
                    
                    
                      GPS geo_point {"lat":27.96,"lon":86.83} Activa los filtros geográficos —
                    
                    
                      shot_time date 2023-10-18T09:41:00Z Tiempo de captura: ordenar/filtrar —
                    
              
            
          Estrategia de indexación para el índice de fotos: Para cada foto del álbum, hacemos lo siguiente:
Extrae shot_time de imagen y gps información de los metadatos de las imágenes.
Embedding de imagen SigLIP-2: pasar la imagen por el modelo y normalizar el vector en modo L2. Almacena el embedding en clip_image campo.
Predecir los picos y almacenarlos en el campo predicted_peaks . Para ello, primero tomamos el vector de imagen de la foto generado en el paso anterior y luego ejecutamos una búsqueda rápida kNN en el campo text_embed en el índice de peaks_catalog . Mantenemos los 3-4 primeros picos e ignoramos el resto.
Calculamos el campo _id haciendo un hash en el nombre y el camino de la imagen. Esto cerciora que no acabemos con duplicados tras varias partidas.
Una vez que determinamos todos los campos para la foto, los documentos fotográficos se indexan en lotes usando indexación masiva :
def bulk_index_photos(
        es: Elasticsearch,
        images_root: str,
        photos_index: str = "photos",
        peaks_index: str = "peaks_catalog",
        topk_predicted: int = 5,
        batch_size: int = 200,
        refresh: str = "false",
) -> None:
    """Walk a folder of images, embed + enrich, and bulk index to Elasticsearch."""
    root = Path(images_root)
    if not root.exists():
        raise SystemExit(f"Images root not found: {images_root}")

    emb = Siglip2()
    batch: List[Dict[str, Any]] = []
    n_indexed = 0

    for p in iter_images(root):
        rel = relpath_within(root, p)
        _id = id_for_path(rel)

        # 1) Image embedding (and reuse it for predicted_peaks)
        try:
            with Image.open(p) as im:
                ivec = emb.image_vec(im.convert("RGB")).astype("float32")
        except (UnidentifiedImageError, OSError) as e:
            print(f"[skip] {rel} — cannot embed: {e}")
            continue

        # 2) Predict top-k peak names
        try:
            top_names = predict_peaks(es, ivec.tolist(), peaks_index=peaks_index, k=topk_predicted)
        except Exception as e:
            print(f"[warn] predict_peaks failed for {rel}: {e}")
            top_names = []

        # 3) EXIF enrichment (safe)
        gps = get_gps_decimal(str(p))
        shot = get_shot_time(str(p))

        # 4) Build doc and stage for bulk
        doc = {"path": rel, "clip_image": ivec.tolist(), "predicted_peaks": top_names}
        if gps:
            doc["gps"] = gps
        if shot:
            doc["shot_time"] = shot

        batch.append(
            {"_op_type": "index", "_index": photos_index, "_id": _id, "_source": doc}
        )

        # 5) Periodic flush
        if len(batch) >= batch_size:
            helpers.bulk(es, batch, refresh=refresh)
            n_indexed += len(batch)
            print(f"[photos] indexed {n_indexed} (last: {rel})")
            batch.clear()

    # Final flush
    if batch:
        helpers.bulk(es, batch, refresh=refresh)
        n_indexed += len(batch)
        print(f"[photos] indexed {n_indexed} total.")

    print("[done] photos indexing")
Documento de ejemplo del índice de fotos:
En resumen, el índice de las fotos es el almacén rápido, filtrable y listo para kNN de todas las fotos del álbum. Su mapeo es mínimo a propósito: la estructura justa para recuperar rápidamente, mostrar limpiamente y recortar los resultados por espacio y tiempo. Este índice sirve tanto para casos de búsqueda como para el uso. Aquí se puede encontrar un script en Python para crear ambos índices.
La visualización de mapas de Kibana que aparece a continuación muestra documentos del álbum de fotos como puntos verdes y picos montañosos del índice de peaks_catalog como triángulos rojos, con los puntos verdes alinear bien con el sendero de la ruta del campamento base del Everest.
Casos de uso de búsqueda
Buscar por nombre (texto a imagen): Esta función permite a los usuarios localizar fotos de picos montañosos (e incluso conceptos abstractos como "banderas de oración") mediante consultas de texto. Para lograrlo, la entrada de texto se convierte en un vector de texto usando SigLIP-2. Para una generación robusta de vectores de texto, empleamos la misma estrategia que se usa para crear incrustaciones de texto en el índice peaks_catalog : combinar la entrada de texto con un pequeño conjunto de prompts, restar un pequeño vector anti-concepto y aplicar la normalización L2 para producir el vector de consulta final. A continuación, se ejecuta una consulta kNN en el campo photos.clip_image para recuperar los picos que coinciden con la parte superior, basar en la similitud coseno para encontrar las imágenes más cercanas. Opcionalmente, los resultados de búsqueda pueden ser más relevantes aplicando filtros geográficos y de fecha, y/o un filtro de photos.predicted_peaks términos como parte de la consulta (ver ejemplos de consultas más abajo). Esto ayuda a excluir picos que se parecen y que en realidad no se ven durante la travesía.
Consulta de Elasticsearch con filtro geográfico:
POST photos/_search
{
  "knn": {
    "field": "clip_image",
    "query_vector": [ ... ],
    "k": 60,
    "num_candidates": 2000
  },
  "query": {
    "bool": {
      "filter": [
        { "geo_bounding_box": { "gps": { "top_left": "...", "bottom_right": "..." } } }
      ]
    }
  },
  "_source": ["path","predicted_peaks","gps","shot_time"]
}

Response (first two documents):
{
 "hits": {
   "total": {
     "value": 56,
     "relation": "eq"
   },
   "max_score": 0.5779596,
   "hits": [
     {
       "_index": "photos",
       "_id": "d01da3a1141981486c3493f6053c79e92a788463",
       "_score": 0.5779596,
       "_source": {
         "path": "IMG_2738.HEIC",
         "predicted_peaks": [
           "Pumori",
           "Kyajo Ri",
           "Khumbila",
           "Nangkartshang",
           "Kongde Ri"
         ],
         "gps": {
           "lat": 27.97116388888889,
           "lon": 86.82331111111111
         },
         "shot_time": "2023-11-03T08:07:13"
       }
     },
     {
       "_index": "photos",
       "_id": "c79d251f07adc5efaedc53561110a7fd78e23914",
       "_score": 0.5766071,
       "_source": {
         "path": "IMG_2761.HEIC",
         "predicted_peaks": [
           "Kyajo Ri",
           "Makalu",
           "Baruntse",
           "Cho Oyu",
           "Khumbila"
         ],
         "gps": {
           "lat": 27.975558333333332,
           "lon": 86.82515
         },
         "shot_time": "2023-11-03T08:51:08"
       }
     }
}
Buscar por imagen (imagen a imagen): Esta función nos permite identificar una montaña en una imagen y encontrar otras imágenes de esa misma montaña dentro del álbum. Cuando se sube una imagen, el codificador de imagen SigLIP-2 la procesa para generar un vector de imagen. A continuación, se realiza una búsqueda kNN en el campo peaks_catalog.text_embed para identificar los nombres de picos que mejor coinciden. Posteriormente, se genera un vector de texto a partir de estos nombres de picos coincidentes, y se realiza otra búsqueda kNN en el índice de fotos para localizar las imágenes correspondientes.
Consulta Elasticsearch:
Paso 1: Encontrar los nombres de picos que coincidan
GET peaks_catalog/_search
{
 "knn": {
   "field": "text_embed",
   "query_vector": [...image-vector... ],
   "k": 3,
   "num_candidates": 500
 },
 "_source": [
   "id",
   "names",
   "latlon",
   "text_embed"
 ]
}


Response (first two documents):
{
 "took": 2,
 "timed_out": false,
 "_shards": {
   "total": 1,
   "successful": 1,
   "skipped": 0,
   "failed": 0
 },
 "hits": {
   "total": {
     "value": 3,
     "relation": "eq"
   },
   "max_score": 0.58039916,
   "hits": [
     {
       "_index": "peaks_catalog",
       "_id": "pumori",
       "_score": 0.58039916,
       "_source": {
         "id": "pumori",
         "names": [
           "Pumori",
           "Pumo Ri"
         ],
         "latlon": {
           "lat": 28.01472,
           "lon": 86.82806
         },
         "text_embed": [
                  ... embeddings...
         ]
       }
     },
     {
       "_index": "peaks_catalog",
       "_id": "kyajo-ri",
       "_score": 0.57942784,
       "_source": {
         "id": "kyajo-ri",
         "names": [
           "Kyajo Ri",
           "Kyazo Ri"
         ],
         "latlon": {
           "lat": 27.909167,
           "lon": 86.673611
         },
         "text_embed": [
           ... embeddings...
         ]
       }
     }
   ]
 }
}
Paso 2: Realiza una búsqueda en el índice de photos para encontrar las imágenes coincidentes (misma consulta que se muestra en el caso de búsqueda text-to-image):
POST photos/_search
{
 "knn": {
   "field": "clip_image",
   "query_vector": [ ...image-vector... ],
   "k": 30,
   "num_candidates": 2000
 },
 "_source": [
   "path",
   "gps",
   "shot_time",
   "predicted_peaks",
   "clip_image"
 ],
 "query": {
   "bool": {
     "filter": [
       {
         "term": {
           "predicted_peaks": "Pumori"
         }
       }
     ]
   }
 }
}


Response (first two documents):
{
 "hits": {
   "total": {
     "value": 56,
     "relation": "eq"
   },
   "max_score": 0.5779596,
   "hits": [
     {
       "_index": "photos",
       "_id": "d01da3a1141981486c3493f6053c79e92a788463",
       "_score": 0.5779596,
       "_source": {
         "path": "IMG_2738.HEIC",
         "predicted_peaks": [
           "Pumori",
           "Kyajo Ri",
           "Khumbila",
           "Nangkartshang",
           "Kongde Ri"
         ],
         "gps": {
           "lat": 27.97116388888889,
           "lon": 86.82331111111111
         },
         "shot_time": "2023-11-03T08:07:13"
       }
     },
     {
       "_index": "photos",
       "_id": "c79d251f07adc5efaedc53561110a7fd78e23914",
       "_score": 0.5766071,
       "_source": {
         "path": "IMG_2761.HEIC",
         "predicted_peaks": [
           "Kyajo Ri",
           "Makalu",
           "Baruntse",
           "Cho Oyu",
           "Khumbila"
         ],
         "gps": {
           "lat": 27.975558333333332,
           "lon": 86.82515
         },
         "shot_time": "2023-11-03T08:51:08"
       }
     }
}
Interfaz Streamlit
Para unir todo, creamos una interfaz sencilla de Streamlit que nos permite realizar ambos casos de uso de búsqueda. El riel izquierdo muestra una lista desplazable de picos (agregados a partir de photos.predicted_peaks) con casillas de verificación y un minimapa/filtro geográfico. En la parte superior hay una caja de búsqueda por nombre y un botón de identificación por subida de fotos . El panel central presenta una cuadrícula en miniatura sensible que muestra puntajes kNN, insignias de picos predichos y tiempos de captura. Cada imagen incluye un botón para ver imagen para vistas previas en resolución completa.
Busca subiendo una imagen: Predecimos el pico y encontramos picos coincidentes del álbum de fotos.
Buscar por texto: Encuentra los picos coincidentes en el álbum a partir del texto
Conclusión
¿Qué empezó como , ¿podemos simplemente ver las imágenesde Ama Dablam? se convirtió en un pequeño sistema de búsqueda multimodal funcional. Tomamos fotos en bruto de trekking, las convertimos en incrustaciones SigLIP-2 y usamos Elasticsearch para hacer kNN rápido sobre vectores, además de filtros geo/temporales simples para mostrar las imágenes correctas por significado. En el camino, separamos las preocupaciones con dos índices: un pequeño peaks_catalog de prototipos combinados (para identificación) y un índice escalable de photos de vectores de imagen y EXIF (para recuperación). Es práctica, reproducible y fácil de ampliar.
Si quieres afinarla, hay algunos ajustes con los que puedes experimentar:
Ajustes de tiempo de consulta: k (cuántos vecinos quieres que devuelvan) y num_candidates (qué ancho buscar antes del puntaje final). Estos ajustes se discuten en el blog aquí.
Ajustes de tiempo de índice: m (conectividad de grafos) y ef_construction (precisión en tiempo de construcción frente a memoria). Para consultas, experimenta también con ef_search : más alto suele significar mejor recordación con cierto compromiso de latencia. Consulta este blog para más detalles sobre estos entornos.
De cara al futuro, los modelos nativos/reclasificadores para búsqueda multimodal y multilingüe pronto llegarán al ecosistema Elastic, lo que debería mejorar aún más la recuperación de imágenes/texto y el ranking híbrido desde el primer momento. ir.elastic.co+1
Si quieres probar esto tú mismo:
Repositorio de GitHub: https://github.com/navneet83/multimodal-mountain-peak-search
Inicio rápido de Colab: https://github.com/navneet83/multimodal-mountain-peak-search/blob/main/notebooks/multimodal_mountain_peak_search.ipynb
Con esto, nuestro viaje llegó a su fin y es hora de volar de regreso. Espero que esto te fue útil y si lo rompes (o lo mejoras), me encantaría saber qué cambiaste.


Mejora de la relevancia del modelo de incrustación multilingüe con reclasificación híbrida en búsquedas
Quynh Nguyen — Mon, 03 Nov 2025 00:00:00 GMT
Introducción
En la última parte de este serial, explicamos cómo desplegar el modelo E5 preentrenado de Elastic (así como otros modelos multilingües de incrustación de texto de Hugging Face) y nos adentramos en la generación de incrustaciones vectoriales densas a partir de tus datos textuales usando Elasticsearch y Kibana. En este blog, analizaremos los resultados de estas incrustaciones y destacaremos los beneficios significativos de aprovechar un modelo multilingüe.
Ahora que tenemos nuestro índice coco_multilingual, realizar la búsqueda nos dará documentos en varios idiomas, con el campo "en" para que podamos consultar:
# GET coco_multilingual/_search
    {
       "_index": "coco_multilingual",
       "_id": "WAiXQJYBgf6odR9bLohZ",
       "_score": 1,
       "_source": {
         "description": "Ein Parkmeßgerät auf einer Straße mit Autos",
         "en": "A row of parked cars sitting next to parking meters.",
         "language": "de",
         "vector_description": {...}
       }
     },
     . . .
Realizando una búsqueda en inglés
Intentemos hacer la búsqueda en inglés y ver qué tal va:
GET coco_multi/_search
{
"size": 10,
"_source": [
  "description", "language", "en"
],
"knn": {
  "field": "vector_description.predicted_value",
  "k": 10,
  "num_candidates": 100,
  "query_vector_builder": {
    "text_embedding": {
      "model_id": ".multilingual-e5-small_linux-x86_64_search",
      "model_text": "query: kitty"
    }
  }
}
}
{
       "_index": "coco_multi",
       "_id": "JQiXQJYBgf6odR9b6Yz0",
       "_score": 0.9334303,
       "_source": {
         "description": "Eine Katze, die in einem kleinen, gepackten Koffer sitzt.",
         "en": "A brown and white cat is in a suitcase.",
         "language": "de"
       }
     },
      {
       "_index": "coco_multi",
       "_id": "3AiXQJYBgf6odR9bFod6",
       "_score": 0.9281012,
       "_source": {
         "description": "Una bambina che tiene un gattino vicino a una recinzione blu.",
         "en": "A little girl holding a kitten next to a blue fence.",
         "language": "it"
       }
     },
     . . .
Aquí, aunque la consulta parezca engañosamente simple, estamos buscando las incrustaciones numéricas de la palabra 'kitty' en todos los documentos y todos los idiomas que aparecen debajo del capó. Y como realizamos búsqueda vectorial, podemos buscar semánticamente todas las palabras que puedan estar relacionadas con 'kitty': "cat", "kitten", "felino", "gatto" (italiano), "meo" (vietnamita), 고양이 (coreano), 猫 (chino), etc. Como resultado, aunque mi consulta esté en inglés, también podemos buscar contenido en todos los demás idiomas. Por ejemplo, buscar un gatitoying on something también devuelve documentos en italiano, neerlandés o vietnamita. ¡Eso sí que es eficiencia!
Realizar una búsqueda de contenido en otros idiomas
GET coco_multi/_search
{  
 "size": 100,
 "_source": [
   "description", "language", "en"
 ],
 "knn": {
   "field": "vector_description.predicted_value",
   "k": 50,
   "num_candidates": 1000,
   "query_vector_builder": {
     "text_embedding": {
       "model_id": ".multilingual-e5-small_linux-x86_64_search",
       "model_text": "query: kitty lying on something"
     }
   }
 }
}
{
 "description": "A black kitten lays on her side beside remote controls.",
 "en": "A black kitten lays on her side beside remote controls.",
 "language": "en"
},
{
 "description": "un gattino sdraiato su un letto accanto ad alcuni telefoni ",
 "en": "A black kitten lays on her side beside remote controls.",
 "language": "it"
},
{
 "description": "eine Katze legt sich auf ein ausgestopftes Tier",
 "en": "a cat lays down on a stuffed animal",
 "language": "de"
},
{
 "description": "Một chú mèo con màu đen nằm nghiêng bên cạnh điều khiển từ xa.",
 "en": "A black kitten lays on her side beside remote controls.",
 "language": "vi"
}
. . .
De manera similar, realizar una búsqueda por palabra clave de "cat" en coreano ("고양이") también devolverá resultados significativos. Lo espectacular aquí es que ni siquiera tenemos documentos en coreano en este índice.
GET coco_multi/_search
{
 "size": 100,
 "_source": [
   "description", "language", "en"
 ],
 "knn": {
   "field": "vector_description.predicted_value",
   "k": 50,
   "num_candidates": 1000,
   "query_vector_builder": {
     "text_embedding": {
       "model_id": ".multilingual-e5-small_linux-x86_64_search",
       "model_text": "query: 고양이"
     }
   }
 }
}
 {
       {
         "description": "eine Katze legt sich auf ein ausgestopftes Tier",
         "en": "a cat lays down on a stuffed animal",
         "language": "de"
       }
     },
     {
       {
         "description": "Một con chó và con mèo đang ngủ với nhau trên một chiếc ghế dài màu cam.",
         "en": "A dog and cat lying  together on an orange couch. ",
         "language": "vi"
       }
     },
Esto funciona porque el modelo de incrustación representa el significado en un espacio semántico compartido, permitiendo la recuperación de imágenes relevantes incluso con una consulta en un idioma diferente al de los subtítulos indexados.
Aumento de resultados de búsqueda relevantes con búsqueda híbrida y reposicionamiento
Estamos contentos de que los resultados relevantes llegaron como se esperaba. Pero, en el mundo real, por ejemplo en comercio electrónico o en aplicaciones RAG que necesitan reducir a los 5-10 resultados más aplicables, podemos usar un modelo de reclasificación para priorizar los resultados más relevantes.
Aquí, realizar una consulta que pregunte "¿de qué color es el gato?" en vietnamita dará muchos resultados, pero el top 1 o 2 puede no ser el más relevante.
GET coco_multi/_search
{
 "size": 20,
 "_source": [
   "description",
   "language",
   "en"
 ],
 "knn": {
   "field": "vector_description.predicted_value",
   "k": 20,
   "num_candidates": 1000,
   "query_vector_builder": {
     "text_embedding": {
       "model_id": ".multilingual-e5-small_linux-x86_64_search",
       "model_text": "query: con mèo màu gì?"
     }
   }
 }
}
Todos los resultados mencionan gato, o algún tipo de color:
¡Así que vamos a mejorar eso! Integremos el modelo multilingüe de reclasificación de Coherepara mejorar el razonamiento correspondiente a nuestra pregunta.
PUT _inference/rerank/cohere_rerank
{
 "service": "cohere",
 "service_settings": {
   "api_key": "your_api_key",
   "model_id": "rerank-v3.5"
 },
 "task_settings": {
   "top_n": 10,
   "return_documents": true
 }
}


GET coco_multi/_search
{
"size": 10,
"_source": [
  "description",
  "language",
  "en"
],
"retriever": {
  "text_similarity_reranker": {
    "retriever": {
      "rrf": {
        "retrievers": [
          {
            "knn": {
              "field": "vector_description.predicted_value",
              "k": 50,
              "num_candidates": 100,
              "query_vector_builder": {
                "text_embedding": {
                  "model_id": ".multilingual-e5-small_linux-x86_64_search",
                  "model_text": "query: con mèo màu gì?" // English: What color is the cat?
                }
              }
            }
          }
        ],
        "rank_window_size": 100,
        "rank_constant": 0
      }
    },
    "field": "description",
    "inference_id": "cohere_rerank",
    "inference_text": "con mèo màu gì?"
  }
}
}
 {
       "_index": "coco_multi",
       "_id": "rQiYQJYBgf6odR9bBYyH",
       "_score": 1.5501487,
       "_source": {
         "description": "Hai cái điện thoại được đặt trên một cái chăn cạnh một con mèo con màu đen.",
         "en": "A black kitten lays on her side beside remote controls.",
         "language": "vi"
       }
     },
     {
       "_index": "coco_multi",
       "_id": "swiXQJYBgf6odR9b04uf",
       "_score": 1.5427427,
       "_source": {
         "description": "Một con mèo sọc nâu nhìn vào máy quay.", // Real translation: A brown striped cat looks at the camera 
         "en": "This cat is sitting on a porch near a tire.",
         "language": "vi"
       }
     },
Ahora, con los mejores resultados, nuestra solicitud puede responder con confianza que el color del gatito es negro o marrón con rayas. Lo que resulta aún más interesante aquí es que nuestra búsqueda vectorial detectó una omisión en el pie de foto en inglés del conjunto de datos original. Es capaz de encontrar al gato de rayas marrones aunque la traducción de referencia al inglés no mencionó ese detalle. Este es el poder de la búsqueda vectorial.
Conclusión
En este blog, explicamos la utilidad de un modelo de incrustación multilingüe y cómo aprovechar Elasticsearch para integrar los modelos y generar embeddings, y mejorar eficazmente la relevancia y la precisión mediante una búsqueda híbrida y un reclasificador. Puedes crear tu propio clúster en la nube para probar la búsqueda semántica multilingüe usando nuestro modelo E5 estándar en el idioma y conjunto de datos que elijas.


Despliegue de un modelo de incrustación multilingüe en Elasticsearch
Quynh Nguyen — Wed, 22 Oct 2025 00:00:00 GMT
Introducción
En un mundo de usuarios globales, la recuperación de información multilingüe (CLIR) es fundamental. En lugar de limitar las búsquedas a un solo idioma, CLIR te permite encontrar información en cualquier idioma, mejorando la experiencia del usuario y agilizando las operaciones. Imagina un mercado global donde los clientes de comercio electrónico puedan buscar artículos en su idioma, y los resultados adecuados aparezcan, sin necesidad de localizar los datos de antemano. O bien, donde los investigadores académicos pueden buscar artículos en su lengua materna, con matices y complejidad, incluso si la fuente está en otro idioma.
Los modelos de incrustación de texto multilingüe nos permiten hacer precisamente eso. Las incrustaciones son una forma de representar el significado del texto como vectores numéricos. Estos vectores están diseñados para que textos con significados similares estén situados cerca unos de otros en un espacio de alta dimensión. Los modelos de incrustación de texto multilingüe están diseñados específicamente para mapear palabras y frases con el mismo significado entre diferentes idiomas en un espacio vectorial similar.
Modelos como el Multilingüe E5 de código abierto se capacitan con enormes cantidades de datos textuales, a menudo empleando técnicas como el aprendizaje contrastivo. En este enfoque, el modelo aprende a distinguir entre pares de textos con significados similares (pares positivos) y aquellos con significados diferentes (pares negativos). El modelo se capacita para ajustar los vectores que produce de modo que se maximice la similitud entre pares positivos y se minimice la similitud entre pares negativos. Para modelos multilingües, estos datos de entrenamiento incluyen pares de texto en diferentes idiomas que son traducciones entre sí, permitiendo al modelo aprender un espacio de representación compartido para múltiples idiomas. Las incrustaciones resultantes pueden usar para diversas tareas de PLN, incluyendo la búsqueda cross-lingual, donde la similitud entre incrustaciones de texto se emplea para encontrar documentos relevantes independientemente del idioma de la consulta.
Beneficios de la búsqueda vectorial multilingüe
Matiz: La búsqueda vectorial destaca en captar el significado semántico, yendo más allá de la simple búsqueda de palabras clave. Esto es crucial para tareas que requieren comprender el contexto y las sutilezas del lenguaje.
Comprensión interlingüe: Permite una recuperación efectiva de información entre idiomas, incluso cuando la consulta y los documentos emplean vocabulario diferente.
Relevancia: Ofrece resultados más relevantes centrar en la similitud conceptual entre consultas y documentos.
Por ejemplo, consideremos a un investigador académico que estudia el "impacto de las redes sociales en el discurso político" en diferentes países. Con la búsqueda vectorial, pueden introducir consultas como "l'impacto dei social media sul discorso politico" (italiano) o "ảnh hưởng của mạng xã hội đối với diễn ngôn chính trị" (vietnamita) y encontrar artículos relevantes en inglés, español o cualquier otro idioma indexado. Esto se debe a que la búsqueda vectorial identifica artículos que discuten el concepto de influencia de las redes sociales en la política, no solo aquellos que contienen las palabras clave exactas. Esto mejora enormemente la amplitud y profundidad de su investigación.
Primeros pasos
Así es como configurar CLIR usando Elasticsearch, con el modelo E5 que se proporciona de fábrica. Emplearemos el conjunto de datos multilingüe de código abierto COCO, que contiene pies de foto en varios idiomas, para ayudarnos a visualizar dos tipos de búsquedas:
Consultas y términos de búsqueda en otros idiomas en un conjunto de datos en inglés, y
Consultas en varios idiomas sobre un conjunto de datos que contiene documentos en varios idiomas.
Luego, aprovecharemos el poder de la búsqueda híbrida y el reposicionamiento para mejorar aún más los resultados de búsqueda.
Prerrequisitos
Python 3.6+
Elasticsearch 8+
Cliente Python de Elasticsearch: instalación de pip elasticsearch
Conjunto de datos
El conjunto de datos COCO es un conjunto de datos de subtitulado a gran escala. Cada imagen del conjunto de datos está subtitulada en varios idiomas diferentes, con varias traducciones disponibles por idioma. Para fines demostrativos, indexaremos cada traducción como un documento individual, junto con la primera traducción al inglés disponible para referencia.
Paso 1: descargar el conjunto de datos multilingüe COCO
Para simplificar el blog y facilitar el seguimiento, aquí estamos cargando las primeras 100 filas de Restval en un archivo JSON local con una llamada API sencilla. Alternativamente, puedes usar los conjuntos de datos de la biblioteca de HuggingFace para cargar el conjunto de datos completo o subconjuntos del conjunto.
import requests
import json
import os
### Download multilingual coco dataset into a json file (for easy viewing)
### Here we are retrieving first 100 rows for this example
### Alternatively, you can use `datasets` library from Hugging Face
url = "https://datasets-server.huggingface.co/rows?dataset=romrawinjp%2Fmultilingual-coco&config=default&split=restval&offset=0&length=100"
response = requests.get(url)


if response.status_code == 200:
   data = response.json()
   output_file = "multilingual_coco_sample.json" 
   ### Loading the downloaded content into a json file locally
   with open(output_file, "w", encoding="utf-8") as f:
       json.dump(data, f, indent=4, ensure_ascii=False)
   print(f"Data successfully downloaded and saved to {output_file}")
else:
   print(f"Failed to download data: {response.status_code}")
   print(response.text)
Si los datos se cargan correctamente en un archivo JSON, deberías ver algo similar a lo siguiente:
Data successfully downloaded and saved to multilingual_coco_sample.json
Paso 2: (Iniciar Elasticsearch) e indexar los datos en Elasticsearch
a) Inicia tu servidor local de Elasticsearch.
b) Iniciar el cliente Elasticsearch.
from elasticsearch import Elasticsearch
from getpass import getpass


# Initialize Elasticsearch client
es = Elasticsearch(getpass("Host: "), api_key=getpass("API Key: "))


index_name = "coco"


# Create the index if it doesn't exist
if not es.indices.exists(index=index_name):
   es.indices.create(index=index_name, body=mapping)
c) Datos de índice
# Load the JSON data
with open('./multilingual_coco_sample.json', 'r') as f:
   data = json.load(f)


rows = data["rows"]
# List of languages to process
languages = ["en", "es", "de", "it", "vi", "th"]


# For each image, we will process each individual caption as its own document
bulk_data = []
for data in rows:
   row = data["row"]
   image = row.get("image")
   image_url = image["src"]


   # Process each language
   for lang in languages:
       # Skip if language not present in this row
       if lang not in row:
           continue


       # Get all descriptions for this language
 # along with first available English caption for reference
       descriptions = row[lang]
       first_eng_caption = row["en"][0]


       # Prepare bulk indexing data
       for description in descriptions:
           if description == "":
               continue
           # Add index operation
           bulk_data.append(
               {"index": {"_index": index_name}}
           )
           # Add document
           bulk_data.append({
               "language": lang,
               "description": description,
               "en": first_eng_caption,
               "image_url": image_url,
           })


# Perform bulk indexing
if bulk_data:
   try:
       response = es.bulk(operations=bulk_data)
       if response["errors"]:
           print("Some documents failed to index")
       else:
           print(f"Successfully bulk indexed {len(bulk_data)} documents")
   except Exception as e:
       print(f"Error during bulk indexing: {str(e)}")


print("Indexing complete!")
Una vez indexados los datos, deberías ver algo similar a lo siguiente:
Successfully bulk indexed 4840 documents
Indexing complete!
Paso 3: Desplegar el modelo capacitado con E5
En Kibana, accede a la página de Stack Management > Trained Models y haz clic en Desplegar para el .multilingual-e5-small_linux-x86_64 opción. Este modelo E5 es un pequeño multilingüe optimizado para linux-x86_64, que podemos usar de fábrica. Al hacer clic en 'Desplegar' aparecerá una pantalla donde puedes ajustar la configuración de despliegue o las configuraciones de los vCPU. Para simplificar, optaremos por las opciones predeterminadas, con recursos adaptativos seleccionados, que escalarán automáticamente nuestro despliegue según el uso.
Opcionalmente, si quieres usar otros modelos de incrustación de texto, puedes hacerlo. Por ejemplo, para usar el BGE-M3, puedes usar el cliente Eland Python de Elastic para importar el modelo desde HuggingFace.
export MODEL_ID="bge-m3"
export HUB_MODEL_ID="BAAI/bge-m3"
export CLOUD_ID={{CLOUD_ID}}
export ES_API_KEY={{API_KEY}}
docker run -it --rm docker.elastic.co/eland/eland \
eland_import_hub_model --cloud-id $CLOUD_ID --es-api-key $ES_API_KEY --hub-model-id $HUB_MODEL_ID --es-model-id $MODEL_ID --task-type text_embedding --start
Luego, ve a la página de Modelos Capacitados para desplegar el modelo importado con las configuraciones deseadas.
Paso 4: Vectorizar o crear incrustaciones para los datos originales con el modelo desplegado
Para crear los embeddings, primero necesitamos crear un pipeline de ingesta que nos permita tomar el texto y pasarlo por el modelo de embedding de texto de inferencia. Puedes hacerlo en la interfaz de usuario de Kibana o a través de la API de Elasticsearch.
Para hacerlo a través de la interfaz Kibana, tras desplegar el Modelo Capacitado, haz clic en el botón Test . Esto te dará la posibilidad de probar y previsualizar los embeddings generados. Crea una nueva vista de datos para el índice de coco, configura la vista de datos en la vista de datos coco recién creada y pon el campo en description porque ese es el campo para el que queremos generar incrustaciones.
¡Eso funciona genial! Ahora podemos proceder a crear la pipeline de ingest, reindexar nuestros documentos originales, pasarlos por la pipeline y crear un nuevo índice con los embeddings. Puedes conseguirlo haciendo clic en Crear pipeline, lo que te guiará durante el proceso de creación de pipeline, con procesadores auto-repoblados necesarios para ayudarte a crear los embeddings.
El asistente también puede rellenar automáticamente los procesadores necesarios para gestionar fallos mientras se ingieren y procesan los datos.
Ahora creemos la canalización de ingest. Voy a nombrar el oleoducto coco_e5. Una vez que la tubería se crea correctamente, puedes usarla inmediatamente para generar las incrustaciones reindexando los datos originales indexados a un nuevo índice en el asistente. Haz clic en Reindexar para iniciar el proceso.
Para configuraciones más complejas, podemos usar la API de Elasticsearch.
Para algunos modelos, debido a la forma en que se capacitaron, puede que necesitemos anteponer o agregar ciertos textos a la entrada real antes de generar los embeddings; de lo contrario, veremos una degradación del rendimiento.
Por ejemplo, con el e5, el modelo espera que el texto de entrada siga a "passage: {content of passage}". Empleemos los pipelines de ingest para lograrlo: crearemos un nuevo pipeline de ingest vectorize_descriptions. En esta canalización, crearemos un nuevo campo de temp_desc temporal, antepondremos "passage: " al texto description , pasaremos temp_desc por el modelo para generar incrustaciones de texto y luego eliminaremos el temp_desc.
PUT _ingest/pipeline/vectorize_descriptions
{
"description": "Pipeline to run the descriptions text_field through our inference text embedding model",
"processors": [
 {
   "set": {
     "field": "temp_desc",
     "value": "passage: {{description}}"
   }
 },
 {
   "inference": {     
"field_map": {
       "temp_desc": "text_field"
     },
     "model_id": ".multilingual-e5-small_linux-x86_64_search",
     "target_field": "vector_description"
   }
 },
 {
   "remove": {
     "field": "temp_desc"
   }
 }
]
}
Además, podríamos querer especificar qué tipo de cuantización queremos usar para el vector generado. Por defecto, Elasticsearch usa int8_hnsw, pero aquí quiero Better Binary Quantization (o bqq_hnsw), que reduce cada dimensión a una precisión de un solo bit. Esto reduce la huella de memoria en un 96% (o 32 veces) a un costo mayor en la precisión. Opto por este tipo de cuantización porque sé que usaré un reclasificador más adelante para mejorar la pérdida de precisión.
Para ello, crearemos un nuevo índice llamado coco_multi y especificaremos los mapeos. La magia aquí está en el campo vector_description, donde especificamos que el tipo del index_optionsdebe ser bbq_hnsw.
PUT coco_multi
{
 "mappings": {
   "properties": {
     "description": {
       "type": "text"
     },
     "en": {
       "type": "text"
     },
     "image_url": {
       "type": "keyword"
     },
     "language": {
       "type": "keyword"
     },
     "vector_description.predicted_value": {
       "type": "dense_vector",
       "dims": 384,
       "index": "true",
       "similarity": "cosine",
       "index_options": {
         "type": "bbq_hnsw" 
       }
     }
   }
 }
}
Ahora, podemos reindexar los documentos originales a un nuevo índice, con nuestra pipeline de ingesta que "vectorizará" o creará incrustaciones para el campo de descripciones.
POST _reindex?wait_for_completion=false
{
 "source": {
   "index": "coco"
 },
 "dest": {
   "index": "coco_multilingual",
   "pipeline": "vectorize_descriptions"
 }
}
¡Y eso es todo! Desplegamos con éxito un modelo multilingüe con Elasticsearch y Kibana y aprendido paso a paso cómo crear las incrustaciones vectoriales con tus datos con Elastic, ya sea a través de la interfaz de usuario de Kibana o con la API de Elasticsearch. En la segunda parte de este serial, exploraremos los resultados y las particularidades del uso de un modelo multilingüe. Mientras tanto, puedes crear tu propio clúster en la nube para probar la búsqueda semántica multilingüe usando nuestro modelo E5 estándar en el idioma y conjunto de datos que elijas.


Servidor Elastic MCP: Expone las herramientas de Agent Builder a cualquier agente de IA
Jedr Blaszyk, Joe McElroy — Mon, 20 Oct 2025 00:00:00 GMT
Elastic Agent Builder es una plataforma para crear herramientas y agentes profundamente integrados con tus propios datos en Elasticsearch. Por ejemplo, puedes crear herramientas que realicen búsqueda semántica sobre documentos internos, analicen registros de observabilidad o consulten alertas de seguridad.
Pero la verdadera magia ocurre cuando puedes llevar estas herramientas personalizadas y conscientes de los datos a los entornos donde pasas la mayor parte del tiempo. ¿Y si tu agente editor de código pudiera acceder de forma segura a la base de conocimiento privada de tu organización?
Ahí es donde entra el Protocolo de Contexto del Modelo (MCP). Elastic Agent Builder viene con un servidor MCP integrado que proporciona acceso a las herramientas de la plataforma.
¿Por qué usar el servidor MCP de Elastic Agent Builder?
Los agentes de IA son increíblemente poderosos, pero su conocimiento suele limitar a los datos con los que fueron capacitados y a la información que pueden buscar activamente en Internet público. No conocen los documentos internos de diseño de tu compañía, los libros de despliegue específicos de tu equipo ni la estructura única de tus registros de aplicaciones.
El reto es darle a tu asistente de IA el contexto especializado que necesita. Este es precisamente el problema que MCP está diseñado para resolver. MCP es un estándar abierto que permite a un modelo o agente de IA descubrir y emplear herramientas externas.
Para hacerlo posible, el Constructor de Agentes Elastic expone de forma nativa tus herramientas personalizadas a través de un servidor MCP integrado. Esto significa que puedes conectar fácilmente cualquier cliente compatible con MCP, como Cursor, VS Code o Claude Desktop, con las herramientas especializadas y conscientes de los datos que desarrollaste con Elastic Agent Builder.
Cuándo usar MCP (y cuándo no)
Elastic Agent Builder incluye varios protocolos para soportar diferentes patrones de integración. Elegir el adecuado es clave para construir flujos de trabajo efectivos en IA.
Usa MCP para complementar tu agente de IA (como en Cursor o VS Code) con herramientas especializadas. Es el enfoque de "trae tus propias herramientas", mejorando el asistente que ya usas con acceso seguro a tus datos privados. Solo las herramientas se exponen a través del servidor MCP — los agentes de Elastic son independientes de ese.
Emplea el Protocolo A2A para permitir que tu Agente Elastic personalizado completo colabore con otros agentes autónomos (como en Gemini Enterprise de Google). Esto es para la delegación de agente a agente, donde cada agente actúa como un par para resolver un problema.
Emplea las APIs de Agent Builder para un control programático completo al construir una aplicación personalizada desde cero.
Para un desarrollador que busca obtener respuestas de su documentación interna sin salir de su IDE, MCP es la opción perfecta.
Ejemplo: tus herramientas personalizadas en Cursor con el servidor MCP de Agent Builder
Vamos a repasar un ejemplo práctico que uso a diario. Primero, rastreé e indexé nuestra documentación interna de ingeniería en un índice de Elasticsearch llamado elastic-dev-docs. Aunque podríamos usar las herramientas genéricas integradas disponibles en Agent Builder, crearemos nuestra propia herramienta personalizada para consultar esta base de conocimiento específica.
La razón para construir una herramienta personalizada es sencilla: control y precisión. Este enfoque nos da la capacidad de ejecutar una consulta rápida y semántica directamente contra nuestro índice de elastic-dev-docs . Tenemos control total sobre qué índice se dirige y cómo se recuperan los datos.
Ahora, aquí tienes cómo podemos usar esta base de conocimiento personalizada en un editor de código impulsado por IA, como Cursor.
Paso 1: Crea una herramienta de base de conocimiento personalizada en Agent Builder
Primero, crea una nueva herramienta en Agent Builder. Una descripción clara y específica de la herramienta es importante porque es como cualquier agente de IA, ya sea el Agente Elástico interno o una herramienta externa como Cursor conectar mediante MCP, descubre y selecciona tu herramienta para la tarea adecuada.
Una descripción contundente debe ser explícita. Por ejemplo: "Realiza una búsqueda semántica en el índice elastic-dev-docs para encontrar documentación interna de ingeniería, libros de ejecución y procedimientos de liberación."
Con eso en marcha, la herramienta está configurada para realizar una búsqueda semántica contra nuestro índice específico. Una vez almacenado, está disponible inmediatamente para ser servido.
Antes de conectarlo al exterior, puedes probarlo directamente en la interfaz. Simplemente haz clic en el botón Test para rellenar manualmente los parámetros, emulando lo que hará el LLM, e inspecciona los resultados para confirmar que todo funciona correctamente.
Paso 2: Conecta Cursor al servidor Elastic MCP
Elastic Agent Builder expone automáticamente todas las herramientas disponibles a través de un endpoint MCP seguro. Puedes encontrar la URL única de tu servidor en la interfaz de herramientas dentro de Kibana.
Para conectarnos a Cursor, simplemente agregamos esta URL a su archivo de configuración, junto con una clave API elástica para autenticación (aprende a crear clave API ES). Usamos una clave API para la autorización, ya que garantiza que las herramientas solo se ejecuten con las licencias que concediste, respetando todas tus reglas de control de acceso.
La configuración MCP en el ~/.cursor/mcp.json de Cursor es la siguiente:
{
  "mcpServers": {
    "elastic-agent-builder": {
      "command": "npx",
      "args": [
        "mcp-remote",
        "https://your-kibana.kb.company.io/api/agent_builder/mcp",
        "--header",
        "Authorization:${AUTH_HEADER}"
      ],
      "env": {
        "AUTH_HEADER": "ApiKey "
      }
    }
  }
}
Una vez almacenada la configuración, deberías ver la herramienta de servidor MCP de Elastic Agent Builder disponible en Cursor.
Paso 3: ¡pregunta lo que quieras!
Con la conexión establecido, los agentes Cursor pueden ahora invocar tus herramientas personalizadas para responder a tus preguntas o guiar el proceso de generación de código.
Hagamos una pregunta concreta:
"Pasos de búsqueda para liberar el servicio de rastreo desde la documentación interna de ingeniería de la organización elastic search"
Tras bambalinas, ocurre la magia:
El agente del cursor decide cómo responder a tu pregunta de la mejor manera y decide llamar a la engineering_documentation_internal_search
Invoca la herramienta mediante una consulta en lenguaje natural
La herramienta ejecuta una búsqueda semántica contra el índice de elastic-dev-docs y devuelve los procedimientos más relevantes y actualizados.
Obtenemos una respuesta precisa y fiable basada en nuestra documentación interna, todo sin salir nunca del editor de código. La experiencia es fluida y poderosa.
Te toca construir
Ahora viste cómo usar el servidor MCP integrado en Elastic Agent Builder para ampliar tus asistentes de IA con acceso seguro a tus datos privados. Fundamentar los modelos en tu propia información es clave para que sean realmente útiles.
Para recapitular, cubrimos los pasos principales:
Elegir el protocolo adecuado para tus necesidades (MCP).
Crear una herramienta de base de conocimiento personalizada.
Conectar esa herramienta a un asistente IDE como Cursor.
Tus agentes y herramientas ya no necesitan estar desconectados de su contexto más valioso. Esperamos que esta guía te ayude a crear flujos de trabajo más efectivos y conscientes de los datos. ¡Feliz construcción!


Capacitar modelos LTR en Elasticsearch con listas de juicio basadas en datos de comportamiento del usuario
Alexander Dávila — Wed, 15 Oct 2025 00:00:00 GMT
Un gran reto al usar modelos Learning-to-rank es crear una lista de juicios de alta calidad para capacitar el modelo. Tradicionalmente, este proceso implica una evaluación manual de la relevancia de los documentos de consulta para asignar una calificación a cada uno. Es un proceso lento que no escala bien y es difícil de mantener (imagina tener que actualizar una lista con cientos de entradas a mano).
Ahora, ¿y si pudiéramos usar interacciones reales de usuario con nuestra aplicación de búsqueda para crear estos datos de entrenamiento? Emplear datos de RBU nos permite hacer precisamente eso. Crear un sistema automático que pueda capturar y usar nuestras búsquedas, clics y otras interacciones para generar una lista de juicios. Este proceso puede escalar y repetir mucho más fácilmente que una interacción manual y tendería a dar mejores resultados. En este blog, exploraremos cómo podemos consultar datos de RBU almacenados en Elasticsearch para calcular señales significativas que generen un conjunto de datos de entrenamiento para un modelo LTR .
Puedes encontrar el experimento completo aquí.
Por qué los datos de RBU pueden ser útiles para capacitar tu modelo de LTR
Los datos de la RBU ofrecen varios beneficios sobre una anotación manual:
Volumen: Dado que los datos de RBU provienen de interacciones reales, podemos recopilar muchos más datos de los que generamos manualmente. Esto suponiendo que tengamos suficiente tráfico para generar estos datos, por supuesto.
Intención real del usuario: Tradicionalmente, una lista de juicios manual proviene de una evaluación experta de los datos disponibles. Por otro lado, los datos de RBU reflejan el comportamiento real de los usuarios. Esto significa que podemos generar mejores datos de entrenamiento que mejorarán la precisión de nuestro sistema de búsqueda, porque se basan en cómo los usuarios interactúan y encuentran valor en tu contenido, más que en suposiciones teóricas sobre lo que debería ser relevante.
Actualizaciones continuas: Las listas de juicios necesitan actualizar con el tiempo. Si los creamos a partir de datos de la RBU, podemos tener datos actuales que resulten en listas de juicios actualizadas.
Rentabilidad: Sin la carga de crear manualmente una lista de juicios, el proceso puede repetir eficientemente cualquier número de veces.
Distribución natural de consultas: Los datos de RBU representan consultas reales de usuario, lo que puede impulsar cambios más profundos. Por ejemplo, ¿nuestros usuarios usan lenguaje natural para buscar en nuestro sistema? Si es así, podríamos querer implementar un enfoque de búsqueda semántica o de búsqueda híbrida.
Sin embargo, viene con algunas advertencias:
Amplificación de polarización: El contenido popular tiene más probabilidades de recibir clics, simplemente porque tiene más visibilidad. Así que esto podría acabar amplificando los productos populares y posiblemente ahogando opciones mejores.
Cobertura incompleta: El contenido nuevo carece de interacciones, por lo que puede ser difícil que los resultados sean altos. Las consultas raras también pueden carecer de suficientes puntos de datos para crear datos de entrenamiento significativos.
Variaciones estacionales: Si esperas que el comportamiento del usuario cambie significativamente con el tiempo, los datos históricos pueden no decirte mucho sobre qué es un buen resultado.
Ambigüedad de la tarea: Un clic no siempre garantiza que el usuario encontró lo que buscaba.
Cálculo de calificaciones
Calificaciones para el entrenamiento a largo plazo
Para capacitar modelos LTR, necesitamos proporcionar alguna representación numérica de cuán relevante es un documento para una consulta. En nuestra implementación, este número es un puntaje continuo que va de 0,0 a 5,0+, donde puntajes más altos indican mayor relevancia.
Para mostrar cómo funciona este sistema de calificación, consideremos este ejemplo creado manualmente:
            
              
                
                    
                      Búsqueda Contenido del documento Grado Explicación
                    
                    
                      "La mejor receta de pizza" "Receta auténtica de masa de pizza italiana con fotos paso a paso" 4.0 Muy relevante, exactamente lo que el usuario busca
                    
                    
                      "La mejor receta de pizza" "Historia de la pizza en Italia" 1.0 Algo en el tema, trata sobre pizza pero no es una receta
                    
                    
                      "La mejor receta de pizza" "Receta rápida de pizza de 15 minutos para principiantes" 3.0 Relevante, un buen resultado pero quizá no cumpla con la "mejor" receta.
                    
                    
                      "La mejor receta de pizza" "Guía de mantenimiento de autos" 0.0 No tiene nada que ver, completamente ajeno a la consulta
                    
              
            
          Como podemos ver aquí, la calificación es una representación numérica de cuán relevante es un documento para nuestra consulta de ejemplo de "mejor receta de pizza". Con estos puntajes, nuestro modelo de LTR puede aprender qué documentos deben presentar mejor en los resultados.
Cómo calcular las notas es el núcleo de nuestro conjunto de datos de entrenamiento. Existen múltiples enfoques para hacerlo, cada uno con sus propias fortalezas y debilidades. Por ejemplo, podríamos asignar un puntaje binario de 1 para el 0 relevante para no relevante o simplemente contar el número de clics en un documento resultante para cada consulta.
En esta entrada del blog, emplearemos un enfoque diferente, teniendo en cuenta el comportamiento del usuario como nuestra entrada y calculando un número de calificación como resultado. También corregiremos el sesgo que podría surgir por el hecho de que los resultados más altos tienden a ser más clicados, independientemente de la relevancia del documento.
Cálculo de las calificaciones - algoritmo COEC
El algoritmo COEC (Clics over Expected Clics) es una metodología para calcular las calificaciones de juicio a partir de clics de los usuarios.
Como mencionamos antes, los usuarios tienden a hacer clic en resultados de mejor posición incluso si el documento no es el más relevante para la consulta; esto se llama sesgo de posición. La idea central para usar el algoritmo COEC es que no todos los clics son igual de significativos; Un clic en un documento en la posición 10 indica que el documento es mucho más relevante para la consulta que un clic en un documento en la posición 1. Para citar el artículo de investigación sobre el algoritmo COEC (enlazado arriba):
"Es bien sabido que la tasa de clics (CTR) de los resultados de búsqueda o anuncios disminuye significativamente dependiendo de la posición de los resultados."
Puedes leer más sobre el sesgo de posición aquí.
Para abordar esto con el algoritmo COEC, seguimos estos pasos:
1. Establecer líneas base de posición: Calculamos la tasa de clics (CTR) para cada posición de búsqueda del 1 al 10. Esto significa que determinamos qué porcentaje de usuarios suelen hacer clic en la posición 1, posición 2, y así sucesivamente. Este paso captura el sesgo natural de posición de los usuarios.

Calculamos el CTR usando:
 $CTRp=CpIp$ Dónde:
p = Posición. Del 1 al 10
Cp = Total de clics (en cualquier documento) en la posición p en todas las consultas
Ip = Total de impresiones: Cuántas veces apareció cualquier documento en la posición p en todas las consultas
Aquí, esperamos que los puestos más altos consigan más clics.
2. Calcular los clics esperados (EC):
Esta métrica establece cuántos clics "debería" recibir un documento en función de las posiciones en las que apareció y el CTR para esas posiciones. Calculamos la EC usando:
 $EC (for a document) = qQdCTRpos(d,q)$ Dónde:
Qd = Todas las consultas donde apareció el documento d
pos(d,q)= Posición del documento d en los resultados de la consulta q
3. Contar clics reales: Contamos el total real de clics que un documento recibió en todas las consultas donde apareció, en adelante llamado A(d).
4. Calcular el puntaje del COEC: Esta es la proporción de clics reales (A(d)) sobre los clics esperados (EC(d)):
 $COEC = A(d)EC(d)$ Esta métrica normaliza para el sesgo de posición como este:
Un puntaje de 1,0 significa que el documento funcionó exactamente como se espera dadas las posiciones en las que apareció.
Un puntaje superior a 1,0 significa que el documento tuvo un mejor rendimiento de lo esperado al observar sus posiciones. Así que este documento es más relevante para la consulta.
Un puntaje inferior a 1,0 significa que el documento tuvo un rendimiento peor de lo esperado al observar sus posiciones. Así que este documento es menos relevante para la consulta.
El resultado final es un número de calificación que captura lo que los usuarios buscan, teniendo en cuenta expectativas basadas en la posición extraídas de interacciones reales con nuestro sistema de búsqueda.
Implementación técnica
Crearemos un script para crear una lista de juicios y capacitar un modelo de LTR.
La entrada para este script es los datos de la RBU indexados en Elastic (consultas y eventos).
La salida es una lista de juicios en un archivo CSV generada a partir de estos documentos de RBU empleando el algoritmo COEC. Esta lista de juicios puede usar con Eland para extraer características relevantes y capacitar un modelo LTR.
Inicio rápido
Para generar una lista de juicios a partir de los datos de muestra de este blog, puedes seguir estos pasos:
1. Clonar el repositorio:
git clone https://github.com/Alex1795/elastic-ltr-judgement_list-blog.git  
cd elastic-ltr-judgement_list-blog
2. Instalar las librerías necesarias
Para este guion, necesitamos las siguientes librerías:
Pandas: Para salvar la lista de juicios
elasticsearch: Para obtener los datos de RBU de nuestro despliegue de Elastic
También necesitamos Python 3.11
pip install -r requirements.txt
3. Actualizar las variables de entorno para tu despliegue de Elastic en un archivo .env
ES_HOST
API_KEY
Para agregar las variables de entorno, emplea:
source .env
4. Crear el ubi_queries, ubi_events índices y subir los datos de muestra. Ejecuta el archivo setup.py:
python setup.py
5. Ejecutar el script en Python:
python judgement_list-generator.py
Si sigues estos pasos, deberías ver un archivo nuevo llamado judgment_list.csv que se ve así:
Este script calcula las calificaciones aplicando el algoritmo COEC discutido antes de usar la función calculate_relevance_grade() que se muestra a continuación.
Arquitectura de datos
Consultas Ubi
Nuestro índice de consultas de RBU contiene información sobre las consultas ejecutadas en nuestro sistema de búsqueda. Este es un documento de ejemplo:
{
          "client_id": "client_002",
          "query": "italian pasta recipes",
          "query_attributes": {
            "search_type": "recipe",
            "category": "food",
            "cuisine": "italian"
          },
          "query_id": "q002",
          "query_response_id": "qr002",
          "query_response_object_ids": [
            "doc_011",
            "doc_012",
            "doc_013",
            "doc_014",
            "doc_015",
            "doc_016",
            "doc_017",
            "doc_018",
            "doc_019",
            "doc_020"
          ],
          "timestamp": "2024-08-14T11:15:00Z",
          "user_query": "italian pasta recipes"
        }
Aquí podemos ver datos del usuario (client_id), de los resultados de la consulta (query_response_object_ids) y de la propia consulta (marca de tiempo, user_query)
Eventos de Ubi Clic
Nuestro índice de ubi_events contiene datos de cada vez que un usuario hizo clic en un documento en los resultados. Este es un documento de ejemplo:
{
          "action_name": "click",
          "application": "recipe_search",
          "client_id": "client_001",
          "event_attributes": {
            "object": {
              "description": "Authentic Italian Pizza Dough Recipe with Step-by-Step Photos",
              "device": "desktop",
              "object_id": "doc_001",
              "position": {
                "ordinal": 1,
                "page_depth": 1
              },
              "user": {
                "city": "New York",
                "country": "USA",
                "ip": "192.168.1.100",
                "location": {
                  "lat": 40.7128,
                  "lon": -74.006
                },
                "region": "NY"
              }
            }
          },
          "message": "User clicked on document doc_001",
          "message_type": "click",
          "query_id": "q001",
          "timestamp": "2024-08-14T10:31:00Z",
          "user_query": "best pizza recipe"
        }
Script de generación de lista de sentencias
Resumen general de la escritura
Este script automatiza la generación de la lista de juicios empleando datos de RBU de los eventos de Consultas y Clics almacenados en Elasticsearch. Ejecuta estas tareas:
Recupera y procesa los datos de la RBU en Elasticsearch.
Correlaciona los eventos de RBU con sus consultas.
Calcula el CTR para cada posición.
Calcula los clics esperados (EC) para cada documento.
Cuenta los clics reales de cada documento.
Calcula el puntaje del COEC para cada par consulta-documento.
Genera una lista de juicios y la escribe en un archivo CSV.
Repasemos cada función:
connect_to_elasticsearch()
def connect_to_elasticsearch(host, api_key):
    """Create and return Elasticsearch client"""
    try:
        es = Elasticsearch(
            hosts=[host],
            api_key=api_key,
            request_timeout=60
        )
        # Test the connection
        if es.ping():
            print(f"✓ Successfully connected to Elasticsearch at {host}")
            return es
        else:
            print("✗ Failed to connect to Elasticsearch")
            return None
    except Exception as e:
        print(f"✗ Error connecting to Elasticsearch: {e}")
        return None
Esta función devuelve un objeto cliente de Elasticsearch usando la clave host y API.
fetch_ubi_data()
def fetch_ubi_data(es_client: Elasticsearch, queries_index: str, events_index: str,
                   size: int = 10000) -> Tuple[List[Dict], List[Dict]]:
    """
    Fetch UBI queries and events data from Elasticsearch indices.

    Args:
        es_client: Elasticsearch client
        queries_index: Name of the UBI queries index
        events_index: Name of the UBI events index
        size: Maximum number of documents to fetch

    Returns:
        Tuple of (queries_data, events_data)
    """
    logger.info(f"Fetching data from {queries_index} and {events_index}")

    # Fetch queries with error handling
    try:
        queries_response = es_client.search(
            index=queries_index,
            body={
                "query": {"match_all": {}},
                "size": size
            }
        )
        queries_data = [hit['_source'] for hit in queries_response['hits']['hits']]
        logger.info(f"Fetched {len(queries_data)} queries")

    except Exception as e:
        logger.error(f"Error fetching queries from {queries_index}: {e}")
        raise

    # Fetch events (only click events for now) with error handling
    try:
        events_response = es_client.search(
            index=events_index,
            body={
                "query": {
                    "term": {"message_type.keyword": "CLICK_THROUGH"}
                },
                "size": size
            }
        )
        events_data = [hit['_source'] for hit in events_response['hits']['hits']]
        logger.info(f"Fetched {len(events_data)} click events")

    except Exception as e:
        logger.error(f"Error fetching events from {events_index}: {e}")
        raise

    logger.info(f"Data fetch completed successfully - Queries: {len(queries_data)}, Events: {len(events_data)}")

    return queries_data, events_data
Esta función es la capa de extracción de datos; se conecta con Elasticsearch para obtener consultas de RBU usando una consulta match_all y filtra los eventos de RBU para obtener solo eventos 'CLICK_THROUGH'.
process_ubi_data()
def process_ubi_data(queries_data: List[Dict], events_data: List[Dict]) -> pd.DataFrame:
    """
    Process UBI data and generate judgment list.

    Args:
        queries_data: List of query documents from UBI queries index
        events_data: List of event documents from UBI events index

    Returns:
        DataFrame with judgment list (qid, docid, grade, keywords)
    """
    logger.info("Processing UBI data to generate judgment list")

    # Group events by query_id
    clicks_by_query = {}
    for event in events_data:
        query_id = event['query_id']
        if query_id not in clicks_by_query:
            clicks_by_query[query_id] = {}

        # Extract clicked document info
        object_id = event['event_attributes']['object']['object_id']
        position = event['event_attributes']['object']['position']['ordinal']

        clicks_by_query[query_id][object_id] = {
            'position': position,
            'timestamp': event['timestamp']
        }

    judgment_list = []

    # Process each query
    for query in queries_data:
        query_id = query['query_id']
        user_query = query['user_query']
        document_ids = query['query_response_object_ids']

        # Get clicks for this query
        query_clicks = clicks_by_query.get(query_id, {})

        # Generate judgment for each document shown
        for doc_id in document_ids:
            grade = calculate_relevance_grade(doc_id, query_clicks, document_ids, queries_data, events_data)

            judgment_list.append({
                'qid': query_id,
                'docid': doc_id,
                'grade': grade,
                'query': user_query
            })

    df = pd.DataFrame(judgment_list)
    logger.info(f"Generated {len(df)} judgment entries for {df['qid'].nunique()} unique queries")

    return df
Esta función se encarga de la generación de la lista de juicios. Comienza a procesar los datos de RBU asociando eventos y consultas de RBU. Luego llama a la función calculate_relevance_grade() para cada par documento-consulta para obtener las entradas de la lista de juicios. Finalmente, devuelve la lista resultante como un dataframe pandas.
calculate_relevance_grade()
def calculate_relevance_grade(document_id: str, clicks_data: Dict,
                              query_response_ids: List[str], all_queries_data: List[Dict] = None,
                              all_events_data: List[Dict] = None) -> float:
    """
    Calculate COEC (Click Over Expected Clicks) relevance score for a document.

    Args:
        document_id: ID of the document
        clicks_data: Dictionary of clicked documents with their positions for current query
        query_response_ids: List of document IDs shown in search results (ordered by position)
        all_queries_data: All queries data for calculating position CTR averages
        all_events_data: All events data for calculating position CTR averages

    Returns:
        COEC relevance score (continuous value, typically 0.0 to 5.0+)
    """

    # If no global data provided, fall back to simple position-based grading
    if all_queries_data is None or all_events_data is None:
        logger.warning("No global data provided, falling back to position-based grading")
        # Simple fallback logic
        if document_id in clicks_data:
            position = clicks_data[document_id]['position']
            if position > 3:
                return 4.0
            elif position >= 1 and position <= 3:
                return 3.0
        if document_id in query_response_ids:
            position = query_response_ids.index(document_id) + 1
            if position <= 5:
                return 2.0
            elif position >= 6 and position <= 10:
                return 1.0
        return 0.0

    # Calculate rank-aggregated click-through rates
    position_ctr_averages = {}
    position_impression_counts = {}
    position_click_counts = {}

    # Initialize counters
    for pos in range(1, 11):  # Positions 1-10
        position_impression_counts[pos] = 0
        position_click_counts[pos] = 0

    # Count impressions (every document shown contributes)
    for query in all_queries_data:
        for i, doc_id in enumerate(query['query_response_object_ids'][:10]):  # Top 10 positions
            position = i + 1
            position_impression_counts[position] += 1

    # Count clicks by position
    for event in all_events_data:
        if event.get('action_name') == 'click':
            position = event['event_attributes']['object']['position']['ordinal']
            if position <= 10:
                position_click_counts[position] += 1

    # Calculate average CTR per position
    for pos in range(1, 11):
        if position_impression_counts[pos] > 0:
            position_ctr_averages[pos] = position_click_counts[pos] / position_impression_counts[pos]
        else:
            position_ctr_averages[pos] = 0.0

    # Calculate expected clicks for this specific document
    expected_clicks = 0.0

    # Count how many times this document appeared at each position for any query
    for query in all_queries_data:
        if document_id in query['query_response_object_ids']:
            position = query['query_response_object_ids'].index(document_id) + 1
            if position <= 10:
                expected_clicks += position_ctr_averages[position]

    # Count total actual clicks for this document across all queries
    actual_clicks = 0
    for event in all_events_data:
        if (event.get('action_name') == 'click' and
                event['event_attributes']['object']['object_id'] == document_id):
            actual_clicks += 1

    # Calculate COEC score
    if expected_clicks > 0:
        coec_score = actual_clicks / expected_clicks
    else:
        coec_score = 0.0

    logger.debug(
        f"Document {document_id}: {actual_clicks} clicks / {expected_clicks:.3f} expected = {coec_score:.3f} COEC")

    return coec_score
Esta es la función que implementa el algoritmo COEC. Calcula el CTR para cada posición, luego compara los clics reales de un par documento-consulta, y finalmente calcula el puntaje real del COEC para cada una.
generate_judgment_statistics()
def generate_judgment_statistics(df: pd.DataFrame) -> Dict:
    """Generate statistics about the judgment list."""
    stats = {
        'total_judgments': len(df),
        'unique_queries': df['qid'].nunique(),
        'unique_documents': df['docid'].nunique(),
        'grade_distribution': df['grade'].value_counts().to_dict(),
        'avg_judgments_per_query': len(df) / df['qid'].nunique() if df['qid'].nunique() > 0 else 0,
        'queries_with_clicks': len(df[df['grade'] > 1]['qid'].unique()),
        'click_through_rate': len(df[df['grade'] > 1]) / len(df) if len(df) > 0 else 0
    }
    return stats
Genera estadísticas útiles a partir de la lista de valores, como el total de consultas, el total de documentos únicos o la distribución de calificaciones. Esto es puramente informativo y no cambia la lista de sentencias resultante.
Resultados e impacto
Si sigues las instrucciones de la sección de Inicio rápido, deberías ver un archivo CSV resultante que contiene una lista de juicios con 320 entradas (puedes ver una salida de ejemplo en el repositorio). Con estos campos:
qid: ID único de la consulta
DocID: Identificador único para un documento resultante
Grado: la calificación calculada para el par consulta-documento
consulta: La consulta de usuario
 Veamos los resultados de la consulta "recetas italianas":
            
              
                
                    
                      Qid docid grado Búsqueda
                    
                    
                      Q1-recetas-italianas recipe_pasta_basics 0.0 Recetas italianas
                    
                    
                      Q1-recetas-italianas recipe_pizza_margherita 3.333333 Recetas italianas
                    
                    
                      Q1-recetas-italianas recipe_risotto_guide 10.0 Recetas italianas
                    
                    
                      Q1-recetas-italianas recipe_french_croissant 0.0 Recetas italianas
                    
                    
                      Q1-recetas-italianas recipe_spanish_paella 0.0 Recetas italianas
                    
                    
                      Q1-recetas-italianas recipe_greek_moussaka 1.875 Recetas italianas
                    
              
            
          Podemos ver en los resultados que para la consulta "recetas italianas":
La receta de risotto es sin duda el mejor resultado para la consulta, recibiendo 10 veces más clics de lo esperado
Pizza Margherita también es un gran resultado.
La mousaka griega (sorprendentemente) también es un buen resultado y rinde mejor de lo que su posición en los resultados sugeriría. Esto significa que algunos usuarios que buscaban recetas italianas se interesaron por esta receta. Quizá estos usuarios estén interesados en platos mediterráneos en general. Al final, esto nos dice que podría ser un buen resultado para mostrar bajo los otros dos partidos 'mejores' que mencionamos antes.
Conclusión
Emplear datos de RBU nos permite automatizar el entrenamiento de modelos de LTR, creando listas de juicios de alta calidad de nuestros propios usuarios. Los datos de RBU proporcionan un gran conjunto de datos que refleja cómo se está empleando nuestro sistema de búsqueda. Al emplear el algoritmo de la COEC para generar las calificaciones, tenemos en cuenta el sesgo inherente y, al mismo tiempo, refleja lo que el usuario considera un mejor resultado. El método descrito aquí puede aplicar a casos de uso reales para ofrecer una mejor experiencia de búsqueda que evoluciona con las tendencias reales de uso.


Evaluación de agentes de IA: Cómo Elastic prueba los marcos agentivos
Susan Chang, Abhimanyu Anand — Mon, 13 Oct 2025 00:00:00 GMT
Introducción
En el Elastic Stack hay muchas aplicaciones agenticas impulsadas por LLM, como el próximo Elastic AI Agent en Agent Builder (actualmente en vista previa tecnológica) y Attack Discovery (GA en 8.18 y 9.0+), con más en desarrollo. Durante el desarrollo, e incluso luego del despliegue, es importante responder a estas preguntas:
¿Cómo estimamos la calidad de las respuestas de estas aplicaciones de IA?
Si hacemos un cambio, ¿cómo garantizamos que el cambio sea realmente una mejora y que no cause degradación en la experiencia del usuario?
¿Cómo podemos probar estos resultados de forma fácilmente repetible?
A diferencia de las pruebas tradicionales de software, evaluar aplicaciones de IA generativa implica métodos estadísticos, revisión cualitativa matizada y un profundo entendimiento de los objetivos del usuario.
Este artículo detalla el proceso que emplea el equipo de desarrollo de Elastic para realizar evaluaciones, garantizar la calidad de los cambios antes del despliegue y monitorizar el rendimiento del sistema. Nuestro objetivo es garantizar que cada cambio esté respaldado por evidencias, lo que conduzca a resultados fiables y verificables. Parte de este proceso está integrada directamente en Kibana, reflejando nuestro compromiso con la transparencia como parte de nuestra filosofía de código abierto. Al compartir abiertamente partes de nuestros datos y métricas de evaluación, buscamos fomentar la confianza de la comunidad y proporcionar un marco claro para cualquiera que desarrolle agentes de IA o emplee nuestros productos.
Ejemplos de productos
Los métodos empleados en este documento fueron la base para iterar y mejorar soluciones como Attack Discovery y Elastic AI Agent. Una breve introducción de ambos, respectivamente:
Descubrimiento de ataques de Elastic Security
El Descubrimiento de Ataques emplea LLMs para identificar y resumir secuencias de ataques en Elastic. Dado el sistema de alertas de Elastic Security en un plazo determinado (por defecto 24 horas), el flujo de trabajo agente de Attack Discovery detectará automáticamente si se produjeron ataques, así como información importante como qué host o usuarios fueron comprometidos y qué alertas contribuyeron a la conclusión.
El objetivo es que la solución basada en LLM produzca una salida al menos tan buena como la de un humano.
Agente de IA elástica
Elastic Agent Builder es nuestra nueva plataforma para construir agentes de IA conscientes del contexto que aprovechan todas nuestras capacidades de búsqueda. Incluye el Elastic AI Agent, un agente preconstruido y de propósito general diseñado para ayudar a los usuarios a comprender y obtener respuestas de sus datos mediante la interacción conversacional.
El agente lo logra identificando automáticamente la información relevante dentro de Elasticsearch o bases de conocimiento conectadas y aprovechando un conjunto de herramientas prediseñadas para interactuar con ellas. Esto permite al Agente Elastic AI responder a una amplia variedad de consultas de usuario, desde simples preguntas frecuentes en un solo documento hasta solicitudes complejas que requieren agregación y búsquedas de un o varios pasos en múltiples índices.
Medición de mejoras mediante experimentos
En el contexto de los agentes de IA, un experimento es un cambio estructurado y comprobable en el sistema diseñado para mejorar el rendimiento en dimensiones bien definidas (por ejemplo, utilidad, corrección, latencia). El objetivo es responder de forma definitiva: "Si fusionamos este cambio, ¿podemos garantizar que es una verdadera mejora y que no degradará la experiencia del usuario?"
La mayoría de los experimentos que realizamos suelen incluir:
Una hipótesis: Una afirmación específica y falsable. Ejemplo: "Agregar acceso a una herramienta de detección de ataques mejora la corrección en consultas relacionadas con la seguridad."
Criterios de éxito: Umbrales claros que definan qué significa "éxito". Ejemplo: "+5% de mejora en el puntaje de corrección en el conjunto de datos de seguridad, sin degradación en otros lugares."
Plan de evaluación: Cómo medimos el éxito (métricas, conjuntos de datos, método de comparación)
Un experimento exitoso es un proceso sistemático de investigación. Cada cambio, desde un pequeño ajuste de prompt hasta un cambio arquitectónico importante, sigue estos siete pasos para cerciorar que los resultados sean significativos y accionables:
Paso 1: Identificar el problema
Paso 2: Definir métricas
Paso 3: Formular una hipótesis clara
Paso 4: Preparar el conjunto de datos de evaluación
Paso 5: Ejecutar el experimento
Paso 6: Analizar resultados + iterar
Paso 7: Toma una decisión y documenta
Un ejemplo de estos pasos se ilustra en la Figura 1. Las siguientes subsecciones explicarán cada paso y ampliaremos los detalles técnicos de cada paso en los próximos documentos.
Paso a paso con ejemplos reales de Elastic
Paso 1: Identificar el problema
¿Cuál es exactamente el problema que pretende resolver este cambio?
Ejemplo de descubrimiento de ataque: Los resúmenes a veces son incompletos, o una actividad benigna se marca erróneamente como ataque (falsos positivos).
Ejemplo de Elastic AI Agent: La selección de herramientas del agente, especialmente para consultas analíticas, es subóptima e inconsistente, lo que a menudo lleva a que se elija la herramienta equivocada. Esto, a su vez, incrementa los costos y la latencia de los tokens.
Paso 2: Definir métricas
Haz que el problema sea medible, para que podamos comparar un cambio con el estado actual.
Las métricas comunes incluyen precisión y recordación, similitud semántica, factualidad, etc. Dependiendo del caso de uso, usamos comprobaciones de código para calcular las métricas, como coincidir IDs de alerta o URLs correctamente recuperadas, o usar técnicas como LLM-as-judge para respuestas más libres.
A continuación, algunos ejemplos de métricas (no exhaustivas) empleadas en los experimentos:
Detección de ataques
            
              
                
                    
                      Métrico Descripción
                    
                    
                      Precisión y recordación Compara los IDs de alerta entre las salidas reales y esperadas para medir la precisión de la detección.
                    
                    
                      Similitud Usa BERTScore para comparar la similitud semántica del texto de respuesta.
                    
                    
                      Hechos ¿Existen indicadores clave de compromiso (IOC)? ¿Se reflejan correctamente las tácticas MITRE (taxonomía industrial de los ataques)?
                    
                    
                      Consistencia de la cadena de ataque Compara el número de descubrimientos para comprobar si hay sobrenotificación o infranotificación del ataque.
                    
              
            
          Agente de IA elástica
            
              
                
                    
                      Métrico Descripción
                    
                    
                      Precisión y recordación Compara documentos/información recuperada por el agente para responder a una consulta del usuario con la información o documentos reales necesarios para responder a la consulta y así medir la precisión de la recuperación.
                    
                    
                      Hechos ¿Están presentes los datos clave necesarios para responder a la consulta del usuario? ¿Están los hechos en el orden correcto para las consultas procesales?
                    
                    
                      Relevancia de la respuesta ¿La respuesta contiene información que es periférica o no relacionada con la consulta del usuario?
                    
                    
                      Completitud de respuesta ¿La respuesta responde a todas las partes de la consulta del usuario? ¿Contiene la respuesta toda la información presente en la verdad sobre el terreno?
                    
                    
                      ES|Validación QL ¿Es el ES| generado?¿QL sintácticamente correcto? ¿Es funcionalmente idéntico a la verdad básica ES|¿QL?
                    
              
            
          Paso 3: Formular una hipótesis clara
Establece un criterio claro de éxito empleando el problema y las métricas definidas anteriormente.
Ejemplo de Elastic AI Agent:
Implementa cambios en las descripciones de las herramientas de relevance_search y nl_search para definir claramente sus funciones y casos de uso específicos.
Predecimos que mejoraremos la precisión de invocación de nuestra herramienta en un 25%.
Verificaremos que esto sea un beneficio neto cerciorándonos de que no haya impacto negativo en otras métricas, por ejemplo, la certeza y la completitud.
Creemos que esto funcionará porque descripciones precisas de las herramientas ayudarán al agente a seleccionar y aplicar con mayor precisión la herramienta de búsqueda más adecuada para diferentes tipos de consulta, reduciendo la mala aplicación y mejorando la efectividad general de la búsqueda.
Paso 4: Preparar el conjunto de datos de evaluación
Para medir el rendimiento del sistema, empleamos conjuntos de datos que capturan escenarios del mundo real.
Dependiendo del tipo de evaluación que estemos realizando, puede que necesitemos diferentes tipos de formatos de datos, como datos en bruto que se alimentan a un LLM (por ejemplo, escenarios de ataque para Descubrimiento de Ataques) y resultados esperados. Si la aplicación es un chatbot, entonces las entradas pueden ser consultas del usuario, y las salidas pueden ser respuestas correctas del chatbot, enlaces correctos que debería recuperar, y así sucesivamente.
Ejemplo de Descubrimiento de Ataque:
            
              
                
                    
                      10 escenarios de ataque novedosos
                    
                    
                      8 episodios de Oh My Malware (ohmymalware.com)
                    
                    
                      4 escenarios de múltiples ataques (creados combinando ataques en las dos primeras categorías)
                    
                    
                      3 escenarios benignos
                    
              
            
          Ejemplo de conjunto de datos de evaluación de agentes de Elastic AI (Enlace al conjunto de datos Kibana):
            
              
                
                    
                      14 índices usando conjuntos de datos de código abierto para simular múltiples fuentes en la base de datos.
                    
                    
                      5 tipos de consulta (analítica, recuperación de texto, híbrida...)
                    
                    
                      7 Tipos de intención de consulta (procedimental, fáctica - clasificación, investigativa; ...)
                    
              
            
          Paso 5: Ejecutar el experimento
Ejecuta el experimento generando respuestas tanto del agente existente como de la versión modificada contra el conjunto de datos de evaluación. Calcula métricas como la factualidad (ver el paso 2).
Combinamos diversas evaluaciones basadas en las métricas requeridas en el Paso 2:
Evaluación basada en reglas (por ejemplo, usar Python/TypeScript para comprobar si .json es válido)
LLM-as-judge (preguntar a un LLM separado si una respuesta es factualmente coherente con un documento fuente)
Revisión de Human in the Loop para controles de calidad de matices
Paso 6: Analizar resultados + iterar
Ahora que tenemos las métricas, analizamos los resultados. Incluso si los resultados cumplen los criterios de éxito definidos en el paso 3, seguiremos teniendo una revisión humana antes de fusionar el cambio con la producción; Si los resultados no cumplen los criterios, iterar y corregir los problemas, y luego ejecutar las evaluaciones sobre el nuevo cambio.
Esperamos que haga falta varias iteraciones para encontrar el mejor cambio antes de fusionar. De forma similar a ejecutar pruebas locales de software antes de enviar un commit, las evaluaciones offline pueden ejecutar con cambios locales o múltiples propuestas de cambios. Es útil automatizar el almacenado de resultados de experimentos, puntajes compuestos y visualizaciones para agilizar el análisis.
Paso 7: Toma una decisión y documenta
Basar en un marco de decisión y criterios de aceptación, decide fusionar el cambio y documenta el experimento. La toma de decisiones es multifacética y puede considerar factores más allá del conjunto de datos de evaluación, como comprobar escenarios de regresión en otros conjuntos de datos o valorar el costo-beneficio de un cambio propuesto.
Ejemplo: Tras probar y comparar varias iteraciones, elige el cambio con mejor puntaje para enviar a los responsables de producto y otros interesados relevantes para su aprobación. Anexa los resultados de los pasos anteriores para ayudar a guiar la decisión. Para más ejemplos en el área de Descubrimiento de Ataques, ver Detrás de las cámaras de las funciones de IA generativa de Elastic Security.
Conclusión
En este blog, repasamos el proceso integral de un flujo de trabajo experimental, ilustrando cómo evaluamos y probamos los cambios en un sistema agente antes de lanzarlos a los usuarios de Elastic. También proporcionamos algunos ejemplos de cómo mejorar los flujos de trabajo basados en agentes en Elastic. En próximas entradas del blog, ampliaremos los detalles de diferentes pasos, como cómo crear un buen conjunto de datos, cómo diseñar métricas fiables y cómo tomar decisiones cuando hay múltiples métricas de por medio.


Conectando agentes Elastic a Gemini Enterprise mediante protocolo A2A
Jedr Blaszyk, Valerio Arvizzigno, Joe McElroy — Thu, 09 Oct 2025 00:00:00 GMT
Elastic Agent Builder es un conjunto de capacidades para crear agentes de IA basados en datos directamente en Elasticsearch. En publicaciones anteriores de la serial, demostramos cómo equipar a los agentes personalizados con herramientas para realizar tareas complejas y proporcionarles un conjunto de instrucciones personalizadas para guiar su comportamiento.
Pero, ¿y si quieres usar tus agentes personalizados con las aplicaciones y herramientas de productividad de las que ya dependes?
Ahí es donde entra el protocolo Agent-a-Agente (A2A ). A2A es un estándar abierto de interoperabilidad, que permite a agentes de diferentes plataformas comunicar y colaborar. Y lo integramos directamente en el Elastic Agent Builder.
Hoy vamos a mostrarte cómo tomar un agente personalizado que creaste y exponerlo a otros servicios, concretamente Gemini Enterprise (antes Agentspace).
El poder de los estándares abiertos: por qué importa A2A
En la entrada del blog Tu primer agente Elastic, mostramos cómo crear agentes personalizados, como un agente de Asistente Financiero con acceso seguro a tus datos de mercado. Pero su valor es limitado si no puedes poner sus conocimientos a disposición en otros entornos, como Gemini Enterprise, sin reconstruir tu trabajo.
Este desafío de interoperabilidad es lo que frena la IA agente. Los agentes necesitan un lenguaje común para comunicar entre plataformas, que es precisamente el papel del protocolo A2A. Proporciona una capa estándar de comunicación que no solo te permite interactuar directamente con tu agente, sino que también abre un futuro donde agentes especializados de toda tu organización pueden colaborar y compartir conocimientos.
Para hacerlo posible, Elastic Agent Builder soporta nativamente el protocolo A2A a través de dos endpoints estándar para todos tus agentes:
El punto final de la Tarjeta Agente (GET {your-kibana-url}/api/agent_builder/a2a/{agentId}.json) - Esto actúa como la tarjeta de visita de tu agente personalizado. Proporciona metadatos sobre tu agente (nombre, descripción, capacidades, etc.) a cualquier servicio compatible con A2A.
El punto final del Protocolo A2A (POST {your-kibana-url}/api/agent_builder/a2a/{agentId}) - Este es el canal de comunicación. Otros agentes envían sus solicitudes aquí, y tu agente las procesa y responde, todo siguiendo la especificación del protocolo A2A.
Prueba a tu agente con el inspector A2A
Antes de conectar a nuestro agente a un sistema de producción, es bueno comprobar que se comunica correctamente. La forma más sencilla de hacerlo es con el Inspector A2A, una herramienta diseñada específicamente para probar y depurar integraciones A2A.
Poner en marcha al inspector es sencillo. Puedes clonar el repositorio a2a-inspector y seguir las instrucciones README para ejecutar la aplicación. Una vez iniciada, la interfaz está disponible por defecto en http://localhost:5001/.
Para conectar al Inspector A2A con tu agente, tendrás que proporcionar dos datos clave:
URL de la tarjeta del agente: Este es el punto final que describe a tu agente. Para el agente de Asistente Financiero de nuestra publicación anterior, esta URL sería {your-kibana-url}/api/agent_builder/a2a/financial_assistant.json.
Cabecera de autenticación: Emplearemos una clave API estándar para la autenticación.
Una vez introduzcas estos datos en la interfaz del inspector, puedes conectarte y empezar a hablar con tu agente inmediatamente.
Esta simple validación nos da la confianza de que nuestro agente está configurado correctamente y listo para el siguiente paso.
¡En directo! Tu agente personalizado en Gemini Enterprise
Ahora, la parte emocionante: dar vida a nuestro agente asesor financiero personalizado dentro de Gemini Enterprise (anteriormente Agentspace). Esta integración está impulsada por el Elastic AI Agent, que está disponible en Google Cloud Marketplace.
Una vez conectado, Gemini Enterprise emplea el protocolo A2A para comunicar directamente con tu agente. Aquí es donde brilla el verdadero poder de la interoperabilidad: los usuarios pueden acceder ahora a los insights profundos y basados en datos de tu agente personalizado de Elasticsearch sin salir nunca de su entorno habitual. Puedes ver tu Agente Elástico personalizado en la lista de agentes:
Imagina a un usuario en Gemini Enterprise preguntar:
"Me preocupa el sentimiento del mercado. ¿Puede mostrarme cuáles de nuestros clientes están más en riesgo por malas noticias?"
Entre bastidores, Gemini Enterprise enruta esta consulta a través del protocolo A2A a tu Agente Elastic personalizado. Tu agente emplea entonces sus herramientas especializadas para consultar tus datos, formular una respuesta y devolverla. Para el usuario final, la experiencia es fluida.
¡Y no se acaba aquí! La respuesta obtenida con el agente elástico ahora puede usar como contexto para tus próximas preguntas que pueden estar activando a otro agente especializado (por ejemplo, tu agente de la plataforma de inversiones para ajustar la exposición a compañías cotizadas). Todo sin salir de tu barra de búsqueda.
Con tus agentes Elastic desplegados en Gemini Enterprise con A2A, puedes unificar acceso, orquestación y flujos de trabajo eliminando fricciones entre IA, búsqueda y sistemas empresariales al ofrecer una única interfaz donde los usuarios se comunican con sus datos y herramientas, todo en contexto. Para los usuarios, eso significa menos cambios de herramienta y asistentes de IA más intuitivos y capaces. Para las organizaciones, significa una gobernanza coherente, escalabilidad e interoperabilidad integradas.
Te toca construir
Ahora tienes las herramientas para poner tus Agentes Elásticos disponibles en cualquier lugar. Aprovechando el protocolo abierto A2A, puedes ampliar el alcance de tus agentes personalizados y conscientes de los datos.
En esta publicación, te guiamos por los pasos clave:
Exponer a tu agente a través de los endpoints de la tarjeta de agente A2A y el protocolo.
Probando la conexión con el inspector A2A.
Integrar a tu agente en directo en un servicio externo como Gemini Enterprise de Google.
Tus agentes ya no necesitan estar aislados. Estamos deseando ver los sistemas poderosos e interconectados que creáis. ¡Feliz construcción!
La forma más sencilla de empezar es con tu prueba gratis de Elastic Cloud en Google Cloud Marketplace


Experimentos para mejorar las herramientas de IA Agentic para Elasticsearch
Sean Story — Mon, 06 Oct 2025 00:00:00 GMT
Como todos hoy en día, aquí en Elastic apostamos por completo a Chat, Agents y RAG. En el departamento de búsqueda, estuvimos trabajando recientemente en un Constructor de Agentes y un Registro de Herramientas, todo con la intención de hacer que sea trivial "chatear" con tus datos en Elasticsearch.
Lee el blog Construiendo flujos de trabajo agentes con IA con Elasticsearch para más información sobre la "visión global" de ese esfuerzo, o Tu primer agente elástico: de una sola consulta a un chat impulsado por IA para una introducción más práctica.
Sin embargo, en este blog vamos a hacer un poco de zoom para ver una de las primeras cosas que ocurren cuando empiezas a charlar y para guiarte por algunas de las mejoras recientes que hicimos.
¿Qué está pasando aquí?
Cuando chateas con tus datos de Elasticsearch, nuestro agente de IA predeterminado te guía a través de este flujo estándar:
Revisa el enunciado.
Identifica qué índice es probable que contenga las respuestas a esa pregunta.
Genera una consulta para ese índice, basada en el prompt.
Busca en ese índice con esa consulta.
Sintetiza los resultados.
¿Pueden los resultados responder al prompt? Si es así, responde. Si no, repite, pero prueba algo diferente.
Esto no debería parecer demasiado novedoso: es simplemente Generación Aumentada por Recuperación (RAG). Y como era de esperar, la calidad de tus respuestas depende mucho de la relevancia de tus resultados iniciales. Así que, mientras trabajamos en mejorar la calidad de nuestra respuesta, estuvimos prestando mucha atención a las consultas que generábamos en el paso 3 y ejecutábamos en el paso 4. Y notamos un patrón interesante.
A menudo, cuando nuestras primeras respuestas eran "malas", no era porque hicimos una consulta mala. Fue porque elegimos el índice equivocado para hacer la consulta. Los pasos 3 y 4 normalmente no eran nuestro problema, sino el paso 2.
¿Qué estábamos haciendo?
Nuestra implementación inicial fue sencilla. Creamos una herramienta (llamada index_explorer) que efectivamente hacía un _cat/indices para listar todos los índices disponibles y luego pedir al LLM que identificara cuál de estos índices era el mejor para el mensaje/pregunta/prompt del usuario. Puedes ver esta implementación original aquí.
You are an AI assistant for the Elasticsearch company.
based on a natural language query from the user, your task is to select up to ${limit} most relevant indices from a list of indices.

*The natural language query is:* ${nlQuery}

*List of indices:*
${indices.map((index) => `- ${index.index}`).join('\n')}

Based on those information, please return most relevant indices with your reasoning.
Remember, you should select at maximum ${limit} indices.
¿Qué tal funcionaba? ¡No estábamos seguros! Teníamos ejemplos claros de que no funcionaba bien, pero nuestro verdadero primer reto fue cuantificar nuestro estado actual.
Establecimiento de una línea base
Todo empieza con los datos
Lo que necesitábamos era un conjunto de datos dorado para medir la eficacia de una herramienta a la hora de seleccionar el índice adecuado dado un prompt del usuario y un conjunto preexistente de índices. Y no disponíamos de un conjunto de datos así. Así que generamos uno.
Agradecimiento: Esto no es "buena práctica", lo sabemos. Pero a veces, es mejor seguir adelante que abandonar la bicicleta. Progreso, perfección SIMPLE.
Generamos índices semilla para varios dominios diferentes usando este prompt. Luego, para cada dominio generado, generamos algunos índices más usando este prompt (el objetivo aquí es sembrar confusión para el LLM con negativos duros y ejemplos difíciles de clasificar). Después, editamos manualmente cada índice generado y sus descripciones. Finalmente, generamos consultas de prueba usando este prompt. Esto nos dejó con datos de muestra como:
y casos de prueba como:
Elaboración de un arnés de prueba
El proceso a partir de aquí fue muy sencillo. Crea un script para una herramienta que pueda:
Establece una hoja limpia con un clúster objetivo de Elasticsearch.
Crea todos los índices definidos en el conjunto de datos objetivo.
Para cada escenario de prueba, ejecuta la herramienta index_explorer (prácticamente tenemos una API de Herramienta de Ejecución).
Comparar el índice de resultados con el índice esperado y capturar el resultado.
Luego de terminar todos los escenarios de prueba, tabula los resultados.
La encuesta dice...
Los resultados iniciales fueron, como era de esperar, mediocres.
En general, un 77,14% de precisión para identificar el índice adecuado. Y esto fue en un escenario "mejor escenario", donde todos los índices tienen buenos nombres semánticamente significativos. Cualquiera que hizo alguna vez un 'PUT test2/_doc/foo {...}' sabe que tus índices no siempre tienen nombres significativos.
Así que tenemos una línea de base, y muestra mucho margen de mejora. ¡Ahora era hora de hacer algo de ciencia! 🧪
Experimentación
Hipótesis 1: Los mapeos ayudarán
El objetivo aquí es identificar un índice que contenga datos relevantes para la consigna original. Y la parte de un índice que mejor describe los datos que contiene son los mapeos del índice. Incluso sin obtener muestras del contenido del índice, saber que el índice tiene un campo de precios de tipo doble implica que los datos representan algo que se puede vender. Un campo autor de texto tipográfico implica algunos datos de lenguaje no estructurados. Ambos juntos podrían implicar que los datos son libros/relatos/poemas. Hay muchas pistas semánticas que podemos derivar simplemente conociendo las propiedades de un índice. Así que en una sucursal local, ajusté nuestro '.index_explorer' herramienta para enviar los mapeos completos de un índice (junto con su nombre) al LLM para tomar su decisión. 
El resultado (de los registros de Kibana):
[2025-09-05T11:01:21.552-05:00][ERROR][plugins.onechat] Error: Error calling connector: event: error
data: {"error":{"code":"request_entity_too_large","message":"Received a content too large status code for request from inference entity id [.rainbow-sprinkles-elastic] status [413]","type":"error"}}


    at createInferenceProviderError (errors.ts:90:10)
    at convertUpstreamError (convert_upstream_error.ts:39:38)
    at handle_connector_response.ts:26:33
    at Observable.init [as _subscribe] (/Users/seanstory/Desktop/Dev/kibana/node_modules/rxjs/src/internal/observable/throwError.ts:123:68)...
Los autores iniciales de la herramienta ya lo habían anticipado. Aunque el mapeo de un índice es una mina de oro de información, también es un bloque bastante extenso de JSON. Y en un escenario realista donde comparas numerosos índices (nuestro conjunto de datos de evaluación define 20), estos blobs JSON suman. Así que queremos dar al LLM más contexto para su decisión que solo los nombres de índices de todas las opciones, pero no tanto como los mapeos completos de cada una.
Hipótesis 2: Mapeos "aplanados" (listas de campos) como compromiso
Partimos de la suposición de que los creadores de índices usarán nombres de índices semánticamente significativos. ¿Y si extendemos esa suposición también a los nombres de campos? Nuestro experimento anterior falló porque el mapeo JSON incluye MUCHOS metadatos y datos basurales y un estándar estándar.
     "description_text": {
          "type": "text",
          "fields": {
            "keyword": {
              "type": "keyword"
            }
          },
          "copy_to": [
            "description_semantic"
          ]
        },
El bloque anterior, por ejemplo, tiene 236 caracteres y define solo un campo en un mapeo de Elasticsearch. Mientras que la cadena "description_text" tiene solo 16 caracteres. Eso supone casi un aumento de 15 veces en el recuento de caracteres, sin una mejora semántica significativa en la descripción de lo que ese campo implica sobre los datos disponibles. ¿Y si recogiéramos los mapeos de todos los índices, pero antes de enviarlos al LLM, los "aplanáramos" solo en una lista con sus nombres de campo?
Lo probamos.
¡Esto es genial! Mejoras en todos los ámbitos. ¿Pero podríamos hacerlo mejor?
Hipótesis 3: Descripciones en el _meta de cartografía
Si solo los nombres de campos sin contexto adicional causaran un salto tan grande, ¡supongo que agregar un contexto sustancial sería aún mejor! No es necesariamente convencional que cada índice tenga una descripción adjunta, pero sí es posible agregar metadatos a nivel de índice de cualquier tipo al objeto _meta del mapeo. Volvimos a nuestros índices generados y agregamos descripciones para cada índice de nuestro conjunto de datos. Mientras las descripciones no sean demasiado largas, deberían usar menos tokens que el mapeo completo y proporcionar una visión significativamente mejor sobre qué datos se incluyen en el índice. Nuestro experimento validó esta hipótesis.
Una mejora modesta, y ahora somos >90% precisos en todos los aspectos.
Hipótesis 4: La suma es mayor que sus partes
Los nombres de campos aumentaron nuestros resultados. Las descripciones aumentaron nuestros resultados. Así que, empleando tanto descripciones COMO nombres de campos debería dar resultados aún mejores, ¿no?
Los datos decían "no" (sin cambios respecto al experimento anterior). La teoría principal aquí era que, dado que las descripciones se generaron a partir de los campos índice/mapeos desde el principio, no hay suficiente información diferente entre estos dos contextos para ayudar a agregar algo "nuevo" al combinarlos. Además, la carga útil que enviamos para nuestros 20 índices de prueba está creciendo bastante. El hilo de pensamiento que seguimos hasta ahora no es escalable. De hecho, hay buenas razones para creer que ninguno de nuestros experimentos hasta ahora funcionaría en clústeres de Elasticsearch donde hay cientos o miles de índices para elegir. Cualquier enfoque que aumente linealmente el tamaño del mensaje enviado al LLM a medida que aumenta el número total de índices probablemente no será una estrategia generalizable.
Lo que realmente necesitamos es un enfoque que nos ayude a reducir un gran número de candidatos a las opciones más relevantes...
Lo que tenemos aquí es un problema de búsqueda.
Hipótesis 5: Selección mediante búsqueda semántica
Si el nombre de un índice tiene significado semántico, entonces puede almacenar como un vector y buscar semánticamente.
Si los nombres de campos de un índice tienen significado semántico, entonces pueden almacenar como vectores y buscar semánticamente.
Si un índice tiene una descripción con significado semántico, también puede almacenar como vector y buscar semánticamente.
Hoy en día, los índices de Elasticsearch no hacen que ninguna de esta información sea buscable (¡quizá deberíamos!), pero fue bastante trivial improvisar algo que pudiera superar esa brecha. Usando el framework de conectores de Elastic, construí un conector que generaba un documento para cada índice de un clúster. Los documentos de salida serían algo así:
 doc = {
                "_id": index_name,
                "index_name": index_name,
			"meta_description”: description,
"field_descriptions" = field_descriptions,
                "mapping": json.dumps(mapping),  
                "source_cluster": self.es_client.configured_host,
            }
Envié estos documentos a un nuevo índice donde definí manualmente el mapeo como:
{
   "mappings": {
       "properties": {
           "semantic_content": {
               "type": "semantic_text"
           },
           "index_name": {
               "type": "text",
               "copy_to": "semantic_content"
           },
           "mapping": {
               "type": "keyword",
               "copy_to": "semantic_content"
           },
           "source_cluster": {
               "type": "keyword"
           },
           "meta_description": {
               "type": "text",
               "copy_to": "semantic_content"
           },
           "field_descriptions": {
               "type": "text",
               "copy_to": "semantic_content"
           }
       }
   }
}
Esto crea un solo campo semantic_content, donde todos los demás campos con significado semántico se fragmentan e indexan. Buscar en este índice se vuelve trivial, simplemente:
GET indexed-indices/_search
{
 "query": {
   "semantic": {
     "field": "semantic_content",
     "query": "$query"
   }
 }
}
La herramienta de index_explorer modificada es ahora mucho más rápida, ya que no necesita hacer una solicitud a un LLM, sino que puede aplicar una única incrustación para la consulta dada y realizar una operación eficiente de búsqueda vectorial. Tomando el resultado más alto como índice seleccionado, obtuvimos resultados de:
Este enfoque es escalable. Este enfoque es eficiente. Pero este enfoque es apenas mejor que nuestra línea base. Sin embargo, esto no es sorprendente; El enfoque de búsqueda aquí es increíblemente ingenuo. No hay matices. No hay reconocimiento de que el nombre y la descripción de un índice deban tener más peso que un nombre arbitrario de campo que contiene el índice. No hay posibilidad de ponderar coincidencias léxicas exactas sobre coincidencias sinónimas. Sin embargo, construir una consulta muy matizada requeriría asumir MUCHO sobre los datos disponibles. Hasta ahora, ya hicimos algunas grandes suposiciones sobre que los nombres de índices y campos tienen significado semántico, pero tendríamos que ir un paso más allá y empezar a suponer cuánto significado tienen y cómo se relacionan entre sí. Sin hacerlo, probablemente no podamos identificar de forma fiable la mejor coincidencia como nuestro resultado principal, pero es más probable que digamos que la mejor coincidencia está en algún lugar de los primeros N resultados. Necesitamos algo que pueda consumir información semántica en el contexto en el que existe, comparando con otra entidad que pueda representar a sí misma de manera semánticamente distinta, y juzgar entre ellas. Como un LLM.
Hipótesis 6: Reducción de conjuntos candidatos
Hubo bastantes experimentos más que voy a pasar por alto, pero el avance clave fue dejar de lado el deseo de elegir la mejor coincidencia únicamente a partir de una búsqueda semántica, y en su lugar emplear la búsqueda semántica como filtro para eliminar índices irrelevantes de la consideración del LLM. Combinamos Retrievers Lineales, Búsqueda Híbrida con RRF y semantic_text para nuestra búsqueda, limitando los resultados a los 5 principales índices de coincidencia.
Luego, para cada coincidencia, agregamos el nombre, la descripción y los nombres de campos del índice a un mensaje para el LLM. Los resultados fueron fantásticos:
¡La mayor precisión de cualquier experimento hasta ahora! Y como este enfoque no aumenta el tamaño del mensaje proporcional al número total de índices, es mucho más escalable.
Resultados
El primer resultado claro fue que nuestra línea base puede mejorar. Esto parece obvio en retrospectiva, pero antes de que comenzara la experimentación, hubo un debate serio sobre si deberíamos abandonar por completo nuestra herramienta de index_explorer y confiar en la configuración explícita del usuario para limitar el espacio de búsqueda. Aunque sigue siendo una opción viable y válida, esta investigación muestra que existen caminos prometedores para automatizar la selección de índices cuando dichas entradas de usuario no están disponibles.
El siguiente resultado claro fue que simplemente agregar más personajes descriptivos al problema tiene rendimientos decrecientes. Antes de esta investigación, debatimos si deberíamos invertir en ampliar la capacidad de Elasticsearch para almacenar metadatos a nivel de campo. Hoy en día, estos valores de meta están limitados a 50 caracteres, y se asumía que tendríamos que aumentar este valor para poder obtener una comprensión semántica de nuestros campos. Claramente no es así, y el LLM parece funcionar bastante bien solo con los nombres de campos. Puede que investiguemos esto más adelante, pero ya no nos parece urgente.
Por el contrario, esto dio evidencia clara de la importancia de tener metadatos de índice "buscables". Para estos experimentos, hackeamos un índice de índices. Pero esto es algo que podríamos explorar integrando directamente en Elasticsearch, creando APIs para gestionar, o al menos estableciendo una convención en torno a ella. Estaremos valorando nuestras opciones y hablando internamente, así que estad atentos.
Por último, este esfuerzo confirmó el valor de que nos tomemos nuestro tiempo para experimentar y tomar decisiones basadas en datos. De hecho, nos ayudó a reafirmar que nuestro producto Agent Builder va a necesitar capacidades robustas de evaluación dentro del producto. Si necesitamos construir un arnés de pruebas completo solo para una herramienta que selecciona índices, nuestros clientes necesitarán absolutamente formas de evaluar cualitativamente sus herramientas personalizadas mientras hacen ajustes iterativos.
Estoy deseando ver qué construiremos, ¡y espero que tú también!


Cómo desplegar Elasticsearch en AWS Marketplace
Eduard Martin — Fri, 03 Oct 2025 00:00:00 GMT
En este artículo, vamos a aprender cómo desplegar Elasticsearch en AWS usando las ofertas del Marketplace.
Vamos a usar Elastic Cloud Service en AWS, que es el servicio oficial gestionado de Elasticsearch que simplifica el despliegue y la orquestación de todos los componentes de Elastic Stack a través de la infraestructura nativa de AWS.
Si quieres aprender a instalar y configurar Elasticsearch en AWS EC2, echa un vistazo a este blog.
¿Qué es AWS Marketplace?
Elastic en AWS Marketplace ofrece una experiencia de búsqueda y análisis totalmente gestionada, en la que AWS se encarga de la provisión de infraestructura, seguridad y el escalado, mientras los desarrolladores se centran en crear aplicaciones de búsqueda. Esto permite a los equipos desplegar clústeres de Elasticsearch de nivel empresarial en cuestión de minutos con integraciones de AWS integradas.
¿Cuándo usar Elastic en AWS Marketplace?
Elastic en AWS Marketplace es más adecuado para organizaciones con una infraestructura AWS existente que buscan desplegar Elasticsearch con servicios gestionados, seguridad integrada e integraciones fluidas de AWS sin sobrecarga operativa.
Cómo configurar Elastic Cloud en AWS Marketplace
Paso 1: Accede a AWS Marketplace
1. Inicia sesión en AWS
En la barra de búsqueda, busca AWS Marketplace
2. En el panel de navegación izquierdo, haz clic en Descubrir productos, luego haz una búsqueda de Elasticsearch.
3. Haz clic en Elastic Cloud (Elasticsearch Service).
Paso 2: Suscríbete al servicio
1. Selecciona opciones de compra o haz clic en Pruébalo gratis
2. Revisa Detalles de precios, Términos y condiciones y Detalles de compra
3. Haz clic en el botón Suscribirse
4. Ahora hay que configurar la cuenta de Elastic. Sigue los pasos de AWS
a. Haz clic en el botón Habilitar integración.
b. Haz clic en el botón Iniciar sesión o crear una cuenta de proveedor
c. Haz clic en el botón Lanzar plantilla
d. Haz clic en el botón Iniciar software
Paso 3. Configura tu cuenta nueva en Elastic
1. Crea tu cuenta de Elastic
2. Valida tu dirección de correo electrónico
3. Introduce tu nombre e información de la empresa
4. Completa una rápida encuesta de Elastic
5. Selecciona la región en la que quieres hospedar Elastic Cloud. De forma predeterminada, se seleccionará tu región real de AWS
6. Espera a que Elastic se despliegue
7. Tu despliegue está conectado a tu suscripción de AWS Marketplace
Cancelar tu suscripción
Para cancelar tu suscripción
1. Ve a la consola de AWS
Haz una búsqueda de AWS Marketplace en la barra de búsqueda. Haz clic en AWS Marketplace
2. Haz clic en suscripción a Elastic Cloud
3. Haz clic en el botón Actions, luego haz clic en Cancelar suscripción
4. Confirma la cancelación, luego haz clic en Sí y en el botón Cancelar suscripción.
5. Aparecerá un mensaje de confirmación en la parte superior de la página
Pasos siguientes
Comienza tu experiencia con Elastic Cloud con una prueba gratuita de 7 días que incluye un único despliegue y tres proyectos Elastic Cloud (Elasticsearch Service). Simplemente inicia sesión en tu cuenta de AWS y haz clic en "Ver opciones de compra" para empezar a usar la Plataforma de búsqueda de IA de Elastic inmediatamente en Elastic Cloud (Elasticsearch Service). La prueba proporciona acceso completo a soluciones de búsqueda, seguridad y observabilidad sin ninguna carga de gestión de infraestructura.


AutoOps: Un viaje para simplificar la gestión autogestionada de Elasticsearch
Ori Shafir — Wed, 01 Oct 2025 00:00:00 GMT
Presentamos AutoOps para Elasticsearch autogestionado (entornos locales u hospedados de forma privada), lo que hace que Elasticsearch sea más fácil de administrar. En lugar de un recorrido técnico de característica tradicional, este blog muestra su valor, cómo configurarlo y el tipo de información que proporciona, desde la perspectiva de un ingeniero de DevOps, porque el valor real de AutoOps se ve mejor en el trabajo diario de gestionar Elasticsearch a escala.
Capítulo 1: antecedentes - La complejidad detrás de la autogestión a gran escala
Operar cualquier plataforma de datos autogestionada a gran escala puede ser complejo.
Un momento, las consultas son rapidísimas. Al siguiente, los retrasos en la ingestión y los costos de almacenamiento se disparan. Es básicamente como llevar un zoológico, salvo que los animales pueden avisarte a las 3 de la madrugada.
Mi entorno no es diferente: múltiples clústeres, búsqueda cruzada (CCS) intensa y cientos de usuarios entre departamentos.
Empleamos Stack Monitoring para las operaciones diarias. Proporciona gráficos y métricas, pero aún así requiere mucha experiencia y tiempo para conectar los puntos. Diagnosticar cuellos de botella o saber cuándo ajustar las estrategias de fragmentos sigue siendo un proceso manual y propenso a errores. En muchos casos, los problemas pasan desapercibidos hasta que provocan una interrupción, una caída de rendimiento o un pico inesperado de almacenamiento.
Capítulo 2: descubriendo AutoOps
Luego llegó el anuncio: AutoOps ya está disponible para clústeres autogestionados, ya sea en entornos locales o alojados de forma privada.
. AutoOps ayudó durante mucho tiempo a los usuarios de Elastic Cloud a gestionar los despliegues de forma más eficiente. Ahora, esos mismos beneficios están disponibles para los clústeres autogestionados (ECK, ECE o independientes) que funcionan en entornos locales o en la nube privada, sin costo alguno, independientemente de tu nivel de licencia.
La propuesta de AutoOps es tentadora:
Detección de problemas en tiempo real para cuellos de botella en la ingestión, fragmentos desbalanceados, consultas lentas y más
Recomendaciones prácticas adaptadas a la configuración de tu clúster
Perspectivas sobre la optimización de recursos para mejorar la eficiencia y reducir el gasto desperdiciado
Configuración sencilla con la instalación de un agente ligero, sin necesidad de infraestructura adicional
Sinceramente, cualquier cosa que prometiera "sin infraestructura extra" captó toda mi atención.
Capítulo 3: montaje en 5 minutos (sí, de verdad)
Bloqueé mi tarde, me abastecí de café y me preparé para un montaje largo. Para mi sorpresa, solo tardó cinco minutos:
Inicié sesión en mi cuenta de Elastic Cloud
Decide cómo ejecutar los agentes: Elastic Cloud Kubernetes (ECK), Kubernetes, Docker o Linux.
Introducido la URL del clúster
Recibí un solo comando para ejecutar, que instaló un agente Metricbeat ligero
Eso es todo. Mi cluster estaba conectado.
No hay clústeres de monitorización dedicados que proveer. Y, lo más importante, AutoOps solo envía métricas, lo que significa que los datos de mi compañía se mantienen en mi entorno autogestionado.
Paso 1: Regístrate en Elastic Cloud
Paso 2: Elige dónde ejecutar el Agente
Paso 3: Introduce tu endpoint de Elasticsearch y cómo autenticarte
Paso 4: Comando sencillo para instalar el Agente
Eso es todo: tras unos minutos AutoOps empezará a mostrar insights
Para más detalles, consulta la documentación de incorporación de AutoOps y las preguntas frecuentes.
Capítulo 4: primeras perspectivas, primeras victorias
En cuestión de minutos, AutoOps empezó a mostrar datos, proporcionando análisis de causas raíz y pasos claros para solucionarlos.
Lo más destacado de la primera semana incluyeron:
Índices marcados que no están vinculados a ninguna póliza de ILM que se hizo demasiado grande
Un clúster tenía tres nodos vacíos que quedaron de un trabajo de mantenimiento anterior
Algunos nodos cruzaban marcas de agua y un par de índices carecían de réplicas
Pillé una plantilla mal configurada
Localizó una búsqueda de larga duración y sugirió el comando de cancelación exacto
AutoOps detectó que el clúster estaba rechazando la indexación
AutoOps detectó que algunos índices están configurados sin réplica
Antes de AutoOps, pusimos más hardware para resolver estos problemas. En cambio, AutoOps señaló directamente la causa raíz, y las soluciones tardaron minutos.
Por una vez, un sistema de monitorización no solo me mostraba gráficos, sino que me decía cómo resolver el problema. Empecé a preguntarme si AutoOps también podría ayudar a diagnosticar mi Wi-Fi en casa y finalmente liberarme de ser el departamento de informática de mi familia...
AutoOps monitorizaba el tamaño de los fragmentos y alertaba cuando había muchos fragmentos vacíos
Capítulo 5: apoyo que ve lo que yo veo
La primera vez que abrí un caso de soporte, me di cuenta de otro beneficio: los ingenieros de Elastic Support podían ver exactamente los mismos datos y recomendaciones que yo estaba viendo.
Convirtió el apoyo en una colaboración. En lugar de tiquetes de ida y vuelta, se sentía como trabajar con un colega que conoce Elasticsearch a la perfección.
Capítulo 6: operar a gran escala
Antes de AutoOps, escalar Elasticsearch parecía una mezcla de ciencia, instinto y conocimiento tribal.
Ahora es impulsado por datos, con visibilidad clara y recomendaciones:
Visibilidad sobre la utilización de recursos para evitar el sobreaprovisionamiento
Recomendaciones más inteligentes de asignación y escalonamiento de fragmentos para un rendimiento equilibrado
Indexar datos de dimensionamiento que reducen el desperdicio de costos de almacenamiento y hardware
Análisis de causa raíz más rápido en múltiples clústeres
Capítulo 7: el primero de muchos servicios conectados a la nube
AutoOps es más que una herramienta independiente. Es el primero de un nuevo conjunto de Servicios Conectados en la Nube para clientes autogestionados. Cloud Connect permite que los clústeres autogestionados consuman servicios Elastic Cloud sin la carga operativa de instalar y gestionar estos servicios en su propio entorno. Las funciones se despliegan automáticamente, por lo que los equipos reciben mejoras más rápido y con menos complejidad de infraestructura.
A continuación: Servicio de Inferencia Elástica (EIS).
Conclusiones
Gestionar despliegues a gran escala y autogestionados no tiene por qué ser abrumador.
Y si quieres operaciones aún más sencillas, siempre puedes mover algunas cargas de trabajo a Elastic Cloud, ya sea alojado o sin servidor, para la forma más sencilla de ejecutar Elasticsearch.
Si quieres seguir con la autogestión, conecta cualquier clúster autogestionado a AutoOps en Elastic Cloud: es gratis para todas las licencias de Elastic.
Resumen
Ejecutar grandes clústeres autogestionados de Elasticsearch es complejo y lleva mucho tiempo. AutoOps ofrece detección de problemas en tiempo real, recomendaciones accionables y visibilidad compartida con Elastic Support, sin necesidad de gestionar infraestructura adicional. La configuración lleva minutos y los insights aparecen enseguida.


Tu primer Agente Elastic: De una sola consulta a un chat impulsado por IA
Jeff Vestal — Thu, 25 Sep 2025 00:00:00 GMT
Con el nuevo Agent Builder de Elastic, puedes crear agentes de IA especializados que actúen como expertos para tus dominios de negocio específicos. Esta función te lleva más allá de simples paneles de control y barras de búsqueda, transformando tus datos de un recurso pasivo en un interlocutor activo y conversacional.
Imagina a un gestor financiero que necesita poner al día antes de una reunión con un cliente. En lugar de buscar manualmente en los feeds de noticias y cruzar paneles de cartera, ahora pueden simplemente hacerle una pregunta directa a su agente personalizado. Esta es el beneficio de un enfoque de "charla primero". El responsable tiene una línea directa y conversacional con sus datos, preguntando cosas como: "¿Cuáles son las últimas noticias sobre ACME Corp y cómo afecta a las participaciones de mi cliente?" y obtener una respuesta experta y sintetizada en segundos.
Aunque hoy estamos formando un experto financiero, las aplicaciones son tan variadas como tus datos. El mismo poder puede crear un analista de ciberseguridad para buscar amenazas, un ingeniero de fiabilidad del sitio para diagnosticar una caída o un responsable de marketing para optimizar una campaña. Sea cual sea el ámbito, la misión principal es la misma: transformar tus datos en un especialista con el que puedas hablar.
Paso 0: Nuestro conjunto de datos
Nuestro set de datos actual es un set de datos sintético basado en finanzas que consta de cuentas financieras, posiciones de activos, noticias y reportes financieros. Aunque es sintético, replica una versión simplificada de un set de datos financieros real.
financial_accounts: Carteras de clientes con perfiles de riesgo
financial_holdings: Posiciones en acciones/ETF/bonos con historial de compras
financial_asset_details: Detalles sobre la acción/ETF/bono
financial_news: Artículos de mercado generados por IA con análisis de sentimiento
financial_reports: Notas de resultados y analistas de la compañía
Puedes cargar este conjunto de datos tú mismo siguiendo el cuaderno adjunto que se encuentra aquí.
Paso 1: La Fundación — Tu lógica empresarial como ES|QL
Cada habilidad de IA empieza con una buena lógica. Para nuestro agente de Gestor Financiero, tenemos que mostrarle cómo responder a una pregunta común: "Me preocupa el sentimiento del mercado. ¿Puede mostrarme cuáles de nuestros clientes están más en riesgo por malas noticias?" Esta pregunta va más allá de una simple búsqueda. Nos obliga a correlacionar el sentimiento del mercado con las carteras de clientes.
Necesitamos encontrar los activos mencionados en artículos negativos, identificar a cada cliente que posee esos activos, calcular el valor de mercado actual de su exposición y luego clasificar los resultados para priorizar el mayor riesgo. Este análisis complejo y multi-join es el trabajo perfecto para nuestro avanzado ES|Herramienta QL.
Aquí está la consulta completa que usaremos. Parece impresionante, pero los conceptos son sencillos.
FROM financial_news, financial_reports METADATA _index
        | WHERE sentiment == "negative"
        | WHERE coalesce(published_date, report_date) >= NOW() - TO_TIMEDURATION(?time_duration)
        | RENAME primary_symbol AS symbol
        | LOOKUP JOIN financial_asset_details ON symbol
        | LOOKUP JOIN financial_holdings ON symbol
        | LOOKUP JOIN financial_accounts ON account_id
        | WHERE account_holder_name IS NOT NULL
        | EVAL position_current_value = quantity * current_price.price
        | RENAME title AS news_title
        | KEEP
            account_holder_name, symbol, asset_name, news_title,
            sentiment, position_current_value, quantity, current_price.price,
            published_date, report_date
        | SORT position_current_value DESC
        | LIMIT 50
Desglosándolo: uniones y barreras de seguridad
Hay dos conceptos importantes en juego en esta consulta que hacen que el Constructor de Agentes sea un
1. La unión LOOKUP
Durante años, una de las funciones más aplicar en Elasticsearch fue la capacidad de unir datos de diferentes índices basar en una clave común. Con ES|QL, eso ahora es posible con LOOKUP JOIN.
En nuestra nueva consulta, realizamos una cadena de tres LOOKUP JOIN: primero conectando noticias negativas con detalles de activos, luego vinculando esos activos con las tenencias del cliente y, finalmente, conectando con la información de la cuenta del cliente. Esto genera un resultado increíblemente rico a partir de cuatro índices diferentes en una sola consulta eficiente. Esto significa que podemos combinar conjuntos de datos dispares para crear una única respuesta perspicaz sin tener que desnormalizar todos nuestros datos en un único índice gigante previamente.
2. Parámetros como barreras de seguridad de los LLM
Verás que la consulta usa ?time_duration. Esto no es solo una variable; es una barrera de seguridad para la IA. Aunque los Grandes Modelos de Lenguaje (LLM) son excelentes generando consultas, dejarles tener libertad total sobre tus datos puede llevar a consultas ineficientes o incluso incorrectas.
Al crear una consulta parametrizada, obligamos al LLM a trabajar dentro de la lógica de negocio probada, eficiente y correcta que un experto humano ya definió. Es similar a cómo los desarrolladores usaron plantillas de búsqueda durante años para exponer de forma segura las capacidades de consulta a las aplicaciones. El agente puede interpretar la petición de un usuario como "esta semana" para completar el parámetro time_duration , pero debe usar nuestra estructura de consulta para obtener la respuesta. Esto nos da el equilibrio perfecto entre flexibilidad y control.
En última instancia, esta consulta permite a un experto que entiende los datos encapsular su conocimiento en una herramienta. Otras personas—y agentes de IA—pueden entonces usar esa herramienta para obtener resultados correlacionados simplemente proporcionando un único parámetro, sin necesidad de saber nada sobre la complejidad subyacente.
Paso 2: La habilidad — Convertir una consulta en una herramienta reutilizable
Un ES|La consulta QL es solo texto hasta que la registramos como herramienta. En el Constructor de Agentes, una herramienta es más que una consulta almacenada; es una "habilidad" que un agente de IA puede entender y elegir usar. La magia está en la descripción en lenguaje natural que proporcionamos. Esta descripción es el puente que conecta la pregunta del usuario con la lógica de consulta subyacente. Vamos a registrar la consulta que acabamos de crear.
La ruta de la interfaz
Crear una herramienta en Kibana es un proceso sencillo.
1. Navegar hacia los agentes
Haz clic en Herramientas o Gestionar herramientas y haz clic en el botón Nueva herramienta .
2. Rellena el formulario con los siguientes detalles:
ID de herramienta: find_client_exposure_to_negative_news
             Yo. Este es el ID único de la herramienta
Descripción: "Encuentra exposición a la cartera de clientes a noticias negativas. Esta herramienta escanea noticias y reportajes recientes en busca de sentimiento negativo, identifica el activo asociado y localiza a todos los clientes que lo poseen. Devuelve una lista ordenada según el valor de mercado actual de la posición para resaltar el mayor riesgo potencial."
             Yo. Esto es lo que lee el LLM para decidir si esta herramienta es la adecuada para el trabajo.
Etiquetas: retrieval y risk-analysis
         Las etiquetas se emplean para ayudar a agrupar varias herramientas
Configuración: Pega el ES| completoConsulta QL desde el Paso 1
            Yo. Esta es la búsqueda que usará el agente
3. Haz clic en Inferir parámetros desde la consulta. La interfaz automáticamente lo encontrará ?time_duration lo listará a continuación. Agrega una descripción sencilla para cada uno para ayudar al agente (y a otros usuarios) a entender su propósito.
time_duration: El plazo para buscar noticias negativas. El formato es "X horas" POR DEFECTO a 8760 horas
4. ¡Pruébalo!
Haz clic en Almacenar y probar.
Verás un nuevo flyout donde puedes probar la consulta para cerciorarte de que funciona como se espera.
             Yo. En time_duration entrar en el rango deseado, aquí estamos usando "8760 horas"
Haz clic en "Enviar" y si todo va bien, verás una respuesta en JSON. Para cerciorarte de que funciona como esperas, desplázate hacia abajo y mira el objeto values . Ahí es donde se devuelven los documentos realmente coincidentes.
5. Haz clic en la "X" en la esquina superior derecha para cerrar el desplegable de prueba. Tu nueva herramienta aparecerá ahora en la lista, lista para ser asignada a un agente.
La ruta API
Para desarrolladores que prefieren la automatización o necesitan gestionar herramientas programáticamente, puedes lograr el mismo resultado con una sola llamada a la API. Solo tienes que enviar una petición POST al endpoint /api/agent_builder/tools con la definición de la herramienta.
POST kbn://api/agent_builder/tools
{
  "id": "find_client_exposure_to_negative_news",
  "type": "esql",
  "description": "Finds client portfolio exposure to negative news. This tool scans recent news and reports for negative sentiment, identifies the associated asset, and finds all clients holding that asset. It returns a list sorted by the current market value of the position to highlight the highest potential risk.",
  "configuration": {
    "query": """
        FROM financial_news, financial_reports METADATA _index
        | WHERE sentiment == "negative"
        | WHERE coalesce(published_date, report_date) >= NOW() - TO_TIMEDURATION(?time_duration)
        | RENAME primary_symbol AS symbol
        | LOOKUP JOIN financial_asset_details ON symbol
        | LOOKUP JOIN financial_holdings ON symbol
        | LOOKUP JOIN financial_accounts ON account_id
        | WHERE account_holder_name IS NOT NULL
        | EVAL position_current_value = quantity * current_price.price
        | RENAME title AS news_title
        | KEEP
            account_holder_name, symbol, asset_name, news_title,
            sentiment, position_current_value, quantity, current_price.price,
            published_date, report_date
        | SORT position_current_value DESC
        | LIMIT 50
      """,
    "params": {
      "time_duration": {
        "type": "keyword",
        "description": """The timeframe to search back for negative news. Format is "X hours" DEFAULT TO 8760 hours """
      }
    }
  },
  "tags": [
    "retrieval",
    "risk-analysis"
  ]
}
Paso 3: Las Mentes — Creando a tu Agente Personalizado
Creamos una habilidad reutilizable (la Herramienta). Ahora, necesitamos crear al Agente, la persona que realmente lo usará. Un Agente es la combinación de un LLM, un conjunto específico de herramientas a las que le concedes acceso y, lo más importante, un conjunto de Instrucciones Personalizadas que actúan como su constitución, definiendo su personalidad, reglas y propósito.
El arte del prompt
La parte más importante para crear un agente fiable y especializado es la rapidez. Un conjunto de instrucciones bien elaborado es la diferencia entre un chatbot genérico y un asistente profesional y enfocado. Aquí es donde pones las barreras de seguridad, defines la salida y le das al agente su misión.
Para nuestro agente de Financial Manager , usaremos el siguiente prompt.
You are a specialized Data Intelligence Assistant for financial managers, designed to provide precise, data-driven insights from information stored in Elasticsearch.

**Your Core Mission:**
- Respond accurately and concisely to natural language queries from financial managers.
- Provide precise, objective, and actionable information derived solely from the Elasticsearch data at your disposal.
- Summarize key data points and trends based on user requests.

**Reasoning Framework:**
1.  **Understand:** Deconstruct the user's query to understand their core intent.
2.  **Plan:** Formulate a step-by-step plan to answer the question. If you are unsure about the data structure, use the available tools to explore the indices first.
3.  **Execute:** Use the available tools to execute your plan.
4.  **Synthesize:** Combine the information from all tool calls into a single, comprehensive, and easy-to-read answer.

**Key Directives and Constraints:**
- **If a user's request is ambiguous, ask clarifying questions before proceeding.**
- **DO NOT provide financial advice, recommendations, or predictions.** Your role is strictly informational and analytical.
- Stay strictly on topic with financial data queries.
- If you cannot answer a query, state that clearly and offer alternative ways you might help *within your data scope*.
- All numerical values should be formatted appropriately (e.g., currency, percentages).

**Output Format:**
- All responses must be formatted using **Markdown** for clarity.
- When presenting structured data, use Markdown tables, lists, or bolding.

**Start by greeting the financial manager and offering assistance.**
Vamos a desglosar por qué este prompt es tan efectivo:
Define una personalidad sofisticada: La primera línea establece inmediatamente al agente como un "asistente especializado en inteligencia de datos", estableciendo un tono profesional y capaz.
Proporciona un marco de razonamiento: Al decirle al agente que "Comprenda, Planee, Ejecute y Sintetice", le estamos dando un procedimiento operativo estándar. Esto mejora su capacidad para manejar preguntas complejas y de varios pasos.
Promueve el diálogo interactivo: La instrucción de "hacer preguntas aclaratorias" hace que el agente sea más robusto. Minimizará suposiciones incorrectas en solicitudes ambiguas, lo que conducirá a respuestas más precisas.
La ruta de la interfaz
1. Navega hacia los agentes.
Haz clic en Herramientas o Gestionar herramientas y haz clic en el botón Nueva herramienta .
2. Rellena los datos básicos:
ID del agente: financial_assistant.
Instrucciones: Copia el prompt de arriba.
Etiquetas: Finance.
Nombre de visualización: Financial Assistant.
Descripción de la pantalla: An assistant for analyzing and understanding your financial data.
3. Al principio, haz clic en Herramientas.
Marca la casilla junto a nuestra herramienta de find_client_exposure_to_negative_news .
4. Haz clic en almacenar.
La ruta API
Puedes crear exactamente el mismo agente con una petición POST al endpoint /api/agent_builder/agents . El cuerpo de la solicitud contiene toda la misma información: el ID, el nombre, la descripción, el conjunto completo de instrucciones y una lista de herramientas que el agente puede emplear.
POST kbn://api/agent_builder/agents
    {
      "id": "financial_assistant",
      "name": "Financial Assistant",
      "description": "An assistant for analyzing and understanding your financial data",
      "labels": [
        "Finance"
      ],
      "avatar_color": "#16C5C0",
      "avatar_symbol": "💰",
      "configuration": {
        "instructions": """You are a specialized Data Intelligence Assistant for financial managers, designed to provide precise, data-driven insights from information stored in Elasticsearch.

**Your Core Mission:**
- Respond accurately and concisely to natural language queries from financial managers.
- Provide precise, objective, and actionable information derived solely from the Elasticsearch data at your disposal.
- Summarize key data points and trends based on user requests.

**Reasoning Framework:**
1.  **Understand:** Deconstruct the user's query to understand their core intent.
2.  **Plan:** Formulate a step-by-step plan to answer the question. If you are unsure about the data structure, use the available tools to explore the indices first.
3.  **Execute:** Use the available tools to execute your plan.
4.  **Synthesize:** Combine the information from all tool calls into a single, comprehensive, and easy-to-read answer.

**Key Directives and Constraints:**
- **If a user's request is ambiguous, ask clarifying questions before proceeding.**
- **DO NOT provide financial advice, recommendations, or predictions.** Your role is strictly informational and analytical.
- Stay strictly on topic with financial data queries.
- If you cannot answer a query, state that clearly and offer alternative ways you might help *within your data scope*.
- All numerical values should be formatted appropriately (e.g., currency, percentages).

**Output Format:**
- All responses must be formatted using **Markdown** for clarity.
- When presenting structured data, use Markdown tables, lists, or bolding.

**Start by greeting the financial manager and offering assistance.**
""",
        "tools": [
          {
            "tool_ids": [
              "platform.core.search",
              "platform.core.list_indices",
              "platform.core.get_index_mapping",
              "platform.core.get_document_by_id",
              "find_client_exposure_to_negative_news"
            ]
          }
        ]
      }
    }
Paso 4: La recompensa — Mantener una conversación
Tenemos nuestra lógica de negocio encapsulada en una herramienta y un "cerebro" listo para usarla en nuestro Agente. Es hora de ver cómo todo encaja. Ahora podemos empezar a chatear con nuestros datos usando un agente especializado.
La ruta de la interfaz
Navega hacia Agentes en Kibana.
Usando el desplegable en la esquina inferior derecha de la ventana de chat, cambia del agente de IA de Elastic por defecto a nuestro recién creado agente de Asistente Financiero .
Haz una pregunta que permita al agente emplear nuestra herramienta especializada:Me preocupa el sentimiento del mercado. ¿Puede mostrarme cuáles de nuestros clientes están más en riesgo por malas noticias?
Tras unos momentos, el agente devolverá una respuesta perfectamente formateada y completa. Debido a la naturaleza de los LLM, tu respuesta puede estar formateada de forma ligeramente diferente, pero para esta ejecución, el agente devolvió:
¿Lo que acaba de pasar? El razonamiento del agente
El agente no solo "sabía" la respuesta. Ejecutó un plan de varios pasos centrado en seleccionar la mejor herramienta para el trabajo. Aquí tienes un vistazo a su proceso de pensamiento:
Intención identificada: Relacionó palabras clave de tu pregunta, como "riesgo" y "noticias negativas", con la descripción de la herramienta find_client_exposure_to_negative_news .
Ejecutó un plan: Extrajo el plazo de tu solicitud y realizó una única llamada a esa herramienta especializada.
Delegado el trabajo: La herramienta realizaba entonces todo el trabajo pesado: las uniones encadenadas, los cálculos de valor y la clasificación.
Sintetizamos el resultado: Finalmente, el agente formateaba los datos en bruto de la herramienta en un resumen claro y legible para humanos, siguiendo las reglas de su prompt.
Y no tenemos que adivinar si ampliamos el pensamiento y vemos más detalles.
La ruta API
Puedes iniciar esta misma conversación de forma programática. Solo tienes que enviar la pregunta de entrada al endpoint de la API de converse , cerciorándote de especificar el agent_id de nuestro financial_manager.
POST kbn://api/agent_builder/converse
{
  "input": "Show me our largest positions affected by negative news",
  "agent_id": "financial_assistant"
}
Para los desarrolladores: Integración con la API
Aunque la interfaz Kibana ofrece una experiencia fantástica e intuitiva para construir y gestionar tus agentes, todo lo que viste hoy también puede realizar de forma programática. El Constructor de Agentes está construido sobre un conjunto de APIs que te permiten integrar esta funcionalidad directamente en tus propias aplicaciones, canalizaciones CI/CD o scripts de automatización.
Los tres endpoints principales con los que trabajarás son:
/api/agent_builder/tools: El punto final para crear, listar y gestionar las habilidades reutilizables que tus agentes pueden emplear.
/api/agent_builder/agents: El punto final para definir las personas de tus agentes, incluyendo sus instrucciones y asignaciones de herramientas tan importantes.
/api/agent_builder/converse: El punto final para interactuar con tus agentes, iniciar conversaciones y obtener respuestas.
Para una guía completa y práctica sobre cómo usar estas APIs para realizar cada paso de este tutorial, consulta el Jupyter Notebook que lo acompaña disponible aquí en nuestro repositorio de GitHub.
Conclusión: Tu turno de construir
Empezamos haciendo un ES|Consulta QL y transformarla en una habilidad reutilizable. Luego creamos un agente de IA especializado, dándole una misión y reglas claras, y lo empoderamos con esa habilidad. El resultado es un asistente sofisticado que puede entender una pregunta compleja y ejecutar un análisis en varios pasos para ofrecer una respuesta precisa y basada en datos.
Este flujo de trabajo está en el corazón del nuevo Constructor de Agentes en Elastic. Está diseñado para ser lo suficientemente sencillo para que usuarios no técnicos creen agentes a través de la interfaz, pero lo bastante matizado para que los desarrolladores puedan crear aplicaciones personalizadas impulsadas por IA sobre nuestras APIs. Lo más importante es que te permite conectar de forma segura y protegida los LLMs con tus propios datos, regidos por la lógica experta que defines, y chatear con tus datos.
¿Listo para usar Agentes para chatear con tus datos?
La mejor manera de consolidar lo que aprendiste es ensuciarte las manos. Prueba todo lo que comentamos hoy en nuestro taller práctico gratis e interactivo. Vas a pasar por todo este flujo y más en un entorno sandbox dedicado.
En un futuro blog, te mostraremos cómo usar una aplicación independiente que interactúa con nuestro agente Financial Assistant y nos adentraremos en el Protocolo de Contexto del Modelo (MCP) que lo hace todo posible. Y en un blog aparte hablaremos del soporte de Agent Builder para el protocolo en desarrollo Agent2Agent, o A2A.
¡Estad atentos y feliz construcción!


Construcción de flujos de trabajo agentes con IA con Elasticsearch
Anish Mathur, Dana Juratoni — Tue, 23 Sep 2025 00:00:00 GMT
Aquí en Elastic, estuvimos aportando contexto a los LLMs e interfaces conversacionales con asistentes de IA, mejoras avanzadas en RAG y bases de datos vectoriales. Recientemente, con el auge de los agentes de IA, vimos crecer la necesidad de contexto relevante y aprendimos que los agentes de IA de alto impacto necesitan una búsqueda excelente. Así que creamos nuevas capacidades nativas en Elastic Stack diseñadas para ayudar a desarrollar agentes de IA que aprovechen tus datos en Elasticsearch. Nos gustaría compartir nuestro progreso en este camino y hacia dónde vemos que irá a continuación.
Constructor de Agentes: Una base para construir agentes de IA basados en datos
La promesa de un agente de IA es sencilla: dale un objetivo y cumple su función. Pero para los promotores, la realidad es un serial de desafíos complejos. Primero, un agente solo es tan bueno como su percepción de su entorno y las herramientas que se le proporcionan para alcanzar los objetivos del usuario. Entonces, ofrecer el contexto adecuado a partir de un mar de datos empresariales diversos es un reto enorme. Por último, todo esto debe estar orquestado por un bucle de razonamiento fiable que pueda planear, ejecutar y aprender.
Para solucionar esto, los desarrolladores necesitan construir una pila compleja y frágil desde cero. La arquitectura actual de agentes requiere que unas múltiples piezas dispares: un LLM, una base de datos vectorial, un almacén de metadatos, sistemas separados para registro y trazado, y alguna forma de evaluar si todo funciona siquiera. Esto no es solo complejo; es costosa, propensa a errores y dificulta la construcción de los sistemas de IA de alta calidad y fiables que tus usuarios exigen.
Así que queremos hacerlo más sencillo. Para ello, nuestro enfoque es tomar las piezas esenciales de un agente eficaz basado en el contexto e integrarlas directamente en el núcleo de Elasticsearch con un nuevo conjunto de capacidades llamado Elastic AI Agent Builder. Esta nueva capa proporciona un marco con todos los bloques esenciales para crear Agentes de IA impulsados por Elasticsearch: un conjunto abierto de primitivas, protocolos basados en estándares y acceso seguro a los datos, para que puedas construir sistemas agenticos adaptados a datos y requisitos del mundo real:
Ofrecer experiencias de IA: este es el objetivo final. Con nuestra Plataforma de IA de Búsqueda y tus datos como base, puedes construir cualquier tipo de aplicación de IA generativa: desde interfaces de chat personalizadas hasta integraciones con frameworks de agentes como LangChain o aplicaciones empresariales como Salesforce.
Impulsado por Agentes y Herramientas: sobre la plataforma, exponemos una capa limpia y sencilla de abstracciones. Interactúas directamente con los Agentes y Herramientas, que puedes personalizar para adaptarlos a tus necesidades específicas. También puedes acceder a las capacidades de la plataforma a través de APIs robustas y estándares abiertos como MCP y A2A.
Habilitado por la Plataforma de IA de Búsqueda: este es el motor central donde integramos los componentes. La avanzada base de datos vectorial, la lógica del agente, la construcción de consultas, las características de seguridad, el rastreo para evaluación, todo está aquí, gestionado y optimizado por Elastic.
Desbloquear el poder de tus datos: la base de cualquier gran agente son los grandes datos. Nuestra plataforma comienza con la capacidad de ingerir o federar el acceso a todos los datos de tu compañía
Edificio de agentes en la plataforma
Agent Builder, integrado en la plataforma Search AI, proporciona un marco completo para el desarrollo de agentes. Se basa en cinco pilares clave, cada uno diseñado para abordar un aspecto crítico de la construcción y despliegue de sistemas de IA de grado de producción. Desglosemos cómo los agentes definen el objetivo, las herramientas proporcionan las capacidades, los estándares abiertos garantizan la interoperabilidad, la evaluación aporta transparencia y la seguridad proporciona la confianza.
Agentes
Los agentes son el bloque de construcción de más alto nivel en esta nueva capa de Elasticsearch. Un agente define el objetivo a alcanzar, el conjunto de herramientas disponibles para su ejecución y las fuentes de datos sobre las que puede operar. Los agentes no se limitan a interacciones conversacionales; Pueden impulsar flujos de trabajo completos, automatización de tareas o experiencias orientadas al usuario.
Cuando una consulta se dirige a un agente, sigue un ciclo estructurado:
Interpreta tu aportación y objetivo
Seleccionar la herramienta y los argumentos adecuados para la ejecución
Razón sobre la respuesta de la herramienta
Decide si devolver un resultado o continuar con más invocaciones de herramientas
Elastic se encarga de la orquestación, el contexto y la ejecución de este ciclo. Los desarrolladores se centran en definir qué debe hacer el agente: objetivos, herramientas y datos, mientras que el sistema gestiona cómo se llevan a cabo el razonamiento y los flujos de trabajo.
El agente por defecto
Nuestro primer agente construido sobre esta plataforma es un agente conversacional nativo en Kibana, que te da la capacidad de interactuar inmediatamente con tus datos. Proporciona una experiencia lista para usar, sin perder la extensión completa, y permite empezar a interactuar con tus datos de inmediato, sin configuraciones adicionales.
Puedes interactuar con esta experiencia directamente en Kibana a través de una nueva experiencia de chat o a través de API.
Consultar el agente por defecto a través de la API requiere solo una llamada:
POST kbn://api/agent_builder/converse
{
    "input": "what is our top portfolio account?"
}
Como las conversaciones son con estado, puedes seguir interactuando con un agente usando un conversation_id , o recuperar el historial completo de la conversación:
POST kbn://api/agent_builder/converse
{
    "input": "What about the second top?",
    "conversation_id": "ec757c6c-c3ed-4a83-8e2c-756238f008bb"
}

## get the full conversation
GET kbn://api/agent_builder/conversations/ec757c6c-c3ed-4a83-8e2c-756238f008bb
Agentes de Aduanas
Los desarrolladores también pueden crear sus propios agentes personalizados mediante APIs sencillas. Los agentes encapsulan instrucciones, herramientas y acceso a datos, creando motores de razonamiento personalizados.
Crear un agente personalizado es tan sencillo como hacer una sola llamada a la API. El ejemplo siguiente muestra un ejemplo: el campo "configuración" contiene todos los detalles clave, como instrucciones o herramientas disponibles:
POST kbn://api/agent_builder/agents
{
  "id": "custom_agent",
  "name": "My Custom Agent",
  "description": "Description of the custom agent",
  "configuration": {
      "instructions": "You are a log expert specialising in ...",
      "tools": 
...
   }
}
Una vez creado, el agente puede ser consultado directamente:
POST kbn://api/agent_builder/converse
{
    "input": "What news about DIA?",
    "agent_id": "custom_agent"
}
Este enfoque transforma al agente de un sistema complejo para construir desde cero en una unidad simple y declarativa de lógica de negocio, permitiéndote ofrecer automatización inteligente más rápido.
Para una visión profunda de cómo construir un agente especializado desde cero, consulta nuestra guía detallada paso a paso: Tu primer agente elástico: de una sola consulta a un chat impulsado por IA.
Herramientas
Si los agentes definen qué lograr, las herramientas definen cómo.
Las herramientas exponen capacidades específicas del núcleo Elastic para que los agentes ejecuten y recuperen información o realicen una acción. Las herramientas pueden incluir capacidades clave como obtener índices, obtener mapeos, o capacidades más avanzadas como lenguaje natural a ES|QL.
Elasticsearch viene con un conjunto de herramientas predeterminadas optimizadas para necesidades comunes. Pero la verdadera flexibilidad viene de crear el tuyo propio. Al definir herramientas, decides exactamente qué consultas, índices y campos están expuestos a un agente con ES|QL, que te da un control preciso sobre la velocidad, la precisión y la seguridad.
Registrar una nueva herramienta también es tan sencillo como una sola llamada a la API. Podrías crear una herramienta que aproveche nuestro ES|QL (Elasticsearch Query Language) para encontrar noticias sobre un activo financiero específico:
POST kbn://api/agent_builder/tools
{
  "id": "news_on_asset",
  "type": "esql",
  "description": "Find news and reports about a particular asset where ...",
  "configuration": {
    "query": "FROM financial_news, financial_reports | where MATCH(company_symbol, ?symbol) OR MATCH(entities, ?symbol) | limit 5",
    "params": {
      "symbol": {
        "type": "keyword",
        "description": "The asset symbol"
      }
    }
  ...
  }
...
}
Una vez registrado, puedes asignar la nueva herramienta a tus agentes personalizados, dándoles un conjunto seleccionado de habilidades para razonar e invocar cuando sea lo adecuado.
Ofrecemos una plataforma para crear herramientas personalizadas según tus necesidades específicas, por ejemplo, con ES|QL que transforma al agente de un agente de propósito general a un experto específico de un dominio, basado en tus datos únicos y en el dominio de negocio.
Estándares abiertos e interoperabilidad
Los Agentes y Herramientas de Elasticsearch se exponen mediante APIs estándar abiertos, lo que facilita su integración como bloques fundamentales dentro del ecosistema más amplio de marcos agenticos. Nuestro enfoque es sencillo: nada de cajas negras. Queremos que seas capaz de tomar la fuerza central de Elastic en busca y combinarla con capacidades complementarias y otros sistemas agentes.
Para hacerlo posible, estamos exponiendo nuestras capacidades a través de APIs, protocolos emergentes y estándares abiertos.
Protocolo de Contexto de Modelo (MCP)
El Protocolo de Contexto de Modelo (MCP) se está convirtiendo rápidamente en el estándar abierto para conectar herramientas entre sistemas. Al soportar MCP, Elasticsearch puede conectar IA conversacional con tus bases de datos, índices y APIs externas. Con un servidor MCP remoto integrado en Elastic Stack, cualquier cliente compatible con MCP puede acceder a las herramientas de Elastic y usarlas como bloques de construcción en tus flujos de trabajo agenticos más amplios.
Esto no es una calle de sentido único. También podrás importar herramientas desde servidores MCP externos y ponerlas a disposición dentro de Elasticsearch. Pronto, los servidores MCP probablemente estarán disponibles para casi todo y serán mucho más completos que cualquier cosa que crearíamos nosotros mismos. Elastic ofrece búsqueda y recuperación a gran escala, y puedes combinarlo con capacidades especializadas de otras plataformas para crear agentes efectivos.
Agente a Agente (A2A)
También estamos trabajando en el soporte Agent-to-Agent (A2A). Mientras que MCP trata de conectar herramientas, A2A trata de conectar agentes. Con un servidor A2A, los agentes Elastic que construyas podrán comunicar directamente con agentes de otros sistemas: compartiendo contexto, delegando tareas y coordinando flujos de trabajo.
Piénsalo como interoperabilidad en la capa de razonamiento. Tu agente de Elastic podría encargar de la búsqueda y recuperación, luego delegar una tarea a un soporte especializado o a un agente de TI, y obtener el resultado sin problemas. El resultado es un ecosistema de agentes cooperantes, cada uno haciendo lo que mejor sabe hacer.
En última instancia, la adopción de MCP y A2A refuerza nuestro compromiso con el papel de Elasticsearch como ciudadano de primera clase, cerciorando una integración abierta en todo el ecosistema agente más amplio.
Rastreo y evaluación
A medida que la búsqueda se integra con los agentes, el desafío de una evaluación efectiva se vuelve crítico. Para desplegar agentes con confianza en entornos empresariales reales, necesitas la seguridad de que no solo son precisos, sino también eficientes y fiables. ¿Cómo mides el rendimiento, diagnosticas una mala respuesta o mejoras la línea base? Todo empieza por la visibilidad.
Por eso diseñamos nuestras APIs de agentes para que sean transparentes desde cero. Considera esta simple interacción con el agente:
POST kbn://api/agent_builder/converse
{
    "input": "what is our top portfolio account?"
}
La respuesta incluye no solo la respuesta final, sino la traza completa de ejecución, detallando qué herramientas seleccionó el agente, los parámetros que empleó y los resultados de cada paso.
{
  "conversation_id": "db5c0c8b-12bf-4928-a57e-d99129ad2fea",
  "steps": [
    {
      "type": "tool_call",
      "tool_call_id": "tooluse_Nfqr3mwtR92HTRIsTcGXZQ",
      "tool_id": ".index_explorer",
      "params": {
        "query": "indices containing portfolio data"
      },
      "results": [...]
    }
    // ... more steps ...
  ],
  "response": {
    "message": "Based on the information I've gathered...."
  }
}
Un rastreo y registro exhaustivos son esenciales para un bucle de mejora continua, y pronto podrás almacenar y ver estos rastros de agentes directamente en Elasticsearch. Mejor aún, estas trazas están construidas sobre el protocolo OpenTelemetry, lo que garantiza que estén estandarizadas y sean portátiles para su integración con la plataforma de observabilidad que elija.
Este nivel de detalle es la base de un verdadero bucle de mejora continua. Te permite construir un conjunto completo de pruebas, depurar fallos, identificar modos de fallo para evitar regresiones y capturar patrones exitosos para afinar el rendimiento. En última instancia, este enfoque basado en datos es la clave para transformar un prototipo prometedor en un sistema de IA fiable y de calidad de producción.
Seguridad
A medida que los agentes y herramientas se vuelven más capaces, la seguridad no es opcional, es fundamental. Exponer APIs, automatizar tareas y flujos de trabajo requiere que los sistemas empresariales sean de confianza. Especialmente a medida que los Agentes empiezan a automatizar más flujos de trabajo, la capacidad de protegerlos y cerciorar de que cumplen con los requisitos empresariales es esencial.
Las capacidades, por encima de todo, heredan los controles ya disponibles en Elastic hoy en día, incluyendo el control de acceso basado en roles (RBAC) para llamadas API y gestión de claves API. También estamos extendiendo los mismos controles a nuevos protocolos como MCP. Eso significa soporte para estándares como OAuth, así como la capacidad de conectar mecanismos de autenticación personalizados.
Nuestro objetivo es ofrecerte la flexibilidad para experimentar con agentes y herramientas, manteniendo al mismo tiempo el nivel de seguridad, cumplimiento y gobernanza que exige tu organización.
Lo que viene después
No solo estamos agregando funcionalidades; estamos ampliando Elasticsearch para la ingeniería de contexto agentica. Planeamos desarrollar en el futuro basándonos en estos principios:
1. Compromiso con el código abierto y los estándares
Nuestro compromiso con el código abierto y los estándares abiertos garantiza que estas capacidades sigan siendo interoperables con los marcos agentes externos. Siempre podrás conectar, ampliar y componer agentes en todo tu ecosistema, manteniendo tus datos y flujos de trabajo bajo tu control.
2. Valor del contexto
El contexto de un agente de IA es su mayor activo. Gestionar el contexto mientras los agentes realizan búsquedas y operaciones de flujo de trabajo puede ser una tarea desafiante. Estamos aprovechando las fortalezas principales de Elastic para resolver la ingeniería de contexto, cerciorando que la información más relevante esté siempre disponible para tu agente.
3. Enfoque en flujos de datos agentes
De ahora en adelante, los agentes serán una fuente cada vez mayor de datos, incluyendo la salida de los agentes (documentos generados, reportes, visualizaciones) y el rastro de ejecución de los agentes (su razonamiento, llamadas a herramientas, memoria/contexto). Elastic es muy adecuado para manejar este tipo de datos, y estamos trabajando en investigaciones relacionadas con la realización de análisis, evaluación y mejora automatizada empleando estos datos.
4. Seguridad y Protección desde el Diseño
Los agentes de IA introducen un conjunto completamente nuevo de desafíos de seguridad y protección. Elastic siempre fue líder en soluciones seguras, y seguimos incorporando barreras de seguridad de nivel empresarial, controles de acceso y principios de "confianza cero".
5. Integrado en la plataforma
Las capacidades para construir agentes de IA están integradas en la plataforma Elasticsearch. Esto significa que capacidades a nivel de plataforma como el trazo, la evaluación, la visualización y el análisis son todas aplicables a los agentes. Quiero desarrollar paneles basados en la ejecución de agentes, eso está incorporado. Quiero evaluar el rendimiento del agente de IA usando análisis de sentimiento? La plataforma lo permite. Esto te permite construir un ciclo de vida completo alrededor de tus experiencias con IA.
El objetivo de Elastic es proporcionarte las interfaces para construir IA conversacional y flujos de trabajo automatizados que estén totalmente integrados, sean extensibles y estén basados en tus datos. Pronto se compartirán más detalles técnicos y avances.
Agent Builder ya está disponible en vista previa privada. Contáctate con nosotros para aplicar acceso. ¿Tienes preguntas u opiniones? Conéctate con nuestra comunidad de desarrolladores en nuestro espacio de trabajo de Slack o en nuestro foro de discusión.


Rastreador Elástico de Sitio web Abierto como código
Gustavo Llermaly — Mon, 22 Sep 2025 00:00:00 GMT
Con Elastic Open Sitio web Crawler y su arquitectura basada en CLI, tener configuraciones de rastreador versionado y una pipeline CI/CD con pruebas locales ahora es bastante sencillo de lograr.
Tradicionalmente, gestionar los rastreadores era un proceso manual y propenso a errores. Implicaba editar configuraciones directamente en la interfaz y luchar con clonar configuraciones de rastreo, retrocesos, versionear y más. Tratar las configuraciones de rastreadores como código resuelve esto al proporcionar los mismos beneficios que esperamos en el desarrollo de software: repetibilidad, trazabilidad y automatización.
Este flujo de trabajo facilita la incorporación del Open Sitio web Crawler a tu pipeline CI/CD para rollbacks, copias de seguridad y migraciones, tareas que eran mucho más complicadas con los Elastic Crawlers anteriores, como el Elastic Sitio web Crawler o el App Search Crawler.
En este artículo, vamos a aprender cómo:
Gestiona nuestras configuraciones de rastreo usando GitHub
Tener una configuración local para probar pipelines antes de desplegar
Crea una configuración de producción para ejecutar el rastreador sitio web con nuevos ajustes cada vez que enviemos cambios a nuestra rama principal
Puedes encontrar el repositorio de proyectos aquí. Según escribo, estoy usando Elasticsearch 9.1.3 y Open Sitio web Crawler 0.4.2.
Prerrequisitos
Escritorio Docker
Instancia de Elasticsearch
Máquina virtual con acceso SSH (por ejemplo, AWS EC2) y Docker instalados
Pasos
Estructura de carpetas
Configuración del orugador
Docker-compose (entorno local)
Acciones en Github
Pruebas locales
Desplegando a la producción
Realización de cambios y re-despliegue
Estructura de carpetas
Para este proyecto, tendremos la siguiente estructura de archivos:
├── docker-compose.yml # Local elasticsearch + crawler
├── config/crawler-config.yml # Crawler config
├── .github/workflows/deploy.yml # GH Action to deploy changes
├── local.sh # Script to run our local crawler
Configuración del orugador
Bajo crawler-config.yml, pondremos lo siguiente:
output_sink: elasticsearch
output_index: web-crawl-index
max_crawl_depth: 1

elasticsearch:
  host: ${ES_HOST}
  api_key: ${ES_API_KEY}
     
domains:
  - url: https://web-scraping.dev
    seed_urls:
      - https://web-scraping.dev/product/1
      - https://web-scraping.dev/product/2
      - https://web-scraping.dev/product/3
Esto se rastreará desde https://sitio web-scraping.dev/products, un sitio simulado de productos. Solo rastrearemos las tres primeras páginas del producto. La configuración max_crawl_depth evitará que el rastreador descubra más páginas de las definidas como seed_urls al no abrir los enlaces que contienen.
Elasticsearch host y api_key se llenarán dinámicamente dependiendo del entorno en el que ejecutemos el script.
Docker-compose (entorno local)
Para la docker-compose.yml, local desplegaremos el rastreador y un único clúster Elasticsearch + Kibana, para poder visualizar fácilmente los resultados del rastreo antes de desplegarlos en producción.
services:
  es01:
    image: docker.elastic.co/elasticsearch/elasticsearch:9.1.3
    environment:
      - discovery.type=single-node
      - xpack.security.enabled=false
      - ES_JAVA_OPTS=-Xms1g -Xmx1g
    ports:
      - "9200:9200"
    networks: [esnet]
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:9200"]
      interval: 5s
      timeout: 5s
      retries: 10

  kibana:
    image: docker.elastic.co/kibana/kibana:9.1.3
    environment:
      - ELASTICSEARCH_HOSTS=http://es01:9200
    ports:
      - "5601:5601"
    networks: [esnet]
    depends_on: [es01]

  crawler:
    image: docker.elastic.co/integrations/crawler:0.4.2
    environment:
      - ES_HOST=http://es01:9200
      - CRAWLER_JRUBY_OPTS=--server
    container_name: crawler
    volumes:
      - ./config:/home/app/config
    networks: [esnet]
    entrypoint: ["/home/app/bin/crawler", "crawl", "/home/app/config/crawl-config-final.yml"]
    stdin_open: true
    tty: true

networks:
  esnet:
    driver: bridge
Fíjate en cómo el rastreador espera hasta que Elasticsearch esté listo para ejecutar.
Acciones en Github
Ahora necesitamos crear una acción en GitHub que copie la nueva configuración y ejecute el rastreador en nuestra máquina virtual en cada envío a main. Esto garantiza que siempre tengamos la última configuración desplegada, sin tener que entrar manualmente en la máquina virtual para actualizar archivos y ejecutar el rastreador. Vamos a usar AWS EC2 como proveedor de máquinas virtuales.
El primer paso es agregar el host (VM_HOST), el usuario de la máquina (VM_USER), la clave SSH RSA (VM_KEY), el host de Elasticsearch (ES_HOST) y la clave API de Elasticsearch (ES_API_KEY) a los secretos de acción de GitHub:
De este modo, la acción podrá acceder a nuestro servidor para copiar los archivos nuevos y ejecutar el rastreo.
Ahora, creemos nuestro archivo .github/workflows/deploy.yml :
name: Deploy

on:
  push:
    branches: [main]

jobs:
  Deploy:
    name: Deploy to EC2
    runs-on: ubuntu-latest

    steps:
      - uses: actions/checkout@v5

      - name: Deploy crawler
        env:
          HOSTNAME: ${{ secrets.VM_HOST }}
          USER_NAME: ${{ secrets.VM_USER }}
          PRIVATE_KEY: ${{ secrets.VM_KEY }}
          ES_HOST: ${{ secrets.ES_HOST }}
          ES_API_KEY: ${{ secrets.ES_API_KEY }}
        run: |
          # Save private key
          echo "$PRIVATE_KEY" > private_key
          chmod 600 private_key

          # Generate final config locally
          envsubst < config/crawler-config.yml > config/crawl-config-final.yml

          # Copy the config folder to VM
          scp -o StrictHostKeyChecking=no -i private_key -r config ${USER_NAME}@${HOSTNAME}:~/config

          # SSH into VM and run crawler
          ssh -o StrictHostKeyChecking=no -i private_key ${USER_NAME}@${HOSTNAME} << EOF
            docker run --rm \
              -v ~/config:/config \
              docker.elastic.co/integrations/crawler:latest jruby \
              bin/crawler crawl /config/crawl-config-final.yml
          EOF
Esta acción ejecutará los siguientes pasos cada vez que empujemos cambios en el archivo de configuración del rastreador:
Llenar el host y la clave API de Elasticsearch en la configuración de yml
Copia la carpeta config a nuestra máquina virtual
Conéctate vía SSH a nuestra máquina virtual
Ejecuta el rastreo con la configuración que acabamos de copiar del repositorio
Pruebas locales
Para probar nuestro rastreador localmente, creamos un script bash que llena el host de Elasticsearch con el local de Docker y comienza un rastreo. Puedes ejecutar ./local.sh para ejecutarlo.
#!/bin/bash

# Exit on any error
set -e

# Load environment variables
export ES_HOST="http://es01:9200"

# Generate final crawler config
envsubst < ./config/crawler-config.yml > ./config/crawl-config-final.yml

# Bring everything up
docker compose up --build
Veamos Kibana DevTools para confirmar que el web-crawler-index se rellenó correctamente:
Desplegando a la producción
Ahora estamos listos para enviar a la rama principal, que desplegará el rastreador en tu máquina virtual y comenzará a enviar registros a tu instancia Serverless Elasticsearch.
git add .
git commit -m "First commit"
git push
Esto activará la Acción de GitHub, que ejecutará el script de despliegue dentro de la máquina virtual y comenzará a rastrear.
Puedes confirmar que la acción se ejecutó yendo al repositorio de GitHub y visitando la pestaña "Acciones":
Realización de cambios y re-despliegue
Algo que quizá notaste es que el price de cada producto forma parte del cuerpo del documento. Lo ideal sería almacenar el precio en un campo aparte para poder aplicar filtros sobre él.
Vamos a agregar este cambio al archivo crawler.yml para usar reglas de extracción que extraigan el precio de la clase CSS de product-price :
output_sink: elasticsearch
output_index: web-crawl-index
max_crawl_depth: 1

elasticsearch:
  host: ${ES_HOST}
  api_key: ${ES_API_KEY}
     
  # Index ingest pipeline to process documents before indexing          
  pipeline_enabled: true
  pipeline: pricing-pipeline

domains:
  - url: https://web-scraping.dev
    seed_urls:
      - https://web-scraping.dev/product/1
      - https://web-scraping.dev/product/2
      - https://web-scraping.dev/product/3
    extraction_rulesets:
      - url_filters:
          - type: ends
            pattern: /product/*
        rules:
          - action: extract
            field_name: price
            selector: .product-price
            join_as: string
            source: html
También vemos que el precio incluye un signo de dólar ($), que debemos eliminar si queremos hacer consultas por rango. Podemos usar una canalización de ingesta para eso. Ten en cuenta que lo estamos haciendo referencia en nuestro nuevo archivo de configuración del rastreador arriba:
PUT _ingest/pipeline/pricing-pipeline
{
  "processors": [
    {
      "script": {
        "source": """
                ctx['price'] = ctx['price'].replace("$","")
            """
      }
    }
  ]
}
Podemos ejecutar ese comando en nuestro clúster de Elasticsearch en producción. Para el desarrollo, al ser efímero, podemos hacer que la creación de pipeline forme parte del archivo docker-compose.yml agregando el siguiente servicio. Ten en cuenta que también agregamos un depends_on al servicio de rastreo para que empiece después de que la tubería se creó con éxito.
 crawler:
    image: docker.elastic.co/integrations/crawler:0.4.2
    environment:
      - ES_HOST=http://es01:9200
      - CRAWLER_JRUBY_OPTS=--server
    container_name: crawler
    volumes:
      - ./config:/home/app/config
    networks: [esnet]
    entrypoint: ["/home/app/bin/crawler", "crawl", "/home/app/config/crawl-config-final.yml"]
    depends_on:
      pipeline-init:
        condition: service_completed_successfully
    stdin_open: true
    tty: true  


  pipeline-init:
    image: curlimages/curl:latest
    depends_on:
      es01:
        condition: service_healthy
    networks: [esnet]
    entrypoint: >
        sh -c "
        echo 'Creating ingest pipeline...';
        curl -s -X PUT http://es01:9200/_ingest/pipeline/pricing-pipeline \\
          -H 'Content-Type: application/json' \\
          -d '{\"processors\":[{\"script\":{\"source\":\"ctx.price = ctx.price.replace(\\\"$\\\", \\\"\\\")\"}}]}';
        echo 'Pipeline created!';
        "
Ahora vamos a ejecutar `./local.sh` para ver el cambio localmente:
¡Bien! Ahora impulsemos el cambio:
git add crawler-config.yml
git commit -m "added price CSS selector"
git push
Para confirmar que todo funciona, puedes comprobar tu Kibana de producción, que debería reflejar los cambios y mostrar el precio como un nuevo campo sin el signo del dólar.
Conclusión
El Elastic Open Sitio web Crawler te permite gestionar tu rastreador como código, lo que significa que puedes automatizar toda la pipeline —desde el desarrollo hasta el despliegue— y agregar entornos locales efímeros y pruebas programáticas contra los datos rastreados, por nombrar algunos ejemplos.
Se te invita a clonar el repositorio oficial y empezar a indexar tus propios datos usando este flujo de trabajo. También puedes leer este artículo para aprender a realizar búsqueda semántica en índices producidos por el rastreador.


ES| de ElasticsearchExperiencia en el editor QL frente al analizador de eventos PPL de OpenSearch
Libby Lin, George Kobar — Thu, 18 Sep 2025 00:00:00 GMT
El Lenguaje de Consultas Elasticsearch (ES|QL), disponible de forma general desde la versión 8.14, introduce un lenguaje de consulta y un motor diseñados específicamente para búsqueda, observabilidad e investigaciones de seguridad. A diferencia del Lenguaje de Procesamiento por Tuberías (PPL) de OpenSearch, que toma mucho prestado de lenguajes por tuberías existentes, ES|QL se construyó desde cero para centrar en el pulido, la usabilidad y una integración fluida en toda la plataforma Kibana.
En este blog, exploraremos la experiencia de desarrollador del ES|QL Editor en Elasticsearch 9.1 comparándolo con PPL en el Event Analyzer (PPL para abreviar) en OpenSearch 3.2.
Las diferencias se hacen evidentes rápidamente: el ES|QL Editor ofrece autocompletado inteligente, ayuda contextual, consultas recomendadas y soporte para consultas entre clústeres que empoderan no solo a usuarios principiantes, sino también a expertos en nivel profesional. El diseño pensado para ES|La autoría QL se observa también en la inspección integrada de consultas y la integración holística a través de flujos de trabajo Kibana, por ejemplo, con Consultas Recientes.
PPL, en cambio, carece de soporte comparable para autocompletado, guía contextual y consultas distribuidas, lo que crea una curva de aprendizaje más pronunciada y más prueba y error.
Creación de ES|QL es más fácil de aprender y usar
Empezar con un nuevo lenguaje de consulta a menudo puede resultar abrumador. El ES|QL Editor, integrado directamente en Kibana Discover, está diseñado para facilitar ese proceso apoyando no solo la creación y depuración de consultas, sino también acelerando la rapidez con la que te familiarizas y te sientes cómodo con el lenguaje. Como el editor ayuda a reducir la fricción en las tareas cotidianas, puedes cambiar tu enfoque de la sintaxis y el ensayo y error a la solución. Puedes leer más sobre estos principios y cómo los integramos en el editor aquí.
Esta experiencia como editor no se limita a Discover; es un módulo de código reutilizable que estamos trabajando en integrar en otras partes de Kibana, como paneles de control, alertas de Kibana y mapas de Kibana.
Autocompletado inteligente: acelerando la creación de tu consulta
El autocompletado en ES|QL Editor es completo, ofreciendo sugerencias para funciones, argumentos, literales e incluso funciones anidadas compatibles, una capacidad notablemente ausente en PPL. De hecho, fue reconstruida desde cero, como se explica aquí.
La validación se ejecuta a medida que el usuario escribe, como se describe aquí, y sugerirá campos y también notificará al usuario sobre errores. Esto reduce la carga mental de los usuarios y ayuda a prevenir errores al principio del proceso de creación de la consulta.
Ejemplo: Se sugieren campos y funciones compatibles en este anidamiento:
Algo que PPL no soporta:
Incluso con un autocompletado inteligente guiándote a través de funciones compatibles, argumentos y funciones anidadas, puede que aún quieras entender más a fondo las opciones disponibles. Aquí es precisamente donde ES|La ayuda contextual de QL Editor se vuelve invaluable, ofreciendo asistencia inmediata dentro del editor para aclarar y mejorar el desarrollo de tus consultas.
Ayuda contextual al alcance de tu mano
Información adicional sobre un comando generado por autocompletado está a un clic Ctrl-Espacio de distancia. Aparece inmediatamente un panel con detalles sobre la función, argumento o campo en cuestión. Esta interacción ligera mantiene a los desarrolladores en el flujo, proporcionando orientación justo a tiempo sin obligarles a abandonar el editor ni buscar en documentación externa. Esto reduce el tiempo perdido en búsquedas de sintaxis y ayuda a prevenir errores comunes antes de que ocurran.
Así es como se ve en acción:
PPL carece de este nivel de guía integrada, lo que obliga a los usuarios a depender de documentos externos o de prueba y error. Esa ausencia no es solo una característica que falta; Pone de manifiesto una disparidad más amplia en la filosofía del diseño. ES|QL prioriza una experiencia reflexiva y consciente del contexto que se adapta a los datos y al flujo de trabajo del usuario. Esta diferencia se hace más pronunciada a medida que las consultas se vuelven más complejas, haciendo que ES|QL Editor es un entorno más eficiente y fiable tanto para el aprendizaje como para el uso en producción.
Consultas recomendadas que sean conscientes del contexto de los datos
El ES|QL Editor proporciona consultas recomendadas que se adaptan automáticamente a los datos con los que trabajas, como los registros. En lugar de presentar un editor en blanco, pone a la luz los puntos de partida más relevantes para casos de uso comunes. Seleccionar una consulta recomendada genera una consulta canónica que es inmediatamente utilizable y puede refinar según sea necesario. Este enfoque acelera el desarrollo de consultas, especialmente para nuevos usuarios que aún no conocen la sintaxis completa.
Aquí tienes un ejemplo en el que un usuario selecciona la consulta "Detectar punto de cambio":
Compáralo con la experiencia de PPL:
En cambio, PPL aquí solo ofrece autocompletado básico, dejándote armar las consultas sin contexto ni estructura. Esta falta de orientación puede provocar frustración y prueba y error.
Con ES|Consultas recomendadas con conocimiento de datos de QL Editor, puedes evitar empezar desde cero o memorizar la sintaxis para tareas rutinarias. El editor reduce la carga cognitiva, ayuda a prevenir errores y te permite centrarte en la resolución de problemas y en objetivos más amplios, como realizar búsquedas entre clústeres en lugar de lidiar con la construcción de consultas.
Consulta intuitiva entre clústeres
ES|El autocompletado del editor QL sigue siendo superior, incluso cuando se trabaja con múltiples clústeres remotos con CCS. He aquí por qué:
ES|QL Editor ofrece un autocompletado fluido incluso entre clústeres
Autocompletado en el ES|QL Editor soporta no solo nombres de clústeres sino también índices locales y remotos. Como se explica aquí, esto funciona gracias a una arquitectura de nodos coordinadores, que ayuda a validar y generar el plan de consulta para enviar a los nodos locales, ejecutar la consulta y agregar los resultados antes de enviarlos de vuelta al usuario. Sin introducir el nombre completo del clúster remoto, escribir ":" inicia el proceso de autocompletado para el índice remoto. Y no estás limitado al prefijo.
Esto facilita descubrir y consultar entre conjuntos de datos distribuidos sin memorizar convenciones de nombres ni cambiar de contexto.
Aquí tienes un ejemplo en el que el usuario simplemente escribe "clu:g" para localizar un índice remoto:
En marcado contraste, la PPL solo proporciona completitud básica para índices locales, con sugerencias restringidas a coincidencias con prefijos. Los clústeres remotos deben ser tipados manualmente, lo que aumenta la probabilidad de errores y ralentiza la creación de consultas.
PPL solo proporciona completitud para índices locales y las sugerencias se restringen al prefijo:
ES|QL va más allá permitiendo exclusiones directamente usando un signo negativo, dándote un control detallado sobre qué clústeres participan en tu exploración. Esta capacidad es especialmente valiosa al trabajar con entornos híbridos, donde puede ser necesario incluir u omitir conjuntos de datos específicos durante investigaciones entre clústeres.
Estas mejoras reflejan el enfoque más amplio de Elasticsearch en reducir la fricción en la búsqueda entre clústeres. Al facilitar la construcción y gestión de consultas distribuidas, ES|QL Editor permite a analistas y desarrolladores centrar en los insights en lugar de la sintaxis, mientras que PPL deja mayor parte de esa carga al usuario. Y igual que el ES|QL Editor simplifica la creación de consultas entre clústeres y también proporciona herramientas para inspeccionar cómo se ejecutan esas consultas, garantizando transparencia y monitorización del rendimiento en múltiples clústeres.
Uso de la herramienta Inspect para analizar los detalles de búsqueda entre clústeres
La Herramienta de Inspección, accesible desde el ES|QL Editor está diseñado para proporcionar metadatos con información explícita sobre la ejecución de consultas en todos los clústeres. Esta funcionalidad está habilitada en Kibana Discover y es accesible directamente en el inspector de consultas, permitiéndote analizar el progreso y los detalles de la búsqueda, algo especialmente crucial para la búsqueda entre clústeres (CCS). Esta capacidad te ayuda a monitorizar el progreso de las búsquedas y a entender cómo funcionan las consultas entre conjuntos de datos distribuidos.
Esta visibilidad detallada de la ejecución de consultas, especialmente para búsquedas distribuidas complejas, te permite garantizar un rendimiento y resolución de problemas óptimos.
Más allá de entender la mecánica de las consultas individuales, ES|QL Editor mejora aún más el recorrido del usuario al integrar profundamente funcionalidades esenciales en toda la plataforma Kibana, fomentando un flujo de trabajo fluido e ininterrumpido.
Experiencia unificada de consultas con ES|QL y Kibana
Una de las fuentes más comunes de fricción en el análisis guiado por consultas es el cambio de contexto. A menudo necesitas recordar consultas que ya escribiste. Cada interrupción rompe el foco y ralentiza las investigaciones. ES|QL Editor aborda esto integrando el historial de consultas en Kibana.
Consultas recientes
La función de Consultas Recientes en ES|QL Editor te ayuda a mantener el flujo haciendo que el trabajo pasado sea instantáneamente accesible. Dentro del ES|En el Editor QL en Discover, puedes ver, volver a ejecutar y poner estrellas en tus últimas 20 consultas, cerciorando que las consultas frecuentes o complejas estén a solo un clic de distancia. Estas consultas almacenadas también se transmiten a Kibana, integrar con paneles, visualizaciones, alertas y mapas, así que no necesitas salir de la pantalla actual ni volver a escribir comandos desde cero. Esto reduce el trabajo repetitivo, acelera las investigaciones y minimiza el riesgo de errores.
Por ejemplo, un usuario puede emplear las Consultas Recientes en ES|Editor de QL en Discover (y ponles la estrella):
Las consultas recientes están integradas en el Panel de Control:
PPL no ofrece una capacidad comparable, por lo que los usuarios dependen de copiar y pegar manualmente o notas externas para reutilizar consultas. La diferencia es más que la comodidad; refleja la estrategia de Elastic de construir ES|QL como un lenguaje verdaderamente integrado dentro del ecosistema Kibana. Con funciones como Consultas Recientes, ES|QL Editor no solo agiliza los flujos de trabajo diarios, sino que también sienta las bases para funcionalidades más avanzadas que ahora están en vista previa técnica, cerciorando que la experiencia siga evolucionando.
Conclusión
ES|QL es más que una sintaxis; refleja la estrategia de Elastic para mejorar la forma en que los usuarios buscan, exploran y analizan los datos. Con autocompletado inteligente, consultas recomendadas que consigan el contexto, guía en el editor y herramientas como Inspect, ES|QL Editor acelera el aprendizaje, reduce errores y simplifica flujos de trabajo complejos como el análisis entre clústeres. Integrado en Kibana, conecta consultas de forma fluida con paneles, alertas y visualizaciones para un flujo de trabajo ininterrumpido.
En resumen, ES|QL no es simplemente otro lenguaje canalizado; es un motor de consultas cuidadosamente diseñado combinado con una interfaz intuitiva que redefine fundamentalmente cómo interactúas con tus datos, ofreciendo una experiencia integrada, inteligente y en constante evolución que contrasta fuertemente con la naturaleza a menudo secuencial y menos guiada de OpenSearch PPL.
¿Qué viene después?
Este blog solo rasca la superficie de ES|QL. Las futuras publicaciones profundizarán en comparaciones con OpenSearch PPL y explorarán funciones geoespaciales, de visualización y de próximos editores como los Controles (ya disponibles en Dashboards), pestañas de exploración de múltiples datos, búsqueda en segundo plano, historial de consultas más completo y FUSE.
Prueba ES|QL hoy
Puedes echar un vistazo a ES|QL en proyectos Serverless de Elasticsearch totalmente gestionados con una prueba gratis. También está disponible en versiones que abarcan desde la 8.11, pero se experimenta mejor en la 8.19 y la 9.1.
Empieza en minutos en tu entorno local con un solo comando:
curl -fsSL https://elastic.co/start-local | sh


Presentamos el ES|Generador de consultas QL para el cliente Ruby de Elasticsearch
Fernando Briano — Wed, 17 Sep 2025 00:00:00 GMT
Recientemente lanzamos elastic-esql, una joya Ruby publicada bajo la licencia Apache 2. Esta gema te permite construir el ES| de ElasticConsultas QL en Ruby idiomático, que luego puedes usar con el ES|API de consulta QL. ES|QL permite a los desarrolladores filtrar, transformar y analizar los datos almacenados en Elasticsearch mediante consultas. Emplea "tuberías" ( | ) para trabajar paso a paso con los datos. La gema emplea funciones Ruby en su lugar, que puedes encadenar al objeto original para crear consultas más complejas:
ESQL:
FROM sample_data | LIMIT 2 | SORT @timestamp DESC
Rubí:
Elastic::ESQL.from('sample_data').limit(2).sort('@timestamp').descending
Instalación
La gema puede instalar desde RubyGems con:
gem install elastic-esql
O puede agregar al archivo de gemas de un proyecto:
gem 'elastic-esql'
Uso
Puedes construir una consulta completa de una vez o crear un objeto de consulta con un comando fuente como from o row y luego encadenar ES|QL métodos para construir sobre ella.
query = Elastic::ESQL.from('sample_data')
query.limit(2).sort('@timestamp')
La gema traduce el código a ES|QL en el método to_s , así que devuelve el ES|Consulta QL cuando se imprime o se convierte en una cadena:
query = Elastic::ESQL.from('sample_data').limit(2).sort('@timestamp').descending
query.to_s
# => "FROM sample_data | LIMIT 2 | SORT @timestamp DESC"
Puedes instanciar un objeto de consulta y mutar su estado inicial usando los equivalentes ! de cada función:
query = Elastic::ESQL.from('sample_data')
query.to_s
# => "FROM sample_data"
query.limit!(2).sort!('@timestamp')
query.to_s
# => "FROM sample_data | LIMIT 2 | SORT @timestamp"
La herramienta ofrece formas cómodas de encadenar pasos extra a un ES|Función QL, como enrich y sort. Una vez que llamas enrich a un objeto Elastic::ESQL , puedes encadenar on y with a él:
esql.enrich!('policy').on('a').with({ name: 'language_name' })
También puedes encadenar desc, asc, nulls_first y nulls_last a tu consulta tras usar sort:
Elastic::ESQL.from('sample_data').sort('@timestamp').asc.to_s
# => 'FROM sample_data | SORT @timestamp ASC'

Elastic::ESQL.from('sample_data').sort('@timestamp').desc.nulls_first.to_s
# => 'FROM sample_data | SORT @timestamp DESC NULLS FIRST'
También soporta cadenas personalizadas, por si quieres escribir el ES|Consulta QL tú mismo, o usa una función que aún no se agregó a la biblioteca. custom se unirán a las cadenas al final de la consulta. Los agregará a medida que se envían a la función, sin agregar ningún carácter de la tubería. Se combinarán con el resto de la consulta mediante un carácter espacio.
esql = Elastic::ESQL.from('sample_data')
esql.custom('| MY_VALUE = "test value"').to_s
# => 'FROM sample_data | MY_VALUE = "test value"'
También puedes encadenar custom funciones:
esql.custom('| MY_VALUE = "test value"').custom('| ANOTHER, VALUE')
'FROM sample_data | MY_VALUE = "test value" | ANOTHER, VALUE'
Usando el ES|QL Query Builder con el cliente Ruby
Puedes usar el constructor de consultas directamente con elasticsearch-ruby y la API esql.query enviando el objeto de consulta:
require 'elasticsearch'
require 'elastic/esql'

client = Elasticsearch::Client.new
index = 'sample_data'

query = Elastic::ESQL.from(index)
                     .sort('@timestamp')
                     .desc
                     .where('event_duration > 5000000')
                     .limit(3)
                     .eval({ duration_ms: 'ROUND(event_duration/1000000.0, 1)' })
client.esql.query(body: { query: query })
También puedes usarlo con el ES|QL Helper del cliente Ruby de Elasticsearch, para saber más:
require 'elasticsearch/helpers/esql_helper'

Elasticsearch::Helpers::ESQLHelper.query(client, query)
Como herramienta independiente
La gema está diseñada como una herramienta independiente para construir ES|QL consulta de forma idiomática. No tiene dependencias en tiempo de ejecución; puedes usarlo con el cliente oficial de Elasticsearch Ruby, o por separado.
La consulta generada puede usar con la API esql.query de cualquier forma que una aplicación interactúe con la API de Elasticsearch (Ruby o no). Una vez que una consulta se construye con elastic-esql, la cadena generada puede enviar a la API como el parámetro query en el cuerpo de la solicitud. 
Anteriormente escribí sobre el uso de Elasticsearch con las herramientas Ruby populares. Esta gema puede usar con cualquiera de las herramientas Ruby populares para consultar Elasticsearch con ES|QL.
Conclusión
Esta biblioteca está en desarrollo activo y la API final aún no se completó. Actualmente está lanzado como un avance técnico. Si tienes algún comentario sobre la API actual o su uso general, no dudes en abrir un nuevo número. Por favor, consulta el README para saber más sobre el Ruby ES|Constructor de consultas QL.


Filtrado de búsqueda vectorial: Mantenerlo relevante
Carlos Delgado — Wed, 03 Sep 2025 00:00:00 GMT
La búsqueda vectorial no es suficiente para encontrar resultados relevantes. Es muy común usar criterios de filtrado que ayudan a reducir los resultados de búsqueda y a filtrar los resultados irrelevantes.
Entender cómo funciona el filtrado en la búsqueda vectorial te ayudará a equilibrar los compromisos entre rendimiento y recordación, así como descubrir algunas de las optimizaciones que se usan para que la búsqueda vectorial sea eficiente al usar filtrado.
¿Por qué filtrar?
La búsqueda vectorial revolucionó la forma en que encontramos información relevante en grandes conjuntos de datos, permitiéndonos descubrir elementos que son semánticamente similares a una consulta.
Sin embargo, simplemente encontrar objetos similares no es suficiente. A menudo necesitamos reducir los resultados de búsqueda en función de criterios o atributos específicos.
Imagina que buscas un producto en una tienda online. Una búsqueda vectorial pura puede mostrarte artículos visualmente similares, pero también podrías filtrar por rango de precio, marca, disponibilidad o valoraciones de clientes. Sin filtrar, te presentarías con una gran variedad de productos similares, lo que dificultaría encontrar exactamente lo que buscas.
El filtrado permite un control preciso sobre los resultados de búsqueda, cerciorando que los elementos recuperados no solo se alineen semánticamente, sino que también cumplan todos los requisitos necesarios. Esto conduce a una experiencia de búsqueda mucho más precisa, eficiente y fácil de usar.
Aquí es donde Elasticsearch y Apache Lucene excelen: usar filtrado efectivo entre varios tipos de datos es una de las diferencias clave con otras bases de datos vectoriales.
Filtrado para búsqueda vectorial exacta
Existen dos formas principales de realizar búsquedas vectoriales exactas:
Usar un tipo de índice flat para tu campo de dense_vector. Esto hace que knn búsquedas empleen la búsqueda exacta en lugar de aproximada.
Emplear una consulta script_score que emplea funciones vectoriales para calcular el puntaje. Esto puede usar con cualquier tipo de índice.
Al ejecutar una búsqueda vectorial exacta, todos los vectores se comparan con la consulta. En este escenario, el filtrado ayudará al rendimiento, ya que solo se necesitan comparar los vectores que pasan el filtro.
Esto no afecta a la calidad del resultado, ya que todos los vectores se consideran de todos modos. Simplemente filtramos de antemano los resultados que no son interesantes, para poder reducir el número de operaciones.
Esto es muy importante, ya que puede ser más eficiente ejecutar una búsqueda exacta en lugar de una búsqueda aproximada cuando los filtros aplicados resultan en un pequeño número de documentos.
La regla general es usar la búsqueda exacta cuando menos de 10.000 documentos pasan el filtro. Los índices BBQ son mucho más rápidos para comparar, así que tiene sentido usar la búsqueda exacta cuando hay menos de 100k para los índices basados. Consulta esta entrada del blog para más detalles.
Si tus filtros siempre son muy restrictivos, puedes considerar indexar centrado en la búsqueda exacta en lugar de en la búsqueda aproximada, usando un tipo de índice flat en lugar de uno basado en HNSW. Para más detalles, ver las propiedades de index_options.
Filtrado para búsqueda vectorial aproximada
Al ejecutar búsqueda vectorial aproximada, cambiamos la precisión de los resultados por el rendimiento. Las estructuras de datos de búsqueda vectorial como HNSW buscan eficientemente vecinos aproximados en millones de vectores. Se centran en recuperar los vectores más similares haciendo la menor cantidad posible de comparaciones vectoriales, que son costosas de calcular.
Esto significa que otros atributos de filtrado no forman parte de los datos vectoriales. Diferentes tipos de datos tienen sus propias estructuras de indexación que son eficientes para encontrarlos y filtrarlos, como diccionarios de términos, listas de publicación y valores de documentos.
Dado que estas estructuras de datos son independientes del mecanismo de búsqueda vectorial, ¿cómo aplicamos el filtrado a la búsqueda vectorial? Hay dos opciones: aplicar filtros luego de la búsqueda vectorial (postfiltrado) o antes de la búsqueda vectorial (prefiltrado).
Cada una de esas opciones tiene sus pros y sus contras. ¡Vamos a profundizar en ellos!
Postfiltrado
El postfiltrado aplica filtros después de que se realizó la búsqueda vectorial. Esto significa que los filtros se aplican después de que se encontraron los k primeros resultados vectoriales más similares.
Obviamente, podemos obtener menos de k resultados aplicando los filtros a los resultados. Por supuesto, podríamos obtener más resultados de la búsqueda vectorial (valores k más altos), pero no estaremos seguros de obtener k o más tras aplicar los filtros.
El beneficio del postfiltrado es que no cambia el comportamiento en tiempo de ejecución de la búsqueda vectorial: la búsqueda vectorial no es consciente del filtrado. Pero sí cambia el número final de resultados obtenidos.
A continuación se muestra un ejemplo de postfiltrado usando la consulta knn. Comprueba que la cláusula de filtrado esté separada de la consulta knn:
{
  "query": {
    "bool": {
      "must": {
        "knn": {
          "field": "image-vector",
          "query_vector": [54, 10, -2],
          "k": 5,
          "num_candidates": 50
        }
      },
      "filter": {
        "term": {
          "file-type": "png"
        }
      }
    }
  }
}
El filtrado de postfiltrado también está disponible para la búsqueda de knn usando el filtro de postfiltro:
{
  "knn": {
    "field": "image-vector",
    "query_vector": [54, 10, 2],
    "k": 5,
    "num_candidates": 50
  },
  "post_filter": {
    "term": {
      "file-type": "png"
    }
  }
}
Ten en cuenta que necesitas usar una sección explícita de filtro posterior con la búsqueda de knn. Si no usas un filtro de post, la búsqueda de knn combinará los resultados de vecinos más cercanos con otras consultas o filtros en lugar de hacer un filtro de post.
Prefiltrado
Aplicar filtros antes de la búsqueda vectorial primero recuperará los documentos que cumplan con los filtros y luego transmitirá esa información a la búsqueda vectorial.
Lucene emplea BitSets para almacenar eficientemente los documentos que cumplen la condición de filtro. La búsqueda vectorial recorre entonces el grafo HNSW, teniendo en cuenta los documentos que cumplen la condición. Antes de agregar un candidato a los resultados, comprueba que esté contenido en el BitSet de documentos válidos.
Sin embargo, el candidato debe ser explorado y comparado con la consulta, aunque no sea un documento válido. La efectividad de HNSW depende de la conexión entre los vectores del grafo: si dejáramos de explorar un candidato, significaría que podríamos estar saltándonos también sus vecinos.
Piénsalo como manejar para llegar a una gasolinera. Si descartas cualquier carretera que no tenga gasolinera, es poco probable que llegues a tu destino. Puede que otras carreteras no sean lo que necesitas, pero te conectan con tu destino. ¡Lo mismo ocurre con los vectores en un grafo HNSW!
Por tanto, aplicar prefiltrado es menos eficiente que no aplicar filtros. Tenemos que trabajar en todos los vectores que visitamos en nuestra búsqueda, y desechar aquellos que no coinciden con el filtro. Estamos trabajando más y tardando más en conseguir los mejores resultados de la k.
A continuación se muestra un ejemplo de pretfiltering en la DSL de Elasticsearch Consult. Comprueba que la cláusula de filtrado ahora forma parte de la sección knn:
{
  "knn": {
    "field": "image-vector",
    "query_vector": [54, 10, -2],
    "k": 5,
    "num_candidates": 50,
    "filter": {
      "term": {
        "file-type": "png"
      }
    }
  }
}
El prefiltrado está disponible tanto para la búsqueda como para la consulta knn:
{
  "query": {
    "knn": {
      "field": "image-vector",
      "query_vector": [-5, 9, -12],
      "k": 5,
      "filter": {
        "term": {
          "file-type": "png"
        }
      }
    }
  }
}
Optimizaciones de prefiltrado
Hay un par de optimizaciones que podemos aplicar para cerciorar que el prefiltrado sea eficiente.
Podemos cambiar a búsqueda exacta si el filtro es muy restrictivo. Cuando hay pocos vectores para comparar, es más rápido realizar una búsqueda exacta en los pocos documentos que cumplen con el filtro.
Esta es una optimización que se aplica automáticamente en Lucene y Elasticsearch.
Otro método de optimización implica ignorar los vectores que no satisfacen el filtro. En su lugar, este método comprueba los vecinos de los vectores filtrados que sí pasan el filtro. Este enfoque reduce efectivamente el número de comparaciones ya que no se consideran los vectores filtrados, y continúa explorando vectores conectados al camino actual.
Este algoritmo es ACORN-1, y el proceso se describe en detalle en esta entrada del blog.
Filtrado usando la seguridad a nivel de documento
La Seguridad a Nivel de Documento (DLS) es una función de Elasticsearch que especifica los documentos que los roles de usuario pueden recuperar.
DLS se realiza mediante consultas. Un rol puede tener una consulta asociada a índices, lo que limita efectivamente los documentos que un usuario que pertenece a ese rol puede recuperar de los índices.
La consulta de rol se emplea como filtro para recuperar los documentos que coinciden con ella, y se almacenan en caché como un BitSet. Este BitSet se emplea entonces para envolver el lector Lucene subyacente, de modo que solo los documentos que se devolvieron de la consulta se consideran activos,es decir, existen en el índice y no fueron eliminados.
A medida que los documentos en tiempo real se recuperan del lector para realizar la consulta knn, solo se considerarán los documentos disponibles para el usuario. Si hay un prefiltro, se agregarán los documentos DLS a él.
Esto significa que el filtrado DLS funciona como prefiltro para la búsqueda vectorial aproximada, con las mismas participaciones de rendimiento y optimizaciones.
DLS con búsqueda exacta tendrá los mismos beneficios que aplicar cualquier filtro: cuantos menos documentos se recuperen de DLS, más eficiente será una búsqueda exacta. Considera también el número de documentos devueltos por DLS; si los roles DLS son muy restrictivos, puedes considerar usar búsqueda exacta en lugar de búsqueda aproximada.
Evaluación comparativa
En Elasticsearch, queremos cerciorarnos de que el filtrado de búsqueda vectorial sea eficiente. Disponemos de un benchmark específico para el filtrado vectorial que realiza búsquedas vectoriales aproximadas con diferentes filtros para cerciorar que la búsqueda vectorial siga recuperando resultados relevantes lo más rápido posible.
Consulta las mejoras cuando se introdujo ACORN-1. Para pruebas en las que solo el 2% de los vectores pasan el filtro, la latencia de consulta se reduce al 55% de la duración original:
Conclusión
El filtrado es una parte integral de la búsqueda. Cerciorar que el filtrado sea eficiente en la búsqueda vectorial y comprender los compromisos y optimizaciones es lo que hace que una búsqueda sea eficiente y precisa o fracase.
El filtrado afecta al rendimiento de la búsqueda vectorial:
La búsqueda exacta es más rápida cuando se usa filtrado. Deberías considerar usar la búsqueda exacta en lugar de la aproximada si tu filtrado es lo suficientemente restrictivo. Esta es una optimización automática en Elasticsearch.
La búsqueda aproximada es más lenta cuando se emplea prefiltrado. El prefiltrado nos permite obtener los k primeros resultados que coinciden con el filtro, a costa de una búsqueda más lenta.
El postfiltrado no necesariamente recupera los k primeros resultados, ya que pueden filtrar mediante el filtro cuando se aplica.
¡Feliz filtrado!


Fragmentos y réplicas de Elasticsearch: Una guía práctica
Piotr Przybyl — Thu, 14 Aug 2025 00:00:00 GMT
Elasticsearch potencia Lucene construyendo un sistema distribuido sobre él, que aborda los problemas de escalabilidad y tolerancia a fallos. También expone una API REST basada en JSON, lo que facilita mucho la interoperabilidad con otros sistemas.
Sistemas distribuidos como Elasticsearch pueden ser muy complejos, con muchos factores que pueden afectar su rendimiento y estabilidad. Los fragmentos son uno de los conceptos más fundamentales en Elasticsearch, y entender cómo funcionan te permitirá gestionar eficazmente un clúster de Elasticsearch.
Este artículo explica qué son los shards primarios y réplica, su impacto en un clúster de Elasticsearch y qué herramientas existen para ajustarlos a diferentes demandas.
Entendiendo fragmentos
Los datos en un índice de Elasticsearch pueden crecer a proporciones enormes. Para mantenerlo manejable, cada dato se almacena en un índice, y los índices son un índice dividido en varios fragmentos. Cada fragmento de Elasticsearch es un índice de Lucene Apache, donde cada índice individual de Lucene contiene un subconjunto de los documentos del índice de Elasticsearch. Dividir los índices de esta manera mantiene el uso de recursos bajo control. Un índice de Lucena apache tiene un límite de 2.147.483.519 (2³¹ - 129) documentos.
A veces, es necesario mover índices entre nodos para fines de reequilibrio. Dado que este proceso puede requerir tanto tiempo como recursos, los índices no deberían crecer demasiado, lo que ayuda a mantener el tiempo de recuperación manejable. Además, dado que los índices están compuestos por segmentos de Lucene que deben fusionar constantemente, es importante que los segmentos no se hagan demasiado grandes. Por estas razones, Elasticsearch divide los datos del índice en fragmentos más pequeños y manejables, llamados fragmentos primarios, que pueden distribuir más fácilmente entre varias máquinas. Los fragmentos réplica son simplemente una copia exacta de un fragmento primario correspondiente y repasaremos su función más adelante en este artículo.
Tener el número adecuado de fragmentos es importante para el rendimiento. Por tanto, es prudente planear con antelación. Cuando las consultas se ejecutan en diferentes fragmentos en paralelo, se ejecutan más rápido que un índice compuesto por un solo fragmento, pero solo si cada fragmento está ubicado en un nodo diferente y hay suficientes nodos en el clúster. Sin embargo, al mismo tiempo, los fragmentos consumen memoria y espacio en disco, tanto en términos de datos indexados como de metadatos de clúster. Tener demasiados fragmentos (también conocido como sobrefragmentación) puede ralentizar consultas, solicitudes de indexación y operaciones de gestión, por lo que mantener el equilibrio adecuado es fundamental.
El número de fragmentos primarios se define en el momento de la creación del índice para esa instancia específica del índice. Si necesitas un número diferente de fragmentos primarios más adelante, puedes usar las APIs de redimensionamiento: split (más shards primarios), shrink (menos shards primarios) o clone (el mismo número de shards primarios con nuevos ajustes para réplicas). Estas operaciones copian los segmentos de Lucene y evitan una reindexación completa de todos los documentos. Al crear un índice, puedes establecer el número de fragmentos primarios y réplica como ajustes del índice:
PUT /sensor
{
   "settings" : {
       "index" : {
           "number_of_shards" : 6,
           "number_of_replicas" : 2
       }
   }
}
(Si no especificas el número de fragmentos o réplicas, el valor por defecto de ambos es 1, según Elasticsearch 7.0). El número ideal de fragmentos debe determinar en función de la cantidad de datos en un índice. Generalmente, un shard óptimo debe contener entre 10 y 50GB de datos, con menos de 200 millones de documentos por shard. Por ejemplo, si esperas acumular alrededor de 300GB de registros de aplicaciones en un día, tener alrededor de 10 fragmentos en ese índice sería razonable, siempre que tengas suficientes nodos para alojarlos.
Durante su vida, los fragmentos pueden pasar por varios estados, entre ellos:
Inicializar: Un estado inicial antes de que se pueda usar el fragmento.
Comenzó: Un estado en el que el fragmento está activo y puede recibir solicitudes.
Reubicación: Un estado que ocurre cuando los fragmentos están en proceso de mover a otro nodo. Esto puede ser necesario bajo ciertas condiciones, por ejemplo, cuando el nodo en el que están se está quedando sin espacio en disco.
No asignado: El estado de un fragmento que no fue asignado. Se proporciona una razón cuando esto ocurre, por ejemplo, si el nodo que aloja el fragmento ya no está en el clúster (NODE_LEFT) o debido a la restauración en un índice cerrado (EXISTING_INDEX_RESTORED).
Para ver todos los fragmentos, sus estados y otros metadatos, puedes usar la siguiente solicitud:
GET _cat/shards
Para ver fragmentos de un índice específico, puedes agregar el nombre del índice a la URL, por ejemplo, sensor:
GET _cat/shards/sensor
Este comando produce una salida, como en el siguiente ejemplo. Por defecto, las columnas que aparecen incluyen el nombre del índice, el nombre (es decir, número) del fragmento, si es un fragmento principal o una réplica, su estado, el número de documentos, el tamaño en disco, así como la dirección IP y el ID del nodo donde se encuentra el fragmento.
sensor 5 p STARTED    0  283b 127.0.0.1 ziap
sensor 5 r UNASSIGNED                  
sensor 2 p STARTED    1 3.7kb 127.0.0.1 ziap
sensor 2 r UNASSIGNED                  
sensor 3 p STARTED    3 7.2kb 127.0.0.1 ziap
sensor 3 r UNASSIGNED                  
sensor 1 p STARTED    1 3.7kb 127.0.0.1 ziap
sensor 1 r UNASSIGNED                  
sensor 4 p STARTED    2 3.8kb 127.0.0.1 ziap
sensor 4 r UNASSIGNED                  
sensor 0 p STARTED    0  283b 127.0.0.1 ziap
sensor 0 r UNASSIGNED
Comprensión de réplicas
Aunque cada fragmento contiene una única copia de los datos, un índice puede contener varias copias del fragmento. Por tanto, existen dos tipos de fragmentos: el fragmento principal y una copia, o réplica. Cada réplica de un fragmento primario siempre se encuentra en un nodo diferente, lo que garantiza una alta disponibilidad de tus datos en caso de fallo de un nodo. Además de la redundancia y su papel en la prevención de la pérdida de datos y el tiempo de inactividad, las réplicas también pueden ayudar a mejorar el rendimiento de búsqueda al permitir que las consultas se procesen en paralelo con el shard primario y, por tanto, más rápido.
Existen diferencias importantes en el comportamiento de los fragmentos primarios y réplica. Aunque ambos son capaces de procesar consultas, las solicitudes de indexación (es decir, Agregar datos al índice) debe pasar primero por los fragmentos primarios antes de poder replicar en los fragmentos réplica. Como se indicó antes, si un fragmento primario deja de estar disponible—por ejemplo, debido a una desconexión de nodo o fallo de hardware—se promueve una réplica para asumir su función.
Aunque las réplicas pueden ayudar en caso de fallo de un nodo, es importante no tener demasiadas porque consumen memoria, espacio en disco y potencia de cálculo al indexar. Otra diferencia entre los fragmentos primarios y las réplicas es que, aunque el número de fragmentos primarios no puede cambiar una vez creado el índice, el número de réplicas puede modificar dinámicamente en cualquier momento actualizando la configuración del índice.
Otro factor a considerar con las réplicas es el número de nodos disponibles. Las réplicas siempre se colocan en nodos diferentes del fragmento primario, ya que dos copias de los mismos datos en el mismo nodo no ofrecerían protección si el nodo fallara. Como resultado, para que un sistema soporte n réplicas, debe haber al menos n + 1 nodos en el clúster. Por ejemplo, si hay dos nodos en un clúster y un índice está configurado con seis réplicas, solo se asignará una réplica. Por otro lado, un sistema con siete nodos es perfectamente capaz de manejar un fragmento principal y seis réplicas.
Optimización de fragmentos y réplicas
Incluso después de que se creó un índice con el equilibrio adecuado entre fragmentos primarios y réplica, estos deben ser monitorizados, ya que la dinámica alrededor de un índice cambia con el tiempo. Por ejemplo, al tratar con datos de seriales temporales, los índices con datos recientes suelen estar más activos que los más antiguos. Sin ajustar estos índices, todos consumirían la misma cantidad de recursos, a pesar de sus requisitos muy diferentes.
La API de índices de rollover puede usar para separar índices más nuevos y antiguos. Se puede configurar para crear automáticamente un nuevo índice una vez alcanzado cierto umbral—el tamaño del índice en el disco, el número de documentos o la antigüedad. Esta API también es útil para mantener bajo control el tamaño de los fragmentos. Dado que el número de fragmentos no puede modificar fácilmente tras la creación del índice, los fragmentos seguirán acumulando datos si no se cumplen las condiciones de rollover. Para índices antiguos que solo requieren acceso poco frecuente, reducir y forzar la fusión de un índice son dos formas diferentes de reducir su huella de memoria y disco. La primera reduce el número de fragmentos en un índice, mientras que la segunda reduce el número de segmentos Lucene y libera espacio empleado por documentos que fueron eliminados.
Fragmentos primarios y réplica como base de Elasticsearch
Elasticsearch construyó una estable reputación como plataforma distribuida de almacenamiento, búsqueda y análisis para enormes volúmenes de datos. Sin embargo, al operar a tal escala, inevitablemente surgen desafíos. Por eso entender cómo funcionan los fragmentos primarios y réplica es tan importante y fundamental para Elasticsearch, ya que esto puede ayudar a optimizar la fiabilidad y el rendimiento de la plataforma.
Saber cómo funcionan y cómo optimizarlos es fundamental para lograr un clúster de Elasticsearch más robusto y eficiente. Si experimentas respuestas lentas o cortes de información con regularidad, este conocimiento puede ser la clave para superar estos obstáculos.
Sigue la documentación oficial de Elasticsearch para saber más sobre clústeres, nodos y fragmentos, cómo dimensionar tus fragmentos, asignación y recuperación de fragmentos.
Este tema también está disponible como curso introductorio en el canal de YouTube de Elastic Community.
Por último, pero no menos importante: si no quieres preocuparte por nodos, fragmentos o réplicas, puedes probar Elastic Cloud Serverless. Esta oferta de Elastic Cloud está completamente gestionada por Elastic y automatizada para escalar con tu carga de trabajo. Una prueba gratis puede ayudarte a familiarizarte con otros beneficios del enfoque sin servidor.


Cómo mostrar los campos de un índice de Elasticsearch
JD Armada — Wed, 06 Aug 2025 00:00:00 GMT
En este artículo, hablaremos de cómo mostrar los campos de un índice de Elasticsearch. Esto puede ser útil para entender la estructura de tus datos, identificar campos específicos y solucionar problemas. Vamos a tratar los siguientes temas:
Uso de la API _mapping para recuperar información de campos
Uso de la API _search para mostrar los valores de los campos
Visualización de subcampos
_source sintética
Campos de tiempo de ejecución
1. Uso de la API _mapping para recuperar información de campo
La API _mapping permite recuperar la definición de mapeo para un índice o varios índices. Esto incluye información sobre los campos, sus tipos de datos y otras propiedades. Para recuperar el mapeo de un índice específico, emplee la siguiente petición:
GET //_mapping
Por ejemplo, si tienes un índice llamado my_index, puedes recuperar su mapeo con la siguiente petición:
GET /my_index/_mapping
La respuesta incluirá la definición de mapeo para el índice, que contiene información sobre los campos y sus propiedades.
También es posible recuperar el mapeo de un campo específico. Esto puede ser útil si tu mapeo es bastante grande y solo quieres centrarte en un campo específico. Para recuperar el mapeo de un campo específico, emplee la siguiente petición:
GET /my_index/_mapping/field/my_field
También puedes recuperar las asignaciones de varios campos separando sus nombres con comas, como en la siguiente petición:
GET /my_index/_mapping/field/my_field_1,my_field_2,my_field_3
2. Uso de la API _search para mostrar los valores de los campos
Para mostrar los valores de los campos en un índice de Elasticsearch, puedes usar la API _search . La API _search te ofrece múltiples formas de controlar qué campos se devuelven; Los dos principales son:
_source: El campo _source contiene el cuerpo original del documento JSON exactamente como estaba indexado, incluyendo cualquier cambio realizado por las canalizaciones de ingestión o pasos de preprocesamiento. Para mostrar campos específicos del documento fuente, implementa filtrado de fuentes como veremos a continuación.
fields: El parámetro fields te permite recuperar campos específicos de tus documentos al realizar una búsqueda, basándote en el mapeo de índice. A diferencia de _source, fields también puede devolver valores de campos almacenados, valores de documentación o campos de ejecución sin referenciar la _source, aunque para campos estándar sin valores de documento ni configuraciones almacenadas, vuelve a _source. Esto puede aportar muchos beneficios como el rendimiento y más, como veremos a continuación.
Uso del campo _source 
Por defecto, la API _search devuelve el campo _source , que contiene el documento JSON original que se indexó. Para mostrar campos específicos, puedes agregar filtros en el parámetro _source de la solicitud de búsqueda; Esto se llama filtrado de fuente.
Aquí tienes un ejemplo de una solicitud de búsqueda que devuelve los valores de los campos title y author para documentos en el índice my_index :
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "_source": ["title", "author"]
}
En este ejemplo, el parámetro _source especifica los campos que se deben devolver.
Si necesitas aún más control, puedes usar las propiedades de includes y excludes del objeto _source. Por ejemplo, la consulta siguiente devuelve el campo title de nivel superior y todos los subcampos de author excepto author.description.
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "_source": {
     “includes”: [“title”, “author.*],
     “excludes”: [“author.description”]
  }
}
En este ejemplo, usamos el patrón author.* para recuperar todos los subcampos directos del objeto author . Luego excluimos explícitamente author.description para que solo se devuelvan los otros campos de autor. Ten en cuenta que esto no tiene mejoras de rendimiento ya que aún tiene que cargar y analizar el JSON de origen, pero puede reducir el tamaño de la respuesta enviada por la red.
Uso del parámetro de campos
Puedes usar el parámetro fields para filtrar los campos que aparecen en la respuesta de búsqueda. Emplear fields _source ofrece varios beneficios, entre ellos:
Mejora de rendimiento: fields puede devolver valores directamente desde campos almacenados o valores de documentos sin tener que cargar toda la _source, haciendo que el tamaño de la carga útil de respuesta sea menor.
Salida formateada: Para campos estándar, fields puede recurrir a _source para obtener los valores, pero revisa el mapeo del índice para formatear correctamente la salida, como las fechas formateadas, haciéndolas consistentes con lo que se usa para agregaciones y ordenación.
Acceso a campos de tiempo de ejecución: fields puede devolver campos de tiempo de ejecución, que no existen en el _sourceoriginal.
Aquí se pueden encontrar más beneficios.
Por ejemplo, para devolver solo los campos title y author en el índice my_index , puedes usar la siguiente solicitud de búsqueda:
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "fields": ["title", "author"],
  "_source": false
}
En la consulta anterior, ponemos el campo _source en false para no devolver el documento fuente. Esto puede minimizar significativamente el tamaño de la carga útil para la respuesta, pero recuerda que esto solo funciona porque los campos title y author son del tipo keyword campo, que doc_values habilitaron por defecto. Si el campo no tiene doc_values activado y el _source está configurado como falso, Elasticsearch no tendría forma de recuperarlos y se omitiría en la respuesta.
Es importante señalar que la respuesta fields siempre devuelve un array de valores para cada campo, incluso si solo hay un único valor. Esto se debe a que Elasticsearch no tiene un tipo de array dedicado, y cualquier campo puede tener varios valores. Para más información sobre los arrays en Elasticsearch, haz clic aquí.
Otras formas de recuperar campos
Aunque recuperar campos usando _source o fields son los métodos recomendados, existen diferentes métodos disponibles para casos de uso específicos, como:
Campos de valor de documentos: Si quieres evitar _source por completo, puedes buscar usando el parámetro docvalue_fields . Los valores de documentación almacenan los mismos valores de campo que _source pero en una estructura de datos en disco, optimizada para ordenar y agregar.
Como está separado de los valores almacenados con _source, puedes aplicar campos específicos sin cargar toda la _source. Esto es útil si consultas documentos grandes pero solo necesitas unos pocos campos pequeños que soporten valores de documentos. Otro caso de uso para usar docvalue_fields es cuando quieres usar formato personalizado en campos date y numeric , como veremos en el ejemplo más abajo.
Ten en cuenta que esto solo funciona para campos que activas doc_values o para tipos de campos que lo tienen activado por defecto, como keyword, date, tipos numéricos y boolean, no para text o annotated_text.
En este ejemplo, usamos el parámetro docvalue_fields para recuperar los campos title, author, y published sin cargar el documento completo de _source :
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "docvalue_fields": [
    "title",
    "author",
    {
      "field": "published",
      "format": "epoch_millis"
    }
  ],
  "_source": false
}
Cuando se ejecuta esta consulta, Elasticsearch toma los valores directamente de su almacenamiento columnar en disco en lugar de referenciar el _source de cada documento. El campo published se devuelve con el formato epoch_millis en lugar del formato por defecto, gracias al parámetro format proporcionado en la consulta.
Campos almacenados: Si marcas explícitamente campos específicos como almacenados en el mapeo, puedes usar el parámetro stored_fields para filtrar esos campos. Esto es útil si quieres respuestas ligeras solo con esos campos específicos o para campos que almacenaste deliberadamente para recuperarlos después. Se almacena por separado de _source, por lo que este método también es útil para evitar la necesidad de cargar _source.
Es importante señalar que esta opción está desactivada por defecto y generalmente no se recomienda. Emplea filtrado de fuentes para devolver ciertos subconjuntos del documento fuente original.
En la consulta de ejemplo a continuación, usamos el parámetro stored_fields para recuperar el campo summary , que tiene la configuración de mapeo de índice "store”: true.
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "stored_fields": ["summary"]
}
Cuando se ejecuta esta consulta, Elasticsearch busca si este campo está marcado con ”store”: true, si no lo encuentra, se saltará el campo por completo.
3. Visualización de subcampos
Si tu índice contiene subcampos, puedes usar la notación de puntos para especificar el camino de campo en el parámetro fields . Ten en cuenta que los subcampos son diferentes del tipo de campo anidado. Por ejemplo, si tienes un subcampo llamado address.city, puedes incluirlo en la respuesta de búsqueda así:
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "fields": ["title", "author", "address.city"],
  "_source": false
}
En este ejemplo, la respuesta de búsqueda incluirá los valores de los campos title, author address.city .
4. _source sintético
Si quieres mantener la funcionalidad de usar _source pero también ahorrar espacio en disco, tienes la opción de usar _source sintético en tu mapeo de índice. La_source sintética es una función que permite a Elasticsearch reconstruir el _source a partir de datos existentes como campos almacenados y valores de documentos, incluso cuando _source está desactivado. Esto te permite ahorrar mucho espacio de almacenamiento a cambio de velocidades ligeramente menores en el momento de la consulta, ya que la reconstrucción se realiza sobre la marcha. Activa esta función usando los valores que aparecen a continuación en la configuración de tu índice:
PUT idx
{
  "settings": {
    "index": {
      "mapping": {
        "source": {
          "mode": "synthetic"
        }
      }
    }
  }
}
Algunos beneficios de usar _source sintéticos incluyen: visualización completa del documento al usar la API _search , filtrado de código fuente y compatibilidad con otras funciones y herramientas como Kibana que esperan _source estén disponibles, todo ello evitando la necesidad de almacenar el documento completo _source .
5. Campos de tiempo de ejecución
Los campos de ejecución te permiten definir campos guionizados en el momento de la consulta o en tu mapeo de índice bajo un bloque de ejecución. Estos campos nunca se indexan, por lo que agregar un campo en tiempo de ejecución no aumenta el tamaño del índice pero nunca aparecerá en _source. Los campos de ejecución definidos en el mapeo son persistentes y están disponibles para todas las consultas, mientras que los campos de ejecución definidos en el momento de la consulta son temporales y solo están disponibles en esa solicitud de búsqueda.
El principal beneficio de usar campos de tiempo de ejecución es la posibilidad de agregar campos a documentos luego de haberlos ingerido, simplificando así tus decisiones de mapeo. Los campos de ejecución también son ideales para enriquecer tus documentos con valores que no existen en el documento original pero que se generan mediante un script, como formatear una cadena o calcular un puntaje.
También cabe destacar que los campos de ejecución pueden perjudicar el rendimiento, ya que será necesario ejecutar un script para cada documento del conjunto de resultados. Para recuperar un campo de ejecución, también puedes usar el parámetro fields en la API _search .
Conclusión
Mostrar campos de un índice de Elasticsearch puede ir desde simplemente recuperar valores usando el mapeo de índice o el _source, hasta métodos más avanzados usando campos fields, docvalue_fieldso en tiempo de ejecución para mayor control y eficiencia. Comprender los compromisos entre diferentes métodos es clave para optimizar tus experiencias de búsqueda. Ya sea que estés optimizando cargas útiles, enriqueciendo documentos o empleando _source sintéticos para ahorrar espacio, Elasticsearch te ofrece múltiples herramientas y funciones para encontrar los datos que necesitas, de la manera que necesitas. Estas técnicas pueden ayudarte a entender la estructura de tus datos, identificar campos específicos y solucionar problemas.


Paneles impulsados por IA: de una visión a Kibana
Jeffrey Rengifo, Tomás Murúa — Wed, 16 Jul 2025 00:00:00 GMT
Kibana Lens hace que los paneles de control sean muy sencillos, pero cuando necesitas decenas de paneles, los clics se acumulan. ¿Y si pudieras hacer un boceto de un panel de control, hacer capturas de pantalla y dejar que un LLM termine todo el proceso por ti?
En este artículo, haremos que eso suceda. Crearemos una aplicación que tome una imagen de un panel de control, analice nuestros mapeos y luego genere un panel sin que tengamos que tocar Kibana en absoluto.
Pasos:
Antecedentes y flujo de trabajo de la aplicación
Preparar datos
Configuración de LLM
Funciones de aplicación
Antecedentes y flujo de trabajo de la aplicación
La primera idea que se me ocurrió fue dejar que el LLM generara todo el formato NDJSON de los objetos almacenados de Kibana y luego los importara a Kibana.
Probamos algunos modelos:
Gemini 2.5 pro
GPT o3 / o4-mini-alto / 4,1
Claude 4 soneto
Grok 3
Deepseek (Deepthink R1)
Y para los prompts, empezamos tan sencillos como:
You are an Elasticsearch Saved-Object generator (Kibana 9.0).
INPUTS
=====
1. PNG screenshot of a 4-panel dashboard (attached).
2. Index mapping (below) – trimmed down to only the fields present in the screenshot.
3. Example NDJSON of *one* metric visualization (below) for reference.

TASK
====
Return **only** a valid NDJSON array that recreates the dashboard exactly:
* 2 metric panels (Visits, Unique Visitors)
* 1 pie chart (Most used OS)
* 1 vertical bar chart (State Geo Dest)
* Use index pattern `kibana_sample_data_logs`.
* Preserve roughly the same layout (2×2 grid).
* Use `panelIndex` values 1-4 and random `id` strings.
* Kibana version: 9.0
A pesar de repasar algunos ejemplos de planos y explicaciones detalladas sobre cómo construir cada visualización, no tuvimos suerte. Si te interesa esta experimentación, puedes encontrar detalles aquí.
El resultado de este enfoque fue ver estos mensajes al intentar subir a Kibana los archivos producidos por el LLM:
Esto significa que el JSON generado es inválido o está mal formateado. Los problemas más comunes eran que el LLM producía NDJSON incompleto, alucinaban parámetros o devolvían JSON normal en lugar de NDJSON, por mucho que intentáramos hacer cumplir lo contrario.
Inspirados por este artículo —donde las plantillas de búsqueda funcionaban mejor que el estilo libre de un LLM— decidimos dar plantillas al LLM en lugar de pedir generar el archivo NDJSON completo y luego, en código, usar los parámetros dados por el LLM para crear las visualizaciones adecuadas. Este enfoque no decepcionó, y es previsible y ampliable, ya que ahora el código hace el trabajo duro y no el LLM.
El flujo de trabajo de la aplicación será el siguiente:
Omitiremos algo de código para simplificar, pero puedes encontrar el código funcional de la aplicación completa en este cuaderno.
Prerrequisitos
Antes de empezar a desarrollar, necesitarás lo siguiente:
Python 3.8 o superior
Un entorno Venv Python
Una instancia de Elasticsearch en ejecución, junto con su endpoint y clave API
Una clave de API de OpenAI almacenada bajo el nombre de la variable de entorno OPENAI_API_KEY:
export OPENAI_API_KEY="your-openai-api-key"
Preparar datos
Para los datos, lo mantendremos sencillo y usaremos registros sitio web de muestra de Elastic. Puedes aprender cómo importar esos datos a tu clúster aquí.
Cada documento incluye detalles sobre el anfitrión que emitió las solicitudes a la aplicación, junto con información sobre la propia solicitud y su estado de respuesta. A continuación se muestra un documento de ejemplo:
{
    "agent": "Mozilla/5.0 (X11; Linux i686) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24",
    "bytes": 8509,
    "clientip": "70.133.115.149",
    "extension": "css",
    "geo": {
        "srcdest": "US:IT",
        "src": "US",
        "dest": "IT",
        "coordinates": {
            "lat": 38.05134111,
            "lon": -103.5106908
        }
    },
    "host": "cdn.elastic-elastic-elastic.org",
    "index": "kibana_sample_data_logs",
    "ip": "70.133.115.149",
    "machine": {
        "ram": 5368709120,
        "os": "osx"
    },
    "memory": null,
    "message": "70.133.115.149 - - [2018-08-30T23:35:31.492Z] \"GET /styles/semantic-ui.css HTTP/1.1\" 200 8509 \"-\" \"Mozilla/5.0 (X11; Linux i686) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24\"",
    "phpmemory": null,
    "referer": "http://twitter.com/error/john-phillips",
    "request": "/styles/semantic-ui.css",
    "response": 200,
    "tags": [
        "success",
        "info"
    ],
    "@timestamp": "2025-07-03T23:35:31.492Z",
    "url": "https://cdn.elastic-elastic-elastic.org/styles/semantic-ui.css",
    "utc_time": "2025-07-03T23:35:31.492Z",
    "event": {
        "dataset": "sample_web_logs"
    },
    "bytes_gauge": 8509,
    "bytes_counter": 51201128
}
Ahora, vamos a tomar los mapeos del índice que acabamos de cargar, kibana_sample_data_logs:
INDEX_NAME = "kibana_sample_data_logs"

es_client = Elasticsearch(
    [os.getenv("ELASTICSEARCH_URL")],
    api_key=os.getenv("ELASTICSEARCH_API_KEY"),
)

result = es_client.indices.get_mapping(index=INDEX_NAME)
index_mappings = result[list(result.keys())[0]]["mappings"]["properties"]
Vamos a pasar los mapeos junto con la imagen que cargaremos más adelante.
Configuración de LLM
Configuremos el LLM para que use una salida estructurada para introducir una imagen y recibir un JSON con la información que necesitamos pasar a nuestra función para producir los objetos JSON.
Instalamos las dependencias:
pip install elasticsearch pydantic langchain langchain-openai -q
Elasticsearch nos ayudará a recuperar los mapeos de índice. Pydantic nos permite definir esquemas en Python para luego pedir al LLM que lo siga, y LangChain es el framework que facilita la llamada a LLMs y herramientas de IA.
Crearemos un esquema Pydantic para definir la salida que queremos del LLM. Lo que necesitamos saber de la imagen es el tipo de gráfico, campo, título de visualización y título del panel de control:
class Visualization(BaseModel):
    title: str = Field(description="The dashboard title")
    type: List[Literal["pie", "bar", "metric"]]
    field: str = Field(
        description="The field that this visualization use based on the provided mappings"
    )


class Dashboard(BaseModel):
    title: str = Field(description="The dashboard title")
    visualizations: List[Visualization]
Para la entrada de imagen enviaremos un panel de control que acabo de dibujar:
Ahora declaramos la llamada al modelo LLM y la carga de imagen. Esta función recibirá los mapeos del índice de Elasticsearch y una imagen del panel de control que queremos generar.
Con with_structured_output podemos usar nuestro esquema de Dashboard Pydantic como objeto de respuesta que producirá el LLM. Con Pydantic, podemos definir modelos de datos con validación, lo que garantiza que la salida del LLM coincida con la estructura esperada.
Para convertir la imagen a base64 y enviarla como entrada, puedes usar un convertidor online o hacerlo en código.
prompt = f"""
    You are an expert in analyzing Kibana dashboards from images for the version 9.0.0 of Kibana.

    You will be given a dashboard image and an Elasticsearch index mapping.

    Below are the index mappings for the index that the dashboard is based on.
    Use this to help you understand the data and the fields that are available.

    Index Mappings:
    {index_mappings}

    Only include the fields that are relevant for each visualization, based on what is visible in the image.
    """

message = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": prompt},
            {
                "type": "image",
                "source_type": "base64",
                "data": image_base64,
                "mime_type": "image/png",
            },
        ],
    }
]


try:
    llm = init_chat_model("gpt-4.1-mini")
    llm = llm.with_structured_output(Dashboard)
    dashboard_values = llm.invoke(message)

    print("Dashboard values generated by the LLM successfully")
    print(dashboard_values)
except Exception as e:
    print(f"Failed to analyze image and match fields: {str(e)}")
El LLM ya tiene contexto sobre los paneles Kibana, así que no necesitamos explicar todo en el prompt, solo algunos detalles para cerciorarnos de que no olvide que está funcionando con Elasticsearch y Kibana.
Vamos a desglosar el prompt:
            
              
                
                    
                      Sección Razón
                    
                    
                      Eres un experto en analizar paneles de Kibana a partir de imágenes para la versión 9.0.0 de Kibana. Al reforzar esto es Elasticsearch, y la versión de Elasticsearch reducimos la probabilidad de que el LLM alucine parámetros antiguos o inválidos.
                    
                    
                      Se te dará una imagen del panel de control y un mapeo de índice de Elasticsearch. Explicamos que la imagen trata sobre paneles para evitar interpretaciones erróneas por parte del LLM.
                    
                    
                      A continuación se muestran los mapeos de índices del índice en el que se basa el panel de control. Emplea esto para ayudarte a entender los datos y los campos disponibles. Mapeos de índice: {index_mappings} Es crucial proporcionar los mapeos para que el LLM pueda seleccionar campos válidos dinámicamente. De lo contrario, podríamos codificar los mapeos aquí, lo cual es demasiado rígido, o confiar en la imagen que contiene los nombres de campo correctos, lo cual no es fiable.
                    
                    
                      Incluye solo los campos relevantes para cada visualización, basándote en lo que sea visible en la imagen. Tuvimos que agregar este refuerzo porque a veces intenta agregar campos que no son relevantes para la imagen.
                    
              
            
          Esto devolverá un objeto con un serial de visualizaciones para mostrar:
"Dashboard values generated by the LLM successfully
title=""Client, Extension, OS, and Response Keyword Analysis""visualizations="[
   "Visualization(title=""Count of Client IP",
   "type="[
      "metric"
   ],
   "field=""clientip"")",
   "Visualization(title=""Extension Keyword Distribution",
   "type="[
      "pie"
   ],
   "field=""extension.keyword"")",
   "Visualization(title=""Most Used OS",
   "type="[
      "bar"
   ],
   "field=""machine.os.keyword"")",
   "Visualization(title=""Response Keyword Distribution",
   "type="[
      "bar"
   ],
   "field=""response.keyword"")"
]
Procesamiento de la respuesta de los LLM
Creamos un panel de panel de muestra 2x2 y luego lo exportamos en JSON usando la API Get a dashboard, y después almacenamos los paneles como plantillas de visualización (pastel, barra, métrica) donde podemos reemplazar algunos parámetros para crear nuevas visualizaciones con diferentes campos según la pregunta.
Puedes ver los archivos JSON de plantilla aquí. Fíjate en cómo cambiamos los valores de los objetos que queremos reemplazar más adelante por {variable_name}
Con la información que nos proporcionó el LLM, podemos decidir qué plantilla usar y qué valores reemplazar.
fill_template_with_analysis recibirá los parámetros de un único panel, incluyendo la plantilla JSON de la visualización, un título, un campo y las coordenadas de la visualización en la cuadrícula.
Luego, reemplazará los valores de la plantilla y devolverá la visualización JSON final.
def fill_template_with_analysis(
    template: Dict[str, Any],
    visualization: Visualization,
    grid_data: Dict[str, Any],
):
    template_str = json.dumps(template)
    replacements = {
	 "{visualization_id}": str(uuid.uuid4()),
        "{title}": visualization.title,
        "{x}": grid_data["x"],
        "{y}": grid_data["y"],
    }

    if visualization.field:
        replacements["{field}"] = visualization.field

    for placeholder, value in replacements.items():
        template_str = template_str.replace(placeholder, str(value))

    return json.loads(template_str)
Para simplificar, tendremos coordenadas estáticas que asignaremos a los paneles que el LLM decida crear y produciremos un panel de cuadrícula 2x2 como en la imagen anterior.
# Filling templates fields
panels = []    
grid_data = [
    {"x": 0, "y": 0},
    {"x": 12, "y": 0},
    {"x": 0, "y": 12},
    {"x": 12, "y": 12},
]


i = 0

for vis in dashboard_values.visualizations:
    for vis_type in vis.type:
        template = templates.get(vis_type, templates.get("bar", {}))
        filled_panel = fill_template_with_analysis(template, vis, grid_data[i])
        panels.append(filled_panel)
        i += 1
Dependiendo del tipo de visualización decidido por el LLM, elegiremos una plantilla de archivo JSON y reemplazaremos la información relevante usando fill_template_with_analysis , luego agregaremos el nuevo panel a un array que usaremos más adelante para crear el panel de control.
Cuando el panel esté listo, usaremos la API Crear un panel para enviar el nuevo archivo JSON a Kibana y generar el panel:
try:
    dashboard_id = str(uuid.uuid4())

    # post request to create the dashboard endpoint
    url = f"{os.getenv('KIBANA_URL')}/api/dashboards/dashboard/{dashboard_id}"

    dashboard_config = {
        "attributes": {
            "title": dashboard_values.title,
            "description": "Generated by AI",
            "timeRestore": True,
            "panels": panels,  # Visualizations with the values generated by the LLM
            "timeFrom": "now-7d/d",
            "timeTo": "now",
        },
    }

    headers = {
        "Content-Type": "application/json",
        "kbn-xsrf": "true",
        "Authorization": f"ApiKey {os.getenv('ELASTICSEARCH_API_KEY')}",
    }

    requests.post(
        url,
        headers=headers,
        json=dashboard_config,
    )

    # Url to the generated dashboard
    dashboard_url = f"{os.getenv('KIBANA_URL')}/app/dashboards#/view/{dashboard_id}"

    print("Dashboard URL: ", dashboard_url)
    print("Dashboard ID: ", dashboard_id)

except Exception as e:
    print(f"Failed to create dashboard: {str(e)}")
Para ejecutar el script y generar el panel de control, ejecuta el siguiente comando en la consola:
python .py
El resultado final será el siguiente:
Conclusión
Los LLMs muestran sus fuertes capacidades visuales al hacer texto a código o convertir imágenes en código. La API de los paneles también permite convertir archivos JSON en paneles, y con un LLM y algo de código, podemos convertir imágenes en un panel Kibana.
El siguiente paso es mejorar la flexibilidad de los gráficos del salpicadero empleando diferentes configuraciones de cuadra, tamaños y posiciones de tablero. Además, ofrecer soporte para visualizaciones y tipos de visualización más complejos sería una adición útil a esta aplicación.


Revelando patrones únicos: Guía para la agregación de términos significativos en Elasticsearch
Alexander Dávila — Mon, 07 Jul 2025 00:00:00 GMT
En Elasticsearch, una agregación significativa de términos va más allá de los términos más comunes para encontrar valores estadísticamente inusuales en un conjunto de datos. Esto nos permite descubrir ideas valiosas y patrones no evidentes. Una agregación significativa de términos proporciona una respuesta con dos parámetros útiles:
bg_count (recuento de fondo): Número de documentos encontrados en el conjunto de datos principal
doc_count: Número de documentos encontrados en el conjunto de datos resultante
Por ejemplo, en un conjunto de datos de ventas de teléfonos, podemos buscar términos significativos en las ventas del iPhone 16 como este:
GET phone_sales_analysis/_search
{
 "size": 0,
 "query": {
   "term": {
     "phone_model": {
       "value": "iPhone 16"
     }
   }
 },
 "aggs": {
   "significant_cities": {
     "significant_terms": {
       "field": "city_region",
       "size": 1
     }
   }
 }
}
Luego, la respuesta nos da:
{
 "aggregations": {
   "significant_cities": {
     "doc_count": 122,
     "bg_count": 424,
     "buckets": [
       {
         "key": "Houston",
         "doc_count": 12,
         "score": 0.1946481360617346,
         "bg_count": 14
       }

     ]
   }
 }
}
Houston no está entre las 10 principales ciudades de todo el conjunto de datos ni la ciudad principal para el iPhone 16. Sin embargo, la agregación significativa de términos mostró que el iPhone 16 se está comprando de forma desproporcionada en esta ciudad en comparación con el resto de datos. Vamos a profundizar en los números:
En el nivel superior:doc_count: 122 — La consulta coincidió con un total de 122 documentos
bg_count: 424 — El conjunto de antecedentes (todos los documentos de ventas) contiene 424 documentos
En el grupo de Houston:doc_count: 12 — Houston aparece en 12 de los 122 resultados de consulta
bg_count: 14 — Houston aparece en 14 de los 424 documentos totales del conjunto de datos de fondo
Esto nos indica que, de un total de 424 compras, solo 14 ocurrieron en Houston; Eso supone el 3,3% de todas las compras. Sin embargo, si solo miramos las ventas del iPhone 16, vemos que 12 de 122 ocurrieron en Houston, lo que supone un 9,8%, tres veces más que en todo el conjunto de datos; ¡Eso es significativo!
Así es como se ve eso en una visualización: ventas totales por city_region.
Podemos ver que hay 14 ventas en Houston, lo que la convierte en la 14ª ciudad con más ventas en el conjunto de datos.
Ahora, si aplicamos un filtro para mirar solo las ventas del iPhone 16, tenemos 12 ventas en Houston, lo que la convierte en la segunda ciudad con más ventas para este modelo específico:
Comprensión de la agregación de términos significativos
Según la documentación de Elastic, los términos significativos agregación:
"(Encuentra) términos que experimentaron un cambio significativo de popularidad medido entre un conjunto de primer plano y un de fondo."
Esto significa que emplea métricas estadísticas para comparar la frecuencia de un término en un subconjunto de datos (el conjunto de primer plano) con la frecuencia del mismo término en el conjunto padre de datos (el conjunto de fondo). De este modo, el puntaje refleja la significación estadística en lugar de la frecuencia con la que aparece un término en los datos.
Las principales diferencias entre una agregación de términos significativos y una agregación de términos normales son:
Los términos significativos comparan un subconjunto de los datos, mientras que la agregación de términos solo funciona sobre el conjunto de datos resultante de la consulta.
Los resultados de una agregación de términos son los más comunes en el conjunto de datos, mientras que los resultados de términos significativos ignoran los términos comunes para encontrar qué hace único el conjunto de datos.
Los términos significativos pueden tener un mayor impacto en el rendimiento, dado que necesitan obtener datos del disco en lugar de de la memoria, como ocurre con los términos agregación.
Aplicación práctica (análisis del comportamiento del consumidor)
Preparación de datos para el análisis
Para este análisis, generamos un conjunto de datos de ventas de teléfonos sintéticos que incluye precio, especificaciones del teléfono, demografía del comprador y opiniones. También generamos incrustaciones a partir de la retroalimentación del usuario para poder ejecutar una consulta semántica más adelante. Usamos el modelo pequeño multilingüe e5, disponible de fábrica en Elasticsearch.
Para usar este conjunto de datos en Elasticsearch:
Sube el archivo CSV (descargable desde aquí) usando la función de Upload de archivos de datos de Kibana.
Configura un campo semántico, como se muestra en este blog, llamado "embedding", que emplea el multilingual-e5-small model
Termina la importación con los valores predeterminados del tipo de campo (palabra clave para todos los campos excepto purchase_date y user_feedback). Cerciórate de agregar el nombre del índice phone_sales_analysis para poder ejecutar las consultas que se presentan aquí tal cual.
El objetivo principal de este análisis es descubrir "¿Qué diferencia a los compradores del iPhone 16 frente a otros segmentos de la población?" y segmentar a los compradores con fines de marketing. 
Este es un documento de ejemplo del conjunto de datos:
{
         "customer_type": "Returning",
         "user_feedback": "I have to say, quality is great for the price. The battery life is really good.",
         "upgrade_frequency": "2 years",
         "storage_capacity": "256GB",
         "occupation": "Technology & Data",
         "color": "Phantom Black",
         "gender": "Male",
         "price_paid": 899,
         "previous_brand_loyalty": "Mixed",
         "location_type": "Urban",
         "phone_model": "Samsung Galaxy S24",
         "city_region": "San Francisco Bay Area",
         "@timestamp": "2024-03-15T00:00:00.000-05:00",
         "income_bracket": "75000-100000",
         "purchase_channel": "Online",
         "feedback_sentiment": "positive",
         "education_level": "Bachelor",
         "embedding": "I have to say, quality is great for the price. The battery life is really good.",
         "customer_id": "C001",
         "purchase_date": "2024-03-15",
         "age": 34,
         "trade_in_model": "iPhone 13"
}
Comprensión de los patrones demográficos
Aquí, vamos a hacer un análisis sobre la población general y compararlo con hallazgos interesantes de las agregaciones significativas de términos para usuarios de iPhone 16.
Patrones normales
Para entender los patrones normales de compra, podemos agregar datos de todos los documentos de diferentes campos. Para simplificar, nos centraremos en explorar las ocupaciones de las personas que compraron un teléfono. Podemos hacer esto con una solicitud a Elasticsearch.
GET phone_sales_analysis/_search
{
 "aggs": {
   "occupation_distribution": {
     "terms": {
       "size": 5,
       "field": "occupation"
     }
   }
 },
 "size": 0
}
Esto nos indica que las principales ocupaciones en el conjunto de datos (por número de registros) son:
Patrones de los usuarios del iPhone 16
Para entender qué diferencia la gente que compró un iPhone 16, hagamos una agregación de términos en el mismo campo con un filtro para encontrar a las personas de la consulta, así:
GET phone_sales_analysis/_search
{
  "query": {
    "term": {
      "phone_model": "iPhone 16"
    }
  },
  "aggs": {
    "occupation_distribution": {
      "terms": {
        "size": 5,
        "field": "occupation"
      }
    }
  },
  "size": 0
}
Así que, para los usuarios del iPhone 16, las principales ocupaciones son:
Podemos ver que los usuarios del iPhone 16 tienen patrones de ocupación diferentes en comparación con los de otros modelos de teléfono. Usemos Kibana para visualizar fácilmente los resultados:
En este gráfico, podemos ver que la tendencia del iPhone 16 es diferente a la de toda la población.
Podemos saltarnos todo este análisis para ver qué diferencia a los usuarios del iPhone 16 de la población general mediante una agregación significativa de términos:
GET phone_sales_analysis/_search
{
  "query": {
    "term": {
      "phone_model": "iPhone 16"
    }
  },
  "aggs": {
    "occupation_distribution": {
      "significant_terms": {
        "size": 5,
        "field": "occupation"
      }
    }
  },
  "size": 0
}
En resumen, obtenemos esta respuesta:
            
              
                
                    
                      Valores de las ocupaciones para el iPhone 16 doc_count bg_count
                    
                    
                      occupation_distribution (nivel superior) 122 424
                    
                    
                      Sector Médico y Sanitario 45 57
                    
              
            
          La respuesta sugiere claramente que los usuarios del iPhone 16 tienen un caso poco común (¡leer, significativo!) número de personas en el ámbito médico y sanitario en comparación con la población general. Veamos qué significan los números de la respuesta:
En el nivel superior:doc_count: 122 — La consulta coincidió con un total de 122 documentos
bg_count: 424 — El conjunto de antecedentes (todos los documentos de ventas) contiene 424 documentos
En el ámbito Médico y Sanitario:doc_count: 45 — "Medical & Healthcare" aparece en 45 de los 122 resultados de consulta
bg_count: 57 — "Médico y Salud" aparece en 57 de los 424 documentos totales del conjunto de datos de antecedentes
De 424 compradores, 57 trabajan en el ámbito médico y sanitario — o el 13,44%. Pero cuando miramos a los compradores del iPhone 16, 45 de 122 trabajan en el ámbito médico y sanitario — eso supone el 36,88%. ¡Esto significa que tenemos el doble de probabilidades de encontrar a alguien trabajando en el ámbito médico y sanitario entre los usuarios del iPhone 16!
Podemos aplicar este mismo análisis a otros campos (edad, ubicación, rango de ingresos, etc.) para encontrar más información sobre qué hace único a los usuarios del iPhone 16. 
Segmentación del consumidor
Podemos emplear los términos agregación significativa para extraer información sobre las relaciones entre productos, categorías y segmentos de clientes. Para ello, construimos una agregación madre para la categoría que nos interesa explorar. También usamos términos significativos y una subagregación de términos normales para encontrar ideas interesantes sobre esa categoría y compararlas con lo que la mayoría de las personas en esa ocupación usan.
Por ejemplo, veamos qué prefieren las personas en algunos campos laborales:
Para aclarar el análisis, limitemos nuestra búsqueda a 3 campos de trabajo: ["Administrativo y Soporte", "Tecnología y Datos", "Médico y Sanidad"]
En el lado de las agregaciones, comenzamos con una agregación por ocupación
Agrega una subagregación: términos por modelo de teléfono—para descubrir qué modelos están comprando los usuarios que trabajan en cada campo
Agregar una segunda subagregación: términos significativos por modelos de teléfono, para encontrar qué modelos son especiales en cada campo de trabajo
GET phone_sales_analysis/_search
{
 "query": {
   "terms": {
     "occupation": [
       "Administrative & Support",
       "Technology & Data",
       "Medical & Healthcare"
     ]
   }
 },
 "aggs": {
   "occupations": {
     "terms": {
       "size": 15,
       "field": "occupation"
     },
     "aggs": {
       "general_models": {
         "terms": {
           "field": "phone_model"
         }
       },
       "significant_models": {
         "significant_terms": {
           "field": "phone_model"
         }
       }
     }
   }
 },
 "size": 0
}
Desglosemos los resultados de la agregación:
Ocupación: Administrativa y de Apoyo
Agregación de términos
Agregación de términos significativa
De esta tabla, podemos inferir que no hay diferencias significativas entre la tendencia de esta ocupación y la tendencia de toda la población
Ocupación: Tecnología y Datos
Agregación de términos
Agregación de términos significativa
Total de documentos: 424
Documentos de esta ocupación: 71
            
              
                
                    
                      Modelo de teléfono doc_count (este modelo en esta ocupación) bg_count (este modelo en todos los documentos) % en todos los documentos % en esta ocupación
                    
                    
                      Google Pixel 8 12 22 5.19% 16.90%
                    
                    
                      OnePlus 11 9 14 3.30 % 12.68%
                    
                    
                      OnePlus 12 Pro 3 3 0.71 % 4.23%
                    
                    
                      Google Pixel 8 Pro 9 21 4.95% 12.68%
                    
                    
                      Nothing Phone 2 5 8 1.89% 7.04%
                    
                    
                      Samsung Galaxy Z Fold5 4 6 1.42% 5.63%
                    
                    
                      OnePlus 12 8 20 4.72% 11.27 %
                    
              
            
          Ocupación: Medicina y Sanidad
Agregación de términos
Agregación de términos significativa
Total de documentos: 424
Documentos en esta ocupación: 57
            
              
                
                    
                      Modelo de teléfono doc_count (este modelo en esta ocupación) bg_count (este modelo en todos los documentos) % en todos los documentos % en esta ocupación
                    
                    
                      iPhone 16 45 122 28.77% 78.95%
                    
                    
                      iPhone 15 Pro Max 3 13 3.07 % 5.26%
                    
                    
                      iPhone 15 7 40 9.43% 12.28%
                    
              
            
          Veamos qué historia nos cuentan estos datos:
Los profesionales sanitarios prefieren el iPhone 16 y suelen estar muy inclinados a usar teléfonos Apple en general.
Los profesionales de tecnología y datos prefieren teléfonos Android de gama alta, pero no necesariamente usan la marca Samsung. También hay una tendencia considerable para los iPhones en esta categoría.
Los profesionales administrativos y de soporte prefieren los teléfonos Samsung y Google, pero no tienen una tendencia fuerte y única.
Agregación de términos significativos y búsqueda híbrida
La búsqueda híbrida combina la búsqueda por texto y resultados semánticos para ofrecer una experiencia de búsqueda mejorada. En este contexto, una agregación significativa de términos puede aportar información sobre los resultados de una búsqueda consciente del contexto al responder a la pregunta: ¿Qué tiene de especial este conjunto de datos en comparación con todos los documentos?Para demostrar esta característica, veamos qué modelos están sobrerrepresentados cuando los usuarios hablan de buen rendimiento: 
Vamos a construir una consulta semántica donde encontramos la mejor retroalimentación de los usuarios más cerca de la entrada de "buen rendimiento" en comparación con la incrustación de campos
También usaremos una búsqueda de texto con los mismos términos sobre el campo de texto user_feedback
También agregaremos una consulta significativa de términos para encontrar modelos telefónicos que se encuentren con más frecuencia entre estos resultados que en el conjunto de datos completo
GET phone_sales_analysis/_search
{
 "retriever": {
   "rrf": {
     "retrievers": [
       {
         "standard": {
           "query": {
             "bool": {
               "must": [
                 {
                   "match": {
                     "user_feedback": {
                       "query": "good performance",
                       "operator": "and"
                     }
                   }
                 }
               ]
             }
           }
         }
       },
       {
         "standard": {
           "query": {
             "semantic": {
               "field": "embedding",
               "query": "good performance"
             }
           }
         }
       }
     ],
    "rank_window_size": 20
   }
 },
 "aggs": {
   "Models": {
     "significant_terms": {
       "field": "phone_model"
     }
   }
 }
}
Veamos un ejemplo de los documentos que coinciden:
Esta es la respuesta que recibimos:
{
  "took": 388,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 20,
      "relation": "eq"
    },
    "max_score": 0.016393442,
    "hits": [...]
  },
  "aggregations": {
    "Models": {
      "doc_count": 20,
      "bg_count": 424,
      "buckets": [
        {
          "key": "iPhone 15",
          "doc_count": 5,
          "score": 0.4125,
          "bg_count": 40
        }
      ]
    }
  }
}
Esto nos indica que, aunque un iPhone 15 se encuentra 40 veces de un total de 424 documentos (el 9,4% de los documentos), puede encontrar 5 veces en los 20 documentos que coinciden con la búsqueda semántica de "buen rendimiento" (el 25% de los documentos). Por tanto, podemos sacar una conclusión: un iPhone 15 tiene 2,7 veces más probabilidades de encontrar cuando se habla de buen rendimiento que por casualidad.
Conclusión
Los términos significativos agregación pueden descubrir detalles únicos de un conjunto de datos comparándolo con el universo de documentos. Esto puede revelar relaciones inesperadas en nuestros datos, que van más allá del conteo de ocurrencias. Podemos aplicar términos significativos en diversos casos de uso que permiten características muy interesantes, por ejemplo:
Encuentra patrones al trabajar en la detección de fraude — identifica transacciones comunes de tarjetas de crédito robadas.
Información sobre la calidad de la marca a partir de opiniones de usuarios — detecta una marca con un número desproporcionado de malas valoraciones.
Documentos mal clasificados — documentos puntuales que pertenecen a una categoría (filtro de términos) que usan palabras poco comunes para la categoría en una descripción (agregación significativa de términos).


Construcción de un asistente RAG agente con JavaScript, Mastra y Elasticsearch
JD Armada — Tue, 01 Jul 2025 00:00:00 GMT
Esta idea se me ocurrió en medio de una liga de baloncesto de fantasía muy intensa y de alto riesgo. Me preguntaba: ¿Podría crear un agente de IA que me ayudara a dominar mis enfrentamientos semanales? ¡Absolutamente!
En esta entrada, exploraremos cómo construir un asistente RAG agente usando Mastra y una aplicación sitio web ligero en JavaScript para interactuar con él. Al conectar este agente con Elasticsearch, le damos acceso a datos estructurados de jugadores y la capacidad de ejecutar agregaciones estadísticas en tiempo real, para ofrecerte recomendaciones basadas en estadísticas de jugadores. Visita el repositorio de GitHub para seguirle; el README proporciona instrucciones sobre cómo clonar y ejecutar la aplicación por tu cuenta. 
Así debería ver cuando todo esté montado:
Nota: Esta entrada del blog se basa en "Construcción de agentes de IA con SDK de IA y Elastic". Si eres nuevo en los agentes de IA en general y en qué podrían servir, empieza por ahí.
Visión general de la arquitectura
En el núcleo del sistema se encuentra un gran modelo de lenguaje (LLM), que actúa como motor de razonamiento del agente (el cerebro). Interpreta la entrada del usuario, decide qué herramientas llamar y orquesta los pasos necesarios para generar una respuesta relevante.
El propio agente está estructurado por Mastra, un framework de agentes dentro del ecosistema JavaScript. Mastra envuelve el LLM con infraestructura backend, lo expone como un endpoint API y proporciona una interfaz para definir herramientas, indicaciones del sistema y comportamiento de agentes.
En el frontend, usamos Vite para andamiar rápidamente una aplicación sitio web React que proporciona una interfaz de chat para enviar consultas al agente y recibir sus respuestas.
Por último, tenemos Elasticsearch, que almacena estadísticas de jugadores y datos de emparejamientos que el agente puede consultar y agregar.
Fondo
Vamos a repasar algunos conceptos fundamentales:
¿Qué es el RAG agente?
Los agentes de IA pueden interactuar con otros sistemas, operar de forma independiente y realizar acciones basadas en sus parámetros definidos. El RAG agente combina la autonomía de un agente de IA con los principios de generación aumentada por recuperación, permitiendo a un LLM elegir qué herramientas llamar y qué datos usar como contexto para generar una respuesta. Lee más sobre RAG aquí.
Elegir un framework, ¿por qué ir más allá del SDK de IA?
Hay muchos frameworks de agentes de IA disponibles y probablemente oíste hablar de los más populares como CrewAI, AutoGen y LangGraph. La mayoría de estos frameworks comparten un conjunto común de funcionalidades, incluyendo soporte para diferentes modelos, uso de herramientas y gestión de memoria.
Aquí tienes una hoja comparativa de marcos de Harrison Chase (CEO de LangChain).
Lo que despertó mi interés con Mastra es que es un framework JavaScript-first diseñado para que desarrolladores full-stack integren fácilmente agentes en su ecosistema. El AI-SDK de Vercel también hace la mayoría de esto, pero donde Mastra destaca es cuando tus proyectos incluyen flujos de trabajo de agentes más complejos. Mastra mejora los patrones base establecido por el AI-SDK y en este proyecto los usaremos conjuntamente.
Marcos y consideraciones sobre la elección del modelo
Aunque estos frameworks pueden ayudarte a construir agentes de IA rápidamente, existen algunos inconvenientes a tener en cuenta. Por ejemplo, al usar cualquier otro framework fuera de agentes de IA o cualquier capa de abstracción en general, pierdes un poco de control. Si el LLM no emplea correctamente las herramientas o hace algo que no quieres, la abstracción dificulta la depuración. Aun así, en mi opinión, este equilibrio merece la facilidad y rapidez que obtienes al construir, especialmente porque estos frameworks están ganando impulso y se iteran constantemente.
De nuevo, estos frameworks son independientes de los modelos, lo que significa que puedes conectar y jugar diferentes modelos; recuerda que los modelos varían en los conjuntos de datos con los que fueron capacitados y, a su vez, varían en las respuestas que dan. Algunos modelos ni siquiera soportan la llamada de herramientas. Así que es posible cambiar y probar diferentes modelos para ver cuál te da las mejores respuestas, pero ten en cuenta que probablemente tendrás que reescribir el prompt del sistema para cada uno. Por ejemplo, usando Llama3.3 en comparación con GPT-4o, implica mucho más indicación e instrucciones específicas para obtener la respuesta que buscas.
Baloncesto de fantasía de la NBA
El baloncesto de fantasía consiste en empezar una liga con un grupo de colegas (advertencia, dependiendo de lo competitivo que sea tu grupo, esto podría afectar al estado de tus amistades), normalmente con algo de dinero en juego. Cada uno de vosotros selecciona un equipo de 10 jugadores para competir contra los 10 jugadores de otro amigo alternando semanalmente. Los puntos que contribuyen a tu puntaje global son cómo se desempeña cada uno de tus jugadores contra sus oponentes en una semana determinada.
Si un jugador de tu equipo se lesiona, es suspendido, etc., hay una lista de jugadores agentes libres disponibles para agregar a tu equipo. Aquí es donde ocurre gran parte de la dificultad en los deportes de fantasía, porque solo tienes un número limitado de fichas y todos están constantemente a la caza del mejor jugador.
Aquí es donde nuestro asistente de IA de la NBA brillará, especialmente en situaciones en las que tienes que decidir rápidamente qué jugador elegir. En lugar de tener que buscar manualmente cómo rinde un jugador contra un oponente específico, el asistente puede encontrar esos datos rápidamente y comparar promedios para darte una recomendación informada.
Ahora que ya sabes lo básico sobre el RAG agente y el baloncesto fantasy de la NBA, vamos a verlo en la práctica.
Construcción del proyecto
Si te quedas atascado en algún momento o no quieres montarlo desde cero, por favor consulta el repositorio.
Lo que vamos a cubrir
Andamiaje del proyecto:Backend (Mastra): Usa NPX Create mastra@latest para andamiar el backend y definir la lógica del agente.
Frontend (Vite + React): Usa npm create vite@latest para construir la interfaz de chat del frontend y así interactuar con el agente.
Configuración de variables de entornoInstala dotenv para gestionar las variables del entorno.
Crea un .env archiva y proporciona las variables requeridas.
Configuración de ElasticsearchCrea un clúster de Elasticsearch (ya sea localmente o en la nube).
Instala el cliente oficial de Elasticsearch.
Cerciórate de que las variables del entorno sean accesibles.
Establece conexión con el cliente.
Ingiriendo en masa datos de la NBA en ElasticsearchCrea un índice con los mapeos apropiados para permitir agregaciones.
Ingirir en masa las estadísticas de los jugadores de un archivo CSV en un índice de Elasticsearch.
Definir agregaciones de ElasticsearchConsulta para calcular promedios históricos contra un oponente específico.
Consulta para calcular los promedios de temporada contra un rival específico.
Archivo utilitario de comparación de jugadoresConsolida funciones auxiliares y agregaciones de Elasticsearch.
Construcción del agenteAgrega la definición del agente y el prompt del sistema.
Instala Zod y define herramientas.
Agregar una configuración de middleware para manejar CORS.
Integración del frontendUsando el useChat de AI-SDK para interactuar con el agente.
Crea la interfaz para mantener conversaciones bien formateadas.
Ejecutando la aplicaciónInicia tanto el backend (servidor Mestra) como el frontend (app React).
Ejemplos de consultas y uso.
Qué sigue: Hacer que el agente sea más inteligenteAgregar capacidades de búsqueda semántica para permitir recomendaciones más profundas.
Habilitar la consulta dinámica moviendo la lógica de búsqueda al servidor Elasticsearch MCP (Model Context Protocol).
Prerrequisitos
Node.js y NPM: Tanto el backend como el frontend funcionan en Node. Cerciórate de tener instalados Node 18+ y npm v9+ (que vienen incluidos con Node 18+).
Clúster de Elasticsearch: Un clúster activo de Elasticsearch, ya sea localmente o en la nube.
Clave API de OpenAI: Genera una en la página de claves API del portal para desarrolladores de OpenAI.
Estructura del proyecto
Paso 1: Estructurar el proyecto
Primero, crea el directorio nba-ai-assistant-js y navega dentro usando: 
mkdir nba-ai-assistant-js && cd nba-ai-assistant-js
Backend:
Usa la herramienta de creación de Mastra con el comando: 
npx create-mastra@latest
2. Deberías recibir algunos prompts en tu terminal; para el primero, llamaremos al backend del proyecto:
3. A continuación, mantendremos la estructura predeterminada para almacenar los archivos Mastra, así que introduzca src/.
4. Luego, elegiremos OpenAI como nuestro proveedor de LLM por defecto.
5. Finalmente, te pedirá la clave de la API de OpenAI. Por ahora, elegiremos la opción de saltarlo y proporcionarlo más adelante en un archivo .env .
Frontend:
Vuelve al directorio raíz y ejecuta la herramienta de creación de Vite usando este comando: npm create vite@latest frontend -- --template react
Esto debería crear una aplicación ligera de React llamada frontend con una plantilla específica para React.
Si todo va bien, dentro de tu directorio de proyecto, deberías estar mirando un directorio backend que contenga el código Mastra y un directorio frontend con tu app React.
Paso 2: Configuración de variables de entorno
Para gestionar claves sensibles, usaremos el paquete dotenv para cargar nuestras variables de entorno desde el .env archivo. Navega al directorio del backend e instala dotenv:
cd backend
npm install dotenv --save
2. Mientras está en el directorio backend, se proporciona un archivo example.env con las variables adecuadas para rellenar. Si creas el tuyo propio, cerciórate de incluir las siguientes variables:
# OpenAI Configuration
OPENAI_API_KEY=your_openai_api_key_here

# Elasticsearch Configuration
ELASTIC_ENDPOINT=your_elasticsearch_endpoint_here
ELASTIC_API_KEY=your_elasticsearch_api_key_here
Nota: Cerciórate de que este archivo esté excluido de tu control de versiones agregando .env a .gitignore.
Paso 3: Configuración de Elasticsearch
Primero, necesitas un clúster activo de Elasticsearch. Hay dos opciones:
Opción A: Usar Elasticsearch CloudApúntate a Elastic Cloud
Crear un nuevo despliegue
Obtén la URL de tu endpoint y la clave API (codificada)
Opción B: Ejecutar Elasticsearch localmenteInstala y ejecuta Elasticsearch localmente
Usa http://localhost:9200 como punto final
Generar una clave API
Instalación del cliente Elasticsearch en el backend:
Primero, instala el cliente oficial de Elasticsearch en tu directorio backend:
npm install @elastic/elasticsearch
2. Luego crea una lib de directorios para almacenar funciones reutilizables y navega hacia ella:
mkdir lib && cd lib
3. Dentro, crea un nuevo archivo llamado elasticClient.js. Este archivo inicializará el cliente Elasticsearch y lo expondrá para su uso en todo tu proyecto.
4. Como usamos módulos ECMAScript (ESM), __dirname and __nombre de archivo no están disponibles. Para cerciorarte de que tus variables de entorno se carguen correctamente desde el archivo .env Archivo en la carpeta de backend, agrega esta configuración en la parte superior de tu archivo:
import { config } from 'dotenv';
import { fileURLToPath } from 'url';
import { dirname, join } from 'path';
import { Client } from '@elastic/elasticsearch';

// Grab current directory and load .env from backend folder
const __filename = fileURLToPath(import.meta.url);
const __dirname = dirname(__filename);
const envPath = join(__dirname, '../.env');

// Load environment variables from the correct path
config({ path: envPath });
5. Ahora, inicializa el cliente Elasticsearch usando tus variables de entorno y comprueba la conexión:
//Elastic client Initialization, make sure environment variables are being loaded in correctly
const config= {
    node: `${process.env.ELASTIC_ENDPOINT}`,
    auth: {
        apiKey: `${process.env.ELASTIC_API_KEY}`,
    },
};

export const elasticClient = new Client(config);

//Check if the client is connected
async function checkConnection() { 
    try {
        const info = await elasticClient.info();
        console.log('Elasticsearch is connected:', info);
    } catch (error) {
        console.error('Elasticsearch connection error:', error);
    }
}

checkConnection();
Ahora, podemos importar esta instancia cliente a cualquier archivo que necesite interactuar con tu clúster de Elasticsearch.
Paso 4: Ingirir en masa datos de la NBA en Elasticsearch
Conjunto de datos:
Para este proyecto, consultaremos los conjuntos de datos disponibles en el directorio de backend/datos del repositorio. Nuestro asistente de la NBA empleará estos datos como base de conocimiento para realizar comparaciones estadísticas y generar recomendaciones.
sample_player_game_stats.csv - Estadísticas de juego de un jugador (por ejemplo, puntos, rebotes, robos, etc., por partido por jugador a lo largo de toda su carrera en la NBA). Emplearemos este conjunto de datos para realizar agregaciones. (Nota: Estos son datos simulados, pregenerados para fines demo y no provenientes de fuentes oficiales de la NBA.)
playerAndTeamInfo.js - Sustituye los metadatos de jugadores y equipos que normalmente proporcionaría una llamada a la API para que el agente pueda relacionar los nombres de jugadores y equipos con IDs. Como usamos datos de muestra, no queremos la sobrecarga de buscar desde una API externa, así que codificamos de forma fija algunos valores que el agente puede referenciar.
Implementación:
Mientras estés en el directorio backend/lib , crea un archivo llamado playerDataIngestion.js.
Configura las importaciones, resuelve la ruta del archivo CSV y configura el análisis sintáctico. De nuevo, como estamos usando ESM, necesitamos reconstruir __dirname para resolver el camino hacia el CSV de muestra. Además, importaremos Node.js módulos incorporados, fs y readline, para analizar el archivo CSV dado línea por línea.
import fs from 'fs';
import readline from 'readline';
import path from 'path';
import { fileURLToPath } from 'url';
import { elasticClient } from './elasticClient.js';

const indexName = 'sample-nba-player-data'; //Replace with your preferred index name

//Since we are using ES modules __dirname and __filename don't exist, so this is a workaround that allows us to use the absolute file path for our sample data.
const __filename = fileURLToPath(import.meta.url);
const __dirname = path.dirname(__filename);
const filePath = path.resolve(__dirname, '../data/sample_nba_data.csv');
Esto te prepara para leer y analizar eficientemente el CSV cuando lleguemos al paso de la ingestión masiva.
3. Crear un índice con el mapeo adecuado. Aunque Elasticsearch puede inferir automáticamente los tipos de campos con mapeo dinámico, queremos ser explícitos aquí para que cada estadística se trate como un campo numérico. Esto es importante porque usaremos estos campos para agregaciones más adelante. También queremos usar el tipo float para estadísticas como puntos, rebotes, etc., para cerciorarnos de incluir valores decimales. Finalmente, queremos agregar la propiedad de mapeo dynamic: 'strict' para que Elasticsearch no mapee dinámicamente campos no reconocidos. 
// Function to create an index with mappings
async function createIndex() {
    try {
        // Check if the index already exists
        const exists = await elasticClient.indices.exists({ index: indexName });

        if (exists) {
            console.log(`Index "${indexName}" already exists, deleting it now.`);
            await elasticClient.indices.delete({ index: indexName });
            console.log(`Deleted index "${indexName}".`);
        }
        // Create the index with mappings
        const response = await elasticClient.indices.create({
            index: indexName,
            body: {
                mappings: {
                    dynamic: 'strict', // Prevent dynamic mapping
                    properties: {
                        game_id: { type: 'integer' },
                        game_date: { type: 'date' },
                        player_id: { type: 'integer' },
                        player_full_name: { type: 'text' },
                        player_team_id: { type: 'integer' },
                        player_team_name: { type: 'text' },
                        home_team: { type: 'boolean' },
                        opponent_team_id: { type: 'integer' },
                        opponent_team_name: { type: 'text' },
                        points: { type: 'float' },
                        rebounds: { type: 'float' },
                        assists: { type: 'float' },
                        steals: { type: 'float' },
                        blocks: { type: 'float' },
                        fg_percentage: { type: 'float' },
                        minutes_played: { type: 'float' },
                    },
                },
            },
        });

        console.log('Index created:', response);
        return true;
    } catch (error) {
        console.error('Error creating index:', error);
        return false;
    }
}
4. Agregar la función para ingirte en masa los datos CSV en tu índice de Elasticsearch. Dentro del bloque de código, saltamos la línea de cabecera. Luego, divide cada elemento de línea por una coma y empújalos en el objeto documento. Este paso también los limpia y cerciora que sean del tipo adecuado. A continuación, enviamos los documentos al array bulkBody junto con la información del índice, que servirá como carga útil para la ingestión masiva en Elasticsearch.
async function bulkIngestCsv(filePath) {
    const readStream = fs.createReadStream(filePath);
    const rl = readline.createInterface({
        input: readStream,
        crlfDelay: Infinity,
    });

    const bulkBody = [];
    let lineNum = 0;

    //Skip the header line
    let headerLine = true;
    for await (const line of rl) {
        if (headerLine) {
            headerLine = false;
            continue;
        }
        lineNum++;

        // Split the line by comma and remove whitespace
        const [
            game_id,
            game_date,
            player_id,
            player_full_name,
            player_team_id,
            player_team_name,
            home_team,
            opponent_team_id,
            opponent_team_name,
            points,
            rebounds,
            assists,
            steals,
            blocks,
            fg_percentage,
            minutes_played,
        ] = line.split(',');

        // Create a document object
        const document = {
            game_id: parseInt(game_id),
            game_date: game_date.trim(),
            player_id: parseInt(player_id),
            player_full_name: player_full_name.trim(),
            player_team_id: parseInt(player_team_id),
            player_team_name: player_team_name.trim(),
            home_team: home_team.trim() === 'True', // Converts True/False into a boolean
            opponent_team_id: parseInt(opponent_team_id),
            opponent_team_name: opponent_team_name.trim(),
            points: parseFloat(points),
            rebounds: parseFloat(rebounds),
            assists: parseFloat(assists),
            steals: parseFloat(steals),
            blocks: parseFloat(blocks),
            fg_percentage: parseFloat(fg_percentage),
            minutes_played: parseFloat(minutes_played),
        };

        // Prepare the bulk operation format
        bulkBody.push({ index: { _index: indexName } });
        bulkBody.push(document);
    }

    console.log(`Parsed ${lineNum} lines from CSV`);
5. Luego, podemos usar la API Bulk de Elasticsearch con elasticClient.bulk() para ingirse varios documentos en una sola solicitud. La gestión de errores a continuación está estructurada para darte un recuento de cuántos documentos no se ingirieron y cuántos fueron exitosos.
try {
        // Perform the bulk request
        const response = await elasticClient.bulk({ body: bulkBody });

        if (response.errors) {
            console.log('Bulk Ingestion had some hiccups:');

            // Count successful vs failed operations
            let successCount = 0;
            let errorCount = 0;
            const errorDetails = [];

            response.items.forEach((item, index) => {
                const operation = item.index || item.create || item.update || item.delete;
                if (operation.error) {
                    errorCount++;
                    errorDetails.push({
                        document: index + 1,
                        error: operation.error,
                    });
                } else {
                    successCount++;
                }
            });

            console.log(`Successfully indexed: ${successCount} documents`);
            console.log(`Failed to index: ${errorCount} documents, here are the details`, errorDetails);

        } else {
            console.log(`Bulk Ingestion fully successful!`);
        }

    } catch (error) {
        console.error('Error performing bulk ingestion:', error);
    }
}
6. Ejecuta la función main() a continuación para ejecutar secuencialmente las funciones createIndex() y bulkIngestCsv() .
// Run this function
async function main() {
    const result = await createIndex();
    if (!result) {
        console.error('Index setup failed. Aborting.');
        return;
    }

    await bulkIngestCsv(filePath);
    console.log('Bulk ingestion completed!');
}

main();
Si ves un registro de consola que indique que la ingesta masiva fue exitosa, realiza una comprobación rápida en tu índice de Elasticsearch para ver si los documentos realmente se ingirieron con éxito.
Paso 5: Definición de agregaciones de Elasticsearch y consolidación
Estas serán las funciones principales que se emplearán cuando definamos las herramientas para el Agente de IA para comparar las estadísticas de los jugadores entre sí.
1. Navega al directorio backend/lib y crea un archivo llamado elasticAggs.js.
2. Agregar la consulta siguiente para calcular los promedios históricos de un jugador frente a un oponente específico. Esta consulta emplea un filtro bool con 2 condiciones: una que coincide con player_id y otra que coincide con la opponent_team_id, para recuperar solo los juegos relevantes. No necesitamos devolver ningún documento, solo nos importan las agregaciones, así que establecemos size:0. Bajo el bloque aggs , ejecutamos múltiples agregaciones métricas en paralelo en campos como points, rebounds, assists, steals, blocks y fg_percentage para calcular sus valores medios. Los LLMs pueden ser impredecibles con los cálculos y esto transfiere ese proceso a Elasticsearch, cerciorando que nuestro asistente de IA de la NBA tenga acceso a datos precisos.
export async function getHistoricalAveragesAgainstOpponent(player_id, opponent_team_id) {
    try {
        //Query for Historical Averages
        const historicalQuery = await elasticClient.search({
            index: 'sample-nba-player-data', 
            size: 0,
            query: {
                bool: {
                    must: [
                        {
                            term: {
                                player_id: {
                                    value: player_id,
                                },
                            },
                        },
                        {
                            term: {
                                opponent_team_id: {
                                    value: opponent_team_id,
                                },
                            },
                        },
                    ],
                },
            },
            aggs: {
                avg_points: { avg: { field: 'points' } },
                avg_rebounds: { avg: { field: 'rebounds' } },
                avg_assists: { avg: { field: 'assists' } },
                avg_steals: { avg: { field: 'steals' } },
                avg_blocks: { avg: { field: 'blocks' } },
             avg_fg_percentage: { avg: { field: 'fg_percentage' } },
            },
        });

        return {
            points: historicalQuery.aggregations.avg_points.value || 0,
            rebounds: historicalQuery.aggregations.avg_rebounds.value || 0,
            assists: historicalQuery.aggregations.avg_assists.value || 0,
            steals: historicalQuery.aggregations.avg_steals.value || 0,
            blocks: historicalQuery.aggregations.avg_blocks.value || 0,
            fgPercentage: historicalQuery.aggregations.avg_fg_percentage.value || 0,
        };
    } catch (error) {
        console.error('Query error from getHistoricalAveragesAgainstOpponent function:', error);
        return { error: 'Queries failed in getting historical averages against opponent.' };
    }
}
3. Para calcular los promedios de temporada de un jugador frente a un oponente específico, usaremos prácticamente la misma consulta que la histórica. La única diferencia en esta consulta es que el filtro bool tiene una condición adicional para game_date. El game_date del campo tiene que estar dentro del rango de la temporada actual de la NBA. En este caso, el rango está entre 2024-10-01 y 2025-06-30. Esta condición adicional a continuación garantiza que las agregaciones que sigan aislarán solo los partidos de esta temporada.
        {
                            range: {
                    //Range for this season, change to match current season
                                game_date: {
                                    gte: '2024-10-01',
                                    lte: '2025-06-30',
                                },
                            },
Paso 6: Utilidad de comparación de jugadores
Para mantener nuestro código modular y mantenible, crearemos un archivo de utilidad que consolide las funciones auxiliares de metadatos y las agregaciones de Elasticsearch. Esto alimentará la herramienta principal que emplea el agente. Más sobre eso más adelante:
1. Crear un nuevo archivo comparePlayers.js en el directorio backend/lib .
2. Agregar la función siguiente para consolidar los asistentes de metadatos y la lógica de agregación de Elasticsearch en una única función que alimente la herramienta principal empleada por el agente.
import { playersByName } from '../data/playerAndTeamInfo.js';
import { teamsByName } from '../data/playerAndTeamInfo.js';
import { upcomingMatchups } from '../data/playerAndTeamInfo.js';
import { getHistoricalAveragesAgainstOpponent } from './elasticAggs.js';
import { getSeasonAveragesAgainstOpponent } from './elasticAggs.js';

//Simple helper functions to simulate API calls for player and team metadata. These reference the hardcoded values from playerAndTeamInfo.js in the data directory
export function getPlayerInfo(playerFullName) {
    return playersByName[playerFullName];
}

export function getTeamID(teamFullName) {
    return teamsByName[teamFullName];
}

export function getUpcomingMatchups(teamId) {
    return upcomingMatchups[teamId];
}

//Main function used by the 'playerComparisonTool' agent tool
export async function comparePlayersForNextMatchup(player1Name, player2Name) {
    //Get Player Info
    const player1Info = getPlayerInfo(player1Name);
    const player2Info = getPlayerInfo(player2Name);

    //Get upcoming matchups
    const player1NextGame = getUpcomingMatchups(player1Info.team_id)[0];
    const player2NextGame = getUpcomingMatchups(player2Info.team_id)[0];

    //Get season and historical averages against next opponent for player 1
    const player1SeasonAverages = await getSeasonAveragesAgainstOpponent(
        player1Info.player_id,
        player1NextGame.opponent_team_id
    );
    const player1HistoricalAverages = await getHistoricalAveragesAgainstOpponent(
        player1Info.player_id,
        player1NextGame.opponent_team_id
    );

    //Get season and historical averages against next opponent for player 2
    const player2SeasonAverages = await getSeasonAveragesAgainstOpponent(
        player2Info.player_id,
        player2NextGame.opponent_team_id
    );
    const player2HistoricalAverages = await getHistoricalAveragesAgainstOpponent(
        player2Info.player_id,
        player2NextGame.opponent_team_id
    );

    const player1 = {
        name: player1Name,
        playerId: player1Info.player_id,
        teamId: player1Info.team_id,
        nextOpponent: {
            teamId: player1NextGame.opponent_team_id,
            teamName: player1NextGame.opponent_team_name,
            home: player1NextGame.home,
        },
        stats: {
            seasonAverages: player1SeasonAverages,
            historicalAverages: player1HistoricalAverages,
        },
    };

    const player2 = {
        name: player2Name,
        playerId: player2Info.player_id,
        teamId: player2Info.team_id,
        nextOpponent: {
            teamId: player2NextGame.opponent_team_id,
            teamName: player2NextGame.opponent_team_name,
            home: player2NextGame.home,
        },
        stats: {
            seasonAverages: player2SeasonAverages,
            historicalAverages: player2HistoricalAverages,
        },
    };

    return [player1, player2];
}
Paso 7: Construir el agente
Ahora que creaste el frontend y el backend de estructura, absorbiste datos de los partidos de la NBA y establecido una conexión con Elasticsearch, podemos empezar a juntar todas las piezas para construir el agente.
Definición del agente
1. Navega al archivo index.ts dentro del directorio backend/src/mastra/agents y agrega la definición del agente. Puedes especificar campos como:
Nombre: Dale a tu agente un nombre que se use como referencia cuando te llamen en el frontend.
Instrucciones/prompt del sistema: Un prompt del sistema proporciona al LLM el contexto inicial y las reglas a seguir durante la interacción. Es similar al prompt que los usuarios envían a través del cuadro de chat, pero este se da antes de cualquier entrada del usuario. De nuevo, esto cambiará según el modelo que elijas.
Modelo: ¿Qué LLM usar (Mastra soporta OpenAI, Anthropic, modelos locales, etc.).
Herramientas: Una lista de funciones de la herramienta que el agente puede llamar.
Memoria: (Opcional) si queremos que el agente recuerde el historial de conversaciones, etc. Para simplificar, podemos empezar sin memoria persistente, aunque Mastra la admite.
import { openai } from '@ai-sdk/openai';
import { Agent } from '@mastra/core/agent';
import { playerComparisonTool } from '../tools';

export const basketballAgent = new Agent({
    name: 'Basketball Agent',
    instructions: `
      You are a NBA Basketball expert.
      Your primary function is to compare two NBA players and recommend which one is the better fantasy pickup.

      Only compare players from the following list:
      - LeBron James
      - Stephen Curry
      - Jayson Tatum
      - Jaylen Brown
      - Nikola Jokic
      - Luka Doncic
      - Kyrie Irving
      - Anthony Davis
      - Kawhi Leonard
      - Russell Westbrook

      Input Handling Rules:
      - If the user asks about a player that is not on this list, respond with the list of available players for comparison.
      - If the user only inputs one player, ask the user to add another player from the list provided.
      - If the user inputs a player with the wrong spelling or capitalizations, infer from the list of available players provided.
      - IMPORTANT: If the user asks a question or asks you to generate a response about anything outside of basketball or the scope of this project, DO NOT answer and affirm you can only talk about basketball.

      Tool Usage:
      - Extract and standardize player names to match the list exactly.
      - Use the playerComparisonTool, passing both names as strings.
      - The tool will return an object with game information, stats, and analysis.

      Format your response using Markdown syntax. Use:

        Example output format:

       
        #### Next Game Info
        - ***LeBron James** vs Warriors, May 24 (Home)  
        - ***Stephen Curry** vs Lakers, May 24 (Away)


        #### Stats Comparison  
        \`\`\`  
        Stat                  LeBron James (vs Warriors)    Stephen Curry (vs Lakers)  
        --------------------  -----------------------------  ----------------------------  
        Historical Points     28.3                          30.3  
        Historical Assists    6.7                           8.7  
        Season Points         28.8                          23.3  
        Season Assists        6.2                           4.7  
        \`\`\`

        #### Fantasy Recommendation  
        Explain which player is the better fantasy pickup and why.
      
    `,
    model: openai('gpt-4o'),
    tools: { playerComparisonTool },
});

Definición de herramientas
Navega al archivo index.ts dentro del directorio backend/src/mastra/tools .
Instala Zod usando el comando:
npm install zod
3. Agregar definiciones de herramientas. Ten en cuenta que importamos la función dentro del archivo comparePlayers.js como la función principal que el agente usará al llamar a esta herramienta. Usando la función createTool() de Mastra, registraremos nuestro playerComparisonTool. Los campos incluyen:
id: Esta es una descripción en lenguaje natural para ayudar al agente a entender qué hace la herramienta.
input schema: Para definir la forma de la entrada de la herramienta, Mastra emplea el esquema Zod , que es una biblioteca de validación de esquema TypeScript. Zod ayuda cerciorar de que el agente reciba entradas estructuradas correctamente y evita que la herramienta se ejecute si la estructura de entrada no coincide.
description: Esta es una descripción en lenguaje natural para ayudar al agente a entender cuándo llamar y usar la herramienta.
execute: La lógica que se ejecuta cuando se llama a la herramienta. En nuestro caso, estamos usando una función auxiliar importada para devolver estadísticas de rendimiento.
import { comparePlayersForNextMatchup } from '../../../lib/comparePlayers.js'
import { createTool } from "@mastra/core/tools";
import { z } from "zod";

export const playerComparisonTool = createTool({
    id: "Compare two NBA players",
    inputSchema: z.object({
        player1:z.string(),
        player2:z.string()
    }),
    description: "Use this tool to compare two players given in the user prompt.",
    execute: async ({ context: { player1, player2 } }) => {
        return await comparePlayersForNextMatchup(player1, player2);
      },
})
Adición de middleware para manejar CORS
Agregar middleware en el servidor Mastra para manejar CORS. Dicen que hay tres cosas en la vida que no puedes evitar: la muerte, los impuestos, y para los desarrolladores web es el CORS. En resumen, el Intercambio de Recursos entre Orígenes es una función de seguridad en el navegador que bloquea al frontend para que no haga peticiones a un backend que se ejecuta en otro dominio o puerto. Aunque ejecutamos tanto el backend como el frontend en localhost, usan puertos diferentes, lo que activa la política CORS. Necesitamos agregar el middleware especificado en la documentación de Mastra para que nuestro backend permita esas peticiones desde el frontend.
1. Navega al archivo index.ts dentro del directorio backend/src/mastra y agrega la configuración para CORS:
origin: ['http://localhost:5173']Permite solicitudes solo desde esta dirección (dirección predeterminada de Vite)
allowMethods: ["GET", "POST"]Métodos HTTP que están permitidos. La mayoría de las veces, será usando POST.
allowHeaders: ["Content-Type", "Authorization", "x-mastra-client-type, "x-highlight-request", "traceparent"],Estos deciden qué encabezados personalizados pueden usar en las solicitudes
import { Mastra } from '@mastra/core/mastra';
import { basketballAgent } from './agents';

console.log('Starting Mastra server...');

export const mastra = new Mastra({
  agents: { basketballAgent },
  server:{
    timeout: 10 * 60 * 1000, // 10 minutes
    cors: {
      origin: ['http://localhost:5173'],
      allowMethods: ["GET", "POST"],
      allowHeaders: [
        "Content-Type",
        "Authorization",
        "x-mastra-client-type",
        "x-highlight-request",
        "traceparent",
      ],
      exposeHeaders: ["Content-Length", "X-Requested-With"],
      credentials: false,
    },
  },

});

console.log('Mastra server configured.'); // Log after server configuration
Paso 8: Integración del frontend
Este componente React proporciona una interfaz de chat sencilla que se conecta al agente Mastra AI usando el gancho useChat() de @ai-sdk/react. También vamos a usar este gancho para mostrar el uso de tokens, llamadas a herramientas y para renderizar la conversación. En el prompt del sistema anterior, también pedimos al agente que genere la respuesta en markdown, así que usaremos react-markdown para formatear correctamente la respuesta.
1. Mientras estés en el directorio frontend, instala el paquete @ai-sdk/react para usar el hook useChat().
npm install @ai-sdk/react
2. Mientras estés en el mismo directorio, instala React Markdown para que podamos formatear correctamente la respuesta que genera el agente.
npm install react-markdown
3. Implementar useChat(). Este gancho gestionará la interacción entre tu frontend y el backend de tu agente de IA. Gestiona el estado del mensaje, la entrada del usuario, el estado y te proporciona ganchos de ciclo de vida para fines de observabilidad. Las opciones que descartamos incluyen:
api: Esto define el punto final de tu Mastra AI Agent. Por defecto se pone en el puerto 4111 y también queremos agregar la ruta que soporta respuestas en streaming.
onToolCall: Esto se ejecuta cada vez que el agente llama a una herramienta; Lo estamos usando para rastrear qué herramientas está llamando nuestro agente.
onFinish: Esto se ejecuta después de que el agente complete una respuesta completa. Aunque activamos el streaming, onFinish seguirá ejecutar luego de recibir el mensaje completo y no luego de cada chunk. Aquí, lo estamos usando para rastrear nuestro uso de tokens. Esto puede ser útil para monitorizar los costos de los LLM y optimizarlos.
4. Por último, ve al componente ChatUI.jsx en el directorio frontend/components para crear la interfaz que mantenga nuestra conversación. A continuación, envuelve la respuesta en un componente ReactMarkdown para formatear correctamente la respuesta del agente.
import React, { useState } from 'react';
import { useChat } from '@ai-sdk/react';
import ReactMarkdown from 'react-markdown';

export default function ChatUI() {
    const [totalTokenUsage, setTotalTokenUsage] = useState(0);
    const [promptTokenUsage, setPromptTokenUsage] = useState(0);
    const [completionTokenUsage, setCompletionTokenUsage] = useState(0);
    const [toolsCalled, setToolsCalled] = useState([]);

    const { messages, input, handleInputChange, handleSubmit, status } = useChat({
        api: 'http://localhost:4111/api/agents/basketballAgent/stream', //Replace with your own endpoint for your agent
        id: 'my-chat-session',

        //Optional parameter to check agent tool calls
        onToolCall: ({ toolCall }) => {
            setToolsCalled((prev) => [...prev, toolCall.toolName]);
        },

        //Optional parameter to check token usages
        onFinish: (message, { usage }) => {
            setTotalTokenUsage((prev) => prev + usage.totalTokens);
            setPromptTokenUsage((prev) => prev + usage.promptTokens);
            setCompletionTokenUsage((prev) => prev + usage.completionTokens);
        },

        //Optional parameter for error handling
        onError: (error) => {
            console.error('Agent error:', error);
        },
    });

    return (
        
            
                What's My Agent Doing?

                
                    Tools Called:
                    
                        {toolsCalled.map((tool, idx) => (
                            {tool}
                        ))}
                        {toolsCalled.length === 0 && No tools called yet.}
                    

                    
                        Prompt Token Usage: {promptTokenUsage}
                        Completion Token Usage: {completionTokenUsage}
                        Total Token Usage: {totalTokenUsage}
                    
                
            

            Conversation:
            
                {messages.map((msg) => (
                    
                        {msg.role === 'assistant' ? 'Basketbot' : 'You'}:
                        {msg.content}
                    
                ))}
            

            
                
                
            
        
    );
}
Paso 9: Ejecutar la aplicación
¡Felicidades! Ahora estás listo para ejecutar la aplicación. Sigue estos pasos para empezar tanto el backend como el frontend.
En una ventana de terminal, empezando desde el directorio raíz, navega hasta el directorio backend e inicia el servidor Mestra:
cd backend

npm run dev
2. En otra ventana de terminal, empezando desde el directorio raíz, navega hasta el directorio frontend e inicia la aplicación React:
cd frontend

npm run dev
3. Ve a tu navegador y navega a:
http://localhost:5173
Deberías poder ver la interfaz del chat. Prueba estos ejemplos de prompts:
"Compara a LeBron James y Stephen Curry"
"¿A quién debería elegir entre Jayson Tatum y Luka Doncic?"
Qué sigue: Hacer que el agente sea más inteligente
Para que el asistente sea más agenciado y las recomendaciones más perspicaces, agregaré algunas mejoras clave en la próxima iteración.
Búsqueda semántica de noticias de la NBA
Hay un montón de factores que pueden afectar al rendimiento de los jugadores, muchos de los cuales no aparecen en las estadísticas brutas. Cosas como reportes de lesiones, cambios en la alineación o incluso análisis postpartido, solo se pueden encontrar en artículos de prensa. Para captar este contexto adicional, agregaré capacidades de búsqueda semántica para que el agente pueda recuperar artículos relevantes de la NBA e incluir esa narrativa en sus recomendaciones.
Búsqueda dinámica con el servidor MCP de Elasticsearch
MCP (Model Context Protocol) se está convirtiendo rápidamente en el estándar para cómo los agentes se conectan a fuentes de datos. Migraré la lógica de búsqueda al servidor Elasticsearch MCP, que permite al agente construir consultas dinámicamente en lugar de depender de funciones de búsqueda predefinidas que proporcionamos. Esto nos permite emplear más flujos de trabajo en lenguaje natural y reduce la necesidad de escribir manualmente cada consulta de búsqueda. Descubre más sobre el servidor MCP de Elasticsearch y el estado actual del ecosistema aquí.
Estos cambios ya están en marcha, ¡estad atentos!
Conclusión
En este blog, creamos un asistente RAG agente que ofrece recomendaciones personalizadas para tu equipo de baloncesto de fantasía usando JavaScript, Mastra y Elasticsearch. Cubrimos lo siguiente:
Fundamentos del RAG agente y cómo combinar la autonomía de un agente de IA con las herramientas para usar RAG de forma eficaz puede conducir a agentes más matizados y dinámicos.
Elasticsearch y cómo sus capacidades de almacenamiento de datos y poderosas agregaciones nativas lo convierten en un gran socio como base de conocimiento para un LLM.
El framework Mastra y cómo simplifica la construcción de estos agentes para desarrolladores en el ecosistema javaScript.
Tanto si eres un fanático del baloncesto, explorando cómo crear agentes de IA, o ambos como yo, espero que este blog te dio algunos cimientos para empezar. El repositorio completo está disponible en GitHub, siéntete libre de clonar y trastear. ¡Ahora, gana esa liga de fantasía!


Guion Ruby en Logstash
Dai Sugimori — Tue, 24 Jun 2025 00:00:00 GMT
Logstash es una cadena de procesamiento de datos que ingiere datos de múltiples fuentes, los transforma y los envía a los destinos que elijas. Los plugins de filtro son clave para este proceso; Realizan operaciones específicas sobre tus datos a medida que avanzan en la pipeline.
Logstash incluye varios filtros integrados para tareas comunes como análisis sintáctico, enriquecimiento y modificación de datos. Pero a veces te encontrarás con escenarios que requieren una lógica personalizada que va más allá de lo que estos filtros estándar pueden ofrecer. Aquí es donde entra el plugin de filtro Ruby .
El plugin de filtro Ruby te permite ejecutar código Ruby personalizado directamente dentro de tu pipeline de Logstash. Cuando los filtros estándar no son suficientes, el filtro Ruby te permite manejar transformaciones complejas de datos, implementar lógica de negocio personalizada o integrarte con sistemas externos.
En este blog, exploraremos cómo usar los filtros Ruby, desde el uso básico hasta el avanzado.
¿Cuándo deberías usar el filtro Ruby?
Como arquitecto consultor de Elastic, a menudo veo a clientes que emplean Logstash para la cadena de procesamiento de datos, aunque hoy en día no es un motor de procesamiento de datos de última generación. A menudo tienen dificultades con las limitaciones de los filtros estándar cuando se trata de manipulación compleja de datos o lógica personalizada. En estos casos, el filtro Ruby puede ayudar a superar esos desafíos.
El filtro Ruby es útil cuando los filtros Logstash estándar no pueden cumplir tus requisitos específicos. Aquí tienes algunos casos de uso comunes:
Manipulación profunda de datos anidados: Modificar estructuras JSON complejas, arrays dentro de arrays o reestructurar dinámicamente los datos en función del contenido
Procesamiento avanzado de cadenas: Analizar y extraer datos estructurados de texto no estructurado
Implementación de lógica de negocio compleja: Crear transformaciones personalizadas que requieran lógica condicional, bucles o cálculos complejos
Uso básico
Empecemos con un ejemplo sencillo para entender cómo funciona el filtro Ruby.
Configuración del filtro Ruby
Cuando crees una pipeline de Logstash, deberías colocar el archivo de configuración en el directorio /etc/logstash/conf.d . Alternativamente, puedes usar -f opción para especificar la ruta al archivo de configuración cuando arranques Logstash manualmente, para que puedas experimentar fácilmente con tus pipelines.
$ ./bin/logstash -f /path/to/your_pipeline.conf
El archivo de configuración debería tener una extensión .conf .
Para usar el filtro Ruby, define un filtro ruby en la sección de filtros de tu archivo de configuración de la tubería Logstash (*.conf). Aquí tienes un ejemplo básico:
filter {
  ruby {
    code => "
      event.set('new_field', 'Hello from Ruby!')
    "
  }
}
Este filtro Ruby en línea define una instancia de filtro Ruby dentro de tu configuración de Logstash. El parámetro code proporciona el script Ruby en línea que Logstash ejecutará para cada evento procesado por este filtro. Dentro de ese script, hay una variable event disponible que representa el propio evento. El objeto evento contiene los datos originales enviados a Logstash y cualquier campo adicional creado durante las etapas de filtro de Logstash. Puedes acceder a esos campos a través de la API de eventos de Logstash como event.get() y event.set(). En este código de ejemplo, event.set('new_field', 'Hello from Ruby!') establecer un nuevo campo llamado new_field al valor de cadena Hello from Ruby!. Puedes agregar cualquier otro código en este bloque de code según lo necesites.
Ten en cuenta que este objeto event no es un objeto hash de Ruby habitual, aunque actúa como un contenedor de datos clave-valor. Consulta esta documentación oficial para saber más sobre la API de eventos.
Externalizar la escritura Ruby
Para transformaciones simples, el código Ruby en línea es cómodo. Pero, para lógica compleja o funciones reutilizables, se recomienda mover el código a un script Ruby externo. Esto mejora la mantenibilidad y mantiene limpia la configuración de tu pipeline de Logstash.
Primero, crea un script Ruby y almacénalo como my_ruby_script.rb. El script debe definir un método filter que procese el evento. Toma un objeto evento como argumento, que representa el evento actual que se está procesando. El método filter necesita devolver un serial de eventos para emitir. Para eliminar el evento, devuelvo un array vacío.
Por ejemplo, el siguiente script lee el campo message , calcula su longitud y almacena el resultado en un nuevo campo llamado message_length.
def register(params)
  # This method is called when the plugin is loaded.
  # You can use it to initialize any instance variables or perform setup tasks.
end

def filter(event)
  message = event.get('message')

  if message
    event.set('message_length', message.length)
  end

  return [event]
end
A continuación, configura la configuración del filtro Ruby para que haga referencia al script usando la opción path . Esto indica a Logstash que cargue y ejecute el script externo. Al usar scripts externos, cerciórate de que el archivo existe y tiene las licencias correctas.
filter {
  ruby {
    path => "/path/to/my_ruby_script.rb"
  }
}
Ahora, cada evento se pasa al método filter en my_ruby_script.rb y es procesado por él.
Este enfoque te ayuda a gestionar la lógica compleja de forma más eficaz, facilitando probar, depurar y reutilizar tu código Ruby.
Uso avanzado
En esta sección, exploraremos algunos ejemplos avanzados de cómo usar el filtro Ruby en Logstash. Estos ejemplos demostrarán cómo realizar transformaciones de datos, enriquecer eventos e implementar lógica personalizada usando Ruby.
Manipulación de estructuras de datos anidadas
Un evento Logstash es la estructura de datos central que procesa Logstash. Puede contener varios campos, incluyendo estructuras de datos anidadas como arrays y hashes. El filtro Ruby te permite manipular fácilmente estas estructuras anidadas.
El filtro Ruby puede manejar estructuras de datos anidadas, como hashes y arrays, permitiéndote modificar o agregar campos dentro de estas estructuras. Esto es útil cuando se trata de formatos de datos complejos como JSON.
input {
  generator {
    lines => [
      '{"nested": {"key1": "value1", "key2": "value2"}}'
    ]
    count => 1
    codec => "json"
    ecs_compatibility => "disabled"
  }
}

filter {
  ruby {
    code => "
      nested_data = event.get('nested')

      if nested_data.is_a?(Hash)
        nested_data['key3'] = 'value3'
        event.set('nested', nested_data)
      end
    "
  }
}

output {
  stdout { codec => rubydebug }
}
Este ejemplo incluye un objeto JSON anidado en los datos de entrada. El filtro Ruby modifica los datos anidados agregando un nuevo par clave-valor. Este tipo de manipulación para datos anidados no es posible con los filtros Logstash estándar, lo que convierte al filtro Ruby en una opción útil para estructuras de datos complejas.
Dividir un solo evento en varios eventos
Los filtros Ruby también pueden usar para dividir un solo evento en varios eventos. Esto es útil cuando tienes un solo evento que contiene un array de objetos y quieres crear eventos separados para cada uno.
Ten en cuenta que ni la tubería de ingesta de Elasticsearch ni los procesadores de Beats/Elastic Agent soportan eventos de división. Este es uno de los casos de uso más estables de Logstash.
Con filtro dividido
Puedes usar el filtro split para dividir un evento en varios eventos según un campo especificado. Sin embargo, si necesitas realizar transformaciones adicionales o lógica durante la división, puedes usar el filtro Ruby en combinación con el filtro dividido.
En el siguiente ejemplo, tenemos un feed RSS como una sola línea de texto XML. Contiene múltiples elementos  . El filtro Ruby se emplea para extraer los  elementos del XML y almacenarlos en un nuevo campo llamado items. El filtro dividido se emplea entonces para dividir el evento en varios eventos según el campo items .
input {
  generator {
    lines => [
      'Sample RSSArticle 1http://example.com/1Desc 1


Article 2
Desc 2


Cómo desplegar Elasticsearch en GCP GKE Autopilot
Eduard Martin — Thu, 19 Jun 2025 00:00:00 GMT
En este artículo, vamos a aprender cómo desplegar Elasticsearch en Google Cloud Kubernetes (GKE) usando Autopilot.
Para Elasticsearch, vamos a emplear Elastic Cloud on Kubernetes (ECK), que es el operador oficial de Elasticsearch Kubernetes que simplifica la orquestación de despliegues de Kubernetes de todos los componentes de Elastic Stack.
Para obtener más información sobre cómo desplegar clústeres de Elasticsearch en diferentes infraestructuras de GCP, puedes leer nuestros artículos de introducción sobre Google Cloud Compute y Google Cloud Marketplace.
Esfuerzo de despliegue de Elasticsearch
¿Qué es GKE Autopilot?
Google Kubernetes Engine (GKE) Autopilot ofrece una experiencia Kubernetes totalmente gestionada donde Google se encarga de la configuración del clúster, la gestión de nodos, la seguridad y el escalado, mientras los desarrolladores se centran en desplegar aplicaciones, lo que les permite a los equipos pasar del código a la producción en minutos con las mejores prácticas integradas.
¿Cuándo usar el ECK en Google Cloud?
Elastic Cloud on Kubernetes (ECK) es el más adecuado para organizaciones con infraestructura existente de Kubernetes que buscan desplegar Elasticsearch con características avanzadas como roles de nodo dedicados, alta disponibilidad y automatización.
¿Cómo configurar ECK en Google Cloud?
1. Inicia sesión en Google Cloud Console.
2. En la parte superior derecha haz clic en el botón Cloud Shell para acceder a la consola y desplegar el clúster de GKE desde allí. Alternativamente, puedes usar la CLI de gcloud.
Recuerda actualizar el identificador del proyecto con el tuyo durante el tutorial.
3. Habilita la API de Google Kubernetes Engine.
Haz clic en Siguiente.
Ahora, la API de Kubernetes Engine debería mostrarse habilitada al buscar la API de Kubernetes Engine.
4. En Cloud Shell, crea un clúster de Autopilot. Lo llamaremos autopilot-cluster-1, y también reemplazaremos autopilot-test por el id de tu proyecto.
gcloud beta container --project "autopilot-test-457216" clusters create-auto "autopilot-cluster-1" --region "us-central1" --release-channel "regular" --tier "standard" --enable-ip-access --no-enable-google-cloud-access --network "projects/autopilot-test-457216/global/networks/default" --subnetwork "projects/autopilot-test-457216/regions/us-central1/subnetworks/default" --cluster-ipv4-cidr "/17" --binauthz-evaluation-mode=DISABLED
5. Espera hasta que esté listo. Tarda unos 10 minutos en crearse.
Aparecerá un mensaje de confirmación después de configurar correctamente el clúster.
6. Configura el acceso a la línea de comandos de kubectl.
gcloud container clusters get-credentials autopilot-cluster-1 --region us-central1 --project autopilot-test-457216
Deberías ver:
Entrada de kubeconfig generada para autopilot-cluster-1.
7. Instala el operador Elastic Cloud on Kubernetes (ECK).
# Install ECK Custom Resource Definitions
kubectl create -f https://download.elastic.co/downloads/eck/2.16.1/crds.yaml

# Install the ECK operator
kubectl apply -f https://download.elastic.co/downloads/eck/2.16.1/operator.yaml
8. Creemos una instancia de Elasticsearch de un solo nodo con los valores por defecto.
Si deseas consultar algunas recetas para diferentes configuraciones, puedes visitar este enlace.
Ten en cuenta que si no especificas un storageClass, ECK usará el que se configura por defecto, que para GKE es standard-rwo y usa el controlador CSI de disco persistente de Compute Engine, y creará un volumen de 1GB con él.
cat <
Deshabilitamos nmap porque la máquina GKE predeterminada tiene un valor vm.max_map_count demasiado bajo. No se recomienda desactivarlo para la producción, pero sí aumentar el valor de vm.max_map_count. Puedes leer más sobre cómo hacerlo aquí.
9. También despleguemos un clúster de un solo nodo Kibana. Para Kibana, agregaremos un LoadBalancer que nos dará una IP externa que podemos usar para acceder a Kibana desde nuestro dispositivo.
cat <
Nota la anotación: 
cloud.google.com/l4-rbs: "enabled"
Es muy importante porque le indica a Autopilot que proporcione un LoadBalancer orientado al público. Si no se configura, el LoadBalancer será interno.
10. Verifica que tus pods estén en ejecución
kubectl get pods
11. También puedes run kubectl get elasticsearch y kubectl get kibana para obtener estadísticas más específicas como la versión de Elasticsearch, nodos y salud.
12. Accede a tus servicios.
kubectl get svc
Esto te mostrará la URL externa de Kibana bajo EXTERNAL-IP. Puede que el LoadBalancer tarde unos minutos en provisionar. Copia el valor de EXTERNAL-IP.
13 Obtén la contraseña de Elasticsearch para el usuario ‘elastic’:
kubectl get secret quickstart-es-elastic-user -o=jsonpath='{.data.elastic}' | base64 --decode
14. Accede a Kibana desde tu navegador:
URL: https://:5601
Nombre de usuario: elastic
Contraseña: 28Pao50lr2GpyguX470L2uj5 (del paso anterior)
15. Al acceder desde tu navegador, verás la pantalla de bienvenida.
Si quieres cambiar las especificaciones del clúster de Elasticsearch, como cambiar o redimensionar nodos, puedes volver a aplicar el manifesto yml con los nuevos ajustes:
cat <
En este ejemplo, vamos a agregar un nodo más y modificar la RAM y la CPU. Como puedes ver, ahora kubectl get elasticsearch muestra 2 nodos:
Lo mismo aplica para Kibana:
cat <
Podemos ajustar la CPU/RAM del contenedor y también el uso de memoria de Node.js (max-old-space-size).
Ten en cuenta que las solicitudes de volumen existentes no pueden reducirse. Después de aplicar la actualización, el operador realizará los cambios con el mínimo tiempo de interrupción.
Recuerda eliminar el clúster cuando termines de probar para evitar costos innecesarios.
gcloud container clusters delete autopilot-cluster-1
Pasos siguientes
Si quieres saber más sobre Kubernetes y el motor de Google Kubernetes, consulta estos artículos:
Elastic Cloud en Kubernetes | Elastic Docs
Presentamos GKE Autopilot | Blog de Google Cloud
Visión general del piloto automático | Google Kubernetes Engine (GKE)



Uso de Azure LLM Functions con Elasticsearch para experiencias de consulta más inteligentes
Jonathan Simon — Fri, 13 Jun 2025 00:00:00 GMT
Precisión. Cuando importa, importa mucho. Cuando buscas algo específico, la precisión es muy importante. Sin embargo, a veces una consulta demasiado precisa no devuelve resultados, por lo que es ventajoso tener la flexibilidad de ampliar el ámbito de una consulta para encontrar datos adicionales potencialmente relevantes.
En esta entrada de blog se explica el uso de Elasticsearch y Azure Open AI para crear una aplicación de ejemplo que demuestre cómo encontrar resultados exactos al buscar propiedades inmobiliarias muy específicas y, al mismo tiempo, proporcionar resultados relevantes cuando una coincidencia específica no está disponible. Te guiaremos por todos los pasos necesarios para crear un índice de Elasticsearch junto con una plantilla de búsqueda. Luego, expondremos todo el proceso de cómo crear una aplicación que use Azure OpenAI para tomar consultas de usuarios y transformarlas en consultas de plantillas de búsqueda de Elasticsearch que pueden producir resultados increíblemente personalizados.
Aquí hay una lista de todos los recursos que usaremos para crear nuestra aplicación de búsqueda de bienes raíces de ejemplo:
Índice y plantilla de búsqueda de Elasticsearch
Azure OpenAI
Azure Maps API
Codespaces Jupyter Notebook
Núcleo semántico
Aplicación de C# con front-end de Blazor
Flujo de trabajo de consulta inteligente
Este flujo de trabajo combina LLM, herramientas de LLM y búsqueda para transformar las consultas en lenguaje natural en resultados de búsqueda estructurados y relevantes:
LLM (Large Language Model): interpreta consultas complejas de usuarios y organiza herramientas para extraer la intención de búsqueda y enriquecer el contexto.
Herramientas LLM : cada herramienta LLM es un programa de C # que creamos para esta publicación. Hay tres herramientas:Herramienta de extracción de parámetros: extrae atributos clave como dormitorios, baños, características y precio de la consulta.
Herramienta GeoCode: convierte los nombres de ubicación en latitud/longitud para el filtrado espacial.
Herramienta de búsqueda: completa una plantilla de búsqueda de Elasticsearch con parámetros de consulta y ejecuta una búsqueda. Búsqueda híbrida : ejecuta la búsqueda híbrida (texto completo + vector denso) con inferencia de ML integrada. Este enfoque por capas garantiza experiencias de consulta más inteligentes y sensibles al contexto para el usuario final.
Arquitectura de la aplicación
Este es un diagrama de arquitectura del sistema de la aplicación de ejemplo. Usaremos un bloc de notas de Codespaces Jupyter para interactuar con Elastic Cloud.
Prerrequisitos
Unknown block type "block", specify a component for it in the `components.types` option
Clonación de repositorio de aplicación de ejemplo en Codespaces
Comience clonando el código de la aplicación de ejemplo. Puede hacerlo en GitHub Codespaces, que proporciona una manera de clonar y ejecutar aplicaciones. Haga clic en Nuevo codespace.
A continuación, seleccione el repositorio jwilliams-elastic/msbuild-intelligent-query-demo en la lista desplegable Repositorio y haga clic en Crear codespace.
Crear .env archivo
Usaremos un cuaderno de Python Jupyter para acceder e interactuar con Elastic Cloud y lo hace empleando los valores de configuración que se almacenan en un archivo de configuración. El archivo de configuración del Notebook debe tener el nombre de archivo .env y lo crearás ahora.
En GitHub Codespaces, haga clic en el botón Nuevo archivo y agregue un archivo denominado .env
Agregue el siguiente contenido al .env recién creado archivo
ELASTIC_URL=
ELASTIC_API_KEY=
Como puede ver, tenemos un par de valores faltantes, ELASTIC_URL y ELASTIC_API_KEY, que deben agregar al .env archivo. Obtengámoslos ahora creando un proyecto sin servidor de Elasticsearch para que sirva como backend que impulsará la funcionalidad de búsqueda para nuestra aplicación de ejemplo.
Crear un proyecto de Elastic Serverless
Vaya a cloud.elastic.co y haga clic en Crear nuevo proyecto sin servidor
Haz clic en Siguiente para la solución de Elasticsearch
Seleccione Optimizado para vectores
Establezca el proveedor de nube para que sea Azure
Haga clic en Crear proyecto sin servidor
Haga clic en Primeros pasos en el menú de navegación principal y desplazar hacia abajo para copiar los detalles de la conexión
Haga clic en el botón Copiar para copiar el endpoint de Elasticsearch desde los detalles de la conexión
Actualizar .env para establecer el ELASTIC_URL para que sea el endpoint de Elasticsearchcopiado
Crear una clave de API elástica
Abra la página Introducción a Elasticsearch, haga clic en Nuevo en la sección Agregar una clave de API
Ingrese un nombrede clave
Haga clic en Crear clave de API
Haga clic en el botón Copiar para copiar el valor de la clave de API
De vuelta en Codespaces, donde tenemos el .env archivo abierto para editar, pegue el valor copiado para establecer el ELASTIC_API_KEY
Abra el cuaderno de Codespaces e instale las dependencias de la biblioteca
En el explorador de archivos, seleccione el archivo VectorDBSetup.ipynb para abrir el cuaderno. Después de que se cargue el Notebook, busque la sección del Notebook titulada Instalar bibliotecas. Haga clic en el botón de reproducción de la sección.
Si es la primera vez que ejecuta un cuaderno en GitHub Codespaces, se le pedirá que seleccione un kernel de Codespaces y configure el entorno de Python.
Definición de importaciones y carga de variables de entorno mediante Codespaces Notebook
Vaya a la siguiente sección del Notebook titulada Definir importaciones y cargar variables de entorno. Haga clic en el botón de reproducción de la sección.
Este código importa las bibliotecas de Python usadas por el Notebook y carga las variables de entorno del archivo .env que creaste anteriormente.
Creación de un punto de enlace de inferencia de Elastic ML mediante Codespaces Notebook
Vaya a la siguiente sección del cuaderno titulada Crear punto de conexión de inferencia de ML. Haga clic en el botón de reproducción de la sección.
Esto creará un nuevo punto final de inferencia de ML en el proyecto de Elasticsearch que usaremos para generar incrustaciones de texto a partir de nuestros datos. Las incrustaciones de texto son representaciones vectoriales de texto que se almacenarán en Elasticsearch para potenciar la búsqueda semántica.
Creación de un índice de Elasticsearch con Codespaces Notebook
Ve a la siguiente sección de Notebook titulada Crear índice de Elasticsearch. Haga clic en el botón de reproducción de la sección.
Esto creará el índice de Elasticsearch que almacenará nuestros datos de ejemplo y cualquier dato vectorial asociado generado a través del punto de enlace de inferencia de ML.
Crear una plantilla de búsqueda de Elasticsearch con Codespaces Notebook
Continúe con la siguiente sección de Notebook titulada Plantilla de búsqueda. Haga clic en el botón de reproducción de la sección.
Esto crea una plantilla de búsqueda, que es lo que nuestra aplicación de ejemplo usará como plantilla rellenada con las palabras analizadas de la consulta de búsqueda de un usuario. Esto nos permite configurar y controlar qué tan específicos somos al consultar datos en el índice de Elasticsearch.
Ingesta de datos en el índice de Elasticsearch mediante Codespaces Notebook
Vaya a la siguiente sección del Notebook titulada Ingesta de datos de propiedades. Haga clic en el botón de ejecución de sección.
Al ejecutar esta sección de código, se cargarán de forma masiva los datos de ejemplo contenidos en el archivo properties.jsonl . Luego de un par de minutos, debería ver una confirmación de que el proceso se completó correctamente. Puedes confirmar que el índice contiene el registro esperado yendo a la sección Gestión de índices en Elastic Cloud.
Creación de appsetting.json para configurar la aplicación de C#
Con nuestro índice de Elasticsearch creado y poblado con datos, ahora estamos listos para configurar la aplicación de ejemplo para que funcione con Elastic y Azure Cloud. La aplicación de ejemplo de C# usa un archivo denominado appsettings.json para almacenar y cargar su información de acceso, como claves API. Creará el archivo appsettings.json ahora usando el editor en Codespaces.
1. Cree appsettings.json en la carpeta HomeFinderApp 
2. Pegue el siguiente código en el archivo appsettings.json
{
 "ElasticSettings": {
   "Url": "",
   "ApiKey": "",
   "IndexName": "properties",
   "TemplateId": "properties-search-template"
 },
 "AzureOpenAISettings": {
   "Endpoint": "",
   "ApiKey": "",
   "DeploymentName": "gpt-4o"
 },
 "AzureMapsSettings": {
   "Url": "https://atlas.microsoft.com/geocode",
   "ApiKey": ""
 },
 "Logging": {
   "LogLevel": {
 	"Default": "Information",
 	"Microsoft.AspNetCore": "Warning"
   }
 },
 "AllowedHosts": "*"
}
3. Busca los valores de Url y ApiKey en la sección ElasticSettings . Establézcalos para que sean los mismos valores que estableció en el archivo .env en un paso anterior.
Creación del servicio Azure OpenAI
Nuestra aplicación de ejemplo usará Azure OpenAI para analizar la consulta del usuario de la aplicación y, a continuación, enviará una solicitud a Elasticsearch rellenando la plantilla de búsqueda para intentar comunicar de forma flexible lo que busca el usuario.
Abra una nueva pestaña del navegador y vaya a AI Foundry | Azure OpenAI en Azure Portal. Haga clic en +Crear
En el formulario de creación, elija un grupo de recursos.
Ingrese un nombre
Elija un plan de tarifa
Haga clic en Siguiente
En la pestaña Red , haga clic en Siguiente
En la pestaña Etiquetas , haga clic en Siguiente
En la pestaña Revisar y enviar , haga clic en Crear
Una vez completada la creación, haga clic en Ir al recurso
Seleccione Claves y punto de conexión en el menú de navegación izquierdo
Copie el punto de conexión y péguelo en el archivo appsettings.json que creó en la pestaña del navegador que tiene abierto el editor de Codespaces.
A continuación, vuelva a la pestaña del explorador que contiene la clave de Azure OpenAI y la página del punto de conexión. Haga clic en el botón de copia de la clave 1 y pegue el valor copiado en el archivo appsettings.json , de nuevo en la pestaña del navegador que tiene abierto el editor de Codespaces.
Adición de la implementación del modelo gpt-4o al servicio Azure Open AI
Genial, ahora tenemos un servicio Azure OpenAI en ejecución, pero aún necesita una implementación de modelo para brindarnos las funcionalidades de LLM que requiere nuestra aplicación de ejemplo. Hay un montón de modelos para elegir. Implementemos gpt-4o ya que ya está especificado en el archivo appsettings.json que creó.
Vaya a Azure AI Foundry y haga clic en Crear una implementación
Busque gpt-4o y selecciónelo de los resultados
Haga clic en Confirmar para seleccionarlo
Haga clic en Implementar para implementar el modelo
Una vez que implementó correctamente el modelo gpt-4o, puede seleccionar Implementaciones en el menú de navegación izquierdo y confirmar que la implementación de gpt-4o aparece con un estado correcto.
Creación de una cuenta de Azure Maps
Queremos que los usuarios de nuestra aplicación de ejemplo puedan buscar propiedades inmobiliarias en áreas específicas, pero sin tener que ser demasiado específicos. Si alguien quiere buscar una propiedad cerca del mercado de agricultores local, Azure Maps es un servicio que OpenAI LLM puede usar para obtener coordenadas de latitud y longitud para el mercado. Luego, las coordenadas se pueden incluir en las solicitudes basadas en plantillas de búsqueda enviadas a Elasticsearch para consultas de usuarios que incluyen ubicaciones específicas y consideraciones de distancia geográfica.
Haga clic en Crear en cuentas de Azure Maps
Seleccionar un grupo de recursos
Ingrese un nombre
Aceptar la declaración de licencia y privacidad
Haz clic en Revisar y crear
Haga clic en Crear
Una vez completada la creación de la cuenta, haga clic en Ir al recurso
Haga clic en Autenticación en el menú de navegación izquierdo
Copie el valor de la clave principal y péguelo para que sea el valor de ApiKey en la sección AzureMapsSettings del archivo appsettings.json , de nuevo en la pestaña del explorador que contiene el editor de Codespaces
Prueba la aplicación de ejemplo
Ahora viene la parte divertida. Es hora de ejecutar la aplicación de ejemplo. Tenemos todos los detalles de configuración en su lugar junto con los recursos de Elastic Cloud y Azure Cloud que necesitamos para impulsar la aplicación.
1. Abra una ventana de Terminal en el editor de Codespaces.
2. Emplee el siguiente comando para cambiar el directorio activo para que sea la carpeta de la aplicación de ejemplo.
cd HomeFinderApp
3. Use el siguiente comando dotnet para ejecutar la aplicación.
dotnet run
4. Haga clic en el botón Abrir en el navegador cuando aparezca.
5. Pruebe la búsqueda predeterminada y luego pruebe algunas de sus propias búsquedas personalizadas. Si desea ver más detalles sobre lo que se realiza en el backend para generar los resultados de búsqueda, puede hacer clic en el enlace Mostrar junto a Invocaciones de herramientas.
Sobresueldo: Si realmente desea probar GPT-4o, intente la siguiente búsqueda: Estoy buscando una propiedad cerca de disney world fl con 30+ habitaciones y 20+ baños y una piscina y garaje y cerca de la playa por menos de 200K. Esta consulta devolverá resultados luego de varias invocaciones de herramientas de búsqueda.
Elastic es tu solución para la IA de búsqueda
La aplicación en ejecución es un ejemplo de búsqueda guiada de Gen AI LLM empleando Elasticsearch a través de plantillas de búsqueda como fuente de datos de base. Sentir libre de experimentar y personalizar la aplicación de ejemplo para crear una experiencia de búsqueda que sea precisa pero flexible, para ayudar a sus usuarios a encontrar lo que buscan.
Gracias por leer. Prueba Elastic Cloud .


El estado actual de MCP (Model Context Protocol)
JD Armada — Thu, 12 Jun 2025 00:00:00 GMT
Recientemente asistí a la MCP Developers Summit en Santo Francisco y está claro que el Model Context Protocol (MCP) se está convirtiendo rápidamente en un pilar fundamental para agentes de IA y aplicaciones de IA ricas en contexto. En Elastic, nos inclinamos hacia esta dirección exponiendo los servidores MCP directamente desde Agent Builder, haciendo de Elasticsearch un proveedor de contexto y herramienta de primera clase para cualquier agente compatible con MCP. En esta publicación, repasaré las actualizaciones clave del evento, los casos de uso emergentes, lo que está por venir para MCP y cómo puedes usar Agent Builder para poner Elasticsearch a disposición de los agentes a través de MCP.
¿Qué es el Protocolo de Contexto Modelo (MCP)?
Para aquellos que no están familiarizados, Model Context Protocol es un estándar abierto que ofrece una forma estructurada y bidireccional de conectar modelos de IA en varias fuentes de datos y herramientas, lo que les permite generar respuestas más relevantes e informadas. Se conoce comúnmente como un "puerto USB-C para aplicaciones de IA".
Aquí hay un diagrama arquitectónico que destaca su naturaleza bidireccional:
Este es un cambio significativo para los profesionales de IA, ya que uno de los principales desafíos para escalar las aplicaciones de IA es tener que crear integraciones personalizadas para cada nueva fuente de datos. MCP ofrece una arquitectura sostenible y reutilizable para gestionar y proporcionar contexto a los modelos. Es independiente del modelo, del servidor y de código abierto.
MCP es la última iteración de un linaje de especificaciones de API que buscan estandarizar la integración entre aplicaciones. En el pasado, teníamos OpenAPI para servicios RESTful, GraphQL para consultas de datos y gRPC para comunicación de microservicios. MCP no solo comparte el rigor estructurado de estas especificaciones más antiguas, sino que también lo lleva a un entorno de IA generativa, lo que facilita la conexión de agentes a diferentes sistemas sin conectores personalizados. En muchos sentidos, MCP tiene como objetivo hacer por los agentes de IA lo que HTTP hizo por el sitio web. Al igual que la comunicación estandarizada HTTP entre navegadores y sitios web, MCP busca estandarizar la forma en que los agentes de IA interactúan con el mundo de datos que los rodea.
MCP frente a otros protocolos de agentes
El panorama del protocolo de agentes se está expandiendo rápidamente, con más de una docena de estándares emergentes que compiten para definir cómo interactúan los agentes. Laurie Voss de LlamaIndex describe cómo la mayoría se puede clasificar en 2 tipos: protocolos interagentes que se centran en que los agentes hablen entre sí y protocolos orientados al contexto como MCP que se centran en ofrecer un contexto estructurado a los LLM.
Otros protocolos populares como A2A (Agent to Agent) de Google, ACP (Agent Communication Protocol) de Cisco e IBM y Agora, tienen como objetivo permitir negociaciones de agente a agente, creación de coaliciones e incluso sistemas de identidad descentralizados. MCP adopta un enfoque un poco más pragmático en eso, ya que se centra en cómo los agentes acceden a las herramientas y los datos y no necesariamente en cómo se comunican entre sí (aunque MCP también podría permitir eso en el futuro de diferentes maneras).
Actualmente, lo que distingue a MCP es su tracción e impulso. Al igual que React en los primeros días de los frameworks frontend, MCP comenzó con un problema de nicho y ahora se encuentra como uno de los protocolos de agente más adoptados y extensibles en la práctica.
Resumen de la cumbre: Evolución de las prioridades para MCP
La cumbre contó con presentadores de colaboradores de Anthropic, Okta, OpenAI, AWS, GitHub y muchos otros. Las conversaciones abarcaron desde mejoras en el protocolo central hasta implementaciones en el mundo real y delinearon prioridades inmediatas y a largo plazo. Estas charlas reflejaron un cambio de la experimentación temprana y la simple llamada de herramientas a la construcción de sistemas de IA confiables, escalables y modulares empleando MCP como base.
Varios presentadores se burlaron de un futuro en el que MCP es más que una simple plomería de protocolo, puede convertir en la base de un sitio web nativo de IA. Al igual que JavaScript permitió a los usuarios hacer clic e interactuar con los sitios web, MCP podría permitir que los agentes lleven a cabo esas mismas acciones en nuestro nombre. Por ejemplo, en el comercio electrónico, en lugar de que los usuarios naveguen manualmente a un sitio web para comprar, simplemente podrían decirle a un agente que inicie sesión, encuentre un producto específico, lo agregue a su carrito y pague.
Esto tampoco es pura especulación y exageración; PayPal mostró su nuevo kit de herramientas para agentes y el servidor MCP en la cumbre, lo que permite esta experiencia de comercio agencial exacta. Con MCP proporcionando acceso seguro y confiable a herramientas y fuentes de datos, los agentes no solo leerán el sitio web, sino que podrán actuar en consecuencia. Hoy en día, MCP ya es un estándar poderoso con mucho impulso y, en el futuro, podría convertir en el estándar de interacciones de usuario mejoradas por IA en el sitio web.
Actualizaciones del proyecto MCP: transporte, elicitación y herramientas estructuradas
Jerome Swannack, colaborador principal de MCP, compartió algunas actualizaciones de la especificación del protocolo de los últimos 6 meses. Los principales objetivos de estos cambios son:
Para habilitar MCP remoto con la adición de HTTP Streamable
Para habilitar modelos de interacción de agentes más completos con la adición de esquemas de salida de herramientas y elicitación
Dado que MCP es de código abierto, los cambios como Streamable HTTP ya están disponibles para que los desarrolladores los implementen. Los esquemas de elicitación y salida de herramientas no se publicaron actualmente; están en la etapa de draft y pueden evolucionar.
HTTP transmitible (lanzado el 26-03-2025): Una actualización técnica impactante fue la introducción de HTTP transmitible como un nuevo mecanismo de transporte. Esto reemplaza los eventos enviados por el servidor (SSE) con un modelo bidireccional más escalable que admite la codificación de transferencia fragmentada y la entrega progresiva de mensajes a través de una sola conexión HTTP. Esto le permite implementar servidores MCP en una infraestructura en la nube como AWS Lambda y admitir restricciones de red empresarial sin conexiones de larga duración ni necesidad de sondeo.
Elicitation (Publicado el 18-06-2025): Elicitation permite a los servidores definir un esquema sobre cómo quieren que se estructure el contexto de un cliente. Esencialmente, el servidor puede describir lo que necesita y el tipo de entrada que espera. Esto tiene algunas participaciones: Para los creadores de servidores, pueden construir interacciones agenciales más complejas. Para los creadores de clientes, pueden implementar interfaces de usuario dinámicas que se adapten a estos esquemas. Sin embargo, la obtención no debe usar para extraer información confidencial o de identificación personal de los usuarios. Los desarrolladores deben seguir las mejores prácticas para cerciorar de que las indicaciones de elicitación permanezcan seguras y apropiadas, especialmente a medida que MCP madura. Esto se relaciona con preocupaciones de seguridad más amplias que discutiremos más adelante en esta publicación.
Esquemas de salida de herramientas (publicado el 18-06-2025): Este concepto permite al cliente y al LLM conocer las formas de salida de la herramienta con anticipación. Los esquemas de salida de herramientas permiten a los desarrolladores describir lo que se espera que devuelva una herramienta. Estos esquemas abordan una de las principales limitaciones de la llamada directa a herramientas, que es el uso ineficiente de la ventana de contexto. La ventana de contexto se considera uno de los recursos más importantes cuando se trabaja con LLM y cuando se llama directamente a una herramienta, devuelve contenido sin procesar que se inserta por completo en el contexto del LLM. Los esquemas de salida de herramientas pueden ayudarlo a hacer un mejor uso de sus tokens y la ventana de contexto al permitir que el servidor MCP proporcione datos estructurados. Aquí hay algunas mejores prácticas sobre herramientas en general.
Juntas, estas nuevas actualizaciones y futuras adiciones ayudarán a MCP a convertir en un protocolo de agente más modular, tipificado y listo para la producción.
Características de potencia infrautilizadas: ejemplificación y raíces
Si bien no es nuevo en la especificación MCP, tanto la ejemplificación como las raíces se destacaron durante el discurso de apertura. Estas dos primitivas actualmente se pasan por alto y no se exploran, pero pueden contribuir significativamente a interacciones más ricas y seguras entre agentes.
Ejemplificación: los servidores pueden aplicar finalizaciones del cliente: el ejemplificación permite a los servidores MCP aplicar finalizaciones del LLM del lado del cliente. Esto se suma a la naturaleza bidireccional del protocolo, donde el servidor no solo responde a las solicitudes; Puede aplicar y pedir al modelo del cliente que genere una respuesta. Esto permite al cliente mantener un control total sobre el costo, la seguridad y el modelo que emplea el servidor MCP. Por lo tanto, en el caso de emplear un servidor MCP externo con un modelo preconfigurado, no necesitará proporcionar sus propias claves API ni configurar su propia subscripción a ese modelo, ya que el servidor puede simplemente aplicar el modelo ya conectado al cliente. Esto permite comportamientos de agente más complejos e interactivos.
Raíces: acceso con ámbito a los recursos: las raíces se diseñaron para proporcionar una forma a los clientes de informar a los servidores sobre los recursos y áreas de trabajo relevantes en los que centrar. Esto es poderoso para establecer el alcance en el que operan los servidores. Es importante tener en cuenta que las raíces son "informativas y no estrictamente aplicables", lo que significa que no definen derechos o licencias para servidores o agentes MCP. En otras palabras, no puede confiar solo en las raíces para evitar que un servidor o agente ejecute ciertas herramientas o realice acciones de escritura. Con roots, las licencias aún deben manejar en el lado del cliente con mecanismos para las aprobaciones de los usuarios. Además, los desarrolladores deben tener en cuenta el uso de servidores diseñados para respetar los límites establecido por las raíces y emplear las mejores prácticas.
Autenticación para agentes: OAuth 2.1 y metadatos protegidos
Esta sección se centra en OAuth 2.1, que es la última iteración de OAuth 2.0 que elimina los flujos inseguros y consolida las prácticas recomendadas.
El soporte de OAuth era un tema muy esperado, especialmente porque la seguridad y la escalabilidad se consideran los principales obstáculos que impiden que MCP se convierta en el estándar para conectar agentes a herramientas. Aaron Parecki (editor de OAuth 2.1 y experto en estándares de identidad en Okta) discutió cómo MCP puede adoptar un flujo de OAuth limpio y escalable que descarga la mayor parte de la complejidad de los desarrolladores de servidores. La especificación oficial de autorización de OAuth 2.1 se publicó recientemente en la última revisión del protocolo el 18-6-2025.
En esta implementación, las responsabilidades de OAuth se pueden dividir entre el cliente MCP y el servidor. La mayor parte del flujo de autenticación es iniciado y manejado por el cliente MCP, solo involucrando al servidor al final para recibir y verificar el token seguro. Esta división ayuda a resolver un problema crítico de escalado de cómo autenticar en muchas herramientas sin necesidad de que los desarrolladores configuren cada conexión y garantiza que los desarrolladores de servidores MCP no tengan que convertir en expertos en OAuth.
Dos aspectos destacados clave de la charla:
Metadatos de recursos protegidos: Los servidores MCP pueden publicar un archivo JSON que describe su propósito, puntos finales y métodos de autenticación. Esto permite a los clientes iniciar flujos de OAuth solo con la URL del servidor, lo que simplifica el proceso de conexión. Más información: Arreglemos OAuth en MCP
Soporte para IDP y SSO: las compañías pueden integrar proveedores de identidad para gestionar el acceso de forma centralizada. Esta es una victoria tanto para la experiencia del usuario como para la seguridad. Los usuarios no necesitarían hacer clic en 10 pantallas de consentimiento diferentes y los equipos de seguridad pueden observar cada conexión.
Al enviar la lógica de OAuth al cliente y confiar en los metadatos de los servidores, el ecosistema MCP evita un cuello de botella importante. Esto alinea más estrechamente a MCP con la forma en que se protegen las API modernas en los entornos de producción actuales.
Lectura adicional: OAuth 2 simplificado.
Desafíos de seguridad en un ecosistema componible
Los nuevos desarrollos también vienen con nuevas superficies de ataque. Arjun Sambamoorthy de Cisco enumera varias amenazas clave en el panorama de MCP, que incluyen:
            
              
                
                    
                      Perfiles Descripción Remediación y mejores prácticas
                    
                    
                      Inyección rápida y envenenamiento de herramientas Una forma de inyectar un mensaje malicioso dentro del contexto del sistema LLM o la descripción de la herramienta, lo que hace que el LLM realice acciones no deseadas como leer archivos o filtrar datos. Emplee herramientas como MCP Scan para realizar comprobaciones de los metadatos de la herramienta. Valide las descripciones y los parámetros antes de incluirlos en las solicitudes. Por último, considere implementar aprobaciones de usuarios para herramientas de alto riesgo. Para obtener más detalles, consulte la guía de inyección rápida de OWASP en la lista de lectura adicional debajo de la tabla.
                    
                    
                      Ataques de ejemplificación En el contexto de MCP, la ejemplificación abre la puerta para que el servidor MCP realice ataques de inyección rápida en el LLM. Deshabilite la ejemplificación para servidores que no son de confianza y considere la posibilidad de agregar aprobaciones de personas en el bucle para las solicitudes de ejemplificación.
                    
                    
                      Servidores MCP maliciosos En las colecciones actuales de servidores MCP, es difícil examinar todos y cada uno de ellos para garantizar la seguridad. Los servidores no autorizados pueden recopilar y exponer silenciosamente sus datos a actores maliciosos. Conectar únicamente a servidores MCP desde registros confiables o listas internas. Ejecute servidores de terceros en contenedores con sandboxing.
                    
                    
                      Herramientas de instalación de MCP maliciosas Los instaladores y scripts de línea de comandos son convenientes para implementar rápidamente servidores o herramientas MCP, pero podría terminar instalando código comprometido y no verificado. Instale en entornos de espacio aislado y valide las firmas de los paquetes. Nunca actualice automáticamente desde fuentes no verificadas.
                    
              
            
          Para combatir aún más esto, Arjun sugiere un registro de MCP confiable para manejar todas las verificaciones (un tema que estaba al frente y al centro; para obtener más detalles, consulte los dos elementos principales en la lista de lectura a continuación), así como el uso de esta lista de verificación de seguridad.
Lectura adicional:
Mejores prácticas oficiales de seguridad de MCP
Top 10 de aplicaciones de OWASP LLM
Investigación de amenazas de HiddenLayer
Escaneo MCP
Guía de inyección rápida de OWASP
Lo que sigue: Registros, gobernanza y ecosistema
Se está desarrollando un registro centralizado de MCP y fue uno de los temas más discutidos en la cumbre. El ecosistema actual de servidores sufre de fragmentación, baja confianza y capacidad de descubrimiento. Es difícil para los desarrolladores encontrar servidores MCP, verificar lo que hacen e instalarlos de forma segura, especialmente en un ecosistema descentralizado donde los metadatos pueden estar incompletos o falsificados.
Un registro centralizado aborda estos puntos débiles directamente al actuar como una fuente confiable de verdad, mejorando la capacidad de descubrimiento, cerciorando la integridad de los metadatos del servidor y reduciendo el riesgo de instalar herramientas maliciosas.
Los objetivos del registro MCP son:
Ofrecer una única fuente de verdad para los metadatos del servidor (qué hace un servidor, cómo autenticarlo, instalarlo y llamarlo)
Deshacer de los registros de terceros incompletos y la fragmentación para que cuando un servidor quiera registrar, no tenga que actualizar todos los demás registros en el Internet.
Proporcionar un flujo de registro de servidor que incluya una herramienta CLI y un archivo server.json que contenga los metadatos mencionados anteriormente.
La esperanza más amplia es que un registro confiable ayude a escalar el ecosistema de manera segura, permitiendo a los desarrolladores crear y compartir nuevas herramientas con confianza.
La gobernanza fue otro tema prioritario para Anthropic. Dejaron en claro que MCP debe permanecer abierto e impulsado por la comunidad, pero escalar ese modelo de gobernanza aún es un trabajo en progreso. Actualmente están buscando ayuda en ese campo y piden a cualquier persona que tenga experiencia con la gobernanza en protocolos de código abierto que se comunique. Esto lleva al otro tema que quería mencionar. A lo largo del evento, los presentadores enfatizaron que el ecosistema solo puede crecer con las contribuciones de los desarrolladores internos. Es necesario que haya un esfuerzo concentrado para hacer de MCP el nuevo estándar sitio web y destacar de los otros protocolos de agentes populares.
MCP en el mundo real: estudios de casos y demostraciones
Varias organizaciones compartieron cómo MCP ya se está empleando en aplicaciones prácticas:
PayPal - Servidor MCP para Comercio Agentico: PayPal presentó su nuevo kit de herramientas para agentes y el servidor MCP, que pueden cambiar fundamentalmente la experiencia de compra de un usuario. En lugar de buscar en las redes sociales para encontrar artículos, comparar precios y pagar, los usuarios pueden chatear con un agente que se conecta al servidor MCP de PayPal para manejar todas esas acciones.
EpicAI.pro - Jarvis: Los desarrollos en MCP nos acercan cada vez más a tener un asistente tipo Jarvis de la vida real. Para aquellos que no están familiarizados con las películas de Iron Man, Jarvis es un asistente de IA que usa lenguaje natural, responde a entradas multimodales, tiene latencia cero al responder, es proactivo en anticipar las necesidades del usuario, gestiona integraciones automáticamente y puede cambiar de contexto entre dispositivos y ubicaciones. Si imaginamos a Jarvis como un asistente robótico físico, MCP le da a Jarvis "manos" o la capacidad de manejar tareas complejas.
Postman - Generador de servidores MCP: Proporciona una experiencia de carrito de compras para solicitudes de API donde puede elegir diferentes solicitudes de API, ponerlas en una cesta y descargar toda la cesta como un servidor MCP.
Bloomberg - Bloomberg resolvió un cuello de botella clave en el desarrollo empresarial de GenAI. Con casi 10,000 ingenieros, necesitaban una forma estandarizada de integrar herramientas y agentes en todos los equipos. Con MCP, transformaron sus herramientas internas en componentes modulares y remotos a los que los agentes pueden llamar fácilmente en una interfaz unificada. Esto permitió a sus ingenieros contribuir con herramientas en toda la organización, mientras que los equipos de IA se centraron en crear agentes en lugar de integraciones personalizadas. Bloomberg ahora admite flujos de trabajo de agentes escalables y seguros que desbloquean la interoperabilidad total con el ecosistema MCP. Bloomberg no vinculó ningún recurso público, pero esto es lo que presentaron en público en la cumbre.
Bloquear- Block emplea MCP para impulsar Goose, un agente interno de IA que permite a los empleados automatizar tareas en ingeniería, ventas, marketing y más. Construyeron más de 60 servidores MCP para herramientas como Git, Snowflake, Jira y Google Workspace para permitir la interacción del lenguaje natural con los sistemas que usan todos los días. Los empleados de Block ahora usan Goose para consultar datos, detectar fraudes, gestionar incidentes, navegar por procesos internos y más, todo sin tener que escribir código. MCP ayudó a Block a escalar la adopción de IA en muchas funciones laborales en solo 2 meses.
AWS - Servidores MCP de AWS: AWS presentó un divertido servidor MCP con temática de Dungeons and Dragons que simula tirar dados, realiza un seguimiento de las tiradas anteriores y devuelve resultados mediante HTTP transmitible. Este ejemplo ligero destacó lo fácil que es crear e implementar servidores MCP empleando herramientas e infraestructura de AWS como Lambda y Fargate. También presentaron Strands SDK, un conjunto de herramientas de código abierto para crear agentes multimodales que interactúan con los servidores MCP.
Soporte para MCP en Elastic Agent Builder
Puedes empezar a experimentar con MCP hoy mismo usando Elastic Agent Builder, que es la forma más sencilla de construir agentes directamente sobre tus datos. Agent Builder te permite exponer herramientas impulsadas por Elasticsearch a agentes compatibles con MCP y ya incluye algunas herramientas integradas poderosas, entre ellas:
platform.core.search - Ejecuta búsquedas usando el DSL completo de Elasticsearch Query
platform.core.list_indices - Lista todos los índices disponibles dentro de Elasticsearch (ayuda a los agentes a descubrir qué datos existen)
platform.core.get_index_mapping - Recupera mapeos de campos para un índice específico (ayuda a los agentes a entender la forma y los tipos de tus datos)
platform.core.get_document_by_id - Obtiene un documento específico por ID (para una recuperación precisa)
Solo con estas herramientas, puedes dotar a tu agente de búsqueda y relevancia a nivel empresarial, lo cual es fundamental para construir agentes de IA fiables.
Lo que hace que Agent Builder sea aún más poderoso es la capacidad de definir y exponer tus propias herramientas personalizadas adaptadas a las necesidades de tu aplicación. Esto es especialmente útil para flujos de trabajo con opiniones o repetibles, donde quieres que el agente realice un tipo específico de búsqueda contra un índice concreto sin tener que redescubrir esa lógica cada vez. En lugar de gastar tokens en planeación y razonamiento para llegar a la misma conclusión, puedes codificar esa intención directamente en una herramienta, haciendo que tus agentes sean más rápidos, fiables y rentables.
Dentro de la interfaz de Agent Builder, aquí tienes un ejemplo de definición personalizada de herramienta que emplea ES|QL:
Una vez que definiste tus herramientas personalizadas, puedes exponerlas (además de las herramientas nativas integradas) usando MCP haciendo clic en el desplegable para Manage MCP y copiando la URL del servidor MCP.
Ahora puedes importar este endpoint MCP a cualquier cliente que consuma MCP para conectarlo a Agent Builder y darle acceso a todas las herramientas disponibles. Para más información, lee esta introducción a Agent Builder.
Conclusión
La Cumbre de Desarrollo de MCP dejó en claro que MCP está dando forma a la forma en que estos agentes de IA interactúan entre sí y con el mundo de datos que los rodea. Ya sea que esté conectando un agente a los datos de la compañía o diseñando agentes totalmente autónomos, MCP ofrece una forma estandarizada y componible de integración que se está volviendo rápidamente útil a escala. Desde los protocolos de transporte y los patrones de seguridad hasta los registros y la gobernanza, el ecosistema MCP está madurando rápidamente. MCP seguirá siendo abierto e impulsado por la comunidad, por lo que los desarrolladores de hoy tienen la oportunidad de dar forma a su evolución.


Búsqueda híbrida revisitada: ¡presentando el retriever lineal en Elasticsearch!
Wed, 28 May 2025 00:00:00 GMT
En nuestra publicación de blog anterior , presentamos el marco de recuperadores rediseñado desde cero, que permite la creación de canalizaciones de clasificación complejas. También exploramos cómo el recuperador Reciprocal Rank Fusion (RRF) permite la búsqueda híbrida al fusionar resultados de diferentes consultas. Si bien RRF es fácil de implementar, tiene una limitación notable: se enfoca puramente en rangos relativos, ignorando los puntajes reales. Esto hace que el ajuste y la optimización sean un desafío.
¡Conoce al retriever lineal!
En esta publicación, presentamos el  linear retriever, ¡nuestra última incorporación para apoyar la búsqueda híbrida! A diferencia de rrf, el recuperador de linear calcula una suma ponderada en todas las consultas que coinciden con un documento. Este enfoque conserva la importancia relativa de cada documento dentro de un conjunto de resultados al tiempo que permite un control preciso sobre la influencia de cada consulta en el puntaje final. Como resultado, proporciona una forma más intuitiva y flexible de ajustar la búsqueda híbrida.
Definición de un recuperador lineal donde el puntaje final se calculará como:
 $score = 5 * knn + 1.5 * bm25$ Es tan simple como:
GET linear_retriever_blog/_search
{
   "retriever": {
       "linear": {
           "retrievers": [
               {
                   "retriever": {
                       "knn": {
                          ...
                        }
                    },
                   "weight": 5
               },
                  {
                   "retriever": {
                       "standard": {
                          ...
                        }
                    },
                   "weight": 1.5
               },


           ]
        }
     }
}
¿Notas lo simple e intuitivo que es? (¡y muy similar a rrf!) Esta configuración le permite controlar con precisión cuánto contribuye cada tipo de consulta a la clasificación final, a diferencia de rrf, que se basa únicamente en clasificaciones relativas.
Queda una advertencia: knn puntajes pueden estar estrictamente limitados, dependiendo de la métrica de similitud empleada. Por ejemplo, con la similitud del coseno o el producto punto de los vectores estandarizados por unidades, los puntajes siempre estarán dentro del rango [0, 1] . Por el contrario, bm25 puntajes son menos previsibles y no tienen límites claramente definidos.
Escalando los puntajes: kNN vs BM25
Un desafío de la búsqueda híbrida es que diferentes recuperadores producen puntajes en diferentes escalas. Considere, por ejemplo, el siguiente escenario:
Puntajes de la consulta A:
            
              
                
                    
                      doc1 doc2 doc3 doc4
                    
                    
                      knn 0.347 0.35 0.348 0.346
                    
                    
                      bm25 100 1.5 1 0.5
                    
              
            
          Puntajes de la consulta B:
            
              
                
                    
                      doc1 doc2 doc3 doc4
                    
                    
                      knn 0.347 0.35 0.348 0.346
                    
                    
                      bm25 0.63 0.01 0.3 0.4
                    
              
            
          Puede ver la disparidad arriba: kNN puntajes oscilan entre 0 y 1, mientras que bm25 puntajes pueden variar enormemente. Esta diferencia hace que sea difícil establecer pesos óptimos estáticos para combinar los resultados.
Normalización al rescate: el normalizador MinMax
Para solucionar esto, introdujimos un normalizador de minmax opcional que escala los puntajes, de forma independiente para cada consulta, al rango de [0, 1] mediante la siguiente fórmula:
 $normalized_score = (score - min) / (max - min)$ Esto conserva la importancia relativa de cada documento dentro del conjunto de resultados de una consulta, lo que facilita la combinación de puntajes de diferentes recuperadores. Con la normalización, los puntajes se convierten en:
Puntajes de la consulta A:
            
              
                
                    
                      doc1 doc2 doc3 doc4
                    
                    
                      knn 0.347 0.35 0.348 0.346
                    
                    
                      bm25 1.00 0.01 0.005 0.000
                    
              
            
          Puntajes de la consulta B:
            
              
                
                    
                      doc1 doc2 doc3 doc4
                    
                    
                      knn 0.347 0.35 0.348 0.346
                    
                    
                      bm25 1.00 0.000 0.465 0.645
                    
              
            
          Todos los puntajes ahora se encuentran en el rango de [0, 1] y optimizar la suma ponderada es mucho más sencillo, ya que ahora capturamos la importancia (relativa a la consulta) de un resultado en lugar de su puntaje absoluto y mantenemos la coherencia entre las consultas.
Ejemplo de recuperador lineal 
Veamos un ejemplo ahora para mostrar cómo se ve lo anterior y cómo el linear retriever aborda algunas de las deficiencias de rrf. RRF se basa únicamente en rangos relativos y no considera las diferencias de puntaje reales. Por ejemplo, dadas estos puntajes:
            
              
                
                    
                      doc1 doc2 doc3 doc4
                    
                    
                      knn 0.347 0.35 0.348 0.346
                    
                    
                      bm25 100 1.5 1 0.5
                    
                    
                      puntaje de la fuerza de avance 0.03226 0.03252 0.03200 0.03125
                    
              
            
          RRF clasificaría los documentos como:
 $doc2 > doc1 > doc3 > doc4$ Sin embargo, doc1 tiene un puntaje de bm25 significativamente más alta que los demás, que rrf no logra capturar porque solo analiza los rangos relativos. El recuperador de linear , combinado con la normalización, explica correctamente tanto los puntajes como sus diferencias, produciendo una clasificación más significativa:
            
              
                
                    
                      doc1 doc2 doc3 doc4
                    
                    
                      knn 0.347 0.35 0.348 0.346
                    
                    
                      bm25 1 0.01 0.005 0
                    
              
            
          Como podemos ver en lo anterior, la gran clasificación y score de doc1 para bm25 se contabiliza adecuadamente y se refleja en los puntajes finales. Además de eso, todos los puntajes se encuentran ahora en el rango [0, 1] para que podamos compararlas y combinarlas de una manera mucho más intuitiva (e incluso construir procesos de optimización offline).
Poniéndolo todo junto
Para aprovechar al máximo el recuperador de linear con normalización, la solicitud de búsqueda tendría el siguiente aspecto:
GET linear_retriever_blog/_search
{
   "retriever": {
       "linear": {
           "retrievers": [
               {
                   "retriever": {
                       "knn": {
                          ...
                        }
                    },
                   "weight": 5
               },
                  {
                   "retriever": {
                       "standard": {
                          ...
                        }
                    },
                   "weight": 1.5,
                   "normalizer": "minmax"
               },


           ]
       }
   }
}
Este enfoque combina lo mejor de ambos mundos: conserva la flexibilidad y el puntaje intuitivo del recuperador de linear , al tiempo que garantiza una escala de puntaje consistente con la normalización MinMax.
Al igual que con todos nuestros retrievers, el linear retriever se puede integrar en cualquier nivel de un árbol jerárquico de retriever, con soporte para explicabilidad, resaltado de coincidencias, colapso de campo y más.
Cuándo elegir el retriever lineal y por qué marca la diferencia
El linear retriever:
Preserva la importancia relativa al aprovechar los puntajes reales, no solo los rangos.
Permite el ajuste fino con contribuciones ponderadas de diferentes consultas.
Mejora la coherencia mediante la normalización, lo que hace que la búsqueda híbrida sea más estable y previsible.
Conclusión
El recuperador de linear ya está disponible en Elasticsearch Serverless y en las versiones 8.18 y 9.0. También se pueden encontrar más ejemplos y parámetros de configuración en nuestra documentación. Pruébelo y vea cómo puede mejorar su experiencia de búsqueda híbrida: esperamos sus comentarios. ¡Feliz búsqueda!


Creación de listas de evaluación con Quepid
Daniel Wrigley — Mon, 26 May 2025 00:00:00 GMT
La creación de listas de juicio es un paso crucial para optimizar la calidad de los resultados de búsqueda, pero puede ser una tarea complicada y difícil. Una lista de juicios es un conjunto seleccionado de consultas de búsqueda combinadas con valoraciones de relevancia para sus resultados correspondientes, también conocida como colección de prueba. Las métricas calculadas mediante esta lista actúan como referencia para medir el rendimiento de un motor de búsqueda. Para agilizar el proceso de creación de listas de juicio, el equipo de OpenSource Connections desarrolló Quepid. El juicio puede ser explícito o basar en la retroalimentación implícita de los usuarios. Este blog te guiará para establecer un entorno colaborativo en Quepid que permita eficazmente a los evaluadores humanos hacer juicios explícitos, que es la base de cada lista de juicios.
Quepid apoya a los equipos de búsqueda en el proceso de evaluación de la calidad de búsqueda:
Construcción de conjuntos de consultas
Crear listas de juicios
Calcular métricas de calidad de búsqueda
Compara diferentes algoritmos/rankingers de búsqueda basándote en métricas calculadas de calidad de búsqueda
Para nuestro blog, supongamos que gestionamos una tienda de alquiler de películas y que tenemos como objetivo mejorar la calidad de los resultados de búsqueda.
Prerrequisitos
Este blog emplea los datos y los mapeos del repositorio es-tmdb. Los datos provienen de The Movie Database. Para seguir el ritmo, configura un índice llamado tmdb con los mapeos e indexa los datos. No importa si configuras una instancia local o usas un despliegue de Elastic Cloud para esto: cualquiera de las dos funciona bien. Asumimos un despliegue de Elastic Cloud para este blog. Puedes encontrar información sobre cómo indexar los datos en el README del repositorio es-tmdb.
Haz una consulta sencilla de coincidencias en el campo del título para rocky confirmar que tienes datos para buscar:
GET tmdb/_search
{
 "query": {
   "match": {
     "title": "rocky"
   }
 }
}
Deberías ver 8 resultados.
{
 "took": 2,
 "timed_out": false,
 "_shards": {
   "total": 1,
   "successful": 1,
   "skipped": 0,
   "failed": 0
 },
 "hits": {
   "total": {
     "value": 8,
     "relation": "eq"
   }
…
}
Iniciar sesión en Quepid
Quepid es una herramienta que permite a los usuarios medir la calidad de los resultados de búsqueda y ejecutar experimentos offline para mejorarla.
Puedes usar Quepid de dos maneras: o bien usar la versión gratis y disponible públicamente alojada en https://app.quepid.com, o configura Quepid en una máquina a la que tengas acceso. Esta publicación asume que estás usando la versión alojada gratis. Si quieres configurar una instancia de Quepid en tu entorno, sigue la Guía de Instalación.
Sea cual sea la configuración que elijas, tendrás que crear una cuenta si aún no tienes una.
Cómo configurar un caso de Quepid
Quepid está organizado en torno a los "Casos". Un caso almacena consultas junto con ajustes de relevancia y cómo establecer una conexión con tu motor de búsqueda.
Para usuarios primerizos, selecciona Crear tu primer caso de relevancia.
Los usuarios que regresan pueden seleccionar Casos de Relevancia desde el menú superior y hacer clic en + Crear un caso.
Nombra tu caso de forma descriptiva, por ejemplo, "Línea base de búsqueda de películas", ya que queremos empezar a medir y mejorar nuestra búsqueda de referencia.
Confirma el nombre seleccionando Continuar.
A continuación, establecemos una conexión de Quepid con el motor de búsqueda. Quepid puede conectarse a una variedad de motores de búsqueda, incluido Elasticsearch.
La configuración variará según tu configuración de Elasticsearch y Quepid. Para conectar Quepid a un despliegue de Elastic Cloud, necesitamos habilitar y configurar CORS para nuestro despliegue de Elastic Cloud y tener lista una clave de API. Las instrucciones detalladas están en el tutorial correspondiente en la documentación de Quepid.
Introduce la información de tu endpoint de Elasticsearch (https://YOUR_ES_HOST:PORT/tmdb/_search) y cualquier información adicional necesaria para conectarte (la clave API en caso de un despliegue de Elastic Cloud en las opciones de configuración avanzada ), prueba la conexión haciendo clic en ping y selecciona Continuar para pasar al siguiente paso.
Ahora definimos qué campos queremos que se muestren en el caso. Selecciona todos los que ayuden a nuestros evaluadores humanos a evaluar posteriormente la relevancia de un documento para una consulta determinada.
Establece title como Campo de Título, deja _id como Campo ID y agrega overview, tagline, cast, vote_average, thumb:poster_path como Campos de Visualización Adicionales. La última entrada muestra pequeñas imágenes en miniatura de las películas en nuestros resultados para guiarnos visualmente a nosotros y a los evaluadores humanos.
Confirma la configuración de pantalla seleccionando el botón Continuar .
El último paso es agregar consultas de búsqueda al caso. Agrega las tres consultas Star Wars, Harrison Ford y la mejor película de acción una por una a través del campo de entrada y Continúa.
Idealmente, un caso contiene consultas que representan consultas reales de usuarios e ilustran diferentes tipos de consultas. Por ahora, podemos imaginar que Star Wars es una consulta que representa todas las consultas de títulos de películas, Harrison Ford una consulta que representa todas las consultas de los miembros del reparto, y Best Action Movie una consulta que representa todas las consultas que buscan películas de un género específico. Esto se denomina típicamente conjunto de consultas.
En un escenario de producción, muestrearíamos consultas de datos de seguimiento de eventos aplicando técnicas estadísticas como ejemplificación de probabilidad proporcional al tamaño e importaríamos estas consultas muestreadas a Quepid para incluir consultas desde la cabeza (consultas frecuentes) y cola (consultas poco frecuentes) en relación con su frecuencia, lo que significa que tendemos a optar por consultas más frecuentes sin excluir las raras.
Finalmente, selecciona Terminar y serás redirigido a la interfaz de casos donde verás las tres consultas definidas.
Búsquedas y necesidades de información
Para llegar a nuestro objetivo general de una lista de juicios, los evaluadores humanos deberán juzgar un resultado de búsqueda (normalmente un documento) para una consulta determinada. Esto se llama par consulta/documento.
A veces, parece fácil saber qué quería un usuario al revisar la consulta. La intención detrás de la harrison ford es encontrar películas protagonizadas por Harrison Ford, el actor. ¿Y qué pasa con la actionde la consulta? Sé que me tentaría decir que la intención del usuario es encontrar películas del género de acción. ¿Pero cuáles? ¿Los más recientes, los más populares, los mejores según las valoraciones de los usuarios? ¿O quizá el usuario quiere encontrar todas las películas que se llaman "Acción"? Hay al menos 12 (!) películas llamadas "Acción" en The Movie Database y sus nombres difieren principalmente en el número de signos de exclamación en el título.
Dos evaluadores humanos pueden diferir en la interpretación de una consulta cuando la intención no está clara. Entra en escena la necesidad de información: Una necesidad de información es un deseo consciente o inconsciente de información. Definir una necesidad de información ayuda a los evaluadores humanos a juzgar documentos para una consulta, por lo que desempeñan un papel importante en el proceso de elaboración de listas de juicio. Los usuarios expertos o expertos en la materia son buenos candidatos para especificar necesidades de información. Es buena práctica definir las necesidades de información desde la perspectiva del usuario, ya que es su necesidad la que los resultados de búsqueda deben satisfacer.
Necesidades de información para las consultas de nuestro caso "Línea de Base de Búsqueda de Películas":
Star Wars: El usuario quiere encontrar películas o seriales de la franquicia Star Wars. Potencialmente relevantes son los documentales sobre Star Wars.
Harrison Ford: El usuario quiere encontrar películas protagonizadas por el actor Harrison Ford. Potencialmente relevantes son las películas en las que Harrison Ford tiene un papel diferente, como el de narrador.
mejor película de acción: El usuario quiere encontrar películas de acción, preferiblemente aquellas con votos medios altos.
Cómo definir las necesidades de información en Quepid
Para definir una necesidad de información en Quepid, accede a la interfaz de casos:
1. Abre una consulta (por ejemplo,s tar wars) y selecciona Alternar Notas.
2. Introduce la Necesidad de Información en el primer campo y cualquier nota adicional en el segundo campo:
3. Haz clic en almacenar.
Para un puñado de consultas, este proceso está bien. Sin embargo, cuando amplías tu caso de tres a 100 consultas (los casos de Quepid suelen estar en el rango de 50 a 100 consultas), puede que quieras definir necesidades de información fuera de Quepid (por ejemplo, en una hoja de cálculo) y luego subirlas mediante Importar y seleccionar Necesidades de Información.
Crea un equipo en Quepid y comparte tu caso
Los juicios colaborativos mejoran la calidad de las evaluaciones de relevancia. Para formar un equipo:
1. Navega a Teams en el menú superior.
2. Haz clic + Agregar Nuevo, introduce el nombre de un equipo (por ejemplo, "Search Relevance Raters") y haz clic en Crear.
3. Agregar miembros escribiendo sus direcciones de email y haciendo clic en Agregar usuario.
4. En la interfaz de casos, selecciona Compartir Caso.
5. Elegir el equipo adecuado y confirmarlo.
Crea un libro de evaluaciones en Quepid
Un libro en Quepid permite a varios evaluadores evaluar sistemáticamente los pares consulta/documento. Para crear uno:
1. Ve a Sentencias en la interfaz del caso y haz clic + Crear un libro.
2. Configura el libro con un nombre descriptivo, asigna el libro a tu equipo, selecciona un método de puntaje (por ejemplo, DCG@10) y establece la estrategia de selección (uno o varios evaluadores). Emplea los siguientes ajustes para el libro:
Nombre: "Búsqueda de películas a escala 0-3"
Equipos con los que compartir este libro: Marca la casilla con el equipo que creaste
Goleador: DCG@10
3. Haz clic en Crear libro.
El nombre es descriptivo y contiene información sobre lo que se busca en ("Películas") y también la escala de las sentencias ("0-3"). El DCG@10 seleccionado de Scorer define la forma en que se calculará la métrica de búsqueda. "DCG" es la abreviatura de Ganancia Acumulada Descontada y "@10" es el número de resultados desde la parte superior que se tiene en cuenta al calcular la métrica.
En este caso, estamos usando una métrica que mide la ganancia de información y la combina con ponderación posicional. Puede que haya otras métricas de búsqueda más adecuadas para tu caso de uso y elegir la adecuada es un desafío en sí mismo.
Llena el libro con pares de búsqueda/documento
Para agregar pares de consulta/documento para la evaluación de relevancia, sigue estos pasos:
1. En la interfaz del caso, navega a "Sentencias".
2. Selecciona tu libro creado.
3. Haz clic en "Poblar libro" y confirma seleccionando "Actualizar pares de consulta/documentos para libro."
Esta acción genera pares basados en los principales resultados de búsqueda de cada consulta, listos para su evaluación por parte de su equipo.
Deja que tu equipo de evaluadores humanos juzgue 
Hasta ahora, los pasos completados fueron bastante técnicos y administrativos. Ahora que esta preparación necesaria está hecha, podemos dejar que nuestro equipo de jueces haga su trabajo. En esencia, el trabajo del juez es valorar la relevancia de un documento concreto para una consulta determinada. El resultado de este proceso es la lista de juicios que contiene todas las etiquetas de relevancia para los pares de documentos de consulta evaluados. A continuación, se explica este proceso y la interfaz para él con más detalle.
Visión general de la interfaz de calificación humana
La interfaz de calificación humana de Quepid está diseñada para evaluaciones eficientes:
Consulta: Muestra el término de búsqueda.
Necesidad de información: Muestra la intención del usuario.
Directrices de puntaje: Proporciona instrucciones para evaluaciones consistentes.
Metadatos del documento: Presenta detalles relevantes sobre el documento.
Botones de valoración: Permite a los evaluadores asignar juicios con los atajos de teclado correspondientes.
Uso de la interfaz de calificación humana
Como evaluador humano, accedo a la interfaz a través de la visión general del libro:
1. Navega a la interfaz del caso y haz clic en Sentencias.
2. ¡Haz clic en Más Juicios Se Necesitan!
El sistema presentará un par de consulta/documento que aún no fue valorado y que requiere juicios adicionales. Esto está determinado por la estrategia de selección del Libro:
Evaluador único: Un único juicio por par de consulta/documento.
Evaluadores múltiples: hasta tres juicios por par de consulta/documento.
Calificación de pares de búsqueda/documento
Vamos a repasar un par de ejemplos. Al seguir esta guía, lo más probable es que te presenten diferentes películas. Sin embargo, los principios de clasificación se mantienen igual.
Nuestro primer ejemplo es la película "Heroes" para la consulta de Harrison Ford:
Primero analizamos la consulta, seguida de la necesidad de información y después juzgamos la película en función de los metadatos proporcionados.
Esta película es un resultado relevante para nuestra consulta, ya que Harridson Ford forma parte del reparto. Puede que consideremos las películas más recientes como más relevantes subjetivamente, pero esto no forma parte de nuestra necesidad informativa. Así que calificamos este documento con "Perfecto", que es un 3 en nuestra escala de calificación.
Nuestro siguiente ejemplo es la película "Ford v Ferrari" para la consulta Harrison Ford:
Siguiendo la misma práctica, juzgamos esta consulta/documento analizando la consulta, la necesidad de información y luego cuán bien los metadatos del documento coinciden con la necesidad de información.
Este es un resultado pobre. Probablemente veamos este resultado como uno de nuestros términos de consulta, "ford", coincide en el título. Pero Harrison Ford no tiene ningún papel en esta película, ni en ningún otro. Así que calificamos este documento como "Pobre", que es un 0 en nuestra escala de calificación.
Nuestro tercer ejemplo es la película "Action Jackson" para la mejor película de acción que se pregunta:
Esto parece una película de acción, así que la necesidad de información está al menos parcialmente cubierta. Sin embargo, la media de votos es de 5,4 sobre 10. Y eso hace que esta película probablemente no sea la mejor de acción de nuestra colección. Esto me llevaría, como juez, a calificar este documento como "Justo", que es un 1 en nuestra escala de calificación.
Estos ejemplos ilustran el proceso de valorar pares de consulta/documento con Quepid en individua, tanto a nivel general como en general.
Mejores prácticas para evaluadores humanos
Los ejemplos mostrados pueden hacer que parezca fácil llegar a juicios explícitos. Pero establecer un programa fiable de valoración humana no es tarea fácil. Es un proceso lleno de desafíos que pueden comprometer fácilmente la calidad de tus datos:
Los evaluadores humanos pueden fatigar por tareas repetitivas.
Las preferencias personales pueden sesgar los juicios.
Los niveles de experiencia en el sector varían de un juez a otro.
Los evaluadores suelen compaginar múltiples responsabilidades.
La relevancia percibida de un documento puede no coincidir con su verdadera relevancia para una consulta.
Estos factores pueden dar lugar a juicios inconsistentes y de baja calidad. Pero no te preocupes: existen buenas prácticas probadas que pueden ayudarte a minimizar estos problemas y construir un proceso de evaluación más estable y fiable:
Evaluación constante: Revisa la consulta, la necesidad de información y los metadatos del documento en orden.
Consulte las Directrices: Emplea directrices de puntaje para mantener la consistencia. Las directrices de puntaje pueden incluir ejemplos de cuándo aplicar cada nota, lo que ilustra el proceso de evaluación. Tener una consulta con evaluadores humanos tras la primera tanda de sentencias resultó ser una buena práctica para aprender sobre casos límite difíciles y dónde se necesita apoyo adicional.
Aprovecha las opciones: Si tienes dudas, emplea "Juzgaré más tarde" o "No puedo saberlo", proporcionando explicaciones cuando sea necesario.
Toma descansos: Las pausas regulares ayudan a mantener la calidad del juicio. Quepid ayuda con los descansos regulares haciendo estallar confeti cada vez que un evaluador humano termina un serial de juicios.
Siguiendo estos pasos, estableces un enfoque estructurado y colaborativo para crear listas de juicios en Quepid, mejorando la eficacia de tus esfuerzos de optimización de relevancia en búsqueda.
Pasos siguientes
¿A dónde ir a partir de aquí? Las listas de juicio son solo un paso fundamental para mejorar la calidad de los resultados de búsqueda. Aquí están los siguientes pasos:
Calcula métricas y comienza a experimentar
Una vez que hay listas de juicios disponibles, aprovechar dichos juicios y calcular métricas de calidad de búsqueda es una progresión natural. Quepid calcula automáticamente la métrica configurada para el caso actual cuando hay sentencias disponibles. Las métricas se implementan como "Puntuadores" y puedes proporcionar las tuyas propias cuando las compatibles no incluyen a tu favorito.
Ve a la interfaz del caso, navega hasta Seleccionar Anotador, elige DCG@10 y confirma haciendo clic en Seleccionar Anotador. Quepid ahora calculará DCG@10 por consulta y también promediará el número total de consultas para cuantificar la calidad de los resultados de búsqueda de tu caso.
Ahora que la calidad de los resultados de búsqueda está cuantificada, puedes realizar los primeros experimentos. La experimentación comienza generando hipótesis. Mirar las tres consultas en la captura de pantalla tras hacer algunas valoraciones queda claro que las tres consultas rinden de forma muy diferente en cuanto a la métrica de calidad de búsqueda: Star Wars funciona bastante bien, Harrison Ford parece aceptable pero el mayor potencial está en la mejor película de acción.
Ampliando esta consulta, vemos sus resultados y podemos profundizar en los detalles más minuciosos y explorar por qué los documentos coincidieron y qué influye en sus puntajes:
Al hacer clic en "Explicar la consulta" y entrar en la pestaña "Análisis sintáctico" vemos que la consulta es una búsqueda de DisjunctionMaxxQuery en tres campos: cast, resumen y título:
Normalmente, como ingenieros de búsqueda, conocemos algunos detalles específicos de nuestro dominio sobre nuestra plataforma de búsqueda. En este caso, puede que sepamos que tenemos un campo de géneros . Vamos a agregar eso a la consulta y ver si la calidad de búsqueda mejora.
Usamos el Sandbox de Consultas que se abre al seleccionar Relevancia de Ajuste en la interfaz de casos. Adelante, explora esto agregando el campo de géneros en el que busques:
{
  "query": {
    "multi_match": {
      "query": "#$query##",
      "type": "best_fields",
      "fields": [
        "title^10",
        "overview",
        "cast",
        "genres"
      ]
    }
  }
}
¡Haz clic en Volver a Ejecutar Mis Búsquedas! Y mira los resultados. ¿Cambiaron? Desgraciadamente no. Ahora tenemos muchas opciones para explorar, básicamente todas las opciones de consulta que ofrece Elasticsearch:
Podríamos aumentar el peso del campo en el campo de géneros.
Podríamos agregar una función que aumente los documentos por su media de votos.
Podríamos crear una consulta más compleja que solo mejore los documentos por su promedio de votos si hay una coincidencia fuerte de géneros.
…
Lo mejor de tener todas estas opciones y explorarlas en Quepid es que tenemos una forma de cuantificar los efectos no solo en la única consulta que intentamos mejorar, sino en todas las consultas que tenemos en nuestro caso. Eso nos impide mejorar una consulta que no rinde sacrificando la calidad de los resultados de búsqueda para otras. Podemos iterar rápida y barata y validar el valor de nuestra hipótesis sin ningún riesgo, haciendo de la experimentación offline una capacidad fundamental de todos los equipos de búsqueda.
Mide la confiabilidad entre evaluadores
Incluso con descripciones de tareas, necesidades de información y una interfaz de evaluador humano como la que ofrece Quepid, los evaluadores humanos pueden discrepar.
El desacuerdo en sí mismo no es algo malo, todo lo contrario: medir el desacuerdo puede sacar a la luz cuestiones que quizá quieras abordar. La relevancia puede ser subjetiva, las consultas pueden ser ambiguas y los datos pueden ser incompletos o incorrectos. El Kappa de Fleiss es una medida estadística del acuerdo entre evaluadores y hay un cuaderno de ejemplo en Quepid que puedes usar. Para encontrarlo, selecciona Cuadernos en la navegación superior y selecciona el cuaderno Fleiss Kappa.ipynb en la carpeta de ejemplos .
Conclusión
Quepid te permite afrontar incluso los retos de relevancia en búsquedas más complejos y sigue evolucionando: desde la versión 8, Quepid soporta juicios generados por IA, lo cual es especialmente útil para equipos que quieren escalar su proceso de generación de juicios.
Los flujos de trabajo quepid te permiten crear listas de juicios escalables de forma eficiente, lo que finalmente resulta en resultados de búsqueda que realmente satisfacen las necesidades de los usuarios. Con listas de juicios establecidas, tienes una base estable para medir la relevancia en las búsquedas, iterar mejoras y mejorar la experiencia de usuario.
A medida que avanzas, recuerda que la afinación de la relevancia es un proceso continuo. Las listas de juicio te permiten evaluar sistemáticamente tu progreso, pero son más poderosos cuando se combinan con experimentación, análisis métrico y mejoras iterativas.
Lecturas adicionales
Documentos de Quepid:La relevancia es un deporte de equipo
Quepid para evaluadores humanos
Cómo conectar Quepid a Elastic Cloud
Repositorio de Quepid en Github
Conoce a Pete, un serial de blogs sobre cómo mejorar la búsqueda en comercio electrónico
Relevance Slack: únete al canal #quepid
Colabora con Open Source Connections para transformar tus capacidades de búsqueda e inteligencia artificial y empoderar a tu equipo para que las evolucione continuamente. Nuestro historial probado abarca todo el mundo, con clientes que logran de forma constante mejoras notables en la calidad de búsqueda, la capacidad del equipo y el rendimiento empresarial. Contacta con nosotros hoy mismo para obtener más información.


Visualización de campos en un índice de Elasticsearch
Kofi Bartlett — Mon, 26 May 2025 00:00:00 GMT
En este artículo, hablaremos de cómo mostrar campos en un índice de Elasticsearch. Esto puede ser útil para entender la estructura de tus datos, identificar campos específicos y solucionar problemas. Vamos a tratar los siguientes temas:
Uso de la API_mapping para recuperar información de campo
Uso de la API_search para mostrar los valores de los campos
Filtrado de campos usando el  parámetrofields
Visualización de campos anidados
1. Uso de la API _mapping para recuperar información de campo
La API _mapping permite recuperar la definición de mapeo para un índice o varios índices. Esto incluye información sobre los campos, sus tipos de datos y otras propiedades. Para recuperar el mapeo de un índice específico, emplee la siguiente petición:
GET //_mapping
Por ejemplo, si tienes un índice llamado my_index, puedes recuperar su mapeo con la siguiente petición:
GET /my_index/_mapping
La respuesta incluirá la definición de mapeo para el índice, que contiene información sobre los campos y sus propiedades.
También es posible recuperar el mapeo de un campo específico. Esto puede ser útil si tu mapeo es bastante grande y solo quieres centrarte en un campo específico. Para recuperar el mapeo de un campo específico, emplee la siguiente petición:
GET /my_index/_mapping/field/my_field
También puedes recuperar los mapeos de varios campos separando sus nombres con comas, como en la siguiente petición:
GET /my_index/_mapping/field/my_field_1,my_field_2,my_field_3
2. Uso de la API _search para mostrar los valores de los campos
Para mostrar los valores de los campos en un índice de Elasticsearch, puedes usar la API _search . Por defecto, la API _search devuelve el campo _source , que contiene el documento JSON original que se indexó. Para mostrar solo campos específicos, puedes usar el parámetro _source en la solicitud de búsqueda.
Aquí tienes un ejemplo de una solicitud de búsqueda que devuelve los valores de los campos title y author para documentos en el índice my_index :
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "_source": ["title", "author"]
}
En este ejemplo, el parámetro _source especifica los campos que se deben devolver.
3. Filtrado de campos usando el parámetro de campos
También puedes usar el parámetro fields para filtrar los campos que aparecen en la respuesta de búsqueda. Esto puede ser útil si solo necesitas campos específicos y quieres reducir el tamaño de la respuesta. El parámetro fields acepta una matriz de nombres de campos o patrones comodines.
Por ejemplo, para devolver solo los campos title y author de los documentos en el índice de my_index , puedes usar la siguiente solicitud de búsqueda:
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "fields": ["title", "author"],
  "_source": false
}
Ten en cuenta que el parámetro _source está configurado como falso para no devolver el documento fuente.
Para devolver todos los campos con un text tipo de dato, puedes usar un patrón comodín como este:
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "fields": ["*.text"],
  "_source": false
}
4. Visualización de campos anidados
Si tu índice contiene campos anidados, puedes usar la notación de puntos para especificar el camino de campo anidado en el parámetro fields . Por ejemplo, si tienes un campo anidado llamado address.city, puedes incluirlo en la respuesta de búsqueda así:
GET /my_index/_search
{
  "query": {
    "match_all": {}
  },
  "fields": ["title", "author", "address.city"],
  "_source": false
}
En este ejemplo, la respuesta de búsqueda incluirá los valores de los campos title, author address.city .
Conclusión
En conclusión, se puede lograr mostrar campos en un índice de Elasticsearch empleando la API _mapping para recuperar información de campos y la API _search para mostrar los valores de campo. Puedes filtrar los campos que aparecen en la respuesta de búsqueda usando los parámetros de _source o fields y mostrar los campos anidados usando la notación de puntos. Estas técnicas pueden ayudarte a entender la estructura de tus datos, identificar campos específicos y solucionar problemas.


Spring AI y Elasticsearch como tu base de datos vectorial
Philipp Krenn, Laura Trotta — Tue, 20 May 2025 00:00:00 GMT
Spring AI ya está disponible en general, con su primera versión estable 1.0 lista para que la descargues en Maven Central. Vamos a usarla de inmediato para construir una aplicación de IA completa, usando tu LLM favorito y nuestra base de datos vectorial favorita. O lanzarte directamente al repositorio con la aplicación final.
Watch video on YouTube¿Qué es Spring AI?
Spring AI 1.0, una solución integral para la ingeniería de IA en Java, ya está disponible tras un importante periodo de desarrollo influido por los rápidos avances en el campo de la IA. La versión incluye numerosas funciones nuevas esenciales para ingenieros de IA.
Java y Spring están en una posición ideal para sumar a toda esta ola de IA. Un montón de empresas están ejecutando sus productos en Spring Boot, lo que facilita muchísimo conectar IA a lo que ya están haciendo. Básicamente puedes vincular tu lógica de negocio y datos directamente a esos modelos de IA sin demasiadas complicaciones.
Spring AI ofrece soporte para diversos modelos y tecnologías de IA, tales como:
Modelos de imagen: generan imágenes con indicaciones de texto.
Modelos de transcripción: toma fuentes de audio y conviértelas en texto.
Modelos de incrustación: convertir datos arbitrarios en vectores, que son tipos de datos optimizados para la búsqueda por similitud semántica.
Modelos de chat: ¡estos deberían ser familiares! Sin duda tuviste una breve conversación con alguno en algún sitio.
Los modelos de chat son donde parece estar la mayor parte de la atención en el ámbito de la IA, y con razón, ¡son geniales! Puedes pedirles ayuda para corregir un documento o escribir un poema. (Solo no les pidas que cuenten un chiste... todavía.) Son geniales, pero tienen algunos problemas.
Soluciones de IA de primavera a los retos de la IA
Vamos a repasar algunos de estos problemas y sus soluciones en Spring AI.
            
              
                
                    
                      Problema Solución
                    
                    
                      Consistencia Los modelos de chat son de mente abierta y propensos a distracciones Puedes darles un sistema de consignas para gobernar su forma y estructura general
                    
                    
                      Memoria Los modelos de IA no tienen memoria, por lo que no pueden correlacionar un mensaje de un usuario dado a otro Puedes darles un sistema de memoria para almacenar las partes relevantes de la conversación
                    
                    
                      Aislamiento Los modelos de IA viven en pequeños espacios aislados, pero pueden hacer cosas realmente asombrosas si les das acceso a herramientas, funciones que pueden invocar cuando lo consideren necesario Spring AI soporta la llamada a herramientas, que te permite informar al modelo de IA sobre herramientas en su entorno, que luego puede pedirte que invoques. Esta interacción de varios turnos se gestiona de forma transparente para ti
                    
                    
                      Datos privados Los modelos de IA son inteligentes, ¡pero no omniscientes! No saben lo que hay en vuestras bases de datos propietarias, ¡ni creemos que querríais que lo supieran! Necesitas informar sus respuestas rellenando los prompts, básicamente usando el todopoderoso operador de concatenación de cadenas para poner texto en la petición antes de que el modelo mire la pregunta que se está planteando. Información de fondo, si quieres. ¿Cómo decides qué debe enviar y qué no? Emplea un almacén vectorial para seleccionar solo los datos relevantes y enviarlos a continuación. Esto se denomina generación aumentada por recuperación, o RAG
                    
                    
                      Alucinación A los modelos de chat de IA les gusta de, bueno, ¡charlar! Y a veces lo hacen con tanta confianza que pueden inventar cosas Necesitas usar la evaluación —usando un modelo para validar la salida de otro— para confirmar resultados razonables
                    
              
            
          
Y, por supuesto, ninguna aplicación de IA es una isla. Hoy en día, los sistemas y servicios modernos de IA funcionan mejor cuando se integran con otros sistemas y servicios. El Protocolo de Contexto de Modelo (MCP) permite conectar tus aplicaciones de IA con otros servicios basados en MCP, independientemente del lenguaje en el que estén escritos. Puedes ensamblar todo esto en flujos de trabajo agenticos que manejan hacia un objetivo mayor.
¿Lo mejor? Todo esto puedes hacer mientras construyes sobre los modismos y abstracciones familiares que cualquier desarrollador de Spring Boot llegó a esperar: dependencias de inicio convenientes para prácticamente todo están disponibles en el Inicializador de Spring.
Spring AI ofrece configuraciones automáticas convenientes de Spring Boot que te dan la configuración de convención sobre configuración que ya conoces y esperas. Y Spring AI soporta observabilidad con el Actuator de Spring Boot y el proyecto Micrometer. También funciona bien con GraalVM y los hilos virtuales, permitiéndote crear aplicaciones de IA súper rápidas y eficientes que escalan.
Por qué Elasticsearch
Elasticsearch es un motor de búsqueda de texto completo, probablemente lo sepas. ¿Entonces por qué lo estamos usando para este proyecto? ¡Pues también es una tienda vectorial! Y bastante bueno, donde los datos están junto al texto completo. Otros beneficios notables:
Súper fácil de configurar
Código abierto
Escalable horizontalmente
La mayoría de los datos libres de tu organización probablemente ya estén en un clúster de Elasticsearch
Cuenta con capacidad completa de motor de búsqueda
¡ Totalmente integrado en Spring AI!
Teniendo todo en cuenta, Elasticsearch cumple con todos los requisitos para ser un excelente almacén vectorial, así que vamos a configurarlo y empezar a construir nuestra aplicación.
Primeros pasos con Elasticsearch
Vamos a necesitar tanto Elasticsearch como Kibana, la consola de interfaz que usarás para interactuar con los datos alojados en la base de datos.
Puedes probar todo en tu máquina local gracias a la calidad de las imágenes de Docker y la página principal Elastic.co. Ve allí, baja para encontrar el comando curl , ejecuta y canaliza directamente a tu carcasa:
 curl -fsSL https://elastic.co/start-local | sh 
  ______ _           _   _      
 |  ____| |         | | (_)     
 | |__  | | __ _ ___| |_ _  ___ 
 |  __| | |/ _` / __| __| |/ __|
 | |____| | (_| \__ \ |_| | (__ 
 |______|_|\__,_|___/\__|_|\___|
-------------------------------------------------
🚀 Run Elasticsearch and Kibana for local testing
-------------------------------------------------
ℹ️  Do not use this script in a production environment
⌛️ Setting up Elasticsearch and Kibana v9.0.0...
- Generated random passwords
- Created the elastic-start-local folder containing the files:
  - .env, with settings
  - docker-compose.yml, for Docker services
  - start/stop/uninstall commands
- Running docker compose up --wait
[+] Running 25/26
 ✔ kibana_settings Pulled                                                 16.7s 
 ✔ kibana Pulled                                                          26.8s 
 ✔ elasticsearch Pulled                                                   17.4s                                                                     
[+] Running 6/6
 ✔ Network elastic-start-local_default             Created                 0.0s 
 ✔ Volume "elastic-start-local_dev-elasticsearch"  Created                 0.0s 
 ✔ Volume "elastic-start-local_dev-kibana"         Created                 0.0s 
 ✔ Container es-local-dev                          Healthy                12.9s 
 ✔ Container kibana_settings                       Exited                 11.9s 
 ✔ Container kibana-local-dev                      Healthy                21.8s 
🎉 Congrats, Elasticsearch and Kibana are installed and running in Docker!
🌐 Open your browser at http://localhost:5601
   Username: elastic
   Password: w1GB15uQ
🔌 Elasticsearch API endpoint: http://localhost:9200
🔑 API key: SERqaGlKWUJLNVJDODc1UGxjLWE6WFdxSTNvMU5SbVc5NDlKMEhpMzJmZw==
Learn more at https://github.com/elastic/start-local
➜  ~ 
Esto simplemente extraerá y configurará imágenes Docker para Elasticsearch y Kibana, y tras unos minutos las tendrás funcionando en tu máquina local, con credenciales de conexión completas.
También tienes dos URLs diferentes que puedes usar para interactuar con tu instancia de Elasticsearch. Haz lo que indica el aviso y apunta tu navegador a http://localhost:5601.
Fíjate también en el nombre de usuario elastic y la contraseña impresos en la consola: los necesitarás para iniciar sesión (en el ejemplo de arriba son respectivamente elastic y w1GB15uQ).
Preparando la app
Ve a la página de Spring Initializr y genera un nuevo proyecto de Spring AI con las siguientes dependencias:
Elasticsearch Vector Store
Spring Boot Actuator
GraalVM
OpenAI
Web
Cerciórate de elegir la versión más reciente y mejor de Java (idealmente Java 24 - a fecha de este texto - o posterior) y la herramienta de compilación que elijas. Estamos usando Apache Maven en este ejemplo.
Haz clic Generate y luego descomprime el proyecto e impórtalo al IDE que elijas. (Estamos usando IntelliJ IDEA.)
Lo primero de todo: especifiquemos tus datos de conexión para tu aplicación Spring Boot. En application.properties, escribir lo siguiente:
spring.elasticsearch.uris=http://localhost:9200
spring.elasticsearch.username=elastic
spring.elasticsearch.password=w1GB15uQ
También emplearemos la capacidad de almacenamiento vectorial de Spring AI para inicializar lo que sea necesario en Elasticsearch en cuanto a estructuras de datos, así que especifica:
spring.ai.vectorstore.elasticsearch.initialize-schema=true
Vamos a usar OpenAI en esta demo, concretamente el Modelo de Embedding y el Modelo de Chat (siéntete libre de usar el servicio que prefieras, siempre que Spring AI lo soporte).
El Modelo de Incrustación es necesario para crear incrustaciones de los datos antes de almacenarlos en Elasticsearch. Para que OpenAI funcione, necesitamos especificar la API key:
spring.ai.openai.api-key=...
Puedes definirlo como una variable de entorno como SPRING_AI_OPENAI_API_KEY para evitar almacenar la credencial en tu código fuente.
Vamos a subir archivos, así que cerciórate de personalizar cuánto dato se puede subir al contenedor de servlet:
spring.servlet.multipart.max-file-size=20MB
spring.servlet.multipart.max-request-size=20MB
¡Ya casi llegamos! Antes de sumergirnos en la escritura del código, vamos a ver cómo va a funcionar esto.
En nuestra máquina, descargamos el siguiente archivo (una lista de reglas para un juego de mesa), lo renombramos a test.pdf y lo pusimos en ~/Downloads/test.pdf.
El archivo se enviará al punto final /rag/ingest (reemplaza la ruta según tu configuración local):
http --form POST http://localhost:8080/rag/ingest path@/Users/jlong/Downloads/test.pdf
Esto puede tardar unos segundos...
Entre bastidores, los datos se envían a OpenAI, que crea incrustaciones de los datos; esos datos se escriben entonces en Elasticsearch, tanto los vectores como el texto original.
Esos datos, junto con todas las incrustaciones que contienen, es donde ocurre la magia. Luego podemos consultar Elasticsearch usando la interfaz VectorStore .
El flujo completo es así:
El cliente HTTP sube el PDF que elijas a la aplicación Spring.
Spring AI se encarga de la extracción de texto de nuestro PDF y divide cada página en fragmentos de 800 caracteres.
OpenAI genera la representación vectorial para cada bloque.
Tanto el texto fragmentado como la incrustación se almacenan entonces en Elasticsearch.
Por último, haremos una consulta:
http :8080/rag/query question=="where do you place the reward card after obtaining it?" 
Y obtendremos una respuesta relevante:
After obtaining a Reward card, you place it facedown under the Hero card of the hero who received it.
Found at page: 28 of the manual
¡Muy bien! ¿Cómo funciona todo esto?
El cliente HTTP envia la pregunta a la aplicación Spring.
Spring AI obtiene la representación vectorial de la pregunta de OpenAI.
Con esa incrustación, busca documentos similares en los chunks almacenados de Elasticsearch y recupera los documentos más parecidos.
Spring AI envía entonces la pregunta y el contexto recuperado a OpenAI para generar una respuesta LLM.
Finalmente, devuelve la respuesta generada y una referencia al contexto recuperado.
Vamos a profundizar en el código de Java para ver cómo funciona realmente.
Primero que nada, la clase Main : es una clase principal estándar estándar para cualquier aplicación de botas de muelle.
@SpringBootApplication
public class DemoApplication {
 	public static void main(String[] args) { 
     		SpringApplication.run(DemoApplication.class, args);
 	}
}
No hay nada que ver allí. Sigamos...
A continuación, un controlador HTTP básico:
@RestController
class RagController {

   private final RagService rag;

   RagController(RagService rag) {
       this.rag = rag;
   }

   @PostMapping("/rag/ingest")
   ResponseEntity ingestPDF(@RequestBody MultipartFile path) {
       rag.ingest(path.getResource());
       return ResponseEntity.ok().body("Done!");
   }

   @GetMapping("/rag/query")
   ResponseEntity query(@RequestParam String question) {
       String response = rag.directRag(question);
       return ResponseEntity.ok().body(response);
   }
}
El controlador simplemente llama a un servicio que creamos para gestionar la ingesta de archivos y escribirlos en el almacén vectorial de Elasticsearch, y luego facilitar consultas contra ese mismo almacén vectorial.
Veamos el servicio:
@Service
class RagService {

   private final ElasticsearchVectorStore vectorStore;

   private final ChatClient ai;

   RagService(ElasticsearchVectorStore vectorStore, ChatClient.Builder clientBuilder) {
       this.vectorStore = vectorStore;
       this.ai = clientBuilder.build();
   }

   void ingest(Resource path) {
       PagePdfDocumentReader pdfReader = new PagePdfDocumentReader(path);
       List batch = new TokenTextSplitter().apply(pdfReader.read());
       vectorStore.add(batch);
   }

  // TBD
}
Este código gestiona toda la ingestión: dado un Framework Spring Resource, que es un contenedor alrededor de bytes, leemos los datos PDF (presumiblemente un archivo .PDF - cerciórate de validar lo máximo antes de aceptar entradas arbitrarias) usando el PagePdfDocumentReader de Spring AI y luego tokenizándolos usando el TokenTextSplitterde Spring AI ,  Finalmente, agregando el Listresultante a la implementación VectorStore , ElasticsearchVectorStore.
Puedes confirmarlo usando Kibana: luego de enviar un archivo al endpoint /rag/ingest , abre tu navegador para localhost:5601 y en el menú lateral de la izquierda navega hasta Dev Tools. Allí puedes emitir consultas para interactuar con los datos de la instancia de Elasticsearch.
Haz una consulta como esta:
Ahora, lo divertido: ¿cómo sacamos esos datos de nuevo en respuesta a las consultas de los usuarios?
Aquí tienes un primer corte en una implementación de la consulta, en un método llamado directRag.
String directRag(String question) {
   // Query the vector store for documents related to the question
   List vectorStoreResult =
           vectorStore.doSimilaritySearch(SearchRequest.builder().query(question).topK(5)
                   .similarityThreshold(0.7).build());

   // Merging the documents into a single string
   String documents = vectorStoreResult.stream()
           .map(Document::getText)
           .collect(Collectors.joining(System.lineSeparator()));

   // Exit if the vector search didn't find any results
   if (documents.isEmpty()) {
       return "No relevant context found. Please change your question.";
   }

   // Setting the prompt with the context
   String prompt = """
           You're assisting with providing the rules of the tabletop game Runewars.
           Use the information from the DOCUMENTS section to provide accurate answers to the
           question in the QUESTION section.
           If unsure, simply state that you don't know.
          
           DOCUMENTS:
           """ + documents
           + """
           QUESTION:
           """ + question;


   // Calling the chat model with the question
   String response = ai
           .prompt()
           .user(prompt)
           .call()
           .content();

   return response +
           System.lineSeparator() +
           "Found at page: " +
           // Retrieving the first ranked page number from the document metadata
           vectorStoreResult.getFirst().getMetadata().get(PagePdfDocumentReader.METADATA_START_PAGE_NUMBER) +
           " of the manual";

}
El código es bastante sencillo, pero vamos a desglosarlo en varios pasos:
Usa el VectorStore para realizar una búsqueda de similitud.
Con todos los resultados, consigue los DocumentAI de Spring subyacentes y extrae su texto, concatenándolos todos en un solo resultado.
Envía los resultados del VectorStore al modelo, junto con un prompt que indique al modelo qué hacer con ellos y la pregunta del usuario. Espera la respuesta y devuélvelo.
Esto es RAG - generación aumentada por recuperación. Es la idea de que usamos datos de un almacén vectorial para informar el procesamiento y análisis que realiza el modelo. Ahora que sabes cómo hacerlo, ¡esperemos que nunca tengas que hacerlo! Al menos no así: los Asesores de Spring AI están aquí para simplificar aún más este proceso.
Advisors te permite preprocesar y postprocesar una solicitud a un modelo dado, además de proporcionar una capa de abstracción entre tu aplicación y el almacén vectorial. Agrega la siguiente dependencia a tu build:

   org.springframework.ai
   spring-ai-advisors-vector-store
Agrega otro método llamado advisedRag(String question) a la clase:
String advisedRag(String question) {
   return this.ai
           .prompt()
           .user(question)
           .advisors(new QuestionAnswerAdvisor(vectorStore))
           .call()
           .content();
}
Toda la lógica de patrón RAG está encapsulada en la QuestionAnswerAdvisor. ¡Todo lo demás es igual que cualquier petición a un ChatModel ! ¡Muy bien!
Y puedes obtener el código completo desde GitHub.
Conclusión
En esta demostración, usamos imágenes Docker y todo lo hicimos en nuestra máquina local, pero el objetivo aquí es construir sistemas y servicios de IA aptos para producción. Hay varias cosas que podrías hacer para que eso sea realidad.
En primer lugar, puedes agregar Spring Boot Actuator para monitorizar el consumo de tokens. Los tokens son un indicador de la complejidad (y a veces del costo en dólares y centavos) de una solicitud dada al modelo.
Ya tienes el Actuador de Bota de Muelle en la ruta de clase, así que solo tienes que especificar las siguientes propiedades para mostrar todas las métricas (capturadas por el magnífico proyecto Micrometer.io ):
management.endpoints.web.exposure.include=*
Resetear tu solicitud. Haz una consulta y luego ve a: http://localhost:8080/actuator/metrics. Busca "token" y verás información sobre los tokens que está usando la aplicación. Cerciórate de estar atento a esto. Por supuesto, puedes usar la integración de Micrometer para Elasticsearch para impulsar esas métricas y que Elasticsearch actúe también como tu base de datos de seriales temporales preferida.
Entonces deberías considerar que cada vez que hacemos una petición a un almacén de datos como Elasticsearch, o a OpenAI, u otros servicios de red, estamos haciendo IO y —a menudo— ese IO bloquea los hilos sobre los que se ejecuta. Java 21 y posteriores incluyen hilos virtuales que no bloquean y mejoran significativamente la escalabilidad. Habilitarlo con:
spring.threads.virtual.enabled=true
Y, por último, querrás alojar tu aplicación y tus datos en un lugar donde puedan prosperar y escalar. Estamos seguros de que probablemente ya pensaste dónde ejecutar tu aplicación, pero ¿dónde alojarás tus datos? ¿Podemos recomendar el Elastic Cloud? Es seguro, privado, escalable y lleno de funciones. ¿Nuestra parte favorita? Si quieres, puedes conseguir la edición Serverless donde Elastic lleva el buscapersonas, ¡no tú!


Elasticsearch en JavaScript de la manera correcta, parte II
Jeffrey Rengifo — Mon, 19 May 2025 00:00:00 GMT
Esta es la segunda parte de nuestro serial Elasticsearch en JavaScript. En la primera parte, aprendimos a configurar correctamente nuestro entorno, configurar el cliente Node.js, indexar datos y buscar. En esta segunda parte, aprenderemos a implementar las mejores prácticas de producción y a ejecutar el cliente de Node.js Elasticsearch en entornos sin servidor.
Revisaremos:
Mejores prácticas de producciónManejo de errores
Pruebas
Entornos sin servidorEjecutando el cliente en Elastic Serverless
Ejecutando el cliente en un entorno de función como servicio
Puedes consultar el código fuente con los ejemplos aquí.
Mejores prácticas de producción
Manejo de errores en Elasticsearch
Una característica útil del cliente Elasticsearch en Node.js es que expone objetos para los posibles errores en Elasticsearch, de modo que puedes validarlos y manejarlos de diferentes maneras.
Para verlos todos, pon esto: 
const { errors } = require('@elastic/elasticsearch')
console.log(errors)
Volvamos al ejemplo de búsqueda y tratemos algunos de los posibles errores:
app.get("/search/lexic", async (req, res) => {
 ....
  } catch (error) {
    if (error instanceof errors.ResponseError) {
      let errorMessage =
        "Response error!, query malformed or server down, contact the administrator!";

      if (error.body.error.type === "parsing_exception") {
        errorMessage = "Query malformed, make sure mappings are set correctly";
      }

      res.status(error.meta.statusCode).json({
        erroStatus: error.meta.statusCode,
        success: false,
        results: null,
        error: errorMessage,
      });
    }

    res.status(500).json({
      success: false,
      results: null,
      error: error.message,
    });
  }
});
ResponseError en individuo, ocurrirá cuando la respuesta sea 4xx o 5xx, lo que significa que la solicitud es incorrecta o el servidor no está disponible.
Podemos probar este tipo de error generando consultas erróneas, como intentar hacer una consulta de términos en un campo de tipo texto:
Error por defecto:
 {
    "success": false,
    "results": null,
    "error": "parsing_exception\n\tRoot causes:\n\t\tparsing_exception: [terms] query does not support [visit_details]"
}
Error personalizado: 
{
    "erroStatus": 400,
    "success": false,
    "results": null,
    "error": "Response error!, query malformed or server down; contact the administrator!"
}
También podemos capturar y manejar cada tipo de error de una manera determinada. Por ejemplo, podemos agregar lógica de reintentos en un TimeoutError.
app.get("/search/semantic", async (req, res) => {
    try {
  ...
  } catch (error) {
    if (error instanceof errors.TimeoutError) {


     // Retry logic...

      res.status(error.meta.statusCode).json({
        erroStatus: error.meta.statusCode,
        success: false,
        results: null,
        error:
          "The request took more than 10s after 3 retries. Try again later.",
      });
    }
  }
});
Pruebas
Las pruebas son clave para garantizar la estabilidad de la aplicación. Para probar el código de forma aislada de Elasticsearch, podemos usar la biblioteca elasticsearch-js-mock al crear nuestro clúster.
Esta biblioteca nos permite instanciar un cliente muy similar al real, pero que responderá a nuestra configuración reemplazando solo la capa HTTP del cliente por una mock, manteniendo el resto igual que el original.
Instalaremos la biblioteca de simulacros y AVA para los exámenes automatizados.
npm install @elastic/elasticsearch-mock
npm install --save-dev ava
Configuraremos el archivo package.json para ejecutar las pruebas. Cerciórate de que se vea así:
"type": "module",
	"scripts": {
		"test": "ava"
	},
	"devDependencies": {
		"ava": "^5.0.0"
	}
Ahora creemos un archivo test.js e instalemos nuestro cliente simulado:
const { Client } = require('@elastic/elasticsearch')
const Mock = require('@elastic/elasticsearch-mock')

const mock = new Mock()
const client = new Client({
  node: 'http://localhost:9200',
  Connection: mock.getConnection()
})
Ahora, agrega un simulacro para la búsqueda semántica:
function createSemanticSearchMock(query, indexName) {
  mock.add(
    {
      method: "POST",
      path: `/${indexName}/_search`,
      body: {
        query: {
          semantic: {
            field: "semantic_field",
            query: query,
          },
        },
      },
    },
    () => {
      return {
        hits: {
          total: { value: 2, relation: "eq" },
          hits: [
            {
              _id: "1",
              _score: 0.9,
              _source: {
                owner_name: "Alice Johnson",
                pet_name: "Buddy",
                species: "Dog",
                breed: "Golden Retriever",
                vaccination_history: ["Rabies", "Parvovirus", "Distemper"],
                visit_details:
                  "Annual check-up and nail trimming. Healthy and active.",
              },
            },
            {
              _id: "2",
              _score: 0.7,
              _source: {
                owner_name: "Daniel Kim",
                pet_name: "Mochi",
                species: "Rabbit",
                breed: "Mixed",
                vaccination_history: [],
                visit_details:
                  "Nail trimming and general health check. No issues.",
              },
            },
          ],
        },
      };
    }
  );
}
Ahora podemos crear una prueba para nuestro código, cerciorándonos de que la parte de Elasticsearch siempre devolverá los mismos resultados:
import test from 'ava';

test("performSemanticSearch must return formatted results correctly", async (t) => {
  const indexName = "vet-visits";
  const query = "Which pets had nail trimming?";

  createSemanticSearchMock(query, indexName);

  async function performSemanticSearch(esClient, q, indexName = "vet-visits") {
    try {
      const result = await esClient.search({
        index: indexName,
        body: {
          query: {
            semantic: {
              field: "semantic_field",
              query: q,
            },
          },
        },
      });

      return {
        success: true,
        results: result.hits.hits,
      };
    } catch (error) {
      if (error instanceof errors.TimeoutError) {
        return {
          success: false,
          results: null,
          error: error.body.error.reason,
        };
      }

      return {
        success: false,
        results: null,
        error: error.message,
      };
    }
  }

  const result = await performSemanticSearch(esClient, query, indexName);

  t.true(result.success, "The search must be successful");
  t.true(Array.isArray(result.results), "The results must be an array");

  if (result.results.length > 0) {
    t.true(
      "_source" in result.results[0],
      "Each result must have a _source property"
    );
    t.true(
      "pet_name" in result.results[0]._source,
      "Results must include the pet_name field"
    );
    t.true(
      "visit_details" in result.results[0]._source,
      "Results must include the visit_details field"
    );
  }
});
Hagamos las pruebas.
npm run test
¡Hecho! A partir de ahora, podemos probar nuestra app centrándonos al 100% en el código y no en factores externos.
Entornos sin servidor
Cómo ejecutar el cliente en Elastic Serverless
Cubrimos la ejecución de Elasticsearch en la nube o local; sin embargo, el cliente Node.js también soporta conexiones a Elastic Cloud Serverless.
Elastic Cloud Serverless te permite crear un proyecto donde no tienes que preocuparte por la infraestructura, ya que Elastic se encarga de eso internamente, y solo tienes que preocuparte por los datos que quieres indexar y cuánto tiempo quieres tener acceso a ellos.
Desde la perspectiva del uso, los servidores sin servidor desacoplan el cálculo del almacenamiento, proporcionando funciones de escalado automático tanto para búsqueda como para indexación. Esto te permite solo hacer crecer los recursos que realmente necesitas.
El cliente realiza las siguientes adaptaciones para conectarse a Serverless:
Apaga el olfateo e ignora cualquier opción relacionada con el olfateo
Ignora todos los nodos que pasan en la configuración excepto el primero, e ignora cualquier filtrado de nodos y seleccionando opciones
Activa la compresión y el 'TLSv1_2_method' (igual que cuando se configura para Elastic Cloud)
Agrega un encabezado HTTP 'elastic-api-version' a todas las solicitudes
Emplea 'CloudConnectionPool' por defecto en lugar de 'WeightedConnectionPool'
Desactiva los encabezados 'content-type' y 'accept' que venden en favor de los tipos MIME estándar
Para conectar tu proyecto serverless, necesitas usar el parámetro serverMode: serverless.
const { Client } = require('@elastic/elasticsearch')
const client = new Client({
  node: 'ELASTICSEARCH_ENDPOINT',
  auth: { apiKey: 'ELASTICSEARCH_API_KEY' },
  serverMode: "serverless",
});
Cómo ejecutar el cliente en un entorno de función como servicio
En el ejemplo, usamos un servidor Node.js, pero también puedes conectarte usando un entorno de función como servicio con funciones como AWS Lambda, GCP Run, etc.
'use strict'

const { Client } = require('@elastic/elasticsearch')

const client = new Client({
  // client initialisation
})

exports.handler = async function (event, context) {
  // use the client
}
Otro ejemplo es conectarse a servicios como Vercel, que también es sin servidor. Puedes consultar este ejemplo completo de cómo hacerlo, pero la parte más relevante del endpoint de búsqueda es la siguiente:
const response = await client.search(
  {
    index: INDEX,
    // You could directly send from the browser
    // the Elasticsearch's query DSL, but it will
    // expose you to the risk that a malicious user
    // could overload your cluster by crafting
    // expensive queries.
    query: {
      match: { field: req.body.text },
    },
  },
  {
    headers: {
      Authorization: `ApiKey ${token}`,
    },
  }
);
Este endpoint reside en la carpeta /api y se ejecuta desde el lado del servidor, de modo que el cliente solo tiene control sobre el parámetro "texto" que corresponde al término de búsqueda.
La participación de usar función como servicio es que, a diferencia de un servidor que funciona 24/7, las funciones solo activan la máquina que ejecuta la función y, una vez terminada, la máquina entra en modo reposo para consumir menos recursos.
Esta configuración puede ser conveniente si la aplicación no recibe demasiadas solicitudes; De lo contrario, los costos pueden ser elevados. También tienes que considerar el ciclo de vida de las funciones y los tiempos de ejecución (que en algunos casos pueden ser solo segundos).
Conclusión
En este artículo, aprendimos a manejar errores, algo crucial en entornos de producción. También cubrimos pruebas de nuestra aplicación simulando el servicio Elasticsearch, que proporciona pruebas fiables independientemente del estado del clúster y nos permite centrarnos en nuestro código.
Finalmente, demostramos cómo crear una pila totalmente serverless aprovisionando tanto Elastic Cloud Serverless como una aplicación Vercel.


Cómo optimizar el espacio en disco y el uso de Elasticsearch
Fri, 16 May 2025 00:00:00 GMT
La gestión de discos es importante en cualquier base de datos, y Elasticsearch no es una excepción. Si no tienes suficiente espacio en disco disponible, Elasticsearch dejará de asignar fragmentos al nodo. Esto acabará impidiéndote poder escribir datos en el clúster, con el riesgo potencial de pérdida de datos en tu aplicación. Por otro lado, si tienes demasiado espacio en disco, entonces estás pagando por más recursos de los que necesitas.
Antecedentes sobre las marcas de agua
Hay varios umbrales de "marca de agua" en tu clúster de Elasticsearch que te ayudan a rastrear el espacio disponible en disco. A medida que el disco se llena en un nodo, el primer umbral que se cruzará será la "marca de agua de disco bajo". El segundo umbral será entonces el "umbral alto de marca de agua en disco". Finalmente, se alcanzará la "fase de inundación de disco". Una vez superado este umbral, el clúster bloqueará la escritura en TODOS los índices que tengan un fragmento (primario o réplica) en el nodo que pasó la marca de agua. Las lecturas (búsquedas) seguirán siendo posibles.
Cómo prevenir y manejar casos cuando el disco está demasiado lleno (sobreutilización)
Existen varios métodos para gestionar casos cuando tu disco de Elasticsearch está demasiado lleno:
Eliminar datos antiguos: Normalmente, los datos no deben conservar indefinidamente. Una forma de evitar y solucionar que el disco esté demasiado lleno es cerciorar de que, cuando los datos alcancen cierta edad, se archiven y eliminen de forma fiable. Una forma de hacerlo es usando ILM.
Agregar capacidad de almacenamiento: Si no puedes eliminar los datos, quizá quieras agregar más nodos de datos o aumentar el tamaño de los discos para conservar todos los datos sin afectar negativamente al rendimiento. Si necesitas agregar capacidad de almacenamiento al clúster, deberías considerar si necesitas agregar solo capacidad de almacenamiento, o tanto capacidad de almacenamiento como RAM y recursos de CPU en proporción (ver la sección sobre la proporción entre tamaño de disco, RAM y CPU más abajo).
Cómo agregar capacidad de almacenamiento a tu clúster de Elasticsearch
Aumentar el número de nodos de datos: Recuerda que los nuevos nodos deben tener el mismo tamaño que los nodos existentes y la misma versión de Elasticsearch.
Aumentar el tamaño de los nodos existentes: En entornos basados en la nube, suele ser fácil aumentar el tamaño del disco y la RAM/CPU en los nodos existentes.
Aumenta solo el tamaño del disco: En entornos basados en la nube, a menudo es relativamente fácil aumentar el tamaño del disco.
Instantánea y restauración: Si estás dispuesto a permitir que se recuperen datos antiguos a petición en un proceso automatizado desde copias de seguridad, puedes hacer instantáneas de índices antiguos, eliminarlos y restaurar datos temporalmente a petición de las instantáneas. 
Reducir réplicas por fragmento: Otra opción para reducir los datos es reducir el número de réplicas de cada fragmento. Para alta disponibilidad, te gustaría tener una réplica por fragmento, pero cuando los datos envejecen, podrías trabajar sin réplicas. Esto normalmente podría funcionar si los datos son persistentes o si tienes una copia de seguridad que restaurar si es necesario.
Crea alertas: Para evitar que los discos se llenen en el futuro y actuar de forma proactiva, deberías crear alertas basadas en el uso del disco que te avisen cuando el disco empiece a llenar. 
Cómo prevenir y gestionar casos en los que la capacidad del disco está infrautilizada
Si la capacidad de tu disco está infrautilizada, existen varias opciones para reducir el volumen de almacenamiento en tu clúster.
Cómo reducir el volumen de almacenamiento en un clúster de Elasticsearch
Existen varios métodos para reducir el volumen de almacenamiento de un clúster.
1. Reducir el número de nodos de datos
Si quieres reducir el almacenamiento de datos y también reducir los recursos de RAM y CPU en la misma proporción, esta es la estrategia más sencilla. Desmantelar nodos innecesarios probablemente suponga el mayor ahorro de costos.
Antes de desactivar el nodo, deberías:
Cerciorar de que el nodo a desmantelar no sea necesario como nodo MAESTRO. Siempre deberías tener al menos tres nodos con el rol de nodo MAESTRO.
Migra los fragmentos de datos fuera del nodo para ser desmantelados.
2. Sustituir nodos existentes por nodos más pequeños
Si no puedes reducir aún más el número de nodos (normalmente 3 sería una configuración mínima), entonces quizá quieras reducir el tamaño de los nodos existentes. Recuerda que es recomendable cerciorar de que todos los nodos de datos tengan la misma memoria RAM y tamaño de disco, ya que los fragmentos se equilibran en función del número de fragmentos por nodo.
El proceso sería:
Agregar nuevos nodos más pequeños al clúster
Migra los fragmentos lejos de los nodos para ser desmantelados
Apaga los nodos antiguos
3. Reducir el tamaño del disco en los nodos
Si SOLO quieres reducir el tamaño del disco en los nodos sin cambiar la RAM o la CPU total del clúster, entonces puedes reducir el tamaño del disco para cada nodo. Reducir el tamaño del disco en un nodo Elasticsearch no es un proceso trivial.
La forma más sencilla de hacerlo suele ser:
Migrar fragmentos desde el nodo
Detener el nodo
Montar un nuevo volumen de datos en el nodo con el tamaño adecuado
Copiar todos los datos del volumen de disco antiguo al volumen nuevo
Desacoplar el antiguo volumen A
Nodo inicial y migra fragmentos de vuelta a nodo
Esto requiere que tengas suficiente capacidad en los otros nodos para almacenar temporalmente los fragmentos extra del nodo durante este proceso. En muchos casos, el costo de gestionar este proceso puede superar los posibles ahorros en el uso del disco. Por esta razón, puede ser más sencillo reemplazar el nodo por completo por uno nuevo con el tamaño de disco deseado (ver "Sustituir nodos existentes por nodos más pequeños" arriba).
Al pagar por recursos innecesarios, el costo obviamente puede reducir optimizando la utilización de los recursos.
La relación entre el tamaño del disco, la RAM y la CPU
La proporción ideal de capacidad de disco respecto a RAM en tu clúster dependerá de tu caso de uso particular. Por esta razón, al considerar cambios en tu capacidad de almacenamiento, también deberías considerar si las relaciones actuales de disco/RAM/CPU están adecuadamente equilibradas y si, como consecuencia, necesitas agregar o reducir RAM y CPU en la misma proporción.
Los requisitos de RAM y CPU dependen del volumen de actividad de indexación , el número y tipo de consultas, y también de la cantidad de datos que se están buscando y agregando. Esto suele ser proporcional a la cantidad de datos almacenados en el clúster y, por tanto, también debe estar relacionado con el tamaño del disco.
La proporción entre la capacidad del disco y la RAM puede cambiar según el caso de uso. Consulta algunos ejemplos aquí:
            
              
                
                    
                      Actividad en el índice Retención Actividad de búsqueda Capacidad del disco CARNERO
                    
                    
                      Aplicación de búsqueda empresarial Ingestión moderada de logarítmic Largo Luz 2TB 32GB
                    
                    
                      Monitorización de aplicaciones Ingesta intensiva de troncos Corto Luz 1TB 32GB
                    
                    
                      Comercio electrónico Indexación de datos de luz Indefinido Pesado 500GB 32GB
                    
              
            
          Recuerda que modificar la configuración de las máquinas de nodos debe hacer con cuidado, ya que puede implicar tiempo de inactividad de nodos y debes cerciorarte de que los fragmentos no empiecen a migrar a otros nodos ya sobreextendidos.

Característica	Agent2Agent (A2A)	Protocolo de Contexto de Modelo (MCP)	Híbrido (A2A + MCP)
Objetivo principal	Coordinación Multiagente: Permite que un equipo de agentes especializados trabaje juntos en flujos de trabajo complejos y de varios pasos.	Mejora de un solo agente: Extiende la capacidad de un único LLM/Agente con herramientas, recursos y datos externos.	Fuerza combinada: A2A gestiona el flujo de trabajo del equipo, mientras que MCP proporciona herramientas a cada miembro del equipo.
Ejemplo de equipo de redacción	La cadena de flujo de trabajo: Jefe de Noticias → Reportero → Investigador → Editor → Editor. Esta es la capa de coordinación.	Herramientas individuales del agente: El Agente Reportero accede al servidor de la guía de estilo y al servidor de plantillas (a través de MCP). Esta es la capa de acceso a herramientas.	El sistema completo: el reportero coordina con el editor (A2A), y el reportero emplea el servidor MCP de la Biblioteca de Imágenes para encontrar un gráfico para la historia.
Cuándo usar cuál	Cuando necesitas colaboración genuina, iteración y refinamiento, o experiencia especializada repartida entre varios agentes.	Cuando un solo agente necesita acceso a múltiples herramientas y fuentes de datos o requiere integración estandarizada con sistemas propietarios.	Cuando necesitas los beneficios organizacionales de los sistemas multiagente y los beneficios de estandarización y ecosistema del MCP.
Beneficio fundamental	Autonomía y escalado: Los agentes pueden tomar decisiones independientes, y el sistema permite la escalado horizontal de funciones especializadas.	Simplicidad y estandarización: Más fácil de depurar y mantener gracias al razonamiento centralizado, y proporciona una interfaz universal para los recursos.	Separación clara de preocupaciones: Facilita la comprensión del sistema: A2A = trabajo en equipo, MCP = acceso a la herramienta.

Búsqueda	Contenido del documento	Grado	Explicación
"La mejor receta de pizza"	"Receta auténtica de masa de pizza italiana con fotos paso a paso"	4.0	Muy relevante, exactamente lo que el usuario busca
"La mejor receta de pizza"	"Historia de la pizza en Italia"	1.0	Algo en el tema, trata sobre pizza pero no es una receta
"La mejor receta de pizza"	"Receta rápida de pizza de 15 minutos para principiantes"	3.0	Relevante, un buen resultado pero quizá no cumpla con la "mejor" receta.
"La mejor receta de pizza"	"Guía de mantenimiento de autos"	0.0	No tiene nada que ver, completamente ajeno a la consulta

Métrico	Descripción
Precisión y recordación	Compara los IDs de alerta entre las salidas reales y esperadas para medir la precisión de la detección.
Similitud	Usa BERTScore para comparar la similitud semántica del texto de respuesta.
Hechos	¿Existen indicadores clave de compromiso (IOC)? ¿Se reflejan correctamente las tácticas MITRE (taxonomía industrial de los ataques)?
Consistencia de la cadena de ataque	Compara el número de descubrimientos para comprobar si hay sobrenotificación o infranotificación del ataque.

Sección	Razón
Eres un experto en analizar paneles de Kibana a partir de imágenes para la versión 9.0.0 de Kibana.	Al reforzar esto es Elasticsearch, y la versión de Elasticsearch reducimos la probabilidad de que el LLM alucine parámetros antiguos o inválidos.
Se te dará una imagen del panel de control y un mapeo de índice de Elasticsearch.	Explicamos que la imagen trata sobre paneles para evitar interpretaciones erróneas por parte del LLM.
A continuación se muestran los mapeos de índices del índice en el que se basa el panel de control. Emplea esto para ayudarte a entender los datos y los campos disponibles. Mapeos de índice: {index_mappings}	Es crucial proporcionar los mapeos para que el LLM pueda seleccionar campos válidos dinámicamente. De lo contrario, podríamos codificar los mapeos aquí, lo cual es demasiado rígido, o confiar en la imagen que contiene los nombres de campo correctos, lo cual no es fiable.
Incluye solo los campos relevantes para cada visualización, basándote en lo que sea visible en la imagen.	Tuvimos que agregar este refuerzo porque a veces intenta agregar campos que no son relevantes para la imagen.

Valores de las ocupaciones para el iPhone 16	doc_count	bg_count
occupation_distribution (nivel superior)	122	424
Sector Médico y Sanitario	45	57

Modelo de teléfono	doc_count (este modelo en esta ocupación)	bg_count (este modelo en todos los documentos)	% en todos los documentos	% en esta ocupación
Google Pixel 8	12	22	5.19%	16.90%
OnePlus 11	9	14	3.30 %	12.68%
OnePlus 12 Pro	3	3	0.71 %	4.23%
Google Pixel 8 Pro	9	21	4.95%	12.68%
Nothing Phone 2	5	8	1.89%	7.04%
Samsung Galaxy Z Fold5	4	6	1.42%	5.63%
OnePlus 12	8	20	4.72%	11.27 %

Perfiles	Descripción	Remediación y mejores prácticas
Inyección rápida y envenenamiento de herramientas	Una forma de inyectar un mensaje malicioso dentro del contexto del sistema LLM o la descripción de la herramienta, lo que hace que el LLM realice acciones no deseadas como leer archivos o filtrar datos.	Emplee herramientas como MCP Scan para realizar comprobaciones de los metadatos de la herramienta. Valide las descripciones y los parámetros antes de incluirlos en las solicitudes. Por último, considere implementar aprobaciones de usuarios para herramientas de alto riesgo. Para obtener más detalles, consulte la guía de inyección rápida de OWASP en la lista de lectura adicional debajo de la tabla.
Ataques de ejemplificación	En el contexto de MCP, la ejemplificación abre la puerta para que el servidor MCP realice ataques de inyección rápida en el LLM.	Deshabilite la ejemplificación para servidores que no son de confianza y considere la posibilidad de agregar aprobaciones de personas en el bucle para las solicitudes de ejemplificación.
Servidores MCP maliciosos	En las colecciones actuales de servidores MCP, es difícil examinar todos y cada uno de ellos para garantizar la seguridad. Los servidores no autorizados pueden recopilar y exponer silenciosamente sus datos a actores maliciosos.	Conectar únicamente a servidores MCP desde registros confiables o listas internas. Ejecute servidores de terceros en contenedores con sandboxing.
Herramientas de instalación de MCP maliciosas	Los instaladores y scripts de línea de comandos son convenientes para implementar rápidamente servidores o herramientas MCP, pero podría terminar instalando código comprometido y no verificado.	Instale en entornos de espacio aislado y valide las firmas de los paquetes. Nunca actualice automáticamente desde fuentes no verificadas.

	Problema	Solución
Consistencia	Los modelos de chat son de mente abierta y propensos a distracciones	Puedes darles un sistema de consignas para gobernar su forma y estructura general
Memoria	Los modelos de IA no tienen memoria, por lo que no pueden correlacionar un mensaje de un usuario dado a otro	Puedes darles un sistema de memoria para almacenar las partes relevantes de la conversación
Aislamiento	Los modelos de IA viven en pequeños espacios aislados, pero pueden hacer cosas realmente asombrosas si les das acceso a herramientas, funciones que pueden invocar cuando lo consideren necesario	Spring AI soporta la llamada a herramientas, que te permite informar al modelo de IA sobre herramientas en su entorno, que luego puede pedirte que invoques. Esta interacción de varios turnos se gestiona de forma transparente para ti
Datos privados	Los modelos de IA son inteligentes, ¡pero no omniscientes! No saben lo que hay en vuestras bases de datos propietarias, ¡ni creemos que querríais que lo supieran!	Necesitas informar sus respuestas rellenando los prompts, básicamente usando el todopoderoso operador de concatenación de cadenas para poner texto en la petición antes de que el modelo mire la pregunta que se está planteando. Información de fondo, si quieres. ¿Cómo decides qué debe enviar y qué no? Emplea un almacén vectorial para seleccionar solo los datos relevantes y enviarlos a continuación. Esto se denomina generación aumentada por recuperación, o RAG
Alucinación	A los modelos de chat de IA les gusta de, bueno, ¡charlar! Y a veces lo hacen con tanta confianza que pueden inventar cosas	Necesitas usar la evaluación —usando un modelo para validar la salida de otro— para confirmar resultados razonables

	Actividad en el índice	Retención	Actividad de búsqueda	Capacidad del disco	CARNERO
Aplicación de búsqueda empresarial	Ingestión moderada de logarítmic	Largo	Luz	2TB	32GB
Monitorización de aplicaciones	Ingesta intensiva de troncos	Corto	Luz	1TB	32GB
Comercio electrónico	Indexación de datos de luz	Indefinido	Pesado	500GB	32GB