Por qué la búsqueda de ecommerce necesita gobernanza y cómo mejora la recuperación

Los minoristas de comercio electrónico deben gestionar distintos tipos de consultas muy diferentes dentro del mismo sistema. Un comprador que busca “naranjas” espera la fruta, no productos que contengan la palabra “naranja”, como el jugo de naranja o la mermelada de naranja, y no productos cítricos semánticamente relacionados. Un comprador que busca un “regalo para el abuelo al que le gusta lo dulce” necesita descubrimiento semántico, no coincidencia literal de palabras clave.

La recuperación léxica (coincidencia de texto), la recuperación semántica (coincidencia de conceptos) ni la recuperación híbrida (combinación de señales léxicas y semánticas) resuelven estos problemas por sí solas. La recuperación léxica puede arrojar cualquier resultado que contenga la palabra “naranjas”, mientras que la recuperación semántica pura en una consulta de alta intención como “naranjas” puede ampliarse hacia elementos relacionados como limones o toronjas. La recuperación híbrida combina estas señales léxicas y semánticas, pero aún no determina si esta consulta debe considerarse navegacional, qué restricciones deben aplicarse o qué políticas comerciales deben implementarse. La brecha no es la tecnología de recuperación en sí; es la ausencia de una capa de gobernanza que entienda de qué tipo de consulta se trata y qué restricciones deben implementarse antes de que comience la recuperación.

En este blog, abordamos la gobernanza de la búsqueda en el comercio electrónico, su relevancia y cómo garantizar una recuperación predecible y precisa con una capa de control.

Qué significa la gobernanza en la búsqueda en el comercio electrónico

Gobernanza, en este contexto, significa introducir una capa de decisión entre la consulta del usuario y el motor de recuperación. Esta capa realiza las siguientes funciones:

Clasifica la intención de la consulta: ¿se trata de navegación ("naranjas") o descubrimiento ("regalo para el abuelo")?
Aplica restricciones comerciales: ¿qué límites de categoría, reglas de elegibilidad, restricciones de disponibilidad o políticas de comercialización se aplican?
Apunta hacia la estrategia adecuada: ¿debería usar recuperación léxica, recuperación semántica o híbrida?

Una capa de gobernanza determina qué método de recuperación debe emplearse para cada consulta, qué restricciones deben aplicarse y qué políticas empresariales deben implementarse antes de que comience la recuperación. Es importante no confundir la gobernanza con la recuperación híbrida: la recuperación híbrida es una estrategia que combina señales léxicas y semánticas, mientras que la gobernanza es la capa de decisión previa que determina si deben usarse señales léxicas, semánticas o híbridas.

Situación actual: la implementación "espagueti" de la capa de aplicación

Hoy en día, muchos minoristas intentan resolver esto agregando lógica directamente en la capa de aplicación. A menudo resulta en código espagueti, es decir, miles de líneas de afirmaciones “si-entonces” codificadas de forma rígida, regex y plantillas de búsqueda complejas.

Comparación de la lógica de aplicación codificada de forma fija y Elasticsearch: cómo Elasticsearch simplifica la clasificación y la recuperación sin reglas “si-entonces” complejas.

Este enfoque puede proporcionar los resultados de búsqueda deseados como se muestra arriba; sin embargo, crea una fricción operativa significativa:

Dependencia de ingeniería: los usuarios empresariales y los comercializadores no pueden modificar el comportamiento de búsqueda sin tickets de ingeniería y largos ciclos de despliegue que a menudo abarcan varias semanas.
Fragmentación: la lógica de búsqueda queda dispersa entre el código de la aplicación y las plantillas de búsqueda, y es difícil de explicar o auditar, lo que vuelve su evolución arriesgada.

Incluso cuando los equipos reconocen la necesidad de enrutamiento, el debate a menudo se centra en la pregunta equivocada: qué método de recuperación elegir.

La falsa elección: léxico vs. semántico vs. híbrido

Los equipos de búsqueda suelen enmarcar el desafío como una elección estratégica de recuperación: léxico/BM25 frente a semántico/vectores frente a híbrido. Ese encuadre es comprensible (los métodos de recuperación importan), pero pasa por alto el modo de fallo más común en despliegues reales: usar un único enfoque de recuperación para todas las consultas dará resultados subóptimos.

La búsqueda comercial es una mezcla de intenciones fundamentalmente diferentes:

Navegación determinista y de alta intención ("naranjas", "leche", "chocolate sin maní", "aceite de oliva barato").
Descubrimiento exploratorio ("chaqueta para hacer senderismo en las montañas", "regalo para una niña o niño de 12 años a quien le gusta la robótica").
Restricciones operativas (disponibilidad, tamaño, precio, color).
Merchandising y campañas (impulsar, relegar, campañas estacionales).

Cuando el sistema enruta todo esto a través de la misma estrategia de recuperación, los resultados a menudo son sistemáticamente incorrectos de manera predecible porque el modelo operativo carece de gobernanza. Cuando los equipos no se dan cuenta de que esto es una falla en la gobernanza, responden con la única herramienta que tienen: ajustar más el sistema.

Por qué “afinar la relevancia” puede volverse algo cíclico

Sin una capa de enrutamiento, la "relevancia" suele convertirse en una lista de pendientes interminable:

¿Por qué esta búsqueda muestra accesorios por encima del producto núcleo?
¿Por qué esta búsqueda principal de repente comenzó a mostrar elementos relacionados?
¿Por qué cambiaron los resultados después de que agregamos sinónimos, ajustamos los analizadores o habilitamos el híbrido?
¿Por qué el equipo de negocios necesita un lanzamiento de ingeniería para arreglar una consulta única?

Los equipos responden con más ajustes: más sinónimos, más mejoras, más experimentos de reordenamiento, más excepciones en el código de la aplicación. Esto puede funcionar por un tiempo, pero a menudo produce un comportamiento frágil porque el sistema aún carece de una capa de decisión explícita para determinar el tipo de consulta y aplicar las restricciones adecuadas antes de la recuperación.

La anatomía de la intención del comercio electrónico: cabeza y cola

En esta sección, usamos “cabeza” y “cola” como una notación práctica para patrones comunes de búsqueda navegacional y exploratoria en el comercio electrónico. En el mundo real, muchas búsquedas contienen aspectos de ambos:

Consultas de cabeza (intención determinista)

Estas son consultas directas y de navegación en las que el usuario sabe exactamente lo que quiere:

Intención de un solo artículo ("naranjas", "leche", "pan").
Marcas exactas o familias de productos ("iPhone 15 Pro", "Coca Light").
Referencias, números de modelo, tallas ("ABC123", "air max 270").

Para estas consultas, la recuperación léxica puede ocuparse de la correspondencia de tokens (palabras coincidentes), pero la empresa también espera respetar las restricciones, arrojar clasificaciones predecibles y tener resultados controlables. Un comerciante necesita asegurarse de que una consulta se resuelva dentro de los límites correctos de la categoría, respete la elegibilidad y muestre prioridades específicas del negocio.

Se necesita una estructura de gobernanza para garantizar el cumplimiento de la resolución prevista. Por ejemplo, las “naranjas” deben mapearse a la categoría de productos, no a jugo de naranja, mermelada de naranja o soda de naranja.

Consultas de cola (descubrimiento exploratorio)

Estas son búsquedas descriptivas y ricas en intención donde los compradores están explorando:

"Regalo para el abuelo que tiene debilidad por lo dulce"
"Chaqueta para senderismo en la montaña"
"Zapatos para estar de pie todo el día"

La recuperación léxica a menudo tiene dificultades en este punto. La búsqueda semántica destaca porque puede conectar el concepto de la consulta con el producto, incluso cuando las palabras no coinciden. Pero la recuperación semántica por sí sola no suele ser suficiente. Las consultas reales a menudo requieren que se apliquen restricciones, independientemente del método de recuperación que se utilice.

Las restricciones son ortogonales al método de recuperación

Aplicar restricciones a la recuperación semántica no significa que sea una búsqueda híbrida. Son conceptos ortogonales. Las restricciones, como los filtros y las mejoras (boosts) en Elasticsearch, se pueden aplicar a cualquier recuperación léxica, semántica o híbrida. El desafío es decidir cómo interpretar la consulta, qué restricciones se deben aplicar y qué estrategia de recuperación se debe usar.

A continuación se muestran algunos ejemplos de consultas que combinan la recuperación con restricciones rígidas:

Naranjas: recuperación léxica para “naranjas” más una restricción de categoría, como “frutas” o “productos”, eliminando mermelada de naranja, jugo de naranja y soda de naranja.
Frutas ricas en vitamina C por menos de $4: búsqueda semántica basada en la intención nutricional, además de filtros que limitan los resultados a la categoría de frutas y a productos por menos de $4.
Zapatos cómodos para el trabajo: búsqueda semántica basada en la intención contextual, además de una restricción de categoría que limita los resultados a los zapatos.

Estas consultas no se pueden manejar con un solo enfoque:

La recuperación léxica pura a menudo es insuficiente en este caso porque frases como “alto contenido de vitamina C” o “cómodo” pueden no existir como atributos limpios y estructurados. Puede que sea necesario inferirlos a partir de descripciones de productos, reseñas o especificaciones.
La recuperación semántica pura tampoco es suficiente porque, sin restricciones explícitas, una consulta como “frutas con alto contenido de vitamina C” podría ampliarse hacia suplementos vitamínicos, bebidas con sabor a fruta o vegetales con alto contenido de vitaminas fuera de la categoría y el rango de precios previstos.

Una capa de gobernanza determina si una consulta necesita recuperación léxica, comprensión semántica, aplicación de restricciones o alguna combinación de estas. Sin esta capa, los equipos de comercio electrónico pueden caer en lo siguiente:

Restricción excesiva: uso de recuperación léxica para solicitudes semánticas (por ejemplo, "regalo para el abuelo").
Restricción insuficiente: emplear consultas semánticas para consultas de cabeza con alta intención (por ejemplo, "naranjas").

El desafío de la gobernanza es construir un sistema que pueda tomar la decisión correcta para cada clase de consulta.

Qué sucede sin gobernanza

El modo de falla más común es sencillo: los equipos toman la consulta del usuario sin procesar y la pasan directamente a una única estrategia de recuperación (léxica, semántica o híbrida), sin una capa de gobernanza intermedia.

La búsqueda léxica no da el resultado esperado

Cuando un usuario busca “naranjas”, una estrategia de recuperación léxica puede devolver cualquier cosa que contenga ese token: jugo de naranja, mermelada de naranja o soda de naranja. El sistema hizo coincidir el término correctamente, pero sin gobernanza es posible que no resuelva el contexto de compra previsto (la fruta).

Ilustración que muestra cómo una sola consulta de "naranjas" devuelve diferentes resultados relacionados, como mermelada, naranjas frescas y refresco de naranja.

La recuperación semántica se amplía más allá de las limitaciones previstas

Cuando un usuario busca “naranjas”, un sistema semántico puede recuperar elementos conceptualmente relacionados a través de conceptos de productos cercanos. El sistema puede comprender correctamente el dominio más amplio (fruta o productos), pero sin gobernanza explícita aún puede ampliarse más allá de la restricción intencionada del usuario (específicamente naranjas).

Diagrama que muestra cómo la búsqueda de “naranjas” se dirige a diferentes categorías de frutas, incluidas manzanas, naranjas y frutas mixtas.

La brecha es la gobernanza

Lo que se requiere es una capa de decisión previa que determine la intención de la consulta y aplique las restricciones adecuadas antes de que comience la recuperación. Esto soluciona problemas como los siguientes:

Elementos similares o relacionados que aparecen junto a lo que el usuario realmente quería.
Límites difusos de categorías ("bebidas" en vez de "frutas").
Incapacidad para implementar mejoras o campañas estacionales.
Resultados impredecibles e inexplicables.

Comprensión de intenciones y enrutamiento: el plano de control necesario

Un sistema de búsqueda gestionada incorpora un plano de control ligero antes de la recuperación (antes de ejecutar una consulta en Elasticsearch). El control se explicará en detalle en las partes 3 y 4 de esta serie de blogs; por ahora, solo abarcaremos lo que puede hacer pero no cómo funciona:

Diagrama que muestra cómo se enrutan las diferentes consultas a través de un plano de control hacia los resultados de búsqueda de BM25 o de búsqueda semántica.

Un plano de control puede detectar la intención, aplicar políticas comerciales y garantizar la estrategia de recuperación apropiada de la siguiente manera:

1. Detectar señales de intención

¿Es probable que esta búsqueda sea de navegación en vez de descubrimiento?
¿Es una búsqueda principal conocida (leche, pan, bananas)?
Existe una interpretación conocida de producto, marca o categoría (por ejemplo, “naranjas” debería resolverse como fruta).
¿La consulta tiene un patrón tipo SKU?
¿La consulta se enmarca dentro de una campaña activa o una política estacional (por ejemplo, durante la Navidad, mejorar los resultados relacionados con el pavo)?
¿La consulta implica restricciones (categoría, atributos, exclusiones, precio, tamaño o color)?

2. Aplicar políticas empresariales y de gobernanza

Primero aplica restricciones deterministas (categoría, atributo, negación, disponibilidad).
Aplicar políticas activas de merchandising (mejorar/enterrar/fijar/anular).
Resuelve los conflictos con reglas de precedencia (por ejemplo, anulaciones de campaña frente a políticas globales).

3. Dirige a la estrategia de recuperación adecuada

Léxico (rápido, determinista) para consultas de navegación o de alta intención.
Recuperación semántica para búsquedas de descubrimiento real.
Híbrido en el que la combinación de señales léxicas y semánticas aporta valor añadido dentro de unos límites empresariales explícitos.

En la práctica, la salida del plano de control no es simplemente “usar híbrido” o “usar semántico”. Es un plan de recuperación regulado: una interpretación de la intención del comprador, las restricciones y políticas que deben aplicar, y la estrategia de recuperación que debe ejecutar. Unos pocos ejemplos sencillos lo demuestran:

Consulta de comprador	Interpretación regulada	Ejemplo de plan de recuperación
“chocolate sin maní”	Consulta orientada al producto con una restricción de exclusión estricta	Recuperación léxica para chocolate más un filtro de exclusión para productos que contienen maní
“aceite de oliva barato”	Búsqueda de producto o categoría con restricción de precio	Recuperación léxica para aceite de oliva más un filtro de precio limitado al umbral del minorista para ser económico
“Fruta con alto contenido de vitamina C por menos de $4”	Consulta de descubrimiento que requiere comprensión semántica y restricciones estrictas	Búsqueda semántica basada en la intención nutricional, limitada a la categoría de frutas y filtrada a productos con un precio inferior a 4 dólares

Un plano de control selecciona la política y la estrategia de recuperación correctas para cada búsqueda de forma consistente, predecible y a escala. Esto hace que los métodos de recuperación avanzados sean más predecibles en producción porque las restricciones alineadas con la intención se aplican primero y las decisiones de enrutamiento son explícitas en lugar de implícitas.

Cómo esto se relaciona con otros enfoques

Algunos equipos usan modelos de incrustación mejorados para captar mejor la semántica de los productos, lo que puede mejorar de forma considerable la calidad de la búsqueda semántica. Otros utilizan enfoques de reclasificación, como Learning To Rank (LTR), para optimizar el orden de los resultados basado en la participación o señales de negocio después de la recuperación. Ambos son valiosos y a menudo complementarios. Las incrustaciones superiores mejoran la coincidencia de similitudes. La reclasificación mejora el ordenamiento entre los candidatos recuperados.

La gobernanza aborda un aspecto diferente del problema: se sitúa en una etapa previa a la recuperación. Decide qué estrategia de recuperación utilizar (por ejemplo, léxica, semántica o híbrida), qué restricciones deterministas se requieren y qué consultas deben combinar varias políticas de negocio.

Qué aporta un plano de control gestionado

Una vez que se establece una capa de gobernanza, el modelo operativo cambia de forma rotunda. Las consultas críticas para los ingresos se vuelven predecibles. Los equipos de negocio pueden actualizar el comportamiento de búsqueda sin esperar los ciclos de lanzamiento de ingeniería. Y los métodos de recuperación avanzados (como los semánticos y los híbridos) pueden adoptarse de forma gradual, con mecanismos de enrutamiento y controles de seguridad, en vez de como un interruptor global de encendido o apagado.

La siguiente publicación de esta serie explora cómo se ve ese modelo operativo en la práctica y por qué puede ser tan importante como la tecnología de recuperación subyacente.

Si un comerciante tiene que abrir un ticket de Jira y esperar un despliegue para corregir una búsqueda crítica para los ingresos, el cuello de botella no es el motor; es el modelo operativo. La búsqueda moderna de comercio electrónico necesita una manera de traducir la intención comercial en un comportamiento de búsqueda controlado y auditable de manera rápida y segura, sin dejar de usar recuperación avanzada cuando aporta un valor medible.

Lo que se viene

Pon en práctica la búsqueda gobernada de comercio electrónico

Los cuellos de botella de ingeniería, la lógica frágil de la capa de aplicación y los resultados de búsqueda impredecibles son problemas que Elastic Services puede ayudarte a resolver en los proyectos de servicios de comercio electrónico empresarial. La arquitectura del plano de control gobernado que se describe en esta serie fue desarrollada por Elastic Services Engineering.

Si tu equipo está dedicando recursos de ingeniería a convertir las solicitudes de merchandising en cambios de código, o si la lista de tareas pendientes relacionadas con la relevancia de las búsquedas parece no reducirse nunca, podemos ayudarte a evaluar tu arquitectura actual y a trazar un plan para lograr un sistema de búsqueda controlado y editable por el equipo de negocios. Ponte en contacto con Elastic Services.

Únete a la discusión

¿Tienes preguntas sobre la gestión de búsquedas, las estrategias de recuperación o la arquitectura de búsqueda en el comercio electrónico? Únete a la conversación general de la comunidad de Elastic.

¿Te ha sido útil este contenido?

No es útil

Algo útil

Descubre cómo solucionar los conflictos de mapeo de Elasticsearch reindexando los flujos de datos. Este blog explica el proceso de reindexación y la verificación del mapeo correcto.

Por: Lisa Larribas

Por qué la búsqueda en el comercio electrónico necesita gobernanza