GPU de Elasticsearch: aceleramiento de GPU para la búsqueda vectorial en Elastic

Desde la búsqueda vectorial hasta las potentes API REST, Elasticsearch ofrece a los desarrolladores el conjunto de herramientas de búsqueda más completo. Explora nuestros cuadernos de muestra en el repositorio de Elasticsearch Labs para probar algo nuevo. También puedes iniciar tu prueba gratuita o ejecutar Elasticsearch localmente hoy mismo.

En la organización de Elastic Engineering estuvimos ocupados optimizando el rendimiento de la base de datos vectorial desde hace un tiempo. Nuestra misión: hacer de Lucene y Elasticsearch la mejor base de datos vectorial. A través de instrucciones SIMD de CPU aceleradas por hardware, introduciendo nuevas innovaciones de compresión de datos vectoriales (Better Binary Quantization, también conocido como BBQ), y luego superando las expectativas actualizando el enfoque algorítmico de BBQ para obtener aún más beneficios, y también haciendo que Filtered HNSW sea más rápido. Entiendes la esencia: estamos construyendo un sistema más rápido, mejor, eficiente (¿más?) para los desarrolladores mientras resuelven esos problemas RAG-gedy!

Como parte de nuestra misión de no dejar atrás la eficiencia, estamos explorando oportunidades de aceleramiento con estos curiosos chips de computadora, de los que quizás oíste hablar: ¡las GPU NVIDIA! (En serio, ¿no es así?).

Cuando nos obsesionamos con el rendimiento, tenemos varios espacios problemáticos para explorar: cómo indexar exponencialmente más datos, cómo recuperar información de ellos y cómo hacerlo cuando sus modelos de ML están involucrados. Debería poder obtener hasta el último beneficio disponible cuando tenga GPU.

En esta publicación, nos sumergimos en nuestra colaboración con el equipo de búsqueda vectorial de NVIDIA mientras exploramos la búsqueda vectorial acelerada por GPU en Elasticsearch. Este trabajo allana el camino para casos de uso en los que los desarrolladores podrían usar una combinación de GPU y CPU para aplicaciones con tecnología de Elasticsearch del mundo real. ¡Tiempos emocionantes!

GPU de Elasticsearch

Nos complace compartir que el equipo de ingeniería de Elasticsearch está ayudando a crear la experiencia de la API de Java cuVS de código abierto para desarrolladores, que expone enlaces para algoritmos de búsqueda vectorial. Este trabajo aprovecha nuestra experiencia previa con Panama FFI. Elasticsearch y Apache Lucene emplean la API NVIDIA cuVS para crear el gráfico durante la indexación. Bien, estamos saltando hacia adelante; Rebobinemos un poco.

NVIDIA cuVS, una biblioteca de C++ de código abierto, está en el corazón de esta colaboración. Su objetivo es llevar el aceleramiento de GPU a la búsqueda vectorial al proporcionar un mayor rendimiento, menor latencia y tiempos de compilación de índices más rápidos. Pero Elasticsearch y Apache Lucene están escritos en Java; ¿Cómo funcionará esto?

Ingrese lucene-cuvs y la colaboración Elastic-NVIDIA-SearchScale para llevarlo al ecosistema de Lucene para explorar la búsqueda vectorial acelerada por GPU en Elasticsearch. En la reciente versión 25.02 de NVIDIA cuVS, agregamos una API de Java para cuVS. La nueva API es experimental y seguirá evolucionando, pero actualmente está disponible para su uso. Puede surgir la pregunta: ¿no son lentas las llamadas de Java a funciones nativas? ¡Ya no! Estamos usando la nueva FFI (interfaz de funciones externas) de Panamá para los enlaces, que tiene una sobrecarga mínima para Java a las llamadas descendentes nativas.

Estuvimos usando Panama FFI en Elasticsearch y Lucene desde hace un tiempo. ¡Es asombroso! Pero... Siempre hay un "pero", ¿no? FFI tiene desafíos de disponibilidad en todas las versiones de Java. Superamos esto compilando la API de cuVS en Java 21 y encapsulando la implementación dentro de un jar de varias versiones dirigido a Java 22. Esto permite el uso de cuVS Java directamente en Lucene y Elasticsearch.

Ok, ahora que tenemos la API de Java de cuVS, ¿qué más necesitaríamos?

Una historia de dos algoritmos para CPU

Elasticsearch admite el algoritmo HNSW para una búsqueda KNN aproximada escalable. Sin embargo, para sacar el máximo provecho de la GPU, empleamos un algoritmo diferente, CAGRA [CUDA ANN GRAph], que fue diseñado específicamente para los altos niveles de paralelismo que ofrece la GPU.

Antes de entrar en cómo buscamos agregar soporte para CAGRA, veamos cómo Elasticsearch y Lucene acceden a los datos del índice a través de un "formato de códec". Consiste en

la representación en disco,
las interfaces para leer y escribir datos,
y la maquinaria para lidiar con la arquitectura basada en segmentos de Lucene.

Estamos implementando un nuevo formato vectorial KNN (k-vecinos más cercanos) que emplea internamente la API de Java de cuVS para indexar y buscar en la GPU. A partir de aquí, "sondeamos" este tipo de códec a través de las asignaciones de Elasticsearch a un tipo de campo en el índice. Como resultado, las consultas KNN existentes siguen funcionando independientemente de si el índice de respaldo emplea un gráfico CAGRA o HNSW. Por supuesto, esto pasa por alto muchos detalles, que planeamos cubrir en un blog futuro. La siguiente es la arquitectura de alto nivel para un Elasticsearch acelerado por GPU.

Este nuevo formato de códec tiene como valor predeterminado CAGRA. Sin embargo, también admite la conversión de un gráfico CAGRA en un gráfico HNSW para la búsqueda en la CPU.

Indexación y búsqueda en la GPU: Tomar algunas decisiones "básicas"

Con la arquitectura sin estado de Elasticsearch Serverless, que separa la indexación y la búsqueda, ahora hay una clara delimitación de responsabilidades. Elegimos el mejor perfil de hardware para cumplir con cada una de estas responsabilidades independientes.

Anticipamos que los usuarios considerarán dos estrategias de implementación principales:

Indexación y búsqueda en la GPU: durante la indexación, cree un gráfico CAGRA y empléelo durante la búsqueda, ideal cuando se requiere una búsqueda de latencia extremadamente baja.
Indexar en GPU y buscar en CPU: durante la indexación, cree un gráfico CAGRA y conviértalo en un gráfico HNSW. El gráfico HNSW se almacena en el índice, que luego se puede usar en la CPU para la búsqueda.

Esta flexibilidad proporciona diferentes modelos de implementación, ofreciendo compensaciones entre costo y rendimiento. Por ejemplo, un servicio de indexación podría usar GPU para compilar y combinar gráficos de manera eficiente de manera oportuna mientras usa una CPU de menor potencia para la búsqueda.

Así que aquí está el plan para la búsqueda vectorial acelerada por GPU en Elasticsearch

Esperamos brindar ganancias de rendimiento y flexibilidad con estrategias de implementación a los usuarios, ofreciendo varias perillas para equilibrar el costo y el rendimiento. Aquí está la sesión de NVIDIA GTC 2025 donde se presentó este trabajo en detalle.

Nos gustaría agradecer a los equipos de ingeniería de NVIDIA y SearchScale por su fantástica colaboración. En un próximo blog, exploraremos los detalles de implementación y el análisis de rendimiento con mayor profundidad. ¡Agárrate a tus sombreros de 🎩 curiosidad!

Reporta un problema

Contenido relacionado

Indexación vectorial hasta 12 veces más rápida en Elasticsearch con NVIDIA cuVS: aceleración por GPU, capítulo 2

Base de datos vectorial

3 de diciembre de 2025

Indexación vectorial hasta 12 veces más rápida en Elasticsearch con NVIDIA cuVS: aceleración por GPU, capítulo 2

Descubre cómo Elasticsearch logra un rendimiento de indexación casi 12 veces mayor. Esto lo consigue con la indexación vectorial acelerada por GPU y NVIDIA cuVS.

CH HM CN +5

Por: Chris Hegarty, Hemant Malik, Corey Nolet y 5 información

Búsqueda multimodal de picos montañosos con Elasticsearch y SigLIP-2

Base de datos vectorial Búsqueda híbrida+2

4 de noviembre de 2025

Búsqueda multimodal de picos montañosos con Elasticsearch y SigLIP-2

Aprende a implementar búsqueda multimodal texto a imagen e imagen a imagen usando incrustaciones SigLIP-2 y búsqueda vectorial kNN en Elasticsearch. Enfoque del proyecto: encontrar fotos del pico del Monte Ama Dablam durante una travesía por el Everest.

Por: Navneet Kumar

Mejora de la relevancia del modelo de incrustación multilingüe con reclasificación híbrida en búsquedas

Base de datos vectorial Operaciones

3 de noviembre de 2025

Mejora de la relevancia del modelo de incrustación multilingüe con reclasificación híbrida en búsquedas

Aprende cómo mejorar la relevancia de los resultados de búsqueda del modelo de incrustación multilingüe E5 usando el reclasificador y la búsqueda híbrida de Cohere en Elasticsearch.

Por: Quynh Nguyen

Despliegue de un modelo de incrustación multilingüe en Elasticsearch

Base de datos vectorial Operaciones

22 de octubre de 2025

Despliegue de un modelo de incrustación multilingüe en Elasticsearch

Aprende a desplegar un modelo de incrustación multilingüe e5 para búsqueda vectorial y recuperación cross-lingual en Elasticsearch.

Por: Quynh Nguyen

Filtrado de búsqueda vectorial: Mantenerlo relevante

Base de datos vectorial Lucene+1

3 de septiembre de 2025

Filtrado de búsqueda vectorial: Mantenerlo relevante

Realizar una búsqueda vectorial para encontrar los resultados más similares a una consulta no es suficiente. A menudo se necesita filtrar para reducir los resultados de búsqueda. Este artículo explica cómo funciona el filtrado para la búsqueda vectorial en Elasticsearch y Apache Lucene.

Por: Carlos Delgado

Explorando la búsqueda vectorial acelerada por GPU en Elasticsearch con NVIDIA: Capítulo I