Elasticsearch GPU: aceleração de GPU para pesquisa vetorial no Elastic

De busca vetorial a poderosas APIs REST, o Elasticsearch oferece aos desenvolvedores o kit de ferramentas de busca mais completo. Confira nossos notebooks de amostra no repositório Elasticsearch Labs para experimentar algo novo. Você também pode começar uma avaliação gratuita ou executar o Elasticsearch localmente hoje mesmo.

Nós da organização Elastic Engineering estamos ocupados otimizando o desempenho do banco de dados vetorial há algum tempo. Nossa missão: tornar o Lucene e o Elasticsearch o melhor banco de dados vetorial. Por meio de instruções SIMD de CPU aceleradas por hardware, introduzindo novas inovações em compressão de dados vetoriais (melhor quantização binária, também conhecida como BBQ) e, em seguida, superando as expectativas ao atualizar a abordagem algorítmica do BBQ para obter ainda mais benefícios, além de tornar o HNSW filtrado mais rápido. Você entendeu a essência: estamos construindo um sistema mais rápido, melhor e mais eficiente. banco de dados vetorial para os desenvolvedores resolverem aqueles problemas RAG-gedy!

Como parte da nossa missão de não deixar nada para trás em termos de eficiência, estamos explorando oportunidades de aceleração com esses curiosos chips de computador, dos quais você provavelmente já ouviu falar: GPUs NVIDIA! (Sério, não é mesmo?).

Quando nos preocupamos com desempenho, temos vários espaços problemáticos a explorar: como indexar exponencialmente mais dados, como recuperar insights deles e como fazer isso quando seus modelos de ML estão envolvidos. Você deve conseguir aproveitar todos os benefícios disponíveis quando tiver GPUs.

Nesta postagem, mergulhamos em nossa colaboração com a equipe de pesquisa de vetores da NVIDIA enquanto exploramos a pesquisa de vetores acelerada por GPU no Elasticsearch. Este trabalho abre caminho para casos de uso em que os desenvolvedores podem usar uma combinação de GPUs e CPUs para aplicativos reais baseados no Elasticsearch. Tempos emocionantes!

GPUs Elasticsearch

Estamos felizes em compartilhar que a equipe de engenharia do Elasticsearch está ajudando a criar a experiência da API Java cuVS de código aberto para desenvolvedores, que expõe vinculações para algoritmos de pesquisa vetorial. Este trabalho aproveita nossa experiência anterior com a Panama FFI. O Elasticsearch e o Apache Lucene usam a API NVIDIA cuVS para criar o gráfico durante a indexação. Certo, vamos avançar; vamos voltar um pouco.

NVIDIA cuVS, uma biblioteca C++ de código aberto, está no centro desta colaboração. O objetivo é levar a aceleração da GPU para a pesquisa vetorial, fornecendo maior rendimento, menor latência e tempos de construção de índice mais rápidos. Mas o Elasticsearch e o Apache Lucene são escritos em Java; como isso funcionará?

Entre em contato com o lucene-cuvs e a colaboração Elastic-NVIDIA-SearchScale para trazê-lo ao ecossistema Lucene para explorar a pesquisa vetorial acelerada por GPU no Elasticsearch. Na versão recente do NVIDIA cuVS 25.02, adicionamos uma API Java para cuVS. A nova API é experimental e continuará evoluindo, mas atualmente está disponível para uso. Pode surgir a pergunta: as chamadas de funções nativas do Java não são lentas? Não mais! Estamos usando a nova Panama FFI (Foreign Function Interface) para as vinculações, que tem sobrecarga mínima para downcalls Java para nativos.

Já faz algum tempo que usamos o Panama FFI no Elasticsearch e no Lucene . É incrível! Mas... sempre tem um “mas”, não é mesmo? O FFI tem desafios de disponibilidade nas versões do Java. Superamos isso compilando a API do cuVS para o Java 21 e encapsulando a implementação em um jar de várias versões voltado para o Java 22. Isso permite o uso do cuVS Java diretamente no Lucene e no Elasticsearch.

Ok, agora que temos a API Java do cuVS, o que mais precisaríamos?

Um conto de dois algoritmos para CPU

O Elasticsearch oferece suporte ao algoritmo HNSW para pesquisa KNN aproximada e escalável. No entanto, para obter o máximo da GPU, usamos um algoritmo diferente, CAGRA [CUDA ANN GRAph], que foi projetado especificamente para os altos níveis de paralelismo oferecidos pela GPU.

Antes de entrarmos em como pretendemos adicionar suporte ao CAGRA, vamos ver como o Elasticsearch e o Lucene acessam dados de índice por meio de um “formato de codec”. Isso consiste em

a representação no disco,
as interfaces para leitura e escrita de dados,
e a maquinaria para lidar com a arquitetura baseada em segmentos do Lucene.

Estamos implementando um novo formato de vetor KNN (k-vizinhos mais próximos) que usa internamente a API Java do cuVS para indexar e pesquisar na GPU. A partir daqui, “analisamos” esse tipo de codec por meio dos mapeamentos do Elasticsearch para um tipo de campo no índice. Como resultado, suas consultas KNN existentes continuam funcionando independentemente de o índice de apoio estar usando um gráfico CAGRA ou HNSW. É claro que isso encobre muitos detalhes, que planejamos abordar em um blog futuro. A seguir está a arquitetura de alto nível para um Elasticsearch acelerado por GPU.

Este novo formato de codec tem como padrão o CAGRA. No entanto, ele também suporta a conversão de um gráfico CAGRA em um gráfico HNSW para pesquisa na CPU.

Indexação e pesquisa na GPU: tomando algumas decisões “essenciais”

Com a arquitetura sem estado do Elasticsearch Serverless, que separa indexação e pesquisa, agora há uma delimitação clara de responsabilidades. Selecionamos o melhor perfil de hardware para cumprir cada uma dessas responsabilidades independentes.

Esperamos que os usuários considerem duas estratégias principais de implantação:

Indexação e pesquisa na GPU: durante a indexação, crie um gráfico CAGRA e use-o durante a pesquisa — ideal quando uma pesquisa com latência extremamente baixa é necessária.
Indexar na GPU e pesquisar na CPU: durante a indexação, crie um gráfico CAGRA e converta-o em um gráfico HNSW. O gráfico HNSW é armazenado no índice, que pode ser usado posteriormente na CPU para pesquisa.

Essa flexibilidade oferece diferentes modelos de implantação, oferecendo compensações entre custo e desempenho. Por exemplo, um serviço de indexação pode usar GPU para criar e mesclar gráficos de forma eficiente e oportuna, enquanto usa uma CPU de menor potência para pesquisa.

Então aqui está o plano para pesquisa vetorial acelerada por GPU no Elasticsearch

Estamos ansiosos para oferecer ganhos de desempenho e flexibilidade com estratégias de implantação aos usuários, oferecendo vários botões para equilibrar custo e desempenho. Aqui está a sessão do NVIDIA GTC 2025 onde este trabalho foi apresentado em detalhes.

Gostaríamos de agradecer às equipes de engenharia da NVIDIA e da SearchScale pela fantástica colaboração. Em um próximo blog, exploraremos os detalhes da implementação e a análise de desempenho com mais profundidade. Segurem seus chapéus de curiosidade 🎩!

Reportar um problema

Conteúdo relacionado

Indexação Vetorial Até 12x Mais Rápida no Elasticsearch com NVIDIA cuVS: Aceleração por GPU - Capítulo 2

Banco de dados vetorial

3 de dezembro de 2025

Indexação Vetorial Até 12x Mais Rápida no Elasticsearch com NVIDIA cuVS: Aceleração por GPU - Capítulo 2

Descubra como o Elasticsearch alcança uma taxa de indexação quase 12x maior com indexação vetorial acelerada por GPU e NVIDIA cuVS.

CH HM CN +5

Por: Chris Hegarty, Hemant Malik, Corey Nolet e 5 Mais

Busca multimodal de picos de montanhas com Elasticsearch e SigLIP-2

Banco de dados vetorial Busca híbrida+2

4 de novembro de 2025

Busca multimodal de picos de montanhas com Elasticsearch e SigLIP-2

Aprenda como implementar buscas multimodais de texto para imagem e de imagem para imagem usando embeddings SigLIP-2 e busca vetorial kNN do Elasticsearch. Objetivo do projeto: encontrar fotos do pico do Monte Ama Dablam tiradas durante uma trilha no Everest.

Por: Navneet Kumar

Melhorando a relevância de modelos de incorporação multilíngues com reclassificação de busca híbrida.

Banco de dados vetorial Operações

3 de novembro de 2025

Melhorando a relevância de modelos de incorporação multilíngues com reclassificação de busca híbrida.

Aprenda como melhorar a relevância dos resultados de busca do modelo de incorporação multilíngue E5 usando o reranker do Cohere e a busca híbrida no Elasticsearch.

Por: Quynh Nguyen

Implantação de um modelo de incorporação multilíngue no Elasticsearch

Banco de dados vetorial Operações

22 de outubro de 2025

Implantação de um modelo de incorporação multilíngue no Elasticsearch

Aprenda como implantar um modelo de incorporação multilíngue e5 para busca vetorial e recuperação multilíngue no Elasticsearch.

Por: Quynh Nguyen

Filtragem de pesquisa vetorial: Mantenha a relevância

Banco de dados vetorial Lucene+1

3 de setembro de 2025

Filtragem de pesquisa vetorial: Mantenha a relevância

Realizar uma busca vetorial para encontrar os resultados mais semelhantes a uma consulta não é suficiente. Muitas vezes, é necessário usar filtros para refinar os resultados da pesquisa. Este artigo explica como funciona a filtragem para busca vetorial no Elasticsearch e no Apache Lucene.

Por: Carlos Delgado

Explorando a busca vetorial acelerada por GPU no Elasticsearch com NVIDIA: Capítulo I