As GPUs estão a mil! Elastic Inference Service (EIS): inferência acelerada por GPU para Elasticsearch

Shubha Anjur Tupil Josh Devins Sean Handley Max Jakob Diana Jourdan

9 de outubro de 2025

Estamos animados em anunciar o Elastic Inference Service (EIS), que introduz a inferência acelerada por GPU integrada nativamente ao Elasticsearch no Elastic Cloud.

O Elasticsearch é o banco de dados de busca semântica e vetorial mais amplamente implantado. As cargas de trabalho modernas de busca e IA dependem de inferência rápida e escalabilidade para incorporações, reranking e modelos de linguagem. À medida que os volumes crescem, o gerenciamento de infraestrutura, o teste de modelos, o tratamento de integrações e a união de point solutions aumentam significativamente a carga operacional. Isso criou uma clara necessidade dos clientes por fleets gerenciadas aceleradas por GPU que ofereçam velocidade, escalabilidade e eficiência de custos sem a sobrecarga operacional de infraestrutura ou integrações. O Elastic Inference Service foi projetado para fornecer inferência como serviço e oferecer incorporação, reclassificação e modelos de linguagem grandes e pequenos como serviço em escala. Também projetamos o EIS para ser um provedor de serviços de várias nuvens (CSP), multirregional e multimodal para atender a todas as suas necessidades de inferência de longo prazo.

O EIS já fornece acesso a um modelo de linguagem grande (LLM) de última geração, que, por sua vez, melhora recursos de IA prontos para uso para ingestão automática, detecção de ameaças, investigação de problemas, análise de causa raiz e muito mais para Playground e assistentes de IA. Agora, estamos entusiasmados em trazer o Elastic Learned Sparse EncodeR (ELSER) — o modelo vetorial esparso integrado da Elastic para relevância de buscar de última geração — como o primeiro modelo de incorporação de texto no EIS em visualização técnica. O ELSER melhora a maioria dos casos de uso de pesquisa semântica em nossa Platform e fornece relevância e desempenho líderes do setor. Este é apenas o começo; modelos adicionais para incorporações multilíngues, reclassificação e modelos da Jina AI, que recentemente se juntou à Elastic por meio de aquisição, estão a caminho para expandir ainda mais o que é possível.

Arquitetura e desempenho de última geração

O EIS oferece uma arquitetura de escalabilidade com GPUs modernas da NVIDIA para entregar inferência de baixa latência e alta taxa de transferência. As GPUs permitem que os modelos de machine learning (ML) realizem muitos cálculos em paralelo, aumentando a eficiência geral em uma ordem de grandeza.

O EIS oferece aos usuários do Elasticsearch uma experiência de inferência rápida, simplificando a configuração e o gerenciamento do fluxo de trabalho. O serviço garante desempenho superior consistente e experiência do desenvolvedor, fornecendo inferência fácil de consumir por meio de API para uma experiência desemantic_text de ponta a ponta, gerando embeddings vetoriais e usando LLMs para melhorar a engenharia de contexto e fluxos de trabalho agenciais.

Experiência de desenvolvedor simplificada: não é necessário baixar modelos, configurar manualmente ou fazer provisão de recursos. O EIS se integra diretamente com o semantic_text e as APIs de inferência para proporcionar uma experiência agradável ao desenvolvedor. Não há inicializações a frio ao implantar modelos, nem é preciso implementar seu próprio redimensionamento automático.
Experiência aprimorada de busca semântica de ponta a ponta: vetores esparsos, vetores densos ou reclassificação semântica — temos tudo o que você precisa. Mais modelos em breve!
Desempenho aprimorado: a inferência acelerada por GPU oferece latência consistente e até 10 vezes melhor taxa de ingestão em comparação com alternativas baseadas em CPU, especialmente em cargas mais altas.
Fluxos de trabalho simplificados de IA generativa (GenAI): Evite o atrito de serviços externos, chaves de API e contratos. Com o Elastic Managed LLM, os recursos de IA para ingestão, investigação, detecção e análise funcionam perfeitamente desde o primeiro dia.
Compatibilidade com versões anteriores: os nodes existentes do Elasticsearch ML continuam sendo compatíveis, enquanto a API de inferência oferece total flexibilidade para conectar qualquer serviço de terceiros.
Preços fáceis de entender: o EIS oferece preços baseados no consumo, semelhantes a outros serviços de inferência cobrados por modelo por milhão de tokens. A Elastic também indeniza todos os modelos fornecidos no EIS, facilitando o início e o acesso ao suporte.
Acesso: as implantações do Elastic Cloud Serverless e do Elastic Cloud Hosted em todos os CSPs e regiões podem acessar os endpoints de inferência no EIS.

Os diagramas a seguir descrevem a evolução da inferência no Elasticsearch, desde fluxos de trabalho autogerenciados baseados em CPU até o Elastic Inference Service, totalmente integrado e otimizado para GPU.

E o que vem em seguida?

Estamos trabalhando em muitas melhorias empolgantes no Elastic Inference Service para melhorar uma ampla variedade de caso de uso. Alguns dos principais incluem:

Mais modelos: estamos expandindo nosso catálogo de modelos para atender às crescentes necessidades de inferência dos nossos clientes. Nos próximos meses, vamos introduzir novos modelos no EIS compatíveis com uma variedade maior de necessidades de buscas e inferência, incluindo:
- Modelo de incorporação multilíngue para busca semântica
- Modelo de reclassificação semântica para busca semântica aprimorada e busca baseada em palavras-chave melhorada
- Modelos de incorporação e reranking multimodais
- Modelos de linguagem pequenos (SLMs)
- Mais LLMs

Continuaremos adicionando mais tipos de modelos. Então, se houver algum modelo que você gostaria de ver, entre em contato conosco pelo e-mail support@elastic.co.

Mais CSPs e regiões: estamos trabalhando para expandir a cobertura para mais CSPs e regiões em breve. Para ver a disponibilidade atual, consulte nossos documentos.
Busca semântica simplificada: A busca semântica com semantic_text, um tipo de campo na consulta, simplifica o fluxo de trabalho de inferência ao fornecer inferência no momento da ingestão e valores padrão sensatos automaticamente. Em breve, semantic_text começará a usar o endpoint ELSER no Elastic Inference Service por padrão.
Mais amor para os clientes autogerenciados: nossos usuários autogerenciados poderão se juntar à diversão em breve. Em breve, o Cloud Connected Mode trará o EIS para ambientes autogerenciados, reduzindo a sobrecarga operacional e permitindo arquiteturas híbridas e redimensionamento onde funcionar melhor para você.

Temos muitas outras melhorias empolgantes nas quais estamos focados, então entre em contato conosco se tiver alguma dúvida.

Experimente o EIS no Elastic Cloud

Com fluxos de trabalho contínuos, insights em tempo real e desempenho acelerado, o EIS capacita desenvolvedores a criar aplicativos GenAI mais rápidos e eficientes dentro do ecossistema Elastic.

Todas as avaliações do Elastic Cloud têm acesso ao Elastic Inference Service. Experimente agora no Elastic Cloud Serverless e no Elastic Cloud Hosted.

O lançamento e o tempo de amadurecimento de todos os recursos ou funcionalidades descritos neste artigo permanecem a exclusivo critério da Elastic. Os recursos ou funcionalidades não disponíveis no momento poderão não ser entregues ou não chegarem no prazo previsto.

Nesta postagem do blog, podemos ter usado ou feito referência a ferramentas de IA generativa de terceiros, que são de propriedade e operadas por seus respectivos proprietários. A Elastic não tem nenhum controle sobre as ferramentas de terceiros e não temos nenhuma responsabilidade ou obrigação por seu conteúdo, operação ou uso, nem por qualquer perda ou dano que possa surgir do uso de tais ferramentas. Tenha cuidado ao usar ferramentas de IA com informações pessoais, sensíveis ou confidenciais. Os dados que você enviar poderão ser usados para treinamento de IA ou outros fins. Não há garantia de que as informações fornecidas serão mantidas seguras ou confidenciais. Você deve se familiarizar com as práticas de privacidade e os termos de uso de qualquer ferramenta de IA generativa antes de usá-la.

Elastic, Elasticsearch e marcas associadas são marcas comerciais, logotipos ou marcas registradas da elasticsearch B.V. nos Estados Unidos e em outros países. Todos os outros nomes de empresas e produtos são marcas comerciais, logotipos ou marcas registradas de seus respectivos proprietários.

Engenharia de contexto

Banco de dados vetorial

Aplicativos baseados em busca

Logs

Proteção contra ameaças

Fluxos de trabalho

Elasticsearch

Kibana (Discover, Dashboards)

Elastic Agent Builder

AutoOps

Linguagem de consulta com barras verticais

Modelos de busca Jina AI

Elastic Cloud Serverless

Elastic Cloud Hosted

Elasticsearch autogerenciado

Busca para e-commerce

Busca para suporte ao cliente

Apps focados em buscas

Analítica de logs

Monitoramento de infraestrutura

Monitoramento da experiência digital

Monitoramento de desempenho do app

AIOps

Observabilidade do LLM

SIEM de última geração

Fluxos de trabalho para segurança

XDR e segurança de endpoint

IA para segurança

10x o valor dos seus dados

Provedor de serviços em nuvem

Ecossistema Elastic AI

Programa Search AI Partner

AV-Comparatives

Forrester Wave™ XDR

Líder do Magic Quadrant da Gartner

IDC MarketScape

Busca

Segurança

Observabilidade

Começar

Galeria de demonstrações

Downloads

Integrações

Documentos

Elastic Search Labs

Elastic Security Labs

Elastic Observability Labs

Blog

Comunidade

Eventos

Webinars

Discussão

Treinamento

Suporte

Consultoria

As GPUs estão a mil! Elastic Inference Service (EIS): inferência acelerada por GPU para Elasticsearch

Arquitetura e desempenho de última geração

E o que vem em seguida?

Experimente o EIS no Elastic Cloud

Compartilhar

Cadastre-se para uma avaliação gratuita do Elastic Cloud