Elastic Observability: reduzindo a zero o tempo médio até a resolução

blog-thumb-release-observability.png

No ElasticON Global 2021, Tanya Bragin, vice-presidente de Produto do Observability e a equipe do Elastic Observability mostraram como inovações contínuas fornecem insights práticos e detecção de causa raiz mais rápida, reduzindo o tempo médio até a resolução (MTTR).

A adoção de infraestrutura efêmera, de nuvem e microsserviços está aumentando a complexidade, exigindo uma solução de observabilidade para fornecer visibilidade de ponta a ponta. O Elastic Observability, conforme reconhecido pelo Gartner, pela GigaOm e pela EMA, continua a compor uma solução abrangente, fornecendo funcionalidades de:

  • Agente unificado para ingestão de todos os dados de telemetria com gerenciamento centralizado
  • Integração com tecnologias nativas da nuvem (por exemplo, Kubernetes)
  • Integrações nativas com grandes provedores de serviços em nuvem, incluindo Amazon Web Services, Microsoft Azure e Google Cloud Platform
  • Análise automatizada de causa raiz no monitoramento de performance de aplicação (APM) utilizando machine learning
  • Fluxos de trabalho de solução de problemas de APM aprimorados, integrando logs, dependências de terceiros e serviços de backend
  • Mapas de serviço intuitivos para solução de problemas contextual
  • Suporte para OpenTelemetry (OTel)
  • Aprimoramentos no monitoramento de usuário real (RUM) e na sintetização
Com o nosso compromisso com as comunidades open source, o Elastic Observability sempre será uma plataforma aberta e extensível. Estamos comprometidos com a adoção de padrões abertos e iniciativas open source, bem como com colaborações para eles. O objetivo? Oferecer aos clientes uma plataforma de observabilidade abrangente que maximize a flexibilidade do usuário e minimize a dependência do fornecedor.
Elastic Observability — visão geral e componentes
 

Tornar os dados relevantes, contextuais e práticos

As equipes de operações e desenvolvimento costumam se deparar com ferramentas isoladas para métricas, logs e traces. Mesmo com uma única ferramenta, os dados costumam ficar isolados sem contexto ou faltam-lhes metadados relevantes (dimensionalidade), o que aumenta o tempo médio até a detecção (MTTD) e a resolução (MTTR). O Elastic Observability é redimensionado perfeitamente para grandes quantidades de dados com alta dimensionalidade e cardinalidade, e desempenho e custo bastante previsíveis.

A integração sem atrito por meio do Elastic Agent e o gerenciamento centralizado permitem a coleta simplificada de todos os dados de telemetria, incluindo tecnologias nativas da nuvem como o Kubernetes. Também adicionamos integrações com o Microsoft Azure e o Google Cloud Platform para ingerir dados de telemetria nativamente, com integrações adicionais sendo lançadas continuamente.

Elastic Observability — interface
 

O contexto é necessário para lidar com incidentes de forma rápida e eficiente. Os mapas de serviço do Elastic APM visualizam a topologia da aplicação e aceleram a solução de problemas, proporcionando a capacidade de ver o status dos serviços, anomalias detectadas e logs no contexto das transações. Eles também permitem que você compare o desempenho do serviço em relação a qualquer linha de base histórica, facilitando a detecção de serviços com comportamento inadequado. Nosso suporte recente para visualizações de desempenho em dependências de serviços de terceiros elimina pontos cegos do seu ambiente. Estamos expandindo ainda mais nossos recursos de APM com suporte para agente do iOS para dispositivos móveis, em prévia técnica.

Elastic Observability — monitoramento de performance de aplicação (APM)
 

Nossa próxima etapa na jornada para ligar os pontos é fornecer contexto entre a sua aplicação e a infraestrutura. Frequentemente, o desempenho da aplicação é degradado devido a problemas de desempenho na infraestrutura. Ofereceremos a capacidade de visualizar o desempenho da infraestrutura no contexto do desempenho da aplicação e logs relacionados, proporcionando observabilidade unificada. Também recebemos solicitações para comparar o desempenho do serviço entre versões, regiões de nuvem, zonas de disponibilidade e outros metadados. Esse recurso futuro ajudaria a comparar o desempenho entre as implantações A/B ou canário e permitiria uma rápida solução de problemas de implantação.

Elastic Observability — UI de serviços de APM
 

Analítica ad-hoc e machine learning

Com a natureza distribuída das aplicações da atualidade e petabytes de dados de telemetria sendo gerados diariamente, nenhuma equipe ou indivíduo tem um panorama completo de todas as dependências. Para resolver problemas complexos de forma eficaz, as equipes precisam de machine learning para fornecer insights práticos e, ao mesmo tempo, ter a capacidade de fazer perguntas sobre seus dados.

A plataforma da Elastic oferece machine learning avançado e pronto para uso, juntamente com a capacidade de criar seus próprios trabalhos de machine learning customizados. Nosso recurso de correlações de APM aproveita o machine learning para analisar desvios no desempenho das aplicações e identificar serviços com comportamento inadequado. Isso elimina a necessidade de buscar e analisar dados, resultando na redução do tempo de inatividade e no aumento da produtividade dos desenvolvedores.

Elastic Observability — monitoramento de transações
 

Sabemos que os sistemas são complexos e que as equipes de operações de TI, SRE e DevOps precisam analisar e investigar os dados para entender as incógnitas. Em breve, estará com disponibilidade geral (GA) uma nova UI intuitiva com a capacidade de fazer perguntas e organizar a exploração de dados para diferentes coortes. Esse recurso permite que você comece a sobrepor, filtrar e explorar dados de várias fontes, bem como diferentes tipos de dados. A visualização da exploração de dados ad-hoc interativa e selecionada possibilita que você analise seus dados em profundidade, entenda o que é desconhecido e minimize o tempo necessário para investigar a causa raiz.

Elastic Observability — exploração de dados e analítica ad-hoc
 

Ser aberto está no nosso DNA

A base do Elastic Observability é aberta e fornece total controle e flexibilidade sobre seus dados de monitoramento de desempenho. Nosso suporte contínuo para projetos open source ajudou a moldar e definir o nosso roadmap de produtos. De OpenTracing e OpenMetrics a Jaeger, Prometheus e agora OpenTelemetry, temos sido os primeiros a adotar padrões e protocolos abertos.

O Prometheus é o padrão de fato para métricas e oferece aos clientes a opção de um padrão aberto para armazenar métricas. O Elastic Observability integra-se ao Prometheus para lhe dar a opção de armazenar e analisar métricas. O OpenTelemetry (OTel) é um projeto da CNCF que está desenvolvendo padrões comuns e abertos para métricas, logs e traces. A Elastic oferece suporte nativo para OpenTelemetry por meio de um endpoint do protocolo OTel (OTLP) ou transmitido via Kafka para a plataforma da Elastic. O Elastic Observability continua a investir em open source e a apoiá-lo; acreditamos que os clientes devem ter escolha e controle sobre suas operações.

Elastic Observability — suporte para padrões abertos e linha do tempo — Prometheus, Jaeger, OpenTelemetry
 

Nosso trabalho continua com a sua ajuda

Continuamos a ouvir atentamente os nossos clientes para fornecer uma plataforma de observabilidade abrangente e unificada. Começando com a plataforma de busca empresarial mais robusta disponível, estamos inovando para dar suporte a ambientes de TI complexos. Com a participação ativa da nossa comunidade, o Elastic Observability continua a oferecer visibilidade em seus ambientes híbridos e nativos da nuvem com uma plataforma aberta e extensível.

Para saber mais sobre a visão do Elastic Observability, assista à palestra de abertura e a outras sessões sobre o Observability no ElasticON Global sob demanda ou confira a página do Elastic Observability no website da Elastic.

O lançamento e o tempo de amadurecimento de todos os recursos ou funcionalidades descritos neste post permanecem a exclusivo critério da Elastic. Os recursos ou funcionalidades não disponíveis atualmente poderão não ser entregues dentro do prazo previsto ou nem chegar a ser entregues.