Elastic 可观测性:将故障的平均解决时间降至零

blog-thumb-release-observability.png

ElasticON 2021 年全球用户大会上,可观测性产品副总裁 Tanya Bragin 以及 Elastic 可观测性团队展示了持续创新如何不断提供行之有效的见解,更快速地找出根本原因,从而降低故障的平均解决时间 (MTTR)。

云、微服务和临时性基础架构的采用让一切变得更加复杂,因此需要一种可观测性解决方案来提供端到端可见性。GartnerGigaOmEMA 一致认为,Elastic 可观测性能够提供如下相关功能,持续打造一款全面的解决方案:

  • 可采集所有遥测数据并进行集中化管理的统一代理
  • 支持与多种云原生技术(例如 Kubernetes)集成
  • 可与 Amazon Web Services、Microsoft Azure 和 Google Cloud Platform 等主流云服务提供商原生集成
  • 利用 Machine Learning 在应用程序性能监测 (APM) 中自动分析根本原因
  • 整合日志、第三方依赖因素和后端服务以改进 APM 故障排除工作流
  • 便于结合具体上下文进行故障排除的直观服务地图
  • 支持 OpenTelemetry (OTel)
  • 合成和真实用户监测 (RUM) 增强功能
我们对开源社区的承诺意味着,Elastic 可观测性将始终是一个开放、可扩展的平台。我们致力于采用并帮助制定开放标准和开源计划。目标是什么?为客户提供全面的可观测性平台,最大限度提高用户灵活性,避免供应商锁定。
Elastic 可观测性 - 概述和组件
 

让数据具有相关性和上下文并且行之有效

运营和开发团队经常会遇到多个孤立的指标、日志和跟踪工具。即便使用的是单个工具,数据也常常处在没有上下文的孤岛中,或者缺失相关元数据(维数),从而增加故障的平均检测时间 (MTTD) 和平均解决时间 (MTTR)。Elastic 可观测性可无缝扩展至具有高维数和基数的大量数据,而且几乎甚至丝毫不会对性能或成本造成任何意外影响。

Elastic 代理和集中化管理可带来顺畅的上手体验,让您轻松收集所有遥测数据,包括 Kubernetes 等云原生技术。此外,我们还增加了与 Microsoft Azure 和 Google Cloud Platform 的集成功能,可原生采集遥测数据,而无需进行额外的集成。

Elastic 可观测性 - 界面
 

要高效、快速地对事件进行故障排除,了解上下文必不可少。Elastic APM 服务地图能够以可视化方式显示应用程序拓扑,加快故障排除速度,让您可以在事务上下文中查看服务的状态、检测到的异常以及日志。另外,借助此类服务地图,您还可以将服务性能与任何历史基线进行比较,轻而易举发现行为异常的服务。最近,我们还新增了对第三方服务依赖因素的性能视图的支持,帮助消除您环境中的盲点。在技术预览中,我们将通过支持移动 iOS 代理进一步扩展 APM 功能。

Elastic 可观测性 - 应用程序性能监测 (APM) 界面
 

在串联各个要素的过程中,我们的下一步是在应用程序和基础架构之间提供上下文。基础架构中的性能问题通常会导致应用程序性能下降。我们将支持在应用程序性能和相关日志的上下文中查看基础架构性能,从而提供统一的可观测性。我们还希望能够跨版本、云区域、可用区和其他元数据比较服务性能。这项未来会推出的功能将有助于比较 A/B 或 Canary 部署之间的性能,并快速排除部署问题。

Elastic 可观测性 - APM 服务 UI
 

临时分析和 Machine Learning

鉴于现代应用程序的分布式特性和每天生成的 PB 级遥测数据,没有任何团队或个人能够完全了解所有依赖因素。要想有效解决复杂的问题,团队需要利用 Machine Learning 提供行之有效的见解,并能够提出数据相关问题。

Elastic 平台可提供丰富的开箱即用 Machine Learning 功能,并且支持创建自定义 Machine Learning 作业。我们的 APM 关联性功能利用底层的 Machine Learning 分析应用程序性能偏差,来找出行为异常的服务。如此可免去搜索和分析数据的必要,从而降低中断时间,并提高开发人员的工作效率。

Elastic 可观测性 - 事务监测
 

我们发现,系统非常复杂,IT Ops、SRE 和 DevOps 团队需要通过分析和调查数据,来了解未知因素。全新的直观 UI 即将正式发布 (GA),它能够针对不同的群组提出问题并管理数据探索。这项功能让您可以开始覆盖、筛选和探索来自不同来源的数据和不同类型的数据。而借助精心设计的交互式临时数据探索视图,您可以深入探究自己的数据,了解未知因素,并最大限度减少调查根本原因所需的时间。

Elastic 可观测性 - 探索数据和临时分析
 

开放是我们的基因

开放是 Elastic 可观测性的根本,让您可以全权掌控并灵活运用您的性能监测数据。我们对开源项目的持续支持帮助塑造和定义了我们的产品路线图。从 OpenTracing 和 OpenMetrics 到 Jaeger、Prometheus,再到如今的 OpenTelemetry,我们一直是开放标准和协议的早期采用者。

Prometheus 是事实上的指标标准,让客户可以选择使用开放的存储指标标准。Elastic 可观测性支持与 Prometheus 集成,让您可以存储和分析指标。OpenTelemetry (OTel) 是一种 CNCF 项目,旨在开发适用于指标、日志和跟踪的通用开放标准。Elastic 可通过 OTel 协议 (OTLP) 终端,或者经由 Kafka 流式传输至 Elastic 平台的方式,为 OpenTelemetry 提供原生支持。Elastic 可观测性将继续投资并大力支持开源事业,我们认为应由客户选择和掌控自己的运营。

Elastic 可观测性 - 支持开源标准、时间线 - Prometheus、Jaeger、OpenTelemetry
 

我们将在您的帮助下再接再厉

我们将继续认真倾听客户的心声,致力于打造一个全面、统一的可观测性平台。以市面上最强大的企业搜索平台为起点,我们将不断创新,为复杂的 IT 环境提供支持。在我们社区的积极参与下,Elastic 可观测性将借助开放、可扩展的平台,继续帮助您洞察自己的云原生和混合环境。

如需深入了解 Elastic 可观测性的愿景,请根据需要观看 ElasticON 全球用户大会的主题演讲和其他可观测性会议,或者访问 Elastic 网站上的 Elastic 可观测性页面

本博文所描述的任何功能或特性的发布及上市时间均由 Elastic 自行决定。当前尚未发布的任何功能或特性可能无法按时提供或根本不会提供。

  • 招聘中

    就职于一个全球分布式的团队,只需通过一次 Zoom 会议,就可在团队中找到与您工作方式相同的同事。具有影响力地灵活工作?从一开始就有发展机会?