可观测性
餐饮/宾馆

百事公司通过使用 Elastic Observability 提升效率,并将平均修复时间(MTTR)缩短了 30%

下载 PDF

将 MTTR 缩短 30%

百事可乐公司通过使用 Elastic Observability,将平均修复时间(MTTR)缩短了 30%,实现了在几分钟或几小时内解决问题,而不是几天。

将监控工具数量从 55 种削减到少于 20 种。

这种对工具的整合与简化使系统运行时间达到99.9%,并显著提升了我们数字运营的整体服务可靠性。

每年将硬件成本降低最多 25%。

借助 Elastic Cloud 上的 Elastic Observability,百事公司减少了数十万美元的硬件开支。

百事公司对 Elastic 进行了标准化,以实现全栈Observability,每年将事件解决时间缩短 30%,硬件成本最多可降低 25%。

PepsiCo 产品每天在全球 200 多个国家和地区被消费者享用超过 10 亿次。2024 年,该公司净收入近 920 亿美元,其产品组合涵盖多种食品和饮料,包括 Doritos、Cheetos、Gatorade、Pepsi-Cola、Quaker 和 SodaStream 。

在其130年的历史中,该公司始终将信息技术(IT)和创新作为其运营和增长战略的核心支柱。如今,该公司正将Elastic置于其数字转型努力的核心,借助机器学习生成式AI的最新进展来推动发展。

使用 Elastic 实现全栈Observability

多年来,百事公司投资了一系列多样化的Observability工具,这些工具专门为支持各个应用程序而量身定制。虽然这种方法可以实现重点监控,但由于缺乏统一的Platform,限制了全面优化关键基础架构和应用程序的性能和可靠性的能力。

作为响应,该公司部署了 Elastic Observability 作为其全栈可观测性 (FSO) 平台的基础,将来自超过 38 个关键应用程序的 MELT(指标、事件、日志和跟踪)数据整合到标准化的 Grafana 仪表板中。该Platform为全公司数百名用户提供支持,其中包括在 One PepsiCo 运营中心、配备全栈可观测性仪表板的指挥中心,以及价值流监控团队的工作人员。

在介绍 Elastic 的优势时,One PepsiCo 运营中心的可观测性总监 Vinod Chilakalapudi 强调了来自终端用户(包括运营中心)的积极反馈。“Elastic 是百事可乐运营智能的支柱,支持主动异常检测、快速根因隔离以及近乎持续的正常运行时间。这带来了可量化的停机时间减少,并提升了我们数字化运营的服务可靠性。”他说。

自FSO Platform部署以来,百事公司已将其监控工具从 55 种精简至不足 20 种。这种方法有助于主动识别和解决问题,从而将平均解决时间(MTTR)缩短 30%。

新Platform还使百事公司能够整合其在Elastic上的投入,通过有利的许可协议,在降低净成本的同时支持更高数据量。“我们已将 Elastic 标准化为百事公司(PepsiCo)跨部门采集和分析 MELT 数据的核心引擎,并制定了实现 99% 覆盖率的路线图。这一基础正在加速推进基于遥测技术的自动化,实现情境化见解,并为企业级规模的智能运营提供支持,” Chilakalapudi 表示。

“我们向 Elastic Cloud 的迁移消除了传统基础设施的开销,实现了年度成本节省。更重要的是,它实现了动态可扩展性和实时可观测——加速了我们向云原生运营的转变。”

– Vinod Chilakalapudi, 百事公司运营中心 Observability 总监

实现 99.9% 的正常运行时间

Elastic 的全栈Observability解决方案已将我们的运营中心转变为预测性控制塔——在问题升级前加以拦截,并增强了百事公司全球系统的韧性。快速识别和解决问题可使应用程序正常运行时间达到 99.9%。此外,百事公司在事件管理中实现了23%的自动化率,使IT团队能够专注于战略性举措,而非被动应对故障排查。

将多个工具整合到单个平台中,也提升了百事公司Observability Platform的整体效率。通过清晰地了解消费模式,团队可以更好地了解自身的数据需求,包括易于访问的数据的保留期限。Elastic 的分层方法(包括热层、冷层和冻结层)提供了大量优化存储成本的机会。

Elastic Observability还发挥着战略作用,为百事公司多个职能部门的更广泛的业务决策提供信息支持。每月摄入13.7TB的数据(其中1TB专用于FSO),公司各业务团队正充分利用这些数据驱动的见解累指导战略决策,并提升整体运营韧性。

基于成果的咨询服务

Elastic Consulting 的战略合作伙伴关系加速了架构优化——在数据管道、采集策略和ML用例方面共同创新,以同时提升成本效率和洞察速度。这包括使用管道将数据直接发送到 Elastic,有望再节省 20%。

此外,Elastic 支持也发挥了关键作用。“相比依赖多家供应商的专家,该团队主要依靠我们指定的 Elastic 支持工程师,这极大地简化了资源调配和维护工作,”Chilakalapudi 表示。指定支持工程师(DSE)在关键阶段发挥了至关重要的作用,尤其是在本地部署向云迁移期间。

人工智能的未来状态

展望未来,Chilakalapudi 和他的团队计划整合更多 MELT 数据,并利用 Elastic 的 AI 功能,包括其矢量化数据库,以及通过Retrieval-Augmented Generation(RAG)与大型语言模型(LLM)安全集成的能力。这将使生成主动警报成为可能,增加应用程序正常运行时间,并减少 MTTR 和平均检测时间 (MTTD)。

“我们的愿景是打造一个由 Agentic AI 和 LLM 集成遥测技术驱动的下一代Observability生态系统。”Chilakalapudi说道,“Elastic 在矢量搜索和 RAG 方面的进步与我们以见解为导向的自主运营路线图高度契合。”

Chilakalapudi 计划将 Elastic Observability 的使用范围扩大到涵盖其他关键业务职能。在追求进一步提升效率的过程中,他认为可以通过分析使用模式来识别节省措施,从而优化云成本。

"Elastic 已成为百事公司在遥测数据摄取、关联分析及问题解决速度方面的黄金标准。它现在为我们的可观测生态系统建立了性能基线。"

– Vinod Chilakalapudi, 百事公司运营中心 Observability 总监