可观测性和安全完美结合的 5 个理由

尽管网站可靠性工程师 (SRE) 和安全分析人员的角色大相径庭,但他们追求的目标却有不少共通之处。他们都采用主动监测和事件响应策略来识别和解决潜在问题,以防止这些问题对服务造成影响。他们还都优先考虑组织的稳定性和弹性,尽可能减少停机时间和服务中断。
不过,只有当他们不仅在各自团队内部,而且在团队之间强调合作与交流的重要性时,他们才能实现更高水平的运营弹性,并对业务面临的潜在威胁做出积极主动的反应,而不是各自为战。
以下是安全和可观测性团队在协同工作时取得更大成就的五种方式:
1. 改善团队协作

说到供应商和技术合作伙伴,道理其实很简单:工具越多,意味着需要更多的切换和更多的时间来解决问题。一次性、孤立的技术增加了团队协作和洞察力的难度,这不仅加大了工作量,还容易引发错误。额外的工具还增加了管理、更新和维护软件的负担。统一技术不仅可以减轻人工工作负担,还能限制工具对组织系统的访问权限,进而缩小组织的攻击面。
行动中的协作
DISH Media 的广告收入业务每天从 2500 万个设备终端提取和处理 100 亿条记录,其中包括运营、业务和安全数据。借助 Elastic 提供的统一解决方案和单一代理,各团队现在可以在单一管理平台查看仪表盘和数据,方便进行快速分析。
这在很大程度上减少了事件检测和 MTTR,从而改善了客户体验。得益于 Elastic 的单一代理,DISH Media 现在能够更快地在数百万的系统和客户设备中发现异常,大大加快了根本原因分析和修复速度。因为团队操作都是通过单个代理进行的,所以没有额外的实施成本。
“借助 Elastic,我们现在有了统一的数据视图,可以通过关联数据来检测模式和异常情况。”DISH Media 工程主管 John Haskell 表示:"过去,根本原因分析和修复可能需要数周时间。现在只需几个小时。”
2. 通过统一的数据平台实现完整可见性

随着基础设施和应用程序变得越来越复杂,可观测性和安全团队面临着海量数据的挑战。通常来说,这些数据是一样的,但两个团队的使用方式却各不相同。把数据分散到孤立的工具中会形成人为的界限,从性能和威胁检测的角度来说,这会减慢问题检测和解决的速度。此外,不同系统生成的数据可能采用不同的格式,这给整个组织的数据可见性带来了额外的挑战。拥有一个基于提取和存储数据的通用模式的统一平台,使得搜索和关联相关信息变得更加便捷,从而提升了整个组织的数据可见性。
行动中的协作
OpenTelemetry 是云原生计算基金会 (CNCF) 生态系统中速度最快的项目之一,被认为是遥测数据的事实标准,也是 SRE 和安全团队广泛采用的框架。OTel 语义约定框架能够帮助用户减少查询和关联各种数据、构建可视化以及分析机器学习应用所需的时间和精力。
复杂性往往会阻碍对软件、性能和安全性问题的有效分析,采用 OTel 语义约定对安全性和可观测性数据进行规范化处理是一种强有力的手段,能显著降低复杂性。SRE 和安全团队以及技术供应商正在采用开放数据标准,以实现对多样化和异构数据的整体分析。
3. 异常和威胁检测

数据的指数级增长以及代码和基础架构部署的快速发展,给及时发现异常并在威胁影响服务前将其检测出来带来了挑战。AIOps 功能通过内置和可定制的机器学习模型,有助于自动检测异常,并提供根本原因分析和修复支持。可观测性解决方案降低噪音的能力取决于遥测数据,包括指标、日志、跟踪和性能分析数据。
通过日志、分布式追踪和指标,可以了解请求流、请求数量和类型以及其他性能特征。这种分布式系统的关联数据和上下文信息能够提供对应用程序行为的全面视图,也可用于安全事件的调查。分析数据并根据历史基线识别偏差的能力,加快了安全调查的速度。
生成式人工智能和检索增强生成 (RAG) 技术的进步,让 SRE 和安全团队能够利用理解自然语言的交互式助手进行更深入的调查和分析,并为各级运营和安全团队提供快速响应,从而缩短解决问题的时间。
行动中的协作
与可观测性平台集成的 SIEM 解决方案和其他安全技术能够利用日志、指标和追踪数据提供的的见解。这种统一的方法能够主动识别异常模式、可疑活动和潜在的安全事件。
通过将网络流量中的异常日志峰值与服务器性能指标相关联,组织能够迅速区分合法的流量激增和潜在的 DDoS 攻击。像重复登录失败或从异常地点访问之类的异常模式会迅速暴露,从而大幅降低攻击成功的几率。
4. 工具整合和降低成本

除了提高可见性和主动识别问题外,在统一平台上整合可观测性和安全功能还能实现工具整合,从而带来节约成本的额外好处。统一平台意味着可以通过整合管理两种业务所需的相关运营费用、服务、数据存储和人员,从而降低总体拥有成本。
行动中的协作
企业云数据管理领域的领先企业 Informatica 使用 Elastic 的统一平台,替换了他们原先复杂的可观测性和 SIEM 解决方案。该统一平台不仅提升了应用程序的性能,还保护系统免受外部威胁,同时在这个过程中节省了大量的预算。
“通过使用 Elastic,我们将可观测性和 SIEM 方面的供应商缩减为了一家。对于我们这样规模的公司而言,相较于其他解决方案,这代表着节省 50% 的成本。”Informatica 机器学习工程、可观测性和网站可靠性工程总监 Amreth Chandrasehar 如此表示。
而且,整合并不会影响性能。事实上,Informatica 发现情况恰恰相反。“Elastic 的搜索功能快到不可思议,”Chandrasehar 解释道:“我们存储了数万亿份文档,但搜索查询不到 10 秒就能返回准确结果。”
5. 数据处理的监管合规

加强安全实践有助于企业遵守 适用于可观测性数据处理的行业法规。企业将可观测性举措与严格的合规要求相结合,不仅能避免法律后果,还能增强利益相关者的信任。
这种协调有助于在监管环境中无缝整合可观测工具。同时,它还展示了在满足这些合规标准的过程中,安全与可观测性之间共生关系的潜力。
行动中的协作
没有哪个行业比金融业更了解合规性要求。 作为中东资产规模最大的银行集团之一,Emirates NBD 建立了一个集中式日志系统,每天从众多数据源中提取数 TB 数据。以 Elastic 为核心,这个新环境正如 Emirates NBD 云和数据平台副总裁 Ali Rey 所描述的,相当于单一信息源的基础。
集中式日志还为该银行提供了一种途径来增强安全性以及存储和检索治理利益相关者所需的审计日志。“如果出现争议,或者有任何问题、查询,抑或者内外部出现任何情况,这些未经篡改的审计日志可以作为支持,”Rey 说道。
得益于迁移到 Elastic 的集中式日志记录系统,该银行已经从最初的可观测性投资扩展到了安全领域,这有助于其更有效地检测外部和内部威胁。
迈出实现统一数据可见性的第一步
当可观测性和安全功能协同工作时,它们能够确保一个更安全可靠的运行环境。加强安全实践不仅是保护业务和声誉健康的重要防线,也是提升可观测性工具效率的催化剂。在这个自我循环的过程中,通过可观测性监测发现的差异将进一步强化安全态势。
在安全和可观测性的实践中,依赖于基于开放标准的统一数据平台看似遥不可及,但如今采取初步措施,将为企业的未来发展打下坚实基础。
阅读 SANS 报告《 黑暗中的一盏明灯:可观测性 + 安全》 ,或观看网络研讨会 , 深入了解这一新兴策略,以及如何采取措施来统一组织的可观测性和安全功能。
本博文所描述的任何特性或功能的发布及上市时间均由 Elastic 自行决定。当前尚未发布的任何特性或功能可能无法按时提供或根本无法提供。