AI 可观测性:公共部门任务弹性的支柱

IT 中断如何损害公众信任
去年,中断使公共部门蒙受了约 1.93 亿美元的损失——而财务损失仅仅是开始。除了这些数字,公共部门的中断还会给公民带来严重后果:关键在线服务中断、福利延迟发放以及应急响应停滞。当公民无法依赖政府服务时,服务中断就不仅仅是带来不便,而是关乎信任的问题。
与正常运行时间相比,弹性是现代政府新的成功衡量标准。衡量公共部门成功与否的标准不仅是服务的可用性,还包括相关机构在问题影响公众之前发现、了解和解决问题的速度。
在一个架构复杂、团队分散且网络威胁不断增加的世界里,各机构需要能预测问题、适应新工作负载、保护公民数据并在压力下保持业务连续性的系统。这就需要一种新的可见性方法——一种植根于智能并由数据驱动的方法。首要挑战?驾驭公共部门 IT 环境的规模和复杂性。
复杂性挑战:混合云、多云和关键任务
公共部门 IT 已发展成一个庞大且相互关联的生态系统,涵盖传统的本地部署系统、多云应用程序、必须保持隔离的物理隔离或机密环境,以及分布在各州、机构和任务合作伙伴之间的关键基础设施。每个环境都至关重要。每个系统都承载着关键任务工作负载。每一层都会生成大量数据,各机构必须实时观察、了解并采取行动。
传统监控分散在孤立的仪表板、互不连接的工具以及手动关联的工作流中。团队最终只能在不同控制台之间切换,手动拼接日志、指标和跟踪记录,并在公民感受到影响后很久才对问题做出反应。公共部门 IT 团队需要找到方法来弥合可见性差距,即使是在不同的系统和服务之间也是如此。
引入可观测性。
Observability 可为每个应用程序、网络、系统和环境提供统一的数据驱动视图。通过连接遥测数据源并自动关联信号,可观测性可帮助团队准确定位故障、故障原因、起因以及如何防止故障再次发生。在复杂的环境中,可观测性可恢复一致性。
但即使有正确的可见性模型,仍存在一个挑战:数据治理。公共部门机构不能简单地将所有遥测数据集中或复制到单一环境中——尤其是在处理机密记录、受监管的工作负载和敏感任务数据时。任何现代解决方案都必须尊重边界,维护主权并确保合规性,同时仍能提供统一的见解。
数据网格治理:无需集中管理即可实现统一的可观测性
机构不必为了获得可见性而放弃控制。数据网格将数据连接到其已存在的位置,无需重复或重新定位数据。这种分散模式可让各机构保持完全的主权,将敏感信息保留在适当的边界、管辖范围和系统内。这种数据网格方法不仅能加强合规性,还能避免不必要的重复,从而降低存储和传输成本。它避免了通过单一、脆弱的瓶颈传输所有信息所带来的性能和可用性风险。
数据网格为机构提供了统一的可见性,同时避免了集中化——这种模式与合规性和控制自然契合。并且,由于它在分布式环境中保持了遥测的可访问性,因此为 AI 驱动的可观测性提供了理想的基础,使机构能够安全且大规模地运行高级分析。
为什么 AI 驱动的可观测性对政府至关重要
如果服务中断会削弱公众信任,那么保持正常运行时间就是公共部门 IT 使命的核心所在。但是,如果没有能与政府系统产生的海量数据保持同步的工具,就不可能保持正常运行时间。机构需要在混合环境中实现更快的诊断和快速响应。
AI 通过为公共部门的可观测性带来超强的数据处理能力,开启了无限可能。它能在数秒内识别模式、标记异常、预测中断并找出根本原因,从而实现自动检测、关联和修复。对于政府机构而言,这意味着:
任务连续性:借助自动化检测和关联功能,团队可以在问题升级为故障之前很久就发现新出现的问题。机构能够保护面向公民的服务的连续性,将中断降至最低,并维护依赖始终可用的数字体验而建立的信任。
合规自动化:持续监控可实时确保系统符合严格的美国联邦法规,例如 FedRAMP、M-21-31 和 CMMC,以及包括 GDPR 和 NIS2 在内的关键欧盟法规。机构无需依赖定期检查或人工审计,即可持续了解其风险和安全状况,确保符合不断变化的要求。
效率:通过自动执行常规诊断、关联和报告任务,AI 可让超负荷工作的 IT 人员解放出来,专注于价值更高的工作。团队可以将更多时间用于战略性现代化和任务支持。
数据主权:通过利用数据网格方法,各机构可以完全掌控其数据的存储位置和治理方式,同时还能获得整个企业范围内运营状况的统一视图。这种本地控制和全局可见性的平衡确保了见解在不影响司法管辖权、监管或安全要求的情况下自由流动。
因此,AI 驱动的可观测性正迅速成为政府运营的必需品。现在的挑战不再是是否采用它,而是如何确保它能带来有意义的结果。
构建基础:日志、指标和跟踪
每个弹性系统背后都离不开高质量遥测数据的支撑。可观测性的三大核心支柱(日志、指标和跟踪)验证了系统运行是否可靠、安全,是否符合联邦法规的要求。它们对于任何成功的 AI 可观测性实践都至关重要。
日志会详细记录事件。
指标可量化一段时间内的性能。
跟踪在服务间流转,以展示系统流程和瓶颈。
这些遥测信号共同帮助机构审计行为、验证系统完整性并高效排查故障——所有这些对于任务执行所需的持续监控以及监管报告都至关重要。
开放标准,开放政府:OpenTelemetry 的作用
OMB M-21-31、NIS2 和 GDPR 等政府规定要求进行持续的跨系统监控,而这只有在工具能够使用相同的语言时才能实现。互操作性和透明度是现代环境中可观测性的基本概念,因此开放标准对现代公共部门技术至关重要。
OpenTelemetry (OTel) 为遥测数据检测、收集和输出提供了一个标准化的、中立于供应商的框架。借助 OTel,公共部门团队可以在联邦、州和地方系统中生成一致的遥测数据。这种一致性减少了代理蔓延、供应商锁定和技术摩擦,同时保持了遥测数据的一致性和可审计性,从而实现更好的监督和合规性。
Elastic 的开放式设计方法与这些目标自然契合:作为 OTel 的主要贡献者,Elastic 使机构能够采用开放标准,同时又不会牺牲灵活性或可扩展性。无论数据来自传统系统、现代微服务还是多云环境,Elastic 对 OTel 的支持都能确保机构能够以一致、标准化的方式在所有系统中收集和共享遥测数据。
可观测性的开放标准加速了跨机构协作,使团队能够共同排查问题,使运营数据更易于获取和审计,帮助机构构建公众信任的透明、负责任的数字服务。
优化扩展并降低 IT 中断成本
那么,为什么要采用 AI 驱动的可观测性?
首先,要应对各机构不断激增的数据洪流。政府系统生成的数据比以往任何时候都多。云扩展、数字服务、边缘设备、物联网传感器和网络监控都推动了遥测数据的爆炸式增长。没有策略,成本可能会迅速飙升。
Elastic的方法结合了数据网格架构、搜索驱动的分析和分层存储,以平衡性能与成本控制。
跨集群搜索允许团队在多个远程集群上运行单个查询,从而实现无缝的大规模可见性。
可搜索式快照能够以经济高效的方式快速访问历史数据或不常用数据。
基于角色的细粒度访问控制可确保敏感信息始终受到保护并合规。
由于 Elastic 的数据网格符合零信任等现代安全框架,因此即使在最复杂的环境中,机构也能加强弹性和互操作性。
结果:各机构在降低基础设施成本的同时,还能保持其任务所需的运行速度、可扩展和可审计性。
AI 和 AIOps:从被动响应到主动预测
通过借助 AIOps、自动化和异常检测增强可观测性,AI 成为驾驭数据的高手,将监控从被动响应转变为主动预测。
多年来,政府机构的 IT 团队一直深陷于被动应对的循环之中,等待警报触发,匆忙收集分散的数据,在压力下诊断问题,在团队之间层层上报,争分夺秒地恢复服务,以免民众受到影响。AI 从根本上重塑了这一工作流。
AIOps 可实时分析大量遥测数据流,创建一个始终在线的智能层,自动检测异常情况、关联相关警报、预测潜在故障、确定可能的根本原因,甚至建议或执行补救步骤。
生成式 AI 借助具有上下文感知能力的 AI 助手进一步加速了这种转型。技术团队可以询问有关系统运行状况的对话式问题,助手会立即分析根本原因,生成建议的下一步行动,并自动起草状态更新、事件摘要和补救计划,将数小时的人工操作瞬间完成。
但对于公共部门而言,有一项要求最重要:可解释性。AI 必须具备可解释性:各机构必须了解 AI 系统如何得出结论,确保每项建议都符合合规要求、治理框架以及公共责任标准。因此,能够透明地跟踪 AI 推理是 AI 驱动的工具需具备的一个关键功能。
可观测性和安全:构建任务弹性
在当今的威胁环境下,运营和安全工作不能再各自为政。零信任、网络弹性和联邦现代化战略都指向一项共同需求:统一的态势感知。
当可观测性和安全性同时实施时,可提供任务弹性所需的实时可见性。
通过将性能数据与安全信号相关联,机构可以检测由欺诈活动、隐藏在运营噪音中的安全事件、由配置偏差或不当行为引发的中断以及使公民数据或关键系统面临风险的漏洞所导致的性能异常。结果:
为 SRE 和安全团队提供集中可视性
减少工具蔓延并简化操作
增强协作 跨 SOC、NOC、DevOps 和任务团队
当可观测性和安全性相融合时,机构就能保障任务安全,同时为公民提供更优质的服务。
使公共部门 IT 与任务目标保持一致
政府机构的 IT 解决方案必须以任务成果为出发点——技术只有在推进这些目标时才会产生价值。这就是各机构正在转向任务可观测性的原因,这种方法将系统性能与公民成果直接联系起来。实际示例包括:
后端服务可靠、响应迅速,因此案件处理速度更快 更可靠的应急通信系统可实现快速响应和协调
为更新许可证、提交福利申请或获取医疗保健服务的民众提供更流畅的数字体验
Elasticsearch Platform 在支持这种转变方面具有独特的优势。通过将技术遥测与任务 SLO 相连接,各机构能够更清晰地了解其系统如何影响公民信任和任务影响。
借助任务级可观测性,IT 团队从支持职能部门转变为推动机构整体成功的战略合作伙伴。
采取下一步行动:评估您的可观测性就绪情况
您的机构准备好迎接下一波复杂局面了吗?准备好应对 AI 了吗?准备好满足公民日益增长的期望了吗?
我们的电子书可帮助您评估可观测性成熟度,并揭示构建任务就绪型弹性的实用步骤。
想了解您的机构与其他同行相比如何?下载免费电子书。
- Consultancy.uk,“在线中断每年给公司造成 4000 亿美元的损失”,2024 年 6 月。
本文中描述的任何功能或功能性的发布和时间均由 Elastic 自行决定。当前尚未发布的任何功能或功能性可能无法按时提供或根本无法提供。
在本博文中,我们可能使用或提到了第三方生成式 AI 工具,这些工具由其各自所有者拥有和运营。Elastic 对第三方工具没有任何控制权,对其内容、操作或使用不承担任何责任或义务,对您使用此类工具可能造成的任何损失或损害也不承担任何责任或义务。请谨慎使用 AI 工具处理个人、敏感或机密信息。您提交的任何数据都可能用于 AI 训练或其他目的。Elastic 不保证您所提供信息的安全性或保密性。在使用任何生成式 AI 工具之前,您都应自行熟悉其隐私惯例和使用条款。
Elastic、Elasticsearch 及相关标志是 Elasticsearch B.V. 在美国和其他国家/地区的商标、徽标或注册商标。所有其他公司和产品名称均为其相应所有者的商标、徽标或注册商标。