了解公共部门中的数据网格:支柱、架构和示例

Blog_Header_Image_Public_Sector.jpg

试想国防情报、公共卫生记录、城市规划模型等项目背后的所有数据。政府机构每时每刻都在生成海量数据。当数据分散在云平台、本地部署系统或卫星和应急响应中心等特殊环境中,情况会变得更加复杂。查找信息已属不易,高效利用更是难上加难。由于不同团队使用众多应用和数据格式,真正的互操作性严重缺失。 

Elastic 最近一项研究显示,尽管公共部门领导者努力建立数据驱动型组织,但 65% 的公共部门领导者仍然难以实时、大规模地持续使用数据

“我们的工作效率因此降低,这很糟糕,因为我们的工作大多涉及紧急情况,”一位公共部门领导者告诉 Elastic。“我们需要能够尽快得到信息。”

数据堆积如山。访问却遭遇瓶颈。那么公共部门机构该如何摆脱中心化数据孤岛的复杂性?数据网格提供了一种替代性的数据组织方式,或许正是解决方案。

什么是数据网格?

简而言之,数据网格打破了孤岛。只要用户拥有访问权限,从整个网络收集的数据可在生态系统的任意或所有节点被检索和分析。它提供了一个统一且分布式的层,简化和标准化了数据操作。

Video thumbnail

数据网格的四大支柱

数据网格基于四个关键原则构建:

  • 域所有权:机构和部门如何管理自己的数据

  • 数据即产品:这些领域所有者确保其数据集高质量且易于访问

  • 自助服务平台:让内部和外部团队都能找到并使用高质量的数据,而不受 IT 系统的制约

  • 联合治理:确保各系统间平稳安全运作

让我们更深入地看看每项原则。

域名所有权

不同于依赖中央 IT 团队管理所有数据,数据所有权被分散到政府机构和部门中。本质上,您正在构建反映机构自身组成的专业技术团队。您希望最熟悉这些数据的人来拥有它。这可以应用于公共卫生、国防、城市规划等几乎所有公共部门用例。

例如,美国网络安全和基础设施安全局 (CISA) 采用数据网格方法,既能获得来自数百个联邦机构安全数据的可视性,又允许每个机构保留对其数据的控制权。

了解如何通过 Elastic 统一数据层加速 CISA 零信任架构的更多信息

这引出了第二个(可以说是最重要的)支柱,其他三根支柱都是为了支撑这个支柱而设计的:

数据即产品

每个数据集都被视为具有清晰文档和质量标准的产品。数据所属部门需要确保当其他部门需要时,数据易于访问和组织。换句话说,他们有责任和义务将这些数据作为可用产品进行共享。

从政府的角度来看,这可以是人口普查信息、应急响应数据或情报报告等。这完全取决于项目或政府机构的结构。重要的是,当其他团队需要这些精选数据时,它们随时可用,而不需要花费时间清理或验证。

那么,您可能会问,这不就是孤立分析数据的另一种方式吗?其他部门如何访问它的具体细节是什么?这就引出了我们的下一个支柱。

自助服务平台

各部门在此需要做大量工作,因此他们需要便捷的平台让他人能够访问数据。可搜索的目录便于数据发现、实时分析的查询工具、用户自行清理和集成数据的能力,以及通过仪表板和 API 共享见解的工具都是可用的解决方案。

他们还需要内置的治理机制来实施访问控制,这引出了我们的最后一个支柱。

联邦计算治理

因此,我们已经确定每个部门都控制着自己的数据。但是,数据网格仍然需要总体治理协议来确保其安全并防止风险。

这些安全控制应该内置于检索数据的系统中,而不是由每个部门单独应用。系统应该在搜索过程中检查用户权限,并确保人们从一开始就只能看到他们被允许访问的数据。

在公共部门,这可能涉及从医疗数据的隐私法规到国防系统的机密信息等各种要求。

Elastic 提供的统一分析通用数据层

数据网格架构

数据网格架构是一个将数据网格的支柱统一到一个管理分布式数据的流程的框架。

实施数据网格架构,可减少协作过程中的摩擦。这种以用户为中心的方法,对于使用领域特定数据进行模型训练和分析的团队来说具有变革性意义。

尽管存在多个平台和实施团队,数据网格仍能帮助实现更高效的大规模数据处理与治理。如果您拥有可扩展的自助式数据可观测性,那么数据网格架构既能创造更多自主权,也能促进数据民主化。数据可观测性让团队能够通过统一界面管理所有数据。

有效的数据可观测性已内置于数据网格架构中。它使团队能够从收集的所有数据中获取可用见解。可以这样理解:数据可观测性关乎数据的健康状态和完整性监控,而数据网格架构则关乎数据的去中心化管理。要管理数据,您必须能够深入查看细节。

数据网格与其他方案的对比

数据网格与其他分析型数据架构和存储方案相比如何?让我们看看经常被拿来比较的两种方案:数据编织和数据湖。

数据网格与数据编织

数据网格和数据编织都是采用去中心化方法,在远程站点收集数据。但数据编织会将一个站点收集的数据复制到另一个站点。这些数据以单独记录的形式共享,除非经过特定处理,否则无法与其他记录关联。这种方法通常会导致数据孤岛。

另一方面,数据网格方法不依赖数据复制,而是在数据摄取时在本地索引到分布式平台中,用户可搜索本地及远程站点的数据。在该模型中,数据在搜索平台层实现统一。数据只需索引一次,即可通过这一统一层供任何授权用户或用例使用。

数据网格与数据湖

您可能已经注意到,数据中有很多与水有关的隐喻:数据流、数据管道等。数据就像水一样,可以被收集、存储、过滤和分发——有时高效,有时混乱。

如同湖泊汇集多方水源,数据湖也收集并存储各类数据,以备将来使用。换言之,它是结构化、半结构化和非结构化数据的任意组合的存储环境。 

数据湖有时有助于数据网格域所有者处理和整理其数据产品。他们可用数据湖长期存储尚未明确用途的大型非结构化数据集(如卫星图像或公共记录)。但是,如果数据湖变得杂乱无章、难以检索,就会沦为数据沼泽——即浑浊、杂乱,难以从中提取价值。

数据网格和 AI

数据网格可以为公共部门机构提供实现 AI 和机器学习民主化的途径。传统上,数据科学团队作为中心枢纽运作,从多源提取数据来开发机器学习模型。但如前所述,这种方法易导致重复工作和不一致性,引发模型可复现性问题。

通过数据网格颠覆传统模式,将 AI 开发嵌入领域团队,您可以在源头清洗优化数据,创建其他部门可用的 AI 驱动型数据产品。

以国家灾害响应为例。嵌入应急团队的 AI 模型通常分析实时卫星图像、传感器数据甚至社交媒体报告,以识别重灾区。借助数据网格,从政府机构到急救人员等不同部门都能即时获取这些信息,无需等待集中处理,从而提升响应速度。

数据网格还通过从一开始就内置 AI 治理,改进了模型验证、偏差检测、可解释性和模型漂移监测等标准化任务。

公共部门如何实施数据网格

每个公共部门组织都有独特的数据需求,因此一刀切的数据孤岛会让内外用户效率低下。三分之二的公共部门领导表示,他们对现有数据见解不满意。 

数据网格可以根据每个公共部门机构的独特需求进行定制,无论是国防、国家安全,还是联邦、州或地方政府机构。

要开始使用数据网格,公共部门机构需要遵循以下几个步骤:

  • 将数据责任分配给特定部门。

  • 将数据集视为记录完备、可访问的资产,供内部和外部使用,并确保其符合监管要求。

  • 部署相关工具,使机构、分析师和政策制定者能够轻松访问和分析数据,而无需依赖集中式 IT 团队。

  • 在机构间实施治理,同时牢记 FedRAMPCMMC零信任等框架。

  • 最后,鼓励各组织共享数据,以便在维护安全控制的同时做出更好的决策和改善公共服务。

政府和国防应用

数据网格非常适合政府和国防领域,这些领域需要实时安全访问和分析大量分布式数据集。

在 国防领域,它有助于加快情报收集和资产管理,使现场操作人员能够根据最新数据采取行动。在公共卫生领域,它可以帮助快速整合来自医院或研究实验室的流行病学数据,以应对疫情爆发。交通部门可以分析城市间的交通和天气数据。教育部门可以查看儿童过去十年的考试成绩,并将其与其他数据(如远程学习与面对面学习的时间)进行交叉引用。

让我们以 这个例子 来自美国海军:其推动数字现代化的关键在于能够 "安全地将任何信息从任何地方转移到任何地方",以实现信息优势。但传统的集中式数据存储风险太大,尤其是在空中封锁和拒绝、降级、间歇和限制(DDIL)环境中。在这种情况下,全球数据网可以提供帮助,让数据保留在源头,同时还能在海军广阔的作战区域内进行搜索和访问。即使服务器或数据中心发生故障,这种分散式方法也能保持操作的弹性,并提供任务关键数据的统一视图,而无需移动或复制数据。

Elastic 数据网格实践

作为 Search AI 公司,Elastic 的数据分析平台是一个强大的全球数据网格,在统一系统中提供机器学习自然语言处理语义搜索、告警和可视化功能。换句话说,Elastic 通过让机构全面掌握其数据,并具备摄取、组织、访问和分析数据的能力,发挥了统一协调的作用。 

Elastic 的三大主要功能如下: 

  • 跨集群搜索 (CCS):允许您针对一个或多个远程集群运行单一搜索请求

  • 可搜索式快照:为您提供了一种经济高效的方式来访问和查询不常使用的历史数据

  • 基于角色的访问控制,提供集成安全性。 

Elastic 的数据网格方法还可以作为零信任等现代安全框架的基础,并为数据驱动型运营开辟新的可能性。

进一步了解 Elastic 如何帮助政府、医疗保健和教育团队通过速度、规模和相关性最大化数据价值

本文中描述的任何功能或功能性的发布和时间均由 Elastic 自行决定。当前尚未发布的任何功能或功能性可能无法按时提供或根本无法提供。

在本博文中,我们可能使用或提到了第三方生成式 AI 工具,这些工具由其各自所有者拥有和运营。Elastic 对第三方工具没有任何控制权,对其内容、操作或使用不承担任何责任或义务,对您使用此类工具可能造成的任何损失或损害也不承担任何责任或义务。请谨慎使用 AI 工具处理个人、敏感或机密信息。您提交的任何数据都可能用于 AI 训练或其他目的。Elastic 不保证您所提供信息的安全性或保密性。在使用任何生成式 AI 工具之前,您都应自行熟悉其隐私惯例和使用条款。 

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 及相关标志为 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。所有其他公司和产品名称均为其相应所有者的商标、徽标或注册商标。