追溯历史:SIEM 中的生成式 AI 革命

Globe_with_lock-2.jpg

网络安全领域与现实空间相似,安全运营中心 (SOC) 是您的数字警察部门。网络安全分析师就像警察,致力于阻止网络罪犯对组织进行攻击,如果他们尝试攻击,则会阻止他们。当攻击发生时,事件响应人员就像数字侦探一样,从许多不同的来源收集线索,以确定事件的顺序和细节, 然后再制定补救计划。为了实现这一目标,团队需要将大量(有时是几十种)产品组合在一起,以确定攻击的全部范围,并确定如何在业务受到损害和损失之前阻止威胁。

在早期的网络安全领域,分析师们意识到集中证据可以简化数字调查。否则,他们将花费大部分时间分别从上述产品中收集所需数据— 请求访问日志文件、从受影响的系统中提取信息,然后手动将这些分散的数据整合在一起。

我记得在我从事取证工作的时候,曾使用过一款名为“log2timeline”的工具,它可以将数据整理成时间序列格式,并根据活动类型(如文件创建、登录等)进行颜色编码。早期的 SANS 培训课程教授了这一工具的强大功能,以及用于分析的一般时间线。这实际上是一个 Excel 宏,可以将数据按照“超级”时间线进行排序。它具有革命性意义,提供了一种简单的方法来组织大量数据,但需要很长时间才能完成。 

现在,试想一下,如果侦探在进入犯罪现场之前必须等待数天,或者在找到合适的人提供许可之前,房间内的证据对他们来说是禁止触碰的。这就是网络安全分析师的生活。

1 - 在缺乏证据的情况下破案是徒劳的
在缺乏证据的情况下破案是徒劳的

在我的 SOC 职业生涯中,我一直对高级分析师花在分析工作上的时间如此之少感到惊讶。他们的大部分时间都花在了管理数据上,例如寻找数据源和筛选日志以获取相关信息。

在 21 世纪初期,出现了为安全团队集中管理“安全日志”的产品。这项技术迅速成为 SOC 的主打产品,(经过几次命名演变后)最终被称为安全信息和事件管理 (SIEM)。该产品有望拨开数据的迷雾,为团队提供一个集中存储和分析组织安全相关信息的场所。在本三部分系列文章的第一部分中,我们将介绍 SIEM 演变的前三个主要阶段。

2 - 跨越二十年的 SIEM 发展历程
跨越二十年的 SIEM 发展历程

SIEM 1.0 — 21 世纪初

运营收集与合规性

安全日志收集的初始迭代被定义为 SEM(安全事件管理)或 SIM(安全信息管理)。它收集了日志数据(即系统活动的数字记录)和事件数据。这改变了分析人员的游戏规则,因为他们现在拥有了一个控制系统,其中包含解决数字犯罪所需的数据。基本上,安全团队现在有了自己的数据孤岛。推动这一产品革命的主要原因是需要收集数据以防不测,例如维护取证日志,并能够向审计人员和调查人员证明确实收集了这些日志。此合规性用例推动了集中安全事件收集的采用。

这种新型产品也面临着一些挑战。现在,SOC 需要安全工程师来管理大量数据。他们还需要预算来收集和存储这些信息,因为他们需要将来自多个其他系统的数据复制到一个单一的集中式系统中。但好处是显而易见的:通过大幅缩短从企业各部门收集和整理数据所需的时间,从而加快了检测和补救的速度。一旦接到攻击通知,事件响应人员几乎可以立即开始工作。

SIEM 2.0 - 2010 年代

检测基于收集

下一个进展是在集中式 SIEM 层应用检测逻辑。SIEM 曾经是 SEM 中事件数据和 SIM 中信息数据的组合。SEM/SIM 的合规性和证据收集能力很强,但经过近十年的数据收集和审查,分析师们意识到他们可以利用集中信息做更多事情。SIEM 不再只是整合来自其他系统的警报并为收集到的日志和事件提供一个中央记录系统,而是能够对来自多个数据源的数据进行分析。检测工程师可以从一个新的角度进行操作—发现那些可能在仅分析一个数据源(如防病毒软件或网络防火墙)时可能遗漏的威胁。 

这种演变带来了许多挑战。除了对领域专家和预先构建的规则的需求增加外,SIEM 还集中收集来自多个点解决方案的警报,而每个点解决方案本身就会产生大量误报,从而加剧了这一问题。SIEM 分析师必须审查整个网络和桌面警报。这就导致了 SIEM 分析师经常提出的问题:“我该从何入手?”与此同时,SIEM 本身也会产生一组全新的检测警报。现在,您的 SIEM 包含了网络中所有其他系统警报的总和,再加上正常生成的警报数量。显然,这令人不堪重负。

机器学习的前景

机器学习 (ML) 有望改善对未知威胁的检测,同时减少所需的维护工作。其目标是识别异常行为,而不是依赖于硬编码规则来发现每一个威胁。

在机器学习出现之前,检测工程师必须分析已经发生的攻击或可能发生的攻击(由第一方研究提供),并针对可能发生的攻击编写检测程序。例如,如果发现了一种利用特定参数向 Windows 进程发送的攻击,则可以编写一条规则,查找在执行过程中是否调用了这些参数。但是,攻击者只需改变参数的顺序或以不同方式调用参数,就可以避免这种脆弱的检测。并且,如果这些参数的用途合法,则需要几天(甚至几周)的调整才能从检测逻辑中消除这些误报。 

机器学习有望极大减少这一挑战;具体有两种方式:

  • 基于“无监督”ML 的异常检测:分析师只需决定在哪些区域查找未知行为,例如登录、流程执行和访问 S3 存储桶。然后,ML 引擎学习这些区域的正常行为,并标记出异常情况。SANS DFIR 在 2014 年制作了一张著名的海报,上面写着“了解异常......发现邪恶。”

  • 经过训练或“监督”的 ML 模型:人类分析师可以看到某些东西,他们的大脑可以将这些看起来与先前观察到的攻击有些相似的点联系起来。这些专家能够了解攻击是如何发生的,并将这些知识应用于发现遵循类似进程的未知攻击。传统上,他们在威胁搜寻中利用这些专业知识来帮助发现安全产品可能遗漏的威胁。现在,借助机器学习,他们能够创建经过训练的模型检测,使其能够从以前的攻击中学习,并找到与其攻击方式相似的全新攻击。专注于行为(而不仅仅是哈希值、文件中的字符串和 URL 等原子指标)可以使检测具有更长的保质期和更高的攻击检测率。
3 - SANS DFIR 海报(2014 年)
SANS DFIR 海报(2014 年)

对异常活动(或离群值分析)的识别,使安全团队能够迅速识别出“异常情况”并进行调查。有些异常可能是用户在非正常时间从非正常位置登录,有时可能是攻击者窃取了访问网络的凭据。但有时,休假的 Sally 会在凌晨 2 点登录系统修复网络问题虽然误报增加,但发现全新的、以前未被发现的威胁的能力足以证明需要额外的帮助来鉴别误报。用户和实体行为分析 (UEBA) 时代已经到来,现代 SIEM 采用了基于规则和机器学习的检测技术。

从被动转变为主动

正如我们所看到的,SIEM 过去主要用于生成历史问题报告,而不是提供实际的端到端解决方案。SIEM 可以向您发出问题警报,但接下来您需要自行解决问题。随着 SOAR(安全编排、自动化和响应)的出现,这种情况发生了变化。这一新的产品线是为了填补 SIEM 的功能空白而创建的。它提供了一个收集和组织分析师用于修复操作步骤的位置,以及连接到生态系统其他部分以启动响应的连接器。在我们的警察部门类比中,SOAR 就像交通警察,指挥所有其他系统执行命令。它是将发现攻击与其他系统响应操作联系起来的粘合剂。 

与 UEBA 一样,从中央位置组织响应计划并启动行动的能力已成为现代 SIEM 的期望。在 SIEM 2.0 的生命周期中,人们期望 SIEM 能够在整个组织范围内大规模收集数据 (.gen 0),检测点解决方案可能遗漏的新威胁,并使用基于规则和机器学习的技术 (SIEM 1.0) 在不同系统之间进行关联,并允许规划和执行响应计划 (2.0)。事实上,TDIR(威胁检测、调查和响应)这一新的缩写词就是为了捕捉处理整个范围攻击的能力而创造的

SIEM 3.0 — 2023 年及以后

网络安全领域的生成式 AI 革命

SIEM 已成为 SOC 威胁检测、分类和调查的基础,尽管它未能解决一个根本性挑战:网络安全领域的巨大人才短缺。2023 年 3 月,由 IBM 委托 Morning Consult 公司完成的一项研究发现,SOC 团队成员“在一个典型的工作日内,只能处理一半的警报”。这里存在 50% 的盲点。数十年来,通过简化工作流程、自动化常规步骤、指导初级分析师等方式,这一问题得到了一定程度的解决,但还不够。随着消费者可以访问的具有网络安全领域专业知识的生成型人工智能模型的出现,这一情况正在迅速改变。 

传统上,SIEM 非常依赖屏幕后的人员,警报、仪表盘和威胁猎捕都是人力密集型操作。即使是早期的 AI 工作,如 AI 辅助驾驶,也依赖于分析师有效使用这些辅助驾驶功能的能力。当 AI 代表分析师进行操作时,这场革命就会发生,就不再需要“聊天”。想象一下,系统筛选所有数据,忽略无关信息,识别关键信息,发现特定攻击,并制定具体补救措施,这样一来,专家就可以专注于阻止攻击对业务的影响。

生成式 AI 的应用

这是技术首次向高级分析师学习,并自动将知识传递给初级成员。现在,生成式 AI 可以帮助安全从业人员制定针对特定组织的补救计划、确定威胁的优先级、编写和整理检测报告、调试问题,以及处理其他常规和耗时的任务。生成式 AI 有望自动将反馈回路反馈给 SOC,从而实现日复一日的持续改进。现在,我们可以通过这种自动化的反馈和学习来关闭 OODA 循环。 

由于大型语言模型(生成式 AI 背后的科学)的本质,我们终于可以像人类一样,利用技术对众多数据点进行推理,但规模更大、速度更快、理解范围更广。此外,用户可以通过自然语言而不是代码或数学知识与大型语言模型进行交互,从而进一步降低采用的障碍。以前从未有分析师能够使用自然语言提问,例如“我的数据是否包含可能对我的组织构成风险的任何区域的任何活动?”现在,SOC 的所有成员都可以在 SIEM 中嵌入相关功能,这是一个前所未有的飞跃。生成式 AI 已成为一个强大而准确的数字 SOC 助手。 

在安全操作工作流中利用 AI 革命的产品将提供 SIEM 3.0。

了解有关 SIEM 的演变的详细信息

这篇博客文章回顾了 SIEM 的发展历程,从集中收集数据以检测组织层面的威胁,到自动化和编排以加快补救措施的实施。现在,在 SIEM 技术的第三阶段,我们终于可以解决网络安全方面的巨大人才短缺问题。 

在本系列的第二部分,我们将讨论 Elastic Security 从 TDIR 到全球首个也是唯一一个 AI 驱动的安全分析产品的演变过程。与此同时,您可以通过以下电子书了解有关安全专业人员对生成式 AI 的反应的更多信息:用于网络安全的生成式 AI:乐观但不确定的未来。敬请关注第二部分!

本博文所描述的任何特性或功能的发布及上市时间均由 Elastic 自行决定。当前尚未发布的任何特性或功能可能无法按时提供或根本无法提供。

在本博文中,我们可能使用或提到了第三方生成式 AI 工具,这些工具由其各自所有者拥有和运营。Elastic 对第三方工具没有任何控制权,对其内容、操作或使用不承担任何责任或义务,对您使用此类工具可能造成的任何损失或损害也不承担任何责任或义务。请谨慎使用 AI 工具处理个人、敏感或机密信息。您提交的任何数据都可能用于 AI 训练或其他目的。Elastic 不保证您所提供信息的安全性或保密性。在使用任何生成式 AI 工具之前,您都应自行熟悉其隐私惯例和使用条款。

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 及相关标志为 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。所有其他公司和产品名称均为其相应所有者的商标、徽标或注册商标。