发布

推出 Elasticsearch 可搜索快照

在 7.10 中,我们非常兴奋地推出了可搜索快照的公测版,此功能可转变您使用首选对象存储(例如 AWS S3、Microsoft Azure Storage、Google Cloud Storage 或同等产品)的方式,让您能够在下列做法之间进行权衡:大幅降低存储成本;在 Elastic Stack 中采集和保留更多数据;保持您在使用 Elastic Stack 时已习惯的快速搜索性能。长期以来,我们一直支持将数据备份到低成本对象存储中,但是借助可搜索快照,您现在可以将这类存储也用于存储和搜索数据。

我们将使用可搜索快照为两个新的一流数据层提供支持:冷层(在 7.10 中还尚处于公测版)和之后的冻结层。长期以来,我们一直支持通过多个数据层来进行数据生命周期管理:热层用于提供较高的处理速度,温层则用于降低成本,但性能也较低。由可搜索快照提供支持的新冷层可将数据的冗余副本卸载到低成本的对象存储中,这可以提高只读数据的本地存储密度,最多可将您的存储成本降低达 50%。冻结层目前尚在开发之中,并且将能进一步有所发展,既能实现将数据完全存储在低成本对象存储中,同时又可保持其完全可搜索性,另外,还具有本地缓存,可对频繁访问的数据进行快速查询。而且,像我们构建的所有功能一样,有些 API 可直接控制可搜索快照从对象存储中加载、管理和搜索数据的方式。利用这些新功能,您将能轻松在 Elastic 中管理不断增长的数据量且便宜实惠,进而能够经济高效地满足数据保留要求,同时开辟新的用例,例如赋予您团队无限制地回顾安全性调查或黑色星期五的年度绩效同比。

不断发展的旅程

时序数据随处可见。数据可以是日志、指标、跟踪、安全事件。数据是安全性和可观测性用例等的基础。我们一直在不断地投入付出,以期能够更轻松、快速及高效地管理和扩展此类数据。这一点非常关键,因为它增长的速度极快。例如,如果您每天收集 1 TB 的数据,则每周需要收集 7 TB。数年之后,数据量便会轻松达至 PB 级。用户需要一种方法,该方法既能管理这种指数级的存储增长,又能够对数据进行搜索。

我们解决此问题的方法是查看数据的生命周期。首次采集数据时,很可能要对其进行大量搜索。例如,在调查事件时,为识别和解决问题,您需要快速访问所有相关数据。当攻击者入侵主机或应用程序时,您快速响应的能力通常决定了入侵的影响。但是,根据来源或类型,也可以将数据分类为不同的使用级别。某些数据可能仅出于法律或合规性的原因而需要保存,或者处于对比目的而偶尔需要回溯。因此,用户需要不同级别的存储和处理能力来满足这些不同级别的需求,而无论其年龄、数据源或其他条件。

我们的使命是让您能够在成本、性能和功能之间取得平衡,从而满足自身的需求。这就涉及到我们堆栈各个层面的投资,不过我们方法的核心支柱是数据层——管理数据的生命周期。这并非什么新概念,并且其在 Elasticsearch 的最早版本中就已经存在了。索引生命周期管理 (ILM) 可提供一些约定,以便轻松管理跨热(具有 SSD 的快速机器)和温节点(可能具有旋转磁盘的低成本机器)之间的数据,并且我们已在 Elastic Cloud 中支持它长达多年了。快照生命周期管理 (SLM) 可更加轻松简单地使用来自 AWS、Google、Azure 和本地部署存储供应商的低成本对象存储,进而执行和存储备份。尽管这些快照是许多部署的关键部分,但它们并不是数据分层案例的有效部分。为什么会这样?因为无法搜索快照。不过,随着可搜索快照的使用,这一切已然改变。现在,我们能够创建新的、更便宜的数据层,从而利用这些低成本的对象存储,并且精彩呈现您的备份。

推出可搜索快照

我们对可搜索快照感到无比兴奋,因为它允许我们以全新的方式使用 S3 和其他对象存储。虽然您可以继续使用对象存储来将您的备份数据存储为快照,不过现在借助 Elasticsearch 可以直接搜索您的快照,进而精彩呈现您的对象存储,而且该功能始终在线可用。为了构建并提供良好的体验,我们对产品的所有图层都进行了更改——从 Kibana 到 Elasticsearch,然后一直到 Lucene。实际上,我们利用在 Lucene 中的深厚专业知识来优化搜索机制,以便仅下拉快照索引的那些子集,而这些子集是回答查询或加载仪表板真正所需的。利用可搜索快照,可以完全无缝且快速地从 S3 或其他对象存储中的快照支持的索引中恢复或检索数据,而且我们还能开发新的数据层,从而以较低的成本为您提供更多价值。

冷层

新的冷层在 7.10 版本中提供有公测版,且与温层相比,集群存储减少了多达 50%。它可保持与热层和温层相同的可靠性和冗余级别,并且全面支持从任何节点上的硬件故障中自动恢复。这样一来,就可以更经济高效地询问数据问题,例如“与上个月相比,这一峰值如何?”,或者“该用户在最近 6 个月内是否登录过受限系统?”

我们是如何做到的?好吧,在您的热层和温层中,一半的磁盘可用于存储副本分片。这些冗余副本可确保快速一致的查询性能,并在机器发生故障时为您提供弹性。如果发生这种情况,副本将无缝接任为主要副本,并且索引和搜索也将会继续进行。

diagram-primary-shard-disk-replica-shard.jpg

不过,只要您的数据变为只读状态,就可以轻松卸载冗余。快照存储库非常适合此操作,因为在 S3 中存储数据要比在本地 SSD 或旋转磁盘上便宜得多。因此,在冷层中,您的副本分片可作为快照存储在 S3 中。因此,我们将冷节点的可用容量增加了一倍,而费用却与之前的相同,即对查询性能并没有太大的影响。

diagram-higher-performing-disk-es-snapshot-on-s3.jpg

如果冷层中存在本地节点或磁盘故障,我们会使用可搜索快照进行自动恢复,即使用 S3 中存储为快照的副本索引,使这些索引可用于提供搜索请求且所需时间要比常规快照还原短得多。这就是它们的协同合作原理。

冻结层

想象一下,如果您可以在安全性调查进行无限制地回顾,或者可以深入研究 APM 的原始数据,进而查看过去两年客户行为的变化情况。这就是冻结层的所在,它为包含数据类型和数据量的全新用例打开方便之门,而以前使用 Elasticsearch 并不是很划算。考虑一下可搜索 S3 的概念对您的业务目标的作用有多强劲。我们现在正在积极开发冻结层,通过冻结层,您可以直接搜索 S3 中存储的数据或您选择的对象存储。使用冻结层时,根本就不需要在本地存储任何数据——它们都可作为快照存储在 S3 中。另外,关于冻结层,还有个奇妙的现象——在您需要为审计或安全性调查访问冻结数据时,无需找出冻结数据并将其解除冻结。您可以只使用可搜索快照直接对其运行查询。

在冻结层中,我们将提供的服务是前所未有的:能够按需搜索几乎无限量的数据,而其成本接近在 S3 上存储该数据的成本。数据的全自动生命周期已趋近完整——从热、温、冷,然后再到冻结,同时还可确保以尽可能最低的存储成本获得所需的访问和搜索性能。

优化以获得最佳用户体验

发布突破性的新功能是一回事,我们也始终致力于实现这一目标,从而为您带来最佳体验。另一个关键因素是确保其他所有功能可与这些新功能完美融合,协同合作,从而为您提供最佳的用户体验。

  • 简化的数据层配置:利用您分配给您数据节点的新角色,然后在使用索引生命周期管理时,Elastic Stack 会在自动使用它们将您的数据分配至适当的层,从而大大简化和精简设置数据层和配置 ILM 策略的方式。
  • 异步搜索:尽管我们已竭尽所能快速搜索 S3,但我们不是魔术师。对 S3 的查询仅需花费毫秒的时间。而当他们这样做时,我们希望提供最佳的用户体验。这就是为什么我们在 Elasticsearch 中开发了异步搜索机制的原因,该机制可显著增强 Kibana 关于长期运行查询的体验。现在,您可以非同步执行搜索请求,而不必等待结果。相反,您可以监测请求的进度并在稍后的阶段检索结果。在搜索完成之前,您甚至可以检索部分结果。
  • 查询效率:我们推出了一系列的改进功能,以跳过运行搜索时不匹配甚至不需要的搜索索引。例如,我们会根据时间或数据中的其他属性进行预先筛选,进而自动跳过我们已知的没有任何匹配的索引。搜索也尽可能提前结束:使用 block-max WAND 进行文本搜索,已排序查询会对我们已搜索的分片进行排序,在我们有足够的匹配项时停止搜索等等。

每种增强功能本身都可以提供价值,但总体而言,其价值远远大于其各个部分的总和。在开发功能时,我们应始终着眼于大局,并尽力将其无缝地与 Elastic Stack 中已经提供的所有功能相结合。

解决用例和我们的解决方案

想象一下,如果您可以利用对象存储库(如 S3)上的可搜索快照,轻松而经济高效地搜索多年的日志、指标和 APM 跟踪来解锁价值。经年累月地存储数据!利用可搜索快照和 Elastic 可观测性,您将能够直接查询多年的存档数据,而不必在执行搜索之前经历缓慢而又昂贵的从快照恢复索引的过程。

如果您可以用 S3 等对象存储上通过可搜索快照轻松访问的多年大容量安全数据源武装威胁猎人和分析师,会怎样呢?利用可搜索快照和Elastic 安全,您能够以更大的规模收集 IDS、NetFlow、DNS、PCAP 或终端数据等大量与安全性相关的数据,并在降低成本和保持可搜索性均有兼顾的新数据层上,使数据保持较之以前更长的可访问时间。

最后,考虑通过使用可搜索快照搜索对象存储,可在控制成本的同时,搜索所有应用程序内容和工作场所历史记录的能力。在 Elastic Stack 中新推出的可搜索快照功能也会惠及 Elastic 企业搜索。无论您是支持额外数量级的应用程序内容,还是在可以安全地存储在对象存储(如 S3)中的历史组织记录中进行搜索,您都可以在控制成本的同时以可搜索的方式存储所有存档和历史内容。

我们将再接再厉,继续这一旅程

随着 7.10 中可搜索快照公测版和冷层的推出,我们取得了重大进展,对此,我们感到非常兴奋。另外,我们还即将推出冻结层以及通过 Elastic Cloud 中的简单滑块来管理的冷层和冻结层,从而真正简化用户的注册和订阅流程,对此我们也感到无比兴奋。一如既往,对我们而言,该旅程还会持续前进,而推动我们进行向前的正是我们在每次发布中不断为您提供的持续增值。

diagram-searchable-snapshots-today-next-future.jpg

即刻开始使用

如要开始使用可搜索快照以及在冷层存储数据,既可在 Elasticsearch Service 上快速部署一个集群,也可安装最新版本的 Elastic Stack。Elasticsearch 已在运行了?只需将集群升级到 7.10,即可开始试用。如果希望了解更多信息,请阅读数据层可搜索快照文档。