Orca 如何利用 Search AI 帮助用户获得可见性,确保合规性,并优先处理关键风险
随着众多组织不断将更多应用程序部署到云端,管理组织的云安全态势也变得至关重要。Orca Security 等安全技术提供商正引领着行业的发展,为组织提供更加高效的方法来保护他们的环境,并优先处理最重大的云风险。然而,随着生态系统日益变得复杂,以及对手攻击手段的不断升级,安全团队在搜索最相关数据时面临着巨大挑战。特别是对于采用多家云服务提供商的组织而言,分析师必须考虑每个提供商不同分类体系的细微差别,这无疑也增加了检索关键信息的难度。
尽管 Orca 对“矢量嵌入优先”的数据库产品进行了评估,但结果显示,如果不在嵌入内容中添加适当的关键字搜索,结果就会不尽如人意。因此,Orca 选择了 Elasticsearch,通过集成它的高级搜索功能,为安全解决方案创建了一个更加智能的 AI 驱动型搜索引擎。这一战略性选择彻底改变了 Orca 的平台,让平台用户能够轻松、准确地执行复杂且特定领域的搜索。
搜索成为核心焦点
Orca Security 需要一款工具来保持行业领先地位,并满足网络安全团队(以及开发人员、DevOps、云架构师、风险治理和合规团队)的迫切需求,这些团队需要轻松且直观地掌握云环境中的所有信息。Orca 旨在让组织内各个团队的成员,无论他们技能水平如何,都能迅速应对零日风险、执行审计、优化云资产,并了解面临的威胁,从而助力数据驱动型决策的制定。
Orca 认识到,用户需要一种更为智能、直观的应用内方式来搜索领域特定的查询,用简单的语言提出复杂的问题,并即时获得准确的结果。例如,客户可能会问这样一个问题:“哪些暴露在互联网上的虚拟机包含个人健康信息?”这类查询需要对数据中复杂的主题、属性和关系有深入的理解。Orca 需要一款搜索引擎,以便解析这些问题并自动生成恰当的筛选条件。
因此,Orca 的团队决定实施一种由 AI 驱动的搜索引擎,以简化这些复杂的任务,而 Elasticsearch 正是最合适的选择。Elasticsearch 为 Orca Security 的 AI 驱动型搜索引擎带来了多项显著优势,进一步强化了其整体潜能。以下是 Orca 的团队在 Elasticsearch 中看到的一些关键优势:
高性能搜索功能
Elasticsearch 提供了一种混合搜索设置,融合了关键字匹配和矢量搜索技术,即便面对包含领域特定术语和属性的复杂查询,也能提供精确且相关的结果。其强大的筛选功能,特别是在处理类似 Orca Schema 这样的数据模式时至关重要。例如,如果确定查询的主题是虚拟机,并且 AI 正在搜索如“包含 PII”这样的属性,Elasticsearch 会将搜索范围和筛选条件限定在仅包含与虚拟机相关的属性。这种方法能够排除来自其他模型的无关属性,例如数据库中的 PII,从而确保查询的准确性和有效性。
灵活性和定制化
Elasticsearch 能够处理自定义的权重调整以及多匹配字段查询,这一功能显著提升了搜索质量。例如,为名称和描述等字段调整不同的权重,可以确保搜索结果更加均衡。Orca 充分利用了这些功能,对搜索参数进行了微调,从而为用户提供了更加贴合其需求的搜索体验。
成本和性能效率
Elasticsearch 能够为 GenAI 用例带来显著的成本节省,因为它有效减轻了传统大型语言模型 (LLM) 的负载,这些模型在处理大量数据时往往成本高昂且速度缓慢。Elasticsearch 的筛选和检索功能不仅提升了搜索的速度,还使得搜索过程更加经济高效。通过针对每个查询优化相关示例的选择,也就是检索增强生成 (RAG) 方法,Elasticsearch 显著降低了 LLM 操作的成本。
基于通用数据训练的基础模型 LLM,通常都无法理解 Orca 的查询语言 (DSL),也无法理解包含数千种独特资产类型和属性的不断变化的网络安全数据图。仅仅是对 DSL 规则的说明就占用了大约 2,000 个词元,而提供转换示例又进一步增加了词元的数量。鉴于 LLM 的上下文窗口大小有限(当时限制为 8000 个词元),每增加一个词元都会增加处理延迟和成本。通过使用 Elasticsearch,我们可以从数百个示例中精准选出最相关的三到六个示例,从而确保只有最关键的数据被发送到 LLM。这种方法不仅节省了成本,还提升了准确性并减少了延迟。
LLM 的负载
虽然我们无法公开具体的数据指标,但获得的核心优势在于:Elasticsearch 使我们极大地减少了向 LLM 发送的数据量。通过预先筛选并精心挑出三到六个最相关的示例(而不是数百个可能的示例),我们有效减轻了 LLM 的处理负担。这一改变直接带来了更快的响应速度、更低的成本,以及更加高效的整体搜索体验。
AI 搜索是平台上备受用户喜爱的功能之一,用户已经使用数十种不同的语言,对成千上万种不同的网络安全概念和排列组合进行了查询。有关语言支持的更多信息,将在后续博文中介绍。
Search AI 为超级云安全体验注入强大动力
利用 Elasticsearch 的强大功能,以及 Orca 团队对 AI 创新的深度投入,他们得以极大优化了用户体验。这一全新的搜索体验不仅降低了技能门槛,还简化了任务流程,加快了修复速度,并增强了用户对云环境的了解。下图是 Search AI 的运作方式:
第 1 步:用户查询处理
调查流程始于用户在搜索框中输入查询。Orca Security 使用一个 LLM 将用户的问题转换为一种中间格式。这种格式包括主题(例如虚拟机)和所需的属性(例如个人健康信息)。
第 2 步:数据转化和 RAG
在 Orca 的上下文中,RAG 专注于精选出那些能够将用户查询转换为中间格式的示例。当用户输入一个查询时,Elasticsearch 会结合关键字匹配和嵌入搜索来选择出最相关的示例。
例如,如果查询是“包含 PII 的资产”,Elasticsearch 会找到最接近的精选示例,如:
“我们是否有在欧洲之外的任何 PII?”
“包含信用卡和 PCI 且未加密 SSH 密钥的虚拟机”
“被遗弃的资产和资源”
每个精选出的示例都附带其预期的 JSON 输出和推理。这一过程确保了 LLM 能够获得足够的上下文,以精确地将查询转换为结构化格式,从而提升整体的搜索体验,并确保创建有效的查询。
在第 2 步中,使用 Elasticsearch 的 RAG 对于将用户查询转换为 Orca 的内部表示形式至关重要。以下是它的工作原理:
精选示例:我们创建了数百个示例,可展示如何将自然语言查询转换为 Orca 的结构化格式。
Elasticsearch 的作用:每当收到新的用户查询时,Elasticsearch 会从我们精选的示例集中,通过结合关键字匹配(查找精确术语)和嵌入搜索(理解语义相似性),找出最相关的示例。
示例:如果用户提出“向我显示所有面向互联网且存在漏洞的服务器”的查询时,Elasticsearch 可能会检索出类似“查找暴露在互联网上的资产”、“列出所有具有严重 CVE 漏洞的服务器”和“向我显示缺少安全补丁的资源”等相关的示例。
LLM 的任务:这些相关示例将连同用户的原始查询一起被发送到 LLM。然后,LLM 利用这些上下文,准确地将用户的请求转换为 Orca 的结构化查询语言。
此外,我们还对“矢量嵌入优先”数据库进行了评估,但结果显示,如果不在嵌入内容中添加适当的关键字搜索,结果就会不尽如人意。
第 3 步:模式建模和属性匹配
Orca Security 已在 Elasticsearch 中对其整个数据模式进行了建模,涵盖了数百个主题和数千个属性。Elasticsearch 凭借其精确匹配能力,能够有效地将用户的查询转换为 Orca 数据库中使用的正确术语。例如,用户可能会提到“VM”,但系统需要理解与之相关的各种术语,如“虚拟机”或“虚拟实例”。
第 4 步:通过关键字增强相关性
为了提高搜索结果的相关性,LLM 会根据用户查询生成一系列关键字。这些关键字用于提升搜索属性的相关性,确保系统能够检索到最为相关的数据。此外,LLM 还会将查询转换为 Orca Security 的领域特定语言,使其能够在前端环境中顺利执行。
Orca 和 AI 的未来展望
Orca Security 的愿景远不止提升搜索能力;它致力于让所有人,无论技术背景如何,都能轻松进行高级数据分析。通过融合 Elasticsearch 和 AI,Orca Security 旨在重塑用户与数据之间的交互与解读方式。这一整合不仅丰富了 Orca Security 的服务内容,更在网络安全领域内树立了 AI 驱动型搜索的新典范。展望未来,随着 Orca Security 在 AI 和 Elasticsearch 应用方面的不断探索与突破,其发展前景令人充满期待。
深入了解 Elastic 和 Orca Security:
- 查看 Orca Security 的网站,以详细了解其提供产品和服务。
- 阅读关于我们目前正在 Elastic Search Labs 开展的工作。
- 探索更多利用 Elastic 实现的创新 AI 搜索体验用例。
本博文所描述的任何特性或功能的发布及上市时间均由 Elastic 自行决定。当前尚未发布的任何特性或功能可能无法按时提供或根本不会提供。
在本博文中,我们可能使用或提到了第三方生成式 AI 工具,这些工具由其各自所有者拥有和运营。Elastic 对第三方工具没有任何控制权,对其内容、操作或使用不承担任何责任或义务,对您使用此类工具可能造成的任何损失或损害也不承担任何责任或义务。在 AI 工具中使用个人、敏感或机密信息时,请务必谨慎。您提交的任何数据都可能用于 AI 训练或其他目的。Elastic 不保证您所提供信息的安全性或保密性。在使用任何生成式 AI 工具之前,您都应自行熟悉其隐私惯例和使用条款。
Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 及相关标志为 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。所有其他公司和产品名称均为其相应所有者的商标、徽标或注册商标。