November 20, 2017

机器学习异常评分和 Elasticsearch —— 背后的原理

编者按（2021 年 8 月 3 日）：这篇文章使用了已弃用的功能。有关当前说明，请参阅使用反向地理编码映射定制区域文档。

我们经常会收到关于 Elastic 的机器学习“异常分数”的问题，以及仪表板中显示的各种分数如何与数据集内个别事件的“异常”相关。了解异常评分是如何表现的，依赖因素是什么，以及如何使用该评分作为主动报警的指标，这将非常有帮助。虽然本博客可能不是完整的最终指南，但是本文的目的是解释尽可能多的关于机器学习（ ML ）评分方式的实用信息。

首先要认识到的是，有三种不同的方式来思考（并最终评分）“异常”——单个事件异常的评分（“记录”）、一个实体的评分（“影响因素”）如用户或 IP 地址等以及对一个时间窗口的评分（“时段”）。我们还将看到这些不同的分数在某种层次结构中是如何相互关联的。

记录评分

第一种类型的评分，是层级结构的最底层，是某个特定事件发生的绝对异常。例如:

在最后一分钟，观察到用户（即管理员）的登录失败率为 300 次
特定中间件调用的响应时间值比通常情况下增加了 300%
今天下午处理的订单数量远低于典型的周四下午处理量
传输到此远程 IP 地址的数据量远远超过传输到其他远程 IP 的数据量

上述每一种情形都有一个计算的概率，一个非常精确地计算出来的值（小到1e-308 ）——基于观察到的过去的行为，我们基于此已经为该项目构建了一个基线概率模型。然而，这个原始概率值虽然肯定有用，但可能缺少一些上下文信息，如：

当前的异常行为与过去的异常相比如何？有比过去的异常情况更不寻常吗？
与其他潜在异常项（其他用户、其他 IP 地址等）相比，该项的异常性如何？

因此，为了让用户更容易理解和区分优先级，机器学习对概率进行了归一化，从而在 0-100 的范围内对项目的不规则性进行排序。此值在 UI 中显示为“异常分数”。

为了提供更多上下文，UI 按四个“严重程度”给异常分数挑选一个标签——“严重”标签用于 75 到 100 之间的分数，“重要”标签用于 50 到 75 之间的分数，“次要”标签用于 25 到 50 之间的分数，“警告”标签用于 0 到 25 之间的分数，每个严重程度用不同的颜色表示。

enter image description here

这里我们看到在单个度量查看器中显示的两个异常记录，其中最异常的记录是得分为 90 的“严重”异常。表格上方的“严重度阈值”控件可用于过滤表格中较高严重度的异常，而“间隔”控件可用于对记录进行分组，以显示每小时或每天最高的评分记录。

如果我们去查询记录结果在机器学习的 API 中询问关于特定 5 分钟时间段内异常情况的信息（其中“farequote_count”是作业的名称）：

GET /_xpack/ml/anomaly_detectors/farequote_count/results/records?human
{
  "sort": "record_score",
  "desc": true,
  "start": "2016-02-09T16:15:00.000Z",
  "end" :"2016-02-09T16:20:00.000Z"
}

我们将看到以下输出：

{
  "count": 1,
  "records": [
    {
      "job_id": "farequote_count",
      "result_type": "record",
      "probability": 1.75744e-11,
      "record_score": 90.6954,
      "initial_record_score": 85.0643,
      "bucket_span": 300,
      "detector_index": 0,
      "is_interim": false,
      "timestamp_string": "2016-02-09T16:15:00.000Z",
      "timestamp": 1455034500000,
      "function": "count",
      "function_description": "count",
      "typical": [
        59.9827
      ],
      "actual": [
        179
      ]
    }
  ]
}

这里我们可以看到，在这 5 分钟间隔内（作业的“buckspan”），recordscore为90.6954 （满分 100 分），原始“概率”为 1.75744e-11。这就是说，在这个特定的 5 分钟间隔内，数据量实际上不太可能达到 179 份文档，因为数量“通常”要低得多，接近 60 份。

注意这里的值如何映射到 UI 中显示给用户的内容。1.75744 e-11的“概率”值是一个非常小的数字，这意味着它不太可能发生，但是这个数字的规模是不直观的。这就是为什么将它投影到从 0 到 100 的刻度上更有用。进行这种标准化的过程是专有的，但大致是基于分位数分析，在分位数分析中，历史上在这项作业中看到的异常的概率值是相互比较的。简而言之，作业历史上最低的概率得到最高的异常分数。

一个常见的误解是，异常分数与 UI 的“描述”列中的偏差直接相关（此处为“3 倍高”）。异常分数完全由概率计算驱动。“描述”甚至“典型”值都是情景信息的简化部分，以便于理解异常。

影响因素评分

既然我们已经讨论了单个记录分数的概念，而考虑异常的第二种方法是对可能导致异常的实体进行排名或评分。在ML中，我们将这些贡献实体称为“影响因素”。在上面的例子中，分析太简单了，没有影响因素——因为它只是一个单一时间序列。在更复杂的分析中，可能有辅助字段会影响异常的存在。

例如，在对一群用户的互联网活动的分析中，机器学习作业查看发送的异常字节和访问的异常域，然后您可以将“用户”指定为可能的影响因素，因为这是“导致”异常存在的实体（某些实体必须将这些字节发送到目标域）。将根据每个时间间隔内在这些区域（发送的字节和访问的域）中的一个或两个区域中考虑的异常程度，为每个用户提供影响因素得分。

影响因素得分越高，该实体对异常做出的贡献或应对此负责的程度就越大。这为机器学习结果提供了一个强大的视角，特别是对于具有多个检测器的作业。

请注意，对于所有机器学习作业，除了在作业创建期间添加的任何影响因素之外，还会始终创建一个名为“bucket_time”的内置影响因素。这将使用存储体中所有记录的聚合。

为了展示影响因素的一个例子，我们在一个航空公司机票报价引擎的 API 响应时间调用数据集上设置了两个检测器的机器学习作业：

航空公司 上分开/分区的 API 调用的 计数
航空公司 上分开/分区的 API 调用的 平均（响应时间）

此时“航空公司”被指定为影响因素。

看看“异常浏览器”中的结果：

enter image description here

左侧的“顶级影响因素”部分列出了仪表板中选定时间段内的顶级得分影响因素。对于每个影响因素，将显示最大影响因素得分（在任何时段中），以及仪表板时间范围内的总影响因素得分（在所有时段中相加）。这里，航空公司“AAL”的影响因素得分最高，为 97 分，整个时间范围内影响因素得分总和为 184 分。主要时间线是查看影响因素的结果，最高得分的影响因素航空公司被突出显示，再次显示得分为 97 分。注意，航空公司 AAL 的“异常”图表和表格中显示的分数将与其影响因素的分数不同，因为它们显示了个别异常的“记录分数”。

在影响因素级别查询 API 时：

GET _xpack/ml/anomaly_detectors/farequote_count_and_responsetime_by_airline/results/influencers?human
{
  "start": "2016-02-09T16:15:00.000Z",
  "end" :"2016-02-09T16:20:00.000Z"
}

返回以下信息：

{
  "count": 2,
  "influencers": [
    {
      "job_id": "farequote_count_and_responsetime_by_airline",
      "result_type": "influencer",
      "influencer_field_name": "airline",
      "influencer_field_value": "AAL",
      "airline": "AAL",
      "influencer_score": 97.1547,
      "initial_influencer_score": 98.5096,
      "probability": 6.56622e-40,
      "bucket_span": 300,
      "is_interim": false,
      "timestamp_string": "2016-02-09T16:15:00.000Z",
      "timestamp": 1455034500000
    },
    {
      "job_id": "farequote_count_and_responsetime_by_airline",
      "result_type": "influencer",
      "influencer_field_name": "airline",
      "influencer_field_value": "AWE",
      "airline": "AWE",
      "influencer_score": 0,
      "initial_influencer_score": 0,
      "probability": 0.0499957,
      "bucket_span": 300,
      "is_interim": false,
      "timestamp_string": "2016-02-09T16:15:00.000Z",
      "timestamp": 1455034500000
    }
  ]
}

输出包含影响航空公司 AAL 的结果，其“影响因素分数”为97.1547，反映了异常浏览器 UI 中显示的值（四舍五入到97 ）。6.56622 e-40 的“概率”值再次是“影响因素得分”的基础（在标准化之前）——它考虑了特定航空公司影响个别异常的概率，以及它影响这些异常的程度。

请注意，输出还包含 98.5096 的“initialinformaterscore”，这是处理结果时的分数，随后的标准化将该分数略微调整为 97.1547。出现这种情况的原因是，机器学习作业按时间顺序处理数据，并且再也不会回到重新读取旧的原始数据来再次分析/审核它。还要注意的是，第二个影响因素，航空公司 AWE，也被确定了，但是它的影响因素得分很低（四舍五入到 0 ），在实际意义上应该被忽略。

因为“influencer_score”是多个检测器之间的聚合视图，您会注意到 API 不会返回计数或响应时间平均值的实际值或典型值。如果您需要访问这些详细信息，那么它在记录结果的同一时间段内仍然可用，如前所示。

时段评分

评分异常的最后一个方法（在层次的顶端）是关注时间，特别是作业作业的 bucket_span。不寻常的事情发生在特定的时间，一个或多个（或多个）项目可能同时（在同一时段内）不寻常。

因此，时段的异常取决于几个因素：

该时段内出现的个别异常（记录）的幅度
该时段内出现的个别异常（记录）的数量。如果作业使用 byfields 和/或 partitionfields 进行“拆分”，或者如果作业中存在多个检测器，则可能会出现这种情况。

请注意，时段分数背后的计算比所有单个异常记录分数的简单平均值更复杂，但是每个时段中的影响因素分数会有贡献。

参考上一个示例中的机器学习作业，使用两个检测器：

技术，在 航空公司 上拆分/分区
平均（响应时间），在 航空公司 上分开/分区

当查看“异常浏览器”时， enter image description here

请注意，视图顶部“异常时间线”中的“整体”通道显示了时段的分数。然而，要注意。如果在 UI 中选择的时间范围很宽，但是机器学习作业的“bucket_span”相对较短，那么UI上的一个“标题”实际上可能是聚集在一起的多个存储体。

上面显示的所选切片的分数为 90，并且在这个时段中有两个关键的记录异常，每个检测器有一个记录分数为 98 和 95。

在时段级查询 API 时：

GET _xpack/ml/anomaly_detectors/farequote_count_and_responsetime_by_airline/results/buckets?human
{
  "start": "2016-02-09T16:15:00.000Z",
  "end" :"2016-02-09T16:20:00.000Z"
}

现提供以下信息:

{
  "count": 1,
  "buckets": [
    {
      "job_id": "farequote_count_and_responsetime_by_airline",
      "timestamp_string": "2016-02-09T16:15:00.000Z",
      "timestamp": 1455034500000,
      "anomaly_score": 90.7,
      "bucket_span": 300,
      "initial_anomaly_score": 85.08,
      "event_count": 179,
      "is_interim": false,
      "bucket_influencers": [
        {
          "job_id": "farequote_count_and_responsetime_by_airline",
          "result_type": "bucket_influencer",
          "influencer_field_name": "airline",
          "initial_anomaly_score": 85.08,
          "anomaly_score": 90.7,
          "raw_anomaly_score": 37.3875,
          "probability": 6.92338e-39,
          "timestamp_string": "2016-02-09T16:15:00.000Z",
          "timestamp": 1455034500000,
          "bucket_span": 300,
          "is_interim": false
        },
        {
          "job_id": "farequote_count_and_responsetime_by_airline",
          "result_type": "bucket_influencer",
          "influencer_field_name": "bucket_time",
          "initial_anomaly_score": 85.08,
          "anomaly_score": 90.7,
          "raw_anomaly_score": 37.3875,
          "probability": 6.92338e-39,
          "timestamp_string": "2016-02-09T16:15:00.000Z",
          "timestamp": 1455034500000,
          "bucket_span": 300,
          "is_interim": false
        }
      ],
      "processing_time_ms": 17,
      "result_type": "bucket"
    }
  ]
}

请特别注意，在输出中的下列项目：

异常分数 - 总的、标准化的分数（此处为90.7 ）
initial_anomaly_score - 时段被处理时的 anomaly_score（再次，以防以后的标准化改变了 anomaly_score 的原始值）。UI 中的任何地方都不会显示 “initialanomalyscore”。
bucket_informater - 此时段中存在的一系列影响因素类型。正如我们所猜测的那样，鉴于我们上面对影响因素的讨论，这个数组包含了 “influencerfieldname：航空公司” 和 “influencerfieldname：bucket_time” 的条目（总是作为内置影响因素添加）。如前所述，当人们专门针对影响因素或记录值查询 API 时，哪些特定影响因素值（即哪家航空公司）可用的详细信息。

使用异常分数进行警报

因此，如果有三个基本分数（一个是针对个人记录的，一个是针对影响因素的，一个是针对时段的），那么哪一个对警报有用？答案是，这取决于您试图实现的目标，以及您希望接收的警报的间隔和等级。

如果一方面，您试图检测和警告总体数据集随着时间的变化而出现的重大偏差，那么基于时段的异常评分可能对您最有用。如果您想在一段时间内对最不寻常的实体发出警告，那么您应该考虑使用 “influencerscore”。或者，如果您试图在一段时间内发现最不寻常的异常并发出警报，那么使用个人“recordscore” 作为报告或警报的基础可能会更好。

为了避免警报过载，我们建议使用基于时段的异常评分，因为它受速率限制，这意味着每个时段跨度您最多只会收到 1 个警报。另一方面，如果您只是于使用 “record_score” 发出警报，单位时间内异常记录的数量是任意的——可能有很多。如果使用个人记录分数发出警报，请记住这一点。

补充阅读:

上下文工程

向量数据库

Search AI 驱动的应用程序

日志

威胁防护

工作流

Elasticsearch

Kibana（Discover、仪表板）

Elastic 智能体生成器

自动操作

管道化查询语言

Jina AI 搜索模型

Elastic Cloud Serverless

Elastic Cloud 托管

自管型 Elasticsearch

电子商务搜索

客户服务搜索

搜索驱动型应用程序

日志分析

基础架构监测

数字体验监测

应用性能监控

AIOps

LLM 可观测性

新一代 SIEM

安全工作流

XDR 和终端安全

面向安全的 AI

实现数据价值十倍跃升

云服务提供商

Elastic AI 生态系统

Search AI 合作伙伴计划

AV-Comparatives

Forrester Wave™ XDR

Gartner 魔力象限领导者

IDC MarketScape

Search

安全性

可观测性

开始使用

演示库

下载

集成

文档

Elasticsearch Labs

Elastic 安全实验室

Elastic 可观测性实验室

博客

社区

活动

网络研讨会

讨论

培训

支持

咨询

机器学习异常评分和 Elasticsearch —— 背后的原理

记录评分

影响因素评分

时段评分

使用异常分数进行警报