歴史をたどる:SIEMにおける生成AI革命

サイバーセキュリティの領域は物理的な空間を反映しており、セキュリティオペレーションセンター(SOC)はデジタル警察の役目を果たします。サイバーセキュリティアナリストは警察官のようなもので、サイバー犯罪者による組織の攻撃を抑止したり、サイバー犯罪者による攻撃の試みを阻止したりするために働きます。攻撃が発生すると、インシデント対応担当者はデジタル探偵のように、さまざまな情報源から手がかりを集め、事象の順序や詳細を特定した上で、修復計画を策定します。この目標を達成するために、チームは多数の(時には数十の)製品を組み合わせて攻撃の全容を把握し、ビジネスに損害や損失が発生する前に脅威を阻止する方法を特定します。
サイバーセキュリティの草創期において、アナリストは証拠を一元化することでデジタル調査が合理化されることに気付きました。そうしないと、前述の製品から必要なデータを個別に収集することにほとんどの時間を費やすことになります。ログファイルへのアクセスを要求し、影響を受けるシステムをスクレイピングして情報を入手し、この異なるデータを手動でまとめなくてはなりません。
フォレンジックの仕事をしていた頃、「log2timeline」というツールを使っていたのを覚えています。このツールはデータを時系列形式で整理するもので、ファイルの作成、ログオンなどのアクティビティの種類ごとの色分もしていました。初期のSANSトレーニングコースでは、このツールの威力と、分析に用いるタイムライン全般について教えられました。これは文字通り、データを機能豊富なタイムラインに分類するExcelマクロだったのです。これは革命的で、大量のデータを簡単に整理する方法を提供しましたが、タイムラインの作成には長い時間がかかりました。
さて、探偵が犯罪現場にアクセスするまで何日も待たなければならなかったり、許可を与える適切な人物が見つかるまで証拠のある部屋に入れなかったりといったことを想像してみてください。それがサイバーセキュリティアナリストの日常です。

SOCでのキャリアの中で常に驚きだったのは、シニアアナリストが分析作業に費やす時間がいかに少ないかということです。ほとんどの時間は、データソースの追跡やログからの関連情報選別などといったデータの管理に費やされていました。
2000年代初頭、セキュリティチーム向けに「セキュリティログ」を一元管理する製品が登場しました。この製品はすぐにSOCの定番となり、その名称は変遷の末、最終的にセキュリティ情報およびイベント管理(SIEM)と呼ばれるようになりました。この製品は、データを取り巻く霧を晴らし、組織のセキュリティ関連情報を一元的に保存および分析できる場をチームに提供すると期待されていました。この3部構成のシリーズの第1部では、SIEMの進化のうち、最初の3つの主要なフェーズについて説明します。

SIEM 1.0 — 2000年代初頭
運用収集とコンプライアンス
このセキュリティログ収集の最初のサイクルは、SEM(セキュリティイベント管理)またはSIM(セキュリティ情報管理)と定義されました。これは、イベントデータと、ログデータ、すなわちシステムアクティビティのデジタル記録を合わせたものを収集するものです。これはアナリストにとって革新的なことでした。これにより、デジタル犯罪の解決に必要なデータを含むシステムを管理できるようになったためです。基本的に、セキュリティチームは独自のデータサイロを持つようになりました。この製品革命は主に、何かあった場合に備えてデータを収集する必要によって推進されました。たとえば、フォレンジックログを保守したり、これらのログが実際に収集されていることを監査人や調査員に証明したりといったことです。このコンプライアンスのユースケースが、一元的なセキュリティイベント収集の採用を後押ししました。
この新しいタイプの製品には課題がありました。SOCでは、大量のデータを管理するためにセキュリティエンジニアが必要になりました。また、多数のシステムから巨大で一元化されたシステムにデータをコピーしていたため、この情報を収集して保存するための予算も必要でした。しかし、そのメリットは明らかです。全社的なデータを収集し、それを分類するために費やす時間を削減することで、検出と修復が加速されます。攻撃の通知を受けると、インシデント対応者はほぼ即座に作業を開始できるのです。
SIEM 2.0 - 2010年代
検出は収集に基づいて行われる
次の進歩は、一元化されたSIEMレイヤーに検知ロジックを適用することです。SIEMとは、SEM内のイベントデータと SIM内の情報データを組み合わせたものでした。SEM/SIMのコンプライアンスと証拠収集力は強力でしたが、データ収集とレビューだけを行ってほぼ10年経た後に、アナリストは一元化された情報によってはるかに多くのことができることに気づきました。SIEMでは、他のシステムからのアラートを単に統合し、収集されたログとイベントを記録する中央システムを提供するだけでなく、多くのデータソースをまたいだ分析も可能になりました。検知エンジニアは、新しい視点から作業を行えるようになったのです。ウイルス対策やネットワークファイアウォールなどの、1 つのデータソースのみを分析するポイントソリューションでは見逃されていた可能性のある脅威も発見できるようになりました。
この進化には多くの課題が伴いました。対象分野の専門家と事前構築されたルールの必要性が高まったことに加え、SIEMは多数のポイントソリューションからアラートを一元的に収集していましたが、各ポイントソリューションはそれぞれ大量の誤検知を生成して問題を悪化させていました。SIEMアナリストは、ネットワークとデスクトップのアラートをまとめて確認する必要がありました。その結果、SIEMアナリストからよく聞かれる質問は、「どこから手を付ければいいのですか?」というものでした。また、SIEM自体からも、まったく新しい一連の検知アラートが生成されました。SIEMには、ネットワーク内の他のすべてのシステムアラートを合わせたものに加えて、通常生成されるアラートも含まれるようになったのです。言うまでもなく、これは圧倒的な量でした。
機械学習の可能性
機械学習(ML)は、維持管理の必要性を抑えながら、未知の脅威の検出を改善すると期待されていました。目標は、すべての脅威を見つけるためのハードコードされたルールに依存するのではなく、異常な動作を特定することでした。
MLの登場以前、検出エンジニアは、すでに発生した攻撃や(ファーストパーティの調査により)発生する可能性のある攻撃を分析し、その潜在的な発生に対する検知を作成する必要がありました。たとえば、Windowsのプロセスに送信される特定の引数を利用する攻撃が発見された場合、実行時に呼び出されるそれらの引数を探すルールを作成します。しかし攻撃者は、単に引数の順序を変更したり、別の方法で呼び出したりして、この脆弱な検知を回避できます。そして、そうした引数に正しい使い方がある場合は、これらの誤検知を検出ロジックから排除するためには何日も、あるいは何週間もの調整が必要です。
機械学習は、具体的には次の2つの方法でこの課題を大幅に軽減すると期待されていました。
「教師なし」MLベースの異常検知:アナリストは、ログイン、プロセス実行、S3バケットへのアクセスなど、未知の動作を探す領域を決定するだけで済みました。次に、MLエンジンはこれらの領域の通常の動作を学習し、異常なものにフラグを立てます。SANS DFIRは2014年に有名なポスターを作製しました。その中にはこう書かれています。「異常を知り...悪者を見つけろ」
- トレーニング済みまたは「教師あり」 ML モデル:人間のアナリストは何かを見ると、以前観察された攻撃と似ている点を脳が結び付けることができます。アナリストは攻撃方法を学習して、その知識を同じように進行する攻撃にその知識を適用できます。従来は、この知見を脅威ハンティングに用いて、セキュリティ製品が見逃した可能性のある脅威の発見に役立てていました。それが今や機械学習を用いることで、以前の攻撃を学習して、その攻撃方法と類似した新しい攻撃を発見できる、トレーニング済みモデル検出を作成できるようになったのです。ハッシュ、ファイル内の文字列、URLなどの細かいインジケーターだけでなく、動作に焦点を当てることで、検出の有効期間が長くなり、攻撃の検出率が向上します。

異常なアクティビティの特定、つまり外れ値分析により、セキュリティチームは「奇妙な動作」を迅速に特定して調査できるようになりました。奇妙な動作とは、たとえばユーザーが奇妙な場所から奇妙な時間にログインしたということです。これは、攻撃者がネットワークにアクセスするための資格情報を盗んだことによるものかもしれません。しかし、休暇中のサリーが午前2時にネットワークの問題を解決するためログインしていたということもあるでしょう。誤検知は増加しましたが、以前は発見されなかったまったく新しい脅威を発見できることは、誤検出のトリアージを推し進める理由として十分でした。ユーザーとエンティティの行動分析(UEBA)の時代が幕を開けたのです。最新のSIEMはルールベースと機械学習の両方の検知テクノロジーを活用しています。
リアクティブからプロアクティブへの移行
これまで見てきたように、SIEMは実際のエンドツーエンドのソリューションというより、問題の履歴レポートでした。SIEMが問題を警告することはできても、それを解決するのはユーザー自身ということです。この状況を変えたのは、SOAR( セキュリティオーケストレーション、自動化、対応)の登場です。この新製品は、SIEMの機能における溝を埋めるために作られました。SOARは、アナリストが修復のために実行するステップを収集・整理する場所と、対応を開始するためにエコシステムの他の部分へのコネクターを提供します。警察署に例えると、SOARは他のシステムにコマンドを実行させる交通警官のようなものです。他のすべてのシステムにコマンドを実行させるSOARは、SIEMにより発見した攻撃を他のシステムによる対応アクションとつなげる接着剤の役割を果たします。
UEBAと同様に、対応計画をまとめて、中央からアクションを開始する機能が、最新のSIEMに期待されるようになっています。現在はSIEM 2.0のライフサイクルにあり、SIEMは組織全体で大規模にデータを収集して(.gen 0)、ポイントソリューションが見逃している可能性のある新たな脅威を検出し、ルールベースと機械学習ベースの両方のテクノロジーを使用して異種システム間を関連付け(SIEM 1.0)、対応計画の立案と実行を可能にする(2.0)ことが期待されています。実際、TDIR(脅威検知、調査、対応)という新しい略語は、攻撃の全範囲を扱う能力を表す造語です。
SIEM 3.0 — 2023年以降
サイバーセキュリティにおける生成AI革命
SIEMは、SOCにとって脅威検出、トリアージ、調査の基盤となっていますが、サイバーセキュリティの深刻なスキル不足という根本的な課題には対処できていません。IBMが委託しMorning Consult 実施した2023年3月の調査によると、では、SOCチームメンバーは「通常の勤務日で確認することになっているアラートの半分しか確認できていない」ことがわかりました。これは見えない部分が50%あるということです。ワークフローの簡素化、定型的な手順の自動化、ジュニアアナリストの指導など、数十年にわたる改善の積み重ねは役立っていますが、十分ではありません。消費者が利用できる、サイバーセキュリティの専門知識を備えた生成人工知能モデルの登場により、この状況は急速に変化しています。
SIEMは従来、画面の背後にいる人間に大きく依存してきました。アラート、ダッシュボード、脅威ハンティングにはすべて多くの人が必要です。AIコパイロットのような初期のAIの取り組みでさえ、これらのコパイロットを効果的に使用できるかはアナリストの能力にかかっていました。生成AI革命は、AIがアナリストに代わって動作し、「チャット」の必要がなくなるときに起こります。システムがすべてのデータをふるいにかけ、無関係なデータを無視して重要なものを特定し、特定の攻撃を発見し、特定の修復策を講じ、ひいては専門家がこうした作業から解放されてビジネスへの影響を食い止めることのみに集中できるようになることを想像してみてください。
生成AIの適用
史上初めて、テクノロジーがシニアアナリストから学習し、その知識を若手メンバーに自動的に伝達するようになってきています。生成AIは、セキュリティ担当者が組織固有の修復計画を策定し、脅威に優先順位を付け、検出したものを記述して整理し、問題をデバッグし、その他の日常的で時間のかかるタスクに取り組むために役立ちます。生成AIにより、SOC へのフィードバックループを自動化し、日々の継続的な改善を可能にします。この自動化されたフィードバックと学習により、OODAループを完結させることができます。
大規模言語モデル(生成AIの背景技術)の性質により、ようやくテクノロジーを活用して、より多くのデータポイントにわたって推論できるようになりました。これは人間が行うのと似ていますが、より大規模、高速、そして広い知識があります。さらに、ユーザーはコードや数学ではなく自然言語で大規模言語モデルと対話できるため、採用への障壁はさらに低くなります。アナリストが「私のデータには、組織にリスクをもたらしかねない領域のアクティビティが含まれていますか?」などといった自然言語で質問できるようになったことはかつてありませんでした。これは、SOCのすべてのメンバーのために今後SIEMに組み込むことができる機能という点で、これまでにない飛躍的な進歩です。生成AIは強力で正確なデジタルSOCアシスタントになりました。
セキュリティ運用ワークフローにおけるAI革命を活用する製品は、SIEM 3.0を実現します。
SIEMの進化についてさらに詳しく
このブログ投稿では、データの一元的な収集から組織レベルでの脅威検知、そして修復を迅速化するための自動化やオーケストレーションに至るまで、SIEMの進化について説明しました。 現在、SIEMテクノロジーは第3フェーズにあり、サイバーセキュリティにおける深刻なスキル不足にようやく取り組んでいるところです。
このシリーズのパート2では、Elastic SecurityがTDIRから世界初かつ唯一のAIを活用したセキュリティ分析サービスへと進化した経緯について説明します。ところで、セキュリティ専門家が生成 AIの出現にどのように反応したかについては、電子書籍「Generative AI for cybersecurity: An optimistic but uncertain future」で詳しく知ることができます。パート2もお楽しみに!
本記事に記述されているあらゆる機能ないし性能のリリースおよびタイミングは、Elasticの単独裁量に委ねられます。現時点で提供されていないあらゆる機能ないし性能は、すみやかに提供されない可能性、または一切の提供が行われない可能性があります。
このブログ記事では、それぞれのオーナーが所有・運用するサードパーティの生成AIツールを使用したり、参照したりしている可能性があります。Elasticはこれらのサードパーティのツールについていかなる権限も持たず、これらのコンテンツ、運用、使用、またはこれらのツールの使用により生じた損失や損害について、一切の責任も義務も負いません。個人情報または秘密/機密情報についてAIツールを使用する場合は、十分に注意してください。提供したあらゆるデータはAIの訓練やその他の目的に使用される可能性があります。提供した情報の安全や機密性が確保される保証はありません。生成AIツールを使用する前に、プライバシー取り扱い方針や利用条件を十分に理解しておく必要があります。
Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine、および関連するマークは、米国およびその他の国におけるElasticsearch N.V.の商標、ロゴ、または登録商標です。他のすべての会社名および製品名は、各所有者の商標、ロゴ、登録商標です。