발자취 살펴보기: SIEM의 생성적 AI 혁명

사이버 보안 영역은 물리적 공간을 반영하며 보안 운영 센터(SOC)는 디지털 경찰서 역할을 합니다. 사이버 보안 분석가는 경찰과 같아서 사이버 범죄자들이 조직에 대한 공격을 시도하지 못하도록 억제하거나, 만약 시도할 경우 그들을 저지하는 역할을 합니다. 공격이 발생하면 사고 대응팀은 디지털 탐정 역할을 하여 여러 출처에서 단서를 모아 사건의 순서와 세부 사항을 파악한 후 복구 계획을 수립합니다. 이를 위해 팀은 수많은 제품(때로는 수십 개)을 결합하여 공격의 전체 범위를 파악하고, 비즈니스에 피해와 손실이 발생하기 전에 위협을 막을 방법을 찾아냅니다.
사이버 보안의 초창기에 분석가들은 증거를 중앙 집중화하면 디지털 조사가 더 원활해진다는 사실을 깨달았습니다. 중앙 집중화가 없이는 앞서 언급된 제품들 각각에서 필요한 데이터를 개별적으로 수집하느라 로그 파일에 접근 요청을 하거나 영향을 받은 시스템에서 정보를 수집하고, 이 분산된 데이터를 수작업으로 연결하는 것에 대부분의 시간을 소비해야 했습니다.
포렌식 업무를 할 때 ‘log2timeline’이라는 도구를 사용했던 기억이 납니다. 이 도구는 데이터를 시계열 형식으로 정리하고 파일 생성, 로그온 등 활동 유형별로 색상을 구분했습니다. 초기 SANS 교육 과정에서는 이 도구의 강력함과 분석을 위한 전반적인 타임라인 작성의 중요성을 가르쳤습니다. 이 도구는 데이터를 ‘슈퍼’ 타임라인으로 정렬하는 엑셀 매크로에 불과했지만 방대한 데이터를 정리할 수 있는 간단한 방법을 제공했기에 혁신적이었습니다. 다만, 결과물을 얻기까지는 오랜 시간 이 걸렸습니다.
이제 형사들이 범죄 현장에 접근하기까지 며칠을 기다려야 하거나 증거가 있는 방에 접근하기 위해 권한을 가진 적절한 사람을 찾아야 하는 상황을 한번 상상해 보세요. 이것이 바로 사이버 보안 분석가의 일상이라고 할 수 있습니다.

SOC(보안 운영 센터)에서 근무할 때 선임 분석가들이 분석 작업에 투자하는 시간이 너무 적다는 사실이 특히나 의외였습니다. 대부분의 시간은 데이터 소스를 추적하고 관련 정보를 찾고 로그를 뒤져 관련 정보를 추출하는 등 데이터 관리에 소비되었습니다.
2000년대 초반, 보안 팀을 위해 '보안 로그'를 중앙에서 관리할 수 있는 제품들이 등장했습니다. 이 기술은 빠르게 SOC의 필수 요소가 되었고 몇 차례의 명칭 변화 끝에 결국 보안 정보 및 이벤트 관리 (SIEM)라는 이름으로 불리게 되었습니다. 이 제품은 데이터에 대한 혼란을 해소하고 팀이 조직의 보안 관련 정보를 중앙에서 저장하고 분석할 수 있는 장소를 제공하겠다는 약속을 했습니다. 세 파트로 이루어진 시리즈의 첫 번째 파트에서는 SIEM 진화의 초기 세 가지 주요 단계를 다루어 보겠습니다.

SIEM 1.0 — 2000년대 초반
운영 수집 및 규정 준수
초기 보안 로그 수집의 형태는 SEM(보안 이벤트 관리) 또는 SIM(보안 정보 관리)으로 정의됩니다. 이 시스템은 시스템 활동의 디지털 기록인 로그 데이터와 이벤트 데이터를 결합하여 수집했습니다. 이제 분석가들은 디지털 범죄를 해결하는 데 필요한 데이터가 포함된 시스템을 통제할 수 있게 되었기 때문에 이는 분석가들에게 획기적인 전환점이 되었습니다. 기본적으로 보안팀은 이제 자체 데이터 사일로를 갖게 된 것입니다. 이 제품 혁신은 포렌식 로그를 유지하고 감사관 및 조사관에게 실제로 이러한 로그가 수집되고 있음을 입증할 수 있어야 하는 등 어떤 일이 발생할 경우를 대비해 데이터를 수집해야 할 필요성에서 비롯되었습니다. 이 규정 준수 사용 사례는 중앙 보안 이벤트 수집의 도입을 촉진했습니다.
이 새로운 유형의 제품에는 여러 가지 어려움이 있었습니다. SOC는 이제 대량의 데이터를 관리할 보안 엔지니어가 필요하게 되었습니다. 또한 여러 다른 시스템에서 데이터를 복사하여 단일화된 중앙 시스템으로 통합했기 때문에 이 정보를 수집하고 저장할 예산도 필요했습니다. 하지만 비즈니스 전반에서 데이터를 수집하고 분류하는 데 소요되는 시간을 단축하여 탐지 및 문제 해결을 가속화할 수 있다는 이점은 분명했습니다. 공격에 대한 알림을 받으면 사고 대응팀은 거의 즉시 작업에 착수할 수 있었습니다.
SIEM 2.0 - 2010년대
수집을 기반으로 하는 탐지
다음 단계는 중앙 집중화된 SIEM 계층에서 탐지 로직을 적용하는 것이었습니다. 기존의 SIEM은 SEM의 이벤트 데이터와 SIM의 정보 데이터를 결합한 형태였습니다. SEM/SIM의 규정 준수 및 증거 수집 기능은 강력했지만, 데이터를 수집하고 검토하는 데만 거의 10년을 보낸 분석가들은 중앙화된 정보를 통해 훨씬 더 많은 일을 할 수 있다는 것을 깨달았습니다. 단순히 다른 시스템에서 경보를 통합하고 수집된 로그와 이벤트에 대한 중앙 기록 시스템을 제공하는 것에 그치지 않고, 이제 SIEM은 여러 데이터 소스에서 분석을 가능하게 했습니다. 탐지 엔지니어는 안티바이러스나 네트워크 방화벽처럼 단일 데이터 소스만 분석하는 포인트 솔루션에서 놓칠 수 있는 위협을 포착하는 등 새로운 관점에서 작업할 수 있게 되었습니다.
이러한 진화에는 많은 도전 과제가 따랐습니다. 실무 전문가와 사전 구축된 규칙에 대한 필요성이 더 커졌을 뿐만 아니라 SIEM은 여러 포인트 솔루션에서 경고를 중앙에서 수집했는데, 각각의 솔루션이 자체적으로 많은 오탐지를 발생시키면서 문제를 악화시켰습니다. SIEM 분석가는 네트워크와 데스크톱에서 발생하는 경고를 모두 검토해야 했습니다. 이는 SIEM 분석가들이 자주 던지는 질문인 '어디서부터 시작해야 할까?'와 SIEM 자체에서 생성되는 완전히 새로운 탐지 경고 세트를 가져왔습니다. 이제 SIEM은 네트워크 내 다른 시스템의 모든 경고뿐만 아니라 일반적으로 생성되는 경고의 총합을 포함하게 되었으며, 이는 말할 것도 없이 매우 부담스러운 일이었습니다.
머신 러닝의 약속
머신러닝(ML)은 유지보수를 줄이면서도 알려지지 않은 위협을 탐지하는 능력을 향상시킬 것을 약속했습니다. 목표는 모든 위협을 찾기 위해 하드코딩된 규칙에 의존하기보다는 비정상적인 행동을 식별하는 것이었습니다.
ML이 도입되기 전에는 탐지 엔지니어가 이미 발생한 공격이나 발생할 수 있는 공격(자체 연구를 통해 얻은 정보)을 분석하고, 그러한 잠재적 발생에 대한 탐지 방법을 작성해야 했습니다. 예를 들어 Windows 프로세스에 전송된 특정 인수를 악용하는 공격이 발견된 경우 이러한 인수를 실행 시 호출하는 규칙을 작성할 수 있었습니다. 하지만 공격자는 이러한 취약한 감지를 피하기 위해 단순히 인수의 순서를 바꾸거나 다른 방식으로 호출할 수 있었습니다. 게다가 해당 인수의 정당한 사용 사례가 있을 경우 이러한 오탐지를 탐지 로직에서 제거하는 데 며칠(혹은 몇 주)이 걸릴 수 있었습니다.
머신러닝은 특히 다음과 같은 두 가지 방식으로 이 문제를 크게 줄일 것을 약속했습니다.
'비지도' ML 기반 이상 탐지: 분석가는 로그인, 프로세스 실행, S3 버킷 접근 등 알려지지 않은 동작을 찾을 영역만 결정하면 되었습니다. 그러면 ML 엔진이 이러한 영역에서 정상적인 행동을 학습하고, 비정상적인 부분에 플래그를 지정했습니다. SANS DFIR는 2014년에 '비정상을 알면 악을 찾을 수 있다.'라는 유명한 포스터를 만들었습니다.
- 훈련된 또는 '지도된' ML 모델: 인간 분석가는 어떤 현상을 관찰하고 그것이 이전에 관찰된 공격과 어떻게 유사한지를 직관적으로 연결할 수 있습니다. 이러한 전문가는 공격이 어떻게 진행되었는지를 배우고 해당 지식을 적용하여 유사한 진행 상황을 따르는, 알려지지 않은 공격을 찾을 수 있습니다. 전통적으로 그들은 보안 제품이 놓쳤을 수 있는 위협을 찾는 데 도움이 되도록 위협 헌팅에 이러한 전문 지식을 사용했습니다. 이제 머신러닝을 통해 이들은 이전 공격에서 학습하고 유사한 방식으로 진행되는 새로운 공격을 찾을 수 있는 훈련된 모델 탐지를 만들 수 있게 되었습니다. 해시, 파일 내 문자열, URL과 같은 원자적 지표에만 의존하지 않을 뿐만 아니라 동작에 초점을 맞춤으로써 더 오래 지속되는 탐지와 공격 탐지율이 높은 탐지를 가능하게 합니다.

비정상 활동 식별 또는 이상값 분석을 통해 보안팀은 '이상한' 활동을 신속하게 식별하고 조사할 수 있었습니다. 이상한 시간대에 이상한 위치에서 로그인하는 사용자일 수도 있고, 때로는 도용된 자격 증명을 사용하여 네트워크에 접근하는 공격자일 수도 있습니다. 하지만 때로는 휴가 중인 샐리가 새벽 2시에 네트워크 문제를 해결하기 위해 로그인한 경우일 수도 있었습니다. 오탐지 수가 증가하긴 했지만 이전에 밝혀지지 않았던 새로운 위협을 발견할 수 있다는 점은 오탐지를 분류하는 데 추가적인 도움을 투입할 충분한 이유가 되었습니다. 사용자 및 엔터티 행동 분석(UEBA)의 시대가 열렸고, 최신 SIEM은 규칙 기반 탐지 기술과 머신 러닝 탐지 기술을 기반으로 합니다.
사후 대응에서 사전 예방으로 전환
앞서 살펴본 것처럼 SIEM은 실제 엔드투엔드 솔루션이라기보다는 문제에 대한 과거 기록에 가까웠습니다. SIEM은 문제를 경고할 수 있었지만 그 문제를 해결하는 것은 사용자의 몫이었습니다. 이는 SOAR( 보안 오케스트레이션, 자동화, 대응)의 등장으로 바뀌었습니다. 이 새로운 제품군은 SIEM의 기능 격차를 메우기 위해 만들어졌습니다. SOAR은 분석가가 해결을 위해 수행하고자 하는 단계들을 수집하고 구성할 수 있는 장소를 제공했으며 생태계 내의 다른 시스템과 연결하여 대응을 시작할 수 있도록 했습니다. 경찰서 비유를 사용하자면 SOAR은 다른 모든 시스템에 명령을 실행하도록 지시하는 교통 경찰과 같았습니다. 이는 SIEM에서의 공격 발견을 다른 시스템의 대응 조치로 연결하는 접착제 역할을 했습니다.
UEBA와 마찬가지로 중앙 위치에서 대응 계획을 구성하고 조치를 시작할 수 있는 기능은 최신 SIEM의 기대치가 되었습니다. 이제 SIEM 2.0 수명 주기에서 SIEM은 조직 전반의 데이터를 대규모로 수집하고(0세대) 포인트 솔루션이 놓쳤을 수 있는 새로운 위협을 탐지하며 규칙 기반 및 머신러닝 기반 기술(SIEM 1.0)을 사용하여 서로 다른 시스템 간의 상관 관계를 파악하고, 대응 계획(2.0)의 수립 및 실행을 가능하게 할 수 있을 것으로 예상됩니다. 실제로 공격의 전체 범위를 처리할 수 있는 능력을 포착하기 위해 새로운 약어인 TDIR(위협 탐지, 조사 및 대응)이 만들어졌습니다.
SIEM 3.0 - 2023년 이후
사이버 보안의 생성형 AI 혁명
SIEM은 근본적인 문제인 사이버 보안의 심각한 기술 부족을 해결하지 못했음에도 불구하고 SOC의 위협 탐지, 분류 및 조사에 있어 핵심적인 역할을 하게 되었습니다. 2023년 3월, IBM의 의뢰로 Morning Consult가 실시한 연구에 따르면 SOC 팀원들은 '일반적인 근무 내에 검토해야 할 경고의 절반만 처리하고 있다'고 합니다. 이는 경고의 50%를 놓치고 있다는 의미입니다. 워크플로를 간소화하고 일상적인 작업을 자동화하며 주니어 분석가를 지원하는 등 수십 년간 점진적으로 개선해 왔지만 충분하지는 않았습니다. 사이버 보안 분야에 대한 전문 지식을 가진 생성형 인공지능 모델이 소비자들에게 접근 가능해짐에 따라, 이 상황은 빠르게 변하고 있습니다.
SIEM은 전통적으로 시스템 관리자의 역할에 크게 의존해 왔습니다. 알림 처리, 대시보드 구성, 위협 추적은 모두 사람의 손길이 많이 필요한 작업입니다. 초기의 AI 시도조차도, 예를 들어 AI 코파일럿 같은 경우에는 분석가가 이를 효과적으로 활용할 수 있는 능력에 의존하곤 했습니다. 이러한 혁신은 AI가 분석가를 대신하여 작동하면서 '대화'가 필요 없게 될 때 이루어질 것입니다. 시스템이 모든 데이터를 선별하여 관련 없는 것은 무시하고 중요한 것을 식별하며, 특정 공격을 발견하고 구체적인 대응책을 마련한다고 상상해 보세요. 이를 통해 전문가는 비즈니스에 미치는 영향을 막는 데 집중할 수 있게 됩니다.
생성형 AI의 적용
기술이 처음으로 시니어 분석가에게서 배운 지식을 주니어 멤버에게 자동으로 전수하고 있습니다. 이제 보안 전문가들이 생성형 AI를 통해 조직에 특화된 대응 계획을 개발하고 위협의 우선순위를 지정합니다. 또한 탐지 보고서를 작성 및 큐레이션하고 문제를 디버깅하며 기타 반복적이고 시간이 많이 소요되는 작업을 처리하는 데 도움을 줍니다. 생성형 AI는 SOC로의 피드백 루프를 자동화하여 매일 지속적으로 개선할 수 있도록 지원합니다. 이제 이러한 자동화된 피드백과 학습을 통해 OODA 루프를 완성할 수 있게 되었습니다.
대형 언어 모델, 즉 생성형 AI의 과학적 기반 덕분에, 우리는 이제 기술을 활용하여 수많은 데이터 포인트를 인간처럼 추론할 수 있게 되었습니다. 하지만 그 규모는 더 크고, 속도는 더 빠르며, 이해도는 더욱 폭넓습니다. 또한 사용자는 코드나 수학식 대신 자연어로 대규모 언어 모델과 상호 작용할 수 있어 도입 장벽을 한층 낮출 수 있습니다. 분석가가 '내 데이터에 우리 조직에 위험을 초래할 수 있는 활동이 포함되어 있는가?'와 같은 질문을 자연어로 할 수 있는 시대는 처음입니다. 이는 이제 모든 SOC 구성원이 활용할 수 있도록 SIEM에 통합될 수 있는 기능에서 전례 없는 도약을 의미합니다. 생성형 AI는 강력하고 정확한 디지털 SOC 어시스턴트로 자리 잡았습니다.
보안 운영 워크플로에 AI 혁신을 도입한 제품들이 SIEM 3.0을 실현할 것입니다.
SIEM의 진화에 대해 자세히 알아보기
해당 블로그 게시물에서는 중앙에서 데이터를 수집하는 것에서 시작하여 조직 차원의 위협 탐지, 그 이후 대응 속도를 높이기 위한 자동화와 오케스트레이션 단계에 이르기까지 SIEM의 진화에 대해 살펴봤습니다. 현재 SIEM 기술의 세 번째 단계에서, 우리는 마침내 사이버 보안의 심각한 기술 부족 문제를 해결하고 있습니다.
이 시리즈의 두 번째 파트에서는 Elastic Security가 TDIR에서 세계 최초이자 유일한 AI 기반 보안 분석 제품으로 진화하는 과정을 다룰 예정입니다. 그 사이에, 보안 전문가들이 생성형 AI의 등장에 어떻게 반응했는지를 다룬 전자책 '사이버 보안을 위한 생성형 AI: 낙관적이지만 불확실한 미래(Generative AI for Cybersecurity: An Optimistic but Uncertain Future)'를 통해 더 많은 정보를 얻으실 수 있습니다. 두 번째 파트도 기대해 주세요!
이 게시물에서 설명된 기능이나 성능의 출시와 일정은 Elastic의 단독 재량에 따라 결정됩니다. 현재 제공되지 않는 기능이나 성능은 예정된 시간에 출시되지 않을 수도 있으며 아예 제공되지 않을 수도 있습니다.
해당 블로그 게시물에서는 타사 생성형 AI 도구를 사용하거나 언급했을 수 있으며 이러한 도구는 각각의 소유자가 소유하고 운영합니다. Elastic은 이러한 타사 도구에 대한 어떠한 통제권이 없으며 해당 도구의 콘텐츠, 운영, 사용뿐만 아니라 사용으로 인해 발생할 수 있는 손실이나 손해에 대해 어떠한 책임도 지지 않습니다. 개인 정보, 민감한 정보 또는 기밀 정보를 AI 도구와 함께 사용할 때는 주의하시기 바랍니다. 제출된 모든 데이터는 AI 학습이나 기타 목적으로 사용될 수 있습니다. 제공한 정보가 안전하게 보호되거나 비밀로 유지된다는 보장은 없습니다. 생성형 AI 도구를 사용하기 전에 해당 도구의 개인정보 보호 관행과 이용 약관을 숙지하시기 바랍니다.
Elastic, Elasticsearch, ESRE, Elasticsearch Relevance Engine 및 관련 마크는 미국 및 기타 국가에서 Elasticsearch N.V.의 상표, 로고 또는 등록 상표입니다. 기타 모든 회사 및 제품 이름은 해당 소유자의 상표, 로고 또는 등록 상표입니다.