Trazando la historia: la revolución de la IA generativa en SIEM

El dominio de la ciberseguridad refleja el espacio físico, con el centro de operaciones de seguridad (SOC) actuando como su departamento de policía digital. Los analistas de ciberseguridad son como la policía, ya que trabajan para disuadir a los ciberdelincuentes de intentar ataques a su organización o detenerlos en seco si lo intentan. Cuando se produce un ataque, los equipos de respuesta a incidentes, similares a los detectives digitales, reúnen pistas de muchas fuentes diferentes para determinar el orden y los detalles de los eventos antes de crear un plan de corrección. Para lograr este objetivo, los equipos unen numerosos (a veces docenas) de productos para determinar el alcance total de un ataque e identificar cómo detener la amenaza antes de que se produzcan daños y pérdidas en su negocio.

En los primeros días de la ciberseguridad, los analistas se dieron cuenta de que centralizar las pruebas agiliza las investigaciones digitales. De lo contrario, pasarían la mayor parte de su tiempo tratando de recopilar los datos necesarios de los productos antes mencionados por separado, aplicar acceso a los archivos de registro, raspando los sistemas afectados para obtener información y luego uniendo estos datos dispares manualmente.

Recuerdo usar una herramienta en mis días forenses llamada "log2timeline" para organizar los datos en un formato de serial temporal que también estaba codificado por colores para el tipo de actividad, como la creación de archivos, el inicio de sesión, etc. Los primeros cursos decapacitación de SANS mostraron el poder de esta herramienta y la línea de tiempo en general para el análisis. Se trataba literalmente de una macro de Excel que clasificaría los datos en una "súper" línea de tiempo. Fue revolucionario, ya que proporcionó una forma sencilla de organizar tantos datos, pero tardó mucho tiempo en producir. 

Ahora, imaginar si los detectives tuvieran que esperar días antes de acceder a la escena del crimen o si la evidencia en una habitación estuviera fuera de su alcance hasta que pudieran encontrar a la persona adecuada para proporcionar licencias. Así es la vida de un analista de ciberseguridad.

1 - Resolver crímenes con acceso limitado a las pruebas es una propuesta perdedora
Resolver crímenes con acceso limitado a la evidencia es una propuesta perdedora

Durante mi carrera en SOC, me sorprendía continuamente el poco tiempo que los analistas sénior dedicaban al trabajo analítico. La mayor parte de su tiempo se dedicó a la gestión de datos, como la búsqueda de fuentes de datos y la selección de registros para obtener la información relevante.

A principios de la década de 2000, surgieron productos para centralizar los "registros de seguridad" para el equipo de seguridad. Esta tecnología se convirtió rápidamente en un elemento básico en el SOC y (luego de algunas evoluciones de nomenclatura) finalmente se llamó gestión de eventos e información de seguridad (SIEM). Este producto prometía levantar la niebla que rodeaba a nuestros datos, dando a los equipos un lugar central para almacenar y analizar la información relacionada con la seguridad de sus organizaciones. En la primera parte de este serial de tres partes, cubriremos las tres primeras fases principales de la evolución de SIEM.

2 - La evolución del SIEM a lo largo de dos décadas
La evolución de SIEM a lo largo de dos décadas

SIEM 1.0 — Principios de la década de 2000

Recopilación operativa y cumplimiento

Esta iteración inicial de la recopilación de registros de seguridad se definió como SEM (administración de eventos de seguridad) o SIM (administración de información de seguridad). Recopilaba una combinación de datos de registro, o los registros digitales de la actividad del sistema, junto con datos de eventos. Esto cambió las reglas del juego para los analistas, ya que ahora tenían un sistema bajo su control que contenía los datos necesarios para resolver el crimen digital. Básicamente, los equipos de seguridad ahora tenían su propio aislamiento de datos. Esta revolución de los productos fue impulsada principalmente por la necesidad de recopilar datos en caso de que algo sucediera, como mantener un registro forense y poder demostrar a los contralor e investigadores que, de hecho, se estaban recopilando estos registros. Este caso de uso de cumplimiento impulsó la adopción de la recopilación de eventos de seguridad central.

Hubo desafíos con este nuevo tipo de producto. El SOC ahora necesitaba ingenieros de seguridad para gestionar grandes cantidades de datos. También necesitaban la cotización para recopilar y almacenar esta información, ya que estaban copiando datos de muchos otros sistemas en un sistema monolítico y centralizado. Pero los beneficios eran claros: acelerar la detección y la corrección al reducir significativamente el tiempo dedicado a recopilar y clasificar datos de toda la compañía. Una vez notificado de un ataque, los equipos de respuesta a incidentes podían poner a trabajar casi al instante.

SIEM 2.0 - Años 2010

La detección se basa en la recopilación

El siguiente avance fue aplicar la lógica de detección en la capa SIEM centralizada. Un SIEM solía ser una combinación de los datos de eventos en un SEM y los datos de información en una SIM. El poder de cumplimiento y recopilación de pruebas de los SEM/SIM era estable, pero luego de casi una década de solo recopilar y revisar datos, los analistas se dieron cuenta de que podían hacer mucho más con información centralizada. En lugar de limitar a consolidar las alertas de otros sistemas y proporcionar un sistema central de registro para los registros y eventos recopilados, los SIEM ahora permitían el análisis de muchas fuentes de datos. Los ingenieros de detección podrían operar desde una nueva perspectiva: detectar amenazas que pueden haber pasado por alto en una solución puntual, analizando solo una fuente de datos, como su antivirus o firewall de red. 

Esta evolución vino acompañada de muchos desafíos. Además de la mayor necesidad de expertos en la materia y reglas prediseñadas, los SIEM recopilaron de forma centralizada alertas de numerosas soluciones puntuales, cada una de las cuales produjo una gran cantidad de falsos positivos por sí sola y exacerbó el problema. Los analistas de SIEM tuvieron que revisar las alertas colectivas de red y escritorio. Esto dio lugar a una pregunta frecuente de un analista de SIEM: "¿Por dónde empiezo?", junto con un conjunto completamente nuevo de alertas de detección del propio SIEM. Su SIEM ahora contiene la suma de todas las demás alertas del sistema en la red más la cantidad de alertas generadas normalmente. No hace falta decir que esto fue increíblemente abrumador.

La promesa del aprendizaje automático

El aprendizaje automático (ML) prometía mejorar la detección de amenazas desconocidas con menos mantenimiento. El objetivo era identificar el comportamiento anormal, en lugar de depender de reglas codificadas para encontrar todas las amenazas.

Antes del aprendizaje automático, los ingenieros de detección tenían que analizar un ataque que ya se produjo o uno que podría producir (gracias a la investigación de primera mano) y escribir detecciones para esa posible ocurrencia. Por ejemplo, si se descubriera un ataque que se aprovechara de algunos argumentos específicos enviados a un proceso de Windows, se podría escribir una regla buscando que esos argumentos se invoquen en la ejecución. Pero el adversario podría simplemente cambiar el orden de los argumentos o invocarlos de manera diferente para evitar esta detección frágil. Y, si hubiera usos legítimos de esos argumentos, se necesitarían días (tal vez semanas) de ajuste para eliminar estos falsos positivos de la lógica de detección. 

El aprendizaje automático prometía reducir en gran medida este desafío; concretamente de dos maneras:

  • Detección de anomalías basada en ML "no monitorear":los analistas solo tenían que decidir en qué área buscar comportamientos desconocidos, como en los inicios de sesión, en las ejecuciones de procesos y en el acceso a los buckets de S3. A continuación, el motor de ML aprendió el comportamiento NORMAL de estas áreas y marcó lo que era inusual. SANS DFIR hizo un famoso afiche en 2014 que decía "Know Abnormal... Encuentra el mal".

  • Modelos de ML capacitados o "monitorear": los analistas humanos pueden ver algo y sus cerebros pueden conectar los puntos sobre cómo se parece un poco a un ataque observado anteriormente. Estos expertos son capaces de aprender sobre cómo se produjo un ataque y aplicar ese conocimiento para encontrar ataques desconocidos que sigan una progresión similar. Tradicionalmente, empleaban esta experiencia en la búsqueda de amenazas para ayudar a encontrar amenazas que sus productos de seguridad podrían pasar por alto. Ahora, con el aprendizaje automático, pudieron crear detecciones de modelos capacitados con la capacidad de aprender de ataques anteriores y encontrar otros nuevos que sean similares en la formaen que están atacando. Centrar en el comportamiento, y no solo en los indicadores atómicos como hashes, cadenas en archivos y URL, permite detecciones con una vida útil más larga y una mayor tasa de detección de ataques.
3 - Póster de SANS DFIR de 2014
Póster de SANS DFIR de 2014

La identificación de actividad anormal, o análisis de valores atípicos, permitió a los equipos de seguridad identificar rápidamente lo "extraño" e investigarlo. Extraño podría ser un usuario que inicia sesión desde una ubicación extraña en un momento extraño, que a veces sería un adversario que robó credenciales para acceder a la red. Pero a veces era Sally de vacaciones la que iniciaba sesión para solucionar un problema de red a las 2:00 a.m. Si bien los falsos positivos aumentaron, la capacidad de descubrir amenazas completamente nuevas, previamente infundadas, fue razón suficiente para dedicar la ayuda adicional a la clasificación de los falsos positivos. La era del análisis del comportamiento de usuarios y entidades (UEBA) comenzó, y los SIEM modernos funcionan con tecnologías de detección basadas en reglas y de aprendizaje automático.

Pasar de lo reactivo a lo proactivo

Como vimos, los SIEM solían ser reportes históricos de problemas en lugar de soluciones reales de extremo a extremo. Los SIEM podían alertarte de un problema, pero luego tenías que arreglarlo por tu cuenta. Esto cambió con la entrada de SOAR: orquestación de seguridad, automatización y respuesta. Esta nueva línea de productos se creó para llenar un vacío de características en los SIEM. Proporcionaron un lugar para recopilar y organizar los pasos que un analista quería realizar para la corrección, así como conectores con el resto del ecosistema para iniciar la respuesta. En nuestra analogía del departamento de policía, los SOAR eran como policías de tráfico que dirigían a todos los demás sistemas para ejecutar comandos. Eran el pegamento que mantenía el descubrimiento del ataque desde el SIEM hasta las acciones de respuesta de los otros sistemas. 

Al igual que UEBA, la capacidad de organizar planes de respuesta e iniciar acciones desde una ubicación central se convirtió en una expectativa de los SIEM modernos. Ahora, en el ciclo de vida de SIEM 2.0, se espera que los SIEM puedan recopilar datos a escala en toda la organización (.gen 0), detectar nuevas amenazas que las soluciones puntuales pueden pasar por alto y correlacionar sistemas dispares empleando tecnologías basadas en reglas y en aprendizaje automático (SIEM 1.0), y permitir la planeación y ejecución de los planes de respuesta (2.0). De hecho, se acuñó un nuevo acrónimo, TDIR (detección, investigación y respuesta a amenazas), para capturar la capacidad de manejar el alcance completo de un ataque.

SIEM 3.0: 2023 y más allá

La revolución de la IA generativa en la ciberseguridad

Los SIEM se convirtieron en fundamentales en la detección, clasificación e investigación de amenazas de un SOC, a pesar de no abordar un desafío fundamental: la escasez masiva de habilidades en ciberseguridad. Un estudio de marzo de 2023 encargado por IBM y completado por Morning Consult descubrió que los miembros del equipo de SOC "sólo reciben la mitad de las alertas que se supone que deben revisar en un día laboral típico". Eso es un punto ciego del 50%. Décadas de mejoras incrementales para simplificar los flujos de trabajo, automatizar los pasos rutinarios, guiar a los analistas junior y mucho más ayudaron, pero no lo suficiente. Con la llegada de modelos de inteligencia artificial generativaaccesibles para el consumidor con experiencia en el dominio de la ciberseguridad, esto está cambiando rápidamente. 

Tradicionalmente, los SIEM dependieron mucho del ser humano detrás de la pantalla: las alertas, los paneles de control y la búsqueda de amenazas son operaciones intensivas en humanos. Incluso los primeros esfuerzos de IA, como los copilotos de IA, dependieron de la capacidad del analista para emplear estos copilotos de forma eficaz. Esta revolución ocurrirá cuando la IA opere en nombre del analista, eliminando el requisito de "chatear". Imaginar que el sistema examina todos los datos, ignora los irrelevantes e identifica lo que es crítico, descubre el ataque específico y elabora soluciones específicas y, a su vez, libera a sus expertos para que se centren en detener el impacto en el negocio.

La aplicación de la IA generativa

Por primera vez, la tecnología está aprendiendo de los analistas senior y transfiriendo ese conocimiento a los miembros junior de forma automática. La IA generativa ahora ayuda a los profesionales de la seguridad a desarrollar planes de corrección específicos de la organización, priorizar amenazas, escribir y curar detecciones, depurar problemas y abordar otras tareas rutinarias y que requieren mucho tiempo. La IA generativa promete automatizar el ciclo de retroalimentación de vuelta al SOC, lo que permite una mejora continua día tras día. Ahora podemos cerrar el ciclo de OODA con esta retroalimentación y aprendizaje automatizados. 

Debido a la naturaleza de los grandes modelos de lenguaje (la ciencia detrás de la IA generativa), finalmente podemos aprovechar la tecnología para razonar en numerosos puntos de datos, tal como lo haría un humano, pero con mayor escala, mayor velocidad y una comprensión más amplia. Además, los usuarios pueden interactuar con grandes modelos de lenguaje en lenguaje natural, en lugar de código o matemáticas, y reducir aún más las barreras para la adopción. Nunca antes un analista fue capaz de hacer preguntas en lenguaje natural, como "¿Mis datos contienen alguna actividad en algún área que pueda representar un riesgo para mi organización?" Se trata de un avance sin precedentes en las capacidades que ahora se pueden integrar en un SIEM para todos los afiliados a un SOC. La IA generativa se convirtió en un asistente SOC digital poderoso y preciso. 

Los productos que aprovechan la revolución de la IA en los flujos de trabajo de operaciones de seguridad ofrecerán SIEM 3.0.

Más información sobre la evolución de SIEM

En esta entrada de blog se revisó la evolución de SIEM, desde la recopilación centralizada de datos hasta la detección de amenazas a nivel organizacional y, por último, la automatización y la orquestación para acelerar la corrección. Ahora, en esta tercera fase de las tecnologías SIEM, finalmente estamos abordando la escasez masiva de habilidades en ciberseguridad. 

En la segunda parte de este serial, analizaremos la evolución de Elastic Security de un TDIR a la primera y única oferta de analítica de seguridad impulsada por IA del mundo. Mientras tanto, puede obtener más información sobre cómo reaccionaron los profesionales de la seguridad a la aparición de la IA generativa con este libro electrónico: IA generativa para la ciberseguridad: un futuro optimista pero incierto. ¡Estén atentos a la segunda parte!

El lanzamiento y el momento de cualquier característica o funcionalidad descrita en esta publicación quedan a discreción exclusiva de Elastic. Es posible que cualquier característica o funcionalidad que no esté disponible en este momento no se lance a tiempo o no se lance en absoluto.

En esta entrada del blog, es posible que empleamos o nos referimos a herramientas de IA generativa de terceros, que son propiedad de sus respectivos propietarios y están gestionadas por ellos. Elastic no tiene ningún control sobre las herramientas de terceros y no tenemos ninguna responsabilidad por su contenido, operación o uso, ni por ninguna pérdida o daño que pueda surgir de tu uso de dichas herramientas. Tenga cuidado al emplear herramientas de IA con información personal, sensible o confidencial. Cualquier dato que envíe puede emplear para el entrenamiento de IA u otros fines. No hay garantía de que la información que proporcione se mantenga segura o confidencial. Debe familiarizar con las prácticas de privacidad y los términos de uso de cualquier herramienta de IA generativa antes de usarla. 

Elastic, Elasticsearch, ESRE, Elasticsearch Relevance Engine y las marcas asociadas son marcas comerciales, logotipos o marcas comerciales registradas de Elasticsearch N.V. en los Estados Unidos y otros países. Todos los demás nombres de empresas y productos son marcas comerciales, logotipos o marcas comerciales registradas de sus respectivos propietarios.