Los 3 pilares de la observabilidad: logs, métricas y rastreos unificados

Comprender las señales de telemetría para una mejor toma de decisiones, un mejor rendimiento y mejores experiencias del cliente

Elastic Observability Team

10 de octubre de 2024

Las señales de telemetría han avanzado muchísimo con el tiempo… tanto, que si parpadeaste, probablemente te lo perdiste. De hecho, gran parte de la sabiduría común sobre la observabilidad necesita una actualización. Si tu solución de observabilidad no tiene en cuenta el estado actual de la telemetría, es posible que necesites una actualización. El monitoreo y la observabilidad en los sistemas de software se han transformado en varias fases junto con los avances tecnológicos, sistemas más complejos y nuevos enfoques de monitoreo.

Como siempre, los datos están en el centro de la historia. La evolución de la telemetría sigue de cerca la evolución de la informática. A medida que la necesidad de datos se expande de un indicador del rendimiento mecánico a un indicador (o varios indicadores) del rendimiento empresarial, también lo hacen las señales de telemetría. La informática ha avanzado hacia entornos en el cloud distribuidos, por lo que las prácticas de monitoreo también deben adaptarse para hacer frente a la complejidad de estas arquitecturas y ecosistemas digitales cada vez más amplios.

Entra en escena la observabilidad: la capacidad no solo de observar tu entorno, sino también de comprenderlo.

¿Cuáles son los 3 pilares de la observabilidad?

Tres señales de telemetría son los pilares fundamentales de la observabilidad: métricas, logs y rastreos. Pero para la observabilidad moderna, esto podría no ser suficiente. Por lo tanto, proponemos un nuevo cuarto pilar: el perfilado.

Las métricas, los rastreos, los logs y los perfiles son los engranajes que te permiten hacer bien la observabilidad, para monitorear el rendimiento y la productividad. A su vez, produce información procesable a favor de la rentabilidad. Son fundamentales por algo. Si no los entiendes bien, te los lleva el viento. Profundicemos.

¿Qué son las métricas? (O, ¿qué está pasando?)

Las métricas son los datos numéricos sin procesar recopilados de diversas fuentes, como hardware, software de aplicaciones y sitios web, que miden lo conocido. Proporcionan información sobre el uso de recursos, el rendimiento y el comportamiento del usuario. Las métricas son las señales telemétricas originales de monitoreo y se pueden clasificar en varios tipos:

Métricas del host: uso de CPU, memoria y disco
Métricas de la aplicación: Tiempos de respuesta, tasas de error y tasas de solicitudes
Métricas de rendimiento de la red: rendimiento, tiempo de actividad, latencia, disponibilidad y más
Métricas del grupo de servidores: métricas de ajuste de escalado, número de instancias en ejecución y número total de instancias
Métricas de dependencias externas: estado del servicio, velocidad de respuesta, disponibilidad y tasas de error

Estas métricas son clave para que los equipos puedan configurar alarmas, advertencias y umbrales de error. Les permiten tener la lupa puesta en el rendimiento general del sistema y la red, y así detectar cualquier problema al instante. De esta manera, las métricas informan una postura reactiva en el monitoreo.

¿Qué son los logs? (¿Por qué está sucediendo?)

Los logs son datos estructurados y datos no estructurados de tu infraestructura, aplicaciones, redes y sistemas formados por entradas con marca de tiempo relacionadas con eventos específicos. Diferentes tipos de dispositivos y sistemas emiten logs:

Dispositivos de red
Sistemas operativos
Aplicaciones
Dispositivos IoT
Aplicaciones de terceros

Cada uno de estos dispositivos genera su propio tipo de log, ya sea un log del sistema, que incluye eventos, como intentos de conexión, errores y cambios de configuración, o un log de aplicaciones que registra cualquier cosa, desde cambios de software hasta operaciones de CRUD, autenticación de aplicaciones y más. Almacenar logs es complicado debido a la cantidad de fuentes de logs (considera cuántos de los dispositivos, las aplicaciones y los sistemas enumerados arriba ejecuta tu organización), los formatos y las marcas de tiempo inconsistentes y, con el aumento de solicitudes, uso y tráfico, volúmenes gigantescos de datos de logs.

Los logs han evolucionado de ser utilizados principalmente para solucionar problemas a ahora cumplir muchas funciones, como registrar las acciones de los usuarios, optimizar el rendimiento del sistema y de la red, y proporcionar datos que son útiles para las investigaciones de monitoreo de seguridad. Al depurar problemas y eventos, los profesionales de IT consultarán los logs para identificarlos y remediarlos. Si bien los logs en sí son flexibles y están llenos de información, la mayoría es innecesaria y genera mucho ruido, los almacenes de datos de logs están en silos y no están inherentemente correlacionados.

¿Qué son los rastreos? (¿Dónde está pasando?)

Los rastreos son la primera señal para mostrar la aplicación desde la perspectiva de un usuario al registrar las acciones que realiza mientras usas una aplicación o un servicio. El trazado distribuido es una forma de monitoreo de las solicitudes a medida que se abren camino a través de la arquitectura distribuida desde el front-end hasta el back-end y, a continuación, de nuevo al front-end. De esta manera, los rastreos son necesarios para las aplicaciones distribuidas, nativas del cloud que dependen de tecnologías complejas, como Kubernetes.

Al reunir datos aislados, los rastreos ayudan a descubrir cuellos de botella y a depurar y monitorear aplicaciones que emplean múltiples aplicaciones, como discos, redes y exclusiones mutuas (mutex). Los rastreos también sientan las bases para que el monitoreo adopte una postura proactiva. Por ejemplo, los equipos de SRE, ITOps y DevOps pueden analizar los datos de rastreo para descubrir las métricas o los logs más útiles relacionados con un problema determinado y mitigarlo en el futuro.

Las métricas, los logs y los rastreos proporcionan un conjunto diferente de datos que pueden responder a las preguntas de un usuario sobre su sistema o aplicación. Sin embargo, sin correlacionar los datos, los usuarios se enfrentan a una variedad de puntos ciegos. Un dato adicional puede contribuir a completar la información faltante. El siguiente paso en la evolución de las señales de telemetría es el perfilado.

¿Qué son los perfiles?

Los perfiles son colecciones de rastreos de stacks a los que está asociado un problema de rendimiento del código, lo que representa la cantidad de veces que se encontró ese rastreo de stack. Ofrecen una visión mucho más profunda que otras señales, permitiendo detectar problemas recónditos relacionados con la arquitectura de datos, la gestión de memoria y la visibilidad del código, tanto a nivel del kernel como del espacio de usuario. La acción de recopilar y analizar perfiles se denomina perfilado.

El perfilado proporciona una amplitud y profundidad de visibilidad sin precedentes, lo que desbloquea la capacidad de descubrir las incógnitas desconocidas dentro de tu sistema. Al hacerlo, es la pieza final de la visibilidad integral de todo el sistema. Es por eso por lo que es nuestro cuarto pilar de la observabilidad.

Obtén más información sobre el perfilado en Elastic aporta su agente de perfilado universal a OpenTelemetry.

Conexión entre señales de observabilidad y telemetría

Las señales de telemetría son la base de la observabilidad. La observabilidad se logra mediante la recopilación, el análisis y la visualización de señales de telemetría para comprender el estado interno de un sistema.

Fase 1: Monitoreo básico y observabilidad

Antes del cloud, el monitoreo era manual, local y limitado. A medida que las computadoras pasaron de ser una esfera empresarial especializada (sí, las computadoras eran máquinas de oficina de nicho hace 50 años) a los hogares y oficinas de todo el mundo, el monitoreo también evolucionó como una práctica fundamental de IT y el primer paso hacia la observabilidad.

Para satisfacer el aumento de los datos que circulan dentro del servidor y la red, los ingenieros de IT desarrollaron herramientas de monitoreo que automatizan la detección. Con la llegada de las herramientas de monitoreo open source, el monitoreo básico de redes y escritorios pasa de ser local a estar basado en la web. Ahora, las señales de telemetría van más allá del monitoreo de las operaciones y el tráfico local: son métricas empresariales necesarias, y esa es la forma en que debes pensar en las métricas, los logs y los rastreos hoy en día. ¿La gente puede realizar compras en línea sin problemas? ¿Qué tan rápida es la conexión? ¿Hubo alguna violación de datos? Las respuestas a estas preguntas están directamente relacionadas con la rentabilidad a través de la experiencia y la satisfacción del cliente.

Y dado que los sitios web ahora reciben datos de los clientes, el monitoreo de seguridad es un componente cada vez más importante de cualquier solución de monitoreo.

Fase 2: Monitoreo y observabilidad de aplicaciones

En la búsqueda de una mayor escalabilidad, los desarrolladores pasan de aplicaciones monolíticas a arquitecturas orientadas a servicios y, luego, a microservicios y tecnologías sin servidor.

Pasar de componentes estrechamente acoplados a componentes modulares mientras se mejora la flexibilidad de la aplicación para que los desarrolladores puedan escalar rápidamente significa que hay un aumento significativo en las señales de observabilidad necesarias para el monitoreo. La necesidad de monitorear no solo la infraestructura, sino también la aplicación en sí agrega tiempos de respuesta, rendimiento y tasas de error a la lista de señales de telemetría necesarias para un monitoreo efectivo. El monitoreo de rendimiento de aplicaciones (APM) surgió como una nueva práctica necesaria y un conjunto de herramientas que se volverán fundamentales para la observabilidad.

Fase 3: monitoreo en el cloud y observabilidad

La transición a tecnologías nativas del cloud agrega complejidad a las prácticas de monitoreo de la misma manera que lo hizo la evolución de los paradigmas de desarrollo de aplicaciones: el volumen y la variedad de señales de telemetría siguen creciendo.

En las arquitecturas distribuidas, las nuevas señales de telemetría son necesarias para garantizar que las empresas cumplan con las expectativas de los clientes de experiencias en línea rápidas, fluidas y seguras. Aquí nos encontramos con los tres grandes: métricas, logs y rastreos. Estas señales capturan la actividad subyacente de un sistema operativo y sus aplicaciones, y juntas, en última instancia, permiten a las empresas lograr una observabilidad moderna.

Fase 4: La evolución de las señales de telemetría para la observabilidad

Microservicios, tecnologías sin servidor, entornos nativos del cloud. En un mundo impulsado por los datos, es fundamental comprender los datos que impulsan los datos. Desde el cumplimiento de los objetivos de rentabilidad hasta los objetivos de productividad, las métricas, los logs y los rastreos son los eslabones de una cadena de operaciones: contienen los datos que tu empresa necesita para cumplir con sus SLA.

Si bien las métricas, los logs, los seguimientos y, ahora, los perfiles desempeñan un papel crucial en las prácticas de monitoreo, la revisión manual de estos datos para la depuración es, si no imposible, ineficaz. Y aunque la automatización alivia algo de presión, genera una cantidad significativa de ruido de alerta. La variedad de tipos y fuentes de datos también hace que la gestión del flujo de información y su correlación para obtener información procesable sea mucho más difícil.

Entonces, regresamos a los datos (si bien nunca nos fuimos) para que narren lo sucedido. Debido a que los equipos están en un estado constante de “ponerse al día”, el monitoreo debe evolucionar para satisfacer las demandas de una afluencia de datos extraordinaria y la necesidad de información inextricablemente vinculada al rendimiento empresarial. ¿La solución? Una plataforma unificada de datos de telemetría.

Observabilidad moderna

La observabilidad moderna es la práctica de observar el comportamiento general de un sistema distribuido para comprender su estado interno. Una solución de observabilidad moderna y eficaz reúne métricas, logs y rastreos en una plataforma de telemetría unificada, lo que permite a los profesionales de IT obtener una visión holística de su entorno tecnológico y generar información procesable que afecta la resiliencia y la productividad del sistema.

Con capacidades de gran cantidad de datos e información, una plataforma de datos de telemetría unificada requiere almacenar la mayor cantidad de datos posible para extraer información y analíticas cuando se requieran o se deseen. Como consecuencia, una solución de observabilidad moderna efectiva fomenta las investigaciones proactivas y reactivas. La correlación de datos, métricas, logs, rastreos y perfilado, permite a los equipos abordar lo conocido y descubrir lo desconocido. En otras palabras, una solución de observabilidad moderna exitosa posiciona a los equipos para que puedan responder rápidamente al “por qué”.

Entonces, ¿cómo logras la observabilidad moderna? Considera los estándares abiertos y OpenTelemetry para organizar los datos y analizarlos. OpenTelemetry ayuda a los SRE a generar datos de observabilidad en formatos de datos coherentes (estándares abiertos) para facilitar el análisis y el almacenamiento, al tiempo que minimiza la incompatibilidad entre los tipos de datos de los proveedores. La mayoría de los analistas de la industria creen que OpenTelemetry se convertirá en el estándar de facto para los datos de observabilidad en los próximos cinco años. La recopilación de datos unificada con normas de datos coherentes en todas tus señales de telemetría significa que estarás preparando la observabilidad para el futuro. En términos más amplios, también necesitarás lo siguiente:

Crear una línea de base: establece consistencia en tus formatos y datos para todos tus datos de telemetría.
Filtrar datos: oculta las inconsistencias entre proveedores para los usuarios finales.
Consolida tus herramientas: Asegúrate de tener una estrategia general de observabilidad.

Los datos de telemetría se presentan de diversas maneras: las aplicaciones nativas del cloud generan una variedad de ellos, mientras que un entorno sin servidor o una máquina virtual generarán otro tipo. Además, estos datos se producen a alta velocidad. Por lo tanto, lograr la observabilidad significa unificar los datos. Esto garantiza información relevante, precisa y rápida.

El futuro de las señales de telemetría tiene que ver con la previsibilidad

Es previsible: a medida que evoluciona el panorama tecnológico, también lo harán las señales de telemetría necesarias para garantizar que los sistemas funcionen de manera óptima y que los recursos se gasten de manera eficiente. Hoy en día, las señales de telemetría se conectan a sistemas sofisticados que aprovechan AI/ML para obtener información predictiva y respuestas automatizadas. Esta tendencia llegó para quedarse.

Los entornos distribuidos y dispersos dificultan el monitoreo, es decir, lo hacen ineficaz. En consecuencia, el monitoreo debe ampliar su alcance al ámbito de la observabilidad. En busca de la observabilidad, las organizaciones están unificando sus instrumentos de monitoreo en una plataforma centralizada para mitigar el estrés y conseguir una visión holística del rendimiento del sistema. Las métricas básicas de rendimiento siguen siendo vitales para la solución de problemas y la optimización, mientras que un enfoque iterativo ayuda a mejorar la resiliencia de las aplicaciones. Y al unir datos en silos, las organizaciones pueden pasar del monitoreo reactivo al proactivo, confiando tanto en datos de telemetría históricos como en tiempo real.

Con el auge de la AI generativa, las empresas sienten más que nunca la presión de proteger sus sistemas. Por eso, la integración de señales de seguridad en los marcos de trabajo de observabilidad es cada vez más importante, con un enfoque en la detección y respuesta a las amenazas en tiempo real. Y a medida que evolucionen las tecnologías de AI generativa, es probable que veamos sistemas de autorreparación impulsados por capacidades avanzadas de reparación automatizada.

Pero antes de desbloquear cualquiera de estos próximos niveles, las organizaciones tienen que sentar las bases al construir cimientos de datos estables con normas abiertas; al fin y al cabo, la única constante es el cambio. ¿Quién quiere depender de un proveedor?

Recursos adicionales

El lanzamiento y el momento de cualquier característica o funcionalidad descrita en esta publicación quedan a exclusivo criterio de Elastic. Es posible que cualquier característica o funcionalidad que no esté disponible en este momento no se lance a tiempo o no se lance en absoluto.