관찰 가능성의 3가지 요소: 통합 로그, 메트릭 및 추적
더 나은 의사 결정, 성능 개선, 이용자 경험 향상을 위한 텔레메트리 신호의 이해
.jpg)
텔레메트리 신호는 지난 몇 년 동안 크게 진화해 왔습니다. 눈을 깜빡한 순간에도 놓칠 수 있을 만큼 빠르게 변화했습니다. 사실 통합 가시성에 대한 일반적인 통념 중 많은 부분을 새롭게 재정립할 필요가 있습니다. 최신 텔레메트리 수준을 고려하지 않은 통합 가시성 솔루션을 사용 중이라면 업그레이드가 필요할 수 있습니다. 소프트웨어 시스템의 모니터링 및 통합 가시성은 기술의 발전과 더 복잡해진 시스템 및 새로운 모니터링 접근 방식에 따라 여러 단계를 거쳐 변화해 왔습니다.
언제나 그렇듯이 데이터는 이야기의 중심에 있습니다. 텔레메트리의 진화는 컴퓨팅의 진화와 궤를 같이합니다. 데이터의 필요성이 기계적 성능 메트릭에서 비즈니스 성능 메트릭(또는 다수의 메트릭)으로 확장됨에 따라 텔레메트리 신호도 그 범위가 넓어졌습니다. 컴퓨팅이 분산형 클라우드 환경으로 진화함에 따라 모니터링 방식도 이러한 아키텍처의 복잡성과 방대한 디지털 환경에 부응할 수 있도록 진화해야 합니다.
여기서 등장하는 것이 통합 가시성입니다. 이는 단순히 환경을 관찰하는 것이 아니라 이해하는 능력을 의미합니다.
통합 가시성의 세 가지 핵심 요소란?
세 가지 텔레메트리 신호인 메트릭, 로그 및 추적은 통합 가시성의 세 가지 기본적인 핵심 요소입니다. 그러나 최신 통합 가시성에는 이들만으로 충분하지 않을 수 있습니다. 따라서 우리는 새로운 네 번째 핵심 요소인 프로파일링을 제안합니다.
메트릭, 추적, 로그 및 프로파일은 성능과 생산성을 모니터링하며 통합 가시성을 올바르게 구현하는 데 필수적인 요소입니다. 이는 수익성 향상으로 이어지는 실행 가능한 인사이트를 생성합니다. 이들이 기본인 데는 이유가 있습니다. 제대로 이해하지 못하면 모든 노력이 수포로 돌아갈 수 있습니다. 그럼 이제 자세히 알아보겠습니다.
메트릭이란? (무슨 일이 발생했는가?)
메트릭은 하드웨어, 애플리케이션 소프트웨어, 웹사이트 등 다양한 소스에서 수집된 원시 수치 데이터로 알려진 정보를 측정합니다. 이들은 리소스 사용량, 성능 및 사용자 행동에 대한 정보를 제공합니다. 메트릭은 모니터링의 기본적인 텔레메트리 신호이며 다음과 같은 유형으로 분류될 수 있습니다.
호스트 메트릭: CPU, 메모리 및 디스크 사용량
애플리케이션 메트릭: 응답 시간, 오류율 및 요청률
네트워크 성능 메트릭: 처리량, 가동 시간, 지연 시간, 가용성 등
서버 풀 메트릭: 확장 조정 메트릭, 실행 중인 인스턴스 수, 총 인스턴스 수
외부 종속성 메트릭: 서비스 상태, 응답 속도, 가용성 및 오류율
이 메트릭은 경보, 경고 및 오류 조건 임계값 설정에 필수적입니다. 이를 통해 팀은 시스템 및 네트워크 성능 전반을 감시하고 문제 발생 시 식별할 수 있습니다. 이러한 방식으로 메트릭은 모니터링에서 사후 대응적 자세를 취하는 데 필요한 정보를 제공합니다.
로그란? (왜 발생했는가?)
로그는 인프라, 애플리케이션, 네트워크 그리고 시스템에서 발생하는 특정 이벤트와 관련된 타임스탬프가 있는 항목들로 구성된 정형 및 비정형 데이터입니다. 다음과 같은 다양한 유형의 장치 및 시스템이 로그를 생성합니다.
네트워크 장치
운영 체제
애플리케이션
IoT 장치
타사 애플리케이션
각 장치는 고유한 유형의 로그를 생성합니다. 시스템 로그는 연결 시도, 오류 및 구성 변경과 같은 이벤트를 포함하고 애플리케이션 로그는 소프트웨어 변경, CRUD 작업, 애플리케이션 인증 등을 기록합니다. 많은 수의 로그 출처로 인해 로그를 저장하는 것은 복잡한 작업입니다. 여러분의 조직에서 사용하는 위에 나열된 장치, 애플리케이션, 시스템의 수를 떠올려 보세요. 또한 로그의 형식과 타임스탬프가 일관되지 않으며 요청, 사용량, 트래픽 등의 증가로 인해 거대한 양의 로그 데이터가 생성되기 때문에 복잡할 수밖에 없습니다.
로그는 주로 문제 해결을 위해 사용되던 것에서 발전하여 이제는 사용자 행동 기록과 시스템 및 네트워크 성능 최적화뿐만 아니라 보안 모니터링 조사에 유용한 데이터 제공 등 다양한 기능까지 수행합니다. 문제나 이벤트를 디버깅할 때 IT 실무자들은 로그를 참조하여 정확히 찾아내고 해결합니다. 로그 자체는 유연하고 정보가 풍부하지만 대부분은 불필요하고 많은 노이즈를 발생시킵니다. 로그 데이터 저장소는 사일로화되어 있으며 본질적으로 상호 연관되어 있지는 않습니다.
추적이란? (어디서 발생했는가?)
추적은 사용자가 애플리케이션이나 서비스를 사용하는 동안 수행하는 작업을 기록함으로써 사용자의 관점에서 애플리케이션을 보여주는 첫 번째 신호입니다. 분산 추적은 요청이 분산된 아키텍처를 통해 프론트엔드에서 백엔드를 거쳐 다시 프론트엔드로 이동하는 과정을 모니터링하는 방법입니다. 이러한 추적은 Kubernetes와 같은 복잡한 기술에 의존하는 분산형 클라우드 네이티브 애플리케이션에 필수적입니다.
추적은 분산된 데이터를 통합하여 디스크, 네트워크, 상호 배제(mutex) 등 여러 애플리케이션을 사용하는 애플리케이션의 병목 현상을 발견하고 디버깅 및 모니터링을 지원합니다. 추적은 모니터링이 사전 예방적으로 수행될 수 있는 기반을 마련합니다. 예를 들어 SRE, ITOps 및 DevOps 팀은 추적 데이터를 분석하여 특정 문제와 관련된 가장 유용한 메트릭이나 로그를 발견할 수 있으며 향후 이를 완화할 수 있습니다.
메트릭, 로그 그리고 추적은 각각 시스템 및/또는 애플리케이션에 대한 사용자의 질문에 답할 수 있는 서로 다른 데이터 세트를 제공합니다. 그러나 이러한 데이터를 연관짓지 않으면 사용자는 여러 사각지대에 직면하게 됩니다. 이러한 빈틈을 메우기 위해서는 추가 정보가 필요하며 그것이 바로 텔레메트리 신호의 다음 진화 단계인 프로파일링입니다.
프로필이란 무엇입니까?
프로파일은 코드 성능 문제와 관련된 스택 추적의 모음으로 해당 스택 추적이 발생한 횟수를 나타냅니다. 프로파일은 데이터 구조, 메모리 할당 및 코드 가시성과 관련된 모호한 문제를 식별할 수 있도록 다른 신호보다 더 깊은 수준의 인사이트를 제공합니다. 프로파일을 수집하고 분석하는 행위를 프로파일링이라고 합니다.
프로파일링은 전례 없는 폭넓고 깊이 있는 가시성을 제공하여 시스템 내의 알려지지 않은 미지의 요소를 발견할 수 있는 능력을 제공합니다. 이로써 프로파일링은 시스템 전반의 포괄적인 가시성을 완성하는 마지막 요소가 됩니다. 이것이 바로 프로파일링이 가시성의 네 번째 핵심 요소인 이유입니다.
Elastic의 프로파일링 기능에 대해 자세히 알아보세요. Elastic은 Universal Profiling 에이전트를 OpenTelemetry에 기여하고 있습니다.
통합 가시성과 텔레메트리 신호 간의 연결
텔레메트리 신호는 통합 가시성의 기초입니다. 통합 가시성은 시스템의 내부 상태를 이해하기 위해 텔레메트리 신호를 수집하고 분석 및 시각화함으로써 달성됩니다.
1단계: 모니터링 및 통합 가시성
클라우드 이전에는 모니터링이 수동적이었으며 로컬에서 제한적으로 이루어졌습니다. 불과 50년 전만 해도 틈새 사무용 기기였던 컴퓨터가 전문 비즈니스 영역에서 전 세계의 가정과 사무실로 확산되면서 모니터링 또한 중요한 IT 관행이자 통합 가시성을 위한 첫 단계로 발전했습니다.
서버 내부 및 네트워크 내부에서 순환하는 데이터 증가에 대응하기 위해 IT 엔지니어는 탐지를 자동화하는 모니터링 도구를 개발했습니다. 오픈 소스 모니터링 도구가 등장하면서 기본 네트워크 및 데스크톱 모니터링이 로컬에서 웹 기반으로 이동하게 되었습니다. 이제 텔레메트리 신호는 단순히 운영 및 로컬 트래픽 모니터링을 넘어 비즈니스에 필수적인 메트릭으로 자리잡았습니다. 이러한 관점에서 오늘날 메트릭, 로그 및 추적을 바라봐야 합니다. 고객이 온라인에서 문제없이 구매를 완료할 수 있는지, 연결 속도는 얼마나 빠른지, 데이터 유출 사고는 발생하는지 등과 같은 질문에 대한 응답은 이용자 경험과 만족도를 통한 수익성과 직결됩니다.
그리고 이제 웹사이트가 이용자 데이터를 수신함에 따라 보안 모니터링은 모든 모니터링 솔루션에서 점점 더 중요한 요소가 되고 있습니다.
2단계: 애플리케이션 모니터링 및 통합 가시성
확장성을 높이기 위한 노력의 일환으로 개발자들은 모놀리식 애플리케이션에서 서비스 지향 아키텍처를 거쳐 마이크로서비스와 서버리스로 전환하고 있습니다.
긴밀하게 결합된 컴포넌트에서 모듈형 컴포넌트로 이동하면서 애플리케이션 유연성을 개선하여 개발자가 신속하게 확장할 수 있게 되면 모니터링에 필요한 통합 가시성 신호가 크게 증가하게 됩니다. 인프라뿐만 아니라 애플리케이션 자체도 모니터링해야 하는 필요성이 생기면서 응답 시간, 처리량, 오류율 등이 효과적인 모니터링에 필요한 텔레메트리 신호 목록에 추가됩니다. 애플리케이션 성능 모니터링(APM)은 통합 가시성에 필수적인 새로운 방식과 도구 세트로 부상하고 있습니다.
3단계: 클라우드에서의 모니터링 및 통합 가시성
클라우드 네이티브 기술로의 전환은 애플리케이션 개발 패러다임의 진화와 마찬가지로 모니터링 방식에 복잡성을 더합니다. 이로 인해 텔레메트리 신호의 양과 다양성은 지속적으로 증가하고 있습니다.
분산 아키텍처에서 새로운 텔레메트리 신호의 도입은 기업이 이용자가 기대하는 빠르고 원활하며 안전한 온라인 경험에 대한 기대를 충족하는 데 필수적입니다. 여기서 우리는 메트릭, 로그 그리고 추적이라는 세 가지 핵심 요소를 만나게 됩니다. 이러한 신호는 운영 체제와 애플리케이션의 기본 활동을 포착하며 이를 통해 기업은 궁극적으로 최신 통합 가시성을 달성할 수 있습니다.
4단계: 통합 가시성을 위한 텔레메트리 신호의 진화
마이크로서비스, 서버리스, 클라우드 네이티브 환경 등 데이터 중심의 세계에서는 데이터를 주도하는 데이터를 이해하는 것이 핵심입니다. 수익성 목표 달성부터 생산성 목표까지 메트릭, 로그 및 추적은 운영 체인의 연결고리로 비즈니스가 SLA를 이행하는 데 필요한 데이터를 포함하고 있습니다.
메트릭, 로그, 추적 그리고 이제 프로파일링까지 모두 모니터링 관행에서 중요한 역할을 하지만 이 데이터를 수동으로 검토하여 디버깅하는 것은 불가능한 것은 아니지만 비효율적입니다. 자동화가 일부 부담을 덜어주지만 상당한 양의 경고 노이즈를 발생시킵니다. 다양한 데이터 유형과 출처 때문에 정보 흐름을 관리하고 실행 가능한 인사이트를 위해 이를 상호 연관시키는 작업이 더욱 어려워집니다.
결국 우리는 다시 데이터로 돌아오게 됩니다(사실 데이터에서 벗어난 적이 없습니다). 팀이 끊임없이 '따라잡기' 상태에 놓여 있는 상황에서 모니터링은 막대한 데이터 유입과 비즈니스 성과와 불가분의 관계에 있는 정보 요구를 충족할 수 있도록 진화해야 합니다. 해결책은 무엇일까요? 바로 통합 텔레메트리 데이터 플랫폼입니다.
최신 통합 가시성
최신 통합 가시성은 분산 시스템의 전체 동작을 관찰하여 내부 상태를 이해하는 방식입니다. 효과적인 최신 통합 가시성 솔루션은 메트릭, 로그 및 추적을 하나의 통합된 텔레메트리 플랫폼에 결합하여 IT 실무자들이 기술 환경을 종합적으로 파악하고 시스템 복원력과 생산성에 영향을 미치는 실행 가능한 통찰력을 생성할 수 있도록 합니다.
데이터와 정보가 풍부한 기능을 가진 통합 텔레메트리 데이터 플랫폼은 필요한 순간에 인사이트와 분석을 추출할 수 있도록 가능한 한 많은 데이터를 저장해야 합니다. 결과적으로 효과적인 최신 통합 가시성 솔루션은 사전 예방 조사와 사후 대응적 조사를 모두 장려합니다. 메트릭, 로그, 추적 및 프로파일링과 같은 데이터를 상호 연관시킴으로써 팀은 알려진 문제를 해결하고 알려지지 않은 숨은 문제를 발견할 수 있습니다. 즉 성공적인 최신 통합 가시성 솔루션은 팀이 '왜'라는 질문에 신속히 답할 수 있도록 지원합니다.
그렇다면 최신 통합 가시성은 어떻게 달성할 수 있을까요? 데이터를 체계화하고 분석하기 위해 개방형 표준과 OpenTelemetry를 활용할 수 있습니다. OpenTelemetry는 SRE가 통합 가시성 데이터를 일관된 오픈 스탠다드 데이터 형식으로 생성할 수 있도록 도와 분석과 저장을 용이하게 하고 벤더 데이터 유형 간의 비호환성을 최소화합니다. 대부분의 산업 분석가들은 OpenTelemetry가 향후 5년 내 통합 가시성 데이터의 사실상 표준이 될 것이라고 믿고 있습니다. 모든 텔레메트리 신호에서 일관된 데이터 표준을 적용한 통합 데이터 수집은 통합 가시성의 미래를 대비하는 것을 의미합니다. 더 넓은 의미에서 다음도 필요할 것입니다.
기준선 설정: 모든 텔레메트리 데이터의 형식과 데이터 일관성을 확립합니다.
데이터 필터링: 최종 사용자를 위한 벤더 간 비일관성을 추상화합니다.
도구 통합: 포괄적인 통합 가시성 전략을 갖추고 있는지 확인합니다.
텔레메트리 데이터는 다양한 형태로 생성됩니다. 클라우드 네이티브 애플리케이션은 다양한 데이터를 생성하는 반면 서버리스 환경이나 가상 머신은 다른 유형의 데이터를 생성합니다. 게다가 이러한 데이터는 고속으로 생성됩니다. 따라서 통합 가시성 달성은 데이터 통합을 의미합니다. 이는 관련성 있고 정확하며 빠른 인사이트를 보장합니다.
미래의 텔레메트리 신호, 예측 가능성이 핵심
기술 환경이 발전함에 따라 시스템이 최적의 상태로 운영되고 자원이 효율적으로 사용되도록 보장하는 데 필요한 텔레메트리 신호 역시 진화하는 것은 당연한 일입니다. 오늘날 텔레메트리 신호는 AI/ML을 활용하여 예측 인사이트와 자동화된 대응을 제공하는 정교한 시스템에 연동되어 있습니다. 이러한 추세는 앞으로도 계속될 것입니다.
광범위하고 분산된 분산 환경에서는 모니터링이 어려워졌고, 이는 효과적이지 않다는 것을 의미합니다 따라서 모니터링은 가시성 영역으로 확장되어야 합니다. 통합 가시성을 달성하기 위해 조직은 모니터링 도구를 통합 플랫폼으로 통합하여 시스템 성능을 전체적으로 파악하고 관리 부담을 줄이고 있습니다. 기본적인 성능 메트릭은 여전히 문제 해결과 최적화에 필수적이며 반복적인 접근 방식이 애플리케이션의 복원력을 높이는 데 기여합니다. 그리고 사일로화된 데이터를 통합함으로써 조직은 실시간 및 과거 텔레메트리 데이터를 모두 활용해 사후 대응에서 사전 예방적인 모니터링으로 전환할 수 있습니다.
생성적 AI의 부상으로 인해 기업은 시스템 보안을 강화해야 한다는 압박을 그 어느 때보다 강하게 느끼고 있습니다. 따라서 실시간 위협 탐지와 대응에 중점을 두고 보안 신호를 가시성 프레임워크에 통합하는 것이 더욱 중요해지고 있습니다. 또한 생성형 AI 기술이 발전함에 따라 고급 자동 복구 기능을 갖춘 자가 치유 시스템이 등장할 가능성도 있습니다.
하지만 이러한 다음 단계로 나아가기 전에 조직은 개방형 표준을 기반으로 강력한 데이터 기반을 구축해야 합니다. 결국 유일한 불변의 요소는 변화이기 때문입니다. 누가 벤더 종속을 원하겠습니까?
이 게시물에서 설명된 모든 기능이나 성능의 출시와 일정은 Elastic의 단독 재량에 따라 결정됩니다. 현재 제공되지 않는 기능이나 성능은 예정된 시간에 출시되지 않을 수도 있으며 아예 제공되지 않을 수도 있습니다.