출시

Elastic Observability 7.11의 새로운 기능: 정식 버전으로 제공되는 APM 서비스 상태 개요 페이지 및 ECS 로깅 라이브러리

Elastic Observability 버전 7.11을 발표하게 되어 기쁩니다. 조사 워크플로우를 가속화하고 평균 인사이트 시간(MTTI) 및 평균 해결 시간(MTTR)을 단축하는 이번 버전의 몇 가지 기능을 함께 소개하고자 합니다. Elastic APM의 새로운 서비스 개요 페이지는 서비스 상태의 주요 측면을 단일 보기로 집계하여 개발자와 안정성 엔지니어가 최소한의 컨텍스트 전환으로 서비스 문제를 신속하게 해결하고 근본 원인을 파악할 수 있도록 지원합니다. 마찬가지로, Metrics 앱에는 쉽게 이용할 수 있는 단일 패널에 호스트 상태를 파악할 수 있는 향상된 보기가 추가되어 인프라 모니터링 및 문제 해결 워크플로우가 더 간단해졌습니다. 마지막으로, 추적 컨텍스트를 애플리케이션 로그에 자동으로 삽입하여 로그 ↔ 추적 상관 관계를 활성화하는 Elastic Common Schema(ECS) 로깅 라이브러리가 이제 정식 버전으로 출시됩니다. 

Elastic Cloud의 Elasticsearch Service에서 최신 버전의 Elastic Observability를 체험해 보시거나(14일 무료 체험판 제공) 자체 관리형 환경을 위해서는 Elastic Stack의 최신 버전을 설치하세요. 

그럼 이제 본론으로 들어가 이번 릴리즈의 하이라이트를 몇 가지 소개해 드리겠습니다.  

Elastic APM의 새로운 서비스 상태 보기를 통한 근본 원인 분석 및 문제 해결 가속화 

최신 클라우드 네이티브 애플리케이션은 수십 또는 수백 개의 마이크로서비스로 구성되는 경우가 많습니다. 개별 서비스의 상태를 신속하게 파악할 수 있는 기능은 사고 조사 워크플로우에 매우 중요하며 MTTI/MTTR을 단축하는 데 도움이 될 수 있습니다. 예를 들어, 서비스 맵을 사용하면 애플리케이션 문제가 어느 특정 서비스에서 발생했는지 파악하는 데 도움이 될 수 있지만, 사실상 문제의 서비스가 왜 제대로 작동하지 않는지에 대한 이유를 파악해야 합니다. 7.11에서는 서비스 상태에 대한 모든 정보를 한 곳에서 요약하고, 개발자와 사이트 안정성 엔지니어(SRE)가 아래와 같은 "이유"에 관한 질문에 쉽게 대답할 수 있도록 하는 새로운 서비스 개요 페이지를 도입합니다. 

  • 새로운 배포가 성능에 어떤 영향을 미치나요? 
  • 영향을 가장 많이 받는 트랜잭션은 무엇인가요? 
  • 다운스트림 서비스 또는 백엔드에 의해 회귀가 도입되나요?
  • 기본 인프라와 성능이 어떤 상관 관계가 있나요? 성능 문제가 발생하는 인스턴스(컨테이너, VM)는 어느 것인가요?

서비스 지연 시간, 트래픽 및 오류율을 나타내는 시계열 차트는 시간 경과에 따른 서비스 핵심 성과 지표(KPI)에 대한 높은 수준의 보기를 제공합니다. 배포 마커 및 이상 징후 경보 등 시계열 차트의 중첩된 주석은 동작을 변경시키는 원인이 되었을 수도 있는 주요 이벤트에 풍부한 컨텍스트를 제공합니다. 이러한 주석은 조사 범위를 좁힐 수 있어 수정 경로(예: 롤백)를 제공할 수 있게 해줍니다.  

서비스 개요 페이지의 스파크라인은 하위 구성요소의 시간적 추세를 간결하게 볼 수 있어, (예를 들어 특정 트랜잭션의 오류율이 급증하는 경우) 비정상적인 동작 변화를 쉽게 발견하고 조사 중에 양호한 "다음 단계"를 도출할 수 있습니다. 또한 서비스 개요 페이지에는 서비스가 배포된 인프라 인스턴스(예: 컨테이너)에 의해 분류된 서비스 상태가 표시되어 있어 기본 인프라에 문제를 연결할 수 있습니다. 

버전 7.11에서는 이 새로운 서비스 상태 보기의 첫 번째 단계를 도입하며, 향후 릴리즈에서는 문제 해결 및 근본 원인 분석 워크플로우를 더욱 간소화하고 가속화하기 위해 추가적인 컨텍스트와 보기를 제공할 예정입니다. 

향상된 새로운 호스트 세부 정보 보기를 통해 인프라 문제를 보다 신속하게 해결 

Metrics 앱의 리소스 히트맵을 사용하면 인프라의 상태를 한눈에 파악할 수 있으므로 문제가 있는 리소스(예: CPU가 급증하는 호스트)를 신속하게 발견하고, 보다 면밀한 검사가 필요한 호스트를 정확히 파악하여 다음 조사 단계를 손쉽게 좁힐 수 있습니다. 이러한 개요 수준 보기에서 쉽게 이동하여 개별 호스트에 대한 주요 메트릭의 과거 추세를 축소하여 볼 수 있도록 하는 새로운 Metrics 앱을 도입합니다. 

screenshots-infrastructure-quick-overview.png

APM의 새로운 서비스 랜딩 페이지가 한눈에 들어오는 추세를 제공하는 방식과 마찬가지로, 향상된 호스트 세부 정보 보기는 호스트에 대해 필요한 모든 정보(로그, 메트릭, 프로세스 등)를 단일 보기로 통합하여 인프라 운영 팀이 쉽게 모니터링하고 문제를 해결할 수 있도록 함으로써 근본 원인 분석을 가속화할 수 있도록 지원합니다. 

히트맵에서 타일을 클릭하면 다음과 같이 호스트에 대한 주요 정보가 표시되는 팝업이 나타납니다. 

  • 주요 호스트 메트릭(CPU, 메모리, 네트워크 등)의 시간 차트 
  • 호스트에서 생성된 로그 또는 해당 호스트에서 실행되는 서비스
  • 호스트에서 실행 중인 상위 프로세스(CPU 또는 메모리별)
  • 호스트 메타데이터(운영 체제, 클라우드 서비스 제공자 세부 정보)
  • 추적 또는 가동 시간 데이터에 대한 보다 자세한 정보를 얻을 수 있는 링크

버전 7.11은 호스트 또는 VM에 대한 향상된 보기를 처음 선보이며 향후 릴리즈에서는 이 기능이 Metrics 앱의 다른 리소스 유형(팟, 컨테이너 등)으로 확장됩니다. 

7.11의 새로운 기능 문서에서 서비스 개요 페이지와 기타 새로운 APM 기능에 대해 자세히 알아보세요.

ECS 로깅 라이브러리에서 애플리케이션 로그와 추적 간의 자동 연결을 통해 애플리케이션 통합 가시성 강화

애플리케이션 로그와 추적을 상호 연결하여 컨텍스트를 잃지 않고 그 사이를 탐색할 수 있는 기능은 애플리케이션 문제 해결 워크플로우에 매우 중요합니다. 어느 로그가 특정 추적에 속하나요? 또는 어느 추적이 생성했나요? 어떤 애플리케이션 요청이 이러한 로그를 트리거했나요? Elastic Common Schema(ECS) 로깅 라이브러리는 7.11에서 이제 정식 버전으로 제공되며, 애플리케이션 개발자가 APM 에이전트에서 캡처한 추적 컨텍스트를 애플리케이션 로그에 자동으로 손쉽게 수집할 수 있으므로 간소화된 분석에 필요한 로그-추적 상관 관계를 파악할 수 있습니다. 

animation-apm-ecs-logging.gif

ECS 로깅 라이브러리는 log4j와 같이 즐겨 사용하는 로깅 프레임워크의 플러그인으로, 개발자가 기본 워크플로우를 변경하지 않고 ECS 호환 JSON 형식으로 애플리케이션 로그를 손쉽게 쓸 수 있도록 합니다. ECS 로거는 APM 에이전트에서 캡처한 관련 추적 컨텍스트를 로그에 자동으로 기록하여 개발자가 별도의 작업 없이 관찰 가능한 애플리케이션을 만들 수 있도록 도와줍니다. 캡처된 추적 컨텍스트에는 일반적으로 trace.id transaction.idspan.id가 포함됩니다.  

데이터 수준에서 이 기본 연결을 기반으로 하는 7.11은 내장된 로그 스트림을 추적 보기에 직접 가져오므로, 사용자는 조사 중에 시각적 컨텍스트를 이동하지 않고도 특정 추적과 관련된 로그를 직접 볼 수 있습니다. 

이 로그 ↔ 추적 상관 관계 외에도 ECS 형식의 로그를 캡처하면 전체 애플리케이션 스택에서 자동 구문 분석, 사람이 읽을 수 있는 로그 및 표준화된 데이터 모델을 비롯한 다른 이점이 추가됩니다. 

7.11의 새로운 기능에서 이 기능과 인프라 모니터링을 위한 기타 향상된 기능에 대해 자세히 알아보세요.

그 밖에 주목할 만한 하이라이트

페이지 로드 폭포 차트

7.10에서는 다단계 사용자 여정을 위한 가상 모니터링을 처음 도입하였습니다. 7.11에서는 페이지의 각 개체에 대한 연결 통계를 표시하는 페이지 로드 폭포의 첫 번째 반복을 릴리즈할 예정입니다. 로드 타임 폭포 보기를 통해 사용자는 가상 테스트 중에 최종 사용자 경험에서 성능 병목 현상을 신속하게 발견할 수 있습니다. 

screenshot-synthetics-waterfall-view.png

읽기 스키마의 기초가 되는 런타임 필드

이름에서 알 수 있듯이 Elastic Observability 커뮤니티에서 가장 많이 요청한 기능 중 하나인 런타임 필드를 사용하면 인덱스 데이터에서 필드를 변환, 보강 또는 추출하여 런타임에 새 필드를 즉시 만들 수 있습니다. 이 기능은 항상 가장 많이 요청된 기능 중 하나인 읽기 스키마(schema on read)를 포함하여 새로운 통합 가시성 워크플로우를 가능하게 하는 기본 기능입니다. 

이 기능을 시작하면서 사용자는 이제 두 가지 장점을 모두 활용할 수 있게 되었습니다. 쓰기 스키마를 사용하여 인덱스 시에 데이터를 구문 분석하고 구성하여 검색 및 분석 속도를 크게 향상할 수 있습니다. 또는 분석 워크플로우의 유연성을 높이기 위해 런타임에 즉시 필드를 정의하여 읽기 스키마를 사용합니다. 

런타임 필드는 Elasticsearch 7.11에서 지원되며, Kibana에서는 제한된 UI를 지원합니다. 전용 포스팅에서 Elastic의 비전에 대한 모든 것을 읽어보세요.

이제 정식 버전이 된 검색 가능한 스냅샷 및 콜드 티어

7.10에 베타 기능으로 도입된 검색 가능 스냅샷이 이제 정식 버전으로 제공됩니다. 검색 가능한 스냅샷을 사용하면 S3와 같은 객체 저장소에서 사용자가 직접 데이터를 검색하고 분석할 수 있으므로 데이터 계층화 전략을 구현하여 성능과 비용의 균형을 쉽게 맞출 수 있습니다. 검색 가능한 스냅샷을 기반으로 하는 새로운 콜드 티어는 성능에 미치는 영향을 최소화하면서 스토리지 비용을 최대 50% 절감할 수 있습니다. 

검색 가능한 스냅샷 및 데이터 티어는 사용자가 운영 복잡성을 증가시키거나 조사 워크플로우를 변경하거나 데이터 액세스를 방해하지 않고도 더 적은 리소스로 더 많은 작업을 수행할 수 있도록 지원하는, 통합 가시성 사용 사례를 위한 획기적인 기능입니다. 

지금 바로 새 릴리즈를 사용해 보세요!

이러한 모든 새로운 기능에 대해 더 심도 있게 알아보고 릴리즈의 주요 내용을 자세히 알아보세요

더 좋은 방법은 7.11로 배포를 업그레이드하거나 Elasticsearch Service의 14일 무료 체험판을 이용하거나 Elastic Stack의 최신 버전을 설치하는 것입니다.