IT 리더가 Observability를 사용해 보다 사전 예방적인 조직을 구축하는 방법

인사이트를 얻기 위해 성능 데이터를 마이닝하는 것이 긍정적인 비즈니스 결과의 차이를 만드는 요인이 될 수 있습니다

alert-management.jpg
핵심 사항
  • Observability는 IT 조직을 사후 대응형에서 사전 예방형으로 전환하는 데 도움이 될 수 있습니다
  • 문제가 발생하기 전에 문제를 파악하는 것이 사용자 경험 저하를 방지합니다
  • 실시간 신호는 평균 해결 시간(MTTR) 메트릭을 개선하는 데 도움이 됩니다

최신 IT 아키텍처의 언어에서 대기 시간은 응답이 없는 비즈니스에 대한 완벽한 은유입니다. 조직의 대기 시간에 문제가 있는 경우, 운영 팀은 항상 이벤트를 예상하기보다는 이벤트에 한 발 늦게 대응합니다. 

하지만 계속 그런 상태로 있어야 하는 건 아닙니다. 

예를 들어, 캘리포니아주 샌프란시스코에 본사를 둔 다국적 금융 서비스 회사인 Wells Fargo는 수많은 애플리케이션의 성능을 측정하려면 최신 Observability와 APM 솔루션이 있어야 한다는 것을 깨달았습니다. Wells Fargo의 Eric Chho 엔지니어링 담당 부사장은 Wells의 광범위한 IT 조직 전반에 걸쳐 많은 애플리케이션 팀에 Observability를 제공하는 책임을 맡고 있습니다. Chho 부사장은 이렇게 말합니다. “[애플리케이션 가용성 향상 및 대기 시간 단축]에 대한 골든 시그널을 측정할 수 있으면 전반적인 고객 경험이 개선될 것입니다.”

“'데이터는 새로운 석유'라는 유명한 말도 있듯이, 궁극적으로 우리는 이 모든 원료를 가지고 있지만 충분히 빨리 처리할 수가 없습니다. 바로 이 대목이야말로 검색이 대단히 중요해지는 부분입니다. 여러분이 [데이터]를 탐색할 수 있는 능력과 속도가 바로 여러분의 능력과 속도가 됩니다." Chho 부사장은 이렇게 덧붙입니다.

"전체 환경에서, 애플리케이션 및 멀티 클라우드 인프라 스택에서 비용 효율적인 가시성을 확보하는 것이 매우 중요합니다." Elastic의 Sajai Krishnan Observability 총괄 매니저는 이렇게 말합니다. "경영진은 소셜 미디어에서 고객의 문제에 대해 듣고 싶어하지 않습니다. 잠재적인 문제 지점을 사전에 해결하고 싶어합니다."

IT 운영을 사후 대응형에서 사전 예방형으로 전환하는 것은 들어오는 원격 분석 데이터를 수집하고 분석하기 위한 Observability 솔루션을 구축하는 것에서부터 시작됩니다. Observability 플랫폼은  이상 징후가 탐지될 때 자동으로 경보를 생성할 수 있습니다. 이 성능 데이터 스트림을 마이닝함으로써 IT는 평균 해결 시간을 단축하고 99.999%의 시스템 가용성을 달성하는 등의 전략적 목표를 성취할 수 있습니다. 사전 예방적 모니터링을 통해 문제가 최종 사용자에게 영향을 미치기 전에 문제를 발견하고 예방할 수 있습니다. 특히 CDN 플랫폼을 사용하는 활용도가 높은 공급업체는 문제가 최종 사용자에게 미치게 될 영향에 대한 우려가 큽니다.

데이터를 통한 사전 예방 조치

경보 관리는 차별화 요소입니다. 

많은 모니터링 시스템이 클라우드, 서비스, 네트워크, 사물 인터넷 및 상이한 시스템에서 발생하는 성능 데이터 스트림의 기하급수적인 증가에 맞춰 적절하게 확장되지 못합니다. 여러 성능 모니터링 도구를 사용하는 것이 일부 조직에서는 효과적일 수 있지만, Wells Fargo는 통합 데이터 형식을 도입하거나 데이터를 격리된 솔루션으로 라우팅하지 않고도 데이터를 분석할 수 있는 기능이 필요했습니다.

"참여가 핵심입니다." Chho 부사장은 이렇게 말합니다. "우리는 단순히 기술을 빌드하고 사람들이 그 기술을 채택하기를 기대할 수만은 없습니다. 우리는 그룹들 간의 파트너십을 통해 사용 사례와 가치를 이해하는 접근 방식을 취합니다." Observability 사용이 셀프 서비스화되는 "변곡점"에 도달하기 위해서는, 경보 관리가 마찰을 줄이고 채택률을 높이는 핵심 기능입니다. Chho 부사장은 Wells Fargo의 Observability 솔루션을 관리할 때 "어떻게 하면 개발자의 생산성을 최대한 빠르게 높일 수 있을까?"라는 점에 대해 끊임없이 생각한다고 말합니다. "저는 기본적으로 이러한 서비스를 자동화된 방식으로 제공하기를 원합니다.”

테스팅은 조직이 사전 예방적으로 대처하는 한 가지 방법으로, 종종 제품 검색, 제품 체크아웃 또는 기본 로그인과 같은 사용자 여정을 테스트합니다. Observability 시스템은 조직이 B2B 서비스형 소프트웨어(SaaS)로 제공되는 애플리케이션(신용 조회 등)의 성능 저하와 같은 문제의 원인을 파악할 수 있도록 지원합니다. 문제를 사전에 파악하고 즉각적인 알림을 받게 되면 열악한 사용자 경험으로 인해 매출이 저하되는 상황에까지 이르게 되는 것을 방지하는 데 도움이 됩니다.

또한 운영 팀은 시간이 지남에 따라 성능 데이터를 추세화하여 사전 예방적으로 대처할 수 있습니다. CRM 애플리케이션 성능 모니터링과 같은 프로세스를 자동화하면 운영 팀이 대시보드 보고서를 수동으로 검토하지 않아도 됩니다. 애플리케이션이 서비스 레벨 목표를 달성하지 못하는 경우, Observability는 운영 팀이 문제의 원인을 신속하게 파악할 수 있도록 지원할 수 있습니다.

해결 시간 단축

또 다른 예로, Jaguar Land Rover의 경우, Observability 플랫폼을 구축하는 것은 중요한 제품 수명 주기 관리 데이터를 수집하고 경보를 생성하여 정교하게 튜닝된 재규어 E-타입 클래식 스포츠카처럼 제품 라인을 계속 가동시킨다는 것을 의미했습니다. 

Jaguar Land Rover의 Andy Walker 수석 프로젝트 관리자는 "차량 및 생산 라인의 성능에서 핵심 요소 중 하나는 리더십 팀과 엔지니어가 사용할 수 있는 데이터의 품질”이라며 “많은 양의 데이터가 있는데, 이 데이터는 정확하고 완전하며 즉시 사용할 수 있어야 한다"고 말합니다.

재규어 랜드로버는 Elastic을 배포해 수억 달러 상당의 라이선스 도구, 데이터 저장 공간을 포함한 인프라, 제조 장비 등 제조 및 기술 자산의 효율성과 활용률을 보고할 수 있게 됩니다. 데이터 이상 징후가 탐지되면 시스템에서 사전 예방적으로 경보를 보냅니다. 

사전 예방적인 솔루션을 구축하려면 시스템에서 발생하는 상황을 실시간으로 이해해야 합니다. 

Elastic의 Sajai Krishnan Observability 총괄 매니저는 이렇게 말합니다. "모니터링과 Observability의 차이는 혈압 모니터와 클라우드 분석에 연결된 웨어러블 기기의 차이입니다. 대량의 데이터에 대한 질문을 하는 데 사용할 수 있는 실시간 분석 기능입니다. 조직의 경우, 이러한 Observability 솔루션은 성장해감에 따라 경제적으로 확장할 수 있어야 합니다."

온디맨드 웨비나 보기 - 2022년 Observability 동향: 미래를 내다보다