Observability
통신업

Telefónica: 세계적인 수준의 콘텐츠 전송 네트워크를 위한 검색 지원

회사 소개

3억 5천만 명이 이상의 고객들과 함께 하고 있는 Telefónica는 가장 규모가 큰 텔레커뮤니케이션 기업이자 모바일 네트워크 제공업체 중 하나입니다. 스페인 마드리드에 본사를 두고 있는 다국적 사업 운영은 유럽과 미 대륙으로 확장되었습니다.

대중을 상대로 기본적인 통신 서비스를 제공해오던 공공 텔레커뮤니케이션 회사로 첫걸음을 뗀 Telefónica는 현재 자체적인 네트워크를 통해 포괄적인 다중 플레이 및 연결 제품을 제공하고 있습니다. 당사는 현재 2억 7천 6백만 명의 모바일 고객, 9백만 명 이상의 광/케이블 구독자와 8백만 명 이상의 유료 TV 시청자를 위한 서비스를 제공하고 있습니다.

세계적인 수준의 콘텐츠 전송 네트워크(CDN) 구축

Telefónica 브랜드는 고객들에게 강력하고 신뢰할 수 있는 서비스를 제공함으로써 구축할 수 있었습니다. 브랜드 구축의 핵심적인 부분은 바로 네트워크 전반에 걸친 서비스 품질을 보장하기 위해 혁신에 지속적으로 집중한 Telefónica의 노력이라고 할 수 있습니다.

지난 몇 년간 새로운 목소리와 인터넷, 그리고 영상 서비스의 확산으로 인해 Telefónica의 전송 방식의 복잡성도 극적으로 증가했습니다. 이는 서비스 공급 및 소비 모두에 다양한 로깅 및 메트릭 데이터양의 급격한 증가로 이어졌습니다. 이에 따라 규모를 막론하고 모든 텔레커뮤니케이션 기업에서 인프라 관리 투자를 늘렸습니다. 이러한 해결책은 인프라의 특정 분야에 대한 운영상의 인사이트를 제공하고자 고안된 것이었습니다. 그러나 대부분의 사람이 여기에서 놓친 점은 바로 다수의 이질적인 시스템 전반에 확산된 데이터를 추출, 통합 및 분석하는 과정이었습니다. 또한 이를 실시간으로 진행하는 것이었습니다.

업계의 다른 많은 이들처럼 Telefonica에서도 복잡하고 느리며 유지관리가 값비싸며 아주 낮은 기술적 유연성을 제공하는 시스템을 자체 개발한 적이 있습니다. 또한 사고가 발생한 이후에야 이를 인지할 수 있었고, 대기 시간은 문제가 될 정도로 길었습니다. 내부 시스템은 데이터를 위한 저장소를 제공하고 있었지만 데이터를 분석할 유의미한 방식이나 새로운 인사이트에 따른 조치는 제공하지 못했습니다.

Telefónica는 Elastic Stack과 함께 해결책을 찾아내었고 이를 통해 통합 데이터 형식 없이도 다양한 데이터 소스를 결합하여 분석할 수 있었습니다. Telefónica는 보유한 데이터의 운영 및 상업적 가치에 대한 실시간 액세스를 제공하는 데이터 관리 플랫폼 확립을 위해 혁신을 거듭하며 전반적인 고객 경험을 개선하는 데 앞장서고 있습니다.

Elastic Stack의 강점 발견

Telefónica 글로벌 영사 유닛의 글로벌 영상 모니터링 기술 리드인 Álvaro Aldana 씨와 그의 팀은 당사 콘텐츠 전송 네트워크(CDN)의 초기 반복을 통해 실험해나가며 오픈 소스 및 저작권 솔루션을 함께 사용한 모니터링도 실시했습니다. 이들의 목표는 더 많은 고객을 유치하기 위한 서비스 포트폴리오를 확장하기 시작하면서도 로그와 메트릭 데이터에 숨은 인사이트를 활용해 성과를 유지하는 것이었습니다. 주문형 영상(VoD), 모바일 및 인터넷 서비스의 급성장에 따라 Alvaro 씨의 팀에서는 다양한 소스에서 즉각적인 데이터 수집 데이터 및 실시간 분석이 가능한 정교하면서도 손쉽게 확장할 수 있는 솔루션이 필요하다는 것을 깨달았습니다. 다양한 옵션으로 실험을 진행한 이후 임기응변식 개발을 타파하고 기업 규모의 플랫폼을 도입할 완벽한 적임자로 Elastic Stack을 선택하게 되었습니다.

몇 개월간의 짧은 기간 만에 당사 팀에서는 소비와 서비스 성능에 대한 인사이트를 얻고자 플랫폼을 다시 엔지니어링해 클라이언트 거래와 영상 스트리밍 로그를 Elasticsearch에 수집했습니다. 예를 들어, 이들은 고객이 영상을 시청하는 채널과 더불어 마침내 연관 비트 전송률 통계와 대기 시간도 확인할 수 있었습니다. 바로 Elastic Stack을 도입하기 전까지는 지속적으로 간과해온 데이터였습니다. 이들은 Telefónica의 시청자 구성뿐 아니라 시청하는 콘텐츠 또한 확인할 수 있었습니다. 팀에서는 또한 특정 지역과 특정 시간대에 실시간 또는 주문형으로 시청하는 비율도 모니터링할 수 있었습니다.

로그 데이터 및 대규모 변칙 분석

로그 데이터는 대규모 네트워크 내부와 전반에서 어떤 일이 벌어지고 있는지에 대한 귀중한 정보를 담고 있습니다. 로깅은 로그인, 사용자 상호작용 및 오류와 같이 시스템 내에서 벌어지는 모든 사건을 간헐적 문자 기반 기록으로 기록합니다. 시스템과 형식이 다양할수록, 풀어야할 과제도 복잡해집니다.

Telefónica는 Elasticsearch가 큰 볼륨의 다양한 형식 데이터를 모니터링 및 분석하는 데 완벽한 도구라고 판단했고, 변칙 탐지와 경향 포착 및 데이터 예측의 강점을 발견했습니다.

진정한 성능 향상의 비결은 기본적인 로그 모니터링에서 사업 전반에서의 대규모 분석으로의 발전이었습니다. 당사에서는 이제 한 가지의 확장 가능한 플랫폼 내에서 새롭고 다양한 방식으로 당사의 데이터를 탐색할 수 있으며 단순 모니터링 및 유지관리가 아닌 혁신과 최적화에 맞춘 모델로 이동할 수 있게 되었습니다.

– Álvaro Aldana, 글로벌 영상 모니터링 기술 리드, Telefónica

로그 데이터를 실시간으로 탐색할 수 있게 되면서(소스 로그 형식과 관계없이) 팀에서는 새로운 아이디어를 떠올리는 것과 같이 최대한 빠른 속도로 손쉽게 새로운 관계와 연관성을 살펴볼 수 있게 되었습니다. 탐색에 대한 새로운 자유를 통해 Telefónica는 문제 해결에서 시스템 최적화로 나아갈 수 있었을 뿐 아니라 더욱 큰 규모의 사업 내 데이터 분석에서 새롭고 큰 역할을 맡을 수 있었습니다.

예를 들어 팀에서는 각 영상 조각에서 발생하는 다양한 오류를 손쉽게 확인할 수 있으며 이를 인프라 사용에 대해 비교할 수 있습니다. 이는 팀에서 어떤 서버가 어떤 이유로 가장 많이 사용되는지, 엔지니어링 리소스를 어디에 집중해야 하는지 즉각적으로 구분할 수 있게 되었기 때문에 매우 중요한 발전이라 할 수 있습니다. 이제는 수집, 쿼리, 분석 및 저장하는 데이터의 볼륨과 다양성을 증가시켜 더욱 높은 수준의 인사이트와 함께 운영팀에 발생 가능한 문제를 보고하고 선행적이고 효율적인 방식으로 문제를 해결하며 네트워크 성능을 실시간으로 최적화할 수 있게 되었습니다.

2014년 Elasticsearch를 CDN에 통합한 이래로 새로운 사용자들이 플랫폼에 유입되면서 Telefónica에서는 폭발적인 콘텐츠 소비량을 확인할 수 있었습니다. Telefónica의 고객 수는 지난 3년 만에 두 배가 증가했으며 이에 따라 팀에서는 새로운 실험을 계속해왔습니다.

특히 Alvaro 씨의 팀은 로그 콘텐츠를 기반으로 변칙 감지 활동으로 분야를 확장했습니다. 이들은 Elastic 머신 러닝을 사용해 조직 주변의 기타 로그 패턴, 더 자세히 말하면 Telefónica의 엔드 투 엔드 영상 플랫폼의 로그를 분석했습니다. 인코딩/디코딩 활동, 콘텐츠 작업 흐름과 핵심 CDN 외부에서 일어나는 기타 서버 활동 등을 분석한 것입니다. Elastic 머신 러닝에는 Elasticsearch 데이터 트렌드, 주기성 등의 행동을 자동 모델링하는 기능이 포함됩니다. 머신 러닝 기능을 사용하기 전에는 이러한 변칙을 쉽게 발견하지 못했습니다. 이러한 변칙에 영향을 미치는 요소를 감지하여 엔지니어들은 문제를 더욱 빠르게 파악하고 근본 원인 분석을 간소화하며 가양성을 줄였습니다. 이러한 기능은 상기 명시한 모든 활동을 개선했을 뿐만 아니라 서비스 표준의 품질도 지킬 수 있었습니다.

사업 전반의 사용 사례를 통해 Elastic 기계 학습 적용의 전도유망한 장래를 엿볼 수 있습니다. 실제로 이는 서비스 관리 로깅에서 큰 도움이 되고 있습니다. 확인하지 못할 수도 있었던 콘텐츠 전송 및 스트리미 서비스 내의 새로운 문제를 파악할 수 있게 된 것입니다. 이러한 숨겨진 문제들로 인해 당사의 이미지가 손상될 수 있기 때문에 Elasticsearch를 통해 실시간으로 이러한 작은 문제들을 파악할 수 있게 된 것은 당사가 더욱 즉각적으로 대응하고 콘텐츠 전송 서비스 작동에도 문제가 없으며 품질에 대한 당사의 명성도 유지할 수 있음을 뜻합니다.

– Álvaro Aldana, 글로벌 영상 모니터링 기술 리드, Telefónica

Telefónica에서는 또한 디지털 서비스 소비의 증가를 확인하면서 더 많은 양의 데이터를 분석 및 저장할 필요성을 인식하게 되었습니다. 이들은 3일간 기록을 보유했던 이전과 달리 15~25일간의 데이터에 액세스해야 했습니다. 팀에서는 특히 사용자가 대규모 쿼리를 수행할 때 성능 저하 없이 개발자들이 손쉽게 이용할 수 있는 플랫폼을 만드는 것을 중점으로 했습니다.

또한 4개월도 채 안 되는 기간에 Telefónica에서는 영상 플랫폼 로깅의 이전 솔루션에서 Elasticsearch로 전환해 시스템을 더욱 전체적으로 이해할 수 있게 되었고 머신 러닝 기능을 통해 변칙을 확인하는 동시에 비용을 절약할 수 있었습니다.

Alvaro 씨와 그의 동료들은 Elastic 현장 및 지원팀과 긴밀히 협력하여 플랫폼을 구축하고 미세 조정하며 다양한 혼합 하드웨어를 시험 및 확장하여 완벽한 조합을 찾아내고자 했습니다.

가장 중요한 것은 다른 솔루션, 특히 이전 공급업체와 과 얼마나 잘 통합되느냐, 그리고 얼마나 쉽게 구성할 수 있느냐였습니다. Elastic과 협력하면서 당사에서는 현저한 개선 사항을 직접 확인할 수 있을 정도까지 각 플랫폼 구성요소를 미세 조정할 수 있습니다. 플랫폼의 성능은 상당한 수준으로 가속화되었습니다. 미세 조정뿐 아니라 Elastic 지원팀과의 긴밀한 협력을 통해 현재 당사에서는 초당 200,000건의 문서를 처리할 수 있습니다.

– Álvaro Aldana, 글로벌 영상 모니터링 기술 리드, Telefónica

결과

당사 팀에서는 플랫폼 처리 능력에 대한 즉각적인 개선 사항을 보고했으나 가장 특기할 만한 개선 사항은 바로 운영 처리였습니다. Alvaro 씨는 이제 실시간으로 소프트웨어 패치가 효과적인지, 또는 영상 조각이 최종 시청자에게 전송되는 시간에 대해 최종 업데이트가 어떻게 영향을 미치는지 확인할 수 있습니다. Elastic의 기술을 통해 실현한 이 성과가 Telefónica에서 확인한 가장 뚜렷한 장점입니다.

Elastic과 함께하기 전에는 Telefónica에서 일괄 처리에 따른 제한적인 서비스 메트릭 하위 집합이 있던 시절도 있었습니다. 이제 CDN 개발팀에서는 실시간으로 전체 통합 KPI를 확인하고 실시간 대시보드를 구축해 즉각적인 결정을 내릴 수 있습니다.

Alvaro씨는 “실시간으로 변화를 확인할 수 있는 것은 저희가 CDN을 관리하는 방식을 완전히 탈바꿈했고 Elastic Stack과 일하기 전에는 불가능한 것이었습니다”라고 말합니다. 또한 그는 “Elasticsearch에 구축된 강력한 도구 환경이 있기 때문에 더욱 빠른 개선이 가능합니다. 우리는 더욱 빠르게 개발할 수 있게 되었고 이제 통합하는 솔루션을 확장할 수 있게 되어 Elastic Stack는 이제 운영 프레임워크에 아주 중요한 자리를 차지하고 있습니다.”라고 덧붙였습니다.

로그 데이터와 머신 러닝의 조합이라는 혁신을 통해 Telefónica에서는 CDN에 대한 전반적인 시각을 가질 수 있었고 관리 및 유지관리 모델에서 전반적인 서비스 개선에 매우 중요한 네트워크 최적화로 발전할 수 있게 되었습니다. Elasticsearch를 사용하면 관리자들이 변칙을 찾아내 인과 관계를 더욱 빠르게 정확히 짚어낼 수 있습니다. 또한 이를 통해 대량의 기록 데이터를 모델링하고 분석해 이전 실패에서 배울 뿐 아니라 패턴, 트렌드, 전조와 경고 신호를 파악하는 것이 가능해졌습니다.

미래

팀에서는 네트워크 성능에 대한 Telefónica의 초점이야말로 현재, 그리고 향후에도 지속되는 고객 충성도를 유지할 수 있는 토대이자 비결이라는 의견을 내놓았습니다. 이들은 Elastic Stack이 구현한 기술을 고객 포털, 디지털 권리 관리, 콘텐츠 관리 및 고객 프로비저닝등 영상 플랫폼 응용 프로그램으로 확장해 나갈 것입니다. 하지만 Alvaro 씨는 텔레커뮤니케이션 부문과 고객 니즈가 어떻게 변화하는지와 관계없이 Telefónica가 경쟁력을 유지하는 방법은 바로 기술의 조합이라는 의견입니다.

Alvaro 씨는 “네트워크 성능을 혁신하며 단순 모니터링이 아닌 최적화 모델로 나아가야만 바로 고객들이 신뢰할 수 있는 네트워크를 구축할 수 있을 것입니다. 당사가 성장해 나가며 서비스 포트폴리오를 새롭고 흥미로운 방식으로 확장해나가는 데 있어 신뢰성과 복원력은 계속해서 당사의 주요 중점이 될 것입니다”라고 끝맺었습니다. “Elastic에서 실현한 것은 매우 민감하고 지능적인 플랫폼으로서, 당사에서 실시간으로 대응하고 성장을 위한 준비를 가능하게 한 동력을 제공했습니다.”

Telefonica의 클러스터

  • 클러스터 수
    1
  • 노드 수
    10
  • 총 문서 수
    30,176,007,552
  • 총 데이터 크기
    27TB
  • 일일 수집 비율
    일일 약 1~1.5TB