• 運用ログ分析
  • 通信・コミュニケーション

テレフォニカ: グローバルなコンテンツデリバリネットワークの検索機能を強化


テレフォニカについて

3億5,000万人以上の顧客を抱える世界有数の通信企業であり、モバイルネットワークサービスも提供しているテレフォニカ。スペインのマドリードに本社を置き、ヨーロッパや南北アメリカでグローバルに事業を展開しています。

市民に基本的な通信サービスを提供する国営通信事業者として始まったテレフォニカは、現在は完全民営化され、1本の回線で複数のサービスを提供するマルチプレイ接続サービスを自社所有のネットワークで幅広く提供しています。本記事の作成時点で、同社のサービスを利用するモバイルユーザーは2億7,600万人に達し、ファイバー/ケーブルネットワークの加入者は900万人以上、有料テレビの利用者は800万人以上にのぼります。

世界規模のコンテンツデリバリネットワーク(CDN)の構築

テレフォニカブランドを支えているのは、顧客への魅力的で信頼性の高いサービスの配信です。その根幹には、これまで継続的にイノベーションに注力して築き上げた、ネットワーク全域の高いサービス品質があります。

この数年、音声・インターネット・動画の新しいサービスが次々と市場に登場しています。その影響で、テレフォニカのサービス配信の手法も複雑化が加速し、サービスの配信と利用に関する各種ログデータやメトリックデータの生成量も急激に増えています。あらゆる規模の通信企業が、この状況に対応するためにインフラ管理に多大な投資を行っています。そのソリューションの多くは、インフラを構成する個々の要素の運用に関するインサイトを導き出せるように開発されています。ところが、複数の分散システムに散在するデータを抽出、一元化、分析する方法は検討されていません。ましてや、リアルタイム性は考慮されていないのが実情です。

業界の多くの企業と同様、テレフォニカも、独自システムを自社で開発していましたが、保守に手間とコストがかかるわりに、技術面の柔軟性は高くありませんでした。また、インシデントの発生を把握できるのは常に事後で、レイテンシーが問題になっていました。社内システムは、データのリポジトリとして機能するだけで、データを分析したり、新たなインサイトに基づいてアクションを起こしたりする有効な手立ては備えていませんでした。

この状況を打開するソリューションとしてテレフォニカが目をつけたのが、Elastic Stackでした。Elastic Stackを採用することで、データフォーマットをわざわざ統一しなくても、多様なデータソースを組み合わせて分析できるようになりました。テレフォニカでは現在、カスタマーエクスペリエンス全体の向上を目指して、保有データから事業運営や商取引への価値ある情報をリアルタイムで引き出せるデータ管理プラットフォームの構築に取り組んでいます。

Elastic Stackの真価を実感

テレフォニカのグローバルビデオ事業部でグローバルビデオ監視技術主任を務めるアルヴァーロ・アルダナ氏とそのチームは、当時、同社のコンテンツデリバリネットワーク(CDN)の初期のイテレーションをテストしていました。その一環として、オープンソースソリューションと自社開発ソリューションを組み合わせて、CDNを監視していました。目指していたのは、より多くの顧客を獲得できるようサービスポートフォリオを拡充しながら、ログデータやメトリックデータから隠れたインサイトを引き出して活用し、パフォーマンスを維持することでした。ビデオオンデマンド(VoD)・モバイル・インターネットのサービスが急成長する状況をまのあたりにして、アルヴァーロ氏のチームは、複数のソースから同時にデータを取り込んでリアルタイムで分析できるような、高い機能と拡張性を備えたソリューションが必要であると感じました。いくつかの選択肢を試した後、アドホックな開発を排除し、プラットフォームをエンタープライズ規模に拡張するのに最適なソリューションとして同チームが選んだのが、Elastic Stackでした。

チームはわずか数か月のうちにプラットフォームを再設計しました。クライアントトランザクションやビデオストリーミングログをElasticsearchに投入し、利用状況やサービスパフォーマンスに関するインサイトが得られるよう改良を加えました。一例として、顧客が現在視聴中のチャンネルはもちろんのこと、その視聴に関連するビットレートの統計やレイテンシも把握できるようにしました。これらは、Elastic Stackを採用するまで捕捉できていなかったデータです。チームはテレフォニカの視聴者層の内訳や視聴されているコンテンツを把握できるようになっただけでなく、特定の地域や特定の時間帯におけるライブやオンデマンドでの視聴割合を監視できるようにもなりました。

ログデータや異常の大規模分析

ログデータには、大規模なネットワークで何が起こっているかを示す有益な情報が含まれています。ログイン、ユーザーによるインタラクション、エラーなど、システム内のあらゆるイベントが連続性のないテキストベースレコードとして記録されています。システムやフォーマットの数が増えるほど、発生する問題の複雑さも増します。

テレフォニカでは、フォーマットが異なる大量のデータを監視、分析するツールとしてElasticsearchが最良であるとわかり、異常検知・トレンド把握・予測で真価が発揮されることを実感しました。

"ごく基本的なログ監視から事業全体を対象とした大規模な分析へとチームの仕事をレベルアップできたことで、パフォーマンスが飛躍的に向上しました。現在は、拡張性に優れた1つのプラットフォームの中で、以前なら不可能だったさまざまな方法を用いてデータを探索しています。監視や保守ではなく、イノベーションや最適化に注力できる体制が整ったのです。"

アルヴァーロ・アルダナ氏, テレフォニカ、グローバルビデオ監視技術主任

ソースログフォーマットの違いを気にせずにログデータをリアルタイムで探索できるため、チームは新しいアイデアを思いついたらすぐにデータの新たな関係や相関を簡単に調べることができます。テレフォニカは、自由度の高いデータ探索手法を手に入れたことで、注力の対象を問題解決からシステムの最適化に移せるようになったばかりでなく、ビジネスの中でデータ分析が果たす新しい役割にも気づくことができました。以前よりも幅広い領域でデータから大きな価値を引き出せるとわかったのです。

たとえば、チームは、ビデオフラグメントごとにエラーの発生数を把握し、インフラの使用状況と簡単に比較できます。使用率が著しく高いサーバーとその原因を特定したり、エンジニアリングリソースを集中させるべき箇所を瞬時に見極めたりできるため、チームは飛躍的な進化を遂げています。投入、クエリ、分析、格納するデータの量と種類が増えたことで、チームは以前に比べて、高度なインサイトとともに潜在的な問題をオペレーションチームに報告したり、プロアクティブかつ効率的な方法で問題を解決したり、ネットワークのパフォーマンスをリアルタイムで最適化したりできるようになっています。

2014年にElasticsearchをCDNに組み込んで以来、テレフォニカではプラットフォームの新規ユーザーが増え、消費されるコンテンツの量も爆発的に増加しています。過去3年だけを見ても顧客数は倍増しており、結果として、チームによるテストは現在も続いています。

特に、アルヴァーロ氏のチームはログの内容に基づく異常検知も担当するようになっており、現在は、組織全体から収集した他のログのパターン分析にElasticの機械学習を活用しています。テレフォニカのビデオプラットフォーム全体から収集されるログには、エンコード/デコードアクティビティ、コンテンツワークフロー、コアCDNの外部にある他のサーバーのアクティビティなどが含まれます。Elasticの機械学習機能は、Elasticsearchデータのトレンドや周期性といった振る舞いを自動的にモデル化します。機械学習機能を利用するまで、そのような異常の検知はたやすくありませんでした。異常に影響を及ぼしている要素を検出できるようになったことで、エンジニアは問題を迅速に特定し、根本原因分析を最適化し、誤検知を減らせるようになりました。その結果、上記のすべてが改善されただけでなく、サービス品質も高い水準を維持できています。

"当社でのさまざまなユースケースを考えると、Elasticが備える機械学習機能の活用には大きな可能性を感じます。実際、すでに、サービス管理ログで大いに威力を発揮しています。コンテンツの配信やストリーミングのサービスで、以前なら見過ごしていた新種の問題を特定できています。このような隠れた問題は、当社のイメージを大きく損なわないとも限りません。Elasticsearchを活用して些細な問題もリアルタイムで特定できれば、対応力は飛躍的に高まり、コンテンツ配信サービスのパフォーマンスや品質の評判も高水準を維持できます。"

アルヴァーロ・アルダナ氏, テレフォニカ、グローバルビデオ監視技術主任

テレフォニカでは、デジタルサービスの利用が着実な伸びを見せ始めた時期に、増加するデータを分析して格納する必要性に気づきました。今までは3日分しかデータを保持していませんでしたが、これからは15-25日分のデータにアクセスできる必要がありました。チームは、開発者がプラットフォームを簡単に利用できるようにし、大規模なクエリが実行されたときでもパフォーマンスを低下させないことを特に重視しました。

このときも、テレフォニカはわずか4か月未満で、それまでのビデオプラットフォームロギングのソリューションをElasticsearchに置き換えました。この移行を通じて、死角のないシステム状態把握、機械学習機能による異常検知、コスト削減を同時に達成できました。

アルヴァーロ氏のチームは、Elasticのフィールドチームやサポートチームと密に連携して、プラットフォームの構築と微調整を進め、ハードウェアの構成をテストしながら拡張し、最適な組み合わせを導き出しました。

"Elasticsearchは、他のソリューション、特に当社が以前から使用している他社製品とシームレスに統合でき、簡単に構成できる点が優れています。Elasticのチームと協業していますが、プラットフォームを構成する各要素の微調整が大きな改善につながるケースが多々あります。たとえば、プラットフォームのパフォーマンスは飛躍的に向上し、1秒間に200,000ものドキュメントを処理できるようになっています。Elasticのサポートチームとの密な連携ときめ細かい調整を通じて、さまざまな成果を達成できました。"

アルヴァーロ・アルダナ氏, テレフォニカ、グローバルビデオ監視技術主任

成果

チームはこれまでに、プラットフォームの処理能力で多数の改善が見られたことを報告していますが、最も注目すべきは運用プロセスの改善です。アルヴァーロ氏は現在、ソフトウェアパッチが適用されているかどうか、新しい更新によって視聴者へのビデオフラグメントの配信時間にどのような影響が出ているかをリアルタイムで把握できるようになっています。Elasticが実現したこのメリットは、テレフォニカにとって最も注目に値する成果です。

Elasticのソリューションを採用する以前は、バッチプロセスに基づく限定的なサービスメトリックが少数しかありませんでした。現在は、CDN開発チームが完全統合されたKPIをリアルタイムで把握し、迅速な意思決定に役立つリアルタイムダッシュボードを構築できます。

「変化をリアルタイムで把握できるようになったことで、CDNの管理方法も一変しました。Elastic Stackを採用する前には不可能だった手法です」とアルヴァーロ氏は言います。「今は、Elasticsearchを基盤として構築した強力なツールエコシステムがあるため、改善策を迅速に打つことができます。開発のスピードも上がり、統合できるソリューションの幅も広がっています。Elastic Stackは今や、当社の運用フレームワークの中核として欠かせない要素になっています。」

テレフォニカでは、ログデータと機械学習の組み合わせを軸としてイノベーションを進めることで、CDNの全体像を把握できるようになり、注力の対象を管理・保守からネットワークの最適化に移行できました。このことは、サービス全体の品質向上に重要な役割を果たしています。管理者は、Elasticsearchを使用することで、異常検知と原因特定に要する時間を短縮できます。大量の履歴データもモデル化して分析でき、過去の障害を確認できるだけでなく、パターン・トレンド・前兆・危険な徴候を洗い出すこともできます。

展望

チームは、顧客のロイヤリティを末永く維持するためには、ネットワークパフォーマンスへの注力こそが重要な基盤であると考えています。今後は、Elastic Stackの実装を、顧客ポータル・デジタル著作権管理・コンテンツ管理・顧客プロビジョニングなどのビデオプラットフォームアプリケーションにも拡張する予定です。アルヴァーロ氏は、通信分野がこの先どのように変化し、顧客のニーズがどのように進化しても、これらのテクノロジを組み合わせて提供することで、テレフォニカは競争力を維持していけると確信しています。

「お客様に信頼してもらえるネットワークを構築するには、ネットワークパフォーマンスを軸としてイノベーションを進め、単なる監視から最適化へと事業モデルを進化させる必要があります。かつてない刺激的な方法でサービスポートフォリオを拡充して提供するうえで、ネットワークの信頼性と回復力は、当社の重要な注力領域でありつづけます」とアルヴァーロ氏は結論づけます。「Elasticと協業することで、細部まで行き届いたインテリジェントなプラットフォームを構築でき、リアルタイムの対応力と成長に対する万全の備えを手に入れられたことが、当社の強みになっています。」

テレフォニカのクラスター

  • クラスター数
    1
  • ノード数
    10
  • ドキュメント総数
    30,176,007,552
  • 総データサイズ
    27TB
  • 投入レート(1日あたり)
    約1-1.5TB