ITリーダーが予防型の組織を実現するための鍵はオブザーバビリティ

パフォーマンスデータをマイニングしてインサイトを引き出せるかどうかで、ビジネスの成果は大きく変わる

alert-management.jpg
この記事のポイント
  • オブザーバビリティを活用することで、IT組織を事後対応型から予防型に転換できる
  • ユーザーエクスペリエンスの品質低下を防ぐためには、問題を発生前に見つけることが必要
  • シグナルをリアルタイムに得られれば、MTTR(平均復旧時間)を短縮できる

モダンなITアーキテクチャでは、レイテンシーはビジネスの反応の遅さをそっくりそのまま体現するもの、というのが共通認識です。組織のレイテンシーに問題があれば運用チームは後手に回り、イベントを事前に予測するのではなく、発生後に対処するのが常になってしまいます。 

しかし、そんな状況を変える術があります。 

たとえば、カリフォルニア州サンフランシスコに拠点を置くグローバル金融サービス企業ウェルズ・ファーゴの事例を見てみましょう。同社は、膨大な数のアプリケーションのパフォーマンスを測定するためには、最先端のオブザーバビリティとAPMソリューションを導入しなければならないと気付きました。ウェルズ・ファーゴのIT組織は多方面に展開しており、この組織に含まれる多数のアプリケーションチームにオブザーバビリティを提供しなければなりません。この責任を担っているのが、エンジニアリング担当バイスプレジデントのエリック・チョー氏です。チョー氏は次のように語っています。「アプリケーションの可用性向上とレイテンシー削減に関するゴールデンシグナルを測定できるようになれば、全体的な顧客エクスペリエンスを高められます」

「結局のところ、有名な格言のように『データとは新しい石油』なのです。原料自体は手に入れられても、処理のスピードが十分ではありません。そこで非常に重要になるのが検索です。データを探索する能力と速度こそが物を言うのです」(チョー氏)

ElasticでObservability担当ゼネラルマネジャーを務めるサジャイ・クリシュナンは次のように話しています。「何につけても欠かせないのは、環境、そしてアプリケーションとマルチクラウドのインフラスタックをコスト効率よく丸ごと可視化することです。経営陣は、顧客の問題をソーシャルメディア経由で知るのではなく、問題の起きそうな部分について事前に対策を打ちたいと考えています」

IT運用を事後対応型から予防型に変えるための初めの一歩は、受信したテレメトリーデータを取り込み分析するオブザーバビリティソリューションの確立です。オブザーバビリティプラットフォームでは、異常が検出されたとき自動的にアラートを生成することができます。 取得したパフォーマンスデータストリームをマイニングすることで、IT部門は平均復旧時間の短縮やファイブナイン(99.999%)のシステム可用性など、戦略的目標を達成できるようになります。予防型の監視では、問題を検出できるだけでなく、その影響がエンドユーザーに及ぶ事態も避けられます。これは、CDNプラットフォームを活用しており利用率の高いプロバイダーには特に大きな意味を持ちます。

データを活用して予防的に対応

状況を変える鍵は、アラート管理です。 

クラウドやサービス、ネットワーク、IoT、異種システムによってパフォーマンスデータのストリームは急増する一方ですが、このような増加のペースに合わせて拡張できている監視システムはほとんどありません。組織によっては、パフォーマンス監視ツールを複数使用するという選択肢もあります。しかし、ウェルズ・ファーゴでは、統一データフォーマットを導入したり、サイロ化されたソリューションにルーティングしたりすることなく、データ分析を実行できなくてはなりませんでした。

「重要なのはエンゲージメントです。テクノロジーを開発して、後はユーザーが採用してくれるのに任せる、というわけにはいきません。当社のアプローチでは、各グループにまたがってパートナーシップを築いて、ユースケースや価値のありかを把握しています」と、チョー氏。 セルフサービス式のオブザーバビリティが実現される「変革点」に到達するためには、摩擦を減らし、採用を広げるためのアラート管理機能が欠かせません。チョー氏は、ウェルズ・ファーゴのオブザーバビリティソリューションを管理する際、「開発者の生産性をできる限り迅速に高めるにはどうすればよいか」ということを常に考えています。「私は基本的に、自分は脇役となり、これらのサービスを自動方式で提供したいと思っています」(同氏)

予防型のアクションの一例として、テストが挙げられます。多くの場合、製品検索、製品の精算、さらには基本的なログインといったユーザージャーニーをテストします。オブザーバビリティシステムがあれば、B2BのSaaS式アプリケーション(たとえば信用調査)のパフォーマンス低下など、問題の原因を突き止めやすくなります。問題を前もって見つけ出し、また即座に通知を受け取ることで、ユーザーエクスペリエンスの品質の低さが原因で、収益の低下に至る事態を防ぐことができます。

運用チームを予防型に変えるには、パフォーマンスデータの変遷を追跡するという方法もあります。CRMアプリケーションのパフォーマンス監視といったプロセスを自動化すれば、運用チームがダッシュボードレポートを手動で確認する手間がなくなります。また、アプリケーションがサービスレベル目標を満たしていない場合、運用チームはオブザーバビリティをもとに、問題の原因をすばやく発見できます。

復旧時間を短縮する

もう1つの事例として、ジャガー・ランドローバーもご紹介します。同社では、重要なプロダクトライフサイクル管理データを取得してアラートを作成するオブザーバビリティプラットフォームを構築。これにより、よく整備されたクラシックなスポーツカー"ジャガーEタイプ"の走りのように、製造ラインをスムーズに進めることに成功しました。 

ジャガー・ランドローバーでシニアプロジェクトマネージャーを務めるアンディ・ウォーカー氏は次のように語っています。「車両と製造ラインのパフォーマンスを支える主要な要素の1つは、経営陣とエンジニアが扱うことのできるデータの質です。データはとにかく膨大ですが、正確かつ完全、そしてすぐに使える状態でなければなりません」

ジャガー・ランドローバーではElasticをデプロイすることで、何億ドル分にも相当するライセンス型ツールと、データストレージを含むインフラ、製造装置などの製造、およびテクノロジー資産の効率性と使用状況をレポートします。データ異常が検出されたら、システムからプロアクティブにアラートが送信されます。 

予防型のソリューションを実現するためには、システムで現在起きていることをリアルタイムに理解しなければなりません。 

Elasticのクリシュナンは次のように述べています。「監視とオブザーバビリティは、血圧計と、クラウド分析に接続されているウェアラブルデバイスぐらい違うものです。オブザーバビリティとは、大量のデータから質問の答えを得られるリアルタイム分析と言えます。組織にとってこのソリューションは、成長に合わせてリーズナブルに拡張できるものでなくてはなりません」

こちらのオンデマンドウェビナーもぜひご覧ください。「2022年のオブザーバビリティトレンド:未来への展望」