Observability
Technik & Telekommunikation

Telefónica: Elastic-Lösungen für ein erstklassiges Content Delivery Network


Informationen zum Unternehmen

Mit mehr als 350 Millionen Kunden gehört Telefónica zu den größten Telekommunikationsunternehmen und Mobilfunkanbietern weltweit. Das in der spanischen Hauptstadt Madrid ansässige Unternehmen ist in ganz Europa sowie in Amerika aktiv.

Telefónica, einst ein normaler Anbieter von einfachen Telekommunikationsdiensten für die Öffentlichkeit, bietet seinen Kunden heute umfassende Multiplay- und Konnektivitätsdienste, die über unternehmenseigene Netze ausgeliefert werden. Das Unternehmen stellt derzeit Dienste für 276 Millionen Mobilfunkkunden, mehr als 9 Millionen Abonnenten von Glasfaser-/Kabelanschlüssen und mehr als 8 Millionen Pay-TV-Kunden bereit.

Aufbau eines erstklassigen Content Delivery Network (CDN)

Der Ruf der Marke Telefónica basiert auf starken, zuverlässigen Diensten für ihre Kunden. Dazu beigetragen hat nicht zuletzt der kontinuierliche Fokus auf Innovation, der eine hohe Dienstqualität in allen Netzen des Unternehmens sicherstellt.

Das Aufkommen neuer Sprach-, Internet- und Videodienste führte im Laufe der letzten Jahre dazu, dass die Bereitstellungsmethoden von Telefónica immer komplexer wurden. Im Ergebnis hat sich die Menge der verschiedenen Logging- und Metrikdaten für die Bereitstellung und Inanspruchnahme der Dienste drastisch erhöht – ein Trend, der bei Telekommunikationsunternehmen aller Größen zu verzeichnen ist. Als Reaktion musste das Unternehmen massiv in die Infrastrukturverwaltung investieren. Viele dieser Lösungen haben das Ziel, operationale Erkenntnisse über konkrete Teile dieser Infrastruktur zutage zu fördern. Allerdings fehlte eine Möglichkeit, die Daten auf den verschiedenen Systemen extrahieren, vereinheitlichen und analysieren zu können, und das am besten in Echtzeit.

Wie bei vielen anderen Mitbewerbern gab es bei Telefónica selbstentwickelte Systeme, die sich durch eine komplizierte Bedienung, eine teure Unterhaltung und eine geringe technische Flexibilität auszeichneten. Hinzu kam, dass sie Vorfälle nur im Nachhinein erkennen und verstehen konnten und dass die Latenzzeiten problematisch waren. Das interne System konnte die Daten zwar speichern, es war aber nicht sinnvoll möglich, die Daten zu analysieren oder bei neuen Erkenntnissen entsprechende Maßnahmen einzuleiten.

Zur Lösung dieser Probleme entschied sich Telefónica für den Elastic Stack. Mit ihm kann das Unternehmen Daten aus unterschiedlichen Datenquellen kombinieren und analysieren, ohne diese zuvor in ein einheitliches Datenformat bringen zu müssen. Telefónica arbeitet an einer innovativen Datenverwaltungsplattform, mit der der betriebliche und geschäftliche Wert der im Unternehmen vorhandenen Daten in Echtzeit genutzt werden kann, um so für ein besseres allgemeines Nutzungserlebnis bei den Kunden zu sorgen.

Die Power des Elastic Stack

Álvaro Aldana, Global Video Monitoring Technical Lead, und sein Team bei Telefónica Global Video Unit hatten mit frühen Iterationen des unternehmenseigenen Content Delivery Network (CDN) experimentiert und die Iterationen dabei unter anderem mit einer Mischung aus Open-Source- und proprietären Lösungen überwacht. Ihr Ziel war es, das Dienstangebot zu skalieren, um mehr Kunden unterstützen zu können, und gleichzeitig die in den Logs und Metriken verborgenen Erkenntnisse zu nutzen, um die Performance aufrechtzuerhalten. Angesichts des schnellen Wachstums bei Video-on-Demand-, mobilen und Internetdiensten wurde dem Team klar, dass es eine technisch ausgefeilte, hochgradig skalierbare Lösung benötigte, die die sofortige Ingestion und Echtzeitanalyse von Daten aus verschiedenen Quellen unterstützt. Das Team experimentierte mit mehreren Optionen und dabei erwies sich der Elastic Stack als perfekter Ersatz für die bisherigen Ad-hoc-Entwicklungen. Mit ihm war es möglich, die Plattform auf Enterprise-Niveau zu bringen.

Es dauerte nur wenige Monate, bis das Team die Plattform so umgebaut hatte, dass Kundentransaktionen und Videostreaming in Elasticsearch ingestiert werden konnten, um Erkenntnisse über die Inanspruchnahme und Performance von Diensten zu gewinnen. So kann Álvaro Aldanas Team zum Beispiel herausfinden, welche Kanäle die Kunden gerade sehen, und endlich auch zugehörige statistische Daten zu Bitraten und Latenzzeiten abrufen – Daten, die vor der Umstellung auf den Elastic Stack kontinuierlich vernachlässigt worden waren. Daraus lassen sich nicht nur Rückschlüsse auf die Zusammensetzung der Zuschauer und die von ihnen gesehenen Inhalte ziehen, sondern das Team kann auch im Blick behalten, welche Live- und On-Demand-Dienste in welchem Verhältnis in bestimmten Regionen und zu bestimmten Tageszeiten in Anspruch genommen werden.

Großangelegte Analyse von Logdaten und Anomalien

Logdaten bieten wertvolle Informationen über das, was innerhalb und zwischen großen Netzen vor sich geht. Beim Logging werden alle Ereignisse in einem System, wie Anmeldeversuche, Nutzerinteraktionen und Fehler, als zeitweilige Datensätze in Textform aufgezeichnet. Je größer die Zahl der Systeme und Formate ist, desto komplizierter wird dieses Logging.

Für Telefónica stellt Elasticsearch das perfekte Hilfsmittel für das Überwachen und Analysieren großer Mengen unterschiedlich formatierter Daten dar. Darüber hinaus lassen sich mit Elasticsearch Anomalien erkennen, Trends aufspüren und Datenprognosen anstellen.

"Das Geheimnis einer echten Performance-Verbesserung besteht darin, vom bloßen einfachen Log-Monitoring auf großangelegte unternehmensweite Analysen umzusteigen. Wir können jetzt neue und unterschiedliche Möglichkeiten zur Erkundung unserer Daten nutzen und benötigen dazu nur eine einzige skalierbare Plattform. So konnten wir von einem lediglich auf Überwachung und Wartung ausgerichteten Modell auf ein Modell umsteigen, das Innovation und Optimierung fördert."

– Álvaro Aldana, Global Video Monitoring Technical Lead, Telefónica

Die Fähigkeit, Logdaten in Echtzeit erkunden zu können (unabhängig vom ursprünglichen Logformat), erlaubt es dem Team, jederzeit sofort neue Beziehungen und Korrelationen zu erkunden. Diese neue Freiheit hat Telefónica nicht nur den Weg von der Problemlösung zur Systemoptimierung geebnet, sondern auch zusätzliche und noch bedeutendere Möglichkeiten aufgezeigt, wie sich die Datenanalyse innerhalb des Unternehmens sinnvoll einsetzen lässt.

So kann das Team problemlos für jedes Videofragment die Anzahl der aufgetretenen Fehler abrufen und diese Werte mit der Infrastrukturnutzung in Beziehung setzen. Damit kann das Team jetzt zu jedem Zeitpunkt genau sagen, welche Server am meisten genutzt werden, warum dies so ist und wo die vorhandenen Technikerressourcen am besten eingesetzt werden sollten. Durch die Erhöhung der Menge und Unterschiedlichkeit der ingestierten, abgefragten, analysierten und gespeicherten Daten können die Mitarbeiter den operativen Teams präziser melden, wo potenzielle Probleme auftreten, Probleme vorausschauender und effizienter lösen und die Netz-Performance in Echtzeit optimieren.

Seit der Einbindung von Elasticsearch in das CDN im Jahr 2014 konnte Telefónica eine wahre Explosion der Menge konsumierter Inhalte verzeichnen, zumal die Nutzerzahlen immer weiter steigen – allein in den letzten drei Jahren hat sich die Kundenbasis von Telefónica verdoppelt. Das hat das Team dazu veranlasst, mit seinen Experimenten fortzufahren.

Seit einiger Zeit beschäftigt es sich besonders damit, wie Logeinträge dazu beitragen können, Anomalien zu erkennen. Dazu nutzt es die Machine-Learning-Funktionen von Elastic, mit denen Muster in anderen Logs aus verschiedenen Unternehmensbereichen analysiert werden, insbesondere Logeinträge, die von der Telefónica-eigenen End-to-End-Videoplattform stammen: Codierungs-/Decodierungsaktivitäten, Content-Workflow und andere Serveraktivitäten, die nicht zum Kern-CDN gehören. Die Machine-Learning-Funktionen übernehmen die automatische Modellierung des Verhaltens von Elasticsearch-Datentrends, Periodizität und mehr. Das Aufspüren dieser Anomalien wäre ohne Machine Learning nicht ohne Weiteres möglich gewesen. Durch die Ermittlung der wichtigsten Einflussfaktoren für diese Anomalien können die Techniker des Teams Probleme schneller eingrenzen, die Ursachenanalyse optimieren und die Zahl blinder Alarme reduzieren. Das hat nicht nur zu einer Verbesserung bei allen genannten Aspekten geführt, sondern trägt auch zum Schutz der Dienstgütestandards bei.

"Wir versprechen uns viel davon, Elastic-Machine-Learning-Funktionen systemweit und für eine Reihe von Anwendungsfällen einzusetzen. Machine Learning hilft uns bereits heute beim Logging der Dienstverwaltungsaktivitäten und ermöglicht das Auffinden von potenziell imageschädigenden Problemen in Content-Delivery- und Streaming-Diensten, die sonst vielleicht unerkannt geblieben wären. Die Möglichkeit, mit Elasticsearch diesen winzigen Problemen in Echtzeit nachzuspüren, erlaubt es uns, viel schneller zu reagieren, sicherzustellen, dass die Content-Delivery-Dienste wie erwartet funktionieren, und unseren Ruf als Qualitätsanbieter aufrechtzuerhalten."

– Álvaro Aldana, Global Video Monitoring Technical Lead, Telefónica

Da sich die digitalen Dienste des Unternehmens einer immer größeren Beliebtheit erfreuen, suchte Telefónica nach Wegen, größere Datenmengen analysieren und speichern zu können. Es reichte nicht mehr aus, nur Daten der letzten drei Tage zu speichern, sondern die Daten der letzten 15 bis 25 Tage mussten verfügbar sein. Das Team wollte die Plattform für Entwickler leichter zugänglich machen, gleichzeitig aber auch gewährleisten, dass die Performance nicht einbricht, wenn ein Nutzer eine große Abfrage startet.

Zusätzlich stieg Telefónica in weniger als vier Monaten von einer Vorgängerlösung für das Videoplattform-Logging auf Elasticsearch um, was einen ganzheitlicheren Blick auf das System, das Aufspüren von Anomalien durch Machine-Learning-Funktionen und gleichzeitige Kosteneinsparungen ermöglichte.

Álvaro Aldana und seinen Leuten ist es in enger Zusammenarbeit mit den Außendienst- und Support-Teams von Elastic gelungen, die Plattform aufzubauen, die nötigen Feinjustierungen vorzunehmen und durch Tests und die Erweiterung des Hardware-Mixes die perfekte Kombination ausfindig zu machen.

"Es geht in erster Linie darum, wie gut die Lösung mit anderen Lösungen zusammenarbeitet, vor allem mit denen unserer bisherigen Lieferanten, und wie einfach sie sich konfigurieren lässt. Zusammen mit Elastic konnten wir jede einzelne Komponente der Plattform so weit feinjustieren, dass wir deutliche Verbesserungen spüren. Die Performance der Plattform hat sich merklich verbessert und wir können jetzt 200.000 Dokumente pro Sekunde verarbeiten – alles dank unseres Fine-Tunings und der engen Partnerschaft mit dem Support-Team von Elastic."

– Álvaro Aldana, Global Video Monitoring Technical Lead, Telefónica

Ergebnisse

Das Team konnte sofortige Verbesserungen bei der Verarbeitungsleistung der Plattform vermelden, aber die spürbarsten Verbesserungen gab es bei den Betriebsabläufen. Álvaro Aldana ist jetzt in der Lage, in Echtzeit zu sehen, ob ein Software-Patch wirksam ist oder wie ein neues Update sich auf die Zeit auswirkt, die ein Videofragment benötigt, um zum Zuschauer zu gelangen. Möglich gemacht wurde dies durch Elastic, und für Telefónica hat sich die Entscheidung für Elastic-Produkte und das Elastic-Team spürbar positiv ausgewirkt.

Vor der Einführung von Elastic standen Telefónica ein paar begrenzte Dienstmetriken auf der Basis von Batch-Prozessen zur Verfügung. Jetzt haben die CDN-Entwicklerteams Echtzeitzugriff auf komplett konsolidierte KPIs und können Echtzeit-Dashboards erstellen, die schnelle Entscheidungen ermöglichen.

„Dass wir in der Lage sind, Veränderungen in Echtzeit zu sehen, eröffnet uns ganz neue Möglichkeiten für die Verwaltung des CDN. An so etwas war vor dem Elastic Stack überhaupt nicht zu denken“, so Aldana. „Durch das leistungsfähige Ökosystem aus Tools, die auf Elasticsearch aufbauen, können wir innerhalb kürzester Zeit Verbesserungen herbeiführen. Wir waren schnell in der Lage, mit der Entwicklung zu beginnen und die Lösungen auszubauen, mit denen es zusammenarbeitet. Mittlerweile ist der Elastic Stack zum unverzichtbaren Herzstück unseres operativen Rahmens geworden.“

Innovation rund um die Kombination von Logdaten und Machine Learning ermöglicht Telefónica einen ganzheitlichen Blick auf das eigene CDN. Auf diese Weise wird aus einem auf Verwaltung und Wartung ausgerichteten Modell ein Modell, dessen Hauptausrichtung die Netzoptimierung ist – ein entscheidender Aspekt für die Verbesserung der Dienste in ihrer Gesamtheit. Mit Elasticsearch können Administratoren schneller Anomalien aufspüren und Kausalitäten feststellen. Außerdem wird es möglich, große Mengen historischer Daten zu modellieren und zu analysieren, um aus Fehlern der Vergangenheit zu lernen und rechtzeitig Muster, Trends, Vorboten und Warnsignale zu erkennen.

Blick in die Zukunft

Das Team ist davon überzeugt, dass die Fokussierung auf die Netz-Performance die Grundlage und das Geheimnis für eine hohe Kundentreue jetzt und in der Zukunft ist. Telefónica wird die Implementierung des Elastic Stack auf die eigenen Videoplattformanwendungen, wie Kundenportale, digitales Rechtemanagement, Content-Management und Kundenprovisionierung, ausweiten. Für Aldana ist es aber vor allem der Technologiemix, der die Wettbewerbsfähigkeit von Telefónica sichert – unabhängig von den Veränderungen in der Telekommunikationsbranche und der Entwicklung der Kundenanforderungen.

„Nur durch Innovationen im Bereich der Netz-Performance und den Umstieg vom einfachen Überwachungsmodell auf ein auf Optimierung ausgerichtetes Modell können wir ein Netz anbieten, dem unsere Kunden vertrauen. Bei unserem weiteren Wachstum und der Einführung neuer und interessanter Methoden zur Bereitstellung unserer Dienste werden wir uns auch in Zukunft vor allem auf Zuverlässigkeit und Resilienz konzentrieren“, fasst Álvaro Aldana die Strategie von Telefónica zusammen. „Mit Elastic haben wir eine im besten Sinne hochempfindliche und intelligente Plattform erhalten, die es uns ermöglicht, in Echtzeit zu reagieren und uns besser auf weiteres Wachstum vorzubereiten.“

Telefónica-Cluster

  • Zahl der Cluster
    1
  • Zahl der Knoten
    10
  • Zahl der Dokumente insgesamt
    30.176.007.552
  • Datengröße insgesamt
    27 TB
  • Täglich zu ingestierende Datenmenge
    ca. 1–1,5 TB pro Tag