Was ist AIOps? Eine Einführung für Einsteiger

large-illustration-machine-learning-anomaly-1200x630.png

Grundlagen von AIOps für Observability 

„AIOps“ steht für „Artificial Intelligence for IT Operations“, also künstliche Intelligenz (KI) für IP-Operations, und ist seit einiger Zeit in der Entwickler-, SRE- und DevOps-Community in aller Munde. Ein Hauptgrund für die große Bedeutung, de AIOps heutzutage hat, ist die Zunahme von Observability-Initiativen im Zuge der Einführung von Hybrid- und Multi-Cloud-Umgebungen. Wie bei den meisten Observability-Plattformen fängt alles mit den Telemetriedaten an: Metriken, Logdaten, Traces und Ereignisse. 

Der Vorteil des AIOps-Ansatzes wird deutlich, sobald IT-Operations-Teams damit beginnen, Daten zu erfassen und zu analysieren. AIOps hilft, korrekt und proaktiv Bereiche zu identifizieren, die einer stärkeren Beachtung bedürfen, und IT-Teams dabei zu unterstützen, Probleme schneller zu lösen. Wir Menschen sind nicht mehr in der Lage, Petabyte-große Bestände roher Observability-Daten eigenhändig zu analysieren. Aber mit AIOps erhalten Sie anhand von Analytics und Automatisierung gewonnene Informationen, die Ihnen dabei helfen, den Overhead für Ihr Team zu reduzieren. Zu diesem wichtigen Thema gibt es viele Fragen und wir werden im Folgenden einige der häufigsten beantworten.   

Was is AIOps und wie kann sie mir helfen? 

Einfach ausdrückt ist AIOps die Fähigkeit von Software-Systemen, durch die Verwendung von KI und ML sowie zugehöriger Analytics-Technologien die Arbeit von IT-Operations-Teams zu vereinfachen und zu unterstützen. AIOps-Funktionen können auf das Ingestieren und Verarbeiten verschiedener Arten von operationalen Daten angewendet werden, wozu unter anderem auch Logdaten, Traces und Metriken gehören. 

Gartner™, Forrester™ und andere haben versucht, durch Definitionen und Erläuterungen etwas Licht in die oft etwas schummrige und nicht sehr klar definierte AIOps-Welt zu bringen. AIOps kann dazu beitragen, den zeitlichen und personellen Aufwand der Erkennung und Untersuchung von Ereignissen, der Ursachenanalyse und der Behebung von Problemen und Klärung von Vorfällen deutlich zu reduzieren. Und dort, wo IT-Mitarbeiter:innen nicht mehr so viel Zeit für das Aufspüren und Beseitigen von Problemen aufwenden müssen, haben sie mehr Zeit und Energie für Aufgaben und Projekte, die das Unternehmen wirklich voranbringen. 

Warum sollte zu meiner Observability-Strategie auch AIOps gehören? 

Von Initiativen zur digitalen Transformation über die Cloud-Migration bis hin zur verteilten, hybriden oder Cloud-nativen Bereitstellung von Anwendungen – die Dynamik des Markts wirbelt die IT-Operations-Landschaft gerade gehörig durcheinander. 

Die dabei entstehenden Veränderungen lassen sich mit drei Stichpunkten charakterisieren:

  • Datenmenge: Die Menge der für Observability-Zwecke zur Verfügung stehenden Daten wächst nach wie vor exponentiell.  
  • Komplexität: Anwendungen, Workloads und Deployments werden immer komplexer, kurzlebiger und verteilter.
  • Tempo der Veränderungen: Das Tempo der Veränderungen (bei Anwendungen und Infrastruktur) ist größer denn je.

Diese drei Punkte schließen sich nicht gegenseitig aus, in gewisser Hinsicht ist sogar das Gegenteil der Fall. So führen zum Beispiel das hohe Tempo der Veränderungen und automatisch skalierte komplexe Deployments zu einer noch größeren Datenmenge. Diese wachsende Komplexität bedeutet, dass der Mensch immer stärker auf Systeme und Automatisierung setzen muss, um mit den Veränderungen Schritt halten zu können. Und bei der Reaktion auf diese Herausforderungen kommt AIOps eine Schlüsselrolle zu. 

Die Nutzung von KI und ML zur Zusammenfassung und gemeinsamen Verarbeitung von Daten und zur intelligenten Verteilung der Daten auf die verschiedenen Speicherplatz-Tiers kann dabei helfen, einige der Herausforderungen im Zusammenhang mit der schieren Menge von Daten zu lösen. Unmissverständliche visuelle Darstellungen einer Anwendungsumgebung, zum Beispiel mithilfe von Infrastruktur- und Dienstabhängigkeitsdiagrammen, sowie eine kontextbezogene Navigation tragen dazu bei, den Prozess der Fehlersuche und ‑beseitigung so zu gestalten, dass er dem entspricht, wie Nutzer:innen ihr Deployment sehen. Weitere Möglichkeiten zur Bewältigung der Herausforderungen im Bereich Komplexität sind Funktionen zur automatischen Suche nach Problemen und zur Ursachenanalyse. 

Observability-Produkte müssen in der Lage sein, alle Veränderungen bei Infrastruktur und Anwendungen zu verfolgen und diese Veränderungen mit dem Systemverhalten und der User Experience in Beziehung zu setzen, denn akute Verhaltensanomalien lassen sich häufig auf Veränderungen zurückführen. Ein typisches Beispiel wäre ein Upgrade oder ein Patch für eine neue Funktion, das unerwartetes Verhalten zur Folge hat. Teams, die diese Beziehungen erkennen, können agiler handeln und sich besser an das hohe Tempo der Veränderung anpassen und so für eine bessere Performance ihrer Dienste sorgen.

AIOps spielt daher eine Schlüsselrolle und kann, richtig um- und eingesetzt, dabei helfen, die anstehenden Herausforderungen effektiv zu bewältigen und Operations-Teams zu entlasten, damit sie sich wichtigeren Aufgaben widmen können. 

Für welche Observability-Anwendungsfälle eignet sich AIOps am besten?

Der Einsatz von AIOps-Verfahren und ‑Technologien kommt schon heute einer Reihe von Observability-Workflows und ‑Anwendungsfällen zugute. Dazu gehören beispielsweise die folgenden: 

  • Anomalieerkennung hilft dabei, Leistungseinbrüche aufzuspüren, beispielsweise plötzliche oder unerwartete Abweichungen bei den Latenzwerten. 
  • Zur Vereinfachung der Erfassung und Analyse von großen Datenmengen, zum Beispiel von unstrukturierten oder halbstrukturierten Logmeldungen, stehen Funktionen zur Verfügung, die diese Daten automatisch klassifizieren, kategorisieren und zusammenfassen. 
  • Zur Reduzierung des Alert-Rauschens und zur Beschleunigung der Ursachenanalyse können Symptome, Ereignisse und Probleme miteinander korreliert werden. 
  • Automatisches Zustands-Scoring auf der Basis der Beurteilung der Auswirkungen und des Ausmaßes von Anomalien und andere Maßnahmen ermöglichen es festzustellen, welche Probleme am dringlichsten sind, und so das Datenrauschen weiter zu reduzieren. 

Bei den leichter verständlichen und lange bekannten „Wenn das das Symptom ist, dann ist das wahrscheinlich die Ursache“-Beziehungen kann AIOps dabei helfen, die Symptome automatisch zu suchen, zu erkennen und zu klassifizieren und mögliche Ursachen festzustellen. AIOps kann bei weniger komplexen oder Routineproblemen auch selbsttätig entsprechende Abhilfemaßnahmen einleiten. In einem späteren Blogpost werden wir uns ausführlicher mit wichtigen Anwendungsfällen und damit befassen, wie sich Szenarien für den Einsatz von AIOps im täglichen Betrieb finden lassen. 

Wie kann sich AIOps betriebswirtschaftlich auszahlen? 

Wie bei vielen Initiativen im Bereich IT und Software-Entwicklung profitieren Unternehmen und Teams in vielerlei Hinsicht von AIOps. AIOps kann ITOps-, SRE- und DevOps-Teams bei wiederkehrenden und Routinearbeiten unterstützen, hat aber gleichzeitig auch handfeste betriebswirtschaftliche Vorteile: 

  • Die Reduzierung von MTTD (Mean Time To Detection) und MTTR (Mean Time To Resolution) sorgt für geringere Ausfallzeiten bei Diensten, bessere SLAs und eine höhere Kundenzufriedenheit. 
  • Die Unterstützung eines intelligenteren Umgangs mit den rasant wachsenden Datenmengen senkt die Gesamtkosten (TCO) und hilft, Probleme im Zusammenhang mit der Skalierung zu reduzieren. 
  • Die Eindämmung des Signal- und Alert-Rauschens und eine bessere Automatisierung gibt Operations-Teams die Freiheit, sich verstärkt Aufgaben zu widmen, die den wirtschaftlichen Erfolg des Unternehmens voranbringen. 
  • AIOps verbessert die Fähigkeit von Organisationen, mit der weiter steigenden Komplexität der IT und dem allgemeinen Tempo der Veränderungen Schritt zu halten, sodass sie ihren Kunden schneller und häufiger nützliche Produkte und Dienstleistungen anbieten können. 

Angesichts der Menge von Daten und der Komplexität der Cloud-nativen und hybriden Anwendungsumgebungen von heute, die sich zudem ständig verändern, entwickelt sich AIOps zunehmend von einer „Nice to have“-Kompetenz von ITOps-Team zu einem missionskritischen Imperativ.  

Wie lässt sich für Vertrauen in AIOps sorgen, damit sie auch in Produktionsumgebungen akzeptiert wird? 

Um AIOps erfolgreich für ihre Observability-Anwendungsfälle einsetzen zu können, müssen IT-Mitarbeiter:innen, SREs und DevOps-Fachleute eine Reihe von Akzeptanzhürden überspringen. 

Zum einen gilt es, eine Reihe von nicht unerheblichen Buzzword-Herausforderungen zu bewältigen – und der AIOps-Markt brummt nur so von Schlagworten und Phrasen. Da ist es nicht immer leicht, den dahinter stehenden betriebswirtschaftlichen Wert auszumachen und herauszufinden, ob AIOps tatsächlich helfen kann, Probleme schneller und effizienter aufzuspüren und zu beseitigen als die bereits im Einsatz befindlichen Monitoring- und Observability-Lösungen. Bei all dem aktuellen Hype fällt es mitunter schwer zu beurteilen, ob KI/ML im konkreten Anwendungsfall nützlich sein kann. 

Und dann gibt es da auch noch Vertrauenshürden. Eine dieser Hürden besteht darin, dass die Nutzer:innen nicht definitiv sagen können, ob die auf AIOps basierenden Informationen tatsächlich stimmen. Viele Nutzer:innen wissen möglicherweise gar nicht, wie umfassend die Analyse ist, welche Informationen alle darin eingegangen sind, wie die Algorithmen funktionieren, wie Schlussfolgerungen gezogen werden oder ob diese Schlussfolgerungen für ihre aktuelle Untersuchung relevant sind. Dies führt zu einem allgemeinen Misstrauen gegenüber den als Blackbox empfundenen AIOps-Systemen. Auch interner Druck im Unternehmen oder Richtlinien, aus denen fehlendes Vertrauen spricht, können die Akzeptanz von AIOps erschweren.  

Unsere Erfahrung zeigt, dass AIOps am besten wirkt und ihren Nutzen entfalten kann, wenn sie langsam und stetig eingeführt wird. Dazu sollten Sie als Erstes konkrete und bewährte Anwendungsfälle ermitteln, um AIOps zunächst als Proof-of-Concept (POC) zu testen. Der nächste Schritt besteht dann darin, AIOps-Funktionen auf einen kleineren Teilbereich Ihres Deployments anzuwenden und dabei in jeder Phase die Vorteile und Ergebnisse zu prüfen und zu verallgemeinern. Wenn sich erste Erfolge zeigen, können Sie nach und nach weitere AIOps-Funktionen freigeben und sich in Richtung Produktionsumgebungen vorarbeiten. Durch diese behutsame Vorgehensweise vermeiden Sie einige der üblichen Probleme, die bei der Einführung neuer Technologie auftreten und einer breiten Akzeptanz von AIOps im Weg stehen können. 

Das erfolgreiche Testen der Effektivität der Technologie in einer kleineren Labor- oder Nicht-Produktionsumgebung und das Messen und Präsentieren der Ergebnisse gegenüber dem Management vor der Einführung von AIOps in die Produktionsumgebung kann für Vertrauen und Akzeptanz sorgen. Bei solchen Tests werden unter Umständen auch andere Lücken und Anforderungen offenkundig, wie zum Beispiel fehlende oder inkonsistente Daten, unzureichende Abdeckung oder fehlender Speicherplatz bzw. zu geringe Rechenleistung. Bei der Bereitstellung von AIOps in der Produktionsumgebung sollten Sie prüfen, ob Ihre Observability-Lösung in der Lage ist, ihre Features entsprechend zu skalieren und die bei Ihnen anfallenden Enterprise-Workloads zu stemmen. Es kann durchaus passieren, dass bestimmte AIOps-Features, die in Labor- oder POC-Umgebungen gut funktioniert haben, in der Produktionspraxis mit ihren üblicherweise größeren Anforderungen nicht mehr so gut zurechtkommen. 

Wie kann Observability für einen Einsatz von KI und ML sorgen, der über das hinausgeht, was AIOps üblicherweise verspricht?  

Alles beginnt mit den Daten. Je umfassender und reichhaltiger die Daten sind, die für die Analyse vorliegen, desto mehr kann durch die Anwendung von KI- und ML-Technologien auf diese Daten erreicht werden. Der erweiterte Einsatz von KI/ML kann auch die Akzeptanz zusätzlicher Anwendungsfälle fördern. Dazu gehören zum Beispiel das Gewinnen betriebswirtschaftlicher Erkenntnisse, das Ableiten prädiktiver oder vorauslaufender Indikatoren aus den verschiedensten Signalen oder das Definieren und Bereitstellen gänzlich angepasster KI/ML-Methoden, wo dies notwendig oder wünschenswert ist. 

Ein Beispiel für den Einsatz von KI/ML, der über herkömmliche AIOps-Anwendungen hinausgeht, ist die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP). NLP hilft bei der Kategorisierung und Klassifizierung von Textdaten und eignet sich hervorragend für Anwendungsfälle wie die Sentimentanalyse, mit deren Hilfe sich die Haltung von Nutzer:innen gegenüber Ereignissen wie der Einführung einer neuen Anwendung oder größeren Feature-Upgrades messen lässt. Dies wiederum erlaubt Rückschlüsse für den weiteren Ausbau der Observability.  

Für die maßgeschneiderte Erfüllung konkreter individueller Wünsche von Unternehmen können IT-Teams ihre eigenen ML-Modellierungspläne einbringen, um ML-basierte Anwendungen zu erstellen, anzulernen, zu testen und in die Produktionsumgebung einzuführen. Das, was diese Modelle ausgeben, lässt sich in individuellen Dashboards oder Berichten visualisieren, sodass IT-Organisationen spezielle, einmalige oder konkrete Anforderungen erfüllen können, für die es keine „Out-of-the-box“-Lösung gibt. 

Für welche Anwendungsfälle und Trends wird AIOps in der Zukunft eingesetzt werden können? 

AIOps wird auch in Zukunft eine wichtige Rolle bei der Reise der Daten vom Punkt ihrer Erfassung über die Persistenz (Ausgleich zwischen Datenverfügbarkeit, Performance und TCO) und Analyse bis hin zur Visualisierung und Problemlösung spielen. 

Angesichts weiter anwachsender Datenmengen helfen KI-gestützte Analysen während der Datenerfassung dabei zu bestimmen, welche Daten vorrangig erfasst und analysiert werden sollen. Die Ausführung von KI- und ML-Algorithmen während der Erfassung erleichtert auch das Zusammenfassen von Daten am Ort des Erfassens bzw. in dessen Nähe und das Verteilen von KI-Erkenntnissen. Außerdem müssen nicht mehr alle Analytics-Aufgaben zentralisiert ablaufen. Klassifizierungs- und Kategorisierungsschemas werden dynamisch entscheiden, ob ankommende Daten an Speicherplatz-Tiers für „warme“ oder „kalte“ Daten gesendet werden, was zur Senkung der TCO beiträgt. Es wird möglich sein, Analytics-Anwendungen unabhängig verschiedene Signale und Daten untersuchen zu lassen, um Verhaltensanomalien zu entdecken und schnell deren Ursache zu finden. Und die Automatisierung der Problembehebung wird für eine wachsende Zahl von Anwendungsfällen und Szenarien immer autonomer werden, sobald die Kunden mehr Vertrauen in die automatische Problembehebung fassen. Observability-Systeme werden sich zu geschlosseneren Kreisläufen entwickeln: Sie werden mit immer weniger menschlicher Einwirkung Daten erfassen, speichern und analysieren und automatisch mehr Vorfälle erkennen und beseitigen. 

In der Cloud-nativen Welt von heute ist AIOps für DevOps-Teams überlebenswichtig geworden

Wie bei neuen Technologien mittlerweile üblich, gibt es keine fixe Definition dessen, was AIOps ist und welche Vorteile sie hat. Der Einsatz von AIOps als Teil Ihrer Observability-Strategie gehört zur natürlichen Antwort auf die immer größeren Datenmengen, die immer größere Komplexität und die immer schnelleren Veränderungen. Und bei richtiger Umsetzung kann AIOps auch betriebswirtschaftlich sehr vorteilhaft sein. 

In einem späteren Blogpost werden wir uns eingehender mit häufigen AIOps-Anwendungsfällen zur Verbesserung von Prozessen und zur Erhöhung der Effizienz befassen – Sie dürfen gespannt sein.