Was ist Context Engineering?

Context Engineering ist die Praxis, KI-Systemen zur richtigen Zeit die passenden Informationen bereitzustellen. Stellen Sie es sich vor wie die Vorbereitung eines Briefings für einen neuen Kollegen: Sie würden ihm nicht einfach alle Firmendokumente auf den Schreibtisch legen, sondern sorgfältig die relevantesten Informationen für seine spezifische Aufgabe auswählen.

Moderne KI-Agenten benötigen Zugang zu riesigen Datenmengen, Dokumenten, Datenbanken, E-Mails und Code, können aber nur eine begrenzte Menge auf einmal verarbeiten. Context Engineering ist die Disziplin der intelligenten Auswahl, Organisation und Bereitstellung genau der Informationen, die die KI benötigt, um gute Entscheidungen zu treffen, ohne sie mit unnötigen Informationen zu überhäufen. Gut gemacht, ist es der Unterschied zwischen einer KI, die generische Reaktionen gibt, und einer, die wirklich hilfreiche, genaue Antworten liefert, die auf Ihren spezifischen Daten basieren.

Warum Context Engineering? Die Grenzen von rohen LLMs

LLMs und Reasoning Models (RMs) sind leistungsstarke Komponenten in modernen Anwendungen, aber sie haben eine grundlegende Einschränkung: Die Leistung eines LLMs ist nicht allein eine Funktion seines internen, statischen Wissens. Sein praktischer Erfolg hängt entscheidend von den externen Informationen und Werkzeugen ab, die ihm zum Zeitpunkt der Inferenz zur Verfügung stehen.

Standardmäßig haben LLMs vier Hauptbeschränkungen:

Statisches Wissen: Ihr Verständnis der Welt ist bei ihrem letzten Schulungstermin eingefroren, sodass sie sich der aktuellen Ereignisse nicht bewusst sind.
Kein Zugriff auf private Daten: Sie verfügen nicht über die native Fähigkeit, auf die Live- und proprietären Daten Ihres Unternehmens zuzugreifen: die Dokumente, Metriken und Logs, die den wertvollsten Kontext enthalten.
Halluzinationen und fehlende Verankerung: Die Modelle funktionieren, indem sie das wahrscheinlichste nächste Token in einer Sequenz vorhersagen. Dieser Prozess ist auf sprachliche Kohärenz optimiert, nicht auf faktische Verifikation, was es ihnen ermöglicht, plausibel klingende, aber faktisch falsche Informationen zu erzeugen.
Kontextabhängiges Abdriften und fehlendes Gedächtnis: Agenten haben Schwierigkeiten mit mehrstufigen Aufgaben, weil ihnen ein dauerhafter Kontext oder ein Gedächtnis fehlt. Da sie keine Möglichkeit haben, sich an frühere Entscheidungen zu erinnern, „driftet“ ihr Denkvermögen, was dazu führt, dass sie Informationen inkonsistent neu interpretieren und bei komplexen Workflows scheitern.

Dies hat zur Entstehung des Kontext-Engineerings geführt, einer neuen Praxis, die sich auf den Aufbau zuverlässiger, zustandsorientierter KI-Agenten konzentriert. Das Kontext-Engineering verlagert den Fokus über die Prompt-Entwicklung hinaus, die Anweisungen für eine einzelne Interaktion erstellt, hin zur Verwaltung des gesamten Kontextes, während Agenten mehrstufige, komplexe Aufgaben bewältigen. Das Kontext-Engineering ist die Kunst, die begrenzte Aufmerksamkeit eines Modells zu verwalten. Diese Praxis umfasst die Architektur des gesamten Informationsökosystems um das Modell: die Kuratierung seines Kontextfensters zu jedem Zeitpunkt und die strategische Entscheidung, welche Informationen aus Nachrichten des Nutzers, Werkzeugausgängen oder eigenen internen Gedanken in das begrenzte „Arbeitsgedächtnis“ des Agenten gelangen.

Kontext-Engineering lässt sich von etablierten Prinzipien der Softwareentwicklung inspirieren. Genauso wie Entwickler Datenbanken, APIs und Daten-Pipelines entwerfen, um den Informationsfluss in traditionellen Systemen zu optimieren, entwerfen Kontext-Ingenieure die Informationsarchitektur, die intelligente Agenten antreibt. Kontextingenieure sind dafür verantwortlich, zu verwalten, welche Informationen den begrenzten „Arbeitsspeicher“ des LLM (das Kontextfenster) belegen und welche aus dem „persistenten Speicher“ (wie einer Vektordatenbank) abgerufen werden. Context Engineering erkennt an, dass selbst das leistungsfähigste LLM schlecht strukturierten, unvollständigen oder irrelevanten Kontext nicht ausgleichen kann.

Die kritische Unterscheidung: Kontext-Engineering versus Prompt-Engineering

Obwohl diese Begriffe oft synonym verwendet werden, stehen sie für unterschiedliche Abstraktionsebenen. Prompt-Engineering ist das taktische Handwerk, eine einzelne Anweisung zu schreiben, um eine bestimmte, oft einmalige Reaktion zu erhalten.

Letztendlich ist Prompt-Engineering ein Teilbereich von Kontext-Engineering. Die Praxis des Kontext-Engineering bestimmt, was das Kontextfenster des LLM ausfüllt, während das Prompt-Engineering sich mit der Gestaltung der spezifischen Anweisung innerhalb dieses kuratierten Fensters befasst.

Aspekt	Prompt-Engineering	Kontext-Engineering
Primäres Ziel	Eine spezifische, oft einmalige Reaktion hervorrufen	Gewährleisten Sie eine konsistente, zuverlässige Systemleistung über Aufgaben und Sitzungen hinweg
Geltungsbereich	Eine einzelne Interaktion oder die unmittelbare Befehlszeichenfolge	Die gesamte Informationsumgebung, einschließlich Speicher, Werkzeuge und Datenquellen
Analogie	Eine gut formulierte Frage stellen	Aufbau der Bibliothek und Bereitstellung der Werkzeuge für einen Experten zur Nutzung
Kernaktivität	Wortschmieden, Anleitungsentwicklung	Systemdesign, Datenorchestrierung, Speicherverwaltung

Was sind die Bausteine des Context Engineering?

Kritische Fähigkeiten der Kontext-Engineering-Praxis

Anweisungen/Systemaufforderung

Die Systemaufforderung legt den grundlegenden Kontext des Agenten fest: seine Identität, Fähigkeiten, Einschränkungen und Verhaltensrichtlinien. Im Gegensatz zu Benutzeraufforderungen, die sich bei jeder Interaktion ändern, bleibt die Systemaufforderung relativ stabil und fungiert als persistente „Persönlichkeit“ und als Regelwerk. Effektive Systemaufforderungen gleichen drei konkurrierende Anforderungen aus: Spezifität (klar genug, um mehrdeutiges Verhalten zu verhindern), Flexibilität (allgemein genug, um verschiedene Szenarien zu bewältigen) und Prägnanz (kurz genug, um Platz im Kontextfenster zu erhalten). Zu den Best Practices gehören:

Die Rolle des Agenten explizit definieren („Sie sind ein Finanzanalystenassistent ...“).
Bereitstellung konkreter Beispiele für gewünschtes Verhalten anstatt abstrakter Regeln
Verwendung von strukturierten Trennzeichen (XML-Tags, Markdown-Abschnitte), um Anweisungen besser zu organisieren und das Modellverständnis zu verbessern
Platzierung kritischer Einschränkungen (Sicherheitsregeln, Anforderungen an das Ausgangsformat) an prominenten Stellen, da Modelle eine Positionsverzerrung aufweisen

Zu den fortgeschrittenen Techniken gehören bedingte Anweisungen, die je nach Laufzeitkontext aktiviert werden (z. B. „Wenn der Nutzer nach persönlichen Informationen fragt, leiten Sie zur Datenschutzrichtlinie weiter“) und Metaanweisungen, die den Argumentationsprozess des Agenten leiten (z. B. „Denken Sie Schritt für Schritt nach, bevor Sie eine Analyse bereitstellen“). Die Systemaufforderung ist besonders anfällig für Konkurrenz im Kontextfenster. Da sich der Gesprächsverlauf, die Tool-Ausgänge und die abgerufenen Daten anhäufen, werden schlecht gestaltete Systemaufforderungen aus der effektiven Aufmerksamkeitsspanne des Modells verdrängt, was zu einer Verhaltensverschiebung führt, bei der der Agent nach und nach seine Kernanweisungen „vergisst“.

Langzeitgedächtnis

Das Langzeitgedächtnis ermöglicht es einer KI, Informationen über mehrere Sitzungen oder Gespräche hinweg zu behalten. Im Gegensatz zum Kurzzeitgedächtnis, das flüchtig ist und am Ende einer Sitzung verloren geht, ermöglicht das Langzeitgedächtnis einer KI, die Vorlieben des Nutzers, vergangene Interaktionen und gelernte Fakten für zukünftige Verwendungen abzurufen.

Zustand/Verlauf (Kurzzeitgedächtnis)

Zustand und Verlauf bilden das Arbeitsgedächtnis des Agenten für die aktuelle Sitzung: Die Aufzeichnung dessen, was in einer laufenden Interaktion gesagt, getan und gelernt wurde. Dieses Kurzzeitgedächtnis ermöglicht eine kontinuierliche Konversation. Der Agent kann auf frühere Gespräche verweisen, ohne dass der Nutzer den Kontext wiederholen muss. Jedoch wächst der Gesprächsverlauf linear mit der Interaktionslänge und verbraucht schnell das Kontextfenster.

Effektive Kontextentwicklung erfordert aktive Speicherverwaltungsstrategien. Durch die Zusammenfassung werden ältere Dialoge in prägnante Darstellungen komprimiert, wobei die wichtigsten Fakten und Entscheidungen erhalten bleiben. Windowing behält nur die aktuellsten N-Nachrichten und verwirft die frühere Geschichte unter der Annahme, dass der aktuelle Kontext am wichtigsten ist. Die selektive Speicherung wendet Heuristiken an, um kritische Informationen (Nutzerpräferenzen, feststehende Fakten, offene Fragen) zu identifizieren und zu bewahren und gleichzeitig routinemäßige Gesprächsfüller zu streichen.

Komplexere Ansätze verwenden episodische Gedächtnisstrukturen, bei denen der Agent einen wichtigen Zustand in einen externen Speicher schreibt und ihn bei Bedarf abruft, was nachahmt, wie Menschen nicht ganze Gespräche im aktiven Arbeitsgedächtnis halten, aber bestimmte Details abrufen können, wenn es nötig ist. Die Herausforderung besteht darin, die Kohärenz zu pflegen; übermäßig aggressives Beschneiden führt dazu, dass der Agent den Schlüsselkontext „vergisst“ und Fehler wiederholt, während unzureichende Komprimierung zu einem Kontextüberlauf und Leistungsverschlechterung führt.

Abgerufene Informationen (RAG)

Retrieval Augmented Generation (RAG) bedeutet, dass die KI externe Daten „just in time“ aus einer Wissensdatenbank abruft, z. B. interne Unternehmensdokumente oder öffentliche Websites. RAG ermöglicht es der KI, Fragen mit Informationen zu beantworten, auf die sie ursprünglich nicht trainiert wurde, sodass ihre Reaktionen sowohl aktuell als auch genau sind.

Semantisches Chunking

Semantisches Chunking verbessert die Suche, indem es die Informationen logisch strukturiert. Anstatt den Text in beliebige Stücke fester Größe zu zerlegen, gruppiert das semantische Chunking zusammengehörige Konzepte (z.B. nach Absätzen, Funktionen oder logischen Abschnitten). Wenn ein relevanter Chunk abgerufen wird, wird auch seine unmittelbare Umgebung einbezogen. Dadurch erhält das LLM einen kohärenteren, vollständigeren Kontext, der ihm hilft, effektiver zu argumentieren und Probleme durch fragmentierte Informationen zu verringern.

Hybride Suche

Hybrides suchen ist für das Kontextengineering entscheidend, da die Nutzung einer einzigen Abrufmethode oft fehlschlägt. Vektorsuche zeichnet sich dadurch aus, dass sie konzeptionell ähnliche Informationen findet (z. B. findet „Sommerkleidung“ „Outfits für warmes Wetter“), aber sie kann spezifische, präzise Begriffe übersehen. Die Stichwortsuche (wie BM25) eignet sich hervorragend zum Auffinden exakter Übereinstimmungen (z. B. „SKU-123AB“), versagt aber bei Synonymen. Durch die Kombination beider in einer einzigen, einheitlichen Abfrage stellt die hybride Suche sicher, dass das LLM den genauestmöglichen, ausgewogenen Kontext erhält und sowohl die konzeptionelle Absicht des Nutzers als auch alle wichtigen Schlüsselwörter erfasst.

Reranking

Reranking löst den Kompromiss zwischen „Geschwindigkeit und Genauigkeit“, der dem großskaligen Abruf innewohnt. Die erste Suche (wie die Hybridsuche) ist optimiert, um schnell eine große Menge potenziell relevanter Dokumente abzurufen (z. B. die Top 100). Ein Modell zur Neubewertung – das in der Regel rechenintensiver, aber weitaus genauer ist – wird dann verwendet, um nur diese kleinere Teilmenge neu zu bewerten. Für das Context-Engineering ist das wichtig, weil es sicherstellt, dass die absolut besten und relevantesten Schnipsel ganz oben im Kontextfenster platziert werden, was wichtig ist, um das „Lost in the middle“-Problem zu entschärfen und die Aufmerksamkeit des LLM auf Informationen von höchster Qualität zu lenken.

Verfügbare Tools

Tools erweitern die Fähigkeiten eines Agenten über die Textgenerierung hinaus, indem sie die Interaktion mit externen Systemen ermöglichen: Code ausführen, Datenbanken abfragen, APIs aufrufen oder Dateien manipulieren. Aus Sicht der Kontextentwicklung stellen Werkzeuge eine besondere Herausforderung dar: Jedes Werkzeug benötigt eine Beschreibung (Name, Zweck, Parameter, Anwendungsbeispiele), die Speicherplatz im Kontextfenster beansprucht. Mit dem Wachstum von Werkzeugbibliotheken wird dieser „Werkzeugkontext-Overhead“ erheblich. Ein Agent mit 100 Tools könnte 30%–40% seines Kontextfensters damit verbringen, die verfügbaren Funktionen zu beschreiben, bevor die eigentliche Aufgabe des Nutzers beginnt.

Effektive Werkzeugentwicklung folgt mehreren Prinzipien:

Halten Sie die Werkzeugbeschreibungen kurz, aber eindeutig: Geben Sie den Zweck des Werkzeugs, die erforderlichen Parameter mit Typen und ein kanonisches Beispiel an.
Entwickeln Sie Tools, die zusammensetzbar sind: Kleinere, fokussierte Tools (z. B. „search_documents“, „summarize_text“) lassen sich flexibler kombinieren als monolithische Tools, die versuchen, mehrere Szenarien zu handhaben.
Implementieren Sie Werkzeugkategorien oder Namespaces, um selektives Laden zu ermöglichen: Ein Agent, der Finanzanalysen durchführt, benötigt keine Werkzeuge für die Bildverarbeitung.
Verwenden Sie die Tool-Ergebnisfilterung: Geben Sie nur wesentliche Informationen an den Agenten zurück, nicht die rohen API-Reaktionen. Ein Datenbank-Abfragetool sollte „3 relevante Transaktionen im Gesamtwert von 4.532 $“ zurückgeben, anstatt vollständige SQL-Ergebnismengen.

Gut gestaltete Tools beinhalten auch eine Fehlerbehandlung in ihren Beschreibungen und lehren den Agenten, wie er sich elegant von Fehlern erholen kann, anstatt Fehler durch den Workflow weiterzugeben.

Agentensuche

Agentische Suche ist ein spezialisiertes „Sub-Agent“-Tool, das komplexe, mehrstufige Erkundungen in seinem eigenen isolierten Kontext durchführt. So kann es beispielsweise eine natürlichsprachliche Anfrage in eine präzise ESQL-Abfrage übersetzen, die Daten finden und nur eine kurze Zusammenfassung an den Hauptagenten zurückgeben, um dessen Arbeitsspeicher sauber zu halten.

Domänenspezifische Workflows

Domänenspezifische Workflows sind vordefinierte, deterministische Toolchains, die für vorhersehbare Geschäftsprozesse entwickelt wurden, bei denen Zuverlässigkeit und Konsistenz die explorative Flexibilität überwiegen. Im Gegensatz zu Allzweck-Agenten, die jeden Schritt dynamisch durchdenken, folgen diese Workflows einer strengen, validierten Abfolge. Zum Beispiel: „Kundenidentität überprüfen → Kredithistorie prüfen → Externe regulatorische Überprüfung → Risikobewertung berechnen → Compliance-Bericht erstellen.“ Jeder Schritt verfügt über explizite Erfolgskriterien, Fehlerbehandlungsmethoden und Rollback-Verfahren.

Diese Starrheit ist beabsichtigt; sie verhindert, dass die der LLM-basierten Argumentation innewohnende Unvorhersehbarkeit geschäftskritische Vorgänge wie finanzielle Genehmigungen, medizinische Diagnostik oder die Einhaltung gesetzlicher Vorschriften verhindern. Aus Sicht des Kontext-Engineerings vereinfachen Domänen-Workflows die Aufgabe des Agenten, indem sie die Freiheitsgrade reduzieren. Der Agent benötigt keinen Kontext zu allen möglichen Werkzeugen und Strategien, sondern nur die spezifischen Informationen, die für den aktuellen Workflow erforderlich sind. Dieser fokussierte Kontext verbessert sowohl die Genauigkeit als auch die Effizienz.

Die Implementierung umfasst typischerweise Zustandsmaschinen oder gerichtete azyklische Graphen (DAGs), bei denen das LLM Variablenelemente verarbeitet (Nutzereingaben parsen, Datenquellen auswählen, natürliche Sprachzusammenfassungen generieren), während deterministische Logik den gesamten Prozessablauf steuert. Der Nachteil ist eine geringere Anpassungsfähigkeit; diese Workflows eignen sich hervorragend für bekannte Szenarien, haben aber Probleme, wenn Tickets außerhalb des vordefinierten Pfades liegen.

Dynamische Tool-Erkennung

Die dynamische Tool-Erkennung adressiert das Problem des „Prompt-Überflusses“, das auftritt, wenn Agenten Zugriff auf große Tool-Bibliotheken haben. Anstatt Hunderte von Werkzeugbeschreibungen im Systemprompt aufzulisten – was wertvollen Kontextfensterplatz beansprucht und die Genauigkeit der Werkzeugauswahl beeinträchtigt – verwendet diese Strategie semantische Suche über Werkzeugmetadaten, um nur relevante Fähigkeiten zur Laufzeit abzurufen.

Wenn ein Agent eine Aufgabe erhält, fragt er ein Tool-Register unter Verwendung des Eingangs als Eingabe ab und ruft die 3–5 semantisch ähnlichsten Tools für diesen spezifischen Kontext ab. Dieser Ansatz spiegelt die Just-in-Time-Datenabfrage wider: Die Tools verbleiben in einem externen Speicher, bis sie benötigt werden, und die Aufmerksamkeit des Agenten bleibt auf die anwendbaren Fähigkeiten konzentriert, anstatt sich in einem umfassenden Katalog zu verlieren. Protokolle wie MCP (Model Context Protocol) standardisieren dieses Muster, indem sie Registren bereitstellen, in denen Werkzeuge entdeckt, verstanden und dynamisch aufgerufen werden können. Die dynamische Suche führt jedoch zu Latenzzeiten (der Suchvorgang selbst) und erfordert eine sorgfältige Entwicklung, um zu verhindern, dass der Agent suboptimale Werkzeuge auswählt oder in Sackgassen gerät, wenn die Werkzeugbeschreibungen mehrdeutig sind.

Nutzeraufforderung

Die Nutzeraufforderung ist der direkte Eingang, die das Verhalten des Agenten auslöst und den unmittelbaren Aufgabenkontext definiert. Im Gegensatz zur Systemaufforderung (die relativ statisch bleibt) variiert die Nutzeraufforderung mit jeder Interaktion und hat in den meisten LLM-Architekturen das höchste Aufmerksamkeitsgewicht. Diese positionelle Voreingenommenheit bedeutet, dass Nutzeraufforderungen oft widersprüchliche Informationen an anderer Stelle im Kontext überschreiben.

Effektives Kontext-Engineering behandelt Nutzer-Prompts als mehr als einfache Fragen; sie können explizite Kontexthinweise (Zeitstempel, Nutzerpräferenzen, Sitzungsstatus) enthalten, die den Abruf und die Toolauswahl leiten, ohne den System-Prompt aufzublähen. Bei zustandsbehafteten Agenten wird die Nutzereingabeaufforderung zum Einstiegspunkt, an dem sitzungsspezifische Informationen eingespeist werden – z. B. „in Anbetracht unserer Konversation über die vierteljährlichen Kennzahlen ...“ signalisiert dem Agenten, die kürzlich abgerufenen Finanzdaten zu priorisieren. Allerdings stellen Nutzereingaben auch das unvorhersehbarste Element des Kontexts dar und können mehrdeutig, widersprüchlich oder konfrontativ sein. Die Kontext-Engineering muss diese Variabilität durch Modelle zum Verständnis von Anfragen berücksichtigen, die unklare Anfragen umformulieren, Sicherheitsfilter, die Versuche zur Prompt-Injection erkennen, und Fallback-Strategien, wenn die Nutzerabsicht nicht zuverlässig allein aus dem Eingang abgeleitet werden kann.

Strukturierter Ausgang

Strukturierte Ausgang bezieht sich auf Informationen, die eine KI auf eine bestimmte Weise formatieren muss, wie JSON, XML oder eine Tabelle. Durch die Definition eines strukturierten Ausgangs können KI-Antworten konsistent sein und von anderen Programmen oder Systemen leicht genutzt werden.

Für eine ausführlichere Erkundung dieser Konzepte lesen Sie den vollständigen Blogbeitrag: Überblick über Context Engineering.

Die Kontext-Engineering-Pipeline

Die Praxis des Context Engineering lässt sich am besten als die Entwicklung einer systematischen Pipeline zur Unterstützung des LLM verstehen. Anstatt verschiedene Komponenten ad-hoc zu kombinieren, ist diese Pipeline auf eine bestimmte Aufgabe zugeschnitten und darauf ausgelegt, den gesamten Informationsfluss zum und vom Modell in jeder Phase der Schleife zu steuern. Diese Pipeline wird typischerweise in drei Kernstufen unterteilt:

Abrufen und Generieren von Kontexten: In dieser Phase geht es um die aktive Beschaffung von Rohdaten aus einem breiten Spektrum möglicher Eingänge, z. B. das Abrufen von Dokumenten aus einer Vektordatenbank, die Abfrage einer strukturierten SQL-Datenbank oder das Durchführen von API-Aufrufen an externe Dienste.
Kontextverarbeitung: Nach der Erfassung werden die Rohdaten optimiert. Dazu gehört die Transformation der Daten, um das Signal-Rausch-Verhältnis mithilfe von Techniken wie Chunking, Zusammenfassung, Komprimierung und Strukturierung zu maximieren.
Kontextmanagement: Diese letzte Phase regelt, wie Informationen über mehrere Interaktionen hinweg gespeichert, aktualisiert und verwendet werden. Es ist von entscheidender Bedeutung für die Entwicklung zustandsbehafteter Anwendungen und umfasst Strategien sowohl für den Kurzzeitspeicher (Sitzungsspeicher) als auch für den Langzeitspeicher (persistenter Speicher).

Wie funktioniert das Kontext-Engineering?

Allen Context-Engineering-Pipelines gemeinsam ist eine Reihe von Strategien zur dynamischen Steuerung dessen, was das Modell „sieht“. Dies ist eine Praxis, bei der das Kontextfenster als begrenzte Ressource behandelt werden muss, die aktiv optimiert werden muss, indem Daten ausgewählt, gefiltert und bewertet werden, anstatt passiv mit rohen, ungefilterten Informationen gefüllt zu werden. Diese Strategien lassen sich in vier Hauptkategorien einteilen.

Auswahl: Abrufen der richtigen Informationen

Die leistungsfähigste Strategie besteht darin, Informationen außerhalb des Kontextfensters zu halten und sie „genau zum richtigen Zeitpunkt“ abzurufen, wenn der Agent sie benötigt. Dies spiegelt die Arbeitsweise des Menschen wider: Wir lernen nicht ganze Bibliotheken auswendig, sondern nutzen Suchmaschinen und Ablagesysteme, um bei Bedarf das zu finden, was wir brauchen.

Für einen KI-Agenten bedeutet das, eine externe Wissensdatenbank abzufragen. Allerdings ist es eine erhebliche Herausforderung, die richtigen Informationen zu finden. Mit zunehmenden Daten kann eine einfache semantische Suche unzuverlässig werden. Eine effektive Auswahl erfordert oft einen hybriden Ansatz, bei dem mehrere Suchtechniken wie schlüsselwort-, semantik- und graphbasierte Abrufe kombiniert werden, um den exakten Kontext aus umfangreichen und komplexen Datensätzen zu bestimmen.

Schreiben: externen Speicher erstellen

Diese Strategie gibt einem Agenten die Möglichkeit, Informationen auszulagern, indem er sie in einen externen Speicher schreibt, beispielsweise in eine „Notizblock“-Datei oder eine dedizierte Datenbank. So kann ein Agent beispielsweise seinen Mehrschrittplan in einer Datei speichern und darauf zurückgreifen, um zu verhindern, dass der Plan aus einem überfüllten Kontextfenster verdrängt wird. Dadurch kann der Agent den Status pflegen und den Fortschritt bei lang andauernden Aufgaben verfolgen, ohne seinen Arbeitsspeicher zu überladen.

Komprimierung: Kontext effizienter gestalten

Komprimierungstechniken reduzieren die Anzahl der Token im Kontextfenster, während die wesentlichen Informationen erhalten bleiben.

Zusammenfassung: Nutzt ein LLM, um lange Gespräche oder Dokumente in prägnante Zusammenfassungen zu destillieren. So kann beispielsweise der vollständige, tokenlastige Ausgang eines Tools durch eine kurze Zusammenfassung der Ergebnisse ersetzt werden.
Bereinigung: Filtert den Kontext mithilfe fest codierter Regeln, z. B. durch Entfernen der ältesten Nachrichten in einer Konversation oder Löschen redundanter Tool-Ausgänge, die nicht mehr benötigt werden.

Isolation: Trennung der Anliegen

Bei hochkomplexen Aufgaben kann ein einzelner Agent überfordert sein. Bei der Isolation geht es darum, das Problem aufzuteilen und Teilaufgaben spezialisierten „Subagenten“ zuzuweisen, von denen jeder über ein eigenes, klares und fokussiertes Kontextfenster verfügt. Ein leitender Agent koordiniert dieses Team und erhält von jedem Spezialisten lediglich die zusammengefassten Ausgänge. Dieser Ansatz sorgt dafür, dass der Kontext jedes Agenten relevant und überschaubar bleibt und verbessert so die Gesamtleistung bei komplexen Forschungs- oder Analyseaufgaben.

Durch die Einhaltung dieser Prinzipien zielt das Kontextengineering darauf ab, dem LLM die kleinstmögliche Menge von High-Signal-Tokens zu bieten, die die Chance auf einen erfolgreichen Ausgang maximieren: relevanter Ausgang.

Die technische Kernherausforderung: das Kontextfenster

Verständnis des Kontextfensters

Das Kontext-Engineering ist von einer grundlegenden Einschränkung geprägt: LLMs haben ein begrenztes Aufmerksamkeitsbudget. Das Kontextfenster (gemessen in Tokens) definiert die maximale Menge an Informationen, die ein Modell gleichzeitig verarbeiten kann. Während moderne Modelle immer größere Kontext-Fenster (100.000, 1 Million oder sogar 2 Millionen Token) unterstützen, garantiert das bloße Ausfüllen dieses Bereichs keine bessere Leistung.

LLMs arbeiten auf einer Transformer-Architektur, bei der jedes Token auf jedes andere Token achten muss. Wenn der Kontext wächst, verursacht dies Rechenaufwand und das, was Praktiker „context rot“ (Kontextverfall) nennen: Die Fähigkeit des Modells, den Fokus zu pflegen und sich an bestimmte Details zu erinnern, nimmt ab, wenn die Informationslast zunimmt. Dieses Phänomen spiegelt die kognitiven Grenzen des Menschen wider; mehr Informationen bedeuten nicht immer bessere Entscheidungen.

Aufmerksamkeitsverschlechterung

Die einfache Erweiterung des Fensters bringt erhebliche Herausforderungen mit sich:

Erhöhte Kosten und Latenz: Die Rechenkomplexität des Aufmerksamkeitsmechanismus der Transformer-Architektur wächst quadratisch ($O(n^2)$) mit der Sequenzlänge, was größere Kontexte exponentiell teurer und langsamer macht.
Leistungseinbußen („lost in the middle“): LLMs erinnern sich stark an Informationen ganz am Anfang oder Ende eines langen Kontextfensters, erleiden jedoch einen deutlichen Leistungsabfall für Informationen, die sich in der Mitte befinden.
Lärm und Ablenkung: Ein größeres Kontextfenster erhöht die Wahrscheinlichkeit, irrelevante „Störinformationen“ einzubeziehen, was das Modell ablenken und die Qualität der Ausgabe beeinträchtigen kann. Dies wird oft als das „Nadel-im-Heuhaufen-Problem“ bezeichnet.

Dieses Paradoxon unterstreicht die Notwendigkeit intelligenter Kuratierung, nicht bloßer roher Gewalt, wodurch Kontextgestaltung zu einer wahren Kunst wird.

Warum Context Engineering für KI-Agenten und Anwendungen wichtig ist

Die größte Herausforderung für jeden KI-Agenten besteht darin, seine Aufgabe korrekt auszuführen. Der Kompromiss zwischen Leistung, Kosten und Latenz ist eine sekundäre Optimierung, die erst in Angriff genommen werden kann, wenn das Kernproblem der Genauigkeit gelöst ist. Kontext-Engineering adressiert diese Hierarchie der Bedürfnisse in der angegebenen Reihenfolge:

Genauigkeit und Zuverlässigkeit

Die Hauptantriebskraft für Kontext-Engineering besteht darin, sicherzustellen, dass ein Agent seine Aufgabe erfolgreich und zuverlässig erfüllen kann. Ohne einen genauen, relevanten Kontext und die richtigen Tools scheitert ein Agent, indem er halluziniert, das falsche Tool auswählt oder einen mehrstufigen Plan nicht ausführen kann. Dies ist das grundlegende Problem, das durch Kontext-Engineering gelöst wird.

Ausgabequalität

Die Ausgabequalität in kontextbasierten Systemen bezieht sich darauf, wie gut die Antworten des Agenten mit der Benutzerabsicht, der faktischen Richtigkeit und den Aufgabenanforderungen übereinstimmen, und unterscheidet sich von bloßer Flüssigkeit oder Kohärenz, die LLMs auf natürliche Weise erreichen. Hochwertige Ausgabe hängt entscheidend von hochwertigem Eingangskontext ab; das Prinzip „Müll rein, Müll raus“ ist hier direkt anwendbar.

Kontext-Engineering verbessert die Ausgabequalität durch verschiedene Mechanismen:

Die Qualität des Abrufs stellt sicher, dass der Agent auf genaues, relevantes Quellmaterial zugreift, anstatt zu halluzinieren oder sich auf veraltete Trainingsdaten zu verlassen.
Die Kontextstruktur beeinflusst, wie effektiv das Modell Informationen extrahieren und synthetisieren kann.
Ein gut unterteilter, semantisch kohärenter Kontext führt zu genaueren Schlussfolgerungen als fragmentierte Schnipsel.
Das Signal-Rausch-Verhältnis ist wichtig: Die Aufnahme von fünf hochrelevanten Dokumenten schneidet besser ab als die Aufnahme derselben fünf plus zwanzig geringfügig verwandter Dokumente, da irrelevante Informationen die Aufmerksamkeit des Modells ablenken.

Die Ausgabequalität hängt auch von der Instruktionsklarheit im Systemprompt und expliziten Formatierungsanforderungen ab (strukturierte Ausgaben wie JSON reduzieren Parsingfehler). Die Messung von Qualität erfordert eine aufgabenspezifische Bewertung: faktische Genauigkeit bei RAG-Systemen, Aufgabenabschlussquoten bei Agenten, Nutzerzufriedenheitswerte bei Dialogsystemen. Context Engineering ermöglicht systematische Qualitätsverbesserung, indem die Eingabe-Ausgabe-Beziehung beobachtbar und abstimmbar gemacht wird; man kann messen, welche Kontextkombinationen bessere Ausgaben liefern, und Abruf, Rangfolge und Filterung entsprechend optimieren.

Die Abwägung zwischen Leistung, Kosten und Latenz

Jedes Token im Kontextfenster ist mit Kosten verbunden: Rechenressourcen, API-Gebühren und Latenz. Kontextgestaltung hat direkte Auswirkungen auf alle drei:

Kostenoptimierung: Durch die Reduzierung unnötiger Token in Eingabeaufforderungen können die API-Kosten für Anwendungen mit hohem Datenaufkommen um Größenordnungen gesenkt werden.
Latenzreduzierung: Kleinere, fokussierte Kontexte bedeuten schnellere Inferenzzeiten und reaktionsschnellere Anwendungen.
Qualitätsverbesserung: Zielgerichteter, hochsignalreicher Kontext übertrifft konsequent große, unfokussierte Informationsdumps.

Diagramm des Performance-Dreiecks im Kontext-Engineering: Kontextqualität, Kosten, Latenz

Zuverlässigkeit und Fehlerwiederherstellung

Produktions-KI-Systeme müssen resilient sein. Schlechtes Kontext-Engineering führt zu mehreren Fehlermodi:

Kontextvergiftung: Wenn Halluzinationen oder Fehler in den Kontext eingebettet werden und sich in nachfolgenden Interaktionen verstärken.
Zielabweichung: Wenn die Anhäufung irrelevanter Informationen dazu führt, dass die Agenten ihre ursprünglichen Ziele aus den Augen verlieren
Kapazitätsüberlauf: Wenn wichtige Informationen abgeschnitten werden, während sich das Kontextfenster mit Daten niedrigerer Priorität füllt

Gutes Kontext-Engineering verhindert diese Probleme durch Validierung, Bereinigung und strukturiertes Speichermanagement. Behandlung von Kontext als sorgfältig kuratierte Ressource anstelle von einem passiven Akkumulator von Informationen.

Erste Schritte mit Kontext-Engineering auf Elasticsearch

Elasticsearch ist eine ideale Platform für die Implementierung von Context Engineering, da sie viele der erforderlichen Komponenten in einem einzigen, zusammenhängenden System vereint. Es ist eine Vektordatenbank, eine Suchmaschine, ein NoSQL-Dokumentenspeicher und mehr, alles in einem. Dies ermöglicht es Ihnen, alle Ihre Daten an einem Ort zu speichern und die leistungsfähigste Abfragesprache der Branche zu verwenden, um den relevantesten Kontext für jede Art von Frage bereitzustellen.

Elastic Agent Builder ist ab sofort als technische Vorschau verfügbar. Beginnen Sie mit der Implementierung von Kontext-Engineering mit Elasticsearch:

Kontext-Engineering mit Elastic
Starten Sie eine kostenlose Elasticsearch Cloud-Testversion
Lesen Sie die Agent Builder-Dokumentation
Erkunden Sie das Jupyter-Notebook: Ihr erster Elastic Agent auf GitHub
Sehen Sie sich den On-Demand-Workshop an: Elastic AI-Agenten und MCP
Probieren Sie den Agent Builder lokal aus
Die Context-Engineering-Middleware von LangChain
LlamaIndex RAG-Framework