Prompt- und Context-Engineering
Prompt- und Context-Engineering: die Eingabe als erster Hebel
Das Formen der Modell-Eingabe, also Anweisung, abgerufener Kontext und Werkzeug-Schemata, ist oft der erste und günstigste Hebel. Es ist die Stufe vor Fine-Tuning, und Context-Engineering verallgemeinert das klassische Prompting, weil RAG dabei nur eine von mehreren Kontextquellen ist.
Ein Sprachmodell sieht nichts ausser dem, was im Moment der Antwort in seinem Kontextfenster steht. Qualität, Verlässlichkeit und Kosten einer Antwort entscheiden sich also nicht erst im Modell, sondern davor, beim Zusammenstellen dieser Eingabe. Diese Seite beschreibt die Eingabe-Schicht: was Prompt- von Context-Engineering unterscheidet, was nachweisbar wirkt, wie aus einem einzelnen Prompt ein wartbares System wird, und wo die Grenze zu GenAI und RAG sowie zur Fine-Tuning-Entscheidung verläuft.
Prompt-Engineering und Context-Engineering
Prompt-Engineering ist das Schreiben und Strukturieren der Anweisung: was das Modell tun soll, in welcher Rolle, mit welchen Beispielen und in welchem Ausgabeformat. Es ist die älteste und unmittelbarste Stellschraube und bleibt die Grundlage.
Context-Engineering ist der weitere Begriff. Es kuratiert den gesamten Satz an Tokens, der bei der Antwort vorliegt: Systemanweisung, Gesprächsverlauf, abgerufene Dokumente, Werkzeug-Schemata und Zwischenergebnisse. Sobald ein Sprachmodell über mehrere Schritte arbeitet oder Werkzeuge aufruft, wird nicht mehr ein Prompt geschrieben, sondern ein knappes Aufmerksamkeitsbudget verwaltet. Prompt-Engineering ist damit ein Spezialfall von Context-Engineering, nämlich die Pflege des angewiesenen Teils der Eingabe. Diese Verschiebung ist die gleiche, die den Schritt von einem einzelnen Aufruf zu KI-Agenten und agentischen Systemen trägt, wo Verlauf und Werkzeug-Ausgaben das Budget schnell füllen.
Was nachweisbar wirkt
Die Eingabe-Schicht hat wenige, robuste Hebel. Sie sind modellübergreifend nützlich, müssen aber pro Modell evaluiert werden:
- Struktur und Rolle. Eine klare Aufgabe, eine definierte Rolle und ein verbindliches Ausgabeformat schlagen jede vage Formulierung. Wo das Format maschinell weiterverarbeitet wird, gehört es als Schema in die Anweisung, nicht als Bitte.
- Beispiele. Wenige gute Beispiele zeigen dem Modell die gewünschte Form zuverlässiger, als eine Beschreibung es kann. Sie sind oft der grösste Qualitätssprung pro investiertem Token.
- Abgerufener Kontext. Die passenden Belegstellen aus eigenen Quellen erden die Antwort auf Fakten statt auf Modellgedächtnis. Genau das leistet RAG, und es ist hier eine Kontextquelle unter anderen, nicht das Thema selbst.
- Werkzeug-Schemata. Bei agentischen Systemen ist die Beschreibung der verfügbaren Werkzeuge Teil der Eingabe. Präzise Schemata entscheiden darüber, ob das Modell ein Werkzeug richtig aufruft oder daran scheitert.
- Kontext-Budget. Das Kontextfenster ist endlich, und mehr Kontext ist nicht automatisch besser. Zu viel oder schlecht geordneter Kontext verwässert die Aufmerksamkeit und treibt die Kosten, weil bei jedem Schritt die ganze Eingabe erneut verarbeitet wird. Das Budget bewusst zu füllen, also nur das Relevante in der richtigen Reihenfolge, ist der eigentliche Kern von Context-Engineering.
Die Eingabe als Schichten
Die Modell-Eingabe ist kein Fliesstext, sondern ein bewusst zusammengesetztes Budget aus mehreren Schichten. Context-Engineering entscheidet, was aus jeder Schicht in das endliche Kontextfenster gelangt und in welcher Reihenfolge:
flowchart TD
A["Systemanweisung<br/>Rolle, Aufgabe, Ausgabeformat"] --> E["Kontextfenster<br/>endliches Token-Budget"]
B["Beispiele<br/>gewünschte Form"] --> E
C["Abgerufener Kontext<br/>RAG, eine Quelle unter mehreren"] --> E
D["Werkzeug-Schemata<br/>verfügbare Werkzeuge"] --> E
H["Verlauf<br/>frühere Schritte"] --> E
E --> M["Sprachmodell"]
M --> O["Antwort"]
Der Punkt der Darstellung ist die Knappheit am Knoten Kontextfenster. Jede Schicht konkurriert um dasselbe Budget, und die Antwort ist nur so gut wie die Auswahl, die dort ankommt. Prompt-Engineering pflegt vor allem die oberen Schichten, Context-Engineering verwaltet das Budget als Ganzes.
Vom Prompt zum System
Solange ein Prompt im Chatfenster lebt, ist er nicht reproduzierbar. In Produktion wird die Eingabe zu Code: versioniert, getestet und beobachtet. Drei Praktiken machen den Unterschied:
- Versionierung. Prompts und Kontext-Vorlagen gehören in die Versionskontrolle, mit nachvollziehbarer Änderung, so wie jeder andere Teil der Anwendung.
- Evaluation. Eine Änderung an der Eingabe braucht einen Test gegen ein festes Set an Fällen, sonst ist jede Verbesserung eine Vermutung. Weil die Ausgabe nicht-deterministisch ist, ersetzt systematische Evaluation das Augenmass.
- Beobachtung. In Produktion zeigen Kosten, Latenz und Trefferqualität pro Eingabe-Version, ob eine Änderung wirkt. Diese Telemetrie kann im Haus bleiben, weil das Tooling self-hostbar ist.
Damit ist die Eingabe-Schicht Teil des Betriebs und keine einmalige Bastelei. Wie dieser Lebenszyklus aus Versionieren, Evaluieren und Beobachten als Disziplin aussieht, beschreibt LLMOps und MLOps; offene Werkzeuge wie Agenta decken Prompt-Verwaltung und Evaluation in einem self-hostbaren Rahmen ab. Diese Reife ist auch das, was KI-Entwicklung von einem gelungenen Demo unterscheidet.
Abgrenzung zu RAG und Fine-Tuning
Prompt- und Context-Engineering ist die Eingabe-Schicht und damit die günstigste der drei Stellgrössen. Es lohnt sich, die drei sauber zu trennen:
- Prompt- und Context-Engineering formt, was das Modell zur Laufzeit sieht. Es ändert das Modell nicht und kostet am wenigsten.
- RAG ist eine Kontextquelle innerhalb dieser Schicht. Es holt aktuelle, belegbare Fakten aus eigenen Daten in die Eingabe, ohne das Modell zu verändern, und ist in GenAI und RAG ausführlich beschrieben.
- Fine-Tuning verändert die Modellgewichte selbst. Es ist der teuerste und langsamste Hebel und nur dort richtig, wo Form oder Spezialwissen dauerhaft ins Modell gehören sollen.
In der Praxis löst die günstigste Stufe die meisten Probleme. Erst wenn Prompt, Kontext und Abruf ausgereizt sind, stellt sich die Frage nach Fine-Tuning. Diese Entscheidung, also wann prompten, wann RAG und wann fine-tunen, ist ein eigener Trade-off und gehört auf eine eigene Seite, nicht in die Eingabe-Schicht.
Eingaben unter eigener Kontrolle
Weil die Eingabe-Schicht das Modell nicht verändert, lässt sie sich vollständig auf eigener Infrastruktur betreiben. Prompts, abgerufener Kontext und die Telemetrie der Evaluation bleiben im Haus, wenn das Tooling self-hostbar ist und das Modell lokal läuft. Damit wird Datenhoheit weniger eine Frage des Modells als eine Frage der Eingabe-Architektur. Genau hier setzt die KI-Werkbank an, die eigenes Wissen belegbar und ohne Datenabfluss in die Antwort bringt; der konkrete Einstieg ist ein messbarer Versuchsaufbau. Welche Modelle und Datenflüsse dabei freigegeben sind, klärt die KI-Governance auf der Kontroll-Ebene. Für Schweizer Organisationen heisst das: Läuft das Modell unter Schweizer Jurisdiktion, bleibt der gesamte Eingabe-Strom dem revDSG verpflichtet.
Referenzen
- Anthropic Effective context engineering for AI agents. Unterscheidet Prompt- von Context-Engineering und begründet das Verwalten eines endlichen Aufmerksamkeitsbudgets für agentische Systeme. (29.09.2025). www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
- Agenta Open-Source-Plattform für Prompt-Verwaltung und LLM-Evaluation. Self-hostbares Tooling für Versionierung von Prompts und systematische Evaluation der Ausgabe. (2026). github.com/Agenta-AI/agenta
- KalyanKS-NLP LLM Engineer Toolkit. Kuratierte Liste von über 120 LLM-Bibliotheken nach Kategorie, darunter Prompts, Evaluation und strukturierte Ausgaben. (2026). github.com/KalyanKS-NLP/llm-engineer-toolkit
- DAIR.AI Prompt Engineering Guide. Laufend gepflegte Referenz zu Prompting-Techniken, Mustern und Werkzeugen für Sprachmodelle. (2026). www.promptingguide.ai/
Verwandte Themen
- GenAI und RAG, die abgerufene Kontextquelle innerhalb der Eingabe-Schicht.
- KI-Agenten und agentische Systeme, wo Verlauf und Werkzeug-Ausgaben das Kontext-Budget füllen.
- LLMOps und MLOps, der Betriebsrahmen für versionierte und evaluierte Eingaben.
- KI-Entwicklung, die Disziplin, in der die Eingabe-Schicht produktiv wird.
- KI-Governance, die Kontroll-Ebene für freigegebene Modelle und Datenflüsse.
KI fragen
Diese Links öffnen externe KI-Dienste, die Unterhaltung und deren Inhalt werden dabei an den jeweiligen Anbieter übertragen.