Fine-Tuning vs RAG vs Prompting

Prompting, RAG und Fine-Tuning: den richtigen Hebel zur richtigen Zeit wählen

Prompting, RAG und Fine-Tuning sind nicht drei konkurrierende Lager, sondern drei Hebel mit steigenden Kosten und steigender Kontrolle. Die richtige Wahl beginnt bei der günstigsten Stufe und steigt nur, wenn das Problem es erzwingt.

Wer ein KI-Vorhaben startet, trifft früh dieselbe Bau-Entscheidung: Soll das Sprachmodell mit einem besseren Prompt geführt, mit eigenem Wissen versorgt oder selbst nachtrainiert werden? Die drei Antworten unterscheiden sich nicht in der Qualität, sondern im Verhältnis aus Aufwand, Aktualität und Steuerbarkeit. Diese Seite ordnet die drei Hebel, nennt die Kriterien, die real entscheiden, und zeigt im Entscheidungsbaum, wann welcher greift. Die Eingabe-Schicht selbst, also wie ein Prompt aufgebaut und der Kontext zusammengestellt wird, behandelt die Seite Prompt- und Context-Engineering; hier geht es um die Wahl zwischen den Hebeln.

Die drei Hebel

Prompting. Das Modell bleibt unverändert; gesteuert wird allein über die Eingabe, also Instruktion, Beispiele und Format. Der billigste und schnellste Hebel, sofort änderbar, ohne Infrastruktur. Seine Grenze ist das Wissen: Das Modell weiss nur, was im Training steckte und was im Prompt steht.
RAG. Retrieval-Augmented Generation stellt dem Modell zur Laufzeit passende Dokumente aus einer eigenen Wissensbasis bereit, die es in seine Antwort einbezieht. Damit kennt das Modell aktuelle und private Inhalte, ohne sie je gelernt zu haben, und kann seine Quelle belegen. Der mittlere Hebel: mehr Aufbau als Prompting, aber sekundenschnell aktualisierbar. Die Grundlagen dazu beschreibt GenAI und RAG.
Fine-Tuning. Hier werden die Gewichte des Modells selbst auf eigenen Daten nachtrainiert. Das prägt Verhalten, Ton und Format tief ein, etwa eine konstante Fachsprache oder ein striktes Ausgabeschema. Meist der teuerste Hebel, mit eigenem Trainingslauf und eigener Datenpflege, und der trägste, weil neues Wissen einen neuen Lauf braucht.

Die wichtigste Faustregel dahinter: Fine-Tuning verändert, wie ein Modell antwortet, RAG verändert, womit es antwortet. Für reines Faktenwissen, das sich ändert, ist nachtrainieren der falsche Hebel; dafür ist RAG gebaut.

Die Kriterien, die wirklich entscheiden

Vier Fragen trennen die Hebel in der Praxis:

Datenaktualität. Ändert sich das Wissen täglich oder steht es fest? Frische, häufig wechselnde Inhalte gehören in RAG, wo eine Aktualisierung Sekunden statt eines Trainingslaufs kostet. Statisches Verhalten kann ins Modell wandern.
Art des Bedarfs. Geht es um Wissen (Fakten, Dokumente, Belege) oder um Form (Stil, Tonfall, Ausgabestruktur)? Wissen ist die Domäne von RAG, Form die von Fine-Tuning.
Kosten und Datenmenge. Fine-Tuning braucht eine ausreichend grosse, saubere Trainingsmenge und einen wiederholbaren Lauf. Fehlt eine davon, ist der Aufwand selten gerechtfertigt; Prompting und RAG kommen mit deutlich weniger aus.
Kontrolle und Nachweis. RAG liefert eine Quellenangabe, sofern die Pipeline die Quellen zurückgibt, und macht Antworten nachprüfbar, was für regulierte Umgebungen oft den Ausschlag gibt. Fine-Tuning verbessert die Konsistenz, ohne dieselbe Belegbarkeit zu geben.

Wo die Antworten auf souveräner Infrastruktur bleiben sollen, also private Daten weder in eine fremde Cloud noch in fremde Trainingsläufe wandern, ist das ein eigenes, vorgelagertes Kriterium. RAG und Fine-Tuning lassen sich beide vollständig auf eigener Infrastruktur betreiben; die strategische Abwägung dahinter, selbst bauen oder zukaufen, behandelt Make or Buy.

Der Entscheidungsfluss

Der folgende Baum bildet die übliche Reihenfolge ab: Man beginnt bei der günstigsten Stufe und steigt nur, wenn ein Kriterium es erzwingt. Er ist eine Heuristik, kein Gesetz, und die Pfade schliessen sich nicht aus.

flowchart TD
    A["Aufgabe definiert"] --> B{"Braucht es aktuelles<br/>oder privates Wissen?"}
    B -->|"Nein"| C{"Reicht ein guter Prompt<br/>für Qualität und Format?"}
    C -->|"Ja"| P["Prompting<br/>günstig, sofort änderbar"]
    C -->|"Nein, Form muss sitzen"| F["Fine-Tuning<br/>Stil und Schema einprägen"]
    B -->|"Ja"| R["RAG<br/>Wissensbasis anbinden, Quelle belegen"]
    R --> G{"Bleibt Stil oder Format<br/>trotzdem unzuverlässig?"}
    G -->|"Nein"| DONE["Fertig"]
    G -->|"Ja"| FR["RAG plus Fine-Tuning<br/>Wissen und Form getrennt lösen"]

Der häufigste Fehler steht ganz oben: Mit Fine-Tuning zu beginnen, weil es am mächtigsten klingt. In den meisten Fällen löst die günstigste passende Stufe das Problem, und ein vorschneller Trainingslauf kostet Geld und Zeit für ein Ergebnis, das ein RAG-Abruf billiger und aktueller geliefert hätte.

Kombinieren statt Entweder-Oder

In der Praxis ist die Frage selten exklusiv. Ein produktives System nutzt meist alle drei Hebel zugleich: einen sorgfältig gebauten Prompt als Fundament, RAG für aktuelles und belegbares Wissen, und Fine-Tuning nur dort, wo Form oder Fachsprache zuverlässig sitzen müssen. Das gilt auch für agentische Systeme, in denen ein Modell Werkzeuge aufruft: Auch dort ist RAG die übliche Wissensquelle und Fine-Tuning die Ausnahme für eingeprägtes Verhalten.

Die Kosten verschieben sich dabei vom einmaligen Trainingslauf zum laufenden Betrieb der Wissensbasis und der Eingabe-Pipeline. Diese Pipeline ist oft der wirksamere Hebel, weil Prompts und Kontext schneller messbar verändert werden können als Modellgewichte. Welche Stufe ein konkretes Vorhaben braucht, behandelt die KI-Entwicklung; für den Aufbau einer belegbaren, auf Schweizer Infrastruktur betriebenen Wissensbasis steht die KI-Werkbank, mit einem abgegrenzten Erstprojekt als Einstieg. Welche Modelle überhaupt freigegeben sind und auf welchen Daten sie laufen dürfen, regelt die KI-Governance, gestützt auf laufende Markteinordnung und Nachweis.

Referenzen

medevel.com LLM Engineer Toolkit, 120+ Bibliotheken. Kuratierte Werkzeugsammlung mit eigenen Kategorien für Fine-Tuning (Unsloth, PEFT, LitGPT), RAG und Prompting. (14.01.2026). medevel.com/llm-engineer-toolkit/
Unsloth Open-Source-Fine-Tuning für offene Modelle. Werkzeug zum effizienten Nachtrainieren offener Modelle mit deutlich reduziertem Speicherbedarf; Lizenz pro Komponente prüfen (Apache-2.0 und AGPL-3.0 im Repo). (2026). github.com/unslothai/unsloth
KalyanKS-NLP llm-engineer-toolkit, Repository. Nach Workflow-Phasen geordnete Bibliotheksliste von Training und Fine-Tuning über RAG bis Prompting und Monitoring. (2026). github.com/KalyanKS-NLP/llm-engineer-toolkit
Hugging Face PEFT, parameter-effizientes Fine-Tuning. Bibliothek, die grosse Modelle anpasst, ohne alle Gewichte zu trainieren, und so die Kosten eines vollen Fine-Tunings stark senkt. (2025). huggingface.co/docs/peft/index
LangChain RAG From Scratch. Lehrreihe zu Retrieval-Augmented Generation, die festhält, dass Fine-Tuning für Faktenabruf schlecht geeignet und teuer ist und RAG diese Lücke schliesst. (2025). github.com/langchain-ai/rag-from-scratch

KI fragen

Diese Links öffnen externe KI-Dienste, die Unterhaltung und deren Inhalt werden dabei an den jeweiligen Anbieter übertragen.