Publiziert: 11. Mar 2026 Zuletzt aktualisiert: 25. Mar 2026

GenAI und RAG

Generative KI (LLMs) entfaltet im Unternehmen erst dann ihren vollen Wert, wenn sie Zugriff auf internes Wissen hat. Retrieval-Augmented Generation (RAG) ist die Architektur, die ein Sprachmodell mit firmenspezifischen Dokumenten verbindet, ohne dass diese zum Training des Modells verwendet werden.

Dies ermöglicht präzise Antworten auf Basis aktueller Fakten und garantiert gleichzeitig die Einhaltung von Datenschutz und Geschäftsgeheimnissen.

Anti-Patterns: Halluzinationen und Datenabfluss

Öffentliche KI-Modelle (wie ChatGPT) neigen dazu, Fakten zu erfinden (Halluzinationen), wenn sie keine Antwort wissen. Zudem ist die direkte Eingabe sensibler Firmendaten in öffentliche Clouds aus Compliance-Sicht oft verboten. Ein reines "Fine-tuning" von Modellen ist für dynamische Firmendaten zu langsam und zu teuer.

Der RAG-Workflow

Ingestion: Dokumente (PDFs, Wikis, Code) werden automatisch eingelesen, in kleine Stücke (Chunks) zerlegt und in Vektoren (Embeddings) umgewandelt.
Retrieval: Bei einer Nutzeranfrage sucht das System in einer Vektordatenbank blitzschnell nach jenen Textpassagen, die semantisch am besten zur Frage passen.
Augmentation: Die gefundenen Fakten werden zusammen mit der Nutzerfrage in einen Prompt verpackt und an das Sprachmodell gesendet.
Generation: Das Modell generiert eine Antwort, die ausschliesslich auf den mitgelieferten Fakten basiert und diese als Quellen zitiert.
Sovereign Infrastructure: Das gesamte System (Vektor-DB und LLM) wird auf Schweizer Infrastruktur oder lokal betrieben, um maximale Datensicherheit zu gewährleisten.

Der Vorteil: Verifizierbares Wissen

RAG-Systeme geben Quellen an. Der Nutzer kann jederzeit nachprüfen, auf welcher Seite in welchem Dokument die Information steht — das schafft Vertrauen und eliminiert Halluzinationen.

FAQ

Ist RAG besser als das Modell selbst zu trainieren?

Ja, für 99% der Anwendungsfälle. RAG ist günstiger, schneller zu aktualisieren (Sekunden statt Wochen) und liefert durch die Quellenangaben eine viel höhere Verlässlichkeit.

Werden unsere Daten durch RAG für andere Nutzer von OpenAI sichtbar?

Nicht bei einer souveränen Architektur. Wir nutzen entweder Enterprise-APIs mit Opt-out für das Training oder betreiben Open-Source Modelle (wie Llama oder Mistral) komplett in unserer eigenen Cloud-Umgebung.

Reference Guide

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks: Das grundlegende Forschungspapier von Facebook AI Research. arXiv
LangChain / LlamaIndex: Frameworks zum Bau von RAG-Anwendungen. langchain.com
Open Source LLMs (Hugging Face): Plattform für Open-Source Modelle. huggingface.co

Offene Punkte

Benchmark-Vergleich von Open Source LLMs (Llama 3 vs. Mistral vs. Claude) ergänzen.
Leitfaden für "Evaluation & Testing of RAG Systems" verlinken.