Souveräne KI
Souveräne KI: das Modell kommt zu den Daten, nicht die Daten zum Modell
Souveräne KI heisst, offene Modelle auf der eigenen Infrastruktur in der Schweiz oder on premise zu betreiben, statt Daten an eine fremde Cloud zu geben. Das ist die Architektur, die KI und Datensouveränität vereinbar macht.
Viele gehostete KI-Dienste schicken jede Eingabe an eine API eines externen Anbieters. Für eine harmlose Frage ist das egal. Für einen Vertragsentwurf, eine Patientenakte oder die Kundendaten eines Treuhänders ist es ein Datenabfluss, der sich nicht mehr rückgängig machen lässt. Souveräne KI dreht die Richtung um: Das Modell kommt zu den Daten, nicht die Daten zum Modell. Diese Seite beschreibt das Problem, das diese Architektur löst, wie sie aufgebaut ist, was sie kostet, und wo ihre ehrlichen Grenzen liegen. Sie ist der konzeptionelle Anker des KI-Clusters; die übrigen Seiten, von GenAI und RAG bis zu den einzelnen Werkzeugen, spielen denselben Faden aus ihrem jeweiligen Winkel.
Das Souveränitätsproblem
Wer eine KI-API eines US-Anbieters nutzt, trifft drei Abhängigkeiten gleichzeitig, oft ohne sie zu benennen:
- Daten. Jede Anfrage verlässt das Haus. Wohin sie fliesst, wie lange sie gespeichert bleibt und ob sie ins Training einfliesst, steht in den Geschäftsbedingungen des Anbieters, nicht in den eigenen.
- Jurisdiktion. Liegen Daten bei einem US-Anbieter, greift der US Cloud Act unabhängig vom physischen Standort des Servers. Ein Rechenzentrum in Zürich, das einem US-Konzern gehört, schützt davor nicht zuverlässig. Verarbeitet das System Personendaten, greift parallel das revidierte Datenschutzgesetz.
- Vendor Lock-in. Modell, Schnittstelle und Preise gehören dem Anbieter. Eine abgekündigte Modellversion, eine Preiserhöhung oder ein geänderter Nutzungsvertrag treffen direkt, ohne Ausweichweg.
Diese drei Punkte sind der Kern der digitalen Souveränität, übertragen auf KI. Sie sind kein Argument gegen KI, sondern eines für eine bewusste Architektur-Entscheidung darüber, wo Modell und Daten liegen.
Die Self-Hosting-Architektur
Souveräne KI ruht auf zwei Bausteinen: einem Modell, dessen Gewichte offen verfügbar sind, und einer Infrastruktur, die unter eigener Kontrolle steht.
Ein Open-Weights-Modell ist eines, dessen trainierte Gewichte heruntergeladen und lokal betrieben werden dürfen, oft, aber nicht immer, unter einer offenen Lizenz wie Apache 2.0; die Lizenz ist pro Modell zu prüfen. Damit lässt es sich auf eigener Hardware ausführen, ohne dass eine Anfrage je das Netz verlässt. Das europäische Anbieter-Lager liefert hier eine Reihe offener Modelle unter Apache 2.0 (siehe Mistral); das ist relevant, weil offene Lizenz und EU-Jurisdiktion zwei verschiedene Souveränitätsfragen gleichzeitig adressieren.
Auf der Betriebsseite serviert eine Inferenz-Schicht das Modell als API im eigenen Netz. Eine quelloffene Inferenz-Engine wie vLLM übernimmt das effiziente Ausliefern an mehrere gleichzeitige Anfragen; sie ist das souveräne Pendant zur Cloud-API. Davor sitzt eine Oberfläche wie LibreChat, die denselben Zugang bietet wie ein kommerzielles Chat-Frontend, nur gegen das eigene Modell. Wird Wissen aus eigenen Dokumenten gebraucht, kommt GenAI und RAG hinzu, dessen Vektor-Speicher ebenfalls im Haus bleibt.
architecture-beta
group boundary(cloud)["Schweiz oder on premise"]
group outside(cloud)["Externe Cloud"]
service ui(cloud)["Chat Oberfläche"] in boundary
service inference(server)["Inferenz Engine"] in boundary
service model(server)["Open Weights Modell"] in boundary
service rag(database)["RAG Wissensbasis"] in boundary
service docs(database)["Dokumente und Daten"] in boundary
service uscloud(cloud)["US Cloud API"] in outside
ui:R -- L:inference
inference:R -- L:model
ui:B -- T:rag
rag:B -- T:docs
ui:R -- L:uscloud
Der Kasten ist die Souveränitätsgrenze: Anfrage, Modell, Wissensbasis und Daten liegen alle innerhalb der eigenen Kontrolle. Die gestrichelte Linie nach aussen ist der Pfad, den souveräne KI bewusst nicht beschreitet. Die laufende Beobachtung, welche offenen Modelle für welchen Zweck reif sind, leistet das Tech-Radar und KI-Governance.
Was es kostet, ehrlich gerechnet
Souveränität ist nicht gratis. Wer die Architektur ernsthaft erwägt, rechnet mit drei Posten:
- Hardware. Brauchbare Inferenz braucht GPUs. Ein einzelnes, mittelgrosses Open-Weights-Modell läuft auf einer einzelnen leistungsfähigen GPU; grössere Modelle oder hohe Gleichzeitigkeit brauchen mehr. Das ist eine Anschaffung oder eine Miete bei einem Schweizer Anbieter, kein Nullbetrag.
- Betrieb. Ein selbst betriebenes Modell will aktualisiert, überwacht und abgesichert werden. Das ist eine eigene Betriebsdisziplin, die LLMOps und MLOps beschreiben. Wer den Betrieb unterschätzt, verlagert das Risiko nur vom Datenschutz auf die Verfügbarkeit.
- Qualitäts-Delta. Das ist der ehrlichste Posten. Die grössten geschlossenen Frontier-Modelle führen bei den schwersten Aufgaben, etwa langem Schlussfolgern oder vielsprachigem Code, weiterhin. Offene Modelle haben den Abstand spürbar verkleinert und sind für viele strukturierte, werkzeuggetriebene Aufgaben gut genug; gleichwertig mit dem jeweils stärksten geschlossenen Modell sind die offen verfügbaren in der Spitze aber nicht. Die Frage ist nicht, ob das offene Modell unter den Sprachmodellen das beste ist, sondern ob es für den konkreten Anwendungsfall gut genug ist.
Diese drei Posten gehören zusammen in eine ehrliche Rechnung. Gegen sie stehen der wegfallende Datenabfluss, der fehlende Vendor Lock-in und planbare Kosten statt eines Preises pro Anfrage.
Wann es sich lohnt
Souveräne KI ist kein Selbstzweck und nicht für jeden Anwendungsfall die richtige Wahl. Sie lohnt sich, wenn mindestens einer dieser Punkte zutrifft:
- Die verarbeiteten Daten sind besonders schützenswert, etwa Personendaten, Mandatsgeheimnis oder Geschäftsgeheimnisse, sodass ein Abfluss in eine fremde Jurisdiktion ausscheidet.
- Das Volumen ist hoch genug, dass der Preis pro Anfrage einer Cloud-API die fixen Kosten eigener Hardware übersteigt.
- Vendor Lock-in ist ein reales Risiko, weil das System langfristig laufen soll und eine Abkündigung teuer wäre.
- Ein konkreter Anwendungsfall, etwa eine interne Wissensbasis, lässt sich mit einem offenen Modell in ausreichender Qualität lösen.
Wo nur gelegentlich harmlose Texte verarbeitet werden und die höchste Modellqualität zählt, kann eine Cloud-API die pragmatischere Wahl bleiben. Die saubere Entscheidung zwischen beiden Wegen, samt der Frage, wer welches Modell auf welchen Daten nutzen darf, klärt die KI-Governance; sobald Modelle autonom in einer Schleife handeln, verschiebt sich der Wirkungsradius weiter, was die Seite zu den KI-Agenten ausführt. Den belegbaren Aufbau einer souveränen Wissensbasis bündelt die KI-Werkbank; ein abgegrenztes Erstprojekt prüft den ersten Schritt.
Referenzen
- Towards Data Science The Infrastructure Behind Making Local LLM Agents Actually Useful. Praxisbericht zum Betrieb offener Modelle auf eigener Hardware mit der Inferenz-Engine vLLM. (28.05.2026). towardsdatascience.com/the-infrastructure-behind-making-local-llm-agents-actually-useful/
- vLLM vLLM Documentation. Quelloffene Inferenz- und Serving-Engine für den effizienten lokalen Betrieb grosser Sprachmodelle. (2026). docs.vllm.ai/en/latest/
- Bundeskanzlei Strategie Digitale Schweiz. Die für die Bundesverwaltung verbindlichen Leitlinien zur digitalen Transformation und Souveränität. (2026). www.bk.admin.ch/en/digital-switzerland
- Mistral AI Mistral 7B. Ankündigung eines europäischen Open-Weights-Modells unter der Apache-2.0-Lizenz, ohne Nutzungsbeschränkungen. (27.09.2023). mistral.ai/news/announcing-mistral-7b
- Cornell Law School 18 U.S. Code § 2713. Die Offenlegungspflicht US-amerikanischer Anbieter unabhängig vom Speicherort, Kern des US Cloud Act. (23.03.2018). www.law.cornell.edu/uscode/text/18/2713
Verwandte Themen
- GenAI und RAG, die häufigste Anwendung souveräner KI auf eigenem Wissen.
- Digitale Souveränität, der strategische Rahmen, in dem souveräne KI steht.
- US Cloud Act, die Jurisdiktionsfrage hinter dem Datenabfluss.
- KI-Governance, die Steuerung, wer welche Modelle auf welchen Daten nutzen darf.
- KI-Agenten und agentische Systeme, wo der Wirkungsradius autonomer Modelle wächst.
- LibreChat, die souveräne Oberfläche vor dem eigenen Modell.
- KI-Werkbank, der abgegrenzte Aufbau einer belegbaren Wissensbasis.
KI fragen
Diese Links öffnen externe KI-Dienste, die Unterhaltung und deren Inhalt werden dabei an den jeweiligen Anbieter übertragen.