Data Architecture: Medallion und Data Mesh
In einer datengetriebenen Wirtschaft ist die Architektur der Daten-Pipelines entscheidend für die Geschwindigkeit, mit der Erkenntnisse gewonnen werden können. Wir setzen auf strukturierte Konzepte wie die Medallion Architecture (Bronze, Silver, Gold) und dezentrale Ansätze wie Data Mesh.
Ziel ist es, Daten von unstrukturierten Rohdaten in hochqualitative, geschäftskritische Informationsprodukte zu transformieren, die sowohl für klassische Analysen als auch für Generative KI (RAG) nutzbar sind.
Anti-Patterns: Der Data Swamp
Ohne klare Architektur enden Daten-Initiativen oft in einem Data Swamp: Unmengen an unstrukturierten, teilweise fehlerhaften Daten liegen in einem Data Lake, ohne dass klar ist, welche Version die korrekte ist. Dies führt zu falschen Analyse-Ergebnissen, hohen Speicherkosten und verhindert die effektive Nutzung von KI, da das Modell auf schlechten Daten (Garbage in, Garbage out) basiert.
Strukturierte Datenveredelung
- Medallion Architecture:
- Bronze (Raw): Speicherung der Rohdaten 1:1, wie sie aus dem Quellsystem kommen. Historisierung ist hier entscheidend.
- Silver (Validated): Bereinigte, gefilterte und standardisierte Daten. Die Basis für teamübergreifende Analysen.
- Gold (Enriched): Hochgradig aggregierte und für spezifische Business-Fragen optimierte Daten (Data Products).
- Data Mesh Prinzipien: Datenverantwortung liegt dort, wo die Daten entstehen (Domain Ownership). Daten werden als Produkt (Data as a Product) über standardisierte Schnittstellen angeboten.
- Data Lakehouse: Kombination der Flexibilität eines Data Lakes mit der Struktur und Performance eines Data Warehouses.
- Schema Enforcement: Technische Erzwingung von Datenstrukturen in frühen Phasen, um die Qualität im Silver- und Gold-Layer zu garantieren.
- KI-Ready Layers: Dedizierte Bereitstellung von Vektordaten (Embeddings) für RAG-Anwendungen auf Basis der Gold-Daten.
Der Vorteil: Single Source of Truth
Durch die strukturierte Veredelung weiss jeder Nutzer (Mensch oder KI) genau, welchem Datenlayer er vertrauen kann und welche Qualität er dort erwarten darf.
FAQ
Ist Data Mesh nicht zu komplex für ein mittelständisches Unternehmen?
Man muss nicht alle Prinzipien gleichzeitig einführen. Das wichtigste Learning aus Data Mesh für KMUs ist die Domain Ownership: Die Fachabteilung muss für die Qualität ihrer Daten verantwortlich sein, nicht die IT.
Warum speichern wir die Rohdaten (Bronze) extra, wenn wir sie sowieso bereinigen?
Um jederzeit in die Vergangenheit schauen zu können. Wenn sich die Bereinigungslogik ändert, können wir den Silver-Layer jederzeit komplett neu aus den unveränderten Bronze-Daten aufbauen.
Reference Guide
- Medallion Architecture (Databricks): Der Standard für Lakehouse-Architekturen. databricks.com
- Data Mesh (Zhamak Dehghani): Das grundlegende Konzept zur Dezentralisierung. martinfowler.com
- The Data Warehouse Toolkit: Ralph Kimball über Datenmodellierung. kimballgroup.com