Publiziert: Zuletzt aktualisiert:

Post-Mortem

Ein Post-Mortem ist eine schriftliche Untersuchung eines Vorfalls (Incident), die dokumentiert, was passiert ist, warum es passiert ist, wie darauf reagiert wurde und — am wichtigsten — welche Massnahmen ergriffen werden, um eine Wiederholung zu verhindern.

Die Grundvoraussetzung ist eine Blameless Culture: Wir suchen nach systemischen Schwachstellen, nicht nach schuldigen Personen (siehe Blameless Culture).

Anti-Patterns: Die vertane Chance

  • Schuldzuweisungen: "Wer hat diesen Befehl eingegeben?" führt nur dazu, dass Mitarbeitende in Zukunft Fehler vertuschen.
  • Keine Action-Items: Man spricht über den Fehler, ändert aber nichts an den Prozessen oder der Technik. Der gleiche Fehler passiert in drei Monaten wieder.
  • Geheimhaltung: Die Analyse bleibt in einem kleinen Kreis, statt die gesamte Organisation aus dem Vorfall lernen zu lassen.

Der Lern-Kreislauf

  1. Trigger definieren: Ab welcher Schwere eines Vorfalls (z. B. Datenverlust oder >1h Ausfall) ist ein formales Post-Mortem zwingend erforderlich?
  2. Timeline-Rekonstruktion: Objektive Erfassung aller Ereignisse auf Basis von Logs und Chat-Verläufen.
  3. Root-Cause Analyse (Die 5 Whys): Warum trat der Fehler auf? Warum hat das Monitoring nicht angeschlagen? Warum gab es keine automatisierte Sicherung?
  4. Action-Items priorisieren: Jede Ursache muss zu einer konkreten Aufgabe führen: Code-Änderung, Test-Erweiterung oder Prozess-Anpassung.
  5. Transparente Publikation: Der Bericht wird für alle Entwickler im Unternehmen (z. B. in Neuland oder Wiki) veröffentlicht.

Der Fokus: Prävention statt Bestrafung

Ein Post-Mortem ist ein Geschenk an die Zukunft der Organisation. Es ist die einzige Möglichkeit, die Zuverlässigkeit komplexer Systeme über die Zeit wirklich zu steigern.

FAQ

Verlieren wir nicht zu viel Zeit mit dem Schreiben dieser Berichte?

Ein verhinderter Gross-Ausfall in der Zukunft spart tausende Stunden. Ein Post-Mortem ist das günstigste Training für euer Team und eure Systeme.

Muss man sich schämen, wenn der eigene Name in der Timeline auftaucht?

Absolut nicht. In einer Blameless Culture gilt der Grundsatz: Wenn ein Mensch einen fatalen Fehler machen konnte, ist das ein Design-Fehler des Systems, das diesen Fehler nicht verhindert hat. Wir danken euch für eure Ehrlichkeit bei der Analyse.

Reference Guide

  • Google SRE Book — Postmortem Culture: Das Standardwerk der Branche. sre.google
  • The Field Guide to Understanding 'Human Error': Sidney Dekker über systemisches Denken. CRC Press
  • Postmortems.io: Eine Sammlung von öffentlichen Post-Mortems bekannter Tech-Firmen. postmortems.io

Verwandte Themen

Offene Punkte