Incident Response
Incident Response (IR) ist der strukturierte Prozess zur Bewältigung von unvorhergesehenen IT-Störungen oder Sicherheitsvorfällen. Chaos Engineering ist die Disziplin, das System proaktiv durch gezielte Experimente zu stressen, um Schwachstellen zu finden, bevor sie im echten Betrieb zu Krisen führen.
Zusammen bilden sie das Immunsystem der IT-Organisation: Wir trainieren für den Ernstfall, damit wir im Krisenfall ruhig und koordiniert handeln können.
Anti-Patterns: Panik im Maschinenraum
- Ad-hoc Krisenmanagement: Bei einem Ausfall rennen alle durcheinander, es gibt keine klaren Rollen und die Kommunikation zu Kunden fehlt komplett.
- Fragile Systeme: Man hat Angst, das System anzufassen, aus Sorge, es könnte zusammenbrechen (Never touch a running system).
- Einmal-Backups: Man verlässt sich auf Backups, die aber nie auf ihre Wiederherstellbarkeit geprüft wurden.
Geplante Belastbarkeit
- Incident Response Plan: Definierte Rollen (Incident Commander, Communication Lead), klare Kommunikationskanäle und vorgefertigte Checklisten für verschiedene Szenarien.
- Chaos Engineering (Game Days): Gezieltes Ausschalten einzelner Server oder Datenbanken in einer kontrollierten Umgebung, um zu prüfen, ob die Self-healing-Mechanismen funktionieren.
- Blameless Incident Reviews: Objektive Analyse jedes Vorfalls zur dauerhaften Systemverbesserung (siehe Post-Mortem).
- Automated Runbooks: Automatisierung von Standard-Reaktionen auf Incidents (z. B. automatisches Skalieren bei Lastspitzen).
- Business Continuity Planning (BCP): Strategien für den Weiterbetrieb der Kernprozesse, auch wenn die Primär-IT komplett ausfällt.
Der Fokus: Ruhe durch Routine
Teams, die regelmässig "Chaos" trainieren, verlieren im echten Incident nicht die Nerven. Sie wissen genau, was zu tun ist, und können sich auf die Lösung konzentrieren.
FAQ
Warum sollten wir absichtlich Fehler in unsere Systeme einbauen?
Weil Fehler sowieso passieren werden — meistens dann, wenn es am schlechtesten passt (Sonntagabend). Mit Chaos Engineering wählen wir den Zeitpunkt selbst und finden die Lücke, wenn wir bereit sind, sie sofort zu schliessen.
Ist ein Incident Response Plan nicht nur etwas für Grosskonzerne?
Nein. Auch für ein KMU ist es entscheidend zu wissen: Wer informiert die Kunden? Wer entscheidet über das Abschalten eines gehackten Servers? Diese Entscheidungen darf man nicht im Stress treffen müssen.
Reference Guide
- Principles of Chaos Engineering: Die Grundregeln der Disziplin. principlesofchaos.org
- PagerDuty Incident Response Handbook: Ein praxisnaher Guide. pagerduty.com
- Chaos Monkey (Netflix): Das Tool, das Chaos Engineering populär gemacht hat. Netflix Github