Warum eigentlich Gedanken und Vorsorge treffen für eine robuste Unternehmensführung und ein vermeintlich teures Business Continuity Management?

Papier ist geduldig – und die Norm ISO 22301 liegt warm und trocken im Schrank. Wir nehmen Sie mit in ein Fallbeispiel, um Ihnen anhand zwei unterschiedlich aufgestellter Unternehmen den Ablauf eines Notfalls vorzustellen.

Unser Fallbeispiel führt sie in zwei mittelgroße Unternehmen, die in der gleichen Branche tätig sind: Kartenhaus-Geldgrab GmbH und Robusta-Weidenbaum KG. Als „Hidden-Champions“ stellen die Unternehmen qualitativ höchstwertige Produkte und Dienstleistungen in einem Nischenbereich her. Beide Unternehmen verfügen über ein umfangreiches Produktportfolio, eine Produktion an mehreren Standorten, haben ein Geschäftsfeld der medizinischen Dienstleistungen und einen großen Webauftritt mit B2B und B2C Kontakt. Schlüsselkunden des Unternehmens kommen aus der Luftfahrtbranche, der Automotivebranche sowie weiteren diversen Branchen.

Unser Protagonist ist Bert van Jenssen, IT-Manager in den Unternehmen. Die Systemarchitektur trennt in ProduktionsIT und in Office-IT. Teile der Komponenten sowie die Office IT sind ausgelagert an einen externen Dienstleister. Auch auf unteren Levels sind externe Programmierdienstleister intensiv eingebunden.

In der Firma Robusta-Weidenbaum hat man intensive Vorplanung für eine Notfallvorsorge und ein Notfall- und Krisenmanagement getroffen und dies regelmäßig beübt. Ein Audit nach der ISO 22301 ist ebenfalls durchgeführt und bestanden. Die jährlichen Kosten werden auf ca. 200.000€ geschätzt – darunter fallen auch Anschaffungen für IT-Sicherheit, umfangreiche Service-Level-Agreements mit Dienstleistern sowie Personal- und Schulungskosten. Eine Business Impact Analyse hat ergeben, dass das Risiko des Befalls mit einer Schadsoftware hoch ist, deswegen wird eine intensive Backupkultur und eine teure Analysesoftware vorgehalten. Das Unternehmen selbst hat eine Notfallstruktur aus dem CEO, CFO, CIO, COO, Head of Legal und Head of Safety & Security. Bert van Jenssen ist als IT-Manager eingebunden in ein vordefiniertes IT-Notfallteam (CSIRT), das von der Hotline aktiviert werden kann. Sowohl die Mitarbeiter der Hotline als auch die Mitarbeiter des IT-Notfallteams sind in der Notfallbewältigung geschult und „Standard-operating-procedures“ für IT-Notfälle sind ausgearbeitet und implementiert worden.

Im Unternehmen legt man Wert auf einen langfristigen Unternehmenserfolg – dies zeigt sich insbesondere in der Mitarbeiterzufriedenheit und -auslastung. Kurzfristige Auslastungs- und Belastungsspitzen können abgefedert werden.

Im Unternehmen Kartenhaus-Geldgrab ist keine Notfallvorsorge implementiert – die Kosten sind zu hoch, außerdem wird die Wahrscheinlichkeit eines Notfalles eher gering eingeschätzt. Kurz- und mittelfristige Unternehmenserfolge nehmen einen hohen Stellenwert ein. Aus dieser Motivation sind auch einige Dienstleistungen, wie eine Hotline, günstig outgesourced worden. Auch die IT ist von der Rationalisierung betroffen und ist mit den noch verfügbaren Mitarbeitern zu 112% ausgelastet. Für die Erstellung von Dokumentation oder gar Notfallplänen sind keine Ressourcen verfügbar. Der letzte Notfallplan datiert aus dem Jahr 2004.

Beide Unternehmensführungen treffen sich am Rande einer Fachmesse am Freitag den 01. Dezember. Während sich die Geschäftsführer abends über einem Bier austauschen, gibt es zeitgleich in beiden Unternehmen einen Vorfall mit Schadsoftware. Betroffen ist zunächst eine unternehmenseigene Datenbank, welche hinter dem Webportal Kundendaten verarbeitet. Anschließend breitet sich die Schadsoftware auf die Steuerrechner in der Produktion aus.

Im Unternehmen Kartenhaus-Geldgrab geschieht nichts – mangels aktueller Analysetools gibt es keine Möglichkeit den Befall proaktiv zu erkennen.

In der Firma Robusta-Weidenbaum gibt es ein automatisches Ticket eines Analysetools an die Hotline. Der diensthabende Mitarbeiter versucht den Fehler zu beheben und erkennt Auffälligkeiten, die auf eine Schadsoftware hindeuten können. Weitere Analysen werden gestartet.

Freitag, 01. Dezember gegen 22:45: Mitarbeiter in beiden Unternehmen stellen fest, dass die Qualität der gefertigten Produkte deutliche Abweichungen zeigt. Als Ursache wird die zentrale IT-Produktsteuerung ausgemacht. Die Produktion muss eingestellt werden.

Im Unternehmen Kartenhaus-Geldgrab versucht ein leitender Mitarbeiter verzweifelt die Hotline zu erreichen, laut Bandansage ist diese aber erst wieder ab Samstag 08:00 besetzt. Wild wird durch das Unternehmen telefoniert, um wenigstens einige IT Mitarbeiter aus dem Feierabend aquirieren zu können. Auch Bert van Jenssen wird um 23:21 erreicht und begibt sich zum Rechenzentrum.

In der Firma Robusta-Weidenbaum drückt um 22:46 der diensthabende Mitarbeiter auf den Button „IT-Notfallteam aktivieren“. Dieses wird per SMS informiert. Ebenfalls wird die Geschäftsführung über die Aktivierung des Notfallteams informiert. Sechs Mitarbeiter, unter ihnen Bert van Jenssen sind gegen 23:20 vor Ort und nehmen die Arbeit auf.

Bert van Jenssen versucht gegen 23:30 seine drei Mitarbeiter zu ordnen und Aufgaben zu identifizieren. Der Notfallplan stellt sich als völlig veraltet heraus. Doch wo anfangen? Isolieren? Analyse starten?

Bert van Jenssen übernimmt um 23:35 die Leitung des IT-Notfallteams (CSIRT). Seine Mitarbeiter übernehmen vordefinierte und beübte Rollen, u.a. Planung, Dokumentation, Kommunikation. In der Zwischenzeit liegen die Ergebnisse des Analysetools vor. Die Schadsoftware ist neuartig, verhält sich aber ähnlich zu einer bekannten Schadsoftware, für die ein Sofortmaßnahmenplan bereitsteht. Dieser sieht eine Reihenfolge – erst isolieren, Ausbreitung eindämmen, Beweise sichern, kontrollierte Backups einspielen – vor. Der zuständige Mitarbeiter für Kommunikation informiert die Unternehmensführung und die Belegschaft.

Gegen Mitternacht: Bert van Jenssen entscheidet eigenständig, das Webportal und die zentrale IT-Produktionssteuerung vom Netz zu nehmen. Bei dem externen Netzwerkdienstleister wird ein Ticket eröffnet. Laut SLA sind zur Bearbeitung 4 Stunden vorgesehen.

Bert van Jenssen handelt aufgrund der in der Notfallvorsorge festgelegten Entscheidungskriterien und lässt von dem externen Netzwerkdienstleister das Webportal und die zentrale IT-Produktionssteuerung vom Netz nehmen. Die SLA für das Prio 1 Ticket beträgt maximal 30 Minuten.

Gegen 02:00: Die Analyse der betroffenen Systemkomponenten erbringt keine Ergebnisse. Bert van Jenssen stellt fest, dass die Qualität und Aktualität der Analysesoftware zu wünschen offenlässt. Fluchend und frustriert entscheidet er sich zum Einspielen von Backups auf der vermeintlich betroffenen Rechnerinfrastruktur.

Gegen 02:00: Nachdem das betroffene Netzwerk um 00:45 vom Netz getrennt wurde, wird nach dem Sofortmaßnahmenplan weiter verfahren. Eintreffende Kundenanfragen werden mittels einer vorbereiteten Webseite beantwortet und gesammelt. Im Hintergrund werden die Logs gesichert sowie Vorbereitungen zur Einspielung des getesteten und für sauber deklarierten Backups vom 28.11 getroffen. Aus Übungen ist bekannt, dass dies bei einem kontaminierten Netzwerk und davon getrennten Rechnern ca. 6-8 Stunden in Anspruch nehmen wird. Die Nachtschicht wird daher in Absprache mit dem leitenden Mitarbeiter in den Feierabend geschickt und der Beginn der Frühschicht auf 08:00 festgelegt. Bert van Jenssen bestellt für seine IT Mitarbeiter Essen bei der Pizzabude und lässt durch einen Azubi aus der Produktion seine Mitarbeiter mit Getränken versorgen.

Gegen 04:00: Bert van Jenssen stellt fest, dass das Backup vom 01.11. datiert. Gleichzeitig häufen sich die Anrufe, dass Kundenanfragen ins Leere gehen. Innerhalb der IT Mitarbeiter gibt es Differenzen über Vorgehen, Führung und Kompetenzen. Eine Struktur besteht nicht. Die Mitarbeiter der Nachtschicht stehen bei voller Bezahlung an den stillstehenden Maschinen. Auf die Frage des leitenden Mitarbeiters der Nachtschicht, wie lange dies noch dauert kann Bert van Jenssen nur mit den Schultern zucken.

Gegen 06:00: Das Einspielen der Backups dauert länger als antizipiert. Dafür wird das IT-Notfallteam jetzt mit zwei ausgeruhten Mitarbeitern verstärkt. Der Geschäftsführer wird proaktiv über die Meilensteine der letzten Nacht informiert. Dieser lässt die Kunden via der Key-Account-Manager und der Unternehmenskommunikation informieren.

06:21: Der Geschäftsführer der Kartenhaus-Geldgrab wird von einem Best-Customer mit Just-in-Time Logistik aus dem Bett geworfen, der dezent unzufrieden nachfragt, ob das Unternehmen Kartenhaus-Geldgrab noch über alle Porzellanware im Schrank verfügt. Der Geschäftsführer fällt uniformiert aus allen Wolken – „bei uns steht die Produktion?!?“

06:27 Bei Bert van Jenssen klingelt das Telefon…

08:00 Die Produktion steht weiterhin. Die Frühschicht ist allerdings in der Lage, bestimmte Wartungsarbeiten vorzuziehen und durchzuführen.

08:01: Das Ticket bei der externen Hotline kann eröffnet werden. Der externe Dienstleister verspricht, sich innerhalb der nächsten 6-8 Stunden zu kümmern. Ein Mitarbeiter der IT verlässt das Werksgelände um sich etwas zu Essen zu besorgen und ist über eine Stunde nicht auffindbar.

09:18 Das Webportal kann wieder online gehen. Mit den Daten aus dem Backup, sowie der Datenbank aus der Notfallwebseite kann der Datenverlust auf 47 Stunden begrenzt werden. Der Azubi aus der Produktion hat belegte Brötchen organisiert.

09:20 Bert van Jenssen schläft wegen Übermüdung ein. Wirklich erreicht hat er in den letzten neun Stunden wenig. Die Produktion und das Webportal stehen weiterhin und eine Recovery-Time kann immer noch nicht verlässlich prognostiziert werden.

10:45 Teile der Produktion (ca. 30 %) können wieder angefahren werden.

11:03 Die ersten Backups werden eingespielt – der Datenverlust von fast 4 Wochen kann nicht behoben werden.

11:58 Ein Großteil der Produktion (ca. 80 %) läuft wieder

12:10 Es wird festgestellt, dass Teile des Backups korrumpiert sind oder Imkompatibilitäten von Softwareversionen bestehen. Diese müssen händisch gepatcht werden. Frühester Anlauf: Sonntag Frühschicht.

13:06 Bert van Jenssen deklariert den IT-Notfall nach mehr als 14 Stunden als beendet. Die beiden Kollegen, die erst um 06:00 dazugestoßen sind, übernehmen die Nacharbeiten. Dabei können sie in der Dokumentation nachlesen, welche Maßnahmen oder „Quick&Dirty Workarounds“ wieder rückgängig gemacht werden müssen.

13:37 Bert van Jenssen und seine Mitarbeiter arbeiten mit Hochdruck daran, zumindestens das Webportal wieder online zu bekommen. Eine fitte Mitarbeiterin hat im Hintergrund eine provisorische Lösung zusammengehackt, sodass Kundenanfragen nicht mehr ins Leere laufen, sondern in einer improvisierten Datenbank nachgehalten werden können.

13:50 Bert van Jenssen ruht sich zuhause aus. Seine Mitarbeiter sichten in der Zwischenzeit die Logs und stellen fest, dass die Schadsoftware über eine externe Programmierfirma eingebracht wurde. Gleichzeitig werden gerichtsfeste Beweise gesichert und dokumentiert.

14:18 Bert van Jenssen Teilerfolg: das Webportal und die Datenbank konnten teilweise wiederhergestellt werden. Die Daten der letzten zwei Wochen, die das Umsatzstarke Weihnachtsgeschäft betreffen, sind unwiederbringlich verloren.

16:05 Der Geschäftsführer trifft persönlich im Werk ein und macht sich ein Bild der Lage. Bert van Jenssen muss sich für den Notfall und die Bewältigung wie zum Beispiel die Entscheidung das Webportal vom Netz zu nehmen persönlich rechtfertigen. Eine Dokumentation, die ihn dabei unterstützen könnte, existiert nicht. Der Geschäftsführer entscheidet, dass die Nachtschicht der Produktion ausfällt.

19:58 ein IT Mitarbeiter kann aus dem Urlaub aktiviert werden.

20:00 Beim Einspielen der Backups bei angeschlossenem Netz fällt auf, dass eine Rekontamination mit der Schadsoftware durch einen nicht abgetrennten und undokumentierten Server, der als Schatten-IT durch die Entwicklungsabteilung betrieben wird, stattfindet. Der Server, der für die Rekontamination verantwortlich ist, ist ein ungepatchter Server, der von der Entwicklungsabteilung aus Bequemlichkeit ans Produktionsnetzwerk angeschlossen wurde und auf dem aus Softwaregründen jeder User Administratorenrechte besitzt. Eine Dokumentation oder die physische Lokation für diesen Server ist nicht auffindbar, sodass nur das brachiale Sperren des Netzwerkports verbleibt. Der gesamte Prozess des Einspielens der Backups muss nun wiederholt werden.

Sonntag, 03.12 07:00 Die Backups sind eingespielt, das Webportal funktioniert wieder. Mit dem Beginn der Produktion kann gegen 08:00 gerechnet werden.

Sonntag, 03.12 12:00 Der Notfall kann als aufgehoben betrachtet werden – eine Kommunikation darüber fand nicht statt. Den gesamten Sonntag über verblieb in der Belegschaft eine große Unsicherheit, ob man jetzt dies oder jene Software wieder nutzen könnte.

Sonntag, 03.12 13:05 Die Produktion läuft in weiten Teilen wieder normal. Nur in der Sonderproduktion für einen Spezialkunden gibt es immer noch Schwierigkeiten mit der Datenversorgung. Bert van Jenssen vermutet, dass dies auf den zwangsweisen abgetrennten Server der Entwicklungsabteilung zurückzuführen ist – dieser konnte immer noch nicht physisch aufgefunden werden.

Montag 11:00 Die Auswertung des Notfalls wurde fertiggestellt. Kosten des Notfalls sind ca. 2 Mio. € durch Produktionsausfall, zusätzliche Personalkosten etc. pp. Grundsätzlich ist aber die Unternehmensführung mit der Notfallbewältigung zufrieden: die Kunden haben zwar verärgert reagiert, sich aber gut informiert gefühlt. Die Ausfallzeit und der Business Impact konnte durch geeignete Maßnahmen auf ein Minimum reduziert werden – die Sofortmaßnahmenpläne haben sich als gut geeignet erwiesen. Als richtig gut hat sich das Einschieben von Wartungsarbeiten erwiesen – dadurch wurde die Arbeitszeit der Mitarbeiter gut genutzt und die Zeit steht an anderer Stelle zur Verfügung. Es besteht die Überlegung ob der Schaden dem verursachenden Dienstleister in Rechnung gestellt werden kann. Bei der Reevaluation der SLA wurde ebenfalls entdeckt, dass dort von Seiten des Dienstleisters teils zu spät reagiert wurde und dort ebenfalls finanzieller Ausgleich geltend gemacht werden kann.
Die Unternehmensführung dankt der ganzen Belegschaft für ihre gute Zusammenarbeit und hebt insbesondere das professionelle Arbeiten des IT-Notfallteams hervor – was vor allem im Vergleich zu dem Unternehmen Kartenhaus-Geldgrab deutlich wird.

Dienstag, 05.12 13:05 Der Chief Finance Officer hat den vermutlichen Schaden des Notfalls errechnet. Dieser könnte um die 10 – 15 Millionen Euro betragen. Zudem kommt der Imageverlust und auch Kundenverlust durch einen erheblichen Datenverlust im umsatzstarken Jahresendgeschäft. Die unabsehbare Ausfallzeit hat zu erheblichen Lohnkosten geführt, da die Belegschaft Freitag nachts und Samstag tagsüber neben den stillstehenden Maschinen stehen musste. Die Ursache des Befalls mit Schadsoftware konnte durch das Überspielen von Backups nicht mehr herausgefunden werden, da Beweise vernichtet wurden. Bei der Reevaluation der SLA mit den externen Dienstleistern konnte selbst auf Kulanz keine Entschädigung erreicht werden – der Vertrag sieht nur eine 6 x 8 stündige Erreichbarkeit und entsprechende Reaktionszeiten vor.

Unternehmensintern hat auch das Ansehen der IT stark gelitten – entsprechende Konsequenzen werden sicherlich folgen.

Beide Unternehmensführungen treffen sich am Rande eines Vortrages zu IT-Sicherheit Anfang Januar wieder. Dabei tauschen sich die beiden Geschäftsführer abends über einem Bier über das Thema Business Continuity Management und ihre Lessons Learned aus:

  • Business Impact Analyse
  • Service Level Agreements auf Basis der BIA
  • Aktuelle Notfallvorsorge und Notfallhandbuch
  • Gut geschultes IT-Notfallteam mit Rollenaufteilung und gesicherter Versorgung
  • Abgestimmte Sofortmaßnahmenpläne
  • Geschäftsfortführungspläne und Disaster Recovery Pläne
  • Beweissicherung und Dokumentation