single.php
< Beitrag von Frank Oltmanns-Mack

Disaster-Recovery-Strategie – unverhofft kommt oft

Im Zuge der täglich zunehmenden Angriffe auf Unternehmensumgebungen, in Form von zum Beispiel der Ransomware WannaCry oder sogar durch Naturkatastrophen wie gerade der aktuelle Hurrikan Harvey, werden Geschäftskontinuität und Datenschutz immer wichtiger. Im Katastrophenfall sollte das Unternehmen weiterhin arbeitsfähig sein und die IT-Infrastruktur im besten Fall das kleinste Problem darstellen. Eine Disaster-Recovery-Strategie ist somit unabdingbar. Um die Auswirkung einer Katastrophe greifbarer zu machen, an dieser Stelle mal ein paar Zahlen:*

  • Für ein Fortune-1.000-Unternehmen belaufen sich die ungefähren Kosten eines ungeplanten Ausfalls einer unternehmenskritischen Anwendung pro Jahr auf 1,25 bis 2,5 Milliarden US Dollar
  • Die durchschnittlichen Kosten eines IT-Infrastruktur-Ausfalls belaufen sich auf durchschnittlich 100.000 US Dollar pro Stunde
  • Die durchschnittlichen Kosten des Ausfalls einer unternehmenskritischen Anwendung belaufen sich auf durchschnittlich 500.000 bis 1.000.000 US Dollar pro Stunde
  • Die durchschnittlichen Kosten eines Ausfalls des Rechenzentrums belaufen sich auf durchschnittlich 7.900 US Dollar pro Minute

Somit sind Ausfälle immer mit einem hohen finanziellen Schaden behaftet. Aber sie bedrohen nicht nur die Finanzen, sondern auch das Ansehen eines Unternehmens und gefährden dessen Produktivität. Zusätzlich bedeutet die Einführung eines 2. Standortes und der entsprechenden Infrastruktur eine große monetäre Belastung. Die Einhaltung der entsprechenden Recovery Point Objective (RPO) und Recovery Time Objective (RTO) stellt bei immer komplexer werdenden Umgebungen eine zusätzliche Herausforderung dar. Gerade weil auch noch regulatorische oder Compliance-Anforderungen hinzukommen können. Auf Grund dieser Tatsachen ist es für die meisten Unternehmen nicht möglich, den Schutz über die kritischen Anwendungen hinaus anzubieten.

Gründe für Ausfälle

Namenstechnisch würde man ja bei Disaster eher von Naturkatastrophen ausgehen. Wie man in der Abbildung allerdings sehen kann, ist der Anteil von wirklichen Naturkatastrophen eher gering. Viel häufiger sind Betriebsfehler der Grund für den Ausfall bestimmter Unternehmensumgebungen.

Disaster-Recovery-Strategie

Abbildung: Hauptgründe für Ausfälle (Quelle: Forrester „The State of Business Technology Resiliency Q2 2014“)

Die 4 Standardvorgehen für Disaster Recovery

Mittlerweile haben sich einige Ansätze schon als Standard etabliert. Im Folgenden sollen die 4 häufigsten kurz beschrieben werden.

Backup- und Restore-Szenario

Die einfachste Herangehensweise ist dabei die „Backup und Restore“-Variante. Hierbei wählt man für das Backup einen Speicherort außerhalb des Unternehmens und im Disaster-Fall werden von dort die Maschinen wiederhergestellt. Im Bezug auf RTO ist diese Variante nicht optimal, da man im Katastrophenfall die Hardware zur Wiederherstellung erst wieder besorgen muss. Wird der Restore dabei zusätzlich in eine bereitstehende Umgebung durchgeführt, kann dort RTO weiter optimiert werden.

Pilot-Light-Szenario

„Pilot Light“ bedeutet so etwas wie Sparflamme. Gemeint ist die kleine Flamme in Gasboilern und an diesem Modell orientiert sich auch dieses Disaster-Recover-Szenario. Zur Optimierung der RPO wird hierbei ein bestimmter Teil der Umgebung schon in der Disaster-Umgebung im laufenden Zustand bereitgestellt. Dabei kann es sich zum Beispiel um kritische Datenbanken handeln, die schon im Betrieb synchronisiert werden. Kommt es nun zu einem Katastrophenfall, wird wie bei einem Gasboiler die Umgebung „mit Gas“ versorgt und die entsprechenden Maschinen fahren hoch. Dadurch dass in diesem Fall die Wiederherstellung der kritischen Komponenten entfällt, erhalten wir eine viel bessere RTO.

Warm-Standby-Szenario

Es handelt sich im Grunde um eine größere Variante des „Pilot Light“. Hierbei wird schon eine minimale, laufende Umgebung am Disaster-Recovery-Standort bereitgehalten. Diese Umgebung ist dabei in sich schon vollständig lauffähig. Dadurch kann die RTO noch weiter optimiert werden. Im Katastrophenfall muss die Umgebung entsprechend auf ein produktionsähnliches Niveau erweitert werden.

Multi-Site-Szenario

Bei diesem Szenario bezieht man die Disaster-Recovery-Umgebung schon in den produktiven Betrieb mit ein. Durch Lastverteilung wird im Betrieb ständig die Auslastung auf verschiedene Standorte verteilt. Kommt es hierbei zu einem Katastrophenfall, ist eine Unterbrechung des Betriebs kaum spürbar. Die Lastverteiler leiten dann den Verkehr komplett auf die Disaster-Recovery-Umgebung um. Nach der Wiederherstellung kann die Last wieder langsam auf die Unternehmensumgebung zurückverteilt werden. Im Bezug auf RTO ist diese Lösung fast schon optimal und hängt dabei nur noch von der Art der Synchronisierung ab.

Zur erfolgreichen Disaster-Recovery-Strategie

Zusätzlich zu den beschriebenen Szenarien sind für eine erfolgreiche Disaster-Recovery-Strategie natürlich noch weitere Faktoren wichtig. Zum Beispiel müssen Verantwortlichkeiten, Dokumentation und ein entsprechendes Notfallkonzept vollständig vorhanden sein, damit es im Katastrophenfall nicht zu Problemen kommt. Außerdem sollte man kontinuierlich sogenannte „Fire-Drills“ durchführen, um die gewählte Strategie auf Fehler zu untersuchen. Nur eine vollständige Disaster-Recovery-Strategie ist im Katastrophenfall erfolgreich.

 

*Quellen:

Vgl. Wastie, Steven (2015): IDC Survey: Downtime Costs Large Companies Billions [19.02.2015], www.devopsdigest.com/idc-survey-appdynamics-devops-application-performance, Stand: 04.09.2017.

Vgl. Sverdlik, Yevgeniy (2013): One minute of data center downtime costs US$7,900 on average [04.12.2013], http://www.datacenterdynamics.com/content-tracks/power-cooling/one-minute-of-data-center-downtime-costs-us7900-on-average/83956.fullarticle, Stand: 04.09.2017.

Folgen
X

Folgen

E-mail : *
Kategorie: Datacenter | Schlagwörter: , , | Kommentare: 0

Beitrag kommentieren

CAPTCHA * Time limit is exhausted. Please reload CAPTCHA.