Verbundzerfall: Datenrettung im RAID

Wer Datensicherheit sagt, meint RAID. Unter den verschiedensten Medien – sei es Band oder Festplatte – läuft weit verbreitet immer noch RAID 5 oder der De-facto-Standard RAID 6. Auch die moderne Welt der Virtualisierung basiert auf Festplattenverbünden. NAS-Appliances sind in ihrem Inneren ebenso RAIDs. Obwohl Parity Codes bei einem RAID 6-Verbund den Ausfall von zwei Festplatten verkraften können, ist auch hier Datenverlust möglich. Die Datenrettung auch.

Datenrettung im herkömmlichen RAID

RAIDs in nicht virtualisierten Infrastrukturen bieten keine absolute Sicherheit. Die Fehlerquellen, die zu Datenverlusten führen, reichen von Hardwareausfällen bis hin zu Fehlbedienungen. Datenverlust durch Ausfall eines Datenträgers ist häufig und kommt selten allein, weil bei Anschaffung oft Medien aus einer Produktionscharge gekauft werden, die unter Umständen gleiche Fehler haben können. Ihre Mean Time Between Failures laufen sozusagen gemeinsam ab. Gefährlich wird das bei RAID 6, wenn hier auf die erste defekte Platte aus vermeintlichem Sicherheitsgefühl nicht reagiert wird.

RAIDs in nicht virtualisierten Infrastrukturen bieten keine absolute Sicherheit. Die Fehlerquellen, die zu Datenverlusten führen, reichen von Hardwareausfällen bis hin zu Fehlbedienungen. Datenverlust durch Ausfall eines Datenträgers ist häufig und kommt selten allein, weil bei Anschaffung oft Medien aus einer Produktionscharge gekauft werden, die unter Umständen gleiche Fehler haben können. Ihre Mean Time Between Failures laufen sozusagen gemeinsam ab. Gefährlich wird das bei RAID 6, wenn hier auf die erste defekte Platte aus vermeintlichem Sicherheitsgefühl nicht reagiert wird.

Hardware kann aus den verschiedensten Gründen ausfallen: Entweder sind einzelne Bereiche oder Schreib-/Leseköpfe defekt oder der Controller versagt zum Beispiel durch Überhitzung. Eine weitere Gefahrenquelle ist der unsachgemäße Ersatzteilaustausch. Auch ein gewissenhafter Servicepartner kann oft nicht nachvollziehen, wieso ein Ersatz-Controller oder eine vermeintlich baugleiche Platine zu Folgeschäden und Datenverlust führen. In einem Fall hatte ein Controller eine Platte auf defekt geschaltet. Ein Techniker tauschte die Backplane und wollte einen Rebuild durchführen. Da aber die Platte nicht genau identisch war, startete der Rebuild nicht. Vorübergehend lief nun RAID 5 mit zwei Platten im degraded mode anstatt mit drei. Im nächsten Versuch startete auch eine korrekte, baugleiche Platte nicht die Wiedererrichtung des Verbundes. Nach einem Reboot wurde über das BIOS des Controllers die neue korrekte Platte per "add and migrate" in das RAID 5 eingefügt. Später stellte sich heraus, dass für den Controller die alte, defekte Platte noch im Verbund war. Vermutlich war nun in der Zwischenzeit ein RAID 5 über 4 Platten mit defekter Platte in Betrieb und wurde so falsch neu berechnet. Ein schneller Neustart des Servers führte nun dazu, dass keine Daten mehr auszulesen waren. Dem Kunden bleibt dann nur eine Rekonstruktion aus dem alten Backup oder der Gang zum Datenretter.

Bedienungsfehler sind Ausfallursache Nummer zwei. Häufig werden Bordmittel zum falschen Zeitpunkt eingesetzt. So wird nach Plattenausfall das RAID neu initialisiert, wo eigentlich ein Rebuild auf der Agenda stünde - und selbst dieser ist nicht risikofrei. Unerkannte strukturelle und physikalische Probleme lassen sich so nicht wegkorrigieren. Gefährlich ist die fehlerhafte Neuinitialisierung deshalb, weil die neue Parity unter Mitberücksichtigung alter Parities und sozusagen als neue Parity der Ersatzfestplatte geschrieben wird, anstatt aus den verbliebenen guten Festplatten die fehlende Festplatte auf der Ersatzfestplatte wieder aufzubauen.

Das kann auch professionellen Anbietern dezidierter Server passieren. Hier bestand der RAID 5 aus drei 700 Gigabyte HDDs in Windows mit NTFS-Dateisystem. Nach Austausch der Festplatte führte der Rebuild – aus unerklärlichen Gründen – zum Verlust aller Daten. Dann erfolgten Neupartitionierung und Neuinstallation. Aus ursprünglich drei Volumes wurden nun zwei NTFS-Volumes. Nun blendeten die Datenretter mit einem speziellen Tool die Änderungen durch Rebuild und Neuinstallation aus. Dies muss sehr schnell gehen. Je mehr hier weiter gearbeitet worden wäre, umso mehr Daten wären überschrieben worden. Überschriebenes kann auch nicht mehr ausgeblendet werden, da die elektromagnetischen beziehungsweise Ladezustände und damit Daten definitiv verändert sind. Im Verlauf der Bemühungen musste eine Festplatte, die schon zu stark beschädigt war, aus dem Datenrettungsprozess genommen werden. In der Folge musste auch ein Volume unberücksichtigt bleiben. Der durch die neuen Daten in der Neuinstallation überschriebene Bereich hatte schon zuviel Schaden produziert. Glücklicherweise waren hier nur Systemdateien betroffen. Nach Fehlerkontrolle und Filterung konnten 550 GB mit wichtigen Kundendaten gerettet werden.

Datenrettung in virtuellen Umgebungen

RAIDs werden in virtuellen Umgebungen immer wichtiger. Großflächige virtuelle Infrastrukturen fußen immer auf Verbünden von Festplatten. Ein HP EVA SAN System zum Beispiel basiert auf RAID 6 Systemen, DataCore SanMelody oder auch Sun ZFS sind im Unterbau auch mit RAID Algorithmen abgesichert. Unabhängig von der Hardware verteilen diese Lösungen die Informationen. Einzelfestplatten werden zu LUNs zusammengeschaltet und die Daten nach RAID Prinzipien darauf verteilt: Ein solcher hardwareunabhängiger RAID Verband unterliegt dabei aber auch den allgemeinen Ausfallrisiken des RAID Prinzips. Diese Gefahr wird oft unterschätzt und Backups fehlen dann. Im SAN einer hochrangigen Behörde mit 88 Festplatten à 320 GB fielen nach einem Wasserschaden 24 Platten aus. Ein unsachgemäßer Ausbau machte es Kunden wie Hersteller der Backup-Lösung unmöglich, die Informationen zu retten. Die Datenretter konnten die Datenrettung erfolgreich durchführen.

Fehlbedienungen sind eine besondere Gefahr der immer noch neuen Technologie Virtualisierung. Fast banal, folgenschwer - und in der Praxis häufig - ist das Abschalten einer LUN in einer Art SpanSet über mehrere LUNs. Das kommt im Ergebnis einem Plattenausfall gleich.

Die komplexen Datenorganisationen führen auch zu logischen Fehlern. Bei einer fehlerhaften Verzeichnisstruktur in der Virtual Machine fragt der Controller der RAID-Einheit zum Beispiel fehlerhafte Speicheradressen ab. Neben dem Verlust des Verzeichnisses als Extremfall sind alle Spielarten denkbar, die dazu führen, dass Einträge nicht mehr korrekt sind. So können Verzeichnisse von einer falschen Dateigröße ausgehen. Dann liest der Controller die Folgebereiche nicht mehr richtig weiter ein und die Datei wird in seinen Augen korrupt. Das ist häufig bei dynamischer Speicherverwaltung der Fall, wenn ein RAID-Segment im Fehlerfall automatisch verkleinert wird und dadurch von ihm noch belegte Bereiche aus seinem Verfügungsbereich eigentlich konsequent herausfallen. Dateien werden so regelrecht abgeschnitten.

Der Controller ist das Herzstück der virtuellen Datenverwaltung. In einem Fall war ein RAID 5 Array mit 5 Festplatten an einen VMware ESX Server mit einer Datenmenge von 1,2 Terabyte angeschlossen. Auf dem Array waren vier MS Windows 2003 Server Virtual Machines gespeichert. MS SQL 2005 speicherte die medizinischen Unterlagen aller Patienten. Als der Controller ausfiel, wurde er von einem internen Techniker ersetzt. Auch nach Reboot blieben alle Platten offline. Die IT stand nun vor einem Dilemma. Ein erzwungenes Online-Stellen der Platten und Rebuild garantierten keinen Erfolg.

Der IT-Administrator erstellte gewissenhaft zuerst 1:1 Kopien auf gleich große Festplatten. Dann schaltete er die 1:1-Kopien online. Zu Tage kam eine beschädigte RAID Konfiguration. Die Lösung war letztlich, den Controller durch eigens entwickelte Software der Datenrettungsexperten zu ersetzen. So können dann die Data Stripes gemappt werden, um die Original-RAID-Konfiguration zu bestimmen und per Software den RAID Controller zu simulieren. Dieses virtuelle RAID Manager Layer fungierte für den Verlauf des Recovery-Prozesses wie die Original-LUN.

Vorbeugen ist besser als Heilen

Gleich wie solide ein RAID und egal, wie der Unterbau einer virtuellen Umgebung ist – Datenverlust lässt sich nicht ausschließen. Klassische Risiken wie Hardwareausfall, Fehlbedienungen oder höhere Gewalt bleiben. Wichtig ist, im Ernstfall richtig zu handeln. Einige wenige Regeln helfen schon in den meisten Fällen weiter: Ausfälle von Festplatten sollten ernst genommen und schnell behoben werden. Im Zweifelsfalle sollten Selbstreparaturen unterbleiben und erfahrene Experten befragt werden. Professionelle Datenretter verfügen über leistungsstarke Tools, die häufig sogar über eine Internetverbindung Daten retten können. Eine solche internetgestützte Lösung zur Datenrettung wie RDR wird häufig auch zu einer Erstdiagnose eingesetzt, um zu sehen, welche Datenverluste stattgefunden haben und welche Daten wie gerettet werden können. Dann können gezielt nur die Festplatten ausgebaut werden, die wirklich benötigt werden. Eventuell entfällt auch der Ausbau. Administratoren können aber auch gut vorbauen: Eine stets aktuelle gewissenhafte Dokumentation ist oft schon die halbe Datenrettungsmiete. Wenn dann im Ernstfall aufgrund dieser Basis der enge Austausch mit den Experten möglich ist, dann stehen die Erfolgsaussichten gut. Aber auch in virtuellen Umgebungen bleiben Backups die Mutter der Datensicherheit.

Peter Böhret, Managing Director, Kroll Ontrack GmbH