Serverausfall Server 6620

Der Server 6620 hat einen Festplattenschaden, das Raid 5 System ist defekt. Die Reparatur-Routinen haben es nicht geschafft das System wieder her zu stellen, daher werden die Daten derzeit von den defekten Platten herunter kopiert. Dies dauert aber gerade bei einer defekten Festplatte sehr lange, ist aber der einzige Weg so wenig Datenverluste (Mails, FTP, Datenbanken) wie möglich hin zu nehmen.

Auch wenn ich jeden Kunden nun gerne mit „ach des wird schon wieder, ist gleich erledigt“ beruhigen möchte, vermuten wir aufgrund des bisherigen Fortschritts des Kopierens, das erst im Laufe des späten Nachmittags die betroffenen Kundenaccounts Stück für Stück wieder erreichbar werden.

Es kann derzeit nicht ausgeschlossen werden das es vereinzelnd zu defekten Daten kommt, so wie es bisher ausschaut ist der Großteil der Daten in Ordnung, aber es ist durchaus möglich das einzelne Dateien defekt sind.

Sollte ein Kunde morgen noch Fehler auf seiner Webseite feststellen, bitte mit Domain und genauer Fehlerbeschreibung an den Support wenden, dann werden wir uns bemühen eventuell defekte Dateien aus Backups wieder her zu stellen.

Wir entschuldigen uns für die Probleme, leider ist ein Server eben auch immer nur ein Stück Technik welches kaputt gehen kann, diesmal hat es ausgerechnet unseren stärksten Server(des sogenannte „beste Pferd im Stall“) getroffen, auf den wir gerade viele brisante Projekte gezogen haben. Unsere Techniker arbeiten auf Hochtouren und bemühen sich den Ausfall so kurz wie möglich zu halten.

Update 12:19

Gegen 11 Uhr ist der Newsletter an die bei uns hinterlegten Mailadressen der betroffenen Kunden raus gegangen. Leider ist der Server immer noch dabei die Daten zu kopieren. Viele Kunden haben Verzeichnisse mit Abertausend Session-Dateien, die von der Technik teilweise manuell gelöscht werden um den Vorgang zu beschleunigen. Ich kann in diesem Zusammenhang nur einmal bitten beim verwenden von Sessions eine Laufzeit anzugeben, damit diese nicht „für immer“ gespeichert werden. Das kostet zum einen Speicherplatz, zum anderen kann der „Kunde/Webmaster“ diese Ordner irgendwann nicht mehr per FTP öffnen ..und ja, an Tagen wie diesen kosten solche Datensammlungen unnötig Zeit :-/

Alle bei uns eingegangenen E-Mails sind mittlerweile abgearbeitet, wir bitten für die Verzögerung in der Bearbeitung um Entschuldigung, es war einfach ein bissl viel.

13:40

Hinweis:

Zitat aus einer E-Mail über unser Kontaktformular, auf welche wir nicht antworten können, da die angegebene Mailadresse aufgrund des Hardwareschadens ja nicht erreichbar ist:

„Laut ihrem Blog gab es einen Newsletter an die Betroffenen Kunden. Leider kam er nicht an. ärgerlich.“

Wenn die vom Kunden bei uns hinterlegte E-Mail Adresse eine E-Mail Adresse ist, welche durch den Ausfall nicht erreichbar ist, dann KANN der Newsletter derzeit auch noch nicht ankommen. Wir fanden es dennoch wichtig den Newsletter zu versenden, zum einen da viele Kunden auch web.de oder gmx.de E-Mail Adressen angegeben haben, zum anderen wird bei vielen der Newsletter eben nachträglich eintreffen, so das dann entsprechende Info folgt.

Da wir NICHT jeden Kunden einzeln anrufen und informieren können und wir wissen das nicht jeder Newsletter ankommen wird, haben wir ja diesen Blog … hier steht nicht wirklich weniger als im Newsletter.

Update 14:10 Uhr:

Das Sichern der Daten ist seit ca 13:45 abgeschlossen, der neue Server steht, die User werden nun einzeln vom System wieder angelegt, das wieder Aufspielen der Daten hat begonnen. Als erstes sollten nun Stück für Stück die Mailadressen wieder erreichbar werden, auf den Webseiten wird sich die Fehlermeldung ändern, da der Server wieder erreichbar, die Kundenaccounts aber zunächst noch leer sind.

Update 17:10 Uhr:
Nach Absprache mit einem Kunden haben wir große Cache Ordner mit vielen Tausend Session Dateien gelöscht, diese haben das Kopieren der Daten extrem aufgehalten, nun sollte es zügiger weiter gehen, viele Seiten sind bereits wieder online.

Update 19:15

Mittlerweile sollte auch die letzte Webseite wieder funktionieren. Einige Kunden hatten noch Probleme mit den Mails, dies sollte bereits gelöst sein. Viele der über Tag nicht zustellbaren Mails werden von den Mailservern der Absender in den kommenden Stunden sicher noch eintreffen, aber es ist durchaus Möglich das auch E-Mails abhanden gekommen sind.

Update 20:50 Uhr

E-Mail:

Bei vielen Kunden sind die E-Mails welche „vor“ dem Ausfall im Postfach lagen weg. Die Technik hat grade den Mailserver nocheinmal deaktiviert und spielt die fehlenden E-Mails ein. Das Abschalten des Mailservers ist hierzu nötig um die derzeit vom Tage eingegangenen Mails nicht zu überschreiben/verlieren.

Datenbanken:

Bei einigen Kunden sind die Datenbanken nicht da oder defekt. Die Technik wird die defekte Platte einhängen und versuchen beschädigte oder verloren gegangene Datenbanken hierauf zu „retten“. Sollte einem Kunden eine fehlende oder Fehlerhafte Datenbank auffallen, bitte eine E-Mail unter Angabe des Datenbanknamens an den Support senden. Bitte haben Sie etwas Geduld bei der Bearbeitung dieser speziellen Mails, da die Technik mit dieser Arbeit nun wirklich viel zu tun hat.

Update 21:17 Uhr

E-Mail:
Die verloren gegangenen E-Mails von „vor“ dem Crash, konnten fast alle wieder hergestellt werden, mehr geht dort nicht.
An den fehlenden Datenbanken wird noch gearbeitet.

Update 22:28
Leider können nicht alle Datenbanken wieder hergestellt werden, gerade dieser Bereich ist vom Hardwareschaden stark betroffen. Dennoch, bei fehlenden Datenbanken bitte unter Angabe des Datenbank-Namens per Mail beim Support melden, wir werden schaun welche Datenbanken noch verfügbar sind oder aus einem Backup wieder hergestellt werden können.

Leider hatte das Backup System für MySQL Datenbanken am Tag zuvor ebenfalls einen Hardware-Schaden (das erste mal seit bestehen) und hat erst gestern Abend gegen 18 Uhr wieder begonnen Datenbanken zu sichern … leider waren dadurch noch nicht wieder alle Kundendatenbanken gesichert bevor 6620 zusammen brach.

Den letzte richtigen Plattenschaden hatten wir letztes Jahr im Juni und jetzt ein Jahr später genau 12 Stunden nach dem Neustarten der Backups, so viel Pech muss man erst mal haben.

Fazit: Wir konnten binnen 12 Stunden etwa 97% aller Daten wieder herstellen, in den Stunden danach wurden weitere Daten gefixt und durch Backups ersetzt. Insgesamt sind etwa 8 Datenbanken (für uns) unwiederbringlich zerstört, Großteils konnten die Kunden diese allerdings selbst wieder herstellen.

Ich denke dafür das wir „eigentlich“ seit je her offiziell keine Backups anbieten, ist die Sache dann doch noch glimpflich verlaufen.

Bedanken möchten wir uns bei den vielen wirklich netten und geduldigen Kunden, es ist KEIN einziger Kunde unhöflich geworden, wir haben viel Zuspruch und Verständnis erhalten, dass war wirklich sehr sehr nett, Danke !