Dieses Blog ist NOFOLLOW-frei!

Archive for Mai, 2010

Kurzer, geplanter Ausfall am Wochenende

Dieses Wochenende (Nachts) werden folgende Server für 5-10 Minuten für den Einbau einer zusätzlichen Festplatte herunter gefahren.

1808, 23832, 6620,  21226,  2922,  2116,  2728, 2726, 3320

Hintergrund:

Es gibt Provider welche Backups zusichern und wenn etwas schief geht, wird auf die AGBs und Klauseln verwiesen die letztlich nichts zusichern.

Wir machen es seit je her umgekehrt. Wir sichern keinerlei Backups zu, fordern Kunden immer auf, selbst auf Backups zu achten und dies werden wir auch weiterhin so halten. Dennoch werden über das System seit vielen Jahren ständig Backups erstellt, so dass wir Kunden fast immer aus der Klemme helfen konnten.

Bei einem Plattenschaden wird immer versucht zunächst die Daten der defekten Platte zu sichern, da diese aktueller sind als ein Backup, allerdings dauert es auch lange. Um in Zukunft aber im Falle eines Plattenschadens die Accounts schneller wieder herstellen zu können und als zusätzliche Sicherheit zum bestehenden Backup System, rüsten wir nun auf.

In den kommenden 4-6 Monaten werden wir Stück für Stück in alle Shared Server, jeweils eine zusätzliche Festplatte einbauen, welche täglich eine weitere Sicherung durchführt.

Wir sichern weiterhin keine Backups zu, der Crash von 6620 letzte Woche hat einmal mehr gezeigt was passieren kann wenn Murphys Law zuschlägt und widrige Umstände aufeinander treffen. Aber wir werden auch weiterhin alles notwendige tun um soviel Sicherheit wie möglich zu gewährleisten und Murphy ein Schnäppchen zu schlagen.

Für den Einbau der zusätzlichen Platten ist es notwendig die Server kurz auszuschalten, der Ausfall sollte aber nur 5-10 Minuten dauern und wird in der Nacht durchgeführt.

Serverausfall Server 6620

Der Server 6620 hat einen Festplattenschaden, das Raid 5 System ist defekt. Die Reparatur-Routinen haben es nicht geschafft das System wieder her zu stellen, daher werden die Daten derzeit von den defekten Platten herunter kopiert. Dies dauert aber gerade bei einer defekten Festplatte sehr lange, ist aber der einzige Weg so wenig Datenverluste (Mails, FTP, Datenbanken)  wie möglich hin zu nehmen.

Auch wenn ich jeden Kunden nun gerne mit “ach des wird schon wieder, ist gleich erledigt” beruhigen möchte, vermuten wir aufgrund des bisherigen Fortschritts des Kopierens, das erst im Laufe des späten Nachmittags die betroffenen Kundenaccounts Stück für Stück wieder erreichbar werden.

Es kann derzeit nicht ausgeschlossen werden das es vereinzelnd zu defekten Daten kommt, so wie es bisher ausschaut ist der Großteil der Daten in Ordnung, aber es ist durchaus möglich das einzelne Dateien defekt sind.

Sollte ein Kunde morgen noch Fehler auf seiner Webseite feststellen, bitte mit Domain und genauer Fehlerbeschreibung an den Support wenden, dann werden wir uns bemühen eventuell defekte Dateien aus Backups wieder her zu stellen.

Wir entschuldigen uns für die Probleme, leider ist ein Server eben auch immer nur ein Stück Technik welches kaputt gehen kann, diesmal hat es ausgerechnet unseren stärksten Server(des sogenannte “beste Pferd im Stall”) getroffen, auf den wir gerade viele brisante Projekte gezogen haben. Unsere Techniker arbeiten auf Hochtouren und bemühen sich den Ausfall so kurz wie möglich zu halten.

Update 12:19

Gegen 11 Uhr ist der Newsletter an die bei uns hinterlegten Mailadressen der betroffenen Kunden raus gegangen.  Leider ist der Server immer noch dabei die Daten zu kopieren. Viele Kunden haben Verzeichnisse mit Abertausend Session-Dateien, die von der Technik teilweise manuell gelöscht werden um den Vorgang zu beschleunigen. Ich kann in diesem Zusammenhang nur einmal bitten beim verwenden von Sessions eine Laufzeit anzugeben, damit diese nicht “für immer” gespeichert werden. Das kostet zum einen Speicherplatz, zum anderen kann der “Kunde/Webmaster” diese Ordner irgendwann nicht mehr per FTP öffnen ..und ja, an Tagen wie diesen kosten solche Datensammlungen unnötig Zeit :-/

Alle bei uns eingegangenen E-Mails sind mittlerweile abgearbeitet, wir bitten für die Verzögerung in der Bearbeitung um Entschuldigung, es war einfach ein bissl viel.

13:40

Hinweis:

Zitat aus einer E-Mail über unser Kontaktformular, auf welche wir nicht antworten können, da die angegebene Mailadresse aufgrund des Hardwareschadens ja nicht erreichbar ist:

Laut ihrem Blog gab es einen Newsletter an die Betroffenen Kunden. Leider kam er nicht an. ärgerlich.

Wenn die vom Kunden bei uns hinterlegte E-Mail Adresse eine E-Mail Adresse ist, welche durch den Ausfall nicht erreichbar ist, dann KANN der Newsletter derzeit auch noch nicht ankommen. Wir fanden es dennoch wichtig den Newsletter zu versenden, zum einen da viele Kunden auch web.de oder gmx.de E-Mail Adressen angegeben haben, zum anderen wird bei vielen der Newsletter eben nachträglich eintreffen, so das dann entsprechende Info folgt.

Da wir NICHT jeden Kunden einzeln anrufen und informieren können und wir wissen das nicht jeder Newsletter ankommen wird, haben wir ja diesen Blog … hier steht nicht wirklich weniger als im Newsletter.

Update 14:10 Uhr:

Das Sichern der Daten ist seit ca 13:45 abgeschlossen, der neue Server steht, die User werden nun einzeln vom System wieder angelegt, das wieder Aufspielen der Daten hat begonnen. Als erstes sollten nun Stück für Stück die Mailadressen wieder erreichbar werden, auf den Webseiten wird sich die Fehlermeldung ändern, da der Server wieder erreichbar, die Kundenaccounts aber zunächst noch leer sind.

Update 17:10 Uhr:
Nach Absprache mit einem Kunden haben wir große Cache Ordner mit vielen Tausend Session Dateien gelöscht, diese haben das Kopieren der Daten extrem aufgehalten, nun sollte es zügiger weiter gehen, viele Seiten sind bereits wieder online.

Update 19:15

Mittlerweile sollte auch die letzte Webseite wieder funktionieren. Einige Kunden hatten noch Probleme mit den Mails, dies sollte bereits gelöst sein. Viele der über Tag nicht zustellbaren Mails werden von den Mailservern der Absender in den kommenden Stunden sicher noch eintreffen, aber es ist durchaus Möglich das auch E-Mails abhanden gekommen sind.

Update 20:50 Uhr

E-Mail:

Bei vielen Kunden sind die E-Mails welche “vor” dem Ausfall im Postfach lagen weg. Die Technik hat grade den Mailserver nocheinmal deaktiviert und spielt die fehlenden E-Mails ein. Das Abschalten des Mailservers ist hierzu nötig um die derzeit vom Tage eingegangenen Mails nicht zu überschreiben/verlieren.

Datenbanken:

Bei einigen Kunden sind die Datenbanken nicht da oder defekt. Die Technik wird die defekte Platte einhängen und versuchen beschädigte oder verloren gegangene Datenbanken hierauf zu “retten”. Sollte einem Kunden eine fehlende oder Fehlerhafte Datenbank auffallen, bitte eine E-Mail unter Angabe des Datenbanknamens an den Support senden. Bitte haben Sie etwas Geduld bei der Bearbeitung dieser speziellen Mails, da die Technik mit dieser Arbeit nun wirklich viel zu tun hat.

Update 21:17 Uhr

E-Mail:
Die verloren gegangenen E-Mails von “vor” dem Crash, konnten fast alle wieder hergestellt werden, mehr geht dort nicht.
An den fehlenden Datenbanken wird noch gearbeitet.

Update 22:28
Leider können nicht alle Datenbanken wieder hergestellt werden, gerade dieser Bereich ist vom Hardwareschaden stark betroffen. Dennoch, bei fehlenden Datenbanken bitte unter Angabe des Datenbank-Namens per Mail beim Support melden, wir werden schaun welche Datenbanken noch verfügbar sind oder aus einem Backup wieder hergestellt werden können.

Leider hatte das Backup System für MySQL Datenbanken  am Tag zuvor ebenfalls einen Hardware-Schaden (das erste mal seit bestehen) und hat erst gestern Abend gegen 18 Uhr wieder begonnen Datenbanken zu sichern … leider waren dadurch noch nicht wieder alle Kundendatenbanken gesichert bevor 6620 zusammen brach.

Den letzte richtigen Plattenschaden hatten wir letztes Jahr im Juni und jetzt ein Jahr später genau 12 Stunden nach dem Neustarten der Backups, so viel Pech muss man erst mal haben.

Fazit: Wir konnten binnen 12 Stunden etwa 97% aller Daten wieder herstellen, in den  Stunden danach wurden weitere Daten gefixt und durch Backups ersetzt. Insgesamt sind etwa 8 Datenbanken (für uns) unwiederbringlich zerstört, Großteils konnten die Kunden diese allerdings selbst wieder herstellen.

Ich denke dafür das wir “eigentlich” seit je her offiziell keine Backups anbieten, ist die Sache dann doch noch glimpflich verlaufen.

Bedanken möchten wir uns bei den vielen wirklich netten und geduldigen Kunden, es ist KEIN einziger Kunde unhöflich geworden, wir haben viel Zuspruch und Verständnis erhalten, dass war wirklich sehr sehr nett, Danke !

Störungen von Webseiten und E-Mails bei .de Domains

Seit ca 14 Uhr mehren sich die Meldungen über zeitweise nicht erreichbare .de Domains und deren E-Mail Adressen. Nachdem unsere Technik ausschließen konnte das diese Probleme aus unserem Rechenzentrum oder Nameservern resultiert, liegt derzeit die Vermutung nahe, dass es sich um ein Problem bei der denic (Vergabestelle für .de Domains) handelt.

Im Forum von Webhostlist.de (dort sind fast alle Provider angemeldet und Kunden bewerten dort Ihre Provider), haben wir ein Posting mit dem Titel “Big Trouble bei .de (DENIC)” gefunden, in welchem die Provider und Kunden derzeit über die Ursache und Rückmeldungen der denic diskutieren.

Zitat aus dieser Diskussion: “Ich hab um 14:02 mit der DENIC telefoniert – angeblich sind die schon bei der Problembehebung. Auf meinen Hinweis, die offenbar falsch antwortenden Server einfach abzuklemmen erhielt ich ein “ich werde das weitergeben”.

Wir hoffen das diese Störungen seitens der .de Domain Vergabestelle bald behoben sind, da auch wir nicht mehr an unsere E-Mails kommen.

Update 14:48 Uhr Pressemitteilung von

- Webhostlist

Update 15 Uhr: Pressemitteilung von
- heise.de

Update 15:05 Uhr:

Scheinbar nehmen die einzelnen Nameserver der Denic ihre Arbeit wieder auf, das noch nicht von der Denic offiziell kommentierte Problem scheint auf dem Weg der Behebung.

Betroffen waren/sind natürlich auch alle anderen Doamins (.com .net .org .biz .info ect) deren Nameserver auf .de endet, wie “ns1.nameserverx.de”

Update 15:25 Uhr
Alle Denic Nameserver antworten wieder korrekt. Da die Fehlerhafte Antwort aber ca 2 Stunden andauerte, kann es je nach Zugangsprovider (t-online, aol, freenet, alice etc) noch einige Stunden dauern bis alle Domains (und Mail-Adressen)  wieder das korrekte Ziel ansteuern und Fehlerfrei erreichbar sind.