Mitte November reagierte ein VPS, den ich von einem Hosting-Unternehmen miete, nicht mehr. Als ich den Support kontaktierte, erklärten sie, dass ein Stromausfall im Rechenzentrum einen erzwungenen Neustart und fsck verursachte. Schließlich fragte ich, warum es so lange gedauert habe, und mir wurde gesagt, dass die Größe des Volumes 30 TB beträgt. Das letzte Mal, dass ich ein Update erhalten habe, war im Februar, und sie haben nicht auf meine letzte Anfrage geantwortet.
Ich verstehe, dass fsck für einige Dateisysteme sehr langsam sein kann, aber es ist möglich, dass fsck bei einem Volumen von 30 TB 6 Monate in Anspruch nimmt, oder sollte ich davon ausgehen, dass diese Hosting-Firma mich anlügt, damit ich weiterhin alle meine Rechnungen bezahle Monat?
Antworten:
fsck
Die Geschwindigkeit hängt hauptsächlich von der Anzahl der Dateien und ihrer Verteilung im jeweiligen Verzeichnis ab. Das heißt, 6 Monate für einefsck
ist absolut absurd: Es sollte in einigen Stunden höchstens abgeschlossen sein, vor allem, wenn mit,xfs
die das schnellexfs_repair
Dienstprogramm hat. Hier finden Sie einigefsck
Runs in einer Skala - alle unter einer Stunde (3600s) abgeschlossen. Es ist also nicht möglich, dass Ihrfsck
noch läuft.Auf jeden Fall führt ein unerwarteter Stromausfall nicht zu einer vollständigen Aufzeichnung
fsck
, sondern nur zu einer sehr schnellen (einige Sekunden dauernden ) Journalwiederholung . Wenn jedoch einige Schlüsseldateien beschädigt wurden, kann das Betriebssystem möglicherweise nicht mehr gestartet werden.Aber sie haben dich wahrscheinlich nur angelogen. Sie sollten sofort aufhören zu zahlen, eine Erklärung anfordern und eine vollständige Rückerstattung beantragen.
quelle
ext2
, ist ein vollständiger Stromausfall erforderlichfsck
, und ich wäre nicht überrascht, wenn es bei einem stark genutzten 30-TB-Volume Tage dauern würde. Auf der anderen Seite ist diesext2
für sich genommen ein Grund, nach Hosting-Diensten zu suchen , wenn sie auf einem 30-TB-Volume arbeiten.Vermutung: Ihr System verwendet ein BBU / FBWC-freies RAID (oder sogar ein Software-RAID), bei dem alle möglichen Schreibcaches (einschließlich dieser auf den Festplatten selbst) auf ihre aggressivsten Einstellungen eingestellt sind, um maximale Leistung bei minimalen Kosten zu erzielen. Ein schwerer Stromausfall in einem solchen Setup kann ein Journal-Dateisystem in einem Zustand belassen, in dem das Journal nicht vertrauenswürdig ist und nicht für die Wiederherstellung verwendet werden kann. Das Problem ist, dass ein solches System Schreibvorgänge aggressiv neu anordnet und verschiebt, was bedeutet, dass ein Journaleintrag mit dem Effekt geschrieben werden kann, dass die Datenaktion verloren geht ... oder dass der Journaleintrag für eine Datenaktion verloren geht, die die Folge war.
Das Wiederherstellen eines solchen Systems nach einem Worst-Case-Ausfall kann bedeuten, dass Sie eine "langsame" fsck / repair-Operation ausführen müssen, bei der alle Dateisystemstrukturen wie sie sind untersucht werden, was in der Tat ein oder zwei Tage für 30 TB dauern kann Es ist nicht unwahrscheinlich, dass Sie mehrere Reparaturzyklen ausführen müssen. Hinzu kommt, dass das Personal möglicherweise nicht immer zur Verfügung steht, um dies zu überwachen. Es kann leicht sein, dass pro Woche nur eine einzige Überprüfung durchgeführt wird. Sie gaben wahrscheinlich auf und vergaßen.
quelle
Bei den meisten Dateisystemen ist es auch bei Fehlern viel schneller, da normalerweise nur die Metadaten überprüft werden.
Im schlimmsten Fall kann es sein, dass die gesamte Festplatte gelesen wird ( z. B. so etwas wie
fsck.ext4 -cc /dev/sda
ein zerstörungsfreier Schreibtest für jeden Block), was für 30 TB einige Tage dauern kann. Wenn Sie die Geschwindigkeit der Laufwerke kennen, können Sie Größe / Geschwindigkeit berechnen . Für eine Consumer-Festplatte mit etwa 100 MB / s kann das Kopieren einiger TB mehr Stunden dauern, als die meisten Leute erwarten würden.Wenn es Ihr Server wäre, könnten Sie das Problem haben, dass er startet und dann hängt
fsck
, wenn Sie gefragt werden, ob Sie einen Fehler beheben möchten. Der Administrator des Rechenzentrums bleibt jedochfsck
6 Monate lang nicht hängen, während alle VPS offline sind.Sie belügen dich also entweder, oder es gibt ein großes Missverständnis. Oder sie liefen vor einiger Zeit mit fsck und haben Sie nicht über das neue Problem informiert, nachdem es beendet war.
quelle
fsck
Durchläuft alle Dateisystemstrukturen, was meistens das Ausführen von zufälligen I / O-Operationen bedeutet. Die obige Berechnung, basierend auf der sequentiellen Übertragungsrate, ist daher nicht sehr nützlich.