Kernel: Journal Commit I / O-Fehler

9

Ich habe einige Probleme mit einem Dell 1950-Server. Ich installiere RHEL 4.6 zusammen mit Oracle und einer anderen Software hier.

Ich erhalte zufällig eine Fehlermeldung mit der Meldung "Kernel: Journal Commit I / O-Fehler" in meiner SSH-Sitzung und auf dem Monitor, den ich an den Server angeschlossen habe. Es wird ein Fehler angezeigt, bei dem "EXT3-fs-Fehler (Gerät sda5)" angezeigt wird. in start_transaction: Journal wurde abgebrochen. "

Es ist mehrmals passiert, aber nie zum gleichen Zeitpunkt während der Installation. Dieses letzte Mal war das System betriebsbereit und ich habe nur versucht, eine Datenbank in Oracle zu importieren.

Dies ist auf mehreren Festplatten passiert, daher bin ich mir ziemlich sicher, dass dies nicht das Problem ist. Das lässt mich denken, dass der Raid-Controller schlecht läuft.

Was denkt ihr?

** UPDATE **

Ich bin mir ziemlich sicher, dass es eine schlechte Festplatte war. Ich habe ein anderes Laufwerk in den Server geworfen und es läuft seit ungefähr 48 Stunden ohne Probleme.

jasondewitt
quelle

Antworten:

9

Ich habe diese Fehler schon einmal gesehen, aber nicht während des Installationsvorgangs.

Dies bedeutet, dass das Laufwerk genügend Fehler aufweist, sodass das Betriebssystem es in den schreibgeschützten Modus versetzt hat. Wenn Sie die vollständigen Protokolle finden könnten, gäbe es wahrscheinlich einige E / A-Fehler, die vor den vollständigen Fehlerfehlern, die Sie gesehen haben, erneut versucht und funktioniert haben. Etwas mit tatsächlichen Blöcken erwähnt.

Es ist ein Speichersystemfehler. Es ist definitiv die RAID-Karte, die Laufwerke im RAID-Array, die Kabel von der Karte zu den Laufwerken, die Rückwandplatine, an die die Laufwerke angeschlossen sind, der Steckplatz, an den die RAID-Karte angeschlossen ist, das Netzteil für die Festplatten oder etwas anderes zwischen der CPU und den eigentlichen Speicherblöcken.

freiheit
quelle
2

Drei Möglichkeiten kommen in den Sinn:

  1. Es gibt Speicherprobleme (sie verursachen oft "zufällige" Abstürze). Wenn Sie dort einen ECC-RAM haben, ist dies offensichtlich weniger wahrscheinlich.

  2. Es gibt ein Problem mit dem Bus. Ich hatte vor ein paar Jahren das gleiche Problem mit einem kaputten APIC-Controller auf einem Tyan Dual Opteron-Motherboard. Es gab andere Protokolleinträge, die darauf hinwiesen, aber der Großteil der Symptome war zufällige Beschädigung auf Festplatten mit automatischen schreibgeschützten Remounts. In meinem Fall wusste ich, dass es nicht mit der Festplatte zusammenhängt, da es sich um eine externe FC-RAID-Box handelt und es in Ordnung ist.

  3. Der RAID-Controller ist eine Koje.

Dies ist in der Reihenfolge, in der ich die Probleme betrachten würde.

Alexandre Carmel-Veilleux
quelle
Wahrscheinlich keine Speicherprobleme; Diese würden eher Segfaults und mehr zufällige Fehler verursachen und nicht nur auf den Speicher beschränkt sein.
Freiheit
Wahr. In einer Installations- oder frühen Startsituation ist der größte Teil der Speichernutzung der Puffer-Cache, sodass die Probleme dort zuerst auftreten. Sobald der Computer eine Weile lang geladen war, dominierte der Benutzerprozess die Speicher-E / A und damit die Prävalenz des Segfault. Ein PE1950 sollte jedoch über Xeon-Prozessoren und einen ECC-RAM verfügen, damit der RAM ihn erkennen und an Linux melden kann.
Alexandre Carmel-Veilleux
2

Es könnte sein, dass der RAID-Controller schlecht läuft, wie Sie gesagt haben (versuchen Sie es mit einem Ersatz-Controller, falls Sie einen haben). Es könnte der Treiber für den Controller sein (suchen Sie nach alternativen Treibern, falls verfügbar, auch wenn die Leistung schlechter ist, ist es gut, einen Referenzpunkt zu haben .) Es könnte der Kernel sein (weniger wahrscheinlich, obwohl es in RHEL ziemlich gut getestet ist.) Es könnte ein schlechter RAM sein, der den Block-Cache durcheinander bringt.

Ein Hardwareproblem ist jedoch die wahrscheinlichste Ursache, basierend auf dem scheinbar zufälligen Fehlerverhalten.

Mihai Limbăşan
quelle
2

Stellen Sie sicher, dass die Festplatte nicht voll ist - insbesondere die Root-Partition. Verwenden Sie df, um die Datenträgerverwendung des Dateisystems anzuzeigen:

df -h

Suchen Sie nach Partitionen in der Nähe oder gleich 100% Auslastung

Peter H.
quelle
-5

Versuchen:

Herunterfahren -rF jetzt


quelle