Zusammenfassung
Ich habe diese kryptischen Nachrichten in Syslog erhalten, seit ich neue Hardware installiert habe, und ich kann nicht herausfinden, was das Problem ist, ob es ernst ist oder was ich dagegen tun soll.
Sie stammen vom neuen SATA-HBA und folgen einem Muster. Ich werde einige der ersten Nachricht erhalten, gefolgt von einigen der zweiten Nachricht 5-30 Sekunden später. Sie kommen in Blobs, die alle in derselben Sekunde protokolliert werden, und die genaue Menge variiert zwischen etwa 2 und 35. Es kann Minuten oder Stunden zwischen dem Auftreten der Einträge sein.
Beispiel für die beiden Nachrichten:
Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)
Es ist immer immer 0x31120303 gefolgt von 0x31110d01.
mpt2sas ist der Treiber für den SATA-Hostbusadapter, den ich verwende, aber der Fehlerinhalt ist zu kryptisch. Es sagt mir nicht, worin das Problem besteht, mit welcher Festplatte oder welchem Port es sich befasst oder wie schwerwiegend es ist.
Hardware
Supermicro X9SCL mit einem Xeon E3-1220 und 8 GB RAM.
LSI SAS2008-basierter Supermicro AOC-USAS2-L8I- SAS / SATA-HBA, verbunden mit einem Supermicro CSE-M35T-1B- Plattenfachsatz. Es sind drei Western Digital WD30EZRX und zwei Segate ST3000DM001 angeschlossen . Alle 3-TB-Laufwerke (tatsächlich genau die gleiche Anzahl von Sektoren). Es werden keine Port-Expander verwendet.
Der HBA, die Festplattenfächer und 4 der Laufwerke sind neu. Einer der WD30EZRXes ist seit Monaten im Einsatz, hatte keine Probleme damit. Wurde es zuvor mit dem integrierten Intel SATA-Controller verbunden, wurde es mit diesem neuen Setup in die Laufwerksschächte verschoben.
Hatte Probleme mit dem HBA, der häufig zurückgesetzt werden musste und eine wirklich schreckliche Leistung zeigte. Aktualisierte die Firmware / das BIOS auf "Phase 12", die neueste von Supermicro erhältliche Version, und änderte den Typ in IT (dh Passthrough von IR für integrierten RAID, da ich den gesamten Software-RAID verwenden wollte): 2008IT12.FW. Dieses Update hat alle frühen Probleme behoben und ich habe die obigen Meldungen erst später erhalten (siehe unten).
Die ersten vier Festplatten, die ich hinzugefügt habe, befinden sich alle am ersten SFF-8087-Port (aufgeteilt auf 4 SATA-Kabel). Die neueste Festplatte, die ich hinzugefügt habe, befindet sich am anderen Port, falls dies von Bedeutung ist.
Die einzige andere Festplatte im System enthält das Betriebssystem und ist eine ältere Intel 80 GB SSD, die an den integrierten SATA-Controller angeschlossen ist.
Software
Ubuntu 11.10 (oneiric). Linux 3.0.0-14-Server x86_64. Verwenden des mit dem Betriebssystem gelieferten mpt2sas-Treibers.
Der Versuch, mit Linux md ein RAID6-Array mit diesen fünf Festplatten zu erstellen. Begonnen mit einem entarteten Array von 3 Festplatten, den beiden Segates und einem der neuen WD-Laufwerke. Das ging schnell und ging sehr gut, keine Meldungen in den Logs nachdem ich das Firmware Update gemacht habe. In der Zwischenzeit verwende ich immer noch die alte WD-Festplatte an Port 0 desselben Controllers.
Fügte dem Array die andere neue WD-Festplatte hinzu. Der Neuaufbau hat begonnen und ich erhalte diese Meldungen nun regelmäßig im Syslog. Ich bin nicht sicher, wie lange es dauern soll, eine Festplatte zum Array hinzuzufügen, aber die geschätzte Zeit (cat / proc / mdstat) reicht von Tausenden bis Zehntausenden von Minuten, viel länger als die ersten drei Festplatten. Ich verstehe, dass die WD-Festplatten viel langsamer sind; Ich bekam verschiedene Modelle, um die Wahrscheinlichkeit eines Ausfalls mehrerer Festplatten zu verringern, und dies waren die beiden billigsten 3-TB-Modelle.
Anmerkungen
SMART meldet keine Probleme auf Festplatten. Es gibt keine protokollierten Fehler auf Datenträgern und keine der Fehlerstatistiken liegt in der Nähe des Schwellenwerts.
Die protokollierten Meldungen wurden erst angezeigt, nachdem ich den letzten Datenträger hinzugefügt habe. Dies deutet darauf hin, dass möglicherweise ein Problem vorliegt, aber nichts anderes darauf hinweist.
Ich habe eine Header-Datei gefunden , die den Protokollmeldungen dieses Treibers zu entsprechen scheint. Die erste Meldung scheint ein Abbruch (Code 12) für einen "Subcode" 0303 zu sein, der nicht aufgelistet ist. Die zweite Meldung ist ein Zurücksetzen (Code 11) aus einem Grund, der ebenfalls nicht klar ist. Wenn ich feststellen könnte, was 0303 und 0d01 bedeuten, wäre das wirklich hilfreich.
Ich weiß, dass 4 Festplatten in einem RAID6 mit 5 Festplatten ein unvollständiges Array sind. Ich plane, den Inhalt der alten Festplatte in das Array zu kopieren, sobald die Integration der vierten Festplatte abgeschlossen ist, und dann die alte Festplatte ebenfalls zum Array hinzuzufügen.
Wow, eine schwierige Frage.
Dies scheint darauf hinzudeuten, dass 0x31120303 ein Bus-Reset ist, da eines Ihrer Geräte stark ausgelastet ist. Es heißt auch, dass Sie sich keine Sorgen machen müssen. (Haha, ja richtig.)
Dies weist darauf hin, dass diese Protokollmeldungen auftreten, weil eines Ihrer Geräte zu lange braucht, um auf Befehle zu reagieren. Dies sagt dasselbe und zeigt auch an, dass es unter starker Last auftritt.
Dies ist zwar keine vollständige Antwort, zeigt Ihnen aber hoffentlich eine nützliche Richtung.
quelle
Dies bedeutet, dass Sie einen Fehler auf der Festplatte haben. Es handelt sich um eine SATA-Festplatte in einem SAS-Controller von LSI. Aufgrund des Fehlers wurden alle ausstehenden Anforderungen abgebrochen.
In den meisten Fällen liegt ein mittlerer Fehler auf der Festplatte vor, der den Fehler auslöst. Dieser Fehler ist an sich kein mittlerer Fehler, und Sie müssen in den Protokollen nach weiteren Hinweisen suchen, um die Ursache des ursprünglichen Festplattenfehlers zu ermitteln.
Etwas ausführlichere Version unter: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/
quelle