Ich habe einen HP ProLiant DL380 G7-Server, der als NexentaStor-Speichereinheit ausgeführt wird . Der Server verfügt über 36 GB RAM, 2 SAS-Controller LSI 9211-8i (keine SAS-Erweiterungen), 2 SAS-Systemlaufwerke, 12 SAS-Datenlaufwerke, eine Hot-Spare-Festplatte, einen Intel X25-M L2ARC-Cache und einen DDRdrive PCI ZIL-Beschleuniger. Dieses System stellt NFS für mehrere VMWare-Hosts bereit. Ich habe auch ungefähr 90-100 GB deduplizierte Daten auf dem Array.
Ich hatte zwei Vorfälle, in denen die Leistung plötzlich nachließ und die VM-Gäste und Nexenta SSH / Web-Konsolen nicht mehr zugänglich waren und ein vollständiger Neustart des Arrays erforderlich war, um die Funktionalität wiederherzustellen. In beiden Fällen war es die Intel X-25M L2ARC SSD, die ausfiel oder "offline" war. NexentaStor hat mich nicht über den Cache-Fehler informiert, die allgemeine ZFS-FMA-Warnung wurde jedoch auf dem (nicht reagierenden) Konsolenbildschirm angezeigt.
Die zpool status
Ausgabe zeigte:
pool: vol1
state: ONLINE
scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:
NAME STATE READ WRITE CKSUM
vol1 ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
c8t5000C50031B94409d0 ONLINE 0 0 0
c9t5000C50031BBFE25d0 ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
c10t5000C50031D158FDd0 ONLINE 0 0 0
c11t5000C5002C823045d0 ONLINE 0 0 0
mirror-2 ONLINE 0 0 0
c12t5000C50031D91AD1d0 ONLINE 0 0 0
c2t5000C50031D911B9d0 ONLINE 0 0 0
mirror-3 ONLINE 0 0 0
c13t5000C50031BC293Dd0 ONLINE 0 0 0
c14t5000C50031BD208Dd0 ONLINE 0 0 0
mirror-4 ONLINE 0 0 0
c15t5000C50031BBF6F5d0 ONLINE 0 0 0
c16t5000C50031D8CFADd0 ONLINE 0 0 0
mirror-5 ONLINE 0 0 0
c17t5000C50031BC0E01d0 ONLINE 0 0 0
c18t5000C5002C7CCE41d0 ONLINE 0 0 0
logs
c19t0d0 ONLINE 0 0 0
cache
c6t5001517959467B45d0 FAULTED 2 542 0 too many errors
spares
c7t5000C50031CB43D9d0 AVAIL
errors: No known data errors
Dies löste keine Warnungen in Nexenta aus.
Ich hatte den Eindruck, dass ein L2ARC-Fehler das System nicht beeinträchtigen würde. Aber in diesem Fall war es sicherlich der Schuldige. Ich habe noch nie Empfehlungen für RAID L2ARC gesehen. Durch das vollständige Entfernen der fehlerhaften SSD vom Server wurde ich wieder in Betrieb genommen, aber ich bin besorgt über die Auswirkungen des Gerätefehlers (und möglicherweise auch über das Fehlen einer Benachrichtigung von NexentaStor).
Bearbeiten - Was ist das aktuelle beste Wahl SSD für L2ARC Cache - Anwendungen in diesen Tagen?
Antworten:
ZFS führt keine Festplatten-E / A durch, Gerätetreiber unter ZFS führen Festplatten-E / A aus. Wenn das Gerät nicht rechtzeitig reagiert oder wie in diesem Fall alle anderen Geräte auf dem Expander stört, wird es nicht als Fehler für ZFS angezeigt. Alles, was ZFS sieht, ist eine langsame E / A.
Es gibt einen Fehler in der Intel X-25M-Firmware, der sich auf das Verhalten bei hoher Last auswirkt und zu Reset-Stürmen führen kann. Dieses Problem betrifft alle Betriebssysteme und kann auf Betriebssystemebene nicht gelöst werden. Bitte wenden Sie sich an Ihren Hardwarelieferanten, um Korrekturen oder Korrekturen vorzunehmen.
Wenn erwartet wird, dass ein Lesevorgang vom L2ARC erfüllt wird, wird der Lesevorgang dort versucht. ZFS verlässt sich dann auf die Treiber der unteren Ebene, um einen Fehler zu melden. In diesem Fall wird das Laufwerk bis zu 5 Minuten lang zurückgesetzt und erneut versucht, bevor die E / A je nach Treiber-, Geräte- und Standard-Timeout-Einstellungen als fehlgeschlagen deklariert wird. Erst nachdem die Treiber der unteren Ebene die E / A als fehlgeschlagen deklariert haben, wird ZFS den Pool erneut versuchen.
Die Volume-Check- und Disk-Check-Läufer von NexentaStor suchen nach zusätzlichen Fehlermeldungen und benachrichtigen Sie per E-Mail und Fehlerprotokollierung. Der Disk-Check-Runner wurde in Version 3.1 verbessert, um Sie speziell auf die Bedingungen aufmerksam zu machen, die bei defekter Firmware in SSDs auftreten.
Fazit: Ihre Hardware ist fehlerhaft und muss repariert oder ersetzt werden.
quelle
Schließen Sie die X25-M SSD an die Rückwandplatine an? Es ist ein Problem mit Nexenta und dem Zugriff auf den L2ARC über eine Rückwandplatine bekannt. Am besten schließen Sie die SSD direkt an einen SATA-Anschluss auf dem Motherboard an. Stellen Sie sicher, dass es auch für die Verwendung von AHCI konfiguriert ist.
Wenn Sie auf diesem Server etwas Missionskritisches ausführen, würde ich zu einer SLC-SSD (wie der X25-E oder einer STEC-SSD) wechseln. Davon abgesehen werden Sie mit dem X25-M wahrscheinlich in Ordnung sein, wenn dies nicht der Fall ist.
quelle
Ed, es gibt einige, die Sie verwenden können, von relativ vernünftig im Preis bis verdammt teuer. Ich bevorzuge in allen Fällen die Bereitstellung von SAS-SSDs und habe sowohl mit STEC als auch mit Pliant sehr gute Ergebnisse erzielt. Beide bieten jetzt ein MLC-Laufwerk an, das bekanntermaßen mit einem L2ARC-Gerät funktioniert. Noch nicht getestet, aber in Kürze erhältlich ist das SSD-Angebot von Seagate, SLC SAS 2.0, das angeblich "nicht teuer" ist. Bleib dran....
-PB
quelle