ZFS - Auswirkungen eines L2ARC-Cache-Gerätefehlers (Nexenta)

10

Ich habe einen HP ProLiant DL380 G7-Server, der als NexentaStor-Speichereinheit ausgeführt wird . Der Server verfügt über 36 GB RAM, 2 SAS-Controller LSI 9211-8i (keine SAS-Erweiterungen), 2 SAS-Systemlaufwerke, 12 SAS-Datenlaufwerke, eine Hot-Spare-Festplatte, einen Intel X25-M L2ARC-Cache und einen DDRdrive PCI ZIL-Beschleuniger. Dieses System stellt NFS für mehrere VMWare-Hosts bereit. Ich habe auch ungefähr 90-100 GB deduplizierte Daten auf dem Array.

Ich hatte zwei Vorfälle, in denen die Leistung plötzlich nachließ und die VM-Gäste und Nexenta SSH / Web-Konsolen nicht mehr zugänglich waren und ein vollständiger Neustart des Arrays erforderlich war, um die Funktionalität wiederherzustellen. In beiden Fällen war es die Intel X-25M L2ARC SSD, die ausfiel oder "offline" war. NexentaStor hat mich nicht über den Cache-Fehler informiert, die allgemeine ZFS-FMA-Warnung wurde jedoch auf dem (nicht reagierenden) Konsolenbildschirm angezeigt.

Geben Sie hier die Bildbeschreibung ein

Die zpool statusAusgabe zeigte:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

Dies löste keine Warnungen in Nexenta aus.

Ich hatte den Eindruck, dass ein L2ARC-Fehler das System nicht beeinträchtigen würde. Aber in diesem Fall war es sicherlich der Schuldige. Ich habe noch nie Empfehlungen für RAID L2ARC gesehen. Durch das vollständige Entfernen der fehlerhaften SSD vom Server wurde ich wieder in Betrieb genommen, aber ich bin besorgt über die Auswirkungen des Gerätefehlers (und möglicherweise auch über das Fehlen einer Benachrichtigung von NexentaStor).

Bearbeiten - Was ist das aktuelle beste Wahl SSD für L2ARC Cache - Anwendungen in diesen Tagen?

ewwhite
quelle
Ist es möglich, dass Ihr SSD- oder SATA-Port Hardwareprobleme hat?
Tegbains
Es ist eine HP SAS-Rückwandplatine. Ich habe noch nie einen Fehler oder Probleme in vielen (Linux-) Bereitstellungen gesehen, aber ich bin mir ziemlich sicher, dass der Fehler eine Funktion der vorhandenen SSD der Consumer-Klasse ist. Ich kann den Fehler akzeptieren, aber die Auswirkungen auf die verbleibenden Festplatten und das gesamte Speichersystem sind das größere Problem.
ewwhite
Insbesondere bietet Pogo Linux (von dem ich verstehe, dass es Nexentas größter Integrator / Reseller ist) Intel X25-Geräte aufgrund von Problemen mit späteren Versionen der Intel-Firmware nicht mehr als Option für L2ARC oder ZIL an.
Skyhawk
Und der empfohlene Ersatz ist (Marke, Modell, Preis)?
ewwhite
1
Übrigens kann es interessant sein, die neue Intel 320-Serie als L2ARC- oder sogar ZIL-Gerät zu testen: Sie ist kondensatorgestützt, und obwohl die Schreibdauer begrenzt ist (je nach Modell bis zu 60 Terabyte), kann der verbleibende Verschleißprozentsatz betragen mit dem SMART-Attribut E9 verfolgt werden (beginnt bei 100 und zählt bis 1 herunter). Ich vermute, dass viele ZFS-Benutzer dieses Gerät so oft wie nötig austauschen könnten, um zu verhindern, dass sich E9 1 nähert, ohne dass sich die kumulierten Kosten jemals den Kosten eines SLC-Laufwerks vergleichbarer Größe annähern.
Skyhawk

Antworten:

10

ZFS führt keine Festplatten-E / A durch, Gerätetreiber unter ZFS führen Festplatten-E / A aus. Wenn das Gerät nicht rechtzeitig reagiert oder wie in diesem Fall alle anderen Geräte auf dem Expander stört, wird es nicht als Fehler für ZFS angezeigt. Alles, was ZFS sieht, ist eine langsame E / A.

Es gibt einen Fehler in der Intel X-25M-Firmware, der sich auf das Verhalten bei hoher Last auswirkt und zu Reset-Stürmen führen kann. Dieses Problem betrifft alle Betriebssysteme und kann auf Betriebssystemebene nicht gelöst werden. Bitte wenden Sie sich an Ihren Hardwarelieferanten, um Korrekturen oder Korrekturen vorzunehmen.

Wenn erwartet wird, dass ein Lesevorgang vom L2ARC erfüllt wird, wird der Lesevorgang dort versucht. ZFS verlässt sich dann auf die Treiber der unteren Ebene, um einen Fehler zu melden. In diesem Fall wird das Laufwerk bis zu 5 Minuten lang zurückgesetzt und erneut versucht, bevor die E / A je nach Treiber-, Geräte- und Standard-Timeout-Einstellungen als fehlgeschlagen deklariert wird. Erst nachdem die Treiber der unteren Ebene die E / A als fehlgeschlagen deklariert haben, wird ZFS den Pool erneut versuchen.

Die Volume-Check- und Disk-Check-Läufer von NexentaStor suchen nach zusätzlichen Fehlermeldungen und benachrichtigen Sie per E-Mail und Fehlerprotokollierung. Der Disk-Check-Runner wurde in Version 3.1 verbessert, um Sie speziell auf die Bedingungen aufmerksam zu machen, die bei defekter Firmware in SSDs auftreten.

Fazit: Ihre Hardware ist fehlerhaft und muss repariert oder ersetzt werden.

Richard Elling
quelle
2
Vielen Dank. Daher werde ich den Intel X-25 nicht mehr verwenden. Ich hätte gerne eine getestete Empfehlung für ein neues L2ARC-SSD-Gerät, um es zu ersetzen.
ewwhite
3

Schließen Sie die X25-M SSD an die Rückwandplatine an? Es ist ein Problem mit Nexenta und dem Zugriff auf den L2ARC über eine Rückwandplatine bekannt. Am besten schließen Sie die SSD direkt an einen SATA-Anschluss auf dem Motherboard an. Stellen Sie sicher, dass es auch für die Verwendung von AHCI konfiguriert ist.

Wenn Sie auf diesem Server etwas Missionskritisches ausführen, würde ich zu einer SLC-SSD (wie der X25-E oder einer STEC-SSD) wechseln. Davon abgesehen werden Sie mit dem X25-M wahrscheinlich in Ordnung sein, wenn dies nicht der Fall ist.

flink
quelle
Ja, ich verbinde mich über einen normalen Laufwerksschacht. Ich habe andere Installationen mit derselben Intel SSD wie L2ARC (in Sun- und HP-Hardware). Dieser hat mir allerdings Probleme bereitet. Meine Untersuchungen schienen darauf hinzudeuten, dass L2ARC nicht so robust sein musste wie das ZIL (daher die Verwendung von SLC- und PCI-basierten ZIL-Lösungen und ein Consumer-Laufwerk für L2ARC). Hat sich das geändert?
ewwhite
Ich würde versuchen, die SSD direkt an das Motherboard anzuschließen und zu sehen, ob das funktioniert. Wenn Sie ein funktionsfähiges X25-M-Ersatzteil haben, können Sie versuchen, das aktuelle zu ersetzen und festzustellen, ob die SSD selbst fehlerhaft ist. Auf der SLC-SSD: Dies hängt von Ihrem Risiko ab. Wenn Sie Software auf einem SLA ausführen, das niemals ausfallen kann und schnell ausgeführt werden muss, ist es möglicherweise billiger, eine High-End-SSD zu kaufen.
flink
Ich versuche zu sagen, dass der Intel X25-M in den meisten Artikeln und Diskussionen, die ich online gesehen habe, für L2ARC empfohlen wurde. Wenn dies nicht mehr der Fall ist, welches ist das bevorzugte Gerät?
ewwhite
1
@ewwhite: Theoretisch sollte ein Ausfall eines L2ARC-Geräts nicht störend sein, da ZFS einfach auf das Ablesen der Festplatte zurückgreifen kann (offensichtlich würde die Leistung beeinträchtigt). In der Praxis klingt es so, als hätten Sie einen ZFS- oder SCSI-Treiberfehler festgestellt, der durch das SSD-Verhalten ausgelöst wird.
Tom Shaw
1
@ewwhite: Ich sollte dir wahrscheinlich noch mehr praktische Ratschläge geben. Wenn Sie beim nächsten Keilen Ihres Systems einen Systemabsturzspeicherauszug generieren möchten, befolgen Sie die Anweisungen hier . Diese Art von Dump kann für die Illumos-Entwickler nützlich sein.
Tom Shaw
0

Ed, es gibt einige, die Sie verwenden können, von relativ vernünftig im Preis bis verdammt teuer. Ich bevorzuge in allen Fällen die Bereitstellung von SAS-SSDs und habe sowohl mit STEC als auch mit Pliant sehr gute Ergebnisse erzielt. Beide bieten jetzt ein MLC-Laufwerk an, das bekanntermaßen mit einem L2ARC-Gerät funktioniert. Noch nicht getestet, aber in Kürze erhältlich ist das SSD-Angebot von Seagate, SLC SAS 2.0, das angeblich "nicht teuer" ist. Bleib dran....

-PB

PauleyB
quelle