Wahrscheinlichkeit eines Blade-Chassis-Ausfalls

48

In meiner Organisation denken wir über den Kauf von Blade-Servern nach - anstelle von Rack-Servern. Natürlich lassen Technologieanbieter sie auch sehr gut klingen. Eine Sorge, die ich sehr oft in verschiedenen Foren lese, ist, dass theoretisch die Möglichkeit besteht, dass das Server-Chassis ausfällt - was zur Folge hat, dass alle Blades ausfallen. Das liegt an der gemeinsamen Infrastruktur.

Meine Reaktion auf diese Wahrscheinlichkeit wäre Redundanz und zwei Chassis anstelle von einem (natürlich sehr kostspielig).

Einige Leute (einschließlich z. B. HP Vendors) versuchen, uns davon zu überzeugen, dass das Gehäuse aufgrund vieler Redundanzen (redundante Stromversorgung usw.) sehr unwahrscheinlich ausfällt.

Meines Erachtens ist es auch wichtig, dass Ersatzteile benötigt werden, wenn etwas ausfällt - was in unserem Land (Äthiopien) schwierig ist.

Ich würde also erfahrene Administratoren, die Blade Server verwaltet haben, fragen: Was ist Ihre Erfahrung? Gehen sie als Ganzes unter - und was ist die vernünftige gemeinsame Infrastruktur, die scheitern könnte?

Diese Frage könnte auf den gemeinsamen Speicher ausgeweitet werden. Ich würde wieder sagen, dass wir zwei Speichereinheiten statt nur einer benötigen - und wieder sagen die Anbieter, dass diese Dinge so solide sind, dass kein Ausfall zu erwarten ist.

Nun - ich kann kaum glauben, dass eine so kritische Infrastruktur ohne Redundanz sehr zuverlässig sein kann - aber vielleicht können Sie mir sagen, ob Sie erfolgreiche Blade-basierte Projekte haben, die ohne Redundanz in ihren Kernteilen (Gehäuse, Speicher ...) funktionieren. )

Im Moment schauen wir uns HP an - da IBM viel zu teuer aussieht.

ChrisZZ
quelle
3
Gute Frage. Ich werde meine Antwort und einige reale Misserfolgsszenarien später heute bekannt geben.
ewwhite
Haben Sie sich angesehen, was Dell auf seinen C-Servern hat? Der C6100 verfügt beispielsweise über 4 Knoten in einer 2U-Box, was einem 4-Slot-Blade-Gehäuse entspricht. Anstelle eines 10-HE-Blade-Gehäuses könnten Sie auch fünf 2-HE-Rack-Server erhalten. Keine einzige Fehlerquelle mehr, aber Sie verlieren die Vorteile der Rückwandplatine. Möglicherweise haben HP / IBM ein gleichwertiges Produkt.
JQA

Antworten:

49

Es besteht eine geringe Wahrscheinlichkeit eines vollständigen Gehäuseausfalls ...

Sie werden wahrscheinlich auf Probleme in Ihrer Einrichtung stoßen, bevor ein vollständiger Ausfall eines Blade-Gehäuses auftritt.

Ich habe hauptsächlich Erfahrung mit HP C7000- und HP C3000- Blade-Gehäusen. Ich habe auch Dell- und Supermicro-Blade-Lösungen verwaltet. Hersteller ist ein bisschen wichtig. Aber zusammenfassend ist festzuhalten, dass die HP-Ausrüstung hervorragend ist, dass Dell in Ordnung ist und dass es Supermicro an Qualität, Belastbarkeit und schlechtem Design mangelt. Ich habe auf Seiten von HP und Dell noch nie Ausfälle erlebt. Das Supermicro hatte ernsthafte Ausfälle und zwang uns, die Plattform zu verlassen. Bei den HPs und Dells ist noch nie ein vollständiger Gehäuseausfall aufgetreten.

  • Ich habe thermische Ereignisse gehabt. Die Klimatisierung schlug in einer Co-Location-Einrichtung fehl und es wurden 10 Stunden lang Temperaturen von bis zu 46 ° C erreicht.
  • Spannungsspitzen und Leitungsausfälle: Eine Seite einer A / B-Einspeisung wird unterbrochen. Einzelne Stromversorgungsfehler. In meinen Blade-Konfigurationen befinden sich normalerweise sechs Netzteile, sodass ausreichend Warnung und Redundanz vorhanden sind.
  • Ausfälle einzelner Blade-Server. Die Probleme eines Servers wirken sich nicht auf die anderen Server im Gehäuse aus.
  • Ein Feuer im Fahrgestell ...

Ich habe eine Vielzahl von Umgebungen gesehen und hatte den Vorteil, dass ich unter idealen Bedingungen für Rechenzentren und an raueren Standorten installiert habe. Auf der HP C7000- und C3000-Seite ist vor allem zu berücksichtigen, dass das Gehäuse vollständig modular aufgebaut ist. Die Komponenten sind so konzipiert, dass die Auswirkungen eines Komponentenausfalls auf die gesamte Einheit minimiert werden.

Stellen Sie sich das so vor ... Das Hauptgehäuse des C7000 besteht aus Front-, (passiven) Midplane- und Backplane-Baugruppen. Das strukturelle Gehäuse hält einfach die vorderen und hinteren Komponenten zusammen und trägt das Gewicht des Systems. Fast jedes Teil kann ersetzt werden ... glauben Sie mir, ich habe viele zerlegt. Die wichtigsten Redundanzen liegen in den Bereichen Lüfter / Kühlung, Stromversorgung und Vernetzung sowie im Management. Die Verwaltungsprozessoren ( HP Onboard Administrator ) können aus Redundanzgründen gekoppelt werden, die Server können jedoch auch ohne sie ausgeführt werden.

Bildbeschreibung hier eingeben

Voll bestücktes Gehäuse - Vorderansicht. Die sechs Stromversorgungen an der Unterseite erstrecken sich über die gesamte Tiefe des Gehäuses und werden an eine modulare Strom-Rückwandplatinenbaugruppe an der Rückseite des Gehäuses angeschlossen. Die Stromversorgungsmodi sind konfigurierbar: zB 3 + 3 oder n + 1. Das Gehäuse hat also definitiv eine redundante Stromversorgung. Bildbeschreibung hier eingeben

Voll bestücktes Gehäuse - Rückansicht. Die Virtual Connect-Netzwerkmodule auf der Rückseite verfügen über eine interne Querverbindung, sodass ich die eine oder andere Seite verlieren und trotzdem die Netzwerkverbindung zu den Servern aufrechterhalten kann. Es gibt sechs Hot-Swap-fähige Netzteile und zehn Hot-Swap-fähige Lüfter. Bildbeschreibung hier eingeben

Leergehäuse - Vorderansicht. Beachten Sie, dass an diesem Teil des Gehäuses wirklich nichts ist. Alle Verbindungen werden zur modularen Mittelplatine durchgeleitet. Bildbeschreibung hier eingeben

Mittelplatinenbaugruppe entfernt. Beachten Sie die sechs Stromzuführungen für die Midplane-Baugruppe unten. Bildbeschreibung hier eingeben

Midplane-Baugruppe. Hier geschieht die Magie. Beachten Sie die 16 separaten Downplane-Verbindungen: eine für jeden Blade-Server. Ich habe einzelne Server-Sockel / -Schächte ausfallen lassen, ohne das gesamte Gehäuse zu zerstören oder die anderen Server zu beeinträchtigen. Bildbeschreibung hier eingeben

Netzteil-Backplane (s). 3ø Einheit unter Standard-Einphasenmodul. Ich habe die Stromverteilung in meinem Rechenzentrum geändert und einfach die Netzteil-Backplane ausgetauscht, um mich mit der neuen Methode der Stromlieferung zu befassen Bildbeschreibung hier eingeben

Beschädigung des Gehäusesteckers. Dieses spezielle Gehäuse wurde während der Montage fallen gelassen und brach die Stifte eines Flachbandverbinders ab. Dies blieb tagelang unbemerkt, was dazu führte, dass sich das Laufschaufel-Chassis mit FIRE ... Bildbeschreibung hier eingeben

Hier sind die verkohlten Überreste des Midplane-Flachbandkabels. Dadurch wurde ein Teil der Gehäusetemperatur- und Umgebungsüberwachung gesteuert. Die internen Blade-Server liefen ohne Zwischenfälle weiter. Die betroffenen Teile wurden während der geplanten Ausfallzeit nach Belieben ausgetauscht, und alles war in Ordnung. Bildbeschreibung hier eingeben

ewwhite
quelle
+1 für C7000. Wir haben in den letzten zwei Jahren ein solides Produkt in Betrieb genommen, bei dem weder Hardware- noch Leistungsprobleme am Gehäuse oder an den Blades aufgetreten sind.
Tombull89
1
Ich muss dem zustimmen - wir hatten verschiedene Blade-Chassis von Dell und sie waren ziemlich kugelsicher. Ich glaube, wir hatten einen Ausfall eines Controller-Moduls auf einem Chassis, und das Nettoergebnis davon ist, dass wir das Chassis an dem Tag, an dem der Dell-Support einen weiteren Controller und einen Techniker für die Montage benötigte, nicht remote verwalten konnten. Keine tatsächliche Ausfallzeit des Blades aufgrund des Fehlers oder des Vorgangs, den Controller zu ersetzen.
Rob Moir
1
Ich muss @ewwhite zustimmen. Ich habe c7000 für ungefähr 8yrs ohne irgendwelche Störungen des Gehäuses ohne Unterbrechung gelaufen. Wir ließen sie sogar ein paar Stunden lang wegen eines HVAC-Ausfalls bei 130 ° F laufen und hatten nichts auszusetzen. Das Wichtigste, das Sie beachten sollten, ist, dass Sie Ihre Stromversorgungslasten auf mehrere Power Panels und Ihr Netzwerk auf mehrere Switches aufteilen, um einen einzelnen Fehlerpunkt zu vermeiden. Das Einzige, was jemals schief gelaufen ist, sind einige Blade-Server-Festplatten, aber Sie sehen dies auch bei herkömmlichen Servern.
MrTomahawk
20

Ich verwalte seit acht Jahren eine kleine Anzahl von Blade-Servern, und es ist noch kein systemweiter Fehler aufgetreten, bei dem eine Reihe von Blades offline geschaltet wurden. Ich bin aufgrund von Stromproblemen sehr nahe gekommen, hatte aber noch keinen fahrwerksweiten Ausfall, der nicht auf externe Quellen zurückzuführen war.

Ihre Beobachtung, dass das Chassis einen Single-Point-of-Failure darstellt, ist richtig, obwohl sie heutzutage eine große Menge an Redundanzen verursachen. Alle Blade-Systeme, die ich verwendet habe, haben parallele Stromzuführungen zu den Blades und mehrere Netzwerkbuchsen, die getrennte Pfade durchlaufen, und im Fall von Fibre-Channel-Mehrfachpfaden vom Blade zu den optischen Back-of-Rack-Ports. Sogar das Fahrgestellinformationssystem hatte mehrere Pfade.

Bei entsprechender Netzwerktechnik (redundante NIC-Nutzung, MPIO für die Speicherung) sind Ereignisse mit einem einzelnen Problem vollständig überlebensfähig. In meiner Zeit mit diesen Systemen hatte ich die folgenden Probleme, von denen keines mehr als ein Blade betraf:

  • Zwei Netzteile fallen im Blade-Rack aus. In den anderen 4 war genügend Redundanz vorhanden, um die Last zu unterstützen.
  • Verlust einer Phase für eine 3-Phasen-Stromversorgung. Diese Vorräte sind heutzutage selten, aber die anderen beiden Phasen hatten genug Kapazität, um die Last zu tragen.
  • Verlust einer Inter-Chassis-Verwaltungsschleife. Es war jahrelang so, bevor ein Vendor Tech bei einem anderen Anruf es bemerkte.
  • Der Verlust der Interchassis-Verwaltungsschleifen ist vollständig. Wir haben den Zugriff auf die Management-Konsole verloren, aber die Server liefen weiter, als ob nichts falsch wäre.
  • Jemand hat versehentlich die Back-of-Rack-Netzwerk-Backplane neu gestartet. Alles in diesem Gehäuse verwendete redundante Netzwerkkarten, sodass keine Betriebsunterbrechung auftrat. Der gesamte Datenverkehr wurde auf die andere Rückwandplatine verlagert.

Der Kostenaspekt von TomTom ist jedoch sehr zutreffend. Um die volle Kostenparität zu erzielen, muss Ihr Blade-Chassis vollständig geladen sein und es müssen wahrscheinlich keine speziellen Dinge wie Back-of-Rack-Switches verwendet werden. Blade-Racks sind in Bereichen sinnvoll, in denen Sie die Dichte wirklich benötigen, weil Sie nur über begrenzten Platz verfügen

sysadmin1138
quelle
Abgesehen davon, dass die SuperMicro Twin-Architektur Ihnen zwei Computer pro TU mit zwei Sockets pro Computer bietet - ähnlich wie bei MOST-Blades. es ist definitiv sehr dicht;) Die einzige höhere Dichte, die ich kenne, sind die Dell-Blades mit Efeubrücke ... aber sie sind im Vergleich eingeschränkter.
TomTom
@tomtom aber bietet der supermicro twin redundante psus an? Wir haben gerade eine gebaut und ich habe diese Option nirgendwo gesehen. Wir haben ein kaltes Ersatz-Netzteil gekauft, das wir für alle Fälle zur Hand haben.
Jeff Atwood
@ JeffAtwood, ich habe keine redundanten Netzteile in den 1U-Zwillingen von SuperMicro gesehen, aber ihre Reihe von 2U-4-Knoten-Zwillingen hat sie. Beispiel .
Charles
Auch wen interessiert das. Halten Sie ein Ersatznetzteil im Rack bereit. Der Austausch dauert Sekunden.
TomTom
14

Diese Frage könnte auf den gemeinsamen Speicher ausgeweitet werden. Ich würde wieder sagen, dass wir zwei Speichereinheiten statt nur einer benötigen - und wieder sagen die Anbieter, dass diese Dinge so solide sind, dass kein Ausfall zu erwarten ist.

Nicht wirklich. Ihre Bedenken machten bisher Sinn, dieser Satz bringt sie dazu "das Zeug vor Ihren Augen zu lesen". Hochverfügbarkeit mit vollständiger Replikation ist eine bekannte Unternehmensfunktion für Speichereinheiten. Punkt ist, dass ein SAN (Storage Unit ist viel komplexer als ein Blade-Chassis, das am Ende nur "dummes Metall" ist. Alles in einem Blade-Chassis mit Ausnahme einiger Backplanes ist austauschbar - alle Module usw. sind austauschbar, und einzelne Blades sind austauschbar Keiner sagt, dass die Blade-Mitte selbst den Blades eine hohe Verfügbarkeit verleiht.

Dies ist ein großer Unterschied zu einem SAN, das zu 100% in Betrieb sein soll - im konsistenten Zustand -, also gibt es dort Dinge wie Replikation usw.

DAS GESAGT: Achte auf deine Zahlen. Ich habe seit einiger Zeit darüber nachgedacht, Klingen zu kaufen, und sie haben NIEMALS FINANZIELL GEMACHT. Die Chassis sind einfach zu teuer und die Blades nicht wirklich günstiger als bei normalen Computern. Ich würde vorschlagen, die SuperMicro Twin-Architektur als Alternative zu betrachten.

TomTom
quelle
Twins und Twin-Twins (2U 4-Node) sind großartige Alternativen zu Blades. Intel stellt auch eine Reihe von Twin- und Twin-Twin-Servern her.
Charles
@ Charles Du kennst die neuen fetten Zwillinge? 8 Maschinen in 4 HE;)
TomTom
Ich habe eins gesehen, aber ich hatte keine Gelegenheit, damit zu spielen oder es zu bewerten.
Charles
4

Die Blade-Server, mit denen ich Erfahrung habe, stammen von IBM. Diese sind vollständig modular und es ist viel Redundanz eingebaut. Wenn also etwas ausfällt, ist es eine der Komponenten wie ein Netzteil oder ein modularer Switch usw. Aber auch in diesen ist Redundanz vorhanden.

Seitdem ich mit den IBM Blades zu tun habe, habe ich noch nie einen kompletten Fehler gesehen.

Ich vermute, dass sie bei den anderen Marken ähnlich aufgebaut sind.
Es wäre eine gute Idee, auch mit einem Verkäufer zu sprechen und viel zu lesen.
Es ist eine große Investition.

Matt
quelle
1

Ausfälle, die zu mehreren Blade-Server-Ausfällen im selben Gehäuse führen, sind (wahrscheinlich und verursachend) mit Ausfällen vergleichbar, die zu mehreren Server-Ausfällen im selben Rack führen.

Anfängliche Einrichtung zur Minimierung einzelner Fehlerpunkte (zwei separate Wechselstromquellen, von denen jede die gesamte Last versorgen kann, und getrennte Gleichstromversorgungen, von denen jede Hälfte die gesamte Last versorgen kann; zwei separate Netzwerkanschlüsse, einer von beiden) Der Unterschied zwischen dem, was alle Blades in einem Gehäuse oder alle 2U-Server in einem Rack beansprucht, ist sehr gering.

mpez0
quelle
1

Eine Sorge, die ich sehr oft in verschiedenen Foren lese, ist, dass theoretisch die Möglichkeit besteht, dass das Server-Chassis ausfällt - was zur Folge hat, dass alle Blades ausfallen. Das liegt an der gemeinsamen Infrastruktur.

Tatsächlich! Vor ungefähr 5 Jahren, als ich zwei HP Proliant p-Class Blade-Gehäuse verwaltete, stieß ich mehrmals auf Probleme mit dem Gehäuse.

Ich hatte Blade-Server, die sich nicht einschalten ließen, wenn sie ausgeschaltet waren (Server werden nicht oft ausgeschaltet, sind aber dennoch ein sehr reales Problem für uns geworden). Ich hatte Server plötzlich ausgeschaltet und konnte nicht wieder eingeschaltet werden. Endlich hatte ich alle Server ausgeschaltet und konnte nicht wieder einschalten.

Soweit ich mich erinnere, wurden fast alle Probleme auf Backplanes mit schlechter Stromversorgung oder Controller-Backplanes zurückgeführt. Wir haben diese mehrmals ersetzen lassen und die unspezifische, vertrauliche Nachricht, die ich von den Technikern erhalten habe, war, dass sie einige Probleme mit dieser Generation von Blade-Gehäusen hatten.

Ich entschied damals, dass der Nutzen von Blade-Servern einfach das Risiko nicht wert war, wenn ich bei zukünftigen Einkäufen etwas zu sagen hatte.

Schneller Vorlauf zu meinem nächsten und meinem jetzigen Arbeitgeber. Sie hatten bereits HP Proliant C-Class-Gehäuse in Betrieb, so dass mein lauwarmes Gefühl für Klingen keine Rolle spielte. In den 5 Jahren, in denen ich mich mit den Gehäusen der C-Klasse befasst habe, habe ich noch nie etwas Ähnliches erlebt wie mit der P-Klasse, bei der ein gesamtes Gehäuse bei mir versagt hat. Sie sind ohne größere Probleme gelaufen.

(Außer für die Zeit, als ein Regensturm Regen durch das Dach schickte, 4 Stockwerke, ein kleines Loch in der Dichtung des Computerraums, ein Kabel hinunter und in das Chassis)

abstrask
quelle
-1

Sowohl dem DELL- als auch dem HP Blade-Chassis fehlt eine redundante Mittelebene. Hier erweist sich IBM Bladecenter als Sieger. Meines Wissens ist es das einzige Blade-Chassis, das eine redundante Mittelebene bietet. Obwohl HP eine fantastische Suite von Managementsoftware für die Blades anbietet, haben wir für unser Unternehmen ein Bladecenter E gekauft, um einen einzelnen Ausfallpunkt des gesamten Gehäuses zu vermeiden.

Arun Shetty
quelle
Dies ist in der Tat, was die IBM Marketingmaterialien mir sagen; dass sie der einzige Anbieter mit einer vollständig redundanten Blade-Lösung sind. Nach dem Lesen der anderen Nachrichten in diesem Thread scheint es jedoch so, als ob die HP-Lösungen dies auch bieten.
Martijn