Ich habe in MTTF, MTBF, MTBR und MTBF nach HP Gen9-Servern gesucht, die in unserer Produktionsumgebung ausgeführt werden.
Wurzel meiner Frage, sollte besorgt sein oder nicht.
Ich kann anscheinend keine guten Daten abrufen, da jeder Server über einen Hardwaremix verfügt.
In meiner letzten Firma liefen ungefähr 2000 Dell Server R210 R410 R710. Ich würde sagen, wir hatten durchschnittlich ungefähr 5 Server pro Tag, die eine Art von Ausfall hatten. Daher fielen ungefähr 0,25% des Servers aus und mussten ausgetauscht werden, bevor er wieder verwendet werden konnte.
In meiner letzten Firma war alles in einer HA-Pair-N + 2-Infrastruktur eingerichtet, sodass die Produktion nicht beeinträchtigt wurde. Wir konnten die Server austauschen und weitermachen
In meinem derzeitigen Büro betreiben wir 9 Server (HP Gen9, 56 VMs Hyper-V). Wir halten nicht viele Ersatzteile bereit. Auch das Rechenzentrum wird nicht verwaltet. Wenn also etwas ausfällt, müssen wir etwa 45 Minuten fahren, um es zu ersetzen etwas.
Mein CTO und mein IT-Manager scheinen besorgt zu sein, sie hatten im letzten Jahr etwa 2,5 Tage Ausfallzeit. Ich habe vorausgesehen, dass wir die Server gruppieren müssen, aber sie sehen keinen Bedarf.
Gibt es hier ein falsches oder ein richtiges? Ich weiß nicht, was ich tun soll.
Ich weiß, dass es nicht meine Verantwortung ist, wenn etwas auf dem CTO passiert. Dies ist eine sehr kleine Firma, nur der CTO, der IT-Manager, ich (Entwickler) und 1 Helpdesk-Mitarbeiter.
Die Erfahrung im Betrieb einer Produktionsumgebung ist insgesamt sehr begrenzt, und ich würde sagen, dass viele Dinge auf sehr jungem Niveau eingerichtet sind. Weder mein CTO noch mein IT-Manager wussten viel über Clustering, bevor ich dort ankam. Sie befanden sich mitten in einem Projekt zur Einrichtung von DR ohne HA, gegen das ich mich ausgesprochen hatte, das ich jedoch verlor.
quelle
Antworten:
Machen Sie sich keine Sorgen um die MTTF-, MTBF-, MTBR- und MTBF-Zahlen. Warum sollten diese auf die Besonderheiten Ihrer Umgebung zutreffen?
Die Server haben interne Redundanzen und können in der Produktion extrem stabil sein. Dies hängt jedoch von Ihrer Umgebung, dem Festplattenarray / der Festplattenzusammensetzung, den Festplattentypen, der RAM-Größe, der CPU-Konfiguration, den thermischen Eigenschaften, der Leistung usw. ab.
Die Verwendung einer Form der Hochverfügbarkeit kann das Ausfallrisiko verringern und bietet Ihnen die Möglichkeit, Ihre Arbeitslast im Falle eines Ausfalls zu verlagern.
Dies ist eine Frage des finanziellen und operationellen Risikos.
Vielleicht sind die zusätzlichen Kosten für den Wechsel vom Standalone zum Cluster so hoch, dass das Geschäft keinen Sinn ergibt? Möglicherweise reichen die 2,5 Tage Ausfallzeit (~ 99,3% Verfügbarkeit) für Ihren Betrieb aus. Sie sollten sich auf Offsite-Schutz und gute Backups konzentrieren. Alle Ihre HP Gen9 Systeme sind unter Herstellergarantie heute, so dass Sie haben Zugriff auf Teile haben. Wenn Sie über RAID, redundante Netzteile / Lüfter und eine stabile Stromversorgung verfügen, haben Sie die kritischsten Bereiche abgedeckt.
Betrachten Sie dies aus finanzieller Sicht und skizzieren Sie die Risiken und damit verbundenen Kosten und versuchen Sie, ein überzeugendes Geschäftsmodell für das zu erstellen, was Sie möchten.
quelle