Wir haben mehrere Hosts, auf denen wir einen identischen Hot-Spare-Host haben, der gepatcht und aktualisiert wird, sodass es sehr nahe ist, dieselbe Software und Konfiguration zu haben. Im Fehlerfall wird das Netzwerkkabel umgeschaltet und der DHCP-Server mit der neuen MAC-Adresse aktualisiert. Dies ist der beste Fall, da normalerweise etwas mehr geändert werden muss.
Ich halte es für eine Verschwendung von Strom, einen Hot-Spare-Host zu haben, und für Zeitverschwendung, ihn zu warten. Da im Falle eines Failovers Konfigurationsänderungen erforderlich sind, möchte ich Folgendes fragen:
Sind Hot Spare Hosts Old School und es gibt jetzt bessere Möglichkeiten?
Anstatt einen Hot-Spare-Host zu haben, wäre es sinnvoll, ihn zu einem Cold-Spare-Host zu machen, die Festplatten zu nehmen und sie auf den primären Host zu legen und das RAID von 1 auf 1 + 1 zu ändern. Im Falle eines Fehlers müsste ich nur die Netzwerkkabel wechseln, den DHCP-Server aktualisieren, die Festplatten nehmen und in das Ersatzteil einlegen und einschalten. Aus meiner Sicht besteht der Vorteil darin, dass die 2x2-Festplatten immer synchron sind, sodass nur ein Host gewartet werden muss und beim Failover keine Konfigurationsänderungen erforderlich sind.
Ist das eine gute Idee?
quelle
Antworten:
Sobrique erklärt, wie der manuelle Eingriff dazu führt, dass Ihre vorgeschlagene Lösung überoptimal ist , und ewwhite spricht über die Ausfallwahrscheinlichkeit verschiedener Komponenten . Beide IMO machen sehr gute Punkte und sollten stark berücksichtigt werden.
Es gibt jedoch ein Problem, das bisher noch niemand kommentiert zu haben scheint, was mich ein wenig überrascht. Sie schlagen vor:
Dies schützt Sie nicht vor allem, was das Betriebssystem auf der Festplatte tut.
Es schützt Sie nur wirklich vor Festplattenfehlern. Wenn Sie von Spiegeln (RAID 1) zu Spiegeln von Spiegeln (RAID 1 + 1) wechseln, reduzieren Sie zunächst die Auswirkungen erheblich. Sie können das gleiche Ergebnis erzielen, indem Sie die Anzahl der Festplatten in jedem Spiegelsatz erhöhen (z. B. von RAID 1 mit 2 Festplatten auf RAID 1 mit 4 Festplatten) und die Leseleistung während des normalen Betriebs sehr wahrscheinlich verbessern.
Schauen wir uns dann einige Möglichkeiten an, wie dies fehlschlagen könnte .
rm -rf ../*
oderrm -rf /*
stattdessenrm -rf ./*
.Vielleicht, vielleicht, vielleicht ... (und ich bin sicher, es gibt noch viele weitere Möglichkeiten, wie Ihr vorgeschlagener Ansatz scheitern könnte.) Am Ende läuft dies jedoch darauf hinaus, dass "die beiden Sätze immer synchron sind" "Vorteil". Manchmal möchten Sie nicht, dass sie perfekt synchron sind.
Je nachdem, was genau passiert ist, möchten Sie entweder einen heißen oder einen kalten Standby-Modus, der ein- und ausgeschaltet werden kann, oder geeignete Sicherungen. In beiden Fällen helfen Ihnen RAID-Spiegel von Spiegeln (oder RAID-Spiegeln) nicht, wenn der Fehlermodus neben dem Ausfall des Hardwarespeichergeräts (Festplattenabsturz) noch viel mehr beinhaltet. So etwas wie ZFS 'raidzN kann in mancher Hinsicht wahrscheinlich etwas besser abschneiden, in anderen jedoch überhaupt nicht.
Für mich würde dies Ihren vorgeschlagenen Ansatz von Anfang an zum No-Go machen, wenn die Absicht eine Art Katastrophen-Failover ist.
quelle
Ja, es ist ein bisschen altmodisch. Moderne Hardware fällt nicht nur so oft aus. Konzentrieren Sie sich entweder darauf, Ihre Anwendungen besser verfügbar zu machen (nicht immer möglich), oder auf die Elemente, die erforderlich sind, um Ihre einzelnen Hosts widerstandsfähiger zu machen ...
Für Gastgeber:
In der Reihenfolge der abnehmenden Fehlerhäufigkeit sehe ich: Festplatten, RAM, Netzteile, Lüfter am häufigsten ... Manchmal Systemplatine oder CPU. Aber in den letzten beiden Fällen sollte Ihr Supportvertrag beginnen.
quelle
Es ist ziemlich ineffizient - nicht zuletzt wegen der Abhängigkeit von manuellen Eingriffen, um den Wechsel vorzunehmen.
Ich habe an Orten gearbeitet, an denen eine Hot-DR-Site betrieben wird - buchstäblich identische Server wie die primären, die sofort einsatzbereit sind. Die DR-Umschaltung ist jedoch ein automatisierter Prozess - es handelt sich nicht um Verkabelung, ein bisschen Fummeln und einen Wechsel, sondern um einen Vorgang, bei dem durch Drücken der Taste alles von einem Standort zum anderen gespiegelt wird.
Dieser Ansatz ist widerlich teuer, aber das ist eine Geschäftsentscheidung - akzeptables Risiko im Vergleich zu dem Geld, das zur Erreichung des Ziels benötigt wird. In der Regel gibt es eine exponentielle Kurve für das Ziel der Wiederherstellungszeit - je näher es Null kommt, desto mehr kostet es.
Aber darum geht es in Ihrer Frage wirklich. Was ist Ihr Ziel für die Erholungszeit und wie können Sie es am effektivsten erreichen ? Das Warten auf den Start eines Servers dauert einige Minuten. Wie lange braucht jemand, um die Anpassungs- und Wiederherstellungsaufgaben zu erledigen, wenn es um 4 Uhr morgens losgeht?
Und wie lange dauert ein akzeptabler Ausfall?
Ich würde vorschlagen, dass Sie, wenn Sie "Hot Recovery" durchführen, an Clustering denken möchten. Mit einer guten Verwendung von VMWare können Sie beim Clustering relativ günstig sein. Ein Failover auf eine VM - auch von einer physischen - bedeutet, dass Sie keine redundante Hardware ausführen. (Nun, N + 1 statt 2N).
Wenn Ihre RTO lang genug ist, schalten Sie die Box aus. Möglicherweise ist die RTO ausreichend, damit eine Kaltwiederherstellung aus dem Backup in Ordnung ist.
quelle
Die Tatsache, dass es sich um eine alte Schule handelt, macht die Verwendung eines Hotspare nicht unbedingt zu einer schlechten Idee.
Ihr Hauptanliegen sollte die Begründung sein, welche Risiken Sie eingehen und wie sie durch das Ausführen eines Hot Spare gemindert werden. Denn meiner Meinung nach behebt Ihr Hotspare nur Hardwarefehler, was zwar nicht ungewöhnlich ist, aber weder das einzige Betriebsrisiko, das Sie eingehen, noch das wahrscheinlichste. Das zweite Problem ist, ob alternative Strategien eine stärkere Risikominderung oder erhebliche Einsparungen bewirken.
Das Ausführen eines Ersatzlaufwerks mit mehreren manuellen Failover-Schritten dauert lange und wird wahrscheinlich schief gehen, aber ich habe auch den Eindruck, dass automatisiertes Failover mit HA-Cluster-Suites zu wichtigen Cluster-F * Cks wird.
Eine andere Sache ist, dass heißer oder kalter Standby am selben Standort keine Geschäftskontinuität im Falle einer lokalen Katastrophe bietet.
quelle
Das Konzept, einen heißen oder sogar kalten Ersatz zu haben, hängt davon ab, wie die Anwendung (en) überhaupt erstellt werden.
Ich meine, wenn die Anwendung so erstellt wurde, dass die Daten- und Servicelast auf mehrere Computer verteilt ist, sollte das Konzept eines einzelnen Computers, der das System herunterfährt, verschwinden. In dieser Situation benötigen Sie keinen Ersatz. Stattdessen benötigen Sie genügend überschüssige Kapazität, um zu verarbeiten, wenn eine einzelne Maschine / Komponente stirbt.
Beispielsweise erfordert eine Standardwebanwendung im Allgemeinen einen Webserver und einen Datenbankserver. Für die Webserver müssen Sie nur 2 oder mehr Lastausgleich durchführen. Wenn man stirbt, kein Problem. Die Datenbank ist normalerweise schwieriger, da sie so aufgebaut sein muss, dass sie mehrere Master umfasst und alle Daten auf den teilnehmenden Computern synchronisiert sind. Anstelle eines einzelnen DB-Servers stehen Ihnen also zwei (oder mehr) zur Verfügung, die beide Ihre Datenanforderungen erfüllen. Große Dienstleister wie Google, Amazon, Facebook usw. sind diesen Weg gegangen. Die Entwicklungszeit verursacht mehr Vorlaufkosten, zahlt sich jedoch aus, wenn Sie skalieren müssen.
Wenn Ihre Anwendung nicht so strukturiert ist oder es einfach unmöglich ist, die App nachzurüsten, möchten Sie wahrscheinlich einen Ersatz.
quelle