Ich habe die DR-Verfahren unseres Unternehmens überprüft und online nach Lösungen für ein Quorum gesucht, bei dem Always On Cluster das Quorum verliert. Ich war drei Seiten in den Google-Ergebnissen, bevor ich den ersten SE-Beitrag zum Thema Clustering vs. Transaktionsreplikation vs. Verfügbarkeitsgruppen fand, der das Thema verlorenes Quorum nur geringfügig berührt.
Obwohl sich alle einig sind, dass das Quorum zu verlieren schlecht ist und es einige Vorschläge gibt, das Potenzial zu verringern, kann es dennoch passieren. Ich bin auf der Suche nach einer guten Peer-Review-Antwort auf den besten Weg zur Wiederherstellung nach einem Quorumverlust im Always On-Cluster.
sql-server
availability-groups
disaster-recovery
James Jenkins
quelle
quelle
Antworten:
AGs basieren auf Windows Clustering. Es gelten die WSFC-Verfahren für Quorum Loss.
Sobald die WSFC ausgeführt wird, können Sie bei Bedarf die AG erzwingen. Führen Sie ein erzwungenes manuelles Failover einer Verfügbarkeitsgruppe durch :
quelle
Ich war in dieser Situation besonders mit Multi-Subnetz-Clustering in verschiedenen Ländern (NY-LD-HK).
Wie vermeide ich Quorum Loss in einem Multi-Subnetz-Cluster?
CrossSubnetDelay
oder dieCrossSubnetThreshold
Eigenschaft dieses Hotfixes .In Windows Server 2016 ändern sich die Dinge mit der Einführung von standortbezogenen Clustern und Cloud-Zeugen .
Was tun, wenn das Kollegium verloren geht?
Um eine RCA (Root Cause Analysis) durchzuführen, erfassen Sie wie immer Ihre Windows-Clusterprotokolle für AlwaysON RCA - verwenden Sie SQL Server-Failovercluster-Diagnoseprotokolle . Diese Dateien im SQL Server-Protokollverzeichnis haben das folgende Format :
<HOSTNAME>_<INSTANCENAME>_SQLDIAG_X_XXXXXXXXX.xel
.quelle
Einmal war ich in einen Ausfall verwickelt, bei dem unsere gespiegelten Server die Konnektivität verloren haben. Sie müssen sich unter anderem darum kümmern, dass Ihre Anwendungen auf eine einzelne Instanz verweisen. Bei einem Netzwerkausfall können alle Knoten eines Always On-Clusters aktiv sein, jedoch nicht miteinander kommunizieren. Sie erzwingen ein Failover auf ein sekundäres Failover. Solange ein Ausfall vorliegt, können Sie zwei primäre Knoten haben, da der ursprüngliche primäre Knoten nichts über das erzwungene Failover weiß.
Abhängig von den Standorten Ihrer Anwendungsserver, ihrer Konfiguration und ihrer Fähigkeit, einen SQL-Server zu erreichen, können theoretisch zwei Knoten davon ausgehen, dass sie primär sind und gleichzeitig Daten geändert werden. Sobald Sie Ihre Netzwerkprobleme behoben haben und die Knoten die Konnektivität wieder aufnehmen, werden alle auf der ursprünglichen Primärdatenbank geänderten Daten von dem Knoten überschrieben, zu dem das Failover erzwungen wurde. Dies kann zum Verlust kritischer Daten führen.
Ich habe diese Situation einmal mit SQL 2005 und Spiegelung gesehen. Und wir haben beschlossen, das Failover nicht zu erzwingen und es nicht erreichbar zu lassen. Der Grund dafür ist, dass im schlimmsten Fall, wenn wir sichern und wiederherstellen müssten, um die Spiegelung neu zu starten, dies ein zweitägiger Prozess für uns wäre, bei dem das Risiko besteht, dass das Transaktionsprotokoll voll wird und die Festplatte, auf der es sich befindet, nicht erweitert werden kann.
quelle