Neue Clustertests - Best Practice

7

Wir haben die Einrichtung eines SQL Server 2005-Clusters mit 4 Knoten abgeschlossen. Wir verwenden Windows 2008 R2 als zugrunde liegendes Betriebssystem.

Wir suchen nach Vorschlägen für eine Reihe von Tests, die wir durchführen können, um das Failover der SQL-Instanzen zu testen.

Duncan
quelle
2
Dies scheint eine ziemlich gute Ressource zu sein: blogs.technet.com/b/vipulshah/archive/2009/06/17/…
Thomas Stringer

Antworten:

5

Nicht einmal annähernd umfassend, aber ich würde damit beginnen: 1. Ziehen Sie die Ethernet-Kabel für Ihre öffentliche IP-Schnittstelle auf Ihrem primären / aktiven Knoten. Bestätigen Sie das Failover. 2. Ziehen Sie die SAN-Glasfaserkabel für Ihren aktiven Knoten. Bestätigen Sie das Failover. 3. Ziehen Sie die Stromkabel für Ihren aktiven Knoten. Bestätigen Sie das Failover.

Dies sind die Hauptfehlerarten, die MS Clustering in erster Linie kompensieren wird ...

Ich glaube, ich hätte meine Real / Prod-Datenbank getrennt oder offline, während ich diese Spiele gespielt habe. *

Bob
quelle
5

Der Link, den Thomas in seinem Kommentar zur Frage angegeben hat, ist eine gute Quelle für einige zu testende Szenarien. Bob hat auch einige Tests bereitgestellt, die gut sind, von denen viele in dem verlinkten Blog-Beitrag enthalten sind.

Ich würde sagen, dass Sie zusätzlich zu den großartigen Listen mit den zu überprüfenden "was" auch verschiedene Anwendungsszenarien betrachten möchten, um das Failover während zu testen. Ich habe gesehen, wie viele Cluster erstellt und dann von der Seite des Serverteams / DBA-Teams getestet wurden - aber die Anwendungsteams waren nie beteiligt.

Was passiert mit Ihren Anwendungen während dieses Failovers? Jetzt sieht es wirklich meistens wie ein Neustart der Anwendung aus (genau das ist das Failover. Der Dienst fällt auf Knoten A aus. Der Dienst geht auf Knoten B hoch. SQL macht das, was es tut, wenn SQL heruntergefahren und neu gestartet wird oder Wenn es abstürzt und wieder hochfährt, werden DBs auf der anderen Seite des Neustarts wiederhergestellt. Alle Verbindungen werden dort abgebrochen, wo sie sind usw.) Es mag also sinnlos erscheinen, sie zu testen, aber es ist gut zu sehen, welche Art von Prozess Die Benutzer erfahren und verstehen, welche Prozesse die Anwendungsbesitzer, Helpdesk-Mitarbeiter usw. ausführen müssen, wenn dieses Failover stattfindet.

Sie sollten Fragen stellen wie:

  1. Gibt es eine Komponente, die nach einem Datenbankneustart zurückgesetzt oder neu gestartet werden muss?
  2. Müssen Sie eine bestimmte Reihenfolge für das Herunterfahren / Neustarten von SQL Server während Wartungsfenstern einhalten? Das sieht wahrscheinlich so aus, als würden zuerst die Anwendungs- oder Middleware-Server und dann die Datenbank ausfallen. Bei einem Cluster-Failover wird die Datenbank zuerst heruntergefahren. Was bedeutet das für Sie und Ihr Unternehmen?
  3. Unterstützen Ihre Drittanbieter von Softwarepaketen Installationen in einem Cluster? Sie sollten, es ist nicht viel anders, aber sie können eine Anleitung haben, die während eines Failovers zu beachten ist.
  4. Versuchen Ihre Apps automatisch, eine bestimmte Anzahl von Malen wieder herzustellen? Wenn nicht, können sie? Dies kann in Ihrer Clusterumgebung eine gute Sache sein, um Zeit bei der erneuten Verbindung zu sparen und nach dem Failover wieder an die Arbeit zu gehen.

Wenn Sie einige dieser Tests durchführen, wird Ihre Anwendung ausgeführt (keine Live-Produktion ...), wobei Benutzer oder Testskripte während des Failovers Arbeiten ausführen. Was ist passiert? Sehen Sie etwas, das erledigt werden muss?

Mike Walsh
quelle