Best Practices für die Überprüfung von Backups?

21

Es ist eine häufige Situation, wenn der Administrator das System für die automatische Sicherung erstellt und es vergisst. Erst wenn ein System ausfällt, bemerkt der Administrator, dass das Backup-System zuvor ausgefallen ist oder Backups aufgrund eines Fehlers nicht wiederherstellbar sind und er kein aktuelles Backup hat, von dem wiederhergestellt werden kann. Was sind also die besten Methoden, um solche Situationen zu vermeiden?

Kazimieras Aliulis
quelle
Wir haben Backup-Überwachung in einem Skript ... es wird mit anderen Überwachungen konsolidiert und jeden Tag an den Administrator gesendet. Wenn die vollständige Sicherung übersprungen wurde (oder nur teilweise abgeschlossen war), wird dies in der E-Mail angezeigt.
Beep Beep

Antworten:

27

Führen Sie alle paar Monate eine Feuerprobe durch. Es ist eine gute Idee, zu sagen, dass das XYZ-System ausgefallen ist. Führen Sie dann die Schritte aus, um es wieder online auf eine neue VM usw. zu stellen Fehler.

trent
quelle
Wir haben dies bei der Arbeit getan, um zu testen, ob unsere visuellen quellensicheren Sicherungen ordnungsgemäß funktionieren, zum Glück.
Jared
10

Seifenkistenmodus: EIN

Ich würde sagen, es ist so einfach, dass Backups, die nicht regelmäßig getestet werden, wertlos sind.

In meinem vorherigen Job hatten wir die Richtlinie, dass jedes System (Produktion, Test, Entwicklungsüberwachung usw.) alle 6 Monate durch einen Test wiederhergestellt werden sollte.

Dies war auch die Aufgabe des jüngsten Administrators, damit die Dokumentation auf dem neuesten Stand war. Junior wird dadurch definiert, wie viel Arbeit er / sie an dem spezifischen System geleistet hat. Manchmal (ziemlich oft) war es der "Gruppenmanager", der das getan hat

Wir hatten spezielle Hardware dafür (eine Intel- und eine IBM / AIX-Box), die nur für Festplattenspeicher geeignet war, da wir auf dem wiederhergestellten Host nichts Reales ausführen mussten.

In den ersten paar Runden war es eine Menge Arbeit, aber es hat uns dazu gebracht, den Wiederherstellungsprozess zu rationalisieren, der der wichtige Teil des Backups ist.

Herr Hai
quelle
7

Da Sie sich anscheinend auf die Tatsache beziehen, dass der Administrator nicht bemerkt, dass der Sicherungsjob "bricht", und nicht so sehr, dass eine funktionierende Sicherung nicht richtig funktioniert hat, würde ich vorschlagen, eine Art Überwachungsskript um die Sicherungen herum zu erstellen.

Beim Erstellen einer selbst entwickelten Backup-Lösung würde ich Folgendes tun:

  • Erstellen Sie ein Skript, um Ihre Daten zu sichern.
  • Führen Sie eine Testwiederherstellung durch, um sicherzustellen, dass das Skript ordnungsgemäß funktioniert.
  • Implementieren Sie im Skript oder auf andere Weise eine Möglichkeit, den Status der Sicherungen zu verfolgen (Erfolg, Fehler, Ausführung, Nichtausführung).
  • Den Tracking-Status überwachen lassen (E-Mail, Datenbank, etwas)

Sobald das alles erledigt ist, sollte es dir gut gehen. Eine zusätzliche Aufgabe wäre die Durchführung regelmäßiger Testwiederherstellungen. Wenn Sie zusätzliche Hardware haben, um für die Ursache zu spenden, ist das.

Wo ich arbeite, haben wir eine Warm-Site, einmal im Monat wählen wir zufällig ein System oder eine Datenbank aus und gehen zu unserer Warm-Site und führen eine Testwiederherstellung auf Bare-Metal durch, um sicherzustellen, dass unsere Daten wiederhergestellt werden können.

Um ehrlich zu sein, wenn Ihre Daten für Sie sehr wichtig sind, wäre es in Ihrem Interesse, in eine Software zu investieren, mit der Sie Ihre Backups für Sie verwalten können. Hierfür gibt es Hunderte von Produkten, von günstig und einfach bis zur Enterprise-Klasse.

Wenn Sie sich auf eine Reihe von handgeschriebenen Skripten verlassen, die in der crontab für die Backups Ihres Unternehmens ausgeführt werden, werden Sie früher oder später wahrscheinlich verbrannt.

WerkkreW
quelle
4

Wir haben 60% -ige Referenzversionen unserer Produktionssysteme, wir verwenden sie zum endgültigen Testen von Änderungen, wir stellen Produktionssicherungen auf diesen Systemen wieder her - es testet die Sicherung und stellt sicher, dass beide Umgebungen miteinander Schritt halten .

Chopper3
quelle
1

Ein Ansatz ist das Erstellen eines Skripts für einen "Wiederherstellungs" -Job, der in regelmäßigen Abständen ausgeführt wird. Beispielsweise wird eine bestimmte Textdatei aus der neuesten Sicherung abgerufen und der Inhalt per E-Mail an Sie gesendet. Wenn es möglich ist, sollte dies - zumindest manchmal - unter Verwendung einer anderen Box erfolgen als der, in der die Daten erstellt oder gesichert wurden, um sicherzustellen, dass sie bei Bedarf funktionieren. Der Vorteil ist, dass Sie sicher sein können, dass Ihre Verschlüsselungs- / Entschlüsselungs-, Komprimierungs- und Speichermechanismen alle funktionieren.

Dies ist bei spezialisierten Sicherungen wie E-Mail- und Datenbankservern etwas aufwändiger, obwohl eine Art kleine Wiederherstellung von einer kleinen Datenbank oder einer Mailbox-Sicherung auf Brick-Ebene durchgeführt werden kann und die Überprüfung des Inhalts sicherlich möglich ist, nur ein wenig aufwändiger.

Diese Vorgehensweise sollte auch eine regelmäßige vollständige Wiederherstellung nicht ersetzen, um sicherzustellen, dass Sie im Notfall Daten wiederherstellen können. Sie können sich nur ein wenig sicherer über die Integrität Ihres täglichen Sicherungsjobs sein.

nedm
quelle
1
  1. Feuerwehrübungen.
  2. Eine Richtlinie zum Testen aller Sicherungen alle 6 Monate ist eine sehr gute Idee
  3. Wenn Sie testen möchten, müssen Sie sich für jede Anwendung oder jedes System Ihre Sicherungskopie ansehen. Im Idealfall sollte das, was eine "erfolgreiche" oder "wiederherstellbare" Sicherung ausmacht, in der Servicebeschreibung oder in der SOP (Betriebsdokumentation) für Ihre Sicherung zusammen mit anderen Details wie Aufbewahrungszeit und Bladibla aufgeführt werden.

Sie werden wahrscheinlich feststellen, dass einige Sicherungstypen leicht durch Skripts (z. B. Datenbanken) wiederhergestellt werden können, während andere manuelle Eingaben erfordern (Active Directory-Wiederherstellung). Automatisieren Sie dies so weit wie möglich, stellen Sie sicher, dass eine Art Bericht vorhanden ist, und stellen Sie sicher, dass "jemand" die manuellen Tests auch in regelmäßigen Abständen durchführt. Eine isolierte Umgebung (verkleinerte Kopie von prod) erleichtert die Durchführung von Wiederherstellungstests.

Trondh
quelle
1
Verzeihen Sie die Frage, aber fügt diese Antwort etwas hinzu, das noch nicht gesagt wurde?
MadHatter unterstützt Monica
Alle 6 Monate? Ich mache alle paar Wochen kleine.
Tombull89
0

Wenn ich eine Testwiederherstellung durchführe, fühle ich mich nicht wirklich wohl bei dem Punkt "das sieht gut aus, die Dateien werden wiederhergestellt, es scheint, dass keine Datei fehlt, auch wenn die Größen übereinstimmen" oder bei dem Punkt "das sieht gut aus, ich habe meine Anwendung gestartet. .. stürzt nicht ab, zeigt anständige Daten an ".

Ich möchte Server / Cluster von Grund auf wiederherstellen und dann tatsächlich für die Produktion verwenden . Nicht für eine Minute, nicht eine Stunde, sondern dauerhaft . Wenn Sie behaupten, dass Ihre Wiederherstellung erfolgreich war, gibt es absolut keinen Grund, eine Produktion nicht zu starten. Dies ist kein "schmutziges" System, das man vergessen sollte. Dies ist das System, mit dem Sie nach einer echten Katastrophe konfrontiert werden. Also, wenn es die "sieht gut aus" Bühne passiert, lebe damit. Sichern Sie es nächste Nacht. Vergiss das Original. Sie wahrscheinlich werden einige Probleme mit diesem Ansatz entdecken, und Sie werden gezwungen , zu allen von ihnen zu beheben . Die nächste Wiederherstellung desselben Systems hat eine gute Chance, zu 100% erfolgreich zu sein.

Dies beinhaltet Ihre Backup-Software und Ihren Server. Ja, Sie müssen diese auch wiederherstellen.


Sie haben kein Budget, um dedizierte Hardware für die Wiederherstellung zu kaufen?

  • Stellen Sie sicher, dass Sie unbedingt ein Budget benötigen. Erinnern Sie die Entscheidungsträger bei jeder Gelegenheit daran, dass noch kein gültiger, durchgehender Wiederherstellungstest stattgefunden hat. (Und ja, sammle die Beweise, um deinen Arsch zu bedecken. Harte Welt.)
  • In den meisten Organisationen muss ein Unternehmen gelegentlich ein System auf eine andere Hardware migrieren, nutzen Sie also die Gelegenheit. Wählen Sie für die Migration immer die Methode "Aus Sicherung wiederherstellen", und geben Sie dabei vor, dass Sie gerade die ursprüngliche Hardware verloren haben. Ja, das bedeutet mehr Ausfallzeiten. Tut mir leid. Zumindest haben Sie das Vertrauen, dass Ihre Sicherung nützlich ist.
  • Keine Migration? Vielleicht können Sie Hardware für zwei Wochen ausleihen und zwei Wiederherstellungstests durchführen (auf ausgeliehene Hardware zurücksetzen, mehr als eine Woche warten, von ausgeliehen auf das Original zurücksetzen, damit leben). Wenn für ein neues System eine neue Hardware gekauft wurde und Sie die Dinge ordnungsgemäß arrangieren, können Sie diese normalerweise problemlos ausleihen, indem Sie anbieten, sie zwei Wochen lang ausführlich zu testen. Wenn die neue Hardware nicht zu 100% mit der alten identisch ist, wird Ihr Test dadurch noch besser. Woher wissen Sie, ob Sie im Katastrophenfall identische Hardware erhalten?
  • Wird gerade ein neues System von Ihnen implementiert? Können Sie die Wiederherstellung jetzt testen? Verwenden Sie keine zusätzliche Hardware, sondern überschreiben Sie das neue System, da Sie über neues Wissen verfügen, wie Sie es schnell wieder implementieren können. Dies funktioniert, wenn noch keine signifikanten Daten vorliegen. Fahren Sie erneut mit der wiederhergestellten Version und nicht mit der neu installierten Version fort.
kubanczyk
quelle
0

Während wir keine Backups testen, haben wir die zentrale Backup-Überprüfungs- und Berichtskomponente in dem System, das wir für BackupRadar.com entwickelt haben. Probieren Sie es einfach aus, um festzustellen, ob es bei dieser Komponente hilft. Es wird eine Kopie der Erfolgs- / Fehler-E-Mails an die Sicherungsrichtlinie angehängt und es werden auch Screenshots angehängt, wenn Ihre Sicherungssoftware in der Lage ist, diese auch zu senden.

Danke, Patrick

Patrick Leonard
quelle
-1

Vergewissern Sie sich, dass die Sicherungsaktivität protokolliert ist, und schreiben Sie dann (natürlich in Perl) etwas, das diese Protokolle auf Fehler analysiert, auflöst und als tägliche E-Mail versendet.

SqlACID
quelle
2
Dies hat nichts mit der Situation zu tun, in der die eigene Sicherungsstrategie fehlerhaft ist.
Jared