Gilt Snapshots + RAID als gute Backup-Lösung vor Ort?

19

Die beiden Hauptgründe, die ich mir für das Erstellen von Backups vorstellen kann, scheinen beseitigt zu sein, wenn ich sowohl Snapshots als auch RAID zusammen mit btrfs verwende. (Mit RAID meine ich hier RAID1 oder 10)

  • Versehentliches Löschen von Daten: Snapshots deckt diesen Fall ab
  • Ausfall eines Laufwerks und Bit rot
    • Kompletter Fehler: RAID deckt diesen Fall ab
    • Laufwerk gibt fehlerhafte Daten zurück: Die Fehlerkorrekturfunktion von RAID + btrfs deckt diesen Fall ab

Als Backup-Lösung vor Ort scheint dies problemlos zu funktionieren, und es wird nicht einmal ein separates Datenspeichergerät dafür benötigt!

Ich habe jedoch gehört, dass sowohl RAID als auch Snapshots nicht als ordnungsgemäße Backups angesehen werden. Daher frage ich mich, ob ich etwas verpasst habe.

Abgesehen davon, dass btrfs noch keine ausgereifte Technologie ist, können Sie sich etwas vorstellen, das ich vermisst habe? Oder ist mein Denken richtig und dies ist eine gültige Backup-Lösung vor Ort?

小 小
quelle
2
Wir machen dasselbe wie Sie: RAID 5 mit Shadow Copy; Es gibt jedoch auch zwei externe USB-Festplatten, die jede Nacht mit Robocopy gesichert werden (Laufwerke zweimal pro Woche drehen, sodass immer eine extern ist). Dadurch erhalten wir auch Backups für die Notfallwiederherstellung, jedoch keine Langzeitarchive , die unsere kleine Organisation nicht wirklich benötigt. Sie sollten ein Upgrade durchführen, um mindestens eine Kopie der Daten auf Ihrem Server außerhalb des Standorts zu haben, da bei einem Ausfall Ihres RAID-Arrays auch Ihre Snapshots verloren gehen.
Austin '' Danger '' Powers
Wenn Sie herausfinden möchten, ob ein RAID-Array als Ganzes ausfallen kann, schlagen Sie eines mit einem Vorschlaghammer an und versuchen Sie, Ihre Daten wiederherzustellen. Es gibt eine ganze Klasse von schlechten Dingen, die eine ganze Kiste herausnehmen können, ohne die gesamte Site herauszunehmen. Das heißt, wenn Ihre Vor-Ort-Backups nur eine Annehmlichkeit sind, die Ihnen das langsame Wiederherstellen von Off-Site-Backups ersparen könnte, können sie im Prinzip so schlecht sein, wie Sie möchten.
Steve Jessop
Ja, wir haben bereits Off-Site-Backups und eine "traditionellere" On-Site-Lösung. Der Grund, warum ich diese Frage gestellt habe, weil ich etwas über die Funktionen von btrfs und ZFS gelesen habe und mich gefragt habe, ob sie als Ersatz für die Vor-Ort-Sicherungen geeignet sind.
小 太郎

Antworten:

42

Nein, ist es nicht.

Was passiert, wenn Ihr Dateisystem oder RAID-Volume beschädigt wird? Oder Ihr Server wird in Brand gesetzt? Oder formatiert jemand versehentlich das falsche Array?

Sie verlieren alle Ihre Daten und die nicht-realen Backups, die Sie dachten. Aus diesem Grund befinden sich echte Backups auf einem völlig anderen System als die Daten, die Sie sichern. Denn Backups schützen das betreffende System vor Datenverlust. Bewahren Sie Ihre Sicherungen auf demselben System auf, auf dem Sie sichern. Datenverluste auf diesem System können sich auch auf Ihre "Sicherungen" auswirken.

HopelessN00b
quelle
Wie wäre es mit dieser Lösung, da ich oft darauf stoße? Sind lokale Snapshots + Remote-Snapshots zu einem anderen Server (Onsite oder Offsite) + RAID auf beiden Systemen ein Ersatz für herkömmliche Backups?
Ewwhite
5
@ewwhite Vorausgesetzt, sie sind auf Wiederherstellung getestet und auf einem Remote-System ist eine vollständige Kopie Ihrer Daten vorhanden. Dann ist es im Grunde eine Disk-to-Disk-Sicherung ... und ich liebe Disk-to-Disk-Sicherungen.
HopelessN00b
11

Für die Sicherung vor Ort ist ein Snapshot möglicherweise ausreichend, vorausgesetzt, Sie exportieren Ihren Snapshot regelmäßig an einen anderen Ort, an dem er als passive Daten vorhanden ist.

Testen Sie außerdem regelmäßig, ob Ihr 'versendeter Schnappschuss' wiederhergestellt werden kann.

So habe ich eine schnelle Sicherung einiger meiner Server implementiert: Speichern Sie die Daten in ZFS, erstellen Sie einen ZFS-Snapshot, senden Sie das Delta an einen anderen Server, auf dem das gesamte Dateisystem neu erstellt wird (abzüglich des tatsächlich ausgeführten Dienstes).

Natürlich ist das beste Backup immer außerhalb des Standorts. Führen Sie daher nach dem "Versand" der Snapshots an ein separates System regelmäßig ein "Tape-Out" der Snapshots durch.

In meinem System speichert der Server, der die Snapshot-Deltas empfängt, regelmäßig alle seine ZFS-Pools (einschließlich früherer Snapshots) auf Band.

Und testen Sie natürlich Ihre Tape-Outs, um sicherzustellen, dass sie wiederhergestellt werden können.

Hinweis: Sie möchten, dass der Snapshot während der Aktivität des stillgelegten Datenträgers und vorzugsweise in Abstimmung mit der Datenbank (falls vorhanden) erstellt wird, um die Konsistenz sicherzustellen. Sonst könnte die Heilung schlimmer sein als die Krankheit. Aus diesem Grund ist die Live-Snapshot-Funktion von NetApp & EMC sehr nützlich: Sie verschiebt den Snapshot einer LUN, bis die Datenbank, die die LUN verwendet, angibt, dass die Snapshot-Erstellung sicher ist.

pepoluan
quelle
Können Sie erläutern, wie Sie Ihre ZFS-Snapshots auf Band sichern?
Ewwhite
@ewwhite Sie können das .zfs/snapshotsVerzeichnis jederzeit sichern oder einen der Snapshots an einer anderen Stelle einhängen, um ein Tape-Out durchzuführen. Es handelt sich also um ein separates Backup für verschiedene Snapshots.
Pepoluan
Eigentlich mache ich das mit zvols ... also habe ich kein .zfs-Verzeichnis, cdin das ich hineingehen kann .
Ewwhite
@ewwhite Ahh, ich verstehe ... in diesem Fall könnten Sie in der Lage sein, zu verwenden zfs send $SNAPSHOT_NAME > $YOUR_TAPE_DEVICE, und später zu tun zfs receive $RESTORE_NAME < $YOUR_TAPE_DEVICE. Allerdings habe ich ehrlich gesagt keine Erfahrung mit dem Sichern von Zvols, obwohl ...
Pepoluan
8

Was HopelessN00b gesagt hat. Nein.

Ordnungsgemäße Sicherungen befinden sich auf einem anderen Gerät als das gesicherte Gerät. Was passiert, wenn Sie zwei oder mehr Laufwerke verlieren? Was passiert, wenn Ihr Serverraum ausfällt? Was passiert, wenn jemand versehentlich Ihr Array zerstört?

(Anekdotenalarm: Ich habe einmal von jemandem gehört, bei dem PXE auf die automatische Installation des neuesten Fedora eingestellt war. Seine USV ist ausgefallen. Nach einem Stromausfall wurde sein Server neu gestartet und auf PXE-Start eingestellt und ... Fedora über seine Daten installiert Freaky things happen. Zum Glück hatte er die richtigen Backups.)

Sie haben vorzugsweise mindestens drei Kopien Ihrer Daten, eine davon wird vollständig außerhalb des Standorts gespeichert, falls das Rechenzentrum ausfällt.

Katherine Villyard
quelle
6

Ordnungsgemäß implementierte Snapshots MÜSSEN von Ihrem Speicher unterstützt werden, da sie bei ordnungsgemäßen Sicherungen als allererste Stufe der Erstellung eines Sicherungsjobs verwendet werden. Es ist jedoch eine schlechte Idee, Snapshots für das primäre Backup zu verwenden. Gründe dafür:

1) Snapshots und Backend-Speicher können fehlschlagen. Bei echten Sicherungen muss also ein separater Spindelsatz verwendet werden, da sonst die Gefahr besteht, dass sowohl der primäre Arbeitssatz als auch die Sicherungsdaten gleichzeitig verloren gehen.

2) Schnappschüsse "kauen" Nutzfläche weg. Es ist sinnvoll, teuren und schnellen Speicher für aktuelle Hot-Data- und Off-Load-Snapshots und Backups zu verwenden, da es sich um eiskalte Daten handelt, die billiger und langsamer gespeichert werden. Es funktioniert sehr gut mit 1) BTW.

3) Schnappschüsse verlangsamen normalerweise den gesamten Vorgang. Die meisten Systeme verwenden Copy-on-Write und dieser Ansatz führt zu einer Fragmentierung. Redirect-on-Write sind schneller, verbrauchen aber VIEL Platz. Sehr wenige Anbieter haben Snapshots ordnungsgemäß implementiert. NetApp mit WAFL und Nimble Storage mit CASL (ich bin mit keinem von ihnen verbunden). Ziemlich jeder andere hat Probleme. Zum Beispiel löst Dell Equallogic eine 15-MB-Seitenaktualisierung (und -verschwendung) für jedes einzelne Byte aus, das geändert wird. Das ist teuer.

BaronSamedi1958
quelle
6

Ja ist es. Es ist eine perfekte Möglichkeit, Backups zu speichern. Es wird nichts anderes benötigt, zum Teufel, selbst Integritätsprüfungen sind reine Zeitverschwendung.

Nur zur Bestätigung - bevor ich weitere Ratschläge gebe ... arbeitest du für einen meiner Konkurrenten, oder? Wirklich? Nein? Oh.

Entschuldigung, NUTS. Nein überhaupt nicht. Tut mir leid Kumpel.

Das Problem ist, dass Sie völlig offen für Fehler sind, die auf (a) der System- und (b) der Betriebssystemebene auftreten. Sie schützen sich grundsätzlich nur vor dem Löschen einiger Daten. Nett. Das ist ein häufig vorkommender Fehler.

Was Sie nicht schützen, ist:

  • Ein Stromstoß löschte die Maschine aus. Dort gewesen, das gesehen.
  • Ein defekter RAID-Controller oder ein Speicherschreibvorgang ** auf der Disc - alles ist möglich.

Und eine lange Liste von anderen Dingen.

Dies ist - natürlich, wenn Sie nicht für einen Konkurrenten von mir arbeiten - machen Sie bitte immer ein Backup:

  • Auf einem anderen Computer
  • Dass Sie zumindest Stromspitzen ausschließen (auch wenn Sie ein USV haben).

Das ist der Grund, warum Bänder rocken - sie sind nicht miteinander verbunden und alles, was kurz vor Feuer oder Flut ist, wird sie nicht verletzen. Stromspitze - da ist der Bandleser und vielleicht der Roboter, aber die Bänder, die sich nicht im Lesegerät befinden, werden nicht beeinträchtigt.

Am BESTEN wären Backups außerhalb des Geländes (habe ich schon Dinge wie Feuer und Überschwemmungen erwähnt?) Geld sparen).

Sie denken jetzt vielleicht: "Oh, es kommt nie zu Überschwemmungen." Stellen Sie sicher, dass Sie sicher sind. Sehen Sie, hier ist ein Video von der Flutung eines Vodaphon-Rechenzentrums am 09.09.09. Ich bin sicher, Sie werden verstehen, wo das Problem bei einer Insite- / In-Computer-Sicherung liegt:

http://www.youtube.com/watch?v=ttcQy3bCiiU

TomTom
quelle
Hurrikan Sandy Bilder: theverge.com/2012/11/17/3655442/…
Katherine Villyard
4

Lehren aus zwei RAID-1-Laufwerken, die innerhalb einer halben Stunde ausfallen: RAID ist kein Sicherungsmechanismus, weder in irgendeiner Weise noch in irgendeiner Form.

RAID ist ein Verfügbarkeitsmechanismus, der Ausfallzeiten bei Hardwarefehlern reduziert, Ihnen jedoch nicht hilft, wenn z. B. Viren, Daten gelöscht oder geändert werden oder ein schwerwiegender Hardwarefehler vorliegt.

Michael Stum
quelle
1
Bei bestimmten Klassen von Hardwarefehlern. Wenn die RAID-Karte ausfällt, sind Ihre Container verschwunden.
Mfinni
3

Viele erfahrene Administratoren wenden die sogenannte 3-2-1-Regel für Backups an:

  • Sie sollten mindestens drei Kopien Ihrer Daten haben, einschließlich der Primärquelle. Dh eine einzelne Sicherung reicht nicht aus und Kopien innerhalb desselben physischen Systems zählen nicht.

  • Sie sollten mindestens zwei verschiedene Sicherungsmethoden verwenden.

  • Sie sollten mindestens eine externe Kopie Ihrer Daten haben.

Schnappschüsse verletzen alle drei Teile:

  • Sie verwenden nur eine einzige physische Maschine. Alles, was die gesamte Maschine betrifft, wie z. B. ein Netzteilausfall, kann all Ihre Daten mit sich bringen.

  • Sie verwenden nur eine einzige Methode für Ihre Sicherungen. Wenn etwas nicht stimmt, können Sie dies nur feststellen, wenn Sie das Backup in einer Krisensituation wiederherstellen.

  • Sie haben keine Sicherungen außerhalb des Standorts. Überschwemmungen und Brände passieren nur anderen, bis sie dir passieren ...

Deshalb:

  • Sie müssen mindestens ein Backup auf einem separaten Computer in Ihrem LAN haben.

  • Sie benötigen mindestens ein Backup, das nicht mit Snapshots erstellt wurde. Vielleicht ist ein gutes altes inkrementelles tarArchiv in Ordnung? Oder eine rsyncbasierte Kopie?

  • Sie müssen mindestens ein Remote-Backup haben, so weit wie möglich von Ihrem aktuellen Standort entfernt und definitiv nicht im selben Gebäude.

Es sollte auch darauf hingewiesen werden, dass Snapshots auf Blockebene ungefähr die gleiche Konsistenz aufweisen wie das Ziehen des Steckers an Ihrem Computer und das anschließende Kopieren über die Datenträger. Im Allgemeinen müssten Sie fscknach einer Wiederherstellung ausgeführt werden oder hoffen, dass das Journal ausreicht.

Snapshots auf Dateisystemebene sollten besser sein, sie garantieren jedoch nicht die Konsistenz Ihrer Dateien. Für viele Anwendungen (Datenbankserver kommen in den Sinn) kann das Kopieren der Dateien einer Live-Instanz völlig nutzlos sein, da sie sich in einem inkonsistenten Zustand befinden können. Sie müssten einen eigenen Sicherungsmechanismus auf Anwendungsebene verwenden, um sicherzustellen, dass eine saubere Kopie vorhanden ist - für die auch die 3-2-1-Regel gilt.

Denken Sie zum Schluss daran, dass es sich derzeit nur um Kopien Ihrer aktuellen Daten handelt. Um sich vor Ausfällen (oder Sicherheitsverletzungen) zu schützen, die für einige Zeit unentdeckt bleiben, müssen Sie auch über mehrere frühere Kopien Ihrer Daten verfügen.

Thkala
quelle
Unter der Annahme, dass btrfs-Snapshots in Bezug auf die Konsistenz so etwas wie ZFS-Snapshots sind (und mit wie viel Inspiration btrfs aus ZFS schöpft, ich verstehe nicht, warum dies nicht der Fall wäre), wird der Snapshot den Moment auf der Festplatte darstellen. Zeitdaten. So das Dateisystem in einem konsistenten Zustand sein, wenn Sie zurück auf einen Snapshot rollen, aber wenn Daten im RAM gehalten wird und nur periodisch und dass die Daten gelöscht werden benötigen einen Sinn zu geben , was auf dem Datenträger (siehe Datenbank - Server - Software) , dann diejenigen , insbesondere Dateien werden sehr wahrscheinlich nach (oder vor!) dem Rollback in einem inkonsistenten Zustand sein.
ein Lebenslauf vom
2

Für sich genommen ist es überhaupt keine Backup-Lösung . Es wird reduzieren oder entfernen Ausfallzeiten in bestimmten Szenarien Ausfall aber schützt nicht gar von vielen anderen

Dies kann natürlich ein sehr wertvoller Bestandteil einer umfassenderen Verfügbarkeits- und Sicherungslösung sein:

  • RAID plus Snapshows auf derselben Hardware
  • Vor-Ort-Kopien auf anderer Hardware (denken Sie daran: Es gibt Fehlermodi, die die gesamte Box, den Controller, die Laufwerke und alles auf einmal ausschalten würden.)
  • Teilweise getrennte Remote-Kopien
  • und natürlich richtige Offline- und Offsite-Kopien für echte Katastrophen

Außerdem: Stellen Sie sicher, dass Sie Ihre Backups regelmäßig testen. Die schlimmste Zeit, um festzustellen, dass Ihre Backups nicht funktionieren, ist, wenn Sie etwas von ihnen abrufen müssen ...

David Spillett
quelle