Wie kann man mehr als 20 TB Daten sichern?

86

Wir haben einen NAS-Server in der Firma, für die ich arbeite, der zum Speichern von Fotosessions verwendet wird. Jede Sitzung ist ungefähr 100 GB groß. In den letzten Jahren hat dieser Server mehr als 10 TB Daten gesammelt, und wir erhöhen die Anzahl der Fotoshootings exponentiell. Ich schätze, dass bis Ende nächsten Jahres mehr als 20 TB auf diesem NAS gespeichert sein werden. Wir sichern diesen Server derzeit mit LTO-5-Bändern mit Symantec BackupExec auf Band. Da die Größe dieses Servers zugenommen hat, werden vollständige Sicherungen dieses Servers nicht über Nacht durchgeführt. Hat jemand einen Vorschlag, wie man diese Datenmenge sichert? Sollten wir es auf Band sichern? Gibt es noch andere Optionen, die besser sein könnten?

Jesus Fidalgo
quelle
36
Warum führen Sie jede Nacht vollständige Sicherungen durch? Warum nicht einmal in der Woche eine vollständige Sicherung und an den verbleibenden sechs Tagen in der Woche inkrementelle Sicherungen durchführen?
Joeqwerty
9
Das ist, was wir tun, sorry, ich habe nicht erwähnt, dass ... die wöchentliche Voll ist diejenige, die nicht abgeschlossen wird.
Jesus Fidalgo
6
Muss eine volle Woche über Nacht abgeschlossen werden? Es ist nicht ungewöhnlich, dass Wochenzeitungen länger als 24 Stunden dauern, um einen ausreichend großen Datensatz zu erhalten.
Stefan Lasiewski
2
Welche Art von NAS verwenden Sie?
ewwhite
6
Sind Sie sicher, dass die Zunahme von Fotoshootings exponentiell ist ?
Gerrit

Antworten:

114

Sie müssen einen Schritt zurücktreten und aufhören zu denken: "Ich habe 20 TB auf meinem NAS, den ich sichern muss!" und entwickeln Sie eine Speicherstrategie, die die Art Ihrer Daten berücksichtigt:

  • Woher kommt es und wie viele neue Daten erhalten Sie? (du hast das in deiner Frage)
  • Wie werden die Daten verwendet, sobald Sie sie haben? Bearbeiten die Leute die Bilder? Behalten Sie die Originale und generieren Sie bearbeitete Versionen?
  • Wie lange müssen Sie alle Daten aufbewahren? Nehmen die Leute noch Änderungen an Bildern vor 2 Jahren vor?

Abhängig von den Antworten auf die letzten beiden Fragen benötigen Sie wahrscheinlich mehr von einem Archivierungssystem als von einem völlig anderen Sicherungssystem.

Daten, die statisch sind (z. B. 2 Jahre alte Bilder, die Sie "nur für den Fall" aufbewahren), müssen nicht jede Nacht oder sogar jede Woche gesichert und archiviert werden. Was Sie tatsächlich tun, mag komplexer sein, aber konzeptionell können alle alten Bilder auf Band (mehrere Kopien!) Abgeschrieben und nicht mehr gesichert werden.

Basierend auf Ihren Kommentaren, einige zusätzliche Gedanken:

  • Da Sie die Originale jeder Aufnahme unberührt lassen und an einer Kopie arbeiten und davon ausgehen, dass zumindest einige der Originalbilder Blindgänger sind, können Sie möglicherweise die zu sichernde Datenmenge halbieren.

  • Wenn Sie eine vollständige Sicherung immer noch nicht innerhalb eines beliebigen Zeitfensters abschließen können, können Sie die Schritte in der Regel beschleunigen, indem Sie zuerst eine Disk-to-Disk-Sicherung durchführen und die Sicherungskopie später auf Band kopieren.

Ward
quelle
1
Die Originalaufnahme wird unberührt gespeichert, und anschließend wird eine weitere Kopie des Fotoshootings zum Bearbeiten verwendet. Die Daten müssen möglicherweise ca. 2 Jahre aufbewahrt werden.
Jesus Fidalgo
20
+1 Gut gesagt. Ich bin überrascht, wie schlecht der Unterschied zwischen Sichern und Archivieren im Allgemeinen verstanden wird. Ich mache vollständige und inkrementelle Backups meines Systems und meiner kurzlebigen Daten wie E-Mails und Dokumente, archiviere aber meine Fotos (1,2 TB und größer :-). Ich wünschte, ich könnte eine weitere +1 für den Disk-to-Disk-Vorschlag geben.
Ex Umbris
8
+1 Ich wette, dass 80% der Daten auf dem NAS nie mehr als einmal verwendet werden.
Stefan Lasiewski
+1 Die beste Option ist, tägliche und sogar stündliche Datenträger-zu-Datenträger-Delta-Übertragungen durchzuführen, um Änderungen zu erfassen und die vollständigen oder inkrementellen Sicherungen wöchentlich oder halbwöchentlich an ein Archiv oder einen externen Anbieter / Standort zu senden. Wir haben alle 15 Minuten Delta-Backups unserer SQL-Dateien erstellt, um den Datenverlust in einem DR-Szenario zu reduzieren.
Brent Pabst
12

Sie haben zwei Möglichkeiten:

Option 1:

  1. Kaufen Sie ein anderes NAS
  2. Gewähren Sie Ihren Benutzern RO-Zugriff auf das neue_NAS
  3. Verschieben Sie alle Dateien, die älter als 2 Jahre sind, nach new_NAS
  4. Sichern Sie weiterhin old_NAS wie gewohnt
  5. Verschieben Sie alle 6 Monate Dateien, die älter als 2 Jahre sind, nach new_NAS

Option 2:

  1. Kaufen Sie ein anderes NAS
  2. Führen Sie rsyncjede Stunde aus: old_NAS -> new_NAS

    Oder verwenden Sie besser etwas wie rdiff-backup, das rsync + verwendet, um Deltas bei Dateiänderungen zu erhalten (Sie können ältere Versionen der Dateien wiederherstellen).

    rdiff-backup  user1@old_NAS::/source-dir    user2@new_NAS::/dest-dir
    
  3. Alle 6 Monate werden alte Dateien bereinigt, die wie folgt ausgeführt werden:

    rdiff-backup --remove-older-than 2Y    old_NAS::/dest-dir
    
Jet
quelle
2

Warum müssen Ihre Backups über Nacht abgeschlossen werden? Fileserver Leistung? Möglicherweise können Sie die Bandbreite Ihrer Sicherungssoftware einschränken, um die Auswirkungen während des Tages zu begrenzen. Oder weisen Sie Ihrem NAS eine Schnittstelle zu, über die Sie mit dem Bandlaufwerk kommunizieren können, um die Auswirkungen auf den anderen Datenverkehr zu begrenzen.

Können Sie an Wochenenden vollständige Dumps ausführen und nur inkrementelle Dumps während der Woche ausführen? Wenn das Problem darin besteht, Bänder am Wochenende zu wechseln, wenn niemand in der Nähe ist, kostet eine billige Bandbibliothek / ein billiger Auto-Wechsler viel weniger als jemand, der Bänder wechselt.

Können Sie Ihre Daten in mehrere Gruppen unterteilen, die klein genug sind, um sie in Ihrem Sicherungsfenster zu vervollständigen?

Wir haben ungefähr 50 TB Daten auf unserem NAS und es dauert über eine Woche, um einen vollständigen Speicherauszug des gesamten Objekts mit 2 Bandlaufwerken zu erhalten (ein Volume dauert fast eine Woche, da es viele kleine Dateien enthält). Wir replizieren unsere Daten auf einen zweiten NAS. Unser sekundäres NAS befindet sich vor Ort (jedoch in einem anderen Rechenzentrum als das primäre), sodass wir weiterhin Daten für die Sicherung außerhalb des Standorts auf Band auslagern. Wir führen Backups von diesem sekundären NAS durch, damit Backups niemanden verlangsamen.

Wenn Sie Ihren sekundären NAS weit genug entfernt aufstellen können, ist dies Ihr Backup, ohne dass Bänder erforderlich sind.

Johnny
quelle
1

Ich bin nur im Zweifel über die Größe jeder Shootingsitzung, sind es wirklich 100GB / Session? Wie viele Sitzungen absolviert Ihr Unternehmen pro Monat?

Da Sie in der Regel alte Sitzungen speichern, die nicht häufig verwendet werden usw. und diese Informationen wahrscheinlich nicht so häufig wiederherstellen müssen, empfehle ich Ihnen, die Dienste eines Unternehmens zu nutzen, um diese Aufgabe für Sie zu erledigen .

Das Speichern dieser 20 TB über einen Onlinedienst wie Amazon Glacier kostet beispielsweise etwas mehr als 200 USD / Monat. Wenn Sie diese Archive häufig abrufen oder sogar vollständig wiederherstellen müssen, würde dies einige Zeit- / Kostenbeschränkungen mit sich bringen. Wenn Sie diese Dinge nur "um sicherzugehen, dass sie aufbewahrt werden" aufbewahren, könnte die Verwendung eines dritten Teils Ihr Leben erleichtern (und sogar billiger sein als der Kauf eines anderen NAS, von Bändern usw.).

woliveirajr
quelle
1
100 GB pro Sitzung klingen für mich etwas hoch, aber nicht unvernünftig. Wir hatten normalerweise eine Sitzung mit mehr als 32 GB, in der ich gearbeitet habe, und unsere Ausrüstung war mittelgroß.
Tom Marthenal
1

full backups of this server are not completing overnight
Dann versuchen Sie inkrementelle Backups? Ein vollständiges Backup alle xx Tage, der Rest inkrementell.

Festplatten sind kostengünstig, schneller als Bänder und können für Backups verwendet werden.

Außerdem gibt es jetzt gute Alternativen für Cloud-Backups, sodass nicht mehr immer schnellere Bänder hinzugefügt werden müssen.
Zum Beispiel:

Tedd Hansen
quelle
Schauen Sie sich die Kommentare an - es sind die Wochenergebnisse, die nicht abgeschlossen werden. Außerdem sind Cloud-Backups für 20 TB Daten keine gute Idee. Die "billige" Option von Amazon Glacier kostet ~ 2500 / Jahr, und das Abrufen all dieser Daten kostet ~ 36.000 US-Dollar.
HopelessN00b
Das ist eigentlich nicht viel.
Sirex
1
Ich denke, es ist eine Frage der Meinung, ob $ 2400 / Jahr eine Menge für 20 TB relativ sicheren und vollständig wartungsfreien Speicher ist. Kein Stromverbrauch, keine Kühlung, keine fehlerhafte Hardware, kein SLA, beansprucht keinen Rack-Platz. Und wie bei den meisten Systemen sollten Sie mit ungefähr 0 vollständigen Wiederherstellungsvorgängen rechnen. Und wenn Sie eine Wiederherstellung benötigen, liegt der Preis eher bei 1800 USD als bei 36000 USD (nicht sicher, woher Sie diese Nummer haben).
Tedd Hansen
Für Gletscher sind die $ 36K ziemlich nahe. Ich rechne ungefähr mit 42.000 US-Dollar für die Abrufkosten bei 20 TB. Es ist immer noch nicht viel. Die Bandbreite ist eher ein Problem.
Sirex
1

Ich denke, die beste Lösung dafür ist, was wir mit unseren Abrechnungsdaten tun, deren Implementierung mit minimalem Aufwand verbunden ist.

  • Zunächst werden die restlichen Serverdaten gespeichert, die täglich gesichert werden. Unsere Aufbewahrungsfrist für diese Sicherungen beträgt 13 Monate.

  • Sobald wir nicht mehr damit rechnen, dass die Daten geändert werden müssen (zwei Zahlungsperioden später, IIRC), werden die Daten (per Skript) auf einem Archivvolume gespeichert, das von den regulären Sicherungen ausgeschlossen ist.

  • Das Archivvolume wird jährlich auf Band gesichert, und die Bänder werden zur unbegrenzten Speicherung an Cintas gesendet.

Dies ermöglicht uns einen einfachen Online-Zugriff auf diese unveränderten Daten (damit wir nicht jedes Mal ein Band aufrufen müssen, wenn ein Buchhalter etwas ansehen möchte), während wir unbestimmte externe Datenarchive verwalten, die wir möglicherweise für immer aufbewahren müssen und ohne unser Backup-System zu zerstören. Klingt so, als ob die gleiche Art der Einrichtung für Sie funktionieren könnte, obwohl Sie möglicherweise die Datenmenge anpassen möchten, die Sie online aufbewahren, je nachdem, ob Sie rechtzeitig auf diese Daten zugreifen möchten - 20 TB Speicher für Unternehmen sind viel teurer als es auf zwei oder drei Sätze von LTO5-Bändern zu archivieren, die Sie in externen Depots speichern.

HopelessN00b
quelle
0

Vielleicht können Sie Ihren eigenen Backblaze-Pod bauen : 135 TB für 7384 USD.
Klicken Sie hier, um weitere Informationen zu erhalten: Informationen zum Backblaze-Pod-Bau

Sie können die benötigten Teile kaufen und selbst bauen.

Vielleicht können Sie 3 davon bauen und 2 vor Ort und 1 außerhalb des Standorts behalten. Anschließend können Sie einen Pod als "Online-Daten", den zweiten Pod vor Ort als Backup des ersten Pods und den dritten Pod außerhalb des Standorts als Notfall-Backup außerhalb des Standorts verwenden.

Mit 135 TB Speicherplatz für jeden Pod können Sie sogar darüber nachdenken, den Änderungsverlauf
beizubehalten ... 135 TB / 20 TB = 19 vollständige Sicherungskopie .
Alternativ können Sie 10 vollständige Backups sowie eine lächerliche Menge an differenziellen Backups aufbewahren.

Wenn Sie ein Offsite-Backup wünschen, benötigen Sie natürlich eine große Bandbreite ... :-)

Max
quelle
5
Wenn Ihre Daten und Ihr Job für Sie wichtig sind, sollten Sie nicht versuchen, Ihren eigenen Backblaze-Pod von Grund auf neu zu erstellen. Es scheint eine gute Idee zu sein, bis Sie feststellen, dass Sie alle Ihre Eier in einen wirklich großen Korb legen. Schlimmer noch, dieser Korb wurde nicht als Ganzes gründlich getestet. Die Backblaze Secret Sauce ist die Software-Replikation über viele Pods hinweg, sodass ganze Pods nahtlos ausfallen können. Ich würde stattdessen einen Supermicro-Speicherserver, Centos, XFS und RDIFF-Backup empfehlen.
Bugaboo
-1

Mein Kollege hat ein Synology 8-Disk-NAS gekauft. Es läuft ein Hybrid-RAID. Vor ein paar Wochen kaufte er acht 3 TB Seagate Barracuda von NewEgg für je 89 USD. Sie können den Spiegel vom Produktions-NAS über GigaBit auf dieses neue NAS synchronisieren. Da Sie nur die Differenzen übertragen, dauert die Übertragung kürzer. Anschließend können Sie den Backup-NAS verwenden, um vollständige oder inkrementelle Vorgänge durchzuführen. Die Kosten für ein Backup-NAS würden unter 2000 US-Dollar liegen.

Sonne
quelle