Wie sichern große Unternehmen ihre Daten?

8

Wie sichern Unternehmen, die mit großen Datenmengen umgehen, beispielsweise Google oder Facebook, alles?

Laut diesem Artikel der Google-Plattform auf Wikipedia verfügt Google über geschätzte 450.000 Server mit jeweils mehr als 80 GB Festplatte. Das sind viele Daten. Bewahren sie wirklich mehr als 1 GB Backup pro 1 GB Daten auf?

Olivier Lalonde
quelle
Ich bezweifle, dass Boogle die Serversoftware sichert, da sie anscheinend sehr schnell einen Server aus Bare-Metal erstellen können. Sie scheinen Sicherungskopien von Benutzerdaten zu haben.
BillThor
Nun, Google hat mehr als 1 Million Server (ab 2007): pandia.com/sew/481-gartner.html
Kedare
Ich denke, Sie machen EINEN grundlegenden Fehler: Google hat eine Menge Server, die alle ähnlich sind. Knoten von X-Servern, die den Index bedienen. Sie sichern nicht millionenfach denselben Index.
TomTom

Antworten:

8

Es hängt davon ab, was Ihr Zweck ist.

Wenn Sie nach Backups für die Notfallwiederherstellung suchen (Server explodiert, Rechenzentrum abgebrannt usw.), lautet die kurze Antwort: Möglicherweise werden überhaupt keine Backups durchgeführt. Wir haben einen Kunden, der sich mit sensiblen Regierungsdaten befasst, und ein Teil seines Mandats besteht darin, dass wir keine Backups oder Backups auf Wechselmedien durchführen dürfen . Wir dürfen live auf eine DR-Site replizieren, und das war's. Beide Standorte verfügen über dieselbe physische und logische Sicherheitsstufe. Der Haken dabei ist, dass wenn ich etwas auf Site A vermassle, es fast sofort auf Site B repliziert wird.

Wenn Sie aus Sicht der Datenintegrität von Sicherungen sprechen (z. B. haben Sie die Kundentabelle versehentlich gelöscht und sie wurde bereits auf die DR-Site repliziert), sind LTO-5-Bänder in einer großen Bandbibliothek häufig unterwegs. Mit bis zu 3 TB pro Band und mehreren Bändern in einer Bandbibliothek können Sie schnell große Datenmengen sichern (hier bezieht sich schnell auf Mbit / s, das Sichern von 25 TB Daten kann immer noch viele, viele Stunden dauern).

Jede anständige Backup-Suite führt eine hohe Komprimierung und Deduplizierung durch, wodurch der erforderliche Speicherplatz erheblich reduziert wird. Ich habe eine Schätzung für ein komprimiertes und de-duped Exchange-Sicherungstool gesehen, die ein Verhältnis von 15: 1 (15 GB Daten in 1 GB Sicherungen) beanspruchte.

Ich bezweifle sehr, dass Google sich mit Backups für viele seiner Suchmaschinendaten beschäftigt, da das meiste davon austauschbar ist und so weit verbreitet ist, dass das System erhalten bleibt, wenn sie nur einen erheblichen Teil oder vielleicht sogar ein ganzes Rechenzentrum verlieren online dank Failover-BGP-Routen.


Eigentlich sieht es so aus, als würde Google eine Menge Daten auf Band sichern , was nicht ganz das ist, was ich erwartet hatte:

Teil der Google-Bandbibliothek

Mark Henderson
quelle
2

Die meisten ihrer Daten werden in einem eigenen GFS-Dateisystem gespeichert, und GFS erfordert, dass von jedem 64-MB-Block, der eine Datei erstellt, mindestens drei Kopien vorhanden sind (GFS verwendet 64-MB-Blöcke). Ich glaube jedoch nicht, dass sie sich um Backups kümmern, da sie mindestens drei Kopien jeder Datei haben und Blöcke auf fehlerhaften Knoten schnell ersetzt werden können, indem einfach Daten von einer der verbleibenden zwei guten Kopien auf einen neuen Knoten repliziert werden.

Weitere Informationen finden Sie unter http://labs.google.com/papers/gfs.html

ipozgaj
quelle
1
Redundanz erhöht die Verfügbarkeit, ist jedoch kein Backup (und Sie haben es nicht so genannt), da es leicht zu überschreiben ist.
Tobu
Ja, das ist ein guter Punkt. Mein Punkt war lediglich, dass sie wahrscheinlich für die meisten ihrer Daten keine Backups benötigen .
Ipozgaj
0

Die Antwort von farseeker ist gut, aber ich denke, man könnte dies klären, wenn man aus dieser Perspektive darüber nachdenkt: Was versuchst du wiederherzustellen? Ist es für DR? Welche Erholungszeit ist erforderlich? Angenommen, Ihr Unternehmen stützt sich auf eine 25-TB-SQL-Serverdatenbank. Im Falle eines Datenfehlers oder -fehlers (gelöschte Tabelle, beschädigte Datenbank usw.) möchte der CTO die Datenbank in weniger als einer Stunde wiederherstellen können. Bei Ausfall der Baustelle sind 2 Stunden erforderlich.

Auf den ersten Blick klingt dies schwierig, aber es ist nicht unmöglich. Da Sie wissen, dass Ihre Sicherungsstrategie in einer Stunde wiederhergestellt werden muss, wissen Sie, dass Sie keine vollständigen Sicherungen wiederherstellen müssen. Sie müssen mit den dba-Teams zusammenarbeiten, um sicherzustellen, dass die Datenbank in verwaltbare Blöcke aufgeteilt ist. Sie werden auch häufige Trans-Log-Backups durchführen. Für DR sollte eine Replikationsstrategie in Betracht gezogen werden (möglicherweise eine zeitverzögerte Version mit Protokolldaten, die in Echtzeit repliziert, aber nicht angewendet werden). Wie Farseeker sagte, hängt es vom Zweck ab, und dieser Zweck sollte darin bestehen, irgendeine Form der Genesung durchzuführen.

Jim B.
quelle