Kostengünstige Langzeitarchivierung von Video- und Bilddaten? ~ 50 TB

16

Mein Labor ist dabei, einen kleinen Server einzurichten, der Daten (hauptsächlich Video- und Bilddaten sowie einige Dokumente) für das Projekt enthält, an dem unsere Gruppe gerade arbeitet. In der Vergangenheit wurden die Daten nach dem Ende eines Forschungsprojekts zufällig auf einer Festplatte oder auf einem großen Stapel DVDs (oder CDs in früheren Zeiten) archiviert, und / oder einige der Videos wurden auf Sony-DV-Kassetten oder sogar auf Kassetten gespeichert VHS-Kassetten (dieses Labor ist seit Anfang der 90er Jahre aktiv) ODER eine Mischung aus all den oben genannten ...

Frage: Wie lassen sich (1) ALLE im selben Format UND auf demselben Speichermedium konsolidieren und (2) wie lassen sich solche Daten für gelegentliche Zugriffe (z. B. über 30 Jahre) langfristig archivieren? Leider haben wir kein Budget auf Unternehmensebene (wir sind nur ein Labor mit ~ 10 Mitarbeitern) und können daher keine Dinge tun, die Hunderttausende von Dollar kosten.

Vielen Dank!

PS Angesichts der Tatsache, dass unsere alten Videos und Bilder eine geringere Auflösung haben, aber die jüngsten sehr groß sind, sprechen wir meiner Meinung nach von 30 bis 40 TB für die wirklich alten Daten, weiteren 10 bis 20 TB für die jüngsten Daten und jährlichen Ergänzungen von etwa 5 TB .

hpy
quelle

Antworten:

22

Leider gibt es keinen besten Weg für dich. Die 30-jährige Archivierung digitaler Medien ist ein sehr schwieriges Problem und erfordert routinemäßige Investitionen. Die einzigen Formate, deren Lesbarkeit in 30 Jahren garantiert ist, sind ASCII und UTF8, bei denen es sich nicht um Videoformate handelt. Die Speicherformate ändern sich, die vor 30 Jahren verwendeten 8-Spur-Band-Bänder sind heutzutage kaum noch lesbar, obwohl sich die Daten noch auf dem Band befinden (es gibt eine interessante Geschichte über den Wiederaufbau eines 40 Jahre alten Bandlaufwerks durch die NASA) um auf neu entdeckte Apollo-Datenbänder zuzugreifen). Sie sollten sich am besten auf regelmäßige, etwa alle fünf Jahre durchzuführende, Bewertungen Ihrer Archivierungsumgebung mit ausreichendem Budget festlegen, um alte Formate in neuere Formate umzuwandeln.

Sie wissen es wahrscheinlich besser als ich, aber die Videolandschaft ändert sich rasant. Online-Bearbeitung in Echtzeit ist jetzt möglich, wo es noch vor 10 Jahren nur mit einem wirklich guten Kit möglich war. Wer weiß, wie es in 30 Jahren aussehen wird.

  • Stellen Sie Ihr Archivfenster auf 5 Jahre ein.
    • Kurzfristig sollte ein größeres Speicherarray ausreichen (
      • Eine große und langsame 50-TB-Festplatte kostet weniger als 70.000 US-Dollar, möglicherweise sogar weniger.
      • Ein LTO5-Bandlaufwerk und 50 Bänder (weit über 50 TB) sind für weniger als 15.000 USD erhältlich.
  • In welchem ​​Format Sie Ihr Video speichern, bleibt Ihnen überlassen.
  • Beginnen Sie, all Ihre älteren Sachen zu finden und in diesen neuen Speicher umzuwandeln.
  • Führen Sie nach 5 Jahren eine weitere umfassende Bewertung Ihrer Archivierungsumgebung durch.
    • Welche Formate verwenden Sie?
    • Was sind neuere Formate?
    • Welche Codecs scheinen Sackgassen zu sein, und welche Medien haben Sie so codiert gespeichert?
    • Entscheiden Sie, wie Sie auf neuere Speichermethoden migrieren möchten (Datenformate, Festplatte / Band / etwas anderes), und geben Sie die erforderlichen Mittel aus.
  • 6 mal wiederholen.

Das sollte dich auf 30 Jahre bringen.

sysadmin1138
quelle
+1, Wenn Sie wirklich versuchen, billig zu sein, können Sie dies wahrscheinlich alle 10 Jahre tun. ATA-66- und ATA-100-Laufwerke waren vor einem Jahrzehnt die HD-Laufwerke der Wahl, und es gibt immer noch Technologien, mit denen sie verbunden werden können. Aber es gibt Computer, auf denen es bereits keine IDE-Header gibt. Jahrzehntelange alte Technologie ist in Gefahr.
Chris S
6
+1 für gute Punkte beim Kopieren, -1 für die Behauptung, dass Formate unlesbar werden. Sobald die Daten auf einem kopierbaren Medium verfügbar sind, werden diese Dateien wahrscheinlich nicht mehr abspielbar sein, es sei denn, sie haben ein SEHR ungewöhnliches Format. Die Archivierung in einem sehr gängigen Format wie MPEG2 ist höchstwahrscheinlich ein dauerhaftes Format. Das Transcodieren verlustbehafteter Videos ist ein verlustbehafteter Prozess. Es sollte nicht gemacht werden. Es kostet uns nicht viel, einen Mainstream-Videocodec zu haben ...
Paul McMillan,
@Paul Danke für die Tipps. Das letzte Mal, dass ich regelmäßig mit Video-Leuten rumhing, war vor 7 Jahren, also bin ich verrostet.
sysadmin1138
Vielen Dank für die ausführliche Bewertung und Tipps! Wir werden mit unserem leider begrenzten IT-Budget unser Bestes geben. Ich freue mich, dass Sie alle und serverfault.com hier sind, um zu helfen.
HPY
Ja, wir haben einen Weg gefunden. Trotzdem habe ich kein Problem damit, 17 Jahre alte AVI-Dateien in Windows 3.1 abzuspielen. Der Trick liegt in der Auswahl von Formaten, die bereits weit verbreitet sind.
Paul McMillan
11

Ich stimme dem Post von sysadmin1138 in jeder Hinsicht zu, abgesehen von einer Einschränkung - ich glaube nicht, dass Sie das Budget haben werden, um wirklich das zu erreichen, was Sie wollen.

Es gibt 5 Hauptfunktionen, die Sie erstellen müssen.

  • Eine standardisierte Inhalts- und Katalogrichtlinie - Ich weiß, dass Sie alles in einem Format speichern möchten, aber Sie sollten wirklich zwei in Betracht ziehen - PDF für Bilder und H.264 für Videos - beide sind Formate mit langfristiger Unterstützung und plattformübergreifendem Code, der beinahe funktioniert sicherlich von der einen oder anderen Partei für 25-50 Jahre in ihrer jetzigen Form unterstützt werden, einfach aufgrund der bestehenden Nutzung auf der ganzen Welt.
  • einen Katalog oder ein CMS zum Indizieren und Veröffentlichen des Inhalts.
  • Ein "Content Ingest" -System - Hiermit können Sie alle Medien für jeden neuen Inhalt packen, verschlüsseln, speichern und aktualisieren. Sie müssen auch eine manuelle oder automatisierte Qualitätsprüfung für Inhalte durchführen.
  • ein primärer Content-Store - dieser hat zwei Hauptspeicherblöcke; Ein kleiner, um den ursprünglichen Inhalt zu speichern, während er transkodiert / geprüft wird, und ein viel größerer Block, um den Inhalt in der Nähe zu halten. Dies ist eine der einzig gültigen Verwendungen für RAID 6, auf die ich gestoßen bin, aber versuchen Sie, Festplatten in Unternehmensqualität zu verwenden, die hier einen 24x365-Arbeitszyklus haben.
  • Langzeit-Backup-System - hier wird das echte Geld ausgegeben. Sie müssen einen Anbieter auswählen, der Langzeit-Backup-Funktionen bietet. Wenn ich das jetzt machen würde, würde ich aus Gründen der Langlebigkeit der Daten immer noch mit Tape over Disk arbeiten, vielleicht von IBM, da sie viel Erfahrung auf diesem Gebiet haben. Sie müssen auch berücksichtigen, dass Sie auch regelmäßige Bandwiederherstellungen und Datenüberprüfungen durchführen müssen. Dies bedeutet, dass Sie einen dritten Speicherblock benötigen, der mindestens so groß ist wie das größte Band, das Sie haben - und natürlich auch die zu überprüfenden Systeme. Darüber hinaus müssen Sie sicherstellen, dass die von Ihnen verwendete Backup-Software auch für längere Zeit verfügbar ist. TAR on * nix ist wahrscheinlich eine Weile verfügbar, bietet Ihnen jedoch möglicherweise nicht die gewünschten Funktionen Stellen Sie sicher, dass dies von Ihrem Bandhersteller nicht übersehen wird.

Was Sie tun möchten, können Sie also tun. Ich habe es in den letzten zwei Jahrzehnten einige Male selbst getan - aber keine war billig, fürchte ich.

Viel Glück.

Chopper3
quelle
PDF für Bilder scheint eine ziemlich schreckliche Methode zu sein. Ja, absolut PDF für Dokumente, aber behalten Sie die Bilder als Tiffs oder JPEGs bei, abhängig von Ihrem Ausgabeformat. Es ist unwahrscheinlich, dass die Fähigkeit, diese zu lesen, nachlässt.
Paul McMillan
Danke für die Tipps! Wenn ich zwei akzeptierte Antworten kennzeichnen könnte, würde ich das tun. :)
hpy
1
Das ist ok Penyuan, 1138 und sind Knospen;)
Chopper3
2
Ehrlich gesagt besteht die Schwierigkeit bei jeder Art von CMS darin, dass es sich wahrscheinlich um den ersten und veraltetesten Teil eines Systems handelt. Fast wäre es besser, wenn jeder eine ASCII-Textdatei mit einigen grundlegenden Beschreibungen schreiben und diese mit Ihren Rohdaten speichern müsste. Jedes CMS oder automatisierte System wird in einigen Jahren veralten.
Paul McMillan
3

Die anderen haben gute Tipps gegeben, wie Sie Ihre Medien sichern können. Ich würde vorschlagen, dass Sie sich ein wenig Zeit nehmen, um sich die Richtlinien der Kongressbibliothek anzusehen:

http://www.digitalpreservation.gov/formats/index.shtml

Sie könnten auch überlegen, ein billiges Whitebox-ZFS-Array zu bauen. Sie könnten wahrscheinlich etwas tun, um Ihre Bedürfnisse für weniger als 10.000 US-Dollar zu erfüllen. Wenn die Laufwerke ausfallen, ersetzen Sie sie durch größere. Dadurch wächst Ihre Speicherkapazität, wenn Sie Daten generieren. Das würde Sie wahrscheinlich eine ganze Weile am Laufen halten und Sie können es durch ein Gerät mit höherer Kapazität ersetzen, wenn es alt wird. Der Vorteil ist, dass Ihre Daten online sind (und bei Bedarf darauf zugegriffen werden kann) und relativ gut vor Bitrot geschützt sind. Dies ist ein ernstes Problem, wenn Sie über so viele Daten verfügen.

Hier wurde eine anständige Build-Option zusammengestellt:

http://www.zfsbuild.com/

Paul McMillan
quelle
2

So schwierig es auch für Technologen ist, ich würde empfehlen, die Gedanken über Festplatten und Technologie sofort zu beenden. Teilen Sie Ihr Geschäftsproblem in Dinge auf, über die Sie Entscheidungen treffen müssen.

Beispiel:

  • Wie gehen Sie mit der Konvertierung von analogen / verschiedenen digitalen Bandformaten in digitale Medien um, die auf einer Art digitalem Speicher gespeichert werden können?
  • Wie werden Sie den Inhalt und die zugehörigen Metadaten verwalten? Die Speicherung ist einfach - Sie könnten alles auf LTO-Band legen und in einem alten Salzbergwerk aufbewahren, hätten aber keinen Zugriff auf die Daten.
  • Erfindest du das Rad neu? Gibt es an einer Universität bereits zentrale Lösungen für das Content Management? Oder, wenn Sie ein eigenes Content-Management kaufen / aufbauen müssen, gibt es eine zentrale Infrastruktur, von der Sie ein Stück kaufen können? (Band, Objektspeicher, SAN)
  • Was sind die tatsächlichen Geschäftsanforderungen? Was möchtest du wirklich behalten und warum? Wenn Sie sich wirklich mit dem Kern der Sache befassen, gelten die tatsächlichen Anforderungen für die langfristige Aufbewahrung häufig nur für eine kleine Teilmenge von Daten.
duffbeer703
quelle
1

Beachten Sie, dass sich Ihre Videoqualität mit jedem Übergang verschlechtert, wenn Sie Daten in einem verlustbehafteten Format speichern und dann in ein anderes verlustbehaftetes Format konvertieren.

Das Folgende spricht von Audio, aber das Gleiche gilt im Allgemeinen:

Sie können jedes Audioformat in Ogg Vorbis konvertieren. Das Konvertieren von einem verlustbehafteten Format wie MP3 in ein anderes verlustbehaftetes Format wie Vorbis ist jedoch im Allgemeinen eine schlechte Idee. Sowohl MP3- als auch Vorbis-Encoder erzielen hohe Komprimierungsraten, indem sie Teile der Audio-Wellenform wegwerfen, die Sie wahrscheinlich nicht hören werden. Der MP3- und der Vorbis-Codec sind jedoch sehr unterschiedlich, sodass sie jeweils unterschiedliche Teile des Audios verwerfen, obwohl es mit Sicherheit einige Überlappungen gibt. Beim Konvertieren einer MP3 in Vorbis wird die MP3-Datei in ein nicht komprimiertes Format wie WAV dekodiert und mit dem Ogg Vorbis-Encoder erneut komprimiert. Dem decodierten MP3 fehlen die Teile des Original-Audios, die der MP3-Encoder verworfen hat. Der Ogg Vorbis-Encoder verwirft dann andere Audiokomponenten, wenn er die Daten komprimiert. Bestenfalls, Das Ergebnis ist eine Ogg-Datei, die genauso klingt wie Ihre ursprüngliche MP3-Datei, aber höchstwahrscheinlich schlechter als Ihre ursprüngliche MP3-Datei. In keinem Fall erhalten Sie eine Datei, die besser klingt als das Original-MP3.

Da viele Musik-Player sowohl MP3- als auch Ogg-Dateien abspielen können, müssen Sie nicht alle Dateien auf das eine oder andere Format umstellen. Wenn Sie Ogg Vorbis mögen, empfehlen wir Ihnen, es zu verwenden, wenn Sie von originalen, verlustfreien Audioquellen (wie CDs) codieren. Beim Codieren von Originalen werden Sie feststellen, dass Sie Ogg-Dateien erstellen können, die kleiner oder von besserer Qualität (oder beidem) sind als Ihre MP3s.

(Wenn Sie unbedingt von MP3 nach Ogg konvertieren müssen, stehen auf Freshmeat mehrere Konvertierungsskripte zur Verfügung.)

http://www.vorbis.com/faq/#transcode

Daher ist es wahrscheinlich am besten, ein verlustfreies Format zu wählen, denn sobald Sie ein verlustbehaftetes Format ausgewählt haben, bleiben Sie daran hängen.

TRiG
quelle
3
Verlustfreies Video ist derzeit nicht praktisch zu speichern. Das Archivieren von Auftritten pro Minute ist einfach zu teuer. Suchen Sie sich einen verlustbehafteten Codec aus, mit dem Sie zufrieden sind, und lassen Sie Ihre Medien darin.
Paul McMillan
Vielen Dank für den guten Punkt über Verlustfreiheit, wir werden uns definitiv Gedanken darüber machen.
HPY
1

Vielleicht fehlt mir etwas. Könnten Sie nicht alles in einem offenen Format codieren, in dem der Quellcode für die Codecs verfügbar ist, und dann einfach alles auf Amazon S3 speichern?

Auf diese Weise muss sich Amazon um die tatsächliche Speicherung der Daten kümmern, und wenn es in 30 Jahren keine Computer gibt, die C / C ++ kompilieren können, können Sie auf die Informationen zugreifen ...

Reich
quelle