Leider ist bei unserem Hosting-Anbieter ein Datenverlust von 100% aufgetreten. Daher habe ich den gesamten Inhalt für zwei gehostete Blog-Websites verloren:
(Ja, ja, ich hätte unbedingt vollständige Offsite-Sicherungen durchführen sollen. Leider befanden sich alle meine Sicherungen auf dem Server selbst. Speichern Sie den Vortrag, Sie haben 100% Recht, aber das hilft mir im Moment nicht. Lassen Sie uns bleib hier auf die Frage fokussiert!)
Ich beginne den langsamen, schmerzhaften Prozess der Wiederherstellung der Website von Webcrawler-Caches.
Es gibt einige automatisierte Tools zum Wiederherstellen einer Website aus Internet-Web-Spider-Caches (Yahoo, Bing, Google usw.), wie Warrick , aber ich hatte mit diesen Tools einige schlechte Ergebnisse:
- Meine IP-Adresse wurde von Google schnell für die Verwendung gesperrt
- Ich bekomme viele 500 und 503 Fehler und "warte 5 Minuten ..."
- Letztendlich kann ich den Textinhalt schneller von Hand wiederherstellen
Ich hatte viel mehr Glück, indem ich eine Liste aller Blog-Beiträge verwendet, in den Google-Cache geklickt und jede einzelne Datei als HTML gespeichert habe. Es gibt zwar viele Blog-Posts, aber nicht so viele, und ich glaube, ich verdiene eine gewisse Selbstkennzeichnung, weil ich keine bessere Backup-Strategie habe. Das Wichtigste ist jedenfalls, dass ich viel Glück hatte, den Blogpost-Text auf diese Weise zu bekommen, und ich bin definitiv in der Lage, den Text der Webseiten aus den Internet-Caches zu holen. Basierend auf dem, was ich bisher getan habe, bin ich zuversichtlich, dass ich den gesamten verlorenen Blogpost-Text und die Kommentare wiederherstellen kann .
Die Bilder , die zu jedem Blog-Beitrag gehören, erweisen sich jedoch als… schwieriger.
Gibt es allgemeine Tipps zum Wiederherstellen von Websiteseiten aus Internet-Caches und insbesondere Orte, an denen archivierte Bilder von Websiteseiten wiederhergestellt werden können ?
(Und noch einmal, bitte, keine Backup-Vorlesungen. Sie haben völlig, ganz und gar Recht! Aber Recht zu haben, löst nicht mein unmittelbares Problem ... Es sei denn, Sie haben eine Zeitmaschine ...)
quelle
Antworten:
Hier ist mein wilder Stich im Dunkeln: Konfigurieren Sie Ihren Webserver so, dass er für jede Bildanforderung 304 zurückgibt, und stellen Sie dann die Wiederherstellung per Crowd-Source bereit, indem Sie irgendwo eine Liste von URLs veröffentlichen und im Podcast alle Ihre Leser auffordern, jede URL zu laden und alle Bilder zu sammeln die aus ihren lokalen Caches geladen werden. (Dies kann nur funktionieren, nachdem Sie die HTML-Seiten selbst mit den
<img ...>
Tags wiederhergestellt haben. Dies scheint darauf hinzudeuten, dass Sie dazu in der Lage sind.)Dies ist im Grunde eine ausgefallene Art zu sagen: "Holen Sie es sich aus den Webbrowser-Caches Ihrer Leser." Sie haben viele Leser und Podcast-Zuhörer, sodass Sie effektiv eine große Anzahl von Personen mobilisieren können, die Ihre Website wahrscheinlich in letzter Zeit angesehen haben. Das manuelle Finden und Extrahieren von Bildern aus den Caches verschiedener Webbrowser ist jedoch schwierig, und der gesamte Ansatz funktioniert am besten, wenn es so einfach ist, dass viele Leute es versuchen und erfolgreich sind. So der 304 Ansatz. Alles, was Leser benötigen, ist, dass sie auf eine Reihe von Links klicken und alle Bilder ziehen, die in ihrem Webbrowser geladen werden (oder mit der rechten Maustaste klicken und speichern unter usw.) und sie dann per E-Mail an Sie senden oder auf eine hochladen zentraler Ort, den Sie einrichten, oder was auch immer. Der Hauptnachteil dieses Ansatzes besteht darin, dass Webbrowser-Caches nicht so lange zurückliegen. Es ist jedoch nur ein Leser erforderlich, der in den letzten Tagen einen Beitrag aus dem Jahr 2006 geladen hat, um selbst ein sehr altes Bild zu retten. Mit einem ausreichend großen Publikum ist alles möglich.
quelle
canvas
AJAX abzurufen und nach Hause zu senden.Einige von uns folgen Ihnen mit einem RSS-Reader und löschen keine Caches. Ich habe Blog-Posts, die auf das Jahr 2006 zurückgehen. Soweit ich sie sehen kann, gibt es keine Bilder, aber sie sind möglicherweise besser als das, was Sie gerade tun.
quelle
(1) Extrahieren Sie eine Liste der Dateinamen aller fehlenden Bilder aus den HTML-Sicherungen. Sie werden mit so etwas wie verlassen:
(2) Führen Sie eine Google-Bildsuche für diese Dateinamen durch. Es scheint, als ob VIELE von ihnen von anderen Bloggern "gespiegelt" wurden und reif für die Aufnahme sind, weil sie den gleichen Dateinamen haben .
(3) Sie können dies automatisiert tun, wenn sich dies beispielsweise für mehr als 10 Bilder als erfolgreich erweist.
quelle
Wenn Sie zur Google Bildsuche gehen und tippen
site:codinghorror.com
, können Sie zumindest die Miniaturansichten aller Ihrer Bilder finden. Nein, es hilft nicht unbedingt, aber es gibt Ihnen einen Ausgangspunkt für das Abrufen dieser Tausenden von Bildern.Offenbar speichert Google in einigen Fällen ein größeres Vorschaubild :
Google ist links, Bing rechts.
quelle
Tut mir leid, von den Blogs zu hören. Ich werde nicht vortragen. Aber ich habe auf Imageshack herausgefunden, was Ihre Bilder zu sein scheinen. Sind sie wirklich deine oder hat jemand eine Kopie von ihnen aufbewahrt?
http://profile.imageshack.us/user/codinghorror
Sie scheinen 456 Bilder in voller Größe zu haben. Dies ist möglicherweise die beste Wahl, um alles wiederherzustellen. Vielleicht können sie dir sogar eine Müllkippe geben.
quelle
Jeff, ich habe etwas für Sie geschrieben hier
Kurz gesagt, was ich Ihnen vorschlage, ist:
Konfigurieren Sie den Webserver so, dass er für jede Bildanforderung 304 zurückgibt. 304 bedeutet, dass die Datei nicht geändert wird. Dies bedeutet, dass der Browser die Datei aus dem Cache abruft, wenn sie dort vorhanden ist. (Kredit: diese SuperUser Antwort )
Fügen Sie auf jeder Seite der Website ein kleines Skript hinzu, um die Bilddaten zu erfassen und an den Server zu senden.
Speichern Sie die Bilddaten auf dem Server.
Voila!
Sie können die Skripte über den angegebenen Link erhalten.
quelle
Probieren Sie diese Abfrage auf dem Wayback-Rechner aus :
Auf diese Weise erhalten Sie alle Bilder von codinghorror.com, die von archive.org archiviert wurden. Dies gibt 3878 Bilder zurück, von denen einige Duplikate sind. Es wird nicht vollständig sein, aber trotzdem ein guter Start.
Für die verbleibenden Bilder können Sie die Miniaturansichten aus einem Suchmaschinen-Cache verwenden und anschließend unter http://www.tineye.com/ eine umgekehrte Suche durchführen . Sie geben ihm das Miniaturbild und es gibt Ihnen eine Vorschau und einen Zeiger auf genau passende Bilder, die im Web gefunden wurden.
quelle
+1 auf die
dd
Empfehlung, wenn (1) die Raw-Festplatte irgendwo verfügbar ist; und (2) die Bilder waren einfache Dateien. Anschließend können Sie mit einem forensischen Daten-Carving-Tool (z. B.) alle glaubwürdigen Bereiche ermitteln, bei denen es sich scheinbar um JPGs / PNGs / GIFs handelt. Ich habe über 95% der Fotos auf einem iPhone wiederhergestellt, das auf diese Weise gelöscht wurde.Hierfür können die Open-Source-Tools 'foremost' und sein Nachfolger 'scalpel' verwendet werden:
http://foremost.sourceforge.net/
http://www.digitalforensicssolutions.com/Scalpel/
quelle
Zum Glück werden zukünftige Generationen in Ordnung sein.
Selbst mit nur einem Teil dieses großen Felsens haben Wissenschaftler / Linguisten viel herausgefunden.
Wenn ein paar Bilder fehlen, überlassen Sie es jemandem, dies in ein paar tausend Jahren herauszufinden.
Hoffentlich lachst du ein bisschen. :)
quelle
Sie können es auch jederzeit mit archive.org versuchen. Verwenden Sie die Wayback-Maschine. Ich habe dies verwendet, um Bilder von meinen Websites wiederherzustellen.
quelle
Im schlimmsten Fall können Sie also nichts wiederherstellen. Verdammt.
Nehmen Sie die verkleinerten Google-Einträge und stöbern Sie in TinEye , der Reverse-Image-Suchmaschine. Hoffentlich sollte es sich um Duplikate oder Rehosts handeln, die von Menschen erstellt wurden.
quelle
Es ist ein langer Schuss, aber Sie könnten überlegen:
Siehe zum Beispiel den Nirsoft Mozilla Cache Viewer :
(Quelle: nirsoft.net )
Es kann jedes "blog.stackoverflow.com" -Bild, das man noch hat, über eine einfache Befehlszeile schnell ausgraben:
Hinweis: Sie haben den gleichen Cache-Explorer für Chrome .
(Quelle: nirsoft.net )
(Ich muss Bilder von blog.stackoverflow.com für 15 Tage enthalten haben.)
Und Internet Explorer oder Opera .
Aktualisieren Sie anschließend die öffentliche Liste, um zu berücksichtigen, was die Leser in ihrem Cache gefunden haben.
quelle
In der Vergangenheit habe ich http://www.archive.org/ verwendet , um zwischengespeicherte Bilder aufzurufen. Es ist ein Hit oder Miss, aber es hat für mich funktioniert.
Auch beim Versuch, Fotos wiederherzustellen, die ich auf einer alten Website verwendet habe, ist www.tineye.com großartig, wenn ich nur die Miniaturansichten habe und die Bilder in voller Größe benötige.
Ich hoffe das hilft dir. Viel Glück.
quelle
Dies ist wahrscheinlich nicht die einfachste oder vollständigste Lösung, aber Dienste wie Evernote speichern normalerweise sowohl den Text als auch die Bilder, wenn sie in der Anwendung gespeichert werden. Vielleicht können einige hilfreiche Leser, die Ihre Artikel gespeichert haben, die Bilder speichern und an Sie zurücksenden ?
quelle
Ich habe tolle Erfahrungen mit archive.org gemacht . Auch wenn Sie nicht in der Lage sind, alle Blog-Posts von der Site zu extrahieren , werden regelmäßig Snapshots erstellt:
Auf diese Weise können Sie jede Seite überprüfen und die Blog-Posts anzeigen, die Sie erstellt haben. Mit den Namen aller Beiträge können Sie sie leicht im Cache von Google finden, wenn archive.org sie nicht hat. Das Archiv versucht, Bilder zu speichern, der Google-Cache enthält Bilder, und ich habe meinen Cache in letzter Zeit nicht geleert, damit ich Ihnen bei den neueren Blog-Posts helfen kann :)
quelle
Haben Sie Ihren eigenen lokalen Browser-Cache ausprobiert? Ziemlich gute Chance, dass einige der neueren Sachen noch da sind. http://lifehacker.com/385883/resurrect-images-from-my-web-browser-cache
(Oder Sie könnten eine Liste aller fehlenden Bilder zusammenstellen und jeder könnte in seinem Cache nachsehen, ob wir die Lücken füllen können.)
quelle
Ein Vorschlag für die Zukunft: Ich verwende Windows Live Writer zum Bloggen und speichere lokale Kopien von Posts auf meinem Computer und veröffentliche sie im Blog.
quelle
Vor ungefähr fünf Jahren schlug eine frühe Inkarnation einer externen Festplatte, auf der ich alle meine digitalen Fotos gespeichert hatte, schwer fehl. Ich habe ein Image der Festplatte erstellt
dd
und ein rudimentäres Tool geschrieben, um alles wiederherzustellen, was wie ein JPEG-Bild aussieht. Habe die meisten meiner Fotos dabei.Die Frage ist also, ob Sie eine Kopie des Images der virtuellen Maschine erhalten können, auf der sich die Images befanden.
quelle
Das Webarchiv speichert die Bilder zwischen. Momentan ist es unter großer Last. Bis 2008 oder so sollte alles in Ordnung sein.
http://web.archive.org/web/20080618014552rn%5F2/www.codinghorror.com/blog/
quelle
Ich schlage die Kombination von archive.org und einem Request Anonymizer wie [Tor] [2] vor. Ich schlage vor, Anonymizer zu verwenden, da auf diese Weise jede Ihrer Anfragen eine zufällige IP-Adresse und einen zufälligen Speicherort hat und Sie auf diese Weise vermeiden können, von archive.org (wie Google) für ungewöhnlich viele Anfragen gesperrt zu werden.
Viel Glück, es gibt eine Menge Juwelen in diesem Blog.
quelle
Die Wayback-Maschine wird einige haben. Google-Cache und ähnliche Caches haben einige.
Am effektivsten ist es, die Originalposter per E-Mail zu senden und um Hilfe zu bitten.
Ich habe tatsächlich einige infrastrukturelle Empfehlungen, denn danach ist alles aufgeräumt. Das grundlegende Problem sind nicht die Backups, sondern die fehlende Replikation der Site und die mangelnde Überwachung. Wenn Sie mir später eine E-Mail über den Inhalt des privaten E-Mail-Felds senden, wenn Sie wieder auf den Beinen sind, würde ich die Angelegenheit gerne mit Ihnen besprechen.
quelle
Wenn Ihre Bilder auf einem externen Dienst wie Flickr oder einem CDN gespeichert wurden (wie in einem Ihrer Podcasts erwähnt), verfügen Sie möglicherweise noch über die Bildressourcen.
Einige der Bilder können auf Google Images gesucht und auf "Ähnliche Bilder suchen " geklickt werden . Möglicherweise befinden sich Kopien auf anderen Websites.
quelle
archive.org verbirgt manchmal Bilder. Holen Sie sich jede URL manuell (oder schreiben Sie ein kurzes Skript) und fragen Sie sie danach wie folgt ab:
string.Format ("GET / * / {0}", nextUri)
Natürlich wird es ziemlich mühsam sein, das zu durchsuchen.
Möglicherweise habe ich einige in meinem Browser-Cache. Wenn ich das tue, werde ich sie irgendwo hosten.
quelle
Wenn Sie versuchen möchten, die Caches der Benutzer zu durchsuchen, möchten Sie den Server möglicherweise so einstellen, dass er auf
304 Not Modified
alle Bedingte-GET-Anforderungen (If-Modified-Since oder If-None-Match) reagiert, die von den Browsern verwendet werden das zwischengespeicherte Material erneut validieren.Wenn Ihre anfänglichen Caching-Header für statische Inhalte wie Bilder ziemlich umfangreich wären und Dinge tagelang oder monatelang zwischengespeichert werden könnten, könnten Sie für eine Weile Anfragen zur erneuten Validierung erhalten. Setzen Sie ein Cookie für diese Anforderungen und fordern Sie die Benutzer auf, ein Skript für ihren Cache auszuführen, um die noch vorhandenen Bilder zu extrahieren.
Beachten Sie jedoch: Sobald Sie anfangen, Textinhalte mit Inline-Ressourcen zu erstellen, die noch nicht vorhanden sind, können Sie diese zwischengespeicherten Versionen löschen, wenn die Revalidatoren 404s erreichen.
quelle
Sie können TinEye verwenden , um Duplikate Ihrer Bilder zu finden, indem Sie die Miniaturansichten mit Google Cache durchsuchen . Dies hilft jedoch nur bei Bildern, die Sie von einer anderen Website aufgenommen haben.
quelle
Versuchen Sie, die Backups Ihres eigenen Computers für die Images zu minen, um auf das Offensichtliche hinzuweisen . Ich weiß, dass meine Sicherungsstrategie so willkürlich ist, dass ich mehrere Kopien vieler Dateien auf externen Laufwerken, gebrannten Datenträgern und in zip / tar-Dateien habe. Viel Glück!
quelle
Ich habe es geschafft, diese Dateien aus meinem Safari-Cache auf Snow Leopard wiederherzustellen:
Wenn jemand anderes es versuchen möchte, habe ich ein Python-Skript geschrieben, um sie nach ~ / codinghorror / filename zu extrahieren, das ich hier online gestellt habe .
Ich hoffe das hilft.
quelle
Hattest du die Gelegenheit zu sehen, ob dein Hosting-Anbieter überhaupt ein Backup hat (einige ältere Versionen)?
quelle
Wie viel sind Ihnen diese Daten wert? Wenn es einen erheblichen Betrag (mehrere Tausend Euro) wert ist, fragen Sie Ihren Hosting-Anbieter nach der Festplatte, auf der die Daten für Ihre Website gespeichert sind (im Falle eines Datenverlusts aufgrund eines Hardwareausfalls). Sie können dann mit dem Laufwerk den Ontrack oder einen anderen Datenwiederherstellungsdienst ausführen, um zu sehen, was Sie vom Laufwerk abrufen können. Dies ist möglicherweise schwierig zu verhandeln, da möglicherweise auch die nicht wiederhergestellten Daten anderer Personen auf dem Laufwerk gespeichert sind. Wenn Sie sich jedoch wirklich dafür interessieren, können Sie es wahrscheinlich herausfinden.
quelle
Es tut mir sehr leid, das zu hören, und ich bin sehr verärgert über Sie und das Timing. Ich wollte eine Offline-Kopie einiger Ihrer Beiträge und habe HTTrack auf Ihrer gesamten Website ausgeführt, musste aber ausgehen (dies war vor ein paar Wochen) und Ich habe es gestoppt.
Wenn der Host zur Hälfte ausfällt - und ich vermute, Sie sind ein guter Kunde ... Ich würde sie bitten, Ihnen entweder die Festplatten zuzusenden (wie ich vermute, sie sollten RAID verwenden) oder selbst eine Wiederherstellung durchzuführen.
Obwohl dies möglicherweise kein schneller Prozess ist, habe ich dies mit einem Host für einen Client durchgeführt und konnte ganze Datenbanken intakt wiederherstellen (... im Grunde hat der Host versucht, ein Upgrade für das verwendete Control Panel durchzuführen und es durcheinander zu bringen). aber nichts wurde überschrieben).
Was auch immer passiert - Viel Glück von all deinen Fans auf den SO-Sites!
quelle