Wie entferne ich Tausende von URLs aus dem Google-Cache?

13

Google hat Tausende von PDFs von meiner Website zwischengespeichert, die nicht öffentlich sein sollten. Ich habe meine Header aktualisiert, muss aber den vorhandenen Schnellansichts-Cache entfernen.

Mit dem Google-Webmaster-Tool kann ich sie einzeln entfernen. Dies ist jedoch angesichts der Menge der zu entfernenden Dateien offensichtlich nicht praktikabel.

Weiß jemand, wie ich PDFs stapelweise aus dem Google-Cache entfernen kann? Im Idealfall möchte ich einen Weg finden, um alles zu entfernen, was mit "site: mysite.com * .pdf" übereinstimmt.


quelle
3
Die schnelle Google-Suche zeigt an, dass das Batch-Entfernen mit der Google-API nicht möglich ist. Sie müssen ein eigenes Skript erstellen, mit dem Links nacheinander entfernt werden

Antworten:

9

Anscheinend haben Sie bereits herausgefunden, wie Sie die Entfernung einer einzelnen URL beantragen können , was hier offensichtlich nicht in Frage kommt. Im zweiten Schritt dieses Vorgangs können Sie auch das Entfernen eines gesamten Verzeichnisses anfordern , wenn die Datei-URLs auf diese bestimmte Weise vorhersehbar sind. (Wenn Sie Tausende von PDFs haben, würde ich hoffen, dass sie zumindest etwas organisiert sind.) Wenn nicht, haben Sie leider so ziemlich keine Auswahl.

Su '
quelle
2

Ich hatte vor kurzem einen Hack, der meiner Site mehrere tausend gefälschte Seiten hinzufügte.

Ich habe eine korrigierte Sitemap an die Google-Suchkonsole gesendet (zuvor als Webmaster-Tools bezeichnet) und alle Links auf 410 gesetzt, aber die meisten von ihnen wurden von Google noch indiziert.

Ich habe WebMaster Tools - Massenentfernung von URLs Chrome Extension verwendet , um die URLs automatisch zum Entfernen zu übermitteln. Es handelt sich im Grunde genommen um ein Skript, das eine Liste der URLs erstellt und diese nacheinander für Sie einreicht. Es wird Stunden dauern, sie alle einzureichen, aber zumindest müssen Sie es nicht selbst tun. Hier ist ein Artikel darüber, wie man es benutzt .

Sie können eine Liste der von Google indizierten URLs abrufen, indem Sie die Daten direkt von der Suchkonsole herunterladen. Gehen Sie zu Status> Indexabdeckung, wählen Sie die gültigen Ergebnisse aus und scrollen Sie nach unten. Sie werden sehen, dass Google eine Menge URLs indiziert hat, die nicht in Ihrer Sitemap enthalten sind. Sie können die ersten 1000 Ergebnisse herunterladen. Es gibt anscheinend einen Umweg, um alle zu bekommen, nicht nur die ersten tausend, sondern es geht um API-Aufrufe von Excel. Ich habe nur ein paar Tage zwischen tausend gewartet, als sie langsam aus dem Index fielen.

Google Index Coverage Snapshot

Eine andere Möglichkeit besteht darin, dass ein WP-Plugin eine Sitemap erstellt und dann die PDF-Dateien oder was auch immer Sie anvisieren, herausfiltert. Hier müssen Sie wahrscheinlich einige manuelle Schritte zum Kopieren / Einfügen / Löschen ausführen. Aus Sicherheitsgründen habe ich langsam meine Liste mit etwa 2.700 Spam-URLs durchgeblättert und die legitimen URLs gelöscht. Es dauerte nur etwa 20 Minuten.

Wenn Sie nicht permanent versuchen, Inhalte wie Spam zu vernichten und stattdessen Premium-Ressourcen zu verschleiern, sollten Sie andere Methoden anwenden, um das Indizieren dieser Ressourcen zu verhindern, z. B. eine Robots-Datei. Aber wenn sich herausstellt, dass Google nicht zugehört hat oder Sie den Ball fallen gelassen haben, können Sie das Problem zumindest jetzt beheben und sie in nur wenigen Tagen aus dem Index entfernen.

In meinem speziellen Fall frage ich mich, warum Google keine Schaltfläche für die Zeitmaschine hat, oder warum ich sie nicht rückgängig mache oder zurücksetze. Die Idee ist, dass ich Google mitteilen kann, dass die Website vor ein paar Tagen gehackt wurde, aber wir haben sie repariert. Machen Sie daher die letzten x Tage des Crawls und Indizierens rückgängig. Das wäre aber zu einfach.

51336
quelle
1

Wenn die Dateien "nicht öffentlich sein sollten", sollten sie im öffentlichen Internet verfügbar sein. Sie können die Dateien aus Google-Listen entfernen (über robots.txt und andere Methoden). Wenn die Dateien jedoch noch vorhanden sind, kann sie jeder herunterladen.

Sie sollten sie hinter einer Art Authentifizierung aufbewahren. Verschieben Sie beispielsweise die Dateien aus dem öffentlichen Webverzeichnis und stellen Sie sie über ein Skript bereit, das überprüft, ob der Benutzer zuerst gültig ist.

Verärgerte Ziege
quelle