Können Sie mir bitte mitteilen, wie Sie solche URLs robots.txt
für Googlebots blockieren können , um die Indizierung zu beenden?
http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q
Meine Website wurde gehackt, was nun wiederhergestellt ist, aber der Hacker hat 5000 URLs in Google indiziert und jetzt erhalte ich den Fehler 404 für zufällig generierte Links, wie vor allem beginnend mit dem /+
obigen Link.
Ich habe mich gefragt, ob es einen anderen schnellen Weg gibt, als diese URLs manuell aus den Google Webmaster-Tools zu entfernen.
Können wir dies mit robots.txt
URLs blockieren , die mit +
sign beginnen?
+
Der URL-Pfad hat nichts Besonderes an (Plus-), er ist nur ein Zeichen wie jedes andere.Antworten:
Ein 404 ist wahrscheinlich dem Blockieren mit vorzuziehen,
robots.txt
wenn Sie möchten, dass diese URLs von den Suchmaschinen (z. B. Google) gelöscht werden. Wenn Sie das Crawlen blockieren, bleibt die URL möglicherweise weiterhin indiziert. (Beachten Sie, dass inrobots.txt
erster Linie das Crawlen und nicht das Indizieren blockiert wird .)Wenn Sie das De-Indizieren dieser URLs "beschleunigen" möchten, können Sie möglicherweise eine "410 Gone" anstelle der üblichen "404 Not Found" liefern. Sie könnten mit mod_rewrite (Apache) in Ihrer Root-
.htaccess
Datei Folgendes tun :quelle
Ich werde die zweite Frage beantworten.
https://developers.google.com/webmasters/hacked/docs/clean_site
Google gibt ausdrücklich an, dass das Entfernen über die Google Search Console (der neue Name der Webmaster-Tools) am schnellsten ist.
Sie verstehen aber auch, dass dies in einigen Fällen nicht möglich ist:
Während Sie diese Seiten in robots.txt blockieren können, führen Sie keine der von Google erläuterten Korrekturmaßnahmen durch.
quelle
sollte tun, was du willst. Der Roboter wird angewiesen, nicht alle URLs anzufordern, die mit a beginnen
+
.quelle
Wenn Sie robots.txt wirklich verwenden möchten, ist dies eine einfache Antwort auf Ihre Frage. Außerdem habe ich einen Link hinzugefügt, wo Sie die technischen Daten auf robots.txt nachlesen können.
Lesen Sie mehr über die robots.txt-Spezifikationen
Eine andere Alternative ist die Verwendung von .htaccess, um eine Umschreiberegel zu erstellen (wenn Sie Apache usw. verwenden), um diese abzufangen und Google möglicherweise einen besseren HTTP-Rückkehrcode mitzuteilen, oder um den Datenverkehr einfach auf eine andere Seite umzuleiten.
quelle
*
(Sternchen) am Ende des URL-Pfades ist nicht erforderlich . Es sollte aus Gründen der Spinnenverträglichkeit entfernt werden.robots.txt
ist bereits ein Präfix-Matching, also/+*
dasselbe wie/+
für Bots, die Wildcards unterstützen, und für Bots, die keine Wildcards unterstützen, wird überhaupt kein Matching durchgeführt/+*
.