Die Website wurde gehackt. Müssen alle URLs, die mit + beginnen, von Google entfernt werden? Verwenden Sie robots.txt?

15

Können Sie mir bitte mitteilen, wie Sie solche URLs robots.txtfür Googlebots blockieren können , um die Indizierung zu beenden?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

Meine Website wurde gehackt, was nun wiederhergestellt ist, aber der Hacker hat 5000 URLs in Google indiziert und jetzt erhalte ich den Fehler 404 für zufällig generierte Links, wie vor allem beginnend mit dem /+obigen Link.

Ich habe mich gefragt, ob es einen anderen schnellen Weg gibt, als diese URLs manuell aus den Google Webmaster-Tools zu entfernen.

Können wir dies mit robots.txtURLs blockieren , die mit +sign beginnen?

unor
quelle
2
+Der URL-Pfad hat nichts Besonderes an (Plus-), er ist nur ein Zeichen wie jedes andere.
MrWhite
Sie könnten Apache (in .htaccess) auf eine Datei oder ein Verzeichnis umleiten, auf die bzw. das robots.txt den Zugriff von Robotern untersagt
laut Mawg soll Monica
@Mawg Was bringt das?
MrWhite
Um gut erzogene Roboter draußen zu halten?
Laut Mawg wird Monica
2
Unabhängig vom Problem mit den URLs sollten Sie lesen, wie ich mit einem kompromittierten Server umgehe.
Jonas Schäfer

Antworten:

30

Meine Website wurde gehackt, die jetzt wiederhergestellt wird, aber der Hacker hat 5000 URLs in Google indiziert und jetzt erhalte ich den Fehler 404

Ein 404 ist wahrscheinlich dem Blockieren mit vorzuziehen, robots.txtwenn Sie möchten, dass diese URLs von den Suchmaschinen (z. B. Google) gelöscht werden. Wenn Sie das Crawlen blockieren, bleibt die URL möglicherweise weiterhin indiziert. (Beachten Sie, dass in robots.txterster Linie das Crawlen und nicht das Indizieren blockiert wird .)

Wenn Sie das De-Indizieren dieser URLs "beschleunigen" möchten, können Sie möglicherweise eine "410 Gone" anstelle der üblichen "404 Not Found" liefern. Sie könnten mit mod_rewrite (Apache) in Ihrer Root- .htaccessDatei Folgendes tun :

RewriteEngine On
RewriteRule ^\+ - [G]
Herr weiß
quelle
14

Ich werde die zweite Frage beantworten.

Ich habe mich gefragt, ob es einen anderen schnellen Weg gibt, als diese URLs manuell aus den Google Webmaster-Tools zu entfernen.

https://developers.google.com/webmasters/hacked/docs/clean_site

Google gibt ausdrücklich an, dass das Entfernen über die Google Search Console (der neue Name der Webmaster-Tools) am schnellsten ist.

Wenn der Hacker völlig neue, für Benutzer sichtbare URLs erstellt hat, können Sie diese Seiten mithilfe der Funktion "URLs entfernen" in der Suchkonsole schneller aus den Google-Suchergebnissen entfernen. Dies ist ein völlig optionaler Schritt. Wenn Sie einfach die Seiten löschen und dann Ihren Server so konfigurieren, dass er einen 404-Statuscode zurückgibt, werden die Seiten mit der Zeit natürlich aus dem Google-Index herausfallen.

Sie verstehen aber auch, dass dies in einigen Fällen nicht möglich ist:

Die Entscheidung zum Entfernen von URLs hängt wahrscheinlich von der Anzahl der neu erstellten, unerwünschten Seiten ab (zu viele Seiten sind möglicherweise umständlich zum Entfernen von URLs) sowie von dem potenziellen Schaden, den diese Seiten für Benutzer verursachen können. Stellen Sie sicher, dass die Seiten, die über URL Removal übermittelt wurden, auch so konfiguriert sind, dass für die unerwünschten / entfernten URLs eine Antwort 404 File not Found zurückgegeben wird, damit sie nicht in den Suchergebnissen angezeigt werden.

Während Sie diese Seiten in robots.txt blockieren können, führen Sie keine der von Google erläuterten Korrekturmaßnahmen durch.

Pastepotpete
quelle
4
User-Agent: *  
Disallow: /+

sollte tun, was du willst. Der Roboter wird angewiesen, nicht alle URLs anzufordern, die mit a beginnen +.

Sven
quelle
2

Wenn Sie robots.txt wirklich verwenden möchten, ist dies eine einfache Antwort auf Ihre Frage. Außerdem habe ich einen Link hinzugefügt, wo Sie die technischen Daten auf robots.txt nachlesen können.

User-agent: *
Disallow: /+

Lesen Sie mehr über die robots.txt-Spezifikationen

Eine andere Alternative ist die Verwendung von .htaccess, um eine Umschreiberegel zu erstellen (wenn Sie Apache usw. verwenden), um diese abzufangen und Google möglicherweise einen besseren HTTP-Rückkehrcode mitzuteilen, oder um den Datenverkehr einfach auf eine andere Seite umzuleiten.

davidbl
quelle
2
Das *(Sternchen) am Ende des URL-Pfades ist nicht erforderlich . Es sollte aus Gründen der Spinnenverträglichkeit entfernt werden. robots.txtist bereits ein Präfix-Matching, also /+*dasselbe wie /+für Bots, die Wildcards unterstützen, und für Bots, die keine Wildcards unterstützen, wird überhaupt kein Matching durchgeführt /+*.
MrWhite
Sie haben Recht, ich habe das gerade auf der Grundlage seiner Frage zu Googlebot geschrieben. Ich habe es bearbeitet, um eine bessere Kompatibilität mit mehreren Bots zu gewährleisten.
Davidbl