Wie kann ich Google dazu ermutigen, die neue robots.txt-Datei zu lesen?

22

Ich habe gerade meine robots.txt-Datei auf einer neuen Site aktualisiert. Google Webmaster Tools meldet, dass es meine robots.txt 10 Minuten vor meinem letzten Update gelesen hat.

Kann ich Google dazu ermutigen, meine robots.txt so schnell wie möglich erneut zu lesen?

UPDATE: Unter Site-Konfiguration | Crawler-Zugriff | Testen Sie robots.txt:

Home Page Access zeigt:

Googlebot ist für http://my.example.com/ gesperrt.

Zu Ihrer Information: Die robots.txt, die Google zuletzt gelesen hat, sieht folgendermaßen aus:

User-agent: *
Allow: /<a page>
Allow: /<a folder>
Disallow: /

Habe ich mir in den Fuß geschossen, oder wird es irgendwann so lauten: http: ///robots.txt (wie beim letzten Mal)?

Irgendwelche Ideen, was ich tun muss?

qxotk
quelle
Zu Ihrer Information: Die Site ist neu, und diese Meldung wird unter "Einstellungen | Crawling-Rate" angezeigt: "Ihrer Site wurden spezielle Einstellungen für die Crawling-Rate zugewiesen. Sie können die Crawling-Rate nicht ändern."
Qxotk
Zu Ihrer Information: Ich habe einen Eintrag in Google Groups gefunden, in dem besagt wird, dass Google robots.txt "mindestens einmal am Tag" liest. Kann das jemand bestätigen? [Google Groups Posting ist hier: groups.google.com/group/google_webmaster_help-indexing/… ]
qxotk
Zu Ihrer Information: 1 Tag ist vergangen und Google hat meine aktualisierte robots.txt noch nicht gelesen.
Qxotk
Gleiches Problem hier, dies ist kein "Feature" ...
Mate64

Antworten:

25

Für den Fall, dass jemand anderes auf dieses Problem stößt, gibt es eine Möglichkeit, Google-Bot zu zwingen, die robots.txt-Datei erneut herunterzuladen.

Gehen Sie zu Health -> Fetch as Google [1] und lassen Sie es /robots.txt holen

Dadurch wird die Datei erneut heruntergeladen, und Google analysiert die Datei erneut.

[1] In der vorherigen Google-Benutzeroberfläche war es "Diagnose -> Als GoogleBot abrufen".

Matt
quelle
11
Leider funktioniert dies nicht, wenn Ihre robots.txt auf eingestellt ist Disallow: /. Stattdessen meldet der Abruf "Denied by robots.txt": /.
Studgeek
3
Füge diese Zeile das nächste Mal hinzu. Erlaube: /robots.txt
jrosell
Ich kann 'Diagnostics' nicht finden. Vielleicht hat sich die Benutzeroberfläche geändert?
David Riccitelli
2
Ok, es ist jetzt Health> Fetch as Google.
David Riccitelli
Funktioniert nicht bei mir, wenn ich versuche, robots.txt abzurufen. FEHLER: "Die Seite konnte zu diesem Zeitpunkt nicht gecrawlt werden, da sie von der neuesten robots.txt-Datei blockiert wird, die Googlebot heruntergeladen hat. Wenn Sie die robots.txt-Datei kürzlich aktualisiert haben, kann es bis zu zwei Tage dauern, bis sie aktualisiert wird. Weitere Informationen finden Sie im Hilfeartikel zu robots.txt. "
Indrek
4

Ich weiß, dass dies sehr alt ist, aber ... Wenn Sie die falsche robots.txt hochgeladen haben (alle Seiten nicht zulassen), können Sie Folgendes versuchen:

  • Korrigieren Sie zuerst Ihre robots.txt, um die richtigen Seiten zuzulassen
  • Laden Sie eine sitemap.xml mit Ihren Seiten hoch

Wenn Google versucht, die XML-Sitemap zu lesen, prüft es die robots.txt-Datei und zwingt Google, die robots.txt-Datei erneut zu lesen.

Hussam
quelle
Das hat bei mir nicht funktioniert. Es heißt, die Sitemap wurde von robots.txt blockiert
James
1

OKAY. Hier ist, was ich getan habe, und innerhalb weniger Stunden las Google meine robots.txt-Dateien erneut.

Wir haben 2 Sites für jede Site, die wir betreiben. Nennen wir sie die Canonical Site (www.mysite.com) und die Bare-Domain Site (mysite.com).

Wir haben unsere Sites so eingerichtet, dass mysite.com immer eine 301-Weiterleitung zu www.meinesite.com zurückgibt.

Nachdem ich beide Sites in den Google Webmaster-Tools eingerichtet hatte, stellte ich fest, dass www.meinesite.com die kanonische Site ist. Bald darauf las ich die robots.txt-Datei auf der kanonischen Site.

Ich weiß nicht genau warum, aber genau das ist passiert.

qxotk
quelle
3
Ich weiß, dass dies alt ist, aber die Annahme Ihrer eigenen Antwort ist zu 100% legitim
Mark Henderson
0

Verkürzen Sie das Google Scan-Intervall um einige Tage.

Außerdem habe ich dort einen Knopf gesehen, um Ihre robots.txt zu überprüfen. Dies könnte dazu führen, dass Google ausgeführt wird, aber ich bin mir nicht sicher.

BarsMonster
quelle
Kannst du genauer sein? Ich sehe: Site-Konfiguration | Crawler-Zugriff | Teste robots.txt, aber das testet den Text, den du in die Box einfügst, nicht deine Live-robots.txt-Datei - hier erfahre ich auch, wann sie zuletzt heruntergeladen wurde. Wo ist der "Bestätigungs" -Button, von dem Sie sprechen?
Qxotk