Die Google Webmaster-Tools teilen mir mit, dass Roboter den Zugriff auf die Sitemap blockieren

11

Das ist meine robots.txt :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

Die Google Webmaster-Tools sagen mir jedoch, dass Roboter den Zugriff auf die Sitemap blockieren:

Beim Versuch, auf Ihre Sitemap zuzugreifen, ist ein Fehler aufgetreten. Stellen Sie sicher, dass Ihre Sitemap unseren Richtlinien entspricht und an dem von Ihnen angegebenen Ort abgerufen werden kann, und senden Sie sie erneut: URL, die durch robots.txt eingeschränkt ist .

Ich habe gelesen, dass Google Webmaster Tools robots.txt zwischenspeichert , aber die Datei wurde vor mehr als 36 Stunden aktualisiert.

Aktualisieren:

Wenn Sie auf die TEST-Sitemap klicken, ruft Google keine neue Sitemap ab. Das konnte nur die SUBMIT-Sitemap. (Übrigens, ich verstehe nicht, worum es in der 'Test-Sitemap' geht, es sei denn, Sie fügen Ihre aktuelle Sitemap dort ein - es wird keine neue Kopie der Sitemap von der Adresse abgerufen, die Sie vor dem Test eingeben müssen - aber das ist es eine Frage für einen anderen Tag.)

Nach dem Einreichen (anstatt zu testen) einer neuen Sitemap änderte sich die Situation. Ich erhalte jetzt "URL von robots.txt blockiert . Die Sitemap enthält URLs, die von robots.txt blockiert werden ." für 44 URLs. Die Sitemap enthält genau 44 URLs. Dies bedeutet, dass Google die neue Sitemap verwendet, diese jedoch weiterhin der alten Roboterregel entspricht (die alles verboten hat ). Keine der 44 URLs befindet sich in /wp-admin/oder /wp-includes/(was sowieso irgendwie unmöglich ist, da robots.txt darauf basiert die Fliege von demselben Plugin, das die Sitemap erstellt).

Update 2:

Es wird schlimmer: Auf einer Ergebnisseite der Google-Suche lautet die Beschreibung für die Startseite: "Eine Beschreibung für dieses Ergebnis ist aufgrund der robots.txt dieser Website nicht verfügbar - weitere Informationen ". Alle anderen Seiten haben feine Beschreibungen. Es gibt keine robots.txt ODER Robots Meta Blocking Indizierung der Homepage.

Ich stecke fest.

Gaia
quelle
Unter Google Webmaster-Tools> Integrität> Blockierte URLs können Sie sofort testen, ob Ihre robots.txt Ihre Sitemap-URL (oder eine andere URL, die Sie testen möchten) blockieren würde. Es sieht nicht so aus, als ob Ihre aktuelle robots.txt Ihre Sitemap blockieren sollte, aber Sie sagen, dass dies aktualisiert wurde. Hat eine frühere Version Ihrer robots.txt-Datei dies blockiert?
MrWhite
1
Ja, die vorherige Version wurde blockiert. Ich denke, Google hat gerade nicht seinen Cache aktualisiert ...
Gaia
Ich habe genau das gleiche Problem. Mein robots.txt-Cache ist vom 23. April dieses Jahres, heute ist der 25. April und der Cache ist noch alt. Ich habe keine Zeit zum Warten, ich muss Googleboot verwenden, um meine Site jetzt zu indizieren (es ist eine Business-Site), aber anscheinend kann ich nichts tun, warte nur, ohne zu wissen, wie lange. Es ist so frustrierend!

Antworten:

8

Es scheint, dass Google den Cache Ihrer robots.txt-Datei wahrscheinlich noch nicht aktualisiert hat. Ihre aktuelle robots.txt-Datei (oben) sieht nicht so aus, als ob sie Ihre Sitemap-URL blockieren sollte.

Ich denke, Google hat seinen Cache gerade nicht aktualisiert.

Es besteht kein Grund zu raten. In den Google Webmaster-Tools (GWT) unter "Gesundheit"> "Blockierte URLs" können Sie sehen, wann Ihre robots.txt zuletzt heruntergeladen wurde und ob sie erfolgreich war. Außerdem erfahren Sie, wie viele URLs von der Datei robots.txt blockiert wurden.

robots.txt-Referenz in den Google Webmaster-Tools

Wie in meinen Kommentaren erwähnt, verfügt GWT über ein robots.txt-Prüftool ("Health"> "Blocked URLs"). So können Sie Änderungen an Ihrer robots.txt sofort testen (ohne Ihre eigentliche Datei zu ändern). Geben Sie die robots.txt-Datei im oberen Textbereich und die URLs an, die Sie im unteren Textbereich testen möchten, und Sie erfahren, ob sie blockiert sind oder nicht.


Caching von robots.txt

Eine robots.txt-Anforderung wird im Allgemeinen bis zu einem Tag zwischengespeichert, kann jedoch in Situationen, in denen eine Aktualisierung der zwischengespeicherten Version nicht möglich ist (z. B. aufgrund von Zeitüberschreitungen oder 5xx-Fehlern), länger zwischengespeichert werden. Die zwischengespeicherte Antwort kann von verschiedenen Crawlern gemeinsam genutzt werden. Google kann die Cache-Lebensdauer basierend auf den CTP-Control-HTTP-Headern mit maximalem Alter erhöhen oder verringern.

Quelle: Google Developers - Robots.txt-Spezifikationen

Herr weiß
quelle
Könnte das 24 Stunden später noch der Fall sein?
Gaia
Was ist das "Downloaded" -Datum, wie in den Webmaster-Tools angegeben? Das wird Ihnen sagen, ob dies immer noch der Fall ist . Wie im obigen Screenshot (von einer meiner Websites) gezeigt, wurde die robots.txt-Datei zuletzt am "3. September 2012" (vor 3 Tagen) heruntergeladen. In meinem Fall muss die Datei jedoch nicht erneut heruntergeladen werden, da sich nichts geändert hat (der Header "Zuletzt geändert" sollte identisch sein). Wie oft Google Ihre robots.txt-Datei abruft, hängt von den von Ihrem Server festgelegten Headern "Expires" und "Last-Modified" ab.
MrWhite
Vor 22 Stunden heruntergeladen und läuft ab Header sagt +24 Stunden. Ich werde es in ein paar Stunden noch einmal versuchen, es sollte gelöst sein!
Gaia
Das hat es nicht getan. Google verwendet die neue Sitemap, aber es wird immer noch nach der alten robots.txt-Regel (die alles außerhalb der Grenzen hielt)
Gaia
"Das hat es nicht getan" - hat Google den Cache Ihrer robots.txt-Datei noch nicht aktualisiert? Obwohl Sie sagen, dass Sie die Datei vor mehr als 36 Stunden geändert haben und sie vor 22 Stunden als heruntergeladen gemeldet wurde?! Was sehen Sie, wenn Sie auf den Link zu Ihrer robots.txt-Datei klicken?
MrWhite
2

Ich hatte das gleiche Problem mit meiner Site, weil ich während der Installation von WP nicht mit Suchmaschine oder der gleichen Option verfolgen wähle.

So beheben Sie dieses Problem:

  1. Gehen Sie zu Webmaster Tools Crawls URL entfernen und senden Sie Ihre www.example.com/robots.txtmit dieser Option -> aus dem Cach entfernen, um Inhalte zu ändern oder ...
  2. warte eine Minute
  3. Senden Sie Ihre Sitemap-URL erneut
  4. Fertig
Mohammad
quelle