Zwischenspeichert Google robots.txt?

17

Ich habe vor einer Woche eine robots.txt- Datei zu einer meiner Websites hinzugefügt , die Googlebot daran hindern sollte, bestimmte URLs abzurufen. An diesem Wochenende kann ich jedoch feststellen, dass Googlebot genau diese URLs lädt.

Zwischenspeichert Google die Datei robots.txt und sollte dies der Fall sein?

Quog
quelle

Antworten:

13

Es wird dringend empfohlen, Ihre Website bei Google Search Console (zuvor Google Webmaster Tools) zu registrieren . Unter der Site-Konfiguration befindet sich ein Crawler-Zugriffsabschnitt, der Ihnen anzeigt, wann Ihre robots.txt zuletzt heruntergeladen wurde. Das Tool bietet auch viele Details dazu, wie die Crawler Ihre Website sehen, was blockiert ist oder nicht funktioniert und wo Sie in Google-Abfragen angezeigt werden.

Nach allem, was ich sagen kann, lädt Google die robots.txt häufig herunter . Auf der Google Search Console-Website können Sie auch URLs gezielt aus dem Index entfernen, sodass Sie diejenigen entfernen können, die Sie jetzt blockieren.

Danivovich
quelle
2
Ich habe die Webmaster-Tools überprüft: Die robots.txt-Datei ist gültig und wurde zuletzt 17 Stunden vor dem letzten Besuch dieser Seiten durch Googlebot abgerufen. Ich vermute, es ist eine Frage der Verbreitung durch das Google-Netzwerk - schließlich werden alle Googlebot-Server die Anweisungen in der Datei robots.txt einhalten.
Quog
Der Google-Bot verwendet die robots.txt nicht so oft, wie Aktualisierungen in der Suchkonsole gemeldet werden. Es ist vier Wochen her, seit ich ein Update gemacht habe, und der Google-Bot verwendet immer noch eine schlechte robots.txt - und es zerstört unseren Traffic und unsere Platzierungen.
Corporate Geek
3

Beharren. Ich habe von robots.txt zu meta noindex gewechselt, nofollow. Damit das Meta funktioniert, mussten die gesperrten Adressen in robots.txt erst entsperrt werden.

Ich habe das brutal getan, indem ich die robots.txt komplett gelöscht habe (und sie in Googles Webmaster gelöscht habe).

Das Entfernen von robots.txt im Webmaster-Tool (Anzahl der blockierten Seiten) dauerte 10 Wochen, von denen der Großteil in den letzten 2 Wochen nur von Google entfernt wurde.

araldh
quelle
Ich stimme Ihnen eher zu. Wir haben einen Fehler gemacht und die robots.txt-Datei falsch aktualisiert. Google hat es zwischengespeichert und verwendet es vier Wochen, nachdem wir den Fehler behoben und durch eine neue robots.txt ersetzt haben. Ich habe sogar manuell eine Aktualisierungsanforderung in den Google Webmaster-Tools gesendet und ... nichts. Das ist wirklich schlimm, da es zu Datenverlust und Platzierungen führt. :(
Corporate Geek
2

Ja, Google speichert die Datei robots.txt in gewissem Umfang zwischen - sie wird nicht jedes Mal heruntergeladen, wenn eine Seite angezeigt werden soll. Wie lange es es zwischenspeichert, weiß ich nicht. Wenn Sie jedoch einen langen Expires-Header festgelegt haben, kann es sein, dass Googlebot die Datei viel länger überprüft.

Ein weiteres Problem könnte eine falsch konfigurierte Datei sein. In den von danivovich vorgeschlagenen Webmaster-Tools gibt es einen robots.txt- Checker. Hier erfahren Sie, welche Seitentypen gesperrt sind und welche in Ordnung sind.

Verärgerte Ziege
quelle
Siehe Kommentar zu dieser Antwort webmasters.stackexchange.com/questions/2272/...
Quog
2
@Quog: Sehen Sie sich das aktuelle Video an: youtube.com/watch?v=I2giR-WKUfY Matt Cutts schlägt vor, dass robots.txt entweder einmal am Tag oder etwa alle 100 Anforderungen heruntergeladen wird.
DisgruntledGoat
2

In der Google-Dokumentation wird angegeben, dass die Datei robots.txt normalerweise einen Tag lang zwischengespeichert wird, sie jedoch möglicherweise länger verwendet wird, wenn beim Versuch, sie zu aktualisieren, Fehler auftreten.

Eine robots.txt-Anforderung wird im Allgemeinen bis zu einem Tag zwischengespeichert, kann jedoch in Situationen länger zwischengespeichert werden, in denen das Aktualisieren der zwischengespeicherten Version nicht möglich ist (z. B. aufgrund von Zeitüberschreitungen oder 5xx-Fehlern). Die zwischengespeicherte Antwort kann von verschiedenen Crawlern gemeinsam genutzt werden. Google kann die Cache-Lebensdauer basierend auf maximal veralteten HTTP-Headern für die Cache-Steuerung verlängern oder verkürzen.

Stephen Ostermiller
quelle
1

Ja. Sie sagen, dass sie es in der Regel einmal am Tag aktualisieren, aber einige haben vorgeschlagen, dass sie es möglicherweise auch nach einer bestimmten Anzahl von Seitenzugriffen (100?) Überprüfen, damit geschäftigere Websites häufiger überprüft werden.

Siehe /webmasters//a/29946 und das Video, das @DisgruntedGoat über http://youtube.com/watch?v=I2giR-WKUfY geteilt hat .

Studgeek
quelle
1

Was ich im benutzerzugänglichen Cache sehen kann, ist, dass Sie die URL Ihrer robots.txt- Datei in eine Google-Suche eingeben, dann auf den kleinen grünen Dropdown-Pfeil klicken und auf "zwischengespeichert" klicken (siehe Bild unten). Dadurch erhalten Sie die neueste Version dieser Seite von Googles-Servern.

Bildbeschreibung hier eingeben

Sam
quelle
-2

Sie können die Entfernung mit dem URL-Entfernungs-Tool von Google anfordern .

KOZASHI SOUZA
quelle
Dies beantwortet die Frage nicht.
MrWhite
Warum nicht die Antwort?
KOZASHI SOUZA
Da ist die Frage speziell über robots.txt, Caching und kriecht von URLs. Dies könnte dazu führen, dass URLs nicht indiziert sind, aber das ist nicht die Frage. (Googles Tool zum Entfernen von URLs ist ebenfalls nur eine "vorübergehende" Korrektur. Sie müssen noch weitere Schritte
ausführen