Es wird dringend empfohlen, Ihre Website bei Google Search Console (zuvor Google Webmaster Tools) zu registrieren . Unter der Site-Konfiguration befindet sich ein Crawler-Zugriffsabschnitt, der Ihnen anzeigt, wann Ihre robots.txt zuletzt heruntergeladen wurde. Das Tool bietet auch viele Details dazu, wie die Crawler Ihre Website sehen, was blockiert ist oder nicht funktioniert und wo Sie in Google-Abfragen angezeigt werden.
Nach allem, was ich sagen kann, lädt Google die robots.txt häufig herunter . Auf der Google Search Console-Website können Sie auch URLs gezielt aus dem Index entfernen, sodass Sie diejenigen entfernen können, die Sie jetzt blockieren.
Beharren. Ich habe von robots.txt zu meta noindex gewechselt, nofollow. Damit das Meta funktioniert, mussten die gesperrten Adressen in robots.txt erst entsperrt werden.
Ich habe das brutal getan, indem ich die robots.txt komplett gelöscht habe (und sie in Googles Webmaster gelöscht habe).
Das Entfernen von robots.txt im Webmaster-Tool (Anzahl der blockierten Seiten) dauerte 10 Wochen, von denen der Großteil in den letzten 2 Wochen nur von Google entfernt wurde.
quelle
Ja, Google speichert die Datei robots.txt in gewissem Umfang zwischen - sie wird nicht jedes Mal heruntergeladen, wenn eine Seite angezeigt werden soll. Wie lange es es zwischenspeichert, weiß ich nicht. Wenn Sie jedoch einen langen Expires-Header festgelegt haben, kann es sein, dass Googlebot die Datei viel länger überprüft.
Ein weiteres Problem könnte eine falsch konfigurierte Datei sein. In den von danivovich vorgeschlagenen Webmaster-Tools gibt es einen robots.txt- Checker. Hier erfahren Sie, welche Seitentypen gesperrt sind und welche in Ordnung sind.
quelle
In der Google-Dokumentation wird angegeben, dass die Datei robots.txt normalerweise einen Tag lang zwischengespeichert wird, sie jedoch möglicherweise länger verwendet wird, wenn beim Versuch, sie zu aktualisieren, Fehler auftreten.
quelle
Ja. Sie sagen, dass sie es in der Regel einmal am Tag aktualisieren, aber einige haben vorgeschlagen, dass sie es möglicherweise auch nach einer bestimmten Anzahl von Seitenzugriffen (100?) Überprüfen, damit geschäftigere Websites häufiger überprüft werden.
Siehe /webmasters//a/29946 und das Video, das @DisgruntedGoat über http://youtube.com/watch?v=I2giR-WKUfY geteilt hat .
quelle
Was ich im benutzerzugänglichen Cache sehen kann, ist, dass Sie die URL Ihrer robots.txt- Datei in eine Google-Suche eingeben, dann auf den kleinen grünen Dropdown-Pfeil klicken und auf "zwischengespeichert" klicken (siehe Bild unten). Dadurch erhalten Sie die neueste Version dieser Seite von Googles-Servern.
quelle
Sie können die Entfernung mit dem URL-Entfernungs-Tool von Google anfordern .
quelle