robots.txt nicht aktualisiert

7

Ich habe einige URLs und Dateien in der robots.txt-Datei aktualisiert, um URLs und Dateien aus den Google-Suchergebnissen zu blockieren, aber immer noch Dateien, die in den Suchergebnissen angezeigt werden. Gemäß einem Vorschlag von einer Site habe ich versucht, die robots.txt durch die folgenden Schritte zu aktualisieren.

  1. Geben Sie in den Google Webmaster-Tools Gesundheit -> Als Google abrufen -> die URL ein und klicken Sie auf die Schaltfläche Abrufen.

Es werden jedoch weiterhin Dateien in den Suchergebnissen angezeigt.

Hinweis: In den Google Webmaster-Tools wird das Download-Datum "Gesundheit -> Blockierte URLs -> robots.txt-Datei - zwei Daten zurückverfolgt."

Haridharan
quelle

Antworten:

11

Es dauert einige Zeit, bis Googlebot Ihre Website gecrawlt hat. Diese Zeitspanne kann unter anderem abhängig von der Anzahl der Links zu Ihrer Website variieren. Nachdem Ihre Site gecrawlt wurde, werden die URLs in der Datei robot.txt aktualisiert.

Mike
quelle
2
+1 Dies dauert normalerweise Stunden bis Tage, kann aber auch länger dauern.
Chris S
5

robots.txt gibt nur an, wie Google Ihre Website crawlen soll oder nicht. Wie Mike sagte, dauert es lange, bis die Seiten aus dem Index entfernt sind, wenn Sie sich ausschließlich auf diesen Vektor verlassen.

Sie müssen also auch eine Entfernungsanforderung stellen, wenn dies schneller erfolgen soll und Google die Seiten aus dem Index entfernen soll. Wenn Sie sich in den Webmaster-Tools befinden, gehen Sie zu Optimization > Remove URLsund befolgen Sie die Anweisungen.

Geben Sie hier die Bildbeschreibung ein

Anthony Hatzopoulos
quelle
3

Robots.txt kann nur eine Suchmaschine verhindern , kriecht , wird es nicht die Indizierung verhindern , wenn die Seite oder Datei - Links von Seiten, intern oder extern auf Ihrer Website hat, die gecrawlt werden kann .

Um absolut sicher zu sein, dass eine Seite nicht indiziert wird, bewerben Sie sich <meta name="robots" content="noindex">. Verwenden Sie für Nicht-HTML-Inhalte wie Bilder von PDFs den entsprechenden HTTP-Header : X-Robots-Tag: noindex.

Wenn Sie diese Methoden verwenden, müssen Sie keine Anfragen an Google senden, um sie für Sie zu entfernen.

Weitere Diskussion über beide von Google hier .

GDav
quelle
+1 für tolle Infos. Für diejenigen, die ein vorlagenbasiertes Site-Design und keine statischen HTML-Seiten haben, sollten sie darauf achten, dass sie nicht versehentlich ihre gesamte Site deindexieren. Daher ist einige Programmierung zur Auswahl von Seiten erforderlich, um diesen Weg zu gehen. Auch für beliebte CMS wie WordPress und Drupal gibt es Plugins / Erweiterungen, um das zu erreichen, was GDav ebenfalls vorgeschlagen hat.
Anthony Hatzopoulos
Hallo GDav Danke für deine Antwort. Wenn der Nicht-HTML-Inhalt nicht bearbeitet werden kann (wie das E-Book-PDF-Format), wie können wir dann den Header festlegen?
Haridharan
@ Haridharan bit.ly/Xh6vw2
GDav
0

Möglicherweise befindet sich dieser Link in der indizierten Datenbank von Google. Machen Sie sich keine Sorgen, wenn es aus der Google-Datenbank entfernt wurde und nicht in SERPs angezeigt wird.

Smart Jazz
quelle