Warum enthalten die Google-Suchergebnisse Seiten, die in robots.txt nicht zulässig sind?

18

Ich habe einige Seiten auf meiner Website, von denen ich Suchmaschinen fernhalten möchte, daher habe ich sie in meiner robots.txtDatei wie folgt deaktiviert :

User-Agent: *
Disallow: /email

Vor kurzem habe ich jedoch festgestellt, dass Google immer noch manchmal Links zu diesen Seiten in den Suchergebnissen zurückgibt. Warum passiert das und wie kann ich es stoppen?

Hintergrund:

Vor einigen Jahren habe ich eine einfache Website für einen Club erstellt, an dem ein Verwandter von mir beteiligt war. Sie wollten E-Mail-Links auf ihren Seiten haben, damit diese E-Mail-Adressen nicht zu viele werden Anstatt direkte mailto:Links zu verwenden, habe ich diese Links auf ein einfaches Redirector / Address Harvester-Trap- Skript verweisen lassen, das auf meiner eigenen Site ausgeführt wird. Dieses Skript gibt entweder eine 301-Weiterleitung an die tatsächliche mailto:URL zurück oder, falls ein verdächtiges Zugriffsmuster festgestellt wird, eine Seite mit vielen zufälligen gefälschten E-Mail-Adressen und Links zu weiteren derartigen Seiten. Um legitime Such-Bots von der Falle fernzuhalten, habe ich die oben robots.txtgezeigte Regel eingerichtet und den gesamten Platz von legitimen Redirector-Links und Trap-Seiten gesperrt.

Erst kürzlich suchte einer der Clubmitglieder bei Google nach seinem eigenen Namen und war ziemlich überrascht, als auf der ersten Seite ein Link zum Redirector-Skript mit einem Titel, der aus der E-Mail-Adresse bestand, angezeigt wurde bei meinem Namen. Natürlich haben sie mir sofort eine E-Mail geschickt und wollten wissen, wie sie ihre Adresse aus dem Google-Index entfernen können. Ich war auch ziemlich überrascht, da ich keine Ahnung hatte, dass Google solche URLs überhaupt indizieren würde, was anscheinend gegen meine robots.txtRegel verstößt.

Ich habe es geschafft, einen Antrag auf Entfernung bei Google einzureichen, und es hat anscheinend funktioniert, aber ich möchte wissen, warum und wie Google meinen Antrag umgeht robots.txtund wie sichergestellt werden kann, dass keine der nicht zugelassenen Seiten in ihrem Blog angezeigt wird Suchergebnisse.

Ps. Ich habe tatsächlich eine mögliche Erklärung und Lösung gefunden, die ich unten posten werde, während ich diese Frage vorbereite, aber ich dachte, ich würde es trotzdem fragen, falls jemand anderes das gleiche Problem hat. Bitte zögern Sie nicht, Ihre eigenen Antworten zu posten. Ich würde auch gerne wissen, ob dies auch andere Suchmaschinen tun und ob die gleichen Lösungen auch für sie funktionieren.

Ilmari Karonen
quelle
1
"und wie Google meine robots.txt umgeht" Vermutlich wissen Sie das bereits (oder wie um alles in der Welt hätten Sie überhaupt eine Website einrichten können), aber für den Fall, dass ein unglücklicher Dummkopf durch die ... Die robots.txtAkte ist wie ein kleines "No Trespassing" -Schild neben einer Auffahrt. Es ist keine Zauberei, und (es sei denn, ein Besucher sucht ausdrücklich danach) er kann auf Ihr Grundstück wandern, ohne auch nur geringfügig von dessen Existenz betroffen zu sein. Es gibt Internet-Äquivalente von Scheinwerfern und Stacheldrahtzäunen, aber wenn das das ist, was Sie wollen, robots.txtist es nicht so.
Parthian Shot

Antworten:

25

Es scheint, dass Google absichtlich URLs robots.txtin den Index aufnimmt, die nicht zulässig sind, wenn Links zu diesen URLs von anderen von ihnen gecrawlten Seiten vorhanden sind. So zitieren Sie die Hilfeseiten ihrer Webmaster-Tools :

"Während Google den Inhalt von Seiten, die von robots.txt blockiert wurden, nicht crawlt oder indiziert, können wir die URLs dennoch indizieren, wenn wir sie auf anderen Seiten im Web finden. Infolgedessen die URL der Seite und möglicherweise auch andere." öffentlich zugängliche Informationen wie Ankertext in Links zur Website oder der Titel aus dem Open Directory-Projekt (www.dmoz.org) können in den Google-Suchergebnissen angezeigt werden. "

Offenbar interpretiert Google eine DisallowAnweisung robots.txtals Verbot , die Seite zu crawlen und nicht zu indizieren . Ich nehme an, dass dies eine technisch gültige Interpretation ist, auch wenn es für mich nach Regeln riecht.

In diesem Interview-Artikel gibt Matt Cutts von Google ein bisschen mehr Hintergrundwissen und liefert eine vernünftig klingende Erklärung dafür, warum sie dies tun:

"In der Anfangszeit wollten viele sehr beliebte Websites überhaupt nicht gecrawlt werden. Beispielsweise erlaubten eBay und die New York Times keiner Suchmaschine oder zumindest Google, Seiten daraus zu crawlen Library of Congress hatte verschiedene Bereiche, in denen angegeben wurde, dass Sie nicht mit einer Suchmaschine crawlen dürfen. Als jemand zu Google kam und eBay eingab, haben wir eBay nicht gecrawlt und konnten eBay nicht zurückgeben sah irgendwie suboptimal aus. Der Kompromiss, den wir uns einfallen ließen, war also, dass wir Sie nicht aus robots.txt crawlen würden, sondern die URL-Referenz, die wir gesehen haben, zurückgeben könnten. "

Die auf beiden Seiten empfohlene Lösung besteht darin , den Seiten, die nicht indiziert werden sollen , ein noindexMeta-Tag hinzuzufügen . (Der X-Robots-TagHTTP-Header sollte auch für Nicht-HTML-Seiten funktionieren. Ich bin mir jedoch nicht sicher, ob er bei Weiterleitungen funktioniert.) Paradoxerweise bedeutet dies, dass Sie Googlebot erlauben müssen , diese Seiten zu crawlen (indem Sie sie entweder robots.txtvollständig entfernen oder durch Hinzufügen eines separaten, freizügigeren Regelwerks für Googlebot), da sonst das Meta-Tag überhaupt nicht angezeigt wird.

Ich habe mein Redirect- / Spider-Trap-Skript so bearbeitet, dass sowohl das Meta-Tag als auch der X-Robots-TagHeader mit dem Wert noindex,nofollowgesendet werden. Googlebot konnte die URL des Skripts in meinem crawlen robots.txt. Wir werden sehen, ob es funktioniert, wenn Google meine Website neu indiziert.

Ilmari Karonen
quelle
5

Zwar sollte dies Google (und die guten Bots) daran hindern, diese Seiten zu crawlen und ihren Inhalt zu lesen, sie können jedoch in den SERPs einen URL-Link nur anzeigen, wenn sie mit der folgenden Form verknüpft sind:

Nur URL-Link in Google SERPs

Wie Sie sehen, gibt es keinen Titel oder eine Beschreibung, sondern nur die URL. Natürlich werden solche Ergebnisse normalerweise in den SERPs ausgelassen, es sei denn, Sie suchen explizit danach.

Und wie Sie in Ihrer Antwort erwähnt haben, müssen Sie, wenn die URL in den SERPs überhaupt nicht angezeigt werden soll, Robots zulassen, aber ein Noindex-Metatag einschließen.

Herr weiß
quelle