Ich habe einige Seiten auf meiner Website, von denen ich Suchmaschinen fernhalten möchte, daher habe ich sie in meiner robots.txt
Datei wie folgt deaktiviert :
User-Agent: *
Disallow: /email
Vor kurzem habe ich jedoch festgestellt, dass Google immer noch manchmal Links zu diesen Seiten in den Suchergebnissen zurückgibt. Warum passiert das und wie kann ich es stoppen?
Hintergrund:
Vor einigen Jahren habe ich eine einfache Website für einen Club erstellt, an dem ein Verwandter von mir beteiligt war. Sie wollten E-Mail-Links auf ihren Seiten haben, damit diese E-Mail-Adressen nicht zu viele werden Anstatt direkte mailto:
Links zu verwenden, habe ich diese Links auf ein einfaches Redirector / Address Harvester-Trap- Skript verweisen lassen, das auf meiner eigenen Site ausgeführt wird. Dieses Skript gibt entweder eine 301-Weiterleitung an die tatsächliche mailto:
URL zurück oder, falls ein verdächtiges Zugriffsmuster festgestellt wird, eine Seite mit vielen zufälligen gefälschten E-Mail-Adressen und Links zu weiteren derartigen Seiten. Um legitime Such-Bots von der Falle fernzuhalten, habe ich die oben robots.txt
gezeigte Regel eingerichtet und den gesamten Platz von legitimen Redirector-Links und Trap-Seiten gesperrt.
Erst kürzlich suchte einer der Clubmitglieder bei Google nach seinem eigenen Namen und war ziemlich überrascht, als auf der ersten Seite ein Link zum Redirector-Skript mit einem Titel, der aus der E-Mail-Adresse bestand, angezeigt wurde bei meinem Namen. Natürlich haben sie mir sofort eine E-Mail geschickt und wollten wissen, wie sie ihre Adresse aus dem Google-Index entfernen können. Ich war auch ziemlich überrascht, da ich keine Ahnung hatte, dass Google solche URLs überhaupt indizieren würde, was anscheinend gegen meine robots.txt
Regel verstößt.
Ich habe es geschafft, einen Antrag auf Entfernung bei Google einzureichen, und es hat anscheinend funktioniert, aber ich möchte wissen, warum und wie Google meinen Antrag umgeht robots.txt
und wie sichergestellt werden kann, dass keine der nicht zugelassenen Seiten in ihrem Blog angezeigt wird Suchergebnisse.
Ps. Ich habe tatsächlich eine mögliche Erklärung und Lösung gefunden, die ich unten posten werde, während ich diese Frage vorbereite, aber ich dachte, ich würde es trotzdem fragen, falls jemand anderes das gleiche Problem hat. Bitte zögern Sie nicht, Ihre eigenen Antworten zu posten. Ich würde auch gerne wissen, ob dies auch andere Suchmaschinen tun und ob die gleichen Lösungen auch für sie funktionieren.
quelle
robots.txt
Akte ist wie ein kleines "No Trespassing" -Schild neben einer Auffahrt. Es ist keine Zauberei, und (es sei denn, ein Besucher sucht ausdrücklich danach) er kann auf Ihr Grundstück wandern, ohne auch nur geringfügig von dessen Existenz betroffen zu sein. Es gibt Internet-Äquivalente von Scheinwerfern und Stacheldrahtzäunen, aber wenn das das ist, was Sie wollen,robots.txt
ist es nicht so.Antworten:
Es scheint, dass Google absichtlich URLs
robots.txt
in den Index aufnimmt, die nicht zulässig sind, wenn Links zu diesen URLs von anderen von ihnen gecrawlten Seiten vorhanden sind. So zitieren Sie die Hilfeseiten ihrer Webmaster-Tools :Offenbar interpretiert Google eine
Disallow
Anweisungrobots.txt
als Verbot , die Seite zu crawlen und nicht zu indizieren . Ich nehme an, dass dies eine technisch gültige Interpretation ist, auch wenn es für mich nach Regeln riecht.In diesem Interview-Artikel gibt Matt Cutts von Google ein bisschen mehr Hintergrundwissen und liefert eine vernünftig klingende Erklärung dafür, warum sie dies tun:
Die auf beiden Seiten empfohlene Lösung besteht darin , den Seiten, die nicht indiziert werden sollen , ein
noindex
Meta-Tag hinzuzufügen . (DerX-Robots-Tag
HTTP-Header sollte auch für Nicht-HTML-Seiten funktionieren. Ich bin mir jedoch nicht sicher, ob er bei Weiterleitungen funktioniert.) Paradoxerweise bedeutet dies, dass Sie Googlebot erlauben müssen , diese Seiten zu crawlen (indem Sie sie entwederrobots.txt
vollständig entfernen oder durch Hinzufügen eines separaten, freizügigeren Regelwerks für Googlebot), da sonst das Meta-Tag überhaupt nicht angezeigt wird.Ich habe mein Redirect- / Spider-Trap-Skript so bearbeitet, dass sowohl das Meta-Tag als auch der
X-Robots-Tag
Header mit dem Wertnoindex,nofollow
gesendet werden. Googlebot konnte die URL des Skripts in meinem crawlenrobots.txt
. Wir werden sehen, ob es funktioniert, wenn Google meine Website neu indiziert.quelle
Zwar sollte dies Google (und die guten Bots) daran hindern, diese Seiten zu crawlen und ihren Inhalt zu lesen, sie können jedoch in den SERPs einen URL-Link nur anzeigen, wenn sie mit der folgenden Form verknüpft sind:
Wie Sie sehen, gibt es keinen Titel oder eine Beschreibung, sondern nur die URL. Natürlich werden solche Ergebnisse normalerweise in den SERPs ausgelassen, es sei denn, Sie suchen explizit danach.
Und wie Sie in Ihrer Antwort erwähnt haben, müssen Sie, wenn die URL in den SERPs überhaupt nicht angezeigt werden soll, Robots zulassen, aber ein Noindex-Metatag einschließen.
quelle