Ich habe ein Unterverzeichnis, das ich vor den Suchmaschinen-Webcrawlern verstecken möchte.
Eine Möglichkeit, dies zu tun, ist die Verwendung von a robots.txt
im Stammverzeichnis des Servers (die Standardmethode). Jeder, der die URL der Website kennt und über grundlegende Webkenntnisse verfügt, kann auf den Inhalt von robots.txt zugreifen und die unzulässigen Verzeichnisse aufspüren.
Ich habe mir überlegt, wie ich das vermeiden kann, bin mir aber nicht sicher, ob es funktionieren wird.
Sei X
der Name des Unterverzeichnisses, das ich ausschließen möchte. Eine Möglichkeit, die Indizierung des X
Verzeichnisses durch Web Crawler zu stoppen und gleichzeitig die Identifizierung des X
Verzeichnisses durch Root zu erschweren robots.txt
, besteht darin, das robots.txt
im X
Verzeichnis anstelle des Root-Verzeichnisses hinzuzufügen .
Wenn ich dieser Lösung folge, habe ich folgende Fragen:
- Finden die Web Crawler das
robots.txt
im Unterverzeichnis? (vorausgesetzt, es gibtrobots.txt
bereits ein und auch im Stammverzeichnis) Wenn
robots.txt
sich imX
Unterverzeichnis befindet, sollte ich dann relative oder absolute Pfade verwenden ?:User-agent: * Disallow: /X/
oder
User-agent: * Disallow: /
quelle
Antworten:
Nein, Webcrawler lesen oder befolgen keine robots.txt-Datei in einem Unterverzeichnis. Wie auf der quasi-offiziellen Website robotstxt.org beschrieben :
oder auf den Hilfeseiten von Google ( Hervorhebung meiner):
In jedem Fall ist es eine schlechte Idee, robots.txt zu verwenden, um sensible Seiten vor Suchergebnissen zu verbergen, da Suchmaschinen in robots.txt nicht zugelassene Seiten indizieren können , wenn andere Seiten auf sie verlinken. Oder wie auf der oben verlinkten Google-Hilfeseite beschrieben:
Also, was solltest du stattdessen tun?
Sie können die Seiten von Suchmaschinen crawlen lassen (sofern sie diese finden), dem Inhalt jedoch ein Robots-Meta-Tag hinzufügen
noindex,nofollow
. Dies weist die Suchmaschinen an, diese Seiten nicht zu indizieren, selbst wenn sie Links zu ihnen finden, und keine weiteren Links von diesen Seiten zu verfolgen. (Dies funktioniert natürlich nur für HTML-Webseiten.)Für Nicht-HTML-Ressourcen können Sie Ihren Webserver (z. B. mithilfe einer
.htaccess
Datei) so konfigurieren , dass der X-Robots-Tag-HTTP-Header mit demselben Inhalt gesendet wird.Sie können die Kennwortauthentifizierung einrichten, um die vertraulichen Seiten zu schützen. Sie schützt die Seiten nicht nur vor unbefugten menschlichen Besuchern, sondern hält auch Webcrawler effektiv fern.
quelle
Sie
robots.txt
sollten sich im Stammverzeichnis befinden und keinen anderen Namen haben. Nach der Standardspezifikation :quelle
/robots.txt
ist der Standard, also wie würden Suchmaschinen überhaupt wissen, wo sie anders suchen müssen?Sie KÖNNEN tatsächlich eine robots.txt in einem Unterverzeichnis verwenden. So behandeln wir derzeit unsere Sprach-Subdomains. Wir verwenden eine 301-Weiterleitung von der Datei /robots.txt zu einer Datei /lang/robots.txt (pro Unterdomäne), und die Weiterleitung wird korrekt durchgeführt.
Bei Verwendung eines einfachen Schrägstrichs wird auch die Ordnerstruktur als korrektes Stammverzeichnis übernommen. z.B. verbieten: /
wird so behandelt, als würde alles verboten und nicht nur das aktuelle Unterverzeichnis, in dem sich die Datei {redirected} robots.txt befindet.
Aber auch hier leiten wir mit einer 301 um und haben diese installiert. Ohne eine 301 würde sie wahrscheinlich nie gefunden werden ...
quelle