Wie verbietet man root in robots.txt, lässt aber ein Unterverzeichnis zu?

7

Wie können Sie mit robots.txt das Stammverzeichnis einer Site (http://www.example.com/) nicht zulassen, aber ein Unterverzeichnis (http://www.example.com/lessons/) zulassen?

David Smith
quelle

Antworten:

6
User-agent: *
Disallow: /
Allow: /lessons/
Allow: /other-dir/

Dies verbietet zwar die gesamte Website, lässt jedoch explizit bestimmte Verzeichnisse zu.

Floern
quelle
1
Sie sollten damit vorsichtig sein, da "Zulassen" eine inoffizielle "Erweiterung" des robots.txt-Standards ist. Ich glaube, alle großen Suchmaschinen unterstützen dies, aber kleinere oder andere Dienste ignorieren möglicherweise nicht die gesamte Website.
DisgruntledGoat
1
und Sie müssen das Zulassen zuerst als das
2

Sie müssen zuerst die Zulassungszeilen auflisten, wenn die Datei bei der ersten Übereinstimmung gelesen wird.

Um zu bewerten, ob der Zugriff auf eine URL zulässig ist, muss ein Roboter versuchen, die Pfade in den Zeilen "Zulassen" und "Nicht zulassen" mit der URL in der Reihenfolge abzugleichen, in der sie im Datensatz vorkommen. Die erste gefundene Übereinstimmung wird verwendet. Wenn keine Übereinstimmung gefunden wird, wird standardmäßig davon ausgegangen, dass die URL zulässig ist.

Referenz: http://www.robotstxt.org/norobots-rfc.txt

Google bietet ein Tool in Webmaster-Tools zum Testen Ihrer Datei. Ich empfehle immer, Ihre Datei zu testen. Siehe "Testen der robots.txt-Datei einer Site:" im unteren Bereich.

http://support.google.com/webmasters/bin/answer.py?hl=de&answer=156449

jeffatrackaid
quelle