Wie konfigurieren Sie robots.txt so, dass das Crawlen der Site mit Ausnahme einiger Verzeichnisse möglich ist?

7

Was ist die beste anfängliche oder allgemeine Einrichtung für die robots.txt, damit Suchmaschinen die Site durchsuchen können, aber möglicherweise einige Ordner einschränken?

Gibt es ein allgemeines Setup, das immer verwendet werden sollte?

Mike
quelle
1
Es ist "robots.txt" (Plural)
Adam Tuttle
Vielen Dank. Ich habe den Titel und die Frage festgelegt, um dies widerzuspiegeln.
Mike

Antworten:

3

Die Google Webmaster-Tools haben einen Abschnitt namens "Crawler-Zugriff".

In diesem Abschnitt können Sie ganz einfach Ihre robots.txt erstellen

Um beispielsweise alles außer Blog zuzulassen, würde ein Ordner namens test your robot.txt ungefähr so ​​aussehen

User-agent: *
Disallow: /Test
Allow: /
Corymathews
quelle
Stellen Sie sicher, dass Sie auch dem Link in Jasons Antwort folgen, um weitere Informationen zu erhalten. webmasters.stackexchange.com/questions/89/...
JasonBirch
1
AllowDer ursprüngliche robots.txt-Standard enthält keine Direktive. Einige Crawler verstehen das jetzt, die meisten jedoch nicht. Da die Standardeinstellung Crawling zulässig ist, kann diese Zeile einfach weggelassen werden.
Stephen Ostermiller
1

Die beste Konfiguration, wenn Sie keine besonderen Anforderungen haben, ist überhaupt nichts. (Obwohl Sie zumindest eine leere Datei hinzufügen möchten, um zu vermeiden, dass 404s Ihre Fehlerprotokolle füllen.)

Verwenden Sie die 'Disallow'-Klausel, um ein Verzeichnis auf der Site zu blockieren:

User-agent: *
Disallow: /example/

Es gibt auch eine 'Allow'-Klausel, die frühere' Disallow'-Klauseln überschreibt. Wenn Sie den Ordner "example" nicht zugelassen haben, möchten Sie möglicherweise einen Ordner wie "example / foobar" zulassen.

Denken Sie daran, dass robots.txt niemanden daran hindert, diese Seiten zu besuchen, wenn er möchte. Wenn also einige Seiten geheim bleiben sollen, sollten Sie sie hinter einer Art Authentifizierung (dh einem Benutzernamen / Passwort) verstecken.

Die andere Anweisung, die wahrscheinlich in vielen robots.txt-Dateien enthalten ist, ist 'Sitemap', die den Speicherort Ihrer XML-Sitemap angibt, falls Sie eine haben. Setzen Sie es auf eine eigene Linie:

Sitemap: /sitemap.xml

Auf der offiziellen robots.txt-Website finden Sie viele weitere Informationen zu den verschiedenen Optionen. Im Allgemeinen benötigt die überwiegende Mehrheit der Websites jedoch nur sehr wenig Konfiguration.

DisgruntledGoat
quelle
0

Hier finden Sie alles, was Sie über die Datei robots.txt wissen müssen

Jason
quelle
Diese Link-Only-Antwort ist im Vergleich zu anderen viel besseren Antworten hier nicht sehr nützlich.
Stephen Ostermiller
-3

Sie können dazu das Google Webmaster-Tool verwenden. Das Google Webmaster-Tool ist sehr hilfreich, um robot.txt zu erstellen

Bhoomika
quelle
1
In der akzeptierten Antwort heißt es bereits, Google Webmaster-Tools zu verwenden. Es enthält auch weitere Details, z. B. den zu verwendenden Abschnitt und eine Beispieldatei robots.txt. Wenn Sie eine zusätzliche Antwort veröffentlichen, müssen Sie etwas hinzufügen, das über die vorhandenen Antworten hinausgeht. Auch wenn dies die einzige Antwort wäre, ist die Qualität nicht sehr hoch. Eine bessere Antwort hätte ein paar Absätze und einige Links als Referenz.
Stephen Ostermiller