Was ist eine mindestens gültige robots.txt-Datei?

14

Ich mag es nicht, dass ich viele 404-Fehler im access.log meines Webservers sehe . Ich erhalte diese Fehler, weil Crawler versuchen, eine robots.txt- Datei zu öffnen , aber keine finden konnten. Daher möchte ich eine einfache robots.txt- Datei platzieren, die verhindert, dass die 404-Fehler in meiner Protokolldatei angezeigt werden.

Was ist eine mindestens gültige robots.txt- Datei, mit der alles auf der Site gecrawlt werden kann?

Bessarabov
quelle

Antworten:

17

Erstellen Sie wie hier angegeben eine Textdatei mit dem Namen robots.txt im obersten Verzeichnis Ihres Webservers. Sie können es leer lassen oder hinzufügen:

User-agent: *
Disallow:

Wenn Sie möchten, dass Roboter alles kriechen . Wenn nicht, finden Sie unter dem obigen Link weitere Beispiele.

dan
quelle
Warum sollte "Disallow:" und nicht nur "Allow: *" hinzugefügt werden?
Athoxx
2
Mit @Patrik "Allow" können Sie alle vorherigen "Disallow" -Anweisungen überschreiben. Es ist bedeutungslos, wenn es kein "Verbieten" gibt. Ehrlich gesagt ist die beste Lösung eine leere Datei.
DisgruntledGoat
2
Ah ich sehe. Ich stimme auch zu, dass eine leere Datei die beste ist.
Athoxx
2
@PatrikAlienus Da "Zulassen" nicht in der robots.txt-Spezifikation enthalten ist.
user11153
1
@ user11153: Huh? Was ist mit Abschnitt "3.2.2 Zulassen und Verbieten von Leitungen" der Internet Draft-Spezifikation von 1997 (A Method for Web Robots Control) ?
David Cary
2

Das beste Minimum robots.txtist eine vollständig leere Datei.

Alle anderen "Null" -Anweisungen wie eine leere Disallowoder Allow: *sind nicht nur nutzlos, weil sie No-Ops sind, sondern auch unnötige Komplexität hinzufügen.

Wenn Sie nicht möchten, dass die Datei vollständig leer ist oder dass sie besser lesbar ist, fügen Sie einfach einen Kommentar hinzu, der mit dem #Zeichen beginnt , z # blank file allows all. Crawler ignorieren Zeilen, die mit beginnen #.

Maximillian Laumeister
quelle
0

Ich würde das sagen;

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Dadurch kann Google alles crawlen, Google kann jedoch nicht das Cadminn-Panel crawlen. Welches ist eine ideale Situation für Sie.

Fahad Ur Rehman Khan
quelle
2
Möglicherweise fehlt mir etwas, aber ich glaube nicht, dass der Fragesteller angegeben hat, dass er Wordpress verwendet.
Maximillian Laumeister