Ich mag es nicht, dass ich viele 404-Fehler im access.log meines Webservers sehe . Ich erhalte diese Fehler, weil Crawler versuchen, eine robots.txt- Datei zu öffnen , aber keine finden konnten. Daher möchte ich eine einfache robots.txt- Datei platzieren, die verhindert, dass die 404-Fehler in meiner Protokolldatei angezeigt werden.
Was ist eine mindestens gültige robots.txt- Datei, mit der alles auf der Site gecrawlt werden kann?
robots.txt
Bessarabov
quelle
quelle
Das beste Minimum
robots.txt
ist eine vollständig leere Datei.Alle anderen "Null" -Anweisungen wie eine leere
Disallow
oderAllow: *
sind nicht nur nutzlos, weil sie No-Ops sind, sondern auch unnötige Komplexität hinzufügen.Wenn Sie nicht möchten, dass die Datei vollständig leer ist oder dass sie besser lesbar ist, fügen Sie einfach einen Kommentar hinzu, der mit dem
#
Zeichen beginnt , z# blank file allows all
. Crawler ignorieren Zeilen, die mit beginnen#
.quelle
Ich würde das sagen;
Dadurch kann Google alles crawlen, Google kann jedoch nicht das Cadminn-Panel crawlen. Welches ist eine ideale Situation für Sie.
quelle