Wenn ich kein spezielles Verhalten festlegen möchte, ist es in Ordnung, wenn ich keine robots.txt-Datei benötige?

29

Wenn ich kein spezielles Verhalten festlegen möchte, ist es in Ordnung, wenn ich keine robots.txt-Datei benötige?

Oder kann das Fehlen eines schädlich sein?

Dan Dumitru
quelle

Antworten:

30

Das Fehlen einer robots.txt-Datei ist nicht schädlich. Von der robotstxt.org-Website :

Um allen Robotern den vollständigen Zugriff zu ermöglichen

User-Agent: *
Verbieten:

(oder erstelle einfach eine leere "/robots.txt" -Datei oder verwende gar keine)

Selbst wenn Sie in Ihrer robots.txt-Datei nichts angeben, können Sie Suchmaschinen auf diese Weise über den Speicherort Ihrer XML-Sitemap informieren . Sie können dies tun, indem Sie oben in Ihrer robots.txt-Datei eine Zeile einfügen, die ungefähr so ​​aussieht:

Sitemap: http://www.example.com/sitemap-host1.xml

Sie sollten sich auch darüber im Klaren sein, dass bei Nichtvorhandensein viele 404-Einträge in Ihren Webprotokollen erstellt werden.

JasonBirch
quelle
+1 - gute Zusammenfassung, obwohl ich wirklich betonen möchte, was Kinopiko bereits richtig betont hat : Erstellen Sie einfach die einfachste oder sogar eine leere, um diese 404- Fehler zu vermeiden und (abhängig von der Verarbeitung Ihrer 404-Seiten auf Ihrer Website) möglicherweise ziemlich viel Verkehr / Bandbreite . Da Suchmaschinen die richtige HTTP-Cache-Steuerung anwenden, wird das erneute Herunterladen der Datei übersprungen, wenn sie unverändert bleibt , sei es leer oder nicht.
Steffen Opel
Als Wiki markiert, bitte nach Belieben bearbeiten.
JasonBirch
21

Wenn Sie keine "robots.txt" haben, enthält Ihr Fehlerprotokoll viele 404-Werte in der Datei, was ärgerlich sein kann, ähnlich wie wenn Sie kein Favicon haben.


quelle
1
ein ausgezeichneter Punkt ..
Jeff Atwood
1
+1 - Ich möchte hinzufügen, dass Sie sich nicht nur vor größeren und verrauschten Protokolldateien schützen, sondern (abhängig von der Verarbeitung der 404-Seiten Ihres Standorts) möglicherweise auch einiges an Verkehr / Bandbreite vermeiden können, da die meisten 404-Seiten vorhanden sind Größer als eine einfache robots.txtDatei, die außerdem aufgrund von Suchmaschinen, die eine ordnungsgemäße HTTP-Cache-Steuerung anwenden, seltener heruntergeladen wird .
Steffen Opel,
6

Ich denke , es wäre hat in Ordnung sein, sonst große Schwaden der Bahn un-Wende von Web - Spider wären.

Nein robots.txtist robots.txtfast per Definition dasselbe wie "Indizierung durch alle zulassen" .

Jeff Atwood
quelle
2

Das Fehlen einer robots.txt-Datei überlässt es dem Crawler zu entscheiden, was er kann und was nicht. Da es nur Sekunden dauert, um jede Art von Zweideutigkeit zu vermeiden, warum nicht einfach eine erstellen, mit der alle Agenten auf alles zugreifen können?

Tim Post
quelle
0

Nun, da robots.txtdie Adresse Ihrer Sitemap enthalten ist, ist es möglicherweise schädlich, wenn Sie keine Sitemap haben.

Thomas Bonini
quelle
Sitemaps sind jedoch nur für bestimmte Arten von Websites hilfreich, IMO
Jeff Atwood
Ich habe auch Crawler gesehen (insbesondere Google), die in Abwesenheit von robots.txt nach /sitemap.xml oder /sitemap.gz gesucht haben
Tim Post
Sie brauchen Ihre Sitemap nicht in Ihrer robots.txt zu haben, Sie können sie trotzdem an Google / Yahoo / Bing senden. Es ist definitiv nicht "potentiell schädlich".
DisgruntledGoat
0

Abhängig von Ihrem Inhalt sollte es keine Probleme geben, wenn Sie keine Robots-Datei haben, solange Sie nicht alle Seiten Ihrer Website von Suchmaschinen indiziert haben.

Seanl
quelle