Was ist die beste anfängliche oder allgemeine Einrichtung für die robots.txt, damit Suchmaschinen die Site durchsuchen können, aber möglicherweise einige Ordner einschränken?
Gibt es ein allgemeines Setup, das immer verwendet werden sollte?
seo
robots.txt
Mike
quelle
quelle
Antworten:
Die Google Webmaster-Tools haben einen Abschnitt namens "Crawler-Zugriff".
In diesem Abschnitt können Sie ganz einfach Ihre robots.txt erstellen
Um beispielsweise alles außer Blog zuzulassen, würde ein Ordner namens test your robot.txt ungefähr so aussehen
quelle
Allow
Der ursprüngliche robots.txt-Standard enthält keine Direktive. Einige Crawler verstehen das jetzt, die meisten jedoch nicht. Da die Standardeinstellung Crawling zulässig ist, kann diese Zeile einfach weggelassen werden.Die beste Konfiguration, wenn Sie keine besonderen Anforderungen haben, ist überhaupt nichts. (Obwohl Sie zumindest eine leere Datei hinzufügen möchten, um zu vermeiden, dass 404s Ihre Fehlerprotokolle füllen.)
Verwenden Sie die 'Disallow'-Klausel, um ein Verzeichnis auf der Site zu blockieren:
Es gibt auch eine 'Allow'-Klausel, die frühere' Disallow'-Klauseln überschreibt. Wenn Sie den Ordner "example" nicht zugelassen haben, möchten Sie möglicherweise einen Ordner wie "example / foobar" zulassen.
Denken Sie daran, dass robots.txt niemanden daran hindert, diese Seiten zu besuchen, wenn er möchte. Wenn also einige Seiten geheim bleiben sollen, sollten Sie sie hinter einer Art Authentifizierung (dh einem Benutzernamen / Passwort) verstecken.
Die andere Anweisung, die wahrscheinlich in vielen robots.txt-Dateien enthalten ist, ist 'Sitemap', die den Speicherort Ihrer XML-Sitemap angibt, falls Sie eine haben. Setzen Sie es auf eine eigene Linie:
Auf der offiziellen robots.txt-Website finden Sie viele weitere Informationen zu den verschiedenen Optionen. Im Allgemeinen benötigt die überwiegende Mehrheit der Websites jedoch nur sehr wenig Konfiguration.
quelle
Hier finden Sie alles, was Sie über die Datei robots.txt wissen müssen
quelle
Sie können dazu das Google Webmaster-Tool verwenden. Das Google Webmaster-Tool ist sehr hilfreich, um robot.txt zu erstellen
quelle