Meine robots.txt
Google Webmaster-Tools zeigen die folgenden Werte an:
User-agent: *
Allow: /
Was heißt das? Ich habe nicht genug Wissen darüber, also suche deine Hilfe. Ich möchte allen Robotern erlauben, meine Website zu crawlen. Ist dies die richtige Konfiguration?
robots.txt
Raajpoot
quelle
quelle
Antworten:
Diese Datei ermöglicht allen Crawlern den Zugriff
Dies ermöglicht grundsätzlich allen Benutzeragenten (das *) den Zugriff auf alle Teile der Site (das /).
quelle
Wenn Sie jedem Bot erlauben möchten, alles zu crawlen, können Sie dies am besten in Ihrer robots.txt angeben:
Beachten Sie, dass das
Disallow
Feld einen leeren Wert hat, was gemäß der Spezifikation bedeutet :Ihr Weg (mit
Allow: /
stattDisallow:
) funktioniert auch, ist aberAllow
nicht Teil der ursprünglichen robots.txt-Spezifikation , sodass er nicht von allen Bots unterstützt wird (viele beliebte unterstützen ihn jedoch, wie der Googlebot ). Das heißt, nicht erkannte Felder müssen ignoriert werden, und für Bots, die nicht erkennenAllow
, wäre das Ergebnis in diesem Fall ohnehin das gleiche: Wenn das Crawlen (mitDisallow
) nichts verboten ist, darf alles gecrawlt werden.Formal (gemäß der ursprünglichen Spezifikation) handelt es sich jedoch um einen ungültigen Datensatz, da mindestens ein
Disallow
Feld erforderlich ist:quelle
Ich verstehe, dass dies eine ziemlich alte Frage ist und einige ziemlich gute Antworten hat. Aber hier sind der Vollständigkeit halber meine zwei Cent.
Gemäß der offiziellen Dokumentation gibt es vier Möglichkeiten, wie Sie Robotern den vollständigen Zugriff auf Ihre Site ermöglichen können.
Reinigen:
Geben Sie einen globalen Matcher mit einem nicht zulässigen Segment an, wie von @unor angegeben. Du siehst also so
/robots.txt
aus.Der Hack:
Erstellen Sie eine
/robots.txt
Datei ohne Inhalt. Welches wird standardmäßig alle für alle Arten von zulassenBots
.Es ist mir egal, wie:
Erstellen Sie keine
/robots.txt
insgesamt. Welches sollte genau die gleichen Ergebnisse wie die beiden oben ergeben.Das hässliche:
In der Roboterdokumentation für Meta-Tags können Sie das folgende Meta-Tag auf allen Ihren Seiten Ihrer Site verwenden, um
Bots
mitzuteilen, dass diese Seiten nicht indiziert werden sollen.Damit dies auf Ihre gesamte Site angewendet werden kann, müssen Sie dieses Meta-Tag für alle Ihre Seiten hinzufügen. Und dieses Tag sollte unbedingt unter Ihrem
HEAD
Tag der Seite platziert werden. Mehr zu diesem Meta-Tag hier .quelle
Dies bedeutet, dass Sie jedem (
*
) Benutzeragenten / Crawler den Zugriff auf das Stammverzeichnis (/
) Ihrer Site erlauben . Du bist inordnung.quelle