Wofür ist das "beste" Setup robots.txt
?
Ich verwende die folgende Permalink-Struktur /%category%/%postname%/
.
Mein robots.txt
sieht momentan so aus (kopiert von irgendwo vor langer Zeit):
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */comments
- Ich möchte, dass meine Kommentare indiziert werden. Also kann ich das entfernen
- Möchte ich Indizierungskategorien aufgrund meiner Permalink-Struktur nicht zulassen?
- Ein Artikel kann mehrere Tags haben und sich in mehreren Kategorien befinden. Dies kann bei Suchanbietern wie Google zu Duplikaten führen. Wie soll ich das umgehen?
Würden Sie hier noch etwas ändern?
categories
search-engines
robots.txt
Steven
quelle
quelle
robots.txt
in mein WP-Verzeichnis gestellt.Antworten:
FWIW, Trackback-URLs geben Weiterleitungen aus und haben keinen Inhalt, sodass sie nicht indiziert werden.
Und auf die Gefahr hin, die Frage nicht zu beantworten, RE Ihre Punkte 2 und 3:
http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.html
Anders ausgedrückt, ich denke, Sie verschwenden Ihre Zeit damit, sich Gedanken über Dup-Inhalte zu machen, und Ihre robots.txt sollte beschränkt sein auf:
quelle
Viel Zeit, seit diese Frage und Antwort veröffentlicht wurden. Seitdem haben sich die Dinge sehr verändert. Die typische Empfehlung über disallow Crawlern Zugang
wp-content/themes
,wp-content/plugins
,wp-content/cache
,wp-includes
, und anderes Verzeichnis , das auf der Website benötigen CSS oder JS - Dateien enthält, nicht mehr gültig ist .Lassen Sie uns zum Beispiel über Google sprechen. Googlebot hat Websites ohne CSS und ohne js gerendert, aber eigentlich nicht. Tatsächlich erkennt Googlebot das gesamte Dokument und überprüft Dinge wie Reaktionsfähigkeit, Anzahl, Speicherort und Größe der Skripte usw. Google mag es also nicht, wenn Sie Googlebot den Zugriff auf CSS- und JS-Dateien untersagen. Das bedeutet , dass Sie sollten nicht verbieten
wp-content/themes
,wp-content/plugins
,wp-content/cache
undwp-includes
wegen all diese Ordner können CSS und JS - Dateien dienen.Aus meiner Sicht ist die beste robots.txt-Datei die von WordPress standardmäßig erstellte ( die folgende robots.txt ist die Standardeinstellung seit WP 4.0 ):
Wenn Sie einen cgi-bin-Ordner haben, ist es möglicherweise eine gute Idee, den cgi-bin-Ordner nicht zuzulassen:
Wenn Sie eine Sitemap verwenden, empfiehlt es sich, eine Sitemap-Referenz in robots.txt aufzunehmen (Sie müssen die Sitemap noch manuell an Google und die Bing Webmaster-Tools senden, die Referenz kann jedoch für andere Crawler nützlich sein):
Das ist im Allgemeinen. Bestimmte Websites müssen möglicherweise andere Ordner und Dateien nicht zulassen, die in jedem speziellen Fall untersucht werden sollten. Beispielsweise benötigen oder möchten Sie möglicherweise einen bestimmten Plugin-Ordner nicht zulassen:
Verwenden Sie zum Ändern der robots.txt den
robots_txt
Filter (mit einer echten robots.txt-Datei kann WordPress robots.txt nicht mehr verarbeiten). Zum Beispiel:quelle
wp-content/themes
. Dies war ein Problem für unsere Websites, da unsere Websites den " Mobile-Friendly Test " von Google nicht mehr bestanden haben und wir aus diesem Grund von einer wichtigen mobilen App für Nachrichtenaggregatoren ausgeschlossen wurden, obwohl unsere Websites vollständig reagierten.Haben Sie sich das WordPress SEO Plugin von Yoast angesehen ? Es behandelt definitiv Probleme mit robots.txt.
quelle
Mit ein bisschen Hilfe sind dies jetzt Minen (anscheinend nicht viel anders als alle anderen)
quelle
Sie sollten dem aktuellen Ansatz von Joost de Valk folgen, bei dem nur sehr wenig blockiert ist
robots.txt
, aber auch verstehen, dass jede Site eine einzigartig geeignete Richtlinie hat, die im Laufe der Zeit überprüft und geändert werden muss.Viele der hier zuvor gegebenen Antworten sind veraltet und führen zu SEO-Selbstsabotage, da Google jetzt nach "mobiler Freundlichkeit" sucht. Heute versuchen Googlebots, alles zu laden, was ein normaler Browser tut, einschließlich Schriftarten, Bilder, JavaScript und CSS-Assets aus / wp-Inhalten, / Themen, / Plugins usw. (Morten Rand-Hendriksen hat kürzlich darüber gebloggt .)
Sie können den "mobilfreundlichen" Website-Checker von Google verwenden, um herauszufinden, ob Ihre
robots.txt
Datei Ihre Website sabotiert. Wenn Sie die Google Webmaster-Tools verwenden, sollten Sie Benachrichtigungen und E-Mail-Benachrichtigungen erhalten, wenn ein großes Problem vorliegt.Sofern Sie nicht darauf achten, dass keine wichtigen Präsentations- oder interaktiven Elemente aus nicht zugelassenen Ordnern geladen werden, ist dies wahrscheinlich das absolute Minimum, mit dem jede WordPress-Installation sicher ist:
Und vergessen Sie nicht, eine Sitemap hinzuzufügen:
Leider schafft diese offenere Politik heute das Potenzial für andere Probleme, die früher dazu geführt haben, dass die Leute restriktiver waren
robots.txt
, wie [Plugin- und Theme-Entwickler, einschließlich indexierbarer Seiten mit Links zurück zu ihren eigenen Websites]. 4 Es gibt nichts zu tun, es sei denn, Sie können den gesamten Code von Drittanbietern mit einem feinen Zahnkamm durchforsten und Dinge verschieben oder entfernen, die nicht indiziert werden sollen.quelle
Zu Ihrer Information, beginnen Sie Ihren Permalink immer mit einer Nummer. Aus Erfahrung beschleunigt es die Seite, weil WordPress schnell zwischen einer Seite und einem Beitrag unterscheiden kann (ich habe das auch woanders gelesen und es dann ausprobiert ... und es ist wahr). also
http:example.com/%month%/%post%
... wird gutIch werde nur kopieren, was ich habe. Es wurde viel geforscht. Es ist wahrscheinlich übertrieben! Es hilft Google dabei, die Hauptschlüsselwörter Ihrer Website zu erkennen, die im Google Webmaster-Tool angezeigt werden. Ich hoffe es hilft
quelle