Ich bin auf eine Ankündigung von Google gestoßen : http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html
Es sagt aus:
Für ein optimales Rendern und Indizieren legen wir in unserer neuen Richtlinie fest, dass Sie Googlebot Zugriff auf die von Ihren Seiten verwendeten JavaScript-, CSS- und Bilddateien gewähren sollten. Dies bietet Ihnen ein optimales Rendern und Indizieren für Ihre Site. Das Nicht-Crawlen von Javascript- oder CSS-Dateien in der robots.txt Ihrer Site beeinträchtigt direkt, wie gut unsere Algorithmen Ihre Inhalte rendern und indizieren, und kann zu suboptimalen Rankings führen.
Standardmäßig ist in Joomlas robots.txt-Datei Folgendes nicht zulässig:
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Bitte geben Sie an, ob wir die folgenden Elemente basierend auf der Ankündigung von Google aus der robots.txt-Datei entfernen sollen.
Disallow: /components/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Wird dies gemäß Ankündigung für Joomla-basierte Websites empfohlen?
robots.txt
da niemand (nicht einmal Suchmaschinen, jetzt, wo Google Anforderungen an das stellt, was Sie nicht verbieten sollten) es trotzdem befolgen wird?Antworten:
Ehrlich gesagt ist es besser, wenn Sie alles aus Ihrer robots.txt entfernen. Soweit ich sehen kann, enthalten alle PHP-Dateien in Joomla die Zeile
Das heißt, wenn Sie eine PHP-Datei direkt in den Browser laden, erhalten Sie nur eine leere Datei, die von Suchmaschinen ignoriert wird. (Sie sollten sowieso nie auf diese stoßen, es sei denn, Sie haben sie direkt verlinkt.)
Das Problem beim Blockieren einiger dieser Verzeichnisse besteht darin, dass einige Komponenten und Module ihre CSS / JS-Dateien in diesen jeweiligen Verzeichnissen und nicht in den bevorzugten Medien- oder Bildordnern aufbewahren.
Es gibt also keinen Grund, Joomla-Dateien von Google zu blockieren.
quelle
Abgesehen von der allgemeinen Verwendung / dem Fehlen derselben
robots.txt
in einer gut verwalteten Joomla-Site mit "guten" Erweiterungen von Drittanbietern - die einzigen Orte, die CSS, JS oder Bilder enthalten sollten, sind:und natürlich ihre Unterverzeichnisse .
Sie können diese also einfach entfernen
robots.txt
.quelle
In Joomla 3.3 wurden diese Zeilen aus der Datei robots.txt entfernt:
Weitere Infos hier: http://www.energizethemes.com/blog/joomla/have-you-updated-the-joomla-robots-txt-file.html
quelle
Wenn Sie Ihre Seiten beim Abrufen als Google in WMT fehlerfrei sehen, ist dies wahrscheinlich in Ordnung. In Zukunft können Sie jedoch einige Inhalte auf Ihrer Website aktualisieren, was einige Skripte / CSS von einigen blockierten Ordnern erfordert. Daher denke ich, dass Sie es besser finden könnten, Suchmaschinen das Crawlen all dieser Ordner mit CSS / JavaScript zu ermöglichen.
quelle
Die neuesten Versionen von Joomla blockieren die Ordner
/media/
und nicht mehr/templates/
:Nicht alle Erweiterungen halten sich an die Richtlinien, wo CSS- und JS-Dateien usw. abgelegt werden sollen. Eine gute Lösung besteht darin, Google den Zugriff auf diese Dateien zu ermöglichen, unabhängig davon, wo sie sich befinden.
Sie können dies erreichen, indem Sie einige Zeilen wie folgt an den Anfang Ihrer
robots.txt
Datei einfügen :BEARBEITEN:
Danke @ w3dk und @Stephen Ostermiller für das Feedback! Du liegst ziemlich richtig. Es ist besser, so etwas zu tun:
Leider scheint dies nicht wie beabsichtigt zu funktionieren, da die längeren (spezifischeren) Regeln die kürzeren Regeln überschreiben und die Zulassungszeilen ignoriert werden. Es scheint keinen Unterschied zu machen, ob die Zulassungszeilen den Verbotszeilen folgen oder umgekehrt.
Die einzige Möglichkeit, dies zu umgehen, besteht darin, so etwas zu tun, was zu funktionieren scheint, wenn ich es in den Webmaster-Tools teste:
EDIT 2 - BESTE LÖSUNG:
OK, also habe ich etwas mehr recherchiert und die Antwort unter https://stackoverflow.com/a/30362942/1983389 gefunden
Es scheint , die korrekteste und die meisten unterstützten Lösung für alle Web - Crawler so etwas wie die folgenden (die den Zugang zu ist
*.css
und*.js
Dateien in den/bin
,/cache
,/installation
,/language
,/logs
, und/tmp
Ordner und möglicherweise wenig Sinn , einige der anderen Ordner macht):quelle
Disallow:
unter dieUser-agent: Googlebot
Gruppe aufzunehmen, was besser lesbar wäre.)/logs/
während andere Bots dies verhindern.