Wie verbiete ich in Robots.txt alle Seiten außer der Indexseite?

7

Ich möchte, dass Google meine Indexseite indiziert, aber keine anderen Seiten indiziert.

User-agent: *
Disallow: /

Bisher habe ich das. Wenn ich dies tue, indiziert Google meine Indexseite jedoch nicht. Wenn ich meinen Namen in Google suche, wird lediglich "www.mydomain.com" als erstes Ergebnis ohne Beschreibung angezeigt.

Stattdessen möchte ich, dass Google meine Hauptindexseite auch mit dem Meta-Beschreibungs-Tag indiziert.


quelle

Antworten:

8

Insbesondere für Google reichen die folgenden Regeln aus:

User-Agent: *
Allow: /$
Disallow: /

Weitere Informationen finden Sie in der Google-Dokumentation zur unterstützten robots.txt-Syntax . Beachten Sie jedoch, dass die mittlere Zeile aus zwei Gründen nicht dem Standard entspricht: Erstens handelt es sich um eine AllowDirektive (der grundlegende robots.txt-Standard unterstützt nur Disallow), und zweitens wird der nicht standardmäßige Anker für das Ende der URL verwendet $. Einige andere große Suchmaschinen, einschließlich Bing , unterstützen jedoch mehr oder weniger dieselbe Syntax.

Ilmari Karonen
quelle
3

Google und andere Suchmaschinen unterstützen die Allow:Aussage jetzt zusätzlich zu Disallow:... obwohl sie sich auf verschiedenen Suchmaschinenspinnen möglicherweise unterschiedlich verhalten und möglicherweise nicht von anderen Arten von Website-Scrapern unterstützt oder durchgesetzt werden.

Dokumentation hier

mikegreiling
quelle
0

Warum sollten Sie Google Ihre Seiten verbieten wollen?

Wie auch immer, Sie könnten dies tun:

Disallow: /
Allow: /index.html
PaperThick
quelle
1
Das passt nicht zu der üblichen Wurzel, die '/' ist
Bryce
0

Ich benutze so:

User-agent: Yandex
Allow: /index.html
Disallow: /

User-agent: Googlebot
Allow: /index.html
Disallow: /
trante
quelle