So verhindern Sie, dass bestimmte URLs indiziert werden

8

Wenn ich tippe site:example.com(offensichtlich unter Verwendung meiner Domain), werden in der Liste mehrere Linkfehler angezeigt. Typischerweise haben sie die Form:/some/fixed/path/admin/unblockUser/11

Ich denke darüber nach, meiner robots.txtDatei die folgende Zeile hinzuzufügen :

Disallow: /some/fixed/path/admin/*
Simon Hayter
quelle

Antworten:

18

Es gibt zwei Möglichkeiten, um zu verhindern, dass Suchmaschinen bestimmte Seiten indizieren :

  1. Eine Robots.txt-Datei für Ihre Domain.
  2. Das Meta Robots-Tag auf jeder Seite.

Robots.txt sollte Ihre erste Anlaufstelle für URL-Muster sein, die mit mehreren Dateien übereinstimmen. Sie können die Syntax hier und detaillierter hier sehen . Die robots.txt-Datei muss im Stammordner Ihrer Domain abgelegt werden, dh bei http://www.yourdomain.com/robots.txt, und sie würde Folgendes enthalten:

User-agent: *
Disallow: /path/with-trailing-slash/

(Die obige Textfärbung wird von der Stackexchange-Software durchgeführt und sollte ignoriert werden.)

Das Meta Robots-Tag ist flexibler und leistungsfähiger , muss jedoch in jede Seite eingefügt werden, die Sie beeinflussen möchten.

Wieder hat Google einen Überblick über die Verwendung von Meta Robots und das Entfernen von Seiten aus ihrem Index über die Webmaster-Tools. Wikipedia bietet eine umfassendere Dokumentation zu Meta Robots , einschließlich der suchmaschinenspezifischen Ableitungen.

Wenn Sie Google, The Web Archive und anderen Suchmaschinen verbieten möchten , eine Kopie Ihrer Webseite zu behalten , möchten Sie das folgende Tag (im HTML4-Format angezeigt):

<meta name="robots" content="noarchive">

So verhindern Sie die Indizierung und Aufbewahrung einer Kopie :

<meta name="robots" content="noindex, noarchive">

Und zu verhindern , dass über beide der , sowie Links auf der Seite mit mehr Seiten finden zu indizieren:

<meta name="robots" content="noindex, nofollow, noarchive">

NB 1: Alle 3 oben genannten Meta-Tags sind nur für Suchmaschinen bestimmt - sie wirken sich nicht auf HTTP-Proxys oder Browser aus.

NB 2: Wenn Sie bereits Seiten indiziert und archiviert haben und Seiten über robots.txt blockieren, während Sie gleichzeitig das Meta-Tag zu denselben Seiten hinzufügen, verhindert die robots.txt, dass Suchmaschinen das aktualisierte Meta-Tag sehen.

Jesper M.
quelle
1
Abgestimmt? Warum um alles in der Welt wurde dies herabgestuft? Bitte hinterlassen Sie einen Kommentar, wenn Sie abstimmen, damit die Antwort verbessert werden kann.
Jesper M
@Jesper Mortensen Ihre erste Antwort hat die Caching-Frage überhaupt nicht beantwortet. Ihre Bearbeitung hat dies behoben und die Noindex-Informationen viel besser gemacht. +1 jetzt ;-)
mawtex
1
Beachten Sie, dass die Anweisung robots.txt disallow weder die Indizierung einer URL verhindert noch dazu führt, dass diese URL aus dem Index entfernt wird. Suchmaschinen können und werden URLs indizieren, ohne sie gecrawlt zu haben (wenn sie nicht zulässig sind). Wenn es also wichtig ist, die Indizierung von URLs zu verhindern (und nicht nur die Indizierung von Inhalten zu verhindern), müssen Sie das Meta-Tag des Roboters oder das x verwenden -robots-tag HTTP-Header und stellen Sie sicher, dass die URLs nicht vom Crawlen ausgeschlossen sind.
John Mueller
1
Auch wenn dies nicht unbedingt falsch ist, entspricht ein Roboter-Meta-Tag mit "noindex, noarchive" "noindex" (wenn eine URL nicht indiziert ist, wird sie auch nicht archiviert / zwischengespeichert).
John Mueller
1
Schließlich (Entschuldigung für das Hinzufügen so vieler Kommentare :-)) würde ich in diesem speziellen Fall (Admin-Seiten) nur sicherstellen, dass die URLs 403 zurückgeben, wenn sie nicht angemeldet sind. Dies verhindert auch, dass Suchmaschinen sie indizieren, und ist theoretisch klarer als wenn eine Seite 200 + mit einem Noindex-Roboter-Meta-Tag zurückgibt. Das Endergebnis ist das gleiche in den Suchergebnissen, aber die Verwendung des richtigen HTTP-Ergebniscodes kann Ihnen helfen, nicht autorisierte Administratorzugriffe in Ihren Protokollen leichter zu erkennen.
John Mueller
5

Es gibt tatsächlich eine dritte Möglichkeit, um zu verhindern, dass Google und andere Suchmaschinen URLs indizieren. Es ist der X-Robots-TagHTTP-Antwortheader . Dies ist besser als Meta-Tags, da es für alle Dokumente funktioniert und Sie mehr als ein Tag haben können.

Mit den REP META-Tags können Sie steuern, wie jede Webseite auf Ihrer Website indiziert wird. Es funktioniert jedoch nur für HTML-Seiten. Wie können Sie den Zugriff auf andere Arten von Dokumenten steuern, z. B. Adobe PDF-Dateien, Video- und Audiodateien und andere Arten? Nun ist für alle anderen Dateitypen dieselbe Flexibilität für die Angabe von URL-Tags verfügbar.

Wir haben unsere Unterstützung für META-Tags erweitert, sodass sie jetzt jeder Datei zugeordnet werden können. Fügen Sie einfach ein unterstütztes META-Tag zu einer neuen X-Robots-Tag-Direktive im HTTP-Header hinzu, mit dem die Datei bereitgestellt wird. Hier einige anschauliche Beispiele: Zeigen Sie keinen Cache-Link oder Ausschnitt für dieses Element in den Google-Suchergebnissen an: X-Robots-Tag: noarchive, nosnippet Fügen Sie dieses Dokument nicht in die Google-Suchergebnisse ein: X-Robots-Tag : noindex Teilen Sie uns mit, dass ein Dokument nach dem 7. Juli 2007, 16:30 Uhr (GMT) nicht mehr verfügbar sein wird. X-Robots-Tag: nicht verfügbar_nachher: ​​7. Juli 2007, 16:30 Uhr (GMT)

Sie können mehrere Anweisungen in einem Dokument kombinieren. Beispiel: Zeigen Sie keinen zwischengespeicherten Link für dieses Dokument an und entfernen Sie ihn nach dem 23. Juli 2007 um 15:00 Uhr aus dem Index. PST: X-Robots-Tag: noarchive X-Robots-Tag: unavailable_after: 23 Jul 2007 15:00:00 PST

John Conde
quelle
Der Link 'X-Robots_tag Header' ist unterbrochen.
Mawtex
Danke für die Warnung. Chrome scheint Probleme mit der Formatierungssymbolleiste zu haben und hat dem Link zusätzlichen Text hinzugefügt.
John Conde
1

Ja, das wird das Problem beheben. Um zu verhindern, dass Inhalte in Googles-Indizes angezeigt werden, können Sie entweder robots.txt oder das HTML-Meta-Tag verwenden

<meta name="robots" content="noindex, nofollow" />

Wenn Ihre Website das nächste Mal indiziert wird, werden Ihre Inhalte aus dem Google-Index entfernt.

Sie können auch den noarchiveWert angeben - dies blockiert das Caching Ihrer Seite. Dies ist Google-spezifisch:

<meta name="robots" content="noarchive" />

Sie können das 'Entfernungs-Tool' in den Googles-Webmaster-Tools verwenden, um eine sehr dringende Entfernung Ihrer Inhalte anzufordern. Beachten Sie, dass Sie zuerst die Indizierung Ihres Inhalts blockieren sollten (entweder mit robots.txt oder dem Meta-Robots-Tag).

Mehr Info:

mawtex
quelle
1

Wenn Sie möchten, dass diese Seiten nicht für die Öffentlichkeit sichtbar sind, geben Sie am besten ein Kennwort für diese Seiten ein. Und / oder eine Konfiguration haben, die nur bestimmte Adressen auf der Whitelist zulässt, die auf die Site zugreifen können (dies kann auf Serverebene erfolgen, wahrscheinlich über Ihren Host oder Serveradministrator).

Wenn Sie möchten, dass diese Seiten vorhanden sind, nur nicht von Google oder anderen Suchmaschinen indiziert, wie andere bereits erwähnt haben, haben Sie einige Optionen, aber ich denke, es ist wichtig, hier zwischen den beiden Hauptfunktionen der Google-Suche zu unterscheiden Sinn: Crawlen und Indizieren.

Crawling vs. Indizierung

Google crawlt Ihre Website, Google indiziert Ihre Website. Die Crawler finden Seiten Ihrer Site, die Indizierung organisiert die Seiten Ihrer Site. Weitere Informationen dazu hier .

Diese Unterscheidung ist wichtig, wenn Sie versuchen, Seiten aus dem "Index" von Google zu blockieren oder zu entfernen. Viele Leute blockieren standardmäßig nur über robots.txt. Dies ist eine Anweisung , die Google sagt, was (oder was nicht) gecrawlt werden soll. Wenn Google Ihre Website nicht crawlt, ist es häufig unwahrscheinlich, dass sie indiziert wird. Es ist jedoch sehr häufig, dass Seiten von robots.txt blockiert und in Google indiziert werden.


Anweisungen an Google & Suchmaschinen

Diese Art von "Direktiven" sind lediglich Empfehlungen an Google, auf welchen Teil Ihrer Website gecrawlt und indiziert werden soll. Sie müssen ihnen nicht folgen. Das ist wichtig zu wissen. Ich habe im Laufe der Jahre viele Entwickler gesehen, die dachten, sie könnten die Site einfach über robots.txt blockieren, und plötzlich wird die Site einige Wochen später in Google indiziert. Wenn jemand anderes auf die Website verlinkt oder wenn einer der Crawler von Google sie irgendwie in den Griff bekommt, kann sie dennoch indiziert werden .

Mit dem aktualisierten Dashboard von GSC (Google Search Console) wurde dieser Bericht kürzlich als "Index Coverage Report" bezeichnet. Hier stehen Webmastern neue Daten zur Verfügung, die zuvor nicht direkt verfügbar waren, und spezifische Details zum Umgang von Google mit bestimmten Seiten. Ich habe viele Websites gesehen und gehört, die "Warnungen" mit der Bezeichnung "Indiziert, aber von Robots.txt blockiert" erhalten haben.

In der neuesten Dokumentation von Google wird erwähnt, dass Sie, wenn Sie Seiten aus dem Index entfernen möchten, keine Index-Nofollow-Tags hinzufügen.


URLs-Tool entfernen

Nur um auf dem aufzubauen, was einige andere über das Tool "URL entfernen" erwähnt haben ...

Wenn die Seiten bereits indiziert sind und dringend veröffentlicht werden müssen, können Sie mit dem Google-Tool "URLs entfernen" Seiten "vorübergehend" aus den Suchergebnissen blockieren. Die Anfrage dauert 90 Tage, aber ich habe sie verwendet, um Seiten schneller aus Google zu entfernen als mit noindex, nofollow, ähnlich einer zusätzlichen Ebene.

Mit dem Tool "URLs entfernen" wird die Seite von Google weiterhin gecrawlt und möglicherweise zwischengespeichert. Während Sie diese Funktion verwenden, können Sie die Noindex-Nofollow-Tags hinzufügen, damit sie angezeigt werden und bis zu den 90 Tagen Nach oben wird es hoffentlich wissen, dass Sie Ihre Seite nicht mehr indizieren müssen.


WICHTIG: Die Verwendung der Nofollow-Tags robots.txt und noindex ist ein etwas widersprüchliches Signal für Google.

Der Grund dafür ist, dass wenn Sie Google anweisen, eine Seite nicht zu crawlen, und Sie dann noindex nofollow auf dieser Seite haben, es möglicherweise nicht crawlt, um das noindex nofollow-Tag zu sehen. Es kann dann durch eine andere Methode indiziert werden (ob ein Link oder so). Die Details, warum dies passiert, sind ziemlich vage, aber ich habe gesehen, dass es passiert.


Kurz gesagt, meiner Meinung nach besteht die beste Möglichkeit, die Indizierung bestimmter URLs zu verhindern, darin, diesen Seiten ein Noindex-Nofollow-Tag hinzuzufügen. Damit stellen Sie sicher , dass Sie nicht diese URLs auch mit robots.txt blockiert, so dass könnte Google verhindern , richtig diese Tags zu sehen. Sie können das Tool "URLs aus Google entfernen" nutzen, um sie vorübergehend in den Suchergebnissen auszublenden, während Google Ihren No-Index-Nofollow verarbeitet.

Zombie geweckt
quelle