Verhindern, dass XML-Sitemaps in den Google-Suchergebnissen angezeigt werden

23

Wie verhindere ich, dass meine XML-Sitemap-Dateien in Google-Suchergebnissen angezeigt werden, beispielsweise als Ergebnis einer site:Suchabfrage:

Sitemap in den Suchergebnissen

Ich verstehe nicht, warum Google zunächst Sitemap-Dateien in den Suchergebnissen anzeigt. Diese Dateien sind nicht für den menschlichen Verzehr bestimmt.

Google muss es crawlen können, damit es verarbeitet werden kann. Daher kann ich es in robots.txt nicht verbieten . Ich möchte nur nicht, dass sie es in die Suchergebnisse aufnehmen, nachdem sie es verarbeitet haben.

Stephen Ostermiller
quelle
1
Huh. Interessant. Der einzige Gedanke, den ich habe, ist, ob Sie auf Ihrer Website einen Link dazu haben oder er in Ihrer Sitemap-Datei erscheint. Ich bin mir auch nicht sicher, ob Sie in Ihrer robots.txt-Datei darauf verweisen, wenn dies ein Faktor sein könnte. Ich würde nicht so denken, nur etwas zu berücksichtigen. Ich liefere meine Sitemap nur über Google WMT und habe dieses Problem noch nicht gesehen - zumindest noch nicht. Ich kann verstehen, dass Ihre Sitemap nicht öffentlich sein soll. Ich will mein Publikum nicht. Zu viele Hacker / Scraper da draußen.
Closetnoc
3
Auf dieser speziellen Site habe ich /sitemap.xmlin robots.txt aufgelistet und diese verlinkt dann auf einen anderen Satz von anderen Sitemaps wie /sitemap-123.xmlund /sitemap-124.xml. Ich regeneriere die Sitemaps jeden Tag und die Zahlen ändern sich täglich. Die indizierte ist ziemlich alt. Ich verlinke nicht irgendwo auf meiner Site, aber es ist möglich, dass eine andere Site irgendwo einen Link dazu hat.
Stephen Ostermiller
1
Wenn es nicht verwendet wird, vergewissern Sie sich, dass es gelöscht wurde, und schließen Sie es dann in Ihrer robots.txt-Datei aus. Es wird dann ziemlich schnell von den SERPs gelöscht. Seltsamerweise dauert das Entfernen von URLs in Google WMT ewig (für mich Monate), während robots.txt ziemlich schnell ist.
Closetnoc
1
Haben Sie die XML-Sitemap an Ihr GWMT-Konto gesendet?
Oleg
3
Die Sitemap-Datei bestand bis heute. Ich habe es entfernt und jetzt wird weitergeleitet, um /sitemap.xml anzunehmen, dass diese bestimmte Sitemap nun aus dem Index herausfällt. Ich möchte verhindern, dass Google sie auch in Zukunft für Suchanwender anzeigt.
Stephen Ostermiller

Antworten:

18

Google indiziert XML-Sitemaps (wie jede XML-Datei). Wenn Google eine URL kennt und eine gültige Antwort zurückgibt, besteht es die Einschlussregeln von Google und kann indiziert werden. Persönlich reiche ich die Sitemap nur über GWT ein und füge einen Sitemap:Verweis in robots.txt ein. Dies ist mit Sicherheit ausreichend, um sie zu indizieren.

Die empfohlene Methode, um zu verhindern, dass diese Dateien von Google indiziert werden, besteht darin, X-Robots-Tagbeim Bereitstellen der XML-Sitemap einen HTTP-Antwortheader einzuschließen. Beispielsweise:

X-Robots-Tag: noindex

Genau wie das Einbinden eines Robots-META-Tags in HTML-Dateien kann der X-Robots-TagHeader für jeden Dateityp verwendet werden.

Hinweis: Dieses Dokument (ab November 2008!) Scheint unseren eigenen John Mueller (Google) in Bezug auf die Verwendung der X-Robots-TagAntwort beim Umgang mit XML-Sitemaps zu zitieren .
Ja, Google indiziert und bewertet Ihre XML-Sitemap-Datei

Weitere Informationen finden Sie im Entwicklerhandbuch von Google:
Spezifikationen für Robots-Metatags und X-Robots-Tag-HTTP-Header

Herr weiß
quelle
Wo soll ich den X-Robots-Tag: noindexHeader-Code schreiben ? Innen sitemap.xmloder robots.txt?
Xameeramir
1
@student Es handelt sich um einen HTTP- Antwortheader, der festgelegt werden muss, bevor diese Dateien bereitgestellt werden (als Teil des HTTP-Antwortheader). Er kann nicht "in" diesen festgelegt werden. Abhängig davon, wie Sie diese Dateien bereitstellen, können Sie dies in Ihrem serverseitigen Code (z. B. in PHP header('X-Robots-Tag: noindex',true)) oder, wenn Sie Apache verwenden, in Ihrer .htaccess-Datei oder in Ihrer Serverkonfiguration festlegen. Siehe Stephens Antwort für einen Beispielcode. Siehe auch den oben verlinkten Google-Entwicklerleitfaden.
MrWhite
8

Die Antwort von MrWhite zur Verwendung von X-Robots-Tag scheint der richtige Weg zu sein.

Hier ist Code, der in .htaccess- oder Apache- Konfigurationsdateien verwendet werden kann. (Referenz: WebmasterWorld - Sitemaps, die in SERP angezeigt werden - Wie kann dies verhindert werden? )

<Files ~ "sitemap.*\.xml(\.gz)?$">
  Header append X-Robots-Tag "noindex"
</Files>

Unter Nginx die Konfiguration wie folgt. (Referenz: Yoast X-Robots-Tag Beispiele )

location ~* sitemap.*\.xml(\.gz)?$ {
    add_header X-Robots-Tag "noindex";
}
Stephen Ostermiller
quelle
2

Warum spielt es eine Rolle?

Wenn Sie Ihre Sitemap tatsächlich in SERP finden, haben Sie größere Probleme.

Ich würde mich eher darauf konzentrieren, Seiten mit nützlichen Inhalten aufzubauen. Auf diese Weise fällt es Ihnen sehr schwer, Ihre Sitemap zu finden. Nicht, dass es dich an diesem Punkt interessieren würde.

PS

Ziemlich jeder hält Sitemaps am selben Ort. Also, wenn jemand herausfinden wollte, wo Sie es aufbewahren, wird er es tun :)

dasickle
quelle
4
Ich verwende Google für die Website-Suche und bin dabei auf eine Sitemap gestoßen. Es wäre für meine Benutzer sehr verwirrend, wenn sie darauf klicken würden.
Stephen Ostermiller
Wie viele Ihrer Nutzer verwenden Ihrer Meinung nach Google für die Websitesuche?
dasickle
3
Alle Benutzer, die Suchbegriffe in das Suchfeld oben auf meinen Seiten eingeben.
Stephen Ostermiller
In diesem Fall. Haben Sie darüber nachgedacht, swiftype.com für Ihre Website-Suche zu verwenden? Es gibt eine Reihe von anderen, die Sie verwenden können. Sie können die Ergebnisse nachbestellen, entfernen und hinzufügen. Sie erhalten auch tolle Statistiken und etc.
dasickle
-6

Gib folgendes in die robots.txt ein

User-agent: *
Disallow: /sitemap.xml

Senden Sie Ihre Sitemap stattdessen über die Google Webmaster-Tools.

Konghou
quelle
1
Können Sie bitte Ihre Logik klarstellen - Ihr erster Satz scheint mit Ihrem letzten zu kollidieren?
MrWhite
5
Durchforstet Google weiterhin eine Sitemap, die in robots.txt blockiert ist? Haben Sie einen Hinweis, der die Behauptung stützt?
Stephen Ostermiller
4
Wenn Sie die sitemap.xml nicht zulassen, wird sie mit ziemlicher Sicherheit nicht mehr gecrawlt. Nicht etwas, das Sie passieren möchten!
Max
2
Google wird kein Dokument crawlen, dessen robots.txt nicht zulässig ist. Jedenfalls nicht gewöhnlich ... Site Maps inklusive.