Sollte ich für eine Website mit dynamischem Inhalt (ständig werden neue Inhalte hinzugefügt) nur den neuesten Inhalt in die Sitemap aufnehmen oder sollte ich alles aufnehmen (mit einem Sitemap-Index)? Was sind die Best Practices für Sitemaps? für große Websites?
Gibt es überhaupt eine Möglichkeit, dass Google (und andere Suchmaschinen) nur die Seiten in der Sitemap crawlen?
Vielen Dank
Update:
Auch eine Idee, wie Stackoverflow damit umgehen? Ich würde gerne wissen, aber leider (auch verständlicherweise ) haben sie den Zugriff auf ihre Sitemap gesperrt.
Antworten:
Alle Seiten einschließen. Der Zweck der XML-Sitemap besteht darin, den Suchmaschinen alle Ihre Inhalte mitzuteilen. Nicht nur das Neue.
Von der Website sitemaps.org (Schwerpunkt Mine):
Wenn Sie viel Inhalt haben, können Sie mehrere XML-Sitemaps verwenden .
Wenn Sie Inhalte haben, die nicht gecrawlt oder indiziert werden sollen, müssen Sie die Suchmaschinen ausdrücklich anweisen, diese Seiten nicht zu crawlen und zu indizieren. Verwenden Sie eine robots.txt- Datei, um alle Seiten oder Verzeichnisse zu blockieren, die Sie nicht gecrawlt haben möchten. Sie können dafür auch ein Meta-Tag verwenden . Sie können in einer XML-Sitemap jedoch nicht angeben, dass nicht aufgelistete Seiten nicht gecrawlt werden sollen.
quelle
Using a Sitemap file won't reduce our normal crawling of your site. It's additional information, not a replacement for crawling. Similarly, not having a URL in a Sitemap file doesn't mean that it won't be indexed.