Wenn Sie der Meinung sind, dass Ihre Website übermäßig gecrawlt wird (möglicherweise fehlen sogar tiefere Inhalte), sollten Sie sicherstellen, dass Ihre HTTP-Header gute Werte für Dinge wie "zuletzt geänderte" Zeit usw. zurückgeben. Möglicherweise überschätzt Googlebot, wie stark sich Ihre Website ändert . Als Bonus verhält sich Ihre Website in Bezug auf das Caching besser (sei es Proxy oder browserbasiert) und fühlt sich daher etwas schneller an.
Sie sollten gut untersuchen, welche URLs gecrawlt werden (indem Sie Ihre Serverprotokolle überprüfen). Wenn sie immer wieder dieselbe URL neu erstellen, haben Sie definitiv ein Problem. Eine häufige Variante ist, wenn Sie eine Seite haben, die mithilfe von Anforderungsvariablen auf viele verschiedene Arten angezeigt werden kann. Googlbot versucht möglicherweise, jede mögliche Kombination dieser Variablen zu crawlen .
Ein Beispiel, auf das ich als Crawler gestoßen bin, war eine Seite mit einer Liste von zwanzig Überschriften, von denen jede Kombination erweitert werden konnte. Grundsätzlich hatte diese Seite 2 ^ 20 verschiedene URLs!
Stellen Sie sicher, dass Googlebot nicht im Grunde immer wieder dieselbe Seite mit trivial unterschiedlichen Parametern crawlt (ich habe gesehen, dass es darin verwickelt ist).
Ich denke, Google ändert die Crawling-Rate mit dem Alter der Website, der Beliebtheit (Links zu Ihrer Website), dem Markup und dem Header, den richtigen Site-Maps usw. Vor einiger Zeit wurde auch der Crawler geändert, sodass Inhalte jetzt viel schneller als früher in den Suchergebnissen angezeigt werden können (mindestens 2 Wochen vor dem Wechsel).
Als ich meinen Blog vor 2 Jahren veröffentlichte, brauchte Google Monate, um den gesamten Inhalt zu indizieren, und Wochen, um neue Beiträge zu indizieren. Jetzt sehe ich jeden Beitrag in den Suchergebnissen am selben Tag, an dem ich ihn veröffentliche.
So einfach, Google mag keine neuen Websites, respektiert aber die Ältesten.
quelle