Grundlegendes zu Google Crawl-Statistiken

11

Ich habe meine Website im Januar 11 gestartet und sie ist in Google indiziert, was großartig ist - bisher rund 300 Seiten Inhalt. Ich versuche zu verstehen, was Ende Juni und Anfang Juli in den Crawl-Statistiken passiert ist. Was hat den massiven Aufstieg verursacht? Was bedeutet es für die Zukunft? Gibt es noch etwas, was ich tun sollte?


Geben Sie hier die Bildbeschreibung ein

Ubique
quelle

Antworten:

2

Wenn Sie der Meinung sind, dass Ihre Website übermäßig gecrawlt wird (möglicherweise fehlen sogar tiefere Inhalte), sollten Sie sicherstellen, dass Ihre HTTP-Header gute Werte für Dinge wie "zuletzt geänderte" Zeit usw. zurückgeben. Möglicherweise überschätzt Googlebot, wie stark sich Ihre Website ändert . Als Bonus verhält sich Ihre Website in Bezug auf das Caching besser (sei es Proxy oder browserbasiert) und fühlt sich daher etwas schneller an.

Sie sollten gut untersuchen, welche URLs gecrawlt werden (indem Sie Ihre Serverprotokolle überprüfen). Wenn sie immer wieder dieselbe URL neu erstellen, haben Sie definitiv ein Problem. Eine häufige Variante ist, wenn Sie eine Seite haben, die mithilfe von Anforderungsvariablen auf viele verschiedene Arten angezeigt werden kann. Googlbot versucht möglicherweise, jede mögliche Kombination dieser Variablen zu crawlen .

Ein Beispiel, auf das ich als Crawler gestoßen bin, war eine Seite mit einer Liste von zwanzig Überschriften, von denen jede Kombination erweitert werden konnte. Grundsätzlich hatte diese Seite 2 ^ 20 verschiedene URLs!

Stellen Sie sicher, dass Googlebot nicht im Grunde immer wieder dieselbe Seite mit trivial unterschiedlichen Parametern crawlt (ich habe gesehen, dass es darin verwickelt ist).

Kris
quelle
Vielen Dank dafür. Ich habe heute festgestellt, dass es einen weiteren "Anstieg" in der Aktivität gibt. Daher mache ich mir mehr Sorgen, da die Crawl-Statistiken von Google 1.000 Seiten Inhalt gecrawlt haben - ich habe nur 300 Seiten! Wie überprüfe ich, welche Seiten Google immer wieder neu crawlt? Und wie überprüfe ich, ob meine HTTP-Header gute Werte zurückgeben - gibt es eine Test-App?
Ubique
In Ihren Serverprotokollen sollte angegeben werden, welche Seiten von Google gecrawlt werden. Für die HTTP-Header gibt es eine Reihe von Firefox-Plugins. Persönlich benutze ich Firebug.
Kris
1

Ich denke, Google ändert die Crawling-Rate mit dem Alter der Website, der Beliebtheit (Links zu Ihrer Website), dem Markup und dem Header, den richtigen Site-Maps usw. Vor einiger Zeit wurde auch der Crawler geändert, sodass Inhalte jetzt viel schneller als früher in den Suchergebnissen angezeigt werden können (mindestens 2 Wochen vor dem Wechsel).

Als ich meinen Blog vor 2 Jahren veröffentlichte, brauchte Google Monate, um den gesamten Inhalt zu indizieren, und Wochen, um neue Beiträge zu indizieren. Jetzt sehe ich jeden Beitrag in den Suchergebnissen am selben Tag, an dem ich ihn veröffentliche.

So einfach, Google mag keine neuen Websites, respektiert aber die Ältesten.

Anton
quelle