Warum crawlt Google Webmaster Tools ungültige URLs und zeigt 500 Fehler an?

11

Die Google Webmaster-Tools melden 12.000 + 500 Fehler. Eeek!

Keine der URLs ist gültig - alle enthalten www.youtube.com. Warum crawlt Google diese URLs, wenn sie nicht vorhanden sind? Ich habe eine Sitemap geliefert, und sie sind natürlich nicht in der Sitemap enthalten.

Ich habe keine robots.txt, die irgendetwas blockiert. Ich habe nach ungültigen Weiterleitungen gesucht - keine und nach nicht geschlossenen Tags oder etwas, das versehentlich www.youtube.com in die URL werfen würde - keine.

In jedem 'verlinkt von' ist die verweisende URL auch eine schlechte URL mit www.youtube.com. Die Google Tools melden keine Malware und ich kann die Serverprotokolle nicht überprüfen, da der Host mir keinen Zugriff gewährt.

Wirklich stecken !! Irgendwelche Ideen geschätzt!

Amos Kane
quelle
Können Sie bitte einige Beispiele posten?
IonFish
Ist Ihre Website eine Wordpress- oder eine andere Blog-Plattform?
Ubique
3
Wenn Sie HTTP 500-Fehler (Serverfehler) für ungültige URLs sehen, haben Sie wahrscheinlich ein Problem in Ihrem Setup - ungültige URLs sollten 404 oder 410 zurückgeben.
John Mueller

Antworten:

8

Es gibt (mindestens) zwei häufige Gründe, warum seltsame und verstümmelte URLs in den Webmaster-Tools als Crawling-Fehler angezeigt werden.

Die erste Möglichkeit besteht darin, dass jemand Ihre Seiten (oder einige andere Seiten, die auf Ihre verlinken) kopiert und dabei die Links entstellt hat. Dies passiert öfter als Sie vielleicht denken; Siehe z. B. die sechste Frage in diesem Google Webmaster-Blogbeitrag .

Die andere Möglichkeit besteht darin, dass Googlebot selbst versucht, den JavaScript-Links zu folgen und sie durcheinander zu bringen . Sie können in der Regel diesen beiden Fälle auseinanderhalten, indem die verweisenden Seite zu besuchen (die sollten vorhanden und zugänglich sein, wenn Google es zu kriechen geschaffen zu beginnen) und für den Namen der Zielseite in der Quelle suchen.

In beiden Fällen können Sie grundsätzlich zwei Dinge tun: entweder die Links einfach ignorieren oder einige Regeln zum Umschreiben erstellen , um zu versuchen, die fehlerhaften URLs funktionierenden zuzuordnen. Wenn Sie ein offensichtliches Muster in den URLs sehen und mit regulären Ausdrücken vertraut sind, würde ich den letzteren Ansatz empfehlen - er bereinigt Ihre Crawling-Fehlerliste und gibt Ihnen möglicherweise sogar einen kleinen und ziemlich kitschigen, aber echten PageRank-Schub .

Eine dritte Option, wenn Sie feststellen, dass jemand Ihre Inhalte ohne Erlaubnis kopiert hat, besteht darin, zu versuchen , sie von der Liste zu nehmen . Sie können sogar eine Beschwerde (und / oder eine formelle Anfrage zum Entfernen) an den Hosting-Anbieter senden, wenn Sie dies für gerechtfertigt halten. Natürlich, da sie sich offenbar die Verknüpfung zu Ihrer Website, könnten Sie müssen nicht unbedingt die es wert finden die Mühe.

Ilmari Karonen
quelle
0

Google indiziert Website nicht sofort alle Seiten auf einmal.

Google indiziert Seiten zunächst auf höchster Ebene. Nach einigen Tagen versucht Google, tiefer zu indizieren - die zweite Seitenebene (die Seiten, auf denen Google Links auf der ersten Seitenebene gefunden hat) und so weiter. Auf diese Weise versucht Google, jede Seite auf der Website zu indizieren. Google erstellt also einen hierarchischen Linkbaum und Google weiß, welche Seiten mit den einzelnen Seiten verknüpft sind.

Dann kam Google nach einiger Zeit zu jeder indizierten Seite und prüft, ob der Inhalt der Seite geändert wurde. Das Indizierungsintervall für jede Seite und jede Site basiert auf vielen Faktoren.

Wenn Sie also eine Seite löschen und alle Links zu dieser Seite auf allen anderen Seiten aktualisieren, weiß Google dies nicht sofort und versucht, gelöschte Seiten zu indizieren, da geplant ist, diese Seite in ihrem Zeitplan zu indizieren.

Webvitaly
quelle