Warum hat Google die Indizierung von Seiten aus unserer sitemap.xml eingestellt?

18

Wir sehen einige Seiten, die in unserem vorhanden sind, sitemap.xmlaber aus unerklärlichen Gründen im öffentlichen Suchindex von Google fehlen.

Sie können /superuser//sitemap.xml nicht herunterladen. Wir schützen diese Datei, da in der Vergangenheit Probleme damit aufgetreten sind. Googlebot kann dies jedoch. Wir haben über die Google Webmaster-Tools überprüft, dass die sitemap.xmlDatei heute heruntergeladen wurde und ohne Fehler als OK eingestuft wurde (grünes Häkchen).

Alt-Text

Die sitemap.xmlenthält eine Liste der letzten 50.000 Fragen auf unserer Website, die gestellt wurden. Zum Beispiel diese Frage ...

/superuser/201610/how-to-see-the-end-of-long-chain-of-symbolic-links

... existiert in der sitemap.xmlals ...

<url>
<loc>/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>

Die Suche nach "Wie man das Ende einer langen Kette symbolischer Verknüpfungen erkennt" führt nur zu einem Ergebnis für questionhub.com, das unsere Daten kratzt (ein ganz anderes Problem).

Sie können die Anzahl der Fragen erhöhen und eine genaue Suche nach dem Fragentitel durchführen. Dieses Muster bleibt erhalten.

Diese URLs befinden sich in sitemap.xml, werden jedoch nicht im Google-Index angezeigt. Sie werden jedoch auf Websites angezeigt, die unsere Creative-Commons-Daten stören. Warum sollte das so sein?

Michael Pryor
quelle
5
Sie können immer in den zentralen Foren von Google Webmaster nachfragen. google.com/support/forum/p/Webmasters?hl=de
Alex Black
Irgendwas stimmt definitiv nicht. DIESE Frage ist bereits in Google indiziert, die verknüpfte Frage zum Superuser STILL wird jedoch nicht im Index angezeigt.
Michael Pryor
Jeff könnte darüber nachdenken, nur Matt Cutts zu fragen. Ich habe sie ein paar Mal auf Twitter gesehen, wie sie miteinander gesprochen haben. Er ist normalerweise ziemlich hilfsbereit.
Virtuosi Media
3
FWIW Derzeit treten auf einigen Websites Probleme bei der Indizierung neuer Inhalte auf. In unseren Hilfeforen unter google.com/support/forum/p/Webmasters/… gibt es einen Thread dazu. Die von Ihnen angegebene URL scheint betroffen zu sein. Ich kann mir vorstellen, dass dies in Kürze behoben wird, aber es steht kein fester Zeitrahmen zur Verfügung. Danke für Ihre Geduld.
John Mueller
1
Es sieht so aus, als ob dies jetzt behoben ist :-). Ich habe ein paar der neuen Fragen von der Website ausprobiert und sie wurden alle indiziert. Woot!
John Mueller

Antworten:

10

Es sieht so aus, als ob Google diese Woche einige technische Crawling-Probleme hatte, die sich bemerkenswert ähnlich anhören wie das, was wir erlebt haben:

http://searchengineland.com/is-google-broken-sites-big-small-seeing-indexing-problems-53701

Niemand scheint vor einem Google-Indexierungsproblem gefeit zu sein, das viele Websitebesitzer verwirrt hat. Große und kleine Blogs und Websites werden nicht so schnell wie sonst indiziert - wenn überhaupt.

...

John von Google antwortete auf den Thread in den Webmaster-Foren mit den Worten:

Um ganz klar zu sein, die Probleme in diesem Thread, die ich ausführlich geprüft habe, sind nicht auf Änderungen in unseren Richtlinien oder in unseren Algorithmen zurückzuführen. Sie sind auf ein technisches Problem auf unserer Seite zurückzuführen, das so schnell wie möglich sichtbar behoben wird (es kann jedoch einige Tage dauern, bis es für alle Websites sichtbar ist).

Jeff Atwood
quelle
7

Google bietet oder garantiert nicht, dass Seiten in einer Sitemap indexiert werden.

Ich habe die Erfahrung gemacht, dass eine Seite verlinkt werden muss (von einer Seite einer Behörde), um angezeigt zu werden. Ist diese Seite / Frage direkt / indirekt von einer Seite mit einer Berechtigung verlinkt?

Wenn beispielsweise die Homepage von superuser.com (die vermutlich viele Inlinks enthält) direkt mit dieser Frage oder indirekt über eine Reihe anderer Seiten verknüpft ist, können Sie damit rechnen, dass sie indexiert wird.

Von Google:

Google garantiert nicht, dass wir alle Ihre URLs crawlen oder indizieren. Wir verwenden die Daten in Ihrer Sitemap jedoch, um mehr über die Struktur Ihrer Website zu erfahren. Auf diese Weise können wir unseren Crawler-Zeitplan verbessern und Ihre Website in Zukunft besser crawlen. In den meisten Fällen profitieren Webmaster von der Übermittlung der Sitemap, und in keinem Fall werden Sie dafür bestraft.

http://www.google.com/support/webmasters/bin/answer.py?hl=de&answer=156184

Alex Black
quelle
4
Der Superuser sollte über ausreichend Links und PR verfügen, um diese Seiten mit oder ohne Sitemap zu indizieren. Und kleinere Seiten werden ständig aufgelistet. Tatsächlich machen sie den größten Teil des Index aus. Ich vermute, etwas anderes ist der Täter.
John Conde
Einverstanden, die Website hat viele PR und Inlinks. Besteht jedoch die Möglichkeit, dass die betreffende Seite keine Inlinks enthält? Wenn superuser.com (zufällig) keinen Link zu der Seite herstellt, was sagt das Google? Es heißt, die Seite sei nicht wichtig.
Alex Black
2
Die Seite wurde definitiv von der Startseite verlinkt und wird weiterhin von einer Reihe anderer Seiten verlinkt. SE-Sites sind sehr quervernetzungsintensiv.
Kevin Montrose
1
Zu einem Zeitpunkt gestern war einer meiner Treffer für eine Testfrage die Homepage von superuser.com - mit der Ziel-URL, die darauf sichtbar ist, sogar im Google-Cache! Und doch wurde die Frage selbst nicht indiziert. Sehr komisch.
Jeff Atwood
2
Klicken Sie unbedingt auf die Registerkarte HOT auf der Homepage oder auf die Registerkarte WEEKLY oder MONTHLY. Genau dort ..
Jeff Atwood
3

Ich denke, Google könnte es schwer haben, Ihre Webseiten zu indizieren, 50.000 sind eine Menge. Mein Vorschlag wäre also, Ihre Sitemap in solche Teile aufzuteilen

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

Wenn Sie eine Panne haben, haben Sie ein besseres Glück, wenn diese 50.000 URLs indiziert werden.

Sitemaps.org Erklärung des Problems

Sie können mehrere Sitemap-Dateien bereitstellen, aber jede von Ihnen bereitgestellte Sitemap-Datei darf nicht mehr als 50.000 URLs enthalten und nicht größer als 10 MB (10.485.760 Byte) sein. Wenn Sie möchten, können Sie Ihre Sitemap-Dateien mit gzip komprimieren, um den Bandbreitenbedarf zu verringern. Die unkomprimierte Sitemap-Datei darf jedoch nicht größer als 10 MB sein. Wenn Sie mehr als 50.000 URLs auflisten möchten, müssen Sie mehrere Sitemap-Dateien erstellen.

Wenn Sie mehrere Sitemaps bereitstellen, sollten Sie jede Sitemap-Datei in einer Sitemap-Indexdatei auflisten. XML-Sitemap-Indexdateien dürfen nicht mehr als 50.000 XML-Sitemaps enthalten, dürfen nicht größer als 10 MB (10.485.760 Byte) sein und können komprimiert werden. Sie können mehr als eine Sitemap-Indexdatei haben. Das XML-Format einer Sitemap-Indexdatei ist dem XML-Format einer Sitemap-Datei sehr ähnlich.

http://sitemaps.org/protocol.php

Sevki
quelle
2
Sitemaps mit 50.000 Seiten sind sehr verbreitet. Tatsächlich hat kürzlich jemand einen Screenshot von seinem Webmaster-Konto gepostet, der zeigt, dass Google fast alle 50.000 dieser Seiten indexiert hat. Und ich vermute, der Superuser ist populärer (hat zB eine bessere Link-Popularität) als diese andere Seite.
John Conde
1
"Sie müssen mehr als 50.000 URLs auflisten. Dies ist das Maximum, das eine Sitemap enthalten kann." sitemaps.blogspot.com/2005/08/using-sitemap-index-files.html
Jeff Atwood
1
Wenn Sie für jeden Tag eine Sitemap haben, die sich nach dem Ende des Tages nicht mehr ändert, sodass auf die Sitemap nicht erneut zugegriffen werden muss, können sie die Links crawlen, die sie bereits für Änderungen indiziert haben, sodass Google nicht mehr lange suchen muss 50.000 URLs täglich, um zu sehen, welche alt und welche neu sind.
Sevki
@sevki Die älteste 50.001. Frage nach AKTIVITÄTSDATUM (neue Antworten, Änderungen usw. stoßen an dieses Datum) ist nicht in der Sitemap enthalten. Beachten Sie, dass der Superuser insgesamt nur 55.000 Fragen hat.
Jeff Atwood
@ Jeff, aber SO.com hat 1.014.782 und 964.782 befindet sich nicht in einer Sitemap, sodass Google oder Bing nicht wissen, wann sie zuletzt geändert wurden. Trotzdem möchte ich nicht nur nerven, wenn ich aushelfe. Ich habe dir eine E-Mail mit weiteren Details geschickt.
Sevki
2

Es scheint , dass Google die besagt , dass 46.514 eingereichten Links sind im Index. Könnte es ein Problem mit (ich hasse es zu sagen) aber Seitenrang sein? Die Scraping-Sites erledigen möglicherweise eine bessere Vernetzung usw. und werden höher eingestuft. Nur ein Gedanke.

Diese Suchseite : superuser.com Wie man das Ende einer langen Kette symbolischer Links sieht, scheint auch Ihre sitemap.xml korrekt abzurufen, obwohl nicht die erwarteten Ergebnisse zurückgegeben werden.

Dustin Senos
quelle
Diese Scraping-Site weist superuser.com als ursprünglichen Autor zu (obwohl dies möglicherweise expliziter ist), sodass Google wissen sollte, dass sie der ursprüngliche Autor des Inhalts sind, und ihnen Vorrang vor den Scraping-Sites einräumen sollte.
John Conde
@ John korrekt, wir benötigen Zuschreibung mit folgen, wie auf blog.stackoverflow.com/2010/08/defending-attribution-required
Jeff Atwood
Diese zwischengespeicherte Sitemap ist "wie sie am 17. Oktober 2010 um 05:40:35 Uhr GMT erschienen ist", 4 Tage zuvor, als ich dies schreibe. Sie hat also nicht viel. Ich habe ein paar URLs in der zwischengespeicherten sitemap.xml gefunden und sie existieren auch als Fragenseiten in Google.
Jeff Atwood
@ John können Sie ein Beispiel geben, wie sie die Zuschreibung geben. Thx
Greg B
@ Greg, suchen Sie einfach nach dem Superuser-Logo
John Conde
2

Bei dieser Art von Dingen gibt es viele mögliche Antworten.

Ich frage zunächst, wie viele Seiten Sie tatsächlich haben. (Sie haben 50.000 URLs auf einer schnellen Website eingereicht: superuser.com zeigt 125.000 indizierte URLs an. Glauben Sie, dass Sie nur 50.000 URLs haben und alle einreichen? Google findet 2-3 Exemplare jeder Seite? Oder Sie haben 1-Meilen-URLs und nur 12,5 % werden indiziert) Wenn Sie den Überblick behalten, können Sie festlegen, wo nach Problemen gesucht werden soll.

Wenn mit Schritt eins nichts falsch zu sein scheint, würde ich auf den Inhalt übergehen. Es sieht so aus, als ob QH viel mehr Inhalt auf seiner Seite hat und viele andere "Ressourcen" verlinken würde, obwohl der gesamte Inhalt von Google als verschrottet eingestuft wurde Seite nützlicher, da sie dem Benutzer mehr Ressourcen / Informationen bieten. Wenn sie als Autorität angesehen werden und Ihr gesamter Inhalt mit dem Ihren übereinstimmt, indiziert Google Ihren möglicherweise nicht, obwohl Sie das Original sind.

Wenn Sie davon überzeugt sind, dass dies nicht das Problem ist, erstellen Sie einige hochwertige Links dazu, bloggen Sie diese Frage in einigen beliebten Mitarbeiterblogs oder bitten Sie einige Freunde, darüber zu bloggen Fallstudie darüber usw.

Wenn Sie eine Menge starker Links erhalten und diese immer noch nicht indiziert werden, suchen Sie nach Gründen, die möglicherweise bestraft werden (in den meisten Fällen ist dies nicht das Problem, aber es tut nie weh, dies zu überprüfen).

Wenn nichts davon funktioniert, ist es ein einfaches technisches Problem, das übersehen wurde (Ausschluss von Robotern oder ähnliches).

Wenn Sie danach immer noch keine Antwort haben, fragen Sie Google und hoffen, dass Sie eine Antwort erhalten.

Joshak
quelle
0

Die Frage wurde erst gestern gestellt - gib googlebot eine Chance, du bist nicht die einzige Seite im Internet, die er crawlen muss, weißt du :)

Wenn Fragen normalerweise innerhalb eines Tages oder so indexiert werden und eine Woche vergeht und diese noch immer nicht indexiert ist, könnte ich besorgt sein. Aber schon gar nicht nach 1 Tag.

Eric Petroelje
quelle
1
Sie erscheinen normalerweise innerhalb einer Stunde. Also stimme ich zu, ich sollte ihm Zeit geben, aber relativ zu seiner üblichen Häufigkeit ... habe ich.
Michael Pryor
@ Michael stellen Sie sicher, dass Sie Äpfel mit Äpfeln vergleichen - Google scheint stackoverflow.com mit einer VIEL höheren Rate zu indizieren als unsere anderen Websites.
Jeff Atwood