Wir verwenden eine Sitemap für Stack Overflow, aber ich habe gemischte Gefühle.
Webcrawler erkennen Seiten normalerweise über Links innerhalb der Site und von anderen Sites. Sitemaps ergänzen diese Daten, damit Crawler, die Sitemaps unterstützen, alle URLs in der Sitemap abrufen und anhand der zugehörigen Metadaten mehr über diese URLs erfahren können. Die Verwendung des Sitemap- Protokolls garantiert nicht, dass Webseiten in Suchmaschinen enthalten sind, bietet jedoch Hinweise für Webcrawler, um das Crawlen Ihrer Website zu verbessern.
Aufgrund unserer zweijährigen Erfahrung mit Sitemaps ist die Sitemap von Grund auf paradox :
- Sitemaps sind für Websites gedacht, die nur schwer ordnungsgemäß gecrawlt werden können.
- Wenn Google Ihre Website nicht erfolgreich crawlen kann, um einen Link zu finden, aber in der Sitemap gefunden werden kann, wird der Sitemap-Link nicht gewichtet und nicht indiziert!
Das ist das Sitemap-Paradoxon - wenn Ihre Website (aus welchem Grund auch immer) nicht richtig gecrawlt wird, hilft Ihnen die Verwendung einer Sitemap nicht weiter!
Google gibt sich alle Mühe , keine Sitemap-Garantie zu geben :
„Wir können keine Prognosen oder Garantien abgeben , wann oder ob Ihre URLs gecrawlt werden oder hinzugefügt zu unserem Index“ Zitat
"Wir können nicht garantieren, dass wir alle Ihre URLs crawlen oder indizieren. Beispielsweise können wir keine Bild-URLs crawlen oder indizieren, die in Ihrer Sitemap enthalten sind." Zitat
„Einreichen einer Sitemap nicht garantiert , dass alle Seiten Ihrer Website in den Suchergebnissen gekrochen oder enthalten sein“ Zitat
In Anbetracht der Tatsache, dass in Sitemaps gefundene Links lediglich Empfehlungen sind , während auf Ihrer eigenen Website gefundene Links als kanonisch gelten. Es scheint nur logisch , eine Sitemap zu vermeiden und sicherzustellen, dass Google und jede andere Suchmaschine dies auch können Durchsuchen Sie Ihre Website mithilfe der einfachen alten Standardwebseiten, die alle anderen Benutzer sehen.
Bis Sie getan haben , dass , und sind immer schön gespidert und gründlich , so kann Google , dass Ihr sehen eigene Website Links zu diesen Seiten, und wäre bereit , die Links zu kriechen - uh, warum brauchen wir eine Sitemap, wieder? Die Sitemap kann aktiv schädlich sein, da sie Sie davon abhält, sicherzustellen, dass Suchmaschinenspinnen Ihre gesamte Website erfolgreich crawlen können. "Oh, es ist egal, ob der Crawler es sehen kann, wir schlagen nur diese Links in die Sitemap!" Die Realität ist nach unserer Erfahrung genau das Gegenteil.
Das scheint mehr als ironisch, wenn man bedenkt, dass Sitemaps für Websites gedacht sind, die eine sehr umfangreiche Sammlung von Links oder eine komplexe Benutzeroberfläche aufweisen, die schwer zu erkennen sein kann. Erfahrungsgemäß hilft die Sitemap nicht weiter, da Google den Link auf Ihrer Website ohnehin nicht indiziert , wenn er von Google nicht gefunden wird. Wir haben dies immer wieder mit Fragen zum Stapelüberlauf bewiesen.
Liege ich falsch? Sind Sitemaps sinnvoll und verwenden wir sie nur falsch?
quelle
Antworten:
Haftungsausschluss: Ich arbeite mit dem Sitemaps-Team von Google zusammen, daher bin ich etwas voreingenommen :-).
Zusätzlich zur umfassenden Verwendung von Sitemaps für Inhalte (Bilder, Videos, Nachrichten usw.), die nicht im Webindex enthalten sind, verwenden wir Informationen aus URLs, die in Sitemaps-Dateien enthalten sind, für die folgenden Hauptzwecke:
Auf der Webmaster-Seite habe ich auch Sitemaps-Dateien als äußerst nützlich empfunden:
Zugegeben, für sehr kleine, statische und leicht zu durchsuchende Websites ist die Verwendung von Sitemaps aus Sicht von Google möglicherweise nicht mehr erforderlich, sobald die Website gecrawlt und indexiert wurde. Für alles andere würde ich sie wirklich empfehlen.
FWIW Es gibt einige Missverständnisse, die ich ebenfalls behandeln möchte:
quelle
priority
Feld?1 2 3 ... 22 **23** 24 ... 198 199 200
. Um ein Produkt auf Seite 100 zu finden, müssten Sie ungefähr 100 Links durchgehen. Oder benutzen Sie die Suchleiste. Würde Googlebot das crawlen oder würde es nach ungefähr 20 Levels aufgeben? Wäre eine Sitemap hier die passende Lösung?Wenn Sie wissen, dass Sie eine gute Website-Architektur haben und Google Ihre Seiten natürlich finden würde, ist der einzige Vorteil, den ich kenne, eine schnellere Indizierung. Wenn Ihre Website schnell genug für Sie indiziert wird, ist dies nicht erforderlich.
In diesem Artikel aus dem Jahr 2009 testete ein Gentlemen, wie schnell Google seine Website mit und ohne Sitemap gecrawlt hat. http://www.seomoz.org/blog/do-sitemaps-effect-crawlers
Meine Faustregel lautet: Wenn Sie etwas Neues und Ungetestetes starten, möchten Sie sehen, wie Google Ihre Website crawlt, um sicherzustellen, dass nichts repariert werden muss. Senden Sie es also nicht, wenn Sie Änderungen vornehmen und dies möchten Wenn Sie andere zeitkritische Informationen haben, wie z. B. aktuelle Nachrichten, dann senden Sie diese an Google, da Sie alles tun möchten, um sicherzustellen, dass Sie als erster von Google erkannt werden. Andernfalls ist dies eine Frage der Präferenz.
quelle
Ich vermute: Für Google sind Sitemaps erforderlich, um Updates so schnell wie möglich nachverfolgen zu können. Nehmen wir beispielsweise an, Sie haben einen neuen Inhalt zu einer tiefen Position Ihrer Website hinzugefügt, die mehr als 10-20 Klicks von Ihrer Homepage entfernt benötigt. Für Google ist es weniger wahrscheinlich, dass diese neue Seite in kurzer Zeit erreicht wird. Stattdessen wird deren Existenz angekündigt , bis ein Pfad zu dieser Seite vollständig festgelegt ist. Schließlich wird der PageRank nicht sofort berechnet, sondern es wird Zeit benötigt, um das Benutzerverhalten und dergleichen zu bewerten. Warum sollte die Suchmaschine bis dahin keine Seite mit neuem Inhalt crawlen und indizieren?
quelle
Sitemaps sind unglaublich wertvoll, wenn Sie sie richtig verwenden.
Zunächst einmal dient die Tatsache, dass Google angibt, dass es sich um Hinweise handelt, nur dazu, a) sicherzustellen, dass Webmaster nicht den falschen Eindruck haben, Sitemap = Indexierung, und b) Google die Möglichkeit zu geben, bestimmte Sitemaps zu ignorieren, wenn sie als unzuverlässig eingestuft werden ( aka lastmod ist das aktuelle Datum für alle URLs an jedem Tag, an dem auf sie zugegriffen wird.)
Im Allgemeinen mag und konsumiert Google jedoch Sitemaps (in der Tat finden sie manchmal ihre eigenen und fügen sie den Google Webmaster-Tools hinzu). Warum? Es erhöht die Effizienz, mit der sie kriechen können.
Anstatt an einer Startsite zu beginnen und das Web zu crawlen, können sie einen angemessenen Betrag ihres Crawling-Budgets auf der Grundlage der übermittelten Sitemaps einer Site zuweisen. Sie können auch einen umfangreichen Verlauf Ihrer Website mit den zugehörigen Fehlerdaten (500, 404 usw.) erstellen.
Von Google:
"Der Googlebot durchsucht das Web, indem er Links von einer Seite zur anderen verfolgt. Wenn Ihre Website also nicht gut verlinkt ist, können wir sie möglicherweise nur schwer finden."
Was sie nicht sagen, ist, dass das Crawlen des Webs zeitaufwändig ist und sie lieber einen Spickzettel (aka Sitemap) haben.
Sicher, Ihre Website ist aus Crawl-Sicht in Ordnung. Wenn Sie jedoch neuen Inhalt einführen möchten, können Sie diesen Inhalt schneller in eine Sitemap mit hoher Priorität kopieren, um ihn zu crawlen und zu indizieren.
Und das funktioniert auch bei Google, da neue Inhalte schnell gefunden, gecrawlt und indiziert werden sollen. Auch wenn Sie nicht der Meinung sind, dass Google beim Dschungel-Ansatz den ausgetretenen Pfad gegenüber der Machete bevorzugt, sind Sitemaps aus einem anderen Grund wertvoll: dem Tracking.
Insbesondere mit einem Sitemap-Index (http://sitemaps.org/protocol.php#index) können Sie Ihre Website in Abschnitte aufteilen - Sitemap nach Sitemap. Auf diese Weise können Sie die Indexierungsrate Ihrer Website abschnittsweise anzeigen.
Ein Abschnitt oder Inhaltstyp weist möglicherweise eine Indexierungsrate von 87% auf, während ein anderer eine Indexierungsrate von 46% aufweist. Es ist dann Ihre Aufgabe, herauszufinden, warum.
Um die Sitemaps optimal zu nutzen, sollten Sie das Crawlen von Googlebot (und Bingbot) auf Ihrer Website (über Weblogs) nachverfolgen, diese mit Ihren Sitemaps abgleichen und dann dem gesamten Datenverkehr folgen.
Schlafen Sie nicht auf Sitemaps, sondern investieren Sie in sie.
quelle
Mit den Worten von Google: "In den meisten Fällen profitieren Webmaster von der Übermittlung der Sitemap, und in keinem Fall werden Sie dafür bestraft."
Ich stimme jedoch zu, dass das Beste, was Sie tun können, wenn Ihre Websiteseiten in Suchmaschinen angezeigt werden sollen, darin besteht, sicherzustellen, dass sie von der eigentlichen Website aus gecrawlt werden können.
quelle
Ich glaube, dass Suchmaschinen die Sitemap nicht so oft verwenden, um Seiten zu finden, sondern um zu optimieren, wie oft sie sie auf Aktualisierungen überprüfen. Sie schauen
<changefreq>
und<lastmod>
. Google durchsucht wahrscheinlich sehr oft die gesamte Website (überprüfen Sie Ihre Protokolle!), Aber nicht alle Suchmaschinen haben die Ressourcen, um dies zu tun (Hat jemand Blekko ausprobiert ?). In jedem Fall, da es keine Strafe für die Verwendung gibt und sie automatisch und einfach erstellt werden können, würde ich es weitermachen.quelle
<priority>
Feld für ziemlich wichtig, um sie wissen zu lassen, welche Seiten am wichtigsten sind. Zum Beispiel haben Sie auf Stack Overflow Hunderte von Tag- und Benutzerseiten, die in Ordnung sind, aber bei weitem nicht so wichtig wie die Fragen selbst. Wenn die Sitemap die Fragenpriorität auf 1 setzt und alles andere niedriger ist, werden die Fragen mit größerer Wahrscheinlichkeit über andere Seiten indiziert.Wenn Sie sich für dieses Thema interessieren, lesen Sie dieses großartige Google-Dokument: http://googlewebmastercentral.blogspot.com/2009/04/research-study-of-sitemaps.html (April 2009). Lesen Sie das gesamte Dokument, nicht nur den Blogpost .
aus dem Papier
Aber ja, die Sitemap wird hauptsächlich zum Auffinden verwendet (der Vorgang, bei dem Google Ihre Inhalte entdeckt), nicht zur Wertermittlung. Wenn Sie Schwierigkeiten mit der Entdeckung haben, verwenden Sie eine Sitemap. Die Entdeckung ist eine Voraussetzung für das Crawlen, berührt jedoch nicht die Wertermittlung.
meiner Erfahrung nach
wenn ich eine SEO-Strategie für eine Website mit mehr als einer halben Million Seiten implementiere, die ich anstrebe
Alles andere ist nur "Quatsch" - ja, andere Dinge haben möglicherweise einen positiven SEO-Wert, aber definitiv einen negativen Wert: Es erschwert die Verwaltung der Website. (ps: zur wertermittlung verknüpfe ich die landingpages auf sinnvolle weise (große wirkung), aber das ist schon der zweite schritt).
Zu Ihrer Frage: Bitte verwechseln Sie nicht das Erkennen, Crawlen, Indizieren und Ranking. Sie können alle separat verfolgen und alle separat optimieren. und Sie können die Erkennung und das Crawlen mithilfe einer hervorragenden (dh Echtzeit-) Sitemap erheblich verbessern.
quelle
Sitemaps können deinen Arsch retten.
Auf einer meiner Websites habe ich eine große Anzahl von Links, mit denen ich verhindern kann, dass Suchmaschinen spinnen. Kurz gesagt, Google hat JS in meinem Forum falsch interpretiert und viele 500 und 403 Antwortcodes ausgelöst, von denen ich glaubte, dass sie sich auf die Position der Website auswirken. Ich habe das umgangen, indem ich die problematischen URLs über robots.txt ausgeschlossen habe.
Eines Tages habe ich ein Durcheinander begangen und etwas getan, das Google daran gehindert hat, einige Seiten auf dieser Website zu crawlen, die ich wirklich indizieren wollte. Aufgrund der Ausschlüsse im Forum enthielt der Fehlerbereich der Webmaster-Tools für "Restricted by robots.txt" mehr als 4000 Seiten. Daher hätte ich diesen Fehler erst aufgegriffen, als es viel zu spät war.
Da sich alle "wichtigen" Seiten meiner Website in Sitemaps befinden, konnte ich dieses Problem in der speziellen Fehlerkategorie der Webmaster-Tools für Probleme mit Seiten in Sitemaps schnell erkennen.
Abgesehen davon kann ich auch einen Sitemap-Index verwenden, um die Indexierungsqualität verschiedener Abschnitte meiner Websites zu bestimmen, wie von @AJ Kohn erwähnt.
quelle
Ich bin nicht selbst darauf gestoßen, aber die meisten meiner Projekte sind Anwendungen oder Websites, für die ansonsten Benutzerkonten erforderlich sind, sodass die Indizierung durch Suchmaschinen kein Schwerpunkt ist.
Das heißt, ich habe schon gehört, dass SEO Sitemaps im Grunde genommen unbrauchbar gemacht hat. Wenn Sie sich das Protokoll ansehen, ist es eine Art "Ehrensystem", das angibt, wie oft sich eine Seite ändert und welche relative Priorität jede Seite hat. Es liegt auf der Hand, dass ein Dutzend SEO-Unternehmen die Felder missbrauchen - jede Seite hat höchste Priorität! Jede Seite wechselt stündlich! - und Sitemaps effektiv unbrauchbar gemacht.
In diesem Artikel aus dem Jahr 2008 heißt es im Grunde genommen: Die Sitemap ist ziemlich nutzlos, und Sie sollten den zu indizierenden Inhalt optimieren und die Sitemap nicht mehr verwenden.
quelle
Lass es kriechen.
Ich mache folgendes:
Ich generiere eine erweiterte XML-Datei, die als Basis für viele Dinge dient:
Daher habe ich all das, warum sollte ich nicht auch eine XML-Sitemap bereitstellen und den Crawler tun lassen, was er tun möchte, wenn er es tun möchte?
quelle
Jeff, ich habe keine Ahnung von Stackoverflow, weil ich noch nie in meinem Leben die Gelegenheit hatte, Webmaster einer so großen und häufig aktualisierten Website zu sein.
Für kleine Websites, die sich nicht häufig ändern, halte ich Sitemap aus zwei Gründen für sehr nützlich (nicht, dass Sitemap das Wichtigste ist, aber sehr nützlich, ja):
Die Site wird schnell gecrawlt (derselbe Grund wurde oben von Joshak erklärt ) und in meiner kleinen Erfahrung habe ich dies oft bei kleinen Sites bemerkt (bis zu 30/50 Seiten).
Nach einigen Wochen habe ich eine Sitemap eingereicht. Ich schaue in "Google Webmaster-Tools - Sitemaps" nach und sehe die Anzahl der in der Sitemap eingereichten URLs im Vergleich zur Anzahl der URLs im Webindex . Wenn ich sehe, dass sie gleich sind, dann gut. Ansonsten kann ich auf meinen Webseiten sofort nachlesen, welche Seiten nicht indiziert werden und warum.
quelle
Dies wurde (zuerst?) Von Randfish bei SEOmoz im guten alten Jahr 2007 geschrieben. Das erste Mal kam er zu den gleichen Schlussfolgerungen, aber dann war es soweit ... und es war vorbei.
Seit Januar 2009 hat er dem Artikel einen Nachtrag hinzugefügt, der besagt, dass alle möglichen Nachteile durch die insgesamt positiven Ergebnisse der Erstellung, Überprüfung und Übermittlung von Sitemaps aufgewogen werden.
quelle
Ich glaube, SiteMaps dienen heutzutage nur zwei Zwecken:
quelle
KEINE SITEMAPS VERWENDEN
Sitemaps sind hauptsächlich für Sites gedacht, die keine Timestamp-Indizes und -Knoten haben. SE übernimmt beides für den Kerninhalt. Wenn Sie also eine Sitemap haben, wird der Crawler langsamer Es fehlen die Metadaten der Kernindizes. Auf der anderen Seite habe ich keine wirkliche Ahnung, wie Google seine Bots erstellt. Ich weiß nur, ob ich zu Bot SE gehen würde. Ich würde die Sitemap NICHT verwenden. Außerdem bemerken manche Websites nicht einmal, dass ihre Sitemaps alle%! @ $ Sind - und wenn Sie ein Profil auf einer Sitemap erstellt haben, funktioniert das plötzlich nicht mehr und Sie müssen ein neues Profil auf der Website erstellen echte Seite.
Sie haben also Recht - VERWENDEN SIE KEINE SITEMAPS!
TIPP: Eine Sache, die Sie dennoch tun sollten, ist, die Semantik der Tags so lange wie möglich gleich zu halten. Das heißt, wenn in "Asked One Hour Ago" Metadaten wie die folgenden eingebettet sind:
Ändern Sie niemals den String-Namen
relativetime
, es sei denn, die Bedeutung der Daten intitle
hat sich geändert. NOCH NIE... :-)quelle
Ich habe kürzlich eine Site umstrukturiert, an der ich noch arbeite. Da es keine gute Möglichkeit gab, 500.000 Seiten zu verknüpfen, um den Nutzern zu helfen, entschied ich mich, eine XML-Sitemap zu verwenden, diese an Google zu senden und stattdessen die Websitesuche zu verwenden. Google hatte kein Problem damit, meine Website früher zu indizieren. Seit dem Hinzufügen der Sitemap ist Google jedoch sehr aggressiv darin, meine Website zu spinnen und die Seiten extrem schnell zu indizieren. Google hat die Sitemap verwendet, um neue Seiten zu finden (ca. 3300 pro Woche) und aktualisierte Seiten erneut aufzurufen. Es war ein echter Gewinn in meinem Buch. Ich möchte immer noch einen neuen Weg finden, um meine Seiten zu verlinken und AJAX zum Nachschlagen zu verwenden, aber das ist ein Projekt für einen anderen Tag. So weit, ist es gut! Es war eine gute Lösung für mich. Alles in allem habe ich gewonnen und nicht verloren. Das ist interessant, da ich immer der Meinung war, dass Sitemaps nützlicher sein könnten, aber durch ihr Design eingeschränkt sind.
quelle
Ich habe gehört, dass Sitemaps Ihre Seiten schneller in den Zusatzindex stellen. Aber ich habe noch nicht einmal den Zusatzindex gehört, der schon seit Ewigkeiten erwähnt wird, daher wird er möglicherweise nicht mehr verwendet.
PS, falls meine Aussage nicht klar genug ist, ist (oder war) es eine SCHLECHTE Sache, im Ergänzungsindex zu sein ... daher ist (oder war) eine Sitemap SCHLECHTE.
quelle
Wir verwenden Sitemaps (die nicht an Suchmaschinen gesendet, aber verlinkt werden
robots.txt
), um sicherzustellen, dass die Homepage die höchste aufweist<priority>
. Ich bin mir nicht sicher, ob sie viel anderen Nutzen haben.quelle
Ich bin nicht einverstanden, dass Google die Nur-Sitemapped-Links nicht indiziert. Ich habe zahlreiche Websites, deren Seiten nur über Sitemaps erreichbar sind, und google indiziert sie ohne Probleme. Ich kann dafür viele Beispiele nennen.
quelle
Eine gut erstellte Website benötigt keine Sitemap, obwohl sie unsere Berichterstattung und unser Ranking unterstützen und einen kleinen zusätzlichen Wert wie Priorität, Aktualisierungshäufigkeit usw. hinzufügen kann. Sie können einer Suchmaschine sagen, hey ... Ich habe diese Seite aktualisiert Irgendwo in der Mitte meiner Site, ohne dass ein vollständiger Crawl erforderlich ist. Ich habe mir die Crawl-Muster noch nie angesehen, aber man würde hoffen, dass es hilft.
Das wahre Plus für mich sind jedoch die Webmaster-Tools und der Einblick, den Sie in die Sichtbarkeit Ihrer Website und Ihrer Benutzer erhalten.
quelle