Bestraft Google täglich aktualisierte <lastmod> -Tags in Sitemaps, wenn die Daten nicht täglich aktualisiert werden?

10

Ich habe eine Sitemap, die täglich mit vielen Links zu Produktseiten erstellt wird. Diese Produkte werden täglich aus einer anderen Datenquelle importiert. Da das Update darin besteht, alle aktuellen Produktinformationen wegzuwerfen und durch die neuen importierten Informationen zu ersetzen, springt das Datum der letzten Änderung immer um einen Tag. Dies wird auch in der Sitemap verwendet. Auch für Produkte, die sich nicht verändert haben. Alle Produktseiten geben vor, aktualisiert worden zu sein.

Wird Google die Website dafür bestrafen, dass sich die Seiten von Tag zu Tag geändert haben, obwohl dies nicht der Fall ist?

Meine Lösung wäre, den Eintrag nur zu ändern, wenn die neu importierten Produktdaten von den vorherigen Daten abweichen. Ich möchte nur sicherstellen, dass dies ein nützliches Upgrade ist, während ich meine Zeit auch für andere Verbesserungen verwenden kann.

Entlocken
quelle

Antworten:

5

Ich habe noch nie etwas über eine Strafe gehört. Im schlimmsten Fall verschwenden Sie die Zeit der Spinne, aber das ist ein Teil des Grundes, warum wir Computer haben: mühsame, sich wiederholende Dinge zu tun. Dennoch sollten Sie sich idealerweise mit dem Problem befassen.

Dies...

Meine Lösung wäre, den Eintrag nur zu ändern, wenn die neu importierten Produktdaten von den vorherigen Daten abweichen.

... ist das, was Sie in erster Linie tun sollten, unabhängig von externen Überlegungen wie Sitemaps usw. Wenn Ihr Inhalt nicht anders ist (und ich würde das Löschen und Ersetzen durch identische Informationen in dieser Beschreibung lastmodeinschließen ), sollte Ihr Datum dies nicht tun nicht geändert werden. Hier verschwenden Sie Ihre eigenen Ressourcen. Sie haben nicht gesagt, wie viele Produkte betroffen sind, aber es wird einen Punkt geben, an dem dieser Prozess langsam und rechenintensiv wird.

Su '
quelle
Ich bin vollkommen einverstanden. Ich bin jedoch auf ein anderes Unternehmen angewiesen, das die Daten liefert. Sie senden immer jedes Produkt (+200) in ihren Datenexporten. Daher schien die Aktualisierung des Loses vor einigen Jahren die beste Lösung zu sein. Mein Kunde hat nicht das Budget, um dies richtig zu lösen. Diese Ex / Importe finden nachts statt, daher sind die zusätzlich verwendeten Ressourcen im Moment kein großes Problem.
Elicit
@Elicit Wenn Sie immer noch dieses Problem haben, speichern Sie einfach die Datenexporte vom Vortag in ihrem ursprünglichen, analysierbaren Format und führen Sie einen Vergleich im Git-Diff-Stil durch, um festzustellen, welche Produkte sich geändert haben. Obwohl es schön ist, brauchen Sie sie nicht, um Ihnen nur die geänderten Produkte zu schicken. Sie sollten es selbst herausfinden können.
Anonymer Pinguin
3

Ich habe die Idee, <lastmod>jeden Tag zu aktualisieren, nie gemocht , da es nicht nur falsch ist, sondern irreführende Suchmaschinen.

In einem Beitrag über SO schrieb Gary Illyes von Google:

Das lastmod-Tag ist in Sitmaps optional und wird in den meisten Fällen von Suchmaschinen ignoriert, da Webmaster einen schrecklichen Job machen und es genau halten.

Ich habe mich allgemein dafür <lastmod>ausgesprochen, entweder richtig oder gar nicht zu verwenden. Wenn Sie es (und <changefreq>& <priority>) weglassen, wird die Datei selbst sogar kleiner und für Suchmaschinen schneller lesbar.

Andrew Lott
quelle
2

Nein. Google verwendet dies lastmodals Hinweis (wie alle Sitemap-Werte). Wenn es jedoch feststellt, dass Ihre Inhalte nicht täglich aktualisiert werden, wird es einfach ignoriert und Ihre Seiten nach eigenem Zeitplan erneut aufgerufen.

DisgruntledGoat
quelle
2

Ich arbeite nicht für Google und kann nicht genau sagen, was sie tatsächlich tun, aber die sinnvolle Möglichkeit für sie, <lastmod>Zeitstempel zu behandeln, besteht darin, keine Zeit damit zu verschwenden, Seiten neu zu crawlen, die sich nicht geändert haben.

Wenn Sie also alle Ihre Seiten jeden Tag als geändert melden, durchsucht Googlebot weiterhin alle Ihre Seiten in der gewünschten Reihenfolge, anstatt sich nur auf die geänderten Seiten zu konzentrieren. Tatsächlich ist es so, als hätten Sie überhaupt keine Zeitstempel für die letzte Änderung gemeldet.

Der Hauptgrund für die Angabe korrekter <lastmod>Zeitstempel besteht darin, dass Änderungen an Ihrer Website schneller im Google-Index angezeigt werden. Wenn Ihre Website Hunderte von Seiten enthält, dauert es eine Weile, bis Google alle gecrawlt und Änderungen gefunden hat. Wenn Sie Googlebot jedoch mitteilen, welche Seiten sich in letzter Zeit geändert haben, können diese Seiten zuerst gecrawlt werden, und es wird vermieden, so viel Zeit für den Rest zu verschwenden.

Natürlich können Sie stattdessen auch die Crawling-Rate von Googlebot in den Webmaster-Tools erhöhen und auf das Beste hoffen. Aber wirklich, es sollte nicht zu schwierig sein, Ihr Update-Skript dazu zu bringen, Zeitstempel beizubehalten. Ich gehe zum Beispiel davon aus, dass Sie gerade so etwas tun:

for each product do:
    write new page content into product page file;
end do;

Wenn ja, ändern Sie es stattdessen einfach so:

for each product do:
    read old page content from product page file into string A;
    write new page content into string B;
    if A is not equal to B then:
        write string B into product page file;
    end if;
end do;
Ilmari Karonen
quelle
2

Nein, die von Ihnen angegebenen Informationen werden einfach ignoriert, wenn sie falsch sind. In diesem Fall ermitteln Webcrawler selbst, wie oft sie Ihre Seiten crawlen sollen.

Jérôme Verstrynge
quelle
Die Verbindung ist unterbrochen ...
Victor Schröder
1

Google wird Sie dafür nicht bestrafen. Um eine Strafe zu bekommen, musst du wirklich einen schwarzen Hut auf Googles Arsch ziehen, also mach dir darüber keine Sorgen. Google wird früh genug herausfinden, ob sich Ihre Inhalte geändert haben (daran haben sie in den letzten Jahren gearbeitet), und die lastmod-Eigenschaft als Hinweis verwenden.

Steven Van Vessum
quelle
1

Ich empfehle Ihnen, diese Best Practices für XML-Sitemaps und RSS / Atom-Feeds zu lesen

Letzte Änderungszeit

Geben Sie eine letzte Änderungszeit für jede URL in einer XML-Sitemap und einem RSS / Atom-Feed an. Die letzte Änderungszeit sollte die letzte Änderung sein, bei der sich der Inhalt der Seite sinnvoll geändert hat. Wenn eine Änderung in den Suchergebnissen sichtbar sein soll, sollte die letzte Änderungszeit die Zeit dieser Änderung sein.

XML sitemap uses  <lastmod>
RSS uses <pubDate>
Atom uses <updated>

Stellen Sie sicher, dass die letzte Änderungszeit korrekt eingestellt oder aktualisiert wird:

Specify the time in the correct format: W3C Datetime for XML sitemaps, RFC3339 for Atom and RFC822 for RSS.
Only update modification time when the content changed meaningfully.
Don’t set the last modification time to the current time whenever the sitemap or feed is served.
John
quelle
Danke für das Update. Hoffentlich wird der Downvoter es sehen und seine Stimme umkehren.
John Conde