In der XML-Sitemap aufgeführte Webseiten herunterladen / aktualisieren [geschlossen]

0

Ich suche ein FLOSS-Tool, das alle Seiten (und eingebetteten Ressourcen, z. B. Bilder) herunterlädt, die in einer XML-Sitemap (erstellt gemäß http://www.sitemaps.org/ ) verlinkt sind .

Das Tool sollte die Sitemap regelmäßig "crawlen" und nach neuen und gelöschten URLs und Änderungen im lastmodElement suchen . Wenn also eine Seite hinzugefügt, gelöscht oder aktualisiert wird, sollte das Tool die Änderungen übernehmen.

In einigen Sitemaps werden untergeordnete Sitemaps in sitemapindex→ aufgelistet sitemap. Das Tool sollte dies verstehen und alle verknüpften Sub-Sitemaps laden und dort nach URLs suchen.


Ich weiß, dass es Tools gibt, mit denen ich alle URLs aus der Sitemap extrahieren kann, damit ich sie Wget oder ähnlichen Tools hinzufügen kann (siehe zum Beispiel: Links aus einer Sitemap extrahieren (xml) ). Dies würde jedoch nicht dazu beitragen, auf Aktualisierungen der Seiten aufmerksam zu werden. Das Verfolgen der Webseiten selbst für Aktualisierungen funktioniert nicht, da sich "sekundärer" Inhalt auf den Seiten täglich ändert, sondern lastmodnur aktualisiert wird, wenn sich der relevante Inhalt ändert.

unor
quelle

Antworten:

1

Haben Sie versucht, dies mit wget und cron zu schreiben? Schau dir die --spiderFlagge von wget an . Es scheint alles zu sein, was Sie brauchen, außer cron, um es gelegentlich auszuführen.

dotancohen
quelle