Ich suche ein FLOSS-Tool, das alle Seiten (und eingebetteten Ressourcen, z. B. Bilder) herunterlädt, die in einer XML-Sitemap (erstellt gemäß http://www.sitemaps.org/ ) verlinkt sind .
Das Tool sollte die Sitemap regelmäßig "crawlen" und nach neuen und gelöschten URLs und Änderungen im lastmod
Element suchen . Wenn also eine Seite hinzugefügt, gelöscht oder aktualisiert wird, sollte das Tool die Änderungen übernehmen.
In einigen Sitemaps werden untergeordnete Sitemaps in sitemapindex
→ aufgelistet sitemap
. Das Tool sollte dies verstehen und alle verknüpften Sub-Sitemaps laden und dort nach URLs suchen.
Ich weiß, dass es Tools gibt, mit denen ich alle URLs aus der Sitemap extrahieren kann, damit ich sie Wget oder ähnlichen Tools hinzufügen kann (siehe zum Beispiel: Links aus einer Sitemap extrahieren (xml) ). Dies würde jedoch nicht dazu beitragen, auf Aktualisierungen der Seiten aufmerksam zu werden. Das Verfolgen der Webseiten selbst für Aktualisierungen funktioniert nicht, da sich "sekundärer" Inhalt auf den Seiten täglich ändert, sondern lastmod
nur aktualisiert wird, wenn sich der relevante Inhalt ändert.