Gibt es Mechanismen, um zu steuern, was das Internetarchiv auf einer Site archiviert? Ich kann alle Seiten, die ich hinzufügen kann , nicht zulassen :
User-agent: ia_archiver
Disallow: /
Kann ich dem Bot mitteilen, dass er meine Website einmal im Monat oder einmal im Jahr crawlen soll?
Ich habe eine Site / Seiten, die / die aufgrund nicht abgeholter Assets nicht korrekt archiviert werden. Gibt es eine Möglichkeit, dem Internet Archive-Bot mitzuteilen, welche Assets er benötigt, um die Site zu erhalten?
cache
internet-archive
artlung
quelle
quelle
Antworten:
Hinweis : Diese Antwort ist zunehmend veraltet.
Alexa Internet hat den größten Beitrag zur Internetsammlung des Internetarchivs geleistet. Material, das Alexa für seine Zwecke crawlt, wurde ein paar Monate später an IA gespendet. Das Hinzufügen der in der Frage erwähnten Verbotsregel wirkt sich nicht auf diese Crawls aus, aber der Wayback wird sie "rückwirkend" honorieren (Zugriff verweigern, das Material befindet sich weiterhin im Archiv - Sie sollten Alexas Roboter ausschließen, wenn Sie Ihr Material wirklich draußen lassen möchten des Internet-Archivs).
Es mag Möglichkeiten geben, Alexas Crawls zu beeinflussen, aber ich kenne mich damit nicht aus.
Seit IA einen eigenen Crawler (Heritrix) entwickelt hat, haben sie begonnen, ihre eigenen Crawls durchzuführen, aber diese sind in der Regel gezielte Crawls (sie führen Wahl-Crawls für die Library of Congress durch und haben nationale Crawls für Frankreich und Australien usw. durchgeführt). Sie beteiligen sich nicht an den von Google und Alexa durchgeführten nachhaltigen Crawling-Vorgängen auf globaler Ebene. IAs größter Crawl war ein spezielles Projekt zum Crawlen von 2 Milliarden Seiten.
Da diese Crawls nach Zeitplänen ausgeführt werden, die von projektspezifischen Faktoren abhängen, können Sie nicht beeinflussen, wie oft sie Ihre Site besuchen oder ob sie Ihre Site besuchen.
Die einzige Möglichkeit, direkt zu beeinflussen, wie und wann IA Ihre Site crawlt, besteht in der Verwendung ihres Archive-It- Dienstes. Mit diesem Service können Sie benutzerdefinierte Crawls angeben. Die resultierenden Daten werden (irgendwann) in die Websammlung von IA aufgenommen. Dies ist jedoch ein kostenpflichtiger Abonnementdienst.
quelle
Die meisten Suchmaschinen unterstützen die Richtlinie "Crawl-delay", aber ich weiß nicht, ob IA dies tut. Sie könnten es aber versuchen:
Dies würde die Verzögerung zwischen Anfragen auf 3600 Sekunden (dh 1 Stunde) oder ~ 700 Anfragen pro Monat begrenzen.
Ich denke nicht, dass # 2 möglich ist - der IA-Bot greift nach Belieben nach dem Vermögen. Möglicherweise ist die Dateigröße begrenzt, um zu vermeiden, dass zu viel Speicher verwendet wird.
quelle