Kontrolle über das Internet-Archiv neben nur "Disallow /"?

13

Gibt es Mechanismen, um zu steuern, was das Internetarchiv auf einer Site archiviert? Ich kann alle Seiten, die ich hinzufügen kann , nicht zulassen :

User-agent: ia_archiver
Disallow: /
  1. Kann ich dem Bot mitteilen, dass er meine Website einmal im Monat oder einmal im Jahr crawlen soll?

  2. Ich habe eine Site / Seiten, die / die aufgrund nicht abgeholter Assets nicht korrekt archiviert werden. Gibt es eine Möglichkeit, dem Internet Archive-Bot mitzuteilen, welche Assets er benötigt, um die Site zu erhalten?

artlung
quelle
Ich bin auch sehr an Antworten interessiert. +1 :)
Tim Post

Antworten:

8

Hinweis : Diese Antwort ist zunehmend veraltet.

Alexa Internet hat den größten Beitrag zur Internetsammlung des Internetarchivs geleistet. Material, das Alexa für seine Zwecke crawlt, wurde ein paar Monate später an IA gespendet. Das Hinzufügen der in der Frage erwähnten Verbotsregel wirkt sich nicht auf diese Crawls aus, aber der Wayback wird sie "rückwirkend" honorieren (Zugriff verweigern, das Material befindet sich weiterhin im Archiv - Sie sollten Alexas Roboter ausschließen, wenn Sie Ihr Material wirklich draußen lassen möchten des Internet-Archivs).

Es mag Möglichkeiten geben, Alexas Crawls zu beeinflussen, aber ich kenne mich damit nicht aus.

Seit IA einen eigenen Crawler (Heritrix) entwickelt hat, haben sie begonnen, ihre eigenen Crawls durchzuführen, aber diese sind in der Regel gezielte Crawls (sie führen Wahl-Crawls für die Library of Congress durch und haben nationale Crawls für Frankreich und Australien usw. durchgeführt). Sie beteiligen sich nicht an den von Google und Alexa durchgeführten nachhaltigen Crawling-Vorgängen auf globaler Ebene. IAs größter Crawl war ein spezielles Projekt zum Crawlen von 2 Milliarden Seiten.

Da diese Crawls nach Zeitplänen ausgeführt werden, die von projektspezifischen Faktoren abhängen, können Sie nicht beeinflussen, wie oft sie Ihre Site besuchen oder ob sie Ihre Site besuchen.

Die einzige Möglichkeit, direkt zu beeinflussen, wie und wann IA Ihre Site crawlt, besteht in der Verwendung ihres Archive-It- Dienstes. Mit diesem Service können Sie benutzerdefinierte Crawls angeben. Die resultierenden Daten werden (irgendwann) in die Websammlung von IA aufgenommen. Dies ist jedoch ein kostenpflichtiger Abonnementdienst.

Kris
quelle
3
Ihr Kommentar dazu, dass IA ihre eigenen Crawls durchführt, stimmte 2011 und 2016 nicht mehr: Wir kriechen jetzt viel alleine.
Greg Lindahl
@ Greg Lindahl Sie können gerne eine aktualisierte Antwort auf diese Frage hinzufügen
Stephen Ostermiller
2

Die meisten Suchmaschinen unterstützen die Richtlinie "Crawl-delay", aber ich weiß nicht, ob IA dies tut. Sie könnten es aber versuchen:

User-agent: ia_archiver
Crawl-delay: 3600

Dies würde die Verzögerung zwischen Anfragen auf 3600 Sekunden (dh 1 Stunde) oder ~ 700 Anfragen pro Monat begrenzen.

Ich denke nicht, dass # 2 möglich ist - der IA-Bot greift nach Belieben nach dem Vermögen. Möglicherweise ist die Dateigröße begrenzt, um zu vermeiden, dass zu viel Speicher verwendet wird.

Verärgerte Ziege
quelle
@Kris: Das Setzen einer Crawl-Verzögerung sollte dies per Proxy tun. Wenn Sie 30 Seiten haben und dem Crawler anweisen, nur einmal am Tag zuzugreifen, wird wahrscheinlich jede Seite ungefähr alle 30 Tage aktualisiert. (Natürlich keine Garantie.)
DisgruntledGoat
Theoretisch würde man sich jedoch niemals an eine solche Regel halten, wenn man Archivierungs-Crawls durchführt. Durch das Durchforsten einer Site und eines Dokuments pro Tag können Sie zu einem bestimmten Zeitpunkt keine gute Erfassung der Site erhalten. Wenn dieses Attribut eingehalten werden soll, liegt die Obergrenze bei einem Archiv- Crawl bei 1-5 Minuten .
Kris
Ah OK, ich verstehe deinen Standpunkt.
DisgruntledGoat
Ich habe mir gerade das kürzlich veröffentlichte Heritrix 3 angesehen und festgestellt, dass es die Behandlung der Durchforstungsverzögerungsrichtlinie hinzugefügt hat, aber standardmäßig werden nur maximal 300 Sekunden (5 Minuten) berücksichtigt.
Kris