Ich habe eine Website, die ich meistens nicht von Suchmaschinen indizieren möchte, aber ich möchte sie auf archive.org für immer behalten. Also robots.txt
fängt mein damit an:
User-agent: *
Disallow: /
Laut archive.org muss ich heute Folgendes in mein hinzufügen robots.txt
, um ihre Bots zuzulassen:
User-agent: ia_archiver
Disallow:
Aber ich hatte bereits vor ein paar Jahren getan, was sie angedeutet hatten, zumindest habe ich Folgendes hinzugefügt:
User-agent: archive.org_bot
Disallow:
Dann gibt es eine andere Quelle, die behauptet, dass Sie die beiden oben genannten hinzufügen müssen Disallow
, plus eine weitere:
User-agent: ia_archiver-web.archive.org
Disallow:
Beachten Sie, dass Sie setzen müssen, Disallow: /
wenn der Bot Ihre Site nicht archivieren soll.
Hat sich am IA-Bot etwas geändert? Wenn ja, wann?
Was ist der empfohlene Weg? Sollte ich vorerst nur alle drei zulassen und hoffen, dass IA ihren Bot-Namen in Zukunft nicht mehr ändert?
Antworten:
Update : Wie @KevinFegan in den Kommentaren feststellt, wurde die Dokumentation geändert. Der folgende Teil beschreibt, wie das Internetarchiv in der Vergangenheit (zumindest 2014) damit umgegangen ist.
Ihre FAQ Wie kann ich die Seiten meiner Website von der Wayback-Maschine ausschließen lassen? bezieht sich auf das Entfernen von Dokumenten von der Wayback-Maschine , die dokumentiert, dass ihr Bot aufgerufen wird
ia_archiver
.Dieser Datensatz sollte es dem Bot also ermöglichen, Ihre gesamte Site zu crawlen:
quelle
*
Gruppe stimmt nur überein, wenn keine andere Gruppe übereinstimmt.Hier gibt es wirklich zwei Probleme:
robots.txt
auf Ihrer Website nicht zulassen (Block) Wayback Ihre Website von kriecht.Zu Punkt 1:
Wie andere gesagt haben, lautet der korrekte Eintrag für robots.txt:
Denken Sie daran, dass es eine Weile dauern kann (vielleicht eine lange Zeit), bis Wayback alle Änderungen bemerkt, die Sie an robots.txt vorgenommen haben.
So überprüfen Sie, ob Wayback
robots.txt
auf Ihrer Website das Crawlen Ihrer Website ermöglicht:"Browse History"
Schaltfläche."Save Page"
Schaltfläche.An diesem Punkt sollten Sie 1 von 3 Dingen sehen:
Nun zu Punkt 2:
Wird Wayback Ihre Website crawlen?
Nur weil Sie Wayback erlauben , Ihre Site zu crawlen, bedeutet dies nicht, dass sie (jemals) Ihre Site crawlen.
Laut den Wayback-FAQ (Hervorhebung hinzugefügt):
Update: 09. Mai 2017
Andere haben Kommentare / Antworten hinterlassen, die darauf hinweisen, dass Archive.org robots.txt nicht mehr berücksichtigt. Vielleicht ist dies ein "work in progress" und es wird irgendwann der Fall sein, aber ich habe dieses neue Verhalten noch nicht gesehen.
Der Fall hierfür scheint aus diesem Artikel zu stammen: Robots.txt: ROBOTS.TXT IS A SUICIDE NOTE von
archiveteam.org
. Während diese Seite wenig oder gar nichts Gutes über "Robots.txt" zu sagen hat, wird nirgendwo erwähnt, dass Archive.org robots.txt nicht mehr ehrt.Ebenfalls zu beachten: Dieser Artikel wird gehostet
archiveteam.org
, was definitiv nicht der Fall istarchive.org
, und ich bin mir nicht sicher, ob es eine (offizielle) Beziehung zwischenarchive.org
und gibtarchiveteam.org
.Tatsächlich scheint diese Seite über das Archivteam eine Unterscheidung zwischen und (Hervorhebung hinzugefügt) zu erklären :
archive.org
archive.org
archiveteam.org
Auf jeden Fall habe ich beschlossen , diesen einen Versuch zu geben, und ich fand , dass, zumindest zu diesem Zeitpunkt Archive.org STILL ehrt robots.txt:
archive.org
dass die Seite "aufgrund von robots.txt nicht angezeigt werden kann".Zu diesem Zeitpunkt bin ich noch nicht überzeugt, aber ich würde gerne das Gegenteil beweisen ... es wäre großartig, wenn es wahr wäre.
quelle
Update 2017
Der Archiv-Bot kümmert sich jetzt nicht mehr um Ihre robots.txt.
Wenn Sie es wirklich blockieren möchten, senden Sie ihnen eine E-Mail gemäß dieser Seite oder blockieren Sie ihre IP-Adresse über htaccess.
quelle
Der Eintrag robots.txt ia_archiver Disallow (mit dem "/") sollte für die von Ihnen beschriebene Notwendigkeit in Ordnung sein ("für die Ewigkeit bewahren", aber noch nicht öffentlich).
Ich habe gerade einen kurzen Test durchgeführt und den Eintrag ia_archiver Disallow für eine Site auskommentiert, die ihn mindestens in den letzten 10 Jahren hatte. Dann habe ich die Website auf archive.org/web nachgeschlagen und es wurden die in den Jahren 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 und 2017 gesammelten Gewinne angezeigt! Dies bedeutet, dass Archive.org das, was andere in diesen Jahren als "Nicht archivieren" bezeichneten, nie strikt eingehalten hat, sondern lediglich die archivierten Kopien nicht offengelegt hat.
quelle
quelle
Ich habe die
robots.txt
Methode ausprobiert und sie hat nicht funktioniert. Also kontaktierte ich die Website unter ihrer E-Mail [email protected]:Und ich habe folgende Antwort bekommen:
Ich habe
wayback-removal-request.html
mit folgendem Inhalt erstellt (nicht einmal gültiges HTML):Habe es hochgeladen und auf ihre E-Mail mit der URL geantwortet, unter der die Webseite verfügbar war. Später erhielt ich die folgende Antwort:
Als ich ein paar Stunden später nachgesehen habe, wurde meine Website entfernt.
quelle