8

Ich möchte den archive.isZugriff auf meine Website verweigern . (Ich möchte nicht, dass diese Website meine ohne meine Zustimmung zwischenspeichert).

Wissen Sie, ob es möglich ist?

web-crawlers noarchive jemand2332
quelle

6

Okay. Dies ist eine neue (zumindest für mich) und bisher ziemlich interessant. Ich werde hier nicht ins Unkraut geraten.

Als ich das schrieb, arbeitete ich an wenig oder gar keinem Schlaf. Ich habe ein paar Dinge verpasst, auf die @unor freundlicherweise hingewiesen hat, und deshalb muss ich meine Antwort mildern und Kredit geben, wo Kredit fällig ist. Danke @unor!

Archive.is ist bei Denis Petrov registriert, der ein Google Webhost-Konto unter der IP-Adresse 104.196.7.222 [AS15169 GOOGLE - Google Inc.] gemäß Domain Tools verwendet, obwohl ich es am 46.17.100.191 [AS57043 HOSTKEY-AS HOSTKEY BV] habe. Es ist wahrscheinlich, dass sich das Host-Unternehmen kürzlich geändert hat.

Archive.today gehört ebenfalls Denis Petrov und ähnelt Archive.is, wenn nicht identisch. Für die Zwecke dieser Antwort werde ich mich an Archive.is wenden, und Sie können davon ausgehen, dass dies für Archive.today gilt. Archive.today existiert unter einer anderen IP-Adresse 78.108.190.21 [AS62160 GM-AS Ja Networks Unlimited Ltd]. Bitte haben Sie Verständnis dafür, dass Denis Petrov 70 Domains besitzt. Ohne tiefer zu graben, gibt es möglicherweise mehr Websites, um die man sich Sorgen machen muss. Ich werde Blockierungscode für alle drei IP-Adressen bereitstellen.

Archive.is ist benutzergesteuert. Es wird davon ausgegangen, dass Sie Ihre eigene Seite archivieren. Abgesehen von diesem Szenario kann Archive.is als Spam-Site für Content Scraper betrachtet werden.

Archive.is geht eine gefährliche Linie. Es verwendet den Inhalt anderer Websites durch Scraping einzelner Seiten. Letztendlich wird das Suchpotential des ursprünglichen Inhalts zumindest verwässert und möglicherweise insgesamt usurpiert. Schlimmer noch, die ursprüngliche Website wird nicht als Urheber des Inhalts angegeben. Archive.is verwendet ein kanonisches Tag, das sich jedoch auf einer eigenen Site / Seite befindet.

Beispiel: <link rel="canonical" href="http://archive.is/Eo267"/>

In Verbindung mit dem Mangel an Kontrolle darüber, wer eine Site einreicht und ob sie das Recht auf die Site haben, dem Mangel an eindeutigen Informationen zum Abbau und dem etwas unscharfen und möglicherweise schwachen Kontaktmechanismus hat Archive.is das Potenzial für Real Ärger.

Weitere Informationen zur IP-Adresse finden Sie hier: https://www.robtex.com/#!dns=archive.is

So blockieren Sie nach IP-Adresse 78.108.190.21.

Verwenden der Cisco Firewall.

access-list block-78-108-190-21-32 deny ip 78.108.190.21 0.0.0.0 any
permit ip any any

** Hinweis: Sie können den [angegebenen ACL-Namen] durch den ACL-Namen Ihrer Wahl ersetzen.

Verwenden von Nginx.

Bearbeiten Sie die Datei nginx.conf und fügen Sie include blockips.conf ein. wenn es nicht existiert. Bearbeiten Sie die blockips.conf und fügen Sie Folgendes hinzu:

deny 78.108.190.21/32;

Verwenden der Linux IPTables-Firewall. ** Hinweis: Mit Vorsicht verwenden.

/sbin/iptables -A INPUT -s 78.108.190.21/32 -j DROP

Verwenden von Microsoft IIS Web Server

<rule name="abort ip address block 78.108.190.21/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^78\.108\.190\.21$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Verwenden von Apache .htaccess.

RewriteCond %{REMOTE_ADDR} ^78\.108\.190\.21$ [NC]
RewriteRule .* - [F,L]

So blockieren Sie nach IP-Adresse 46.17.100.191.

Verwenden der Cisco Firewall.

access-list block-46-17-100-191-32 deny ip 46.17.100.191 0.0.0.0 any
permit ip any any

** Hinweis: Sie können den [angegebenen ACL-Namen] durch den ACL-Namen Ihrer Wahl ersetzen.

Verwenden von Nginx.

Bearbeiten Sie die Datei nginx.conf und fügen Sie include blockips.conf ein. wenn es nicht existiert. Bearbeiten Sie die blockips.conf und fügen Sie Folgendes hinzu:

deny 46.17.100.191/32;

Verwenden der Linux IPTables-Firewall. ** Hinweis: Mit Vorsicht verwenden.

/sbin/iptables -A INPUT -s 46.17.100.191/32 -j DROP

Verwenden von Microsoft IIS Web Server

<rule name="abort ip address block 46.17.100.191/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^46\.17\.100\.191$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Verwenden von Apache .htaccess.

RewriteCond %{REMOTE_ADDR} ^46\.17\.100\.191$ [NC]
RewriteRule .* - [F,L]

So blockieren Sie nach IP-Adresse 104.196.7.222.

Verwenden der Cisco Firewall.

access-list block-104-196-7-222-32 deny ip 104.196.7.222 0.0.0.0 any
permit ip any any

** Hinweis: Sie können den [angegebenen ACL-Namen] durch den ACL-Namen Ihrer Wahl ersetzen.

Verwenden von Nginx.

Bearbeiten Sie die Datei nginx.conf und fügen Sie include blockips.conf ein. wenn es nicht existiert. Bearbeiten Sie die blockips.conf und fügen Sie Folgendes hinzu:

deny 104.196.7.222/32;

Verwenden der Linux IPTables-Firewall. ** Hinweis: Mit Vorsicht verwenden.

/sbin/iptables -A INPUT -s 104.196.7.222/32 -j DROP

Verwenden von Microsoft IIS Web Server

<rule name="abort ip address block 104.196.7.222/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^104\.196\.7\.222$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Verwenden von Apache .htaccess.

RewriteCond %{REMOTE_ADDR} ^104\.196\.7\.222$ [NC]
RewriteRule .* - [F,L]

Möglicherweise müssen Sie mehr als eine IP-Adresse aus einem beliebigen Satz von Code blockieren. Das ist nicht klar.

Schranknoc
quelle

Sehr informativ! Ich stimme Ihnen zu 100% zu, aber ich befürchte, dass diese Website mehr IP-Adressen verwendet. Sie bemerken dies, wenn Sie eine Seite archivieren, auf der die IP des Besuchers angegeben ist (z. B. wtfismyip.com/). Bisher habe ich gefunden: 2a01: 4f8: 190: 5388 :: 2: 2, 2a01: 4f8: 190: 6388 :: 2: 2, 2a01: 4f8: 190: 638c :: 2: 2, 46.17.100.191, 78.46 .174.144, 78.108.190.21, 104.196.7.222

jemand2332

Ein anderer: 2a01: 4f8: 190: 6396 :: 2: 2. Ich möchte alle IPv6-Adressen blockieren, die mit "2a01: 4f8: 190:" beginnen. Weißt du, wie ich das machen könnte? Vielen Dank!

jemand2332

Als ich vor einem Jahr mit diesem Problem konfrontiert wurde, schickte ich Denis eine E-Mail mit dem Hinweis zum Entfernen des Urheberrechts an den Webmaster-at-Archive-Dot-Is und war angenehm überrascht, dass alle anstößigen Inhalte am nächsten Tag entfernt wurden. Ich wollte dies nur als weitere Antwort posten, aber ich habe seine Website überprüft und festgestellt, dass mein Inhalt wieder verfügbar ist! Ich habe jetzt einen soliden Beweis für die Kenntnis einer vorsätzlichen Urheberrechtsverletzung. Na ja, IPTables ist es dann. Er war letztes Jahr bei OVH und sie waren sehr hilfreich bei früheren Ausgaben, nicht sicher, wo er gerade gehostet hat.

Tom Brossman

Lesen Sie auch die entsprechenden Fragen und Antworten von Superuser vom letzten Januar: superuser.com/a/868368 (beachten Sie die unterschiedlichen IPs, die dann verwendet werden, sodass Ihre Blockliste ständig überwacht und aktualisiert werden muss, um wirksam zu bleiben ...).

Tom Brossman

1

"Archive.org, eine ähnliche Website, wurde mehrfach verklagt und ist verloren" Auf welche Fälle beziehen Sie sich? Google archive.org loses copyright lawsuitschien keine relevanten Artikel über Entscheidungen zu veröffentlichen.

Damian Yerrick

3

`robots.txt`

Archive.is verwendet keinen Bot, der Seiten autonom crawlt (z. B. durch Folgen von Hyperlinks), gilt also robots.txtnicht, da immer ein Benutzer den Befehl zum Archivieren einer bestimmten Seite gibt.

Aus dem gleichen Grund gehorchen Dienste wie der Feedfetcher von Google ( Warum gehorcht Feedfetcher nicht meiner robots.txt-Datei? ) Und der Validator ( Details ) von W3C nicht robots.txt.

Siehe die FAQ zu archive.is: Warum gehorcht archive.is robots.txt nicht?

`meta`- `robots`/`X-Robots-Tag`

Ich bin mir nicht sicher , ob archive.is soll ( im Idealfall) die Ehre noindexoder noarchivein Wert meta- robots/ X-Robots-Tagoder wenn diese Technologien auch nur für autonome Bots gelten. Da archive.is es jedoch nicht dokumentiert, scheinen sie es derzeit nicht zu unterstützen.

(FWIW, jede archivierte Seite scheint eine zu bekommen <meta name="robots" content="index,noarchive"/>.)

`User-Agent`

archive.is dokumentiert nicht, dass eine bestimmte User-Agentverwendet wird (sie identifizieren sich wahrscheinlich nicht, um die Seiten so zu erhalten, als ob sie von einem normalen Browser angezeigt würden), sodass Sie sie nicht verwenden können, um ihren Zugriff auf Serverebene zu blockieren .

Blockieren ihrer IP-Adressen

Da hier weder robots.txtnoch meta- robots/ X-Robots-Tagarbeiten und Sie sie nicht über ihre blockieren können User-Agent, müssten Sie Zugriffe von archive.is IPs blockieren. Siehe closetnoc Antwort über IP - Blockierung , aber beachten Sie, dass dies mehr blockieren könnten als gedacht, und Sie können nie alle ihre IP - Adressen (und / oder dem Laufenden halten) fangen.

Randnotiz: Berichtsfunktion

Jede archivierte Version verweist auf ein Formular, in dem Sie möglichen Missbrauch (Anhängen /abuse) melden können , z. B. mit den Gründen "SEO-Problem" oder "Urheberrecht". Aber ich weiß nicht, ob oder wie sie mit diesen Fällen umgehen.

unor
quelle

Ich habe an keinem oder wenig Schlaf gearbeitet und ein paar Dinge, auf die Sie zu Recht hinweisen, völlig übersehen. Infolgedessen habe ich meine Antwort gemildert. Duh! Ich wurde ein wenig mitgerissen, wie ich es manchmal tun kann. ;-) Ooopppsss !! Es ist immer noch etwas übertrieben. Ich freue mich über Ihre Antwort hier. Ich wünschte, ich könnte abstimmen, um dies zur Top-Antwort zu machen. Ich rate den Leuten, mit der Maus für diese Antwort zu stimmen, wenn sie meinem Gefühl zustimmen.

Schranknoc

1

Um die widerlichen Diebstahlpraktiken von archive.is zu blockieren (ignorieren von robots.txt, Überschreiben von kanonischen Links, gefälschter Benutzeragenten, keine Möglichkeit zum Entfernen auf der gesamten Website), möchte ich den obigen Lösungen Folgendes hinzufügen.

Finden Sie ihre IP-Adressen

Um ihre IP-Adressen zu finden, senden Sie ihnen eine URL, die unter Ihrer Kontrolle steht, damit Sie Ihre Webserver-Protokolle überwachen können, um festzustellen, wer auf diese URL zugegriffen hat. Die URL muss nicht einmal vorhanden sein, solange der Webserver die Anfrage empfängt. (Daher ist es besser, eine nicht vorhandene leere Seite / URL zu verwenden.) Verwenden Sie beispielsweise eine URL wie: http://example.com/fuck-you-archive.is

Überprüfen Sie dann Ihre Protokolle, um festzustellen, wer auf die URL zugegriffen hat. Sie können grep verwenden, um dies zu überprüfen:

grep "fuck-you-archive.is" web-server-log.txt

Sobald Sie die IP-Adresse haben, können Sie sie mithilfe der Lösungen aus den anderen Antworten blockieren. Wiederholen Sie den Vorgang erneut, um andere IP-Adressen zu finden, die sie verwenden. Sie müssen eine andere URL angeben, damit sie erneut eine HTTP-Anforderung ausführen. Ändern Sie beispielsweise einfach http://example.com/fuck-you-archive.is in http://example.com/fuck-you- archive.is?2 etc.

Falls Sie Ihre Website beim Versuch, ihre IP-Adressen zu finden, überhaupt nicht verfügbar machen möchten, können Sie diese praktische HTTP-Anforderungswebsite verwenden: https://requestb.in Die folgenden Schritte sind: Erstellen eines RequestBin> Senden Sie die "BinURL" an Archive.is mit der an die BinURL angehängten "? SomeRandomNumber".> Verwenden Sie die "? inspect" von RequestBin, um die eingehende Anfrage von Archive.is zu überwachen und ihre IP-Adresse im "Cf-Connecting-Ip" anzuzeigen "HTTP-Header. (Stellen Sie sicher, dass Sie keine URL "? Inspect" an Archive.is senden.) Wiederholen Sie den Vorgang, um andere IP-Adressen zu finden, indem Sie "? SomeRandomNumber" in eine andere Nummer ändern.

Blockieren Sie ihre IP-Adressen

Beachten Sie, dass Sie mit IP-Tabellen blockieren können

/sbin/iptables -A INPUT -s 78.108.190.21 -j DROP

Oft wird die 'INPUT'-Kette jedoch auf eine' DROP'-Richtlinie mit Akzeptanz des HTTP-Verkehrs eingestellt. In diesem Fall müssen Sie möglicherweise eine Voranstelloperation (Einfügen) anstelle einer Anhängeoperation verwenden, andernfalls wird sie überhaupt nicht blockiert:

/sbin/iptables -I INPUT -s 78.108.190.21 -j DROP

Sie haben jedoch viele IP-Adressen, so dass es möglicherweise einfacher ist, vollständige IP-Bereiche zu blockieren. Sie können dies bequem mit IPTables tun (ohne Subnetzmasken angeben zu müssen), indem Sie:

iptables -I INPUT -m iprange --src-range 46.166.139.110-46.166.139.180 -j DROP

Dieser Bereich (46.166.139.110-46.166.139.180) gehört zu einem großen Teil ihnen, da ich mehrere Adressen zwischen 46.166.139.110 und 46.166.139.173 gesehen habe.

Senden Sie eine Missbrauchsbeschwerde an ihren Webhost

Sie verwenden derzeit NFOrce als Webhost. Informationen zum Einreichen einer Beschwerde über Archive.is finden Sie unter https://www.nforce.com/abuse . Erwähnen Sie: 1) Ihre Webseiten-URL, die archive.is gestohlen hat, 2) erwähnen Sie die URL bei archive.is, die den gestohlenen Inhalt enthält, und 3) erwähnen Sie die von ihnen verwendeten IP-Adressen.

Vielleicht möchten Sie sich auch bei Cloudflare, dem CDN, beschweren, das die gestohlenen Seiten und Bilder aus Leistungsgründen zwischenspeichert. https://www.cloudflare.com/abuse/

Devabc
quelle

1

Wie wir sehen können, verwendet archive.is DNS anycasting.

Wenn Sie verschiedene Nameserver verwenden (z. B. von https://www.lifewire.com/free-and-public-dns-servers-2626062 ), erhalten Sie derzeit (2018-09-10) unterschiedliche IP-Adressen für "archive.is" ( dig @NAMESERVER archive.is A)

104.27.170.40
104.27.171.40
154.59.112.68
185.219.42.148
46.105.75.102
46.17.42.43
46.182.19.43
46.45.185.30
80.211.3.180
81.7.17.119
91.121.82.32
91.219.236.183
94.16.117.236

Ich habe missbrauch-kontakte.abusix.org ( https://www.abusix.com/contactdb ) verwendet, um die Missbrauchskontakte für diese IP-Adressen zu erhalten:

[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]

Wie Cloudflare berichtete, missbraucht archive.is seine "Dienste", indem es einen DNS-A-Eintrag verwendet, der keine Funktionalität hat!

Schubi Duah
quelle

0

Wenden Sie sich auch an die Registrare unter www.isnic.is, Islands Domain-Register. isnic at isnic dot is

Island hat das Urheberrecht und das Register erkennt es an. Das Register existiert seit den späten 1980er Jahren und steht nicht unter ICANN.

Respektieren Sie das Urheberrecht
quelle

Verweigern Sie den Zugriff auf Archive.is

Antworten:

So blockieren Sie nach IP-Adresse 78.108.190.21.

So blockieren Sie nach IP-Adresse 46.17.100.191.

So blockieren Sie nach IP-Adresse 104.196.7.222.

`robots.txt`

`meta`- `robots`/`X-Robots-Tag`

`User-Agent`

Blockieren ihrer IP-Adressen

Randnotiz: Berichtsfunktion

Finden Sie ihre IP-Adressen

Blockieren Sie ihre IP-Adressen

Senden Sie eine Missbrauchsbeschwerde an ihren Webhost

Verweigern Sie den Zugriff auf Archive.is

Antworten:

So blockieren Sie nach IP-Adresse 78.108.190.21.

So blockieren Sie nach IP-Adresse 46.17.100.191.

So blockieren Sie nach IP-Adresse 104.196.7.222.

robots.txt

meta- robots/X-Robots-Tag

User-Agent

Blockieren ihrer IP-Adressen

Randnotiz: Berichtsfunktion

Finden Sie ihre IP-Adressen

Blockieren Sie ihre IP-Adressen

Senden Sie eine Missbrauchsbeschwerde an ihren Webhost

`robots.txt`

`meta`- `robots`/`X-Robots-Tag`

`User-Agent`