Wie erkennen Sites Bots hinter Proxys oder Firmennetzwerken?

Wie gehen große Websites (z. B. Wikipedia) mit Bots um, die sich hinter anderen IP-Maskern befinden? An meiner Universität durchsucht zum Beispiel jeder Wikipedia, wodurch es eine erhebliche Belastung darstellt. Soweit ich weiß, kann Wikipedia jedoch nur die IP des Uni-Routers kennen. Wenn ich also einen "entfesselten" Bot einrichte (mit nur einer kleinen Verzögerung zwischen Anfragen), kann Wikipedia meinen Bot verbieten, ohne die gesamte Organisation zu verbieten? Kann ein Standort tatsächlich eine IP hinter einem Organisationsnetzwerk verbieten?

web-crawler user4052054
quelle

Der Tag, an dem Wikipedia Katar verboten hat .

Isanae

@isanae Verwandte: superuser.com/q/1013630/326546

kasperd

Machen Sie Ihren Bot besser von legitimen Benutzern ununterscheidbar

Hagen von Eitzen

Antworten:

Nein, sie verbieten die öffentliche IP und jeder, der NAT für diese IP hat, wird ebenfalls gebannt.

Obwohl zumindest At stack, wenn wir glauben, dass wir ein College oder ähnliches verbieten werden, werden wir uns an ihre Missbrauchskontakte wenden, um sie dazu zu bringen, den Täter aufzuspüren und die Angelegenheit zu stoppen.

Zypher
quelle

Was Zypher gesagt hat. Als jemand, der Beschwerden aufspürte, die an [email protected] gesendet wurden, waren wir normalerweise sehr bemüht, die verantwortliche Person zu finden, damit sie die öffentliche IP-Adresse freigibt. (College-Studenten lieben es , Musik Peer-to-Peer zu teilen. RIAA liebt es, [email protected] darüber zu kontaktieren.)

Katherine Villyard

... es sei denn, Ihr Bot ist eindeutig identifizierbar, z. B. durch Übergeben eines Zugriffstokens oder einer eindeutigen Browser-ID.

Simpleuser

Dies beantwortet nicht die eigentliche Titelfrage, wie diese Websites Bots erkennen . Tatsächlich scheint es, dass, wenn Sie Ihren Bot ausreichend verlangsamen (was nicht viel wäre), dies tatsächlich nicht von der gültigen Verwendung durch eine ganze Reihe von College-Studenten zu unterscheiden ist.

Wildcard

Um den Kommentar von @ KatherineVillyard zu erweitern. Bei der formellen Überwachung des Netzwerks einer Institution würden wir uns an sie wenden, um das Problem zu beheben, wenn sich niemand vor dem Blockieren an uns gewandt und die Ressource, von der wir blockiert wurden, regelmäßig verwendet wurde. Normalerweise waren sie bereit, uns zu entsperren, wenn wir dies von unserem Ende lösen würden. Dies bedeutete, die Quelle des Missbrauchs aufzuspüren. Als Wikipedia wird sich Ihre Institution wahrscheinlich auch dann darum kümmern, wenn sie merkt, dass sie auf die schwarze Liste gesetzt wurde, wenn sie sich nicht an Ihre Institution wendet. Aus diesem scheinbar harmlosen Verbot kann schnell eine Vertreibung werden.

Bacon Brad

@Wildcard FWIW Die meisten Orte werden Ihnen nicht sagen, wie sie Bots erkennen, nur weil dies nur die Bot-Autoren veranlasst, die sie abfangen, Änderungen vorzunehmen. Abgesehen von der Geschwindigkeit der Anfragen zur Erkennung von Bots gibt es noch viele andere Signale. Aber den meisten Orten ist es egal, ob du nett spielst, nichts Scheißes tust oder Ressourcen anstrengst. Es lohnt sich einfach nicht, jeden kleinen Bot da draußen zu jagen.

Zypher

Eine Site kann eine IP, die sich hinter NAT befindet, nicht direkt sperren. Es kann auf IPs angewendet werden, die über nicht anonymisierende HTTP-Proxys weitergeleitet werden. Wenn ein solcher Proxy eine Anfrage weiterleitet, hängt er diese Adresse normalerweise an einen X-Forwarded-For-Header an Proxy die interne IP könnte freigelegt werden; Die meisten Websites (einschließlich Wikipedia) würden den Informationen in diesem Header jedoch sowieso nicht vertrauen, da es leicht ist, unschuldige IPs zu fälschen oder Verboten auszuweichen.

Es gibt jedoch auch andere Techniken, mit denen versucht wird, Benutzer unabhängig von der IP-Adresse eindeutig zu identifizieren. Sie können einen Webbrowser abfragen, um zahlreiche Informationen über ihn und das System, auf dem er ausgeführt wird, abzurufen, z. B. den Benutzeragenten, die Bildschirmauflösung, die Liste der Plugins usw. - siehe https://github.com/carlo/jquery- Browser-Fingerabdruckfür ein Beispiel in der Praxis. Sie können solche Fingerabdrücke verwenden, um den Zugriff zu kontrollieren. Abhängig vom Site-Design können Sie jedoch möglicherweise mit ihnen interagieren, ohne sich auf den Fingerabdruck-Prozess einzulassen, und selbst wenn Sie nicht in der Lage sind, kann ein Bot falsche und zufällige Daten bereitstellen, um ein zu vermeiden Konsistenter Fingerabdruck, wenn Sie wissen, dass dieser Schutz vorhanden ist. Diese Kontrollmethode birgt auch das Risiko von Fehlalarmen, insbesondere wenn es sich um mobile Geräte handelt, auf denen wahrscheinlich eine große Anzahl von Clients mit identischen Aktienclients auf identischer Aktienhardware ausgeführt wird (die meisten Benutzer eines bestimmten iPhone-Modells mit einer bestimmten iOS-Version) B. wahrscheinlich den gleichen Fingerabdruck erhalten).

Carcer
quelle

Es ist überhaupt nicht unwahrscheinlich; Viele Universitäten und mindestens ein ganzes Land stellen Proxy-Webverbindungen her und fügen X-Forwarded-For hinzu.

Michael Hampton

Interessant. Es würde mich persönlich überraschen, wenn ein Unternehmen seine Web-Proxys so konfigurieren würde, dass einige (zugegebenermaßen triviale) Informationen über Ihr internes Netzwerk angezeigt werden, aber ich denke, dass dies von der Organisation abhängt.

Carcer

@Carcer, es muss nicht die echte interne IP-Adresse sein, sondern ist für jeden Benutzer des Proxys konsistent.

Ian Ringrose

Im Allgemeinen ist die IP-Adresse nicht ausreichend für ein korrektes Verbot. Fortgeschrittene Netzwerke arbeiten also im Netzwerk-Stack sehr gut.

Bei einem Denial-of-Service-Angriff (DoS-Angriff) (über dessen Erstellung Sie sich Sorgen machen) wird in der Regel die Geschwindigkeit begrenzt, mit der die anfängliche Einrichtung der TCP-Verbindung eingeschränkt wird. Dies bedeutet, dass legitime Benutzer, die bereit sind zu warten, durchkommen, während diejenigen, die nur versuchen, Serverressourcen zu verbrauchen, bis zu dem Punkt verlangsamt werden, an dem sie harmlos werden. Hier entwickelte sich DoS zu einem verteilten DoS-Angriff (Distributed DoS, DDoS).

Sobald Sie eine Verbindung zum Server hergestellt haben, können Sie so viele Anfragen stellen, wie Sie möchten. Die Webserververwaltung kann konfigurieren, wie viele Anfragen verarbeitet werden sollen.

Der Webserver kann wahrscheinlich sowieso mehr Kapazität bewältigen als Ihr lokales Netzwerk-Gateway. Dies ist wahrscheinlich der einschränkende Faktor in Ihrem Anwendungsfall. Ich würde wetten, dass die Administratoren Ihres Universitätsnetzwerks vor Wikipedia an Ihre Tür klopfen.

Es ist wichtig, ein guter Internet-Bürger zu sein, damit ich einem Bot ratenbegrenzenden Code hinzufügen kann.

Es sollte auch darauf hingewiesen werden, dass Wikipedia Datendumps anbietet, so dass das Durchforsten der Website nicht wirklich notwendig ist.

Phil Hannent
quelle