Wie gehen große Websites (z. B. Wikipedia) mit Bots um, die sich hinter anderen IP-Maskern befinden? An meiner Universität durchsucht zum Beispiel jeder Wikipedia, wodurch es eine erhebliche Belastung darstellt. Soweit ich weiß, kann Wikipedia jedoch nur die IP des Uni-Routers kennen. Wenn ich also einen "entfesselten" Bot einrichte (mit nur einer kleinen Verzögerung zwischen Anfragen), kann Wikipedia meinen Bot verbieten, ohne die gesamte Organisation zu verbieten? Kann ein Standort tatsächlich eine IP hinter einem Organisationsnetzwerk verbieten?
web-crawler
user4052054
quelle
quelle
Antworten:
Nein, sie verbieten die öffentliche IP und jeder, der NAT für diese IP hat, wird ebenfalls gebannt.
Obwohl zumindest At stack, wenn wir glauben, dass wir ein College oder ähnliches verbieten werden, werden wir uns an ihre Missbrauchskontakte wenden, um sie dazu zu bringen, den Täter aufzuspüren und die Angelegenheit zu stoppen.
quelle
Eine Site kann eine IP, die sich hinter NAT befindet, nicht direkt sperren. Es kann auf IPs angewendet werden, die über nicht anonymisierende HTTP-Proxys weitergeleitet werden. Wenn ein solcher Proxy eine Anfrage weiterleitet, hängt er diese Adresse normalerweise an einen X-Forwarded-For-Header an Proxy die interne IP könnte freigelegt werden; Die meisten Websites (einschließlich Wikipedia) würden den Informationen in diesem Header jedoch sowieso nicht vertrauen, da es leicht ist, unschuldige IPs zu fälschen oder Verboten auszuweichen.
Es gibt jedoch auch andere Techniken, mit denen versucht wird, Benutzer unabhängig von der IP-Adresse eindeutig zu identifizieren. Sie können einen Webbrowser abfragen, um zahlreiche Informationen über ihn und das System, auf dem er ausgeführt wird, abzurufen, z. B. den Benutzeragenten, die Bildschirmauflösung, die Liste der Plugins usw. - siehe https://github.com/carlo/jquery- Browser-Fingerabdruckfür ein Beispiel in der Praxis. Sie können solche Fingerabdrücke verwenden, um den Zugriff zu kontrollieren. Abhängig vom Site-Design können Sie jedoch möglicherweise mit ihnen interagieren, ohne sich auf den Fingerabdruck-Prozess einzulassen, und selbst wenn Sie nicht in der Lage sind, kann ein Bot falsche und zufällige Daten bereitstellen, um ein zu vermeiden Konsistenter Fingerabdruck, wenn Sie wissen, dass dieser Schutz vorhanden ist. Diese Kontrollmethode birgt auch das Risiko von Fehlalarmen, insbesondere wenn es sich um mobile Geräte handelt, auf denen wahrscheinlich eine große Anzahl von Clients mit identischen Aktienclients auf identischer Aktienhardware ausgeführt wird (die meisten Benutzer eines bestimmten iPhone-Modells mit einer bestimmten iOS-Version) B. wahrscheinlich den gleichen Fingerabdruck erhalten).
quelle
Im Allgemeinen ist die IP-Adresse nicht ausreichend für ein korrektes Verbot. Fortgeschrittene Netzwerke arbeiten also im Netzwerk-Stack sehr gut.
Bei einem Denial-of-Service-Angriff (DoS-Angriff) (über dessen Erstellung Sie sich Sorgen machen) wird in der Regel die Geschwindigkeit begrenzt, mit der die anfängliche Einrichtung der TCP-Verbindung eingeschränkt wird. Dies bedeutet, dass legitime Benutzer, die bereit sind zu warten, durchkommen, während diejenigen, die nur versuchen, Serverressourcen zu verbrauchen, bis zu dem Punkt verlangsamt werden, an dem sie harmlos werden. Hier entwickelte sich DoS zu einem verteilten DoS-Angriff (Distributed DoS, DDoS).
Sobald Sie eine Verbindung zum Server hergestellt haben, können Sie so viele Anfragen stellen, wie Sie möchten. Die Webserververwaltung kann konfigurieren, wie viele Anfragen verarbeitet werden sollen.
Der Webserver kann wahrscheinlich sowieso mehr Kapazität bewältigen als Ihr lokales Netzwerk-Gateway. Dies ist wahrscheinlich der einschränkende Faktor in Ihrem Anwendungsfall. Ich würde wetten, dass die Administratoren Ihres Universitätsnetzwerks vor Wikipedia an Ihre Tür klopfen.
Es ist wichtig, ein guter Internet-Bürger zu sein, damit ich einem Bot ratenbegrenzenden Code hinzufügen kann.
Es sollte auch darauf hingewiesen werden, dass Wikipedia Datendumps anbietet, so dass das Durchforsten der Website nicht wirklich notwendig ist.
quelle