Die meisten meiner Besuche stammen von Baidu-Spinnen. Ich denke, es hilft Suchmaschinen überhaupt nicht, also denke ich darüber nach, wie ich sie blockieren kann. Könnte dies über Iptables erfolgen? Ich benutze Nginx als Webserver.
traffic
nginx
web-crawlers
baidu
Zhianc
quelle
quelle
robots.txt
Regeln gehorcht .Antworten:
In deiner robots.txt hinzufügen
quelle
User-agent: *
und baiduspider Zugriffe weiterhin gemacht.Ich habe gerade erfolgreich den chinesischen Suchroboter für den
Baiduspider
Zugriff auf Inhalte auf meiner Website gesperrt . Ich habe mich aus folgenden Gründen dafür entschieden.Gründe für die Entscheidung zu blockieren
Ich hoffe also, dass Su 'und andere, die über Fremdenfeindlichkeit besorgt sind, verstehen, dass diese Entscheidung eine kühle Antwort auf eine unhöfliche Anzahl von Anfragen ist.
Methode
Baiduspider greift mit vielen verschiedenen IP-Adressen auf meinen Server zu, aber diese Adressen liegen in bestimmten Bereichen. Meine .htaccess-Datei enthält nun die folgenden Zeilen:
In der unteren Zeile werden im Wesentlichen 4 IP-Bereiche beschrieben, in denen ich Baiduspider kenne und NUR Baiduspider auf meinen Server zugreift. Jeder der 4 Bereiche besteht aus 256 aufeinanderfolgenden Adressen (insgesamt 1024). Bitte beachten Sie, dass die Syntax für die IP-Bereiche in der
deny from...
Leitung sehr verwirrend sein kann, wenn Sie die CIDR-Bereiche nicht gelesen haben. Verstehe nur, dass das0/24
einen 256er Größenbereich ab 0180.76.5.0/24
bedeutet, also tatsächlich jede IP-Adresse zwischen180.76.5.0
und180.76.5.255
. Ja, nicht besonders offensichtlich! Aber wenn Sie wissen wollen warum oder sich verwirrt fühlen, gehen Sie zu http://www.mediawiki.org/wiki/Help:Range_blocksZusammenfassung
Das Internet sollte frei, offen und fair sein. Aber das bedeutet, dass Organisationen wie Baidu lernen, Robots.txt zu gehorchen und weniger gierig auf die Regelmäßigkeit der Crawls sind. Meine Lösung besteht darin, an sehr leistungsfähigen Einstellungen zu basteln. Bevor Sie also mit der .htaccess-Datei herumspielen, müssen Sie Ihr Original sichern und bereit sein, ein Rollback durchzuführen, wenn Sie Ihren Server in einem glanzvollen Moment herunterfahren. Fahren Sie auf eigenes Risiko fort.
quelle
Mit der folgenden Anweisung können Sie
robots.txt
das Crawlen Ihrer Website verhindern.Crawler können jedoch entscheiden, den Inhalt Ihrer robots.txt zu ignorieren. Darüber hinaus kann die Datei von Suchmaschinen zwischengespeichert werden und es dauert einige Zeit, bis die Änderungen übernommen werden.
Am effektivsten ist es, die Serverfunktionen zu nutzen. Fügen Sie Ihrer
nginx.conf
Datei die folgende Regel hinzu, um Baidu auf Serverebene zu blockieren.Denken Sie daran, Nginx neu zu starten oder zu laden, um die Änderungen zu übernehmen.
quelle
Ich habe mich gerade entschlossen, Baidu zu blockieren, da das Verkehrsaufkommen für das aggressive Scannen zu vernachlässigbar war. Außerdem führen sie jetzt einen Agenten aus, der sich als Browser ausgibt, JavaScript-Code (wie Google Analytics) startet und unsere Statistiken durcheinander bringt.
Die nette Version aktualisiert Ihre robots.txt mit dem folgenden
Aber wenn man bedenkt, was andere hier geschrieben haben und sie einen Benutzeragenten verwenden, der ihre Anwesenheit verbirgt, würde ich ihre IP-Adressen insgesamt blockieren. Das Folgende ist, wie es in Nginx gemacht wird
quelle
Wordpress-Lösung (nicht die beste, hilft aber)
Dasselbe Problem mit der Biadu-Spinne, die so aggressiv war, dass meine Box in meiner Konsole mit Top über 35 lag. Offensichtlich kann selbst ein schneller Computer keine externen Anforderungen mit einer Geschwindigkeit von 35 effektiv verarbeiten.
Ich habe die Anzahl der IPs (von diesem Universitätsgebäude ????) auf mehrere Hundert festgelegt, hauptsächlich mit zwei Benutzeragenten.
Direkte Folge? Da ich einen Cloud-Server habe, musste ich diesen auf einen höheren Speicher aufrüsten, um eine angemessene Antwort zu ermöglichen.
Vorherige Antwort:
Baidu scheint völlig unfähig zu sein, die robot.txt-Anzeige zu respektieren.
Was ich getan habe:
Ich habe das WP-Ban-Plugin für Wordpress (kostenlos) installiert und Folgendes gesperrt:
USER AGENTS:
Baiduspider+(+http://www.baidu.com/search/spider.htm)
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Außerdem adressiere ich mit Wp Super Cache die relative Fehlerseite zu einer statischen Seite um, so dass die gesamte WordPress-Installation nicht / oder zumindest nur für die gesperrten Useragenten die Mysql-Datentabelle prüft.
(Dies ist Standard-Wordpress-Blablabla, sodass jeder, der in der Lage ist, ein Wordpress-Plugin zu installieren, dies tun kann, da für dieses Verfahren kein Codierungs- oder FTP-Zugriff erforderlich ist.)
Ich stimme allen zu: Das Internet ist kostenlos und verbietet, wer oder was auch immer das absolut Letzte ist, was jemand tun sollte, aber Baidoo kostet mich heute 40 USD mehr / Monat, nur um eine auf Portugiesisch geschriebene Webseite zu spinnen, und ich habe einige Zweifel, ob es welche gibt Viele Chinesen und Besucher können diese Sprache lesen und verstehen.
quelle
Sie können mit der
ngx_http_access_module
von nginx nach IP-Adresse blockieren . Um eine einzelne IP zu blockieren, können Sie der conf-Datei wie folgt eine Zeile hinzufügenVerwenden Sie zum Blockieren eines Bereichs die CIDR- Notation, z. B.
12.34.567.1/24
für den 24-Bit-Subnetzblock (mit 256 IP-Adressen), der die IP-Adresse 12.34.567.1 enthält. Weitere Details finden Sie zum Beispiel auf dieser Seite .quelle
Verwenden Sie .htaccess mit
Mit "RewriteEngine On" können Sie sicherstellen, dass die folgenden Zeilen korrekt analysiert werden. Der HTTP_USER_AGENT ist die Zeile, in der sich die Spinnen identifizieren. Die Bedingung ist wahr, wenn die Zeile "MJ12bot" oder "Baidu" enthält. NC bedeutet "nicht case sensitive" und Sie können Bedingungen mit OR verketten. Die letzte Zeile darf kein "ODER" enthalten oder die Regel funktioniert nicht.
Baidu ist besonders böse, weil es versucht, Wordpress-Einträge ("fckeditor", "wp-content") zu lesen, wofür es überhaupt keinen Grund gibt. MJ12bot ist auch eines der schlechten Lebewesen.
Die Rewrite-Regel bedeutet, dass die Spinne mit einem 403 Forbidden ([F]) blockiert wird, um auf alle Dateien zuzugreifen (. * Ist ein regulärer Ausdruck für jede Datei) und die weitere Auswertung ([L]) von htaccess zu stoppen.
quelle
F
Flagge bedeutetL
, dass Sie dieL
Flagge hier nicht explizit einfügen müssen. Auch ein Muster wie^.*Baidu
ist das gleiche wie einfachBaidu
.