Tolle Frage, und viele Webmaster könnten sich dafür interessieren, da die Baidu-Spinne notorisch aggressiv ist und Ressourcen von Servern zappen kann ...
Wie in den Nachrichten der Baidu-Websuche angegeben, unterstützt der Baidu-Spider die Einstellung für die Crawling-Verzögerung nicht. Stattdessen müssen Sie Ihre Site wie hier angegeben auf der Plattform der Baidu-Webmaster-Tools registrieren und überprüfen auf der Site angegeben. Dies scheint die einzige Möglichkeit zu sein, die Crawling-Frequenz direkt mit Baidu zu steuern.
Das Problem ist , dass andere Spam - Bots verwenden Baidu User-Agents (aufgeführt hier unter der Nummer 2) Ihre Website Spinne, wie in ihrem FAQ ist hier unter der Nummer 4. So eine langsamere Crawling - Geschwindigkeit mit Baidu anfordernden kann nicht alles lösen.
Wenn Sie sich also für die Verwendung der Webmaster-Tools von Baidu entscheiden, ist es möglicherweise ratsam, die Benutzeragenten auch mit IP-Adressen zu vergleichen, von denen bekannt ist, dass sie mit ihnen verknüpft sind, indem Sie eine Ressource wie die Datenbank Bots vs. Browser oder eine umgekehrte DNS-Suche verwenden
Die einzige andere Möglichkeit besteht darin, entweder alle Baidu-Benutzeragenten zu blockieren und so den potenziellen Datenverkehr von Baidu zu opfern oder zu versuchen, übermäßige Anforderungen mithilfe von mod_qos für Apache zu begrenzen , das behauptet, Folgendes zu verwalten:
- Die maximale Anzahl gleichzeitiger Anforderungen an einen Speicherort / eine Ressource (URL) oder einen virtuellen Host.
- Begrenzung der Bandbreite, z. B. die maximal zulässige Anzahl von Anfragen pro Sekunde an eine URL oder die maximale / minimale Anzahl von heruntergeladenen KB pro Sekunde.
- Begrenzt die Anzahl der Anforderungsereignisse pro Sekunde (besondere Anforderungsbedingungen).
- Es kann auch sehr wichtige Personen (VIP) "erkennen", die ohne oder mit geringeren Einschränkungen auf den Webserver zugreifen können.
- Generischer Anforderungszeilen- und Headerfilter, um nicht autorisierte Vorgänge zu verweigern. Beschränkung und Filterung von Körperdaten anfordern (erfordert mod_parp).
- Einschränkungen auf der TCP-Verbindungsebene, z. B. die maximale Anzahl zulässiger Verbindungen von einer einzelnen IP-Quelladresse oder die dynamische Keep-Alive-Steuerung.
- Bevorzugt bekannte IP-Adressen, wenn dem Server die freien TCP-Verbindungen ausgehen.
Ich habe keine gemeldeten Erfahrungen mit Baidu Webmaster Tools gefunden, die langsam geladen werden und Übersetzungsprobleme haben (auch keine englische Version). Das mag hilfreich sein, ist aber natürlich meinungsbasiert.
Nachdem ich viel recherchiert und experimentiert hatte, biss ich endlich in die Kugel und richtete ein Konto für die Baidu Webmaster-Tools ein. Die Verwendung mit Google Translate in einem anderen Fenster ist recht einfach. Möglicherweise muss Firebug aktiviert sein, damit Sie chinesischen Text von Schaltflächen kopieren und einfügen können, die Sie im normalen Browsermodus nicht erfassen können.
Nach der Einrichtung müssen Sie einige Tage warten, bis Crawling-Daten angezeigt werden. Anschließend können Sie die Crawling-Rate anpassen. Es wird in einem Abschnitt namens "Druck" angezeigt, auf den Sie mit dieser URL
zugreifen können sollten: http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Beachten Sie, dass Sie diese URL nur verwenden können, wenn Sie über ein Konto bei Baidu Webmaster Tools verfügen und Ihre Website-URL mit Ihrem Konto für die betreffende Website verknüpft haben. Hier sehen Sie einen Schieberegler mit Ihrer aktuellen Crawling-Rate in der Mitte (in meinem Fall 12676 Anfragen pro Tag. Schieben Sie ihn nach links, um die Crawling-Rate zu verringern.
Ich habe noch keine Ahnung, ob es Ihrer Bitte tatsächlich entspricht. Es gibt Ihnen eine Warnung, die so etwas sagt. "Wir empfehlen Ihnen, die Baidu-Crawling-Rate für die Standardwebsite zu verwenden. Nur wenn Ihre Website Probleme mit dem Crawlen hat, können Sie sie mit diesem Tool anpassen. Um das normale Crawlen Ihrer Website aufrechtzuerhalten, berücksichtigt Baidu Ihre Anpassung der Crawling-Rate anhand der tatsächlichen Website-Bedingungen und kann daher nicht garantieren, entsprechend Ihrer Anfrage anzupassen. "
quelle
Ja, Sie können den
Crawl-delay
Parameter in robots.txt verwenden , um die Anzahl der Sekunden festzulegen, die zwischen aufeinanderfolgenden Anforderungen an denselben Server gewartet werden soll.In der ersten Zeile wird nur der Baidu-Webcrawler angewiesen, den Befehl einzuhalten. Die 2. Zeile ist die Wartezeit in Sekunden zwischen den Anforderungen an den Server. Sie können die gewünschte Zeitverzögerung für Ihre Anforderungen hinzufügen.
Sie müssen diese Befehle zu Ihrer vorhandenen robots.txt- Datei hinzufügen . Wenn Sie noch keine robots.txt- Datei haben, fügen Sie den obigen Code zu einer Textdatei hinzu, speichern Sie die Datei unter dem Namen robots.txt und laden Sie sie in den Stammordner Ihrer Website hoch , sodass sie unter der folgenden Adresse angezeigt wird:
quelle