Ist es möglich, die Baiduspider-Crawling-Frequenz zu verlangsamen?

18

Viel wurde von der Baidu-Spinnen-Crawling-Frequenz gemacht. Es ist wahr: "Baiduspider kriecht wie verrückt."

Ich habe dieses Phänomen an Standorten erlebt, mit denen ich arbeite. In mindestens einem Fall habe ich festgestellt, dass Baiduspider ungefähr mit der gleichen Häufigkeit wie Googlebot crawlt, obwohl Baidu etwa 0,1% mehr Traffic liefert als Google.

Ich möchte diese Besuche auf meiner Website behalten, so wenig wie sie sind (vielleicht werden sie eines Tages größer?), Aber ich kann es nicht rechtfertigen, eine so hohe Auslastung auf meinem Server zuzulassen.

Die akzeptierte Antwort auf die oben verlinkte Frage legt nahe, dass die Baidu Webmaster-Tools die Möglichkeit bieten, die Crawling-Rate zu begrenzen. Ich zögere jedoch, diese Dose (nur auf Chinesisch) von Würmern zu öffnen.

Hat jemand Erfahrung damit, die Baiduspider-Crawling-Rate mit BWT zu begrenzen? Gibt es eine andere Möglichkeit, diese Belastung zu begrenzen?

samthebrand
quelle

Antworten:

11

Tolle Frage, und viele Webmaster könnten sich dafür interessieren, da die Baidu-Spinne notorisch aggressiv ist und Ressourcen von Servern zappen kann ...

Wie in den Nachrichten der Baidu-Websuche angegeben, unterstützt der Baidu-Spider die Einstellung für die Crawling-Verzögerung nicht. Stattdessen müssen Sie Ihre Site wie hier angegeben auf der Plattform der Baidu-Webmaster-Tools registrieren und überprüfen auf der Site angegeben. Dies scheint die einzige Möglichkeit zu sein, die Crawling-Frequenz direkt mit Baidu zu steuern.

Das Problem ist , dass andere Spam - Bots verwenden Baidu User-Agents (aufgeführt hier unter der Nummer 2) Ihre Website Spinne, wie in ihrem FAQ ist hier unter der Nummer 4. So eine langsamere Crawling - Geschwindigkeit mit Baidu anfordernden kann nicht alles lösen.

Wenn Sie sich also für die Verwendung der Webmaster-Tools von Baidu entscheiden, ist es möglicherweise ratsam, die Benutzeragenten auch mit IP-Adressen zu vergleichen, von denen bekannt ist, dass sie mit ihnen verknüpft sind, indem Sie eine Ressource wie die Datenbank Bots vs. Browser oder eine umgekehrte DNS-Suche verwenden

Die einzige andere Möglichkeit besteht darin, entweder alle Baidu-Benutzeragenten zu blockieren und so den potenziellen Datenverkehr von Baidu zu opfern oder zu versuchen, übermäßige Anforderungen mithilfe von mod_qos für Apache zu begrenzen , das behauptet, Folgendes zu verwalten:

  • Die maximale Anzahl gleichzeitiger Anforderungen an einen Speicherort / eine Ressource (URL) oder einen virtuellen Host.
  • Begrenzung der Bandbreite, z. B. die maximal zulässige Anzahl von Anfragen pro Sekunde an eine URL oder die maximale / minimale Anzahl von heruntergeladenen KB pro Sekunde.
  • Begrenzt die Anzahl der Anforderungsereignisse pro Sekunde (besondere Anforderungsbedingungen).
  • Es kann auch sehr wichtige Personen (VIP) "erkennen", die ohne oder mit geringeren Einschränkungen auf den Webserver zugreifen können.
  • Generischer Anforderungszeilen- und Headerfilter, um nicht autorisierte Vorgänge zu verweigern. Beschränkung und Filterung von Körperdaten anfordern (erfordert mod_parp).
  • Einschränkungen auf der TCP-Verbindungsebene, z. B. die maximale Anzahl zulässiger Verbindungen von einer einzelnen IP-Quelladresse oder die dynamische Keep-Alive-Steuerung.
  • Bevorzugt bekannte IP-Adressen, wenn dem Server die freien TCP-Verbindungen ausgehen.

Ich habe keine gemeldeten Erfahrungen mit Baidu Webmaster Tools gefunden, die langsam geladen werden und Übersetzungsprobleme haben (auch keine englische Version). Das mag hilfreich sein, ist aber natürlich meinungsbasiert.

dan
quelle
1
Das ist wirklich hilfreich @Dan. Probieren Sie einige dieser Lösungen aus (Baidu Webmaster-Tools sind ein echtes Problem).
samthebrand
1
Vielen Dank! Großartig - ich werde dies aktualisieren, wenn ich auch andere Optionen finde. Diese Frage spiegelt die Frustration vieler Webmaster mit aggressiven Bots und Bedenken hinsichtlich der Interaktion mit ihnen wider (z. B. Baidu Webmaster Tools). Hoffentlich werden legitime Bots dies berücksichtigen und bessere Tools / Optionen verfügbar machen.
Dan
@samthebrand und dan - bitte melde dich zurück! Haben Sie andere Lösungen gefunden, die Sie empfehlen können?
Lazysoundsystem
5

Nachdem ich viel recherchiert und experimentiert hatte, biss ich endlich in die Kugel und richtete ein Konto für die Baidu Webmaster-Tools ein. Die Verwendung mit Google Translate in einem anderen Fenster ist recht einfach. Möglicherweise muss Firebug aktiviert sein, damit Sie chinesischen Text von Schaltflächen kopieren und einfügen können, die Sie im normalen Browsermodus nicht erfassen können.

Nach der Einrichtung müssen Sie einige Tage warten, bis Crawling-Daten angezeigt werden. Anschließend können Sie die Crawling-Rate anpassen. Es wird in einem Abschnitt namens "Druck" angezeigt, auf den Sie mit dieser URL
zugreifen können sollten: http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Beachten Sie, dass Sie diese URL nur verwenden können, wenn Sie über ein Konto bei Baidu Webmaster Tools verfügen und Ihre Website-URL mit Ihrem Konto für die betreffende Website verknüpft haben. Hier sehen Sie einen Schieberegler mit Ihrer aktuellen Crawling-Rate in der Mitte (in meinem Fall 12676 Anfragen pro Tag. Schieben Sie ihn nach links, um die Crawling-Rate zu verringern.

Ich habe noch keine Ahnung, ob es Ihrer Bitte tatsächlich entspricht. Es gibt Ihnen eine Warnung, die so etwas sagt. "Wir empfehlen Ihnen, die Baidu-Crawling-Rate für die Standardwebsite zu verwenden. Nur wenn Ihre Website Probleme mit dem Crawlen hat, können Sie sie mit diesem Tool anpassen. Um das normale Crawlen Ihrer Website aufrechtzuerhalten, berücksichtigt Baidu Ihre Anpassung der Crawling-Rate anhand der tatsächlichen Website-Bedingungen und kann daher nicht garantieren, entsprechend Ihrer Anfrage anzupassen. "

user35703
quelle
1
Ich bin mir sicher, dass ich nicht der einzige bin, der ein Update zu diesem Thema begrüßen würde - respektiert es die Anfrage? Würden Sie raten, ein Konto zu erstellen?
Lazysoundsystem
Die direkte URL zur Seite zur Anpassung der Crawling-Häufigkeit wurde gerade aktualisiert, da sie jetzt in den Webmaster-Tools (nicht mehr im Menü) tiefer vergraben ist. Google Übersetzer macht es sehr schwer zu finden aufgrund verwirrender Übersetzungen ;-)
odony
-1

Ja, Sie können den Crawl-delayParameter in robots.txt verwenden , um die Anzahl der Sekunden festzulegen, die zwischen aufeinanderfolgenden Anforderungen an denselben Server gewartet werden soll.

User-agent: Baiduspider
Crawl-delay: 100

In der ersten Zeile wird nur der Baidu-Webcrawler angewiesen, den Befehl einzuhalten. Die 2. Zeile ist die Wartezeit in Sekunden zwischen den Anforderungen an den Server. Sie können die gewünschte Zeitverzögerung für Ihre Anforderungen hinzufügen.

Sie müssen diese Befehle zu Ihrer vorhandenen robots.txt- Datei hinzufügen . Wenn Sie noch keine robots.txt- Datei haben, fügen Sie den obigen Code zu einer Textdatei hinzu, speichern Sie die Datei unter dem Namen robots.txt und laden Sie sie in den Stammordner Ihrer Website hoch , sodass sie unter der folgenden Adresse angezeigt wird:

www.examplesite.com/robots.txt
Max
quelle
2
Baiduspider unterstützt Crawl-Delay nicht. Sehen Sie hier .
Samthebrand
Whoops, hatte es in ein paar Sites gesehen robots.txt-Datei, also davon ausgegangen, dass es tat! Wie geht das Sprichwort ?!
Max