Nachdem ich eine Reihe von Bots geschrieben und die enormen Mengen an zufälligen Bots gesehen habe, die zufällig eine Site crawlen, frage ich mich als Webmaster, welche Bots es wirklich wert sind, auf eine Site gelassen zu werden.
Mein erster Gedanke ist, dass das Zulassen von Bots auf der Website möglicherweise echten Datenverkehr auf die Website bringen kann. Gibt es einen Grund, Bots zuzulassen, von denen nicht bekannt ist, dass sie echten Datenverkehr auf eine Site senden, und wie erkennen Sie diese "guten" Bots?
seo
web-crawlers
robots.txt
googlebot
bingbot
Fehler
quelle
quelle
Antworten:
Im Bereich normaler Bots hängt alles davon ab, was Sie schätzen, und nur Sie können das entscheiden. Natürlich gibt es Google, Bing / MSN / Yahoo! Baidu und Yandex. Dies sind die wichtigsten Suchmaschinen. Es gibt auch die verschiedenen SEO- und Backlink-Sites. Richtig oder falsch, ich erlaube einigen der Großen, auf meine Website zuzugreifen, aber im Allgemeinen handelt es sich um nutzlose Websites. Ich blockiere archive.org nicht nur in robots.txt, sondern auch nach Domainname und IP-Adresse. Dies liegt daran, dass sie robots.txt sehr ignorieren! Dies ist etwas, für das Sie ein Gefühl bekommen müssen. Lassen Sie sich nicht von Agentennamen täuschen. Oft werden sie von schlechten Menschen geschmiedet. Heutzutage erhalte ich Tausende von Seitenanfragen von Quellen, die behaupten, Baidu zu sein, aber nicht. Lernen Sie diese Spinnen anhand von Domainnamen und IP-Adressblöcken kennen und lernen Sie, auf dieser Ebene mit ihnen umzugehen. Die Guten gehorchen robots.txt.
Aber ich muss Sie warnen, es gibt eine TONNE Stealth-Bots, Rogue-Bots, Scraper usw., die Sie häufig durchsuchen und blockieren möchten. Dieser 5uck5! Aber es muss getan werden. Die größte Bedrohung für sie sind heutzutage Links von geringer Qualität zu Ihrer Website. Mein aktualisierter Anti-Bot-Sicherheitscode, den ich in diesem Jahr implementiert habe, hat automatisch 7700 Links von geringer Qualität gelöscht. Natürlich braucht mein Code noch Arbeit, aber Sie verstehen es. Die schlechten Bots stehlen immer noch das Potenzial der Website.
Es wird nicht lange dauern, bis Sie den Dreh raus haben.
quelle
Ich hatte Probleme mit Baidu-Bots, die meinen Server verlangsamten, während die Suchmaschine fast keinen Verkehr sendete. Diese Bots respektieren die robots.txt-Datei nicht. Um Baidu-Bots zu blockieren, fügen Sie einfach Folgendes in Ihre htccess-Datei ein.
Ich hatte auch Probleme damit, dass Bing / Microsoft-Spinnen zu schnell kriechen, im Gegensatz zu Baidu respektieren sie die robots.txt-Datei so;
quelle