Ich habe eine Seite mit minimalem Datenverkehr, aber ich habe statische Benachrichtigungen eingerichtet, wenn sie getroffen wird. Jetzt möchte ich, dass Bots ignoriert werden. Jetzt füge ich Bots, die ich sehe, zu einer Liste ohne Benachrichtigung hinzu.
Gibt es eine Referenzliste der IP-Adressen, die von Indizierungsrobotern verwendet werden?
zB eine Liste wie:
$no_mail = array(
'67.195.115.105', // yahoo bot
'207.46.199.50', // msn bot
'61.135.249.246', //youdao bot
'207.46.199.32', // msn bot
);
search-engines
web-crawlers
artlung
quelle
quelle
tail
die vorhandenen Protokolle verwende, aber dann wäre es nicht sofort und ich habe keinen Zugriff auf "Live" -Protokolle mit meinem freigegebenen Host. Und es ist kein Ärger, und dies ist nicht für eine Seite mit sehr viel Verkehr. Ich führe dieses Skript auch nach dem Laden der Seite aus, damit der Benutzer keine Auswirkungen auf die Ladezeit hat. Wenn es zu einem Ressourcenproblem kommen würde, wäre dies ein anderes Problem.Antworten:
http://www.user-agents.org/ könnte das sein, wonach Sie suchen.
quelle
Alle Suchmaschinen verwenden eine große Anzahl von IP-Adressen. Sie sollten sich stattdessen die Zeichenfolge des Benutzeragenten ansehen. Auf dieser Seite finden Sie eine gute Liste aller Crawler.
In PHP würde so etwas funktionieren:
quelle
Warum fügst du das nicht einfach in deine robots.txt-Datei ein?
Auf diese Weise müssen Sie nicht weiter nach Bots suchen. Ich würde alles wetten, dass Google, Yahoo und MSN Hunderte von Bots haben und wahrscheinlich unterschiedliche IP-Adressen haben und ständig neue erstellt werden. Das Hinzufügen der oben genannten Informationen sollte für Ihre Dateiseite ohne großen Aufwand dasselbe tun.
quelle
Unter http://ekstreme.com/phplabs/search-engine-authentication (sowie im Google Help Center-Artikel unter http://www.google.com/support/webmasters/bin/answer) finden Sie Code zum Erkennen von Bots . py? answer = 80553 bei der Überprüfung von Googlebot). Unter http://ekstreme.com/phplabs/crawlercontroller.php gibt es auch Code , mit dem Crawler erkannt werden können. Sie können ihn problemlos erweitern, um sowohl "gute" als auch die jetzt erkannten Spam-Crawler zu erkennen.
Im Allgemeinen ist es wichtig, sich nicht nur auf den Namen des Benutzeragenten oder die IP-Adresse allein zu verlassen, da einige Benutzeragenten möglicherweise von normalen Benutzern verwendet werden und einige IP-Adressen möglicherweise gemeinsam genutzt werden.
Das heißt, wenn Sie dies nur für E-Mail-Benachrichtigungen verwenden, würde ich wahrscheinlich einfach bekannte Muster im Benutzeragenten ignorieren und mit den falsch positiven und falsch negativen Ergebnissen leben. Überprüfen Sie Ihre Protokolldateien auf die häufigsten Crawler, die auf Ihrer Site aktiv sind, und suchen Sie nach einem eindeutigen Teil des Namens des Benutzeragenten (möglicherweise reicht es aus, nur "googlebot | slurp | msnbot | bingbot" zu verwenden).
quelle
Auf die eine oder andere Weise müssen Sie auch eine lokale Liste implementieren, wenn Sie es ernst meinen, Bots herauszufiltern. Manchmal sind zufällig erscheinende IPs von einer Website besessen, die ich verwalte. Universitätsprojekte, schlecht implementierte Bots, die experimentell erscheinen, aber nicht allgemein anerkannt sind, solche Dinge.
Auch: Der Cuil Bot (Twiceler) ist der Teufel.
quelle
Können Sie auf den Useragent zugreifen? Das scheint mir eine bessere Möglichkeit zu sein, herauszufinden, wer ein echter Benutzer ist und was ein Bot ist - es ist widerstandsfähiger gegenüber legitimen Crawlern, die Adressen ändern, und wenn sich etwas als Bot tarnt, möchten Sie die E-Mail wahrscheinlich nicht erhalten wie auch immer.
quelle
Versuche dies...
HTH, Bud
quelle
bottoms-up
.