So ermitteln Sie, ob die IP-Adresse wirklich die IP-Adresse von Google ist

7

Nach dem, was ich in meinen Serverprotokollen gelernt habe, gehören IP-Adressen, die mit 64.249 beginnen, zu Google. Wenn ich auf meinem Computer eine Host-Suche für Google durchführe, erhalte ich 11 verschiedene IP-Adressen, die alle mit 74.125.226 beginnen.

Ich gehe dann hier http://www.iplists.com/ und finde heraus, dass es eine Menge weiterer IP-Adressen für Google gibt.

Ich habe sogar eine Whois-Suche in einer Eingabeaufforderung für Google durchgeführt und festgestellt, dass die Suche nach 50 gefundenen Datensätzen abgebrochen wurde, zusammen mit einer ganzen Reihe von Servern mit ungewöhnlichen Namen wie GOOGLE.COM.ANGRYPIRATES.COM und GOOGLE.COM. AFRICANBATS.ORG. zusammen mit verschiedenen IP-Adressen, die ich vorher noch nicht gesehen habe, wie 91.218.229.20.

Was ich tun möchte, ist die Whitelist von echten Google IP-Adressen. Sollte ich einfach jede einzelne IP-Adresse, die ich bisher gefunden habe, auf die weiße Liste setzen, oder sollte ich andere Vorsichtsmaßnahmen treffen, bevor ich eine Google-Adresse auf die weiße Liste setze?

Ich möchte mich nicht darauf verlassen, dass andere nach IP-Adressen für mich suchen, z. B. die Quelle http://www.iplists.com/, da sich die IP-Adressen jederzeit ändern können und ich meine Whitelist regelmäßig aktualisieren möchte.

Mike
quelle
2
Leider ist es sinnlos, IPs mithilfe einer von Ihnen oder irgendwo gesammelten weißen Liste zu blockieren. Schädliche Bots, Schaber usw. ändern häufig die IPs. Sie kaufen und verkaufen IP-Adressen in Blöcken, wie es jedes andere Hosting-Unternehmen tun würde. Anstatt Ihre Zeit zu verschwenden, sollten Sie lieber ein Setup verwenden, das Benutzer drosselt, um zu viele Informationen zu schnell anzufordern, so wie die meisten geschäftigen Websites heutzutage funktionieren, und tatsächlich auch das gleiche Netzwerk, das Sie jetzt verwenden. Sie können sie auch für X Stunden auf eine schwarze Liste setzen, wenn sie sich wiederholen. Dies ist bei weitem die effektivste Methode, unabhängig von der sichersten Methode.
Simon Hayter
@ SimonHayter Ich mache das gleiche. Ich habe eine weiße Liste und eine schwarze Liste. Die schwarze Liste ist fast leer. Zwischen den beiden befindet sich eine graue Liste, in der alle Benutzer beobachtet und als Mensch oder Bot eingestuft werden. Wenn sie ein Bot sind, überprüfe ich die weiße Liste und wenn sie nicht auf der Liste stehen, erhalten sie Junk-Inhalte und die Art ihres protokollierten Zugriffs. Jeder Benutzer wird sofort mit der Protokolldatei verglichen. Alles im Protokoll wird im Laufe der Zeit gelöscht, wenn es nicht zurückkommt oder sich zu verhalten beginnt. Das hat ziemlich gut funktioniert und ich plane, das System bald besser zu machen.
Closetnoc

Antworten:

7

Aus den offiziellen Dokumenten zur Überprüfung von Googlebot / Google :

Beachten Sie, dass Google die Verwendung einer statischen "Whitelist" nicht empfiehlt .

Sie können überprüfen, ob es sich bei einem Webcrawler, der auf Ihren Server zugreift, tatsächlich um Googlebot (oder einen anderen Google-Benutzeragenten) handelt . Dies ist nützlich, wenn Sie befürchten, dass Spammer oder andere Unruhestifter auf Ihre Website zugreifen, während Sie behaupten, Googlebot zu sein. Google veröffentlicht keine öffentliche Liste von IP-Adressen für Webmaster auf der Whitelist. Dies liegt daran, dass sich diese IP-Adressbereiche ändern können und Probleme für alle Webmaster verursachen, die sie fest codiert haben. Daher müssen Sie eine DNS-Suche wie im Folgenden beschrieben ausführen.

So überprüfen Sie Googlebot als Anrufer:

  1. Führen Sie mit dem Befehl host eine umgekehrte DNS-Suche für die IP-Adresse aus Ihren Protokollen durch.
  2. Stellen Sie sicher, dass sich der Domainname entweder in googlebot.com oder google.com befindet.
  3. Führen Sie eine Forward-DNS-Suche für den in Schritt 1 abgerufenen Domänennamen mit dem Befehl host für den abgerufenen Domänennamen aus. Stellen Sie sicher, dass es mit der ursprünglichen IP-Adresse aus Ihren Protokollen übereinstimmt.

(Hervorhebung meiner eigenen)

In den Google-Dokumenten finden Sie ein Beispiel:
https://support.google.com/webmasters/answer/80553?hl=de

Herr weiß
quelle
4

Das wichtigste zuerst.

Es gibt zwei Domainnamen, über die wir sprechen. Google.com und Googlebot.com. Eine umgekehrte Suche nach Google.com wäre irreführend.

Hier ist eine Antwort, die ich vor einiger Zeit gegeben habe, als ich die IP-Adressen von Google überprüft habe, mit denen meine Website über 8 Jahre gecrawlt wurde. Dies ist nicht die A und O-Liste, könnte aber einen historischen Überblick geben.

Wofür verwendet Google IPs von 173.194.90.xxx? Warum ist es kein googlebot.com-Zeiger?

In dieser Liste sehen Sie, dass der angezeigte IP-Adressbereich 64.249 korrekt ist.

Ich habe eine schnelle Prüfung für diese Antwort durchgeführt. Dies ist meine aktuelle Whitelist für Googlebot (Agentenname). Bitte verzeihen Sie das Wildcarding. Ich habe meinen Code aktualisiert, um Bereiche effizienter zu verstehen, aber die Liste nicht aktualisiert. Es tut uns leid. In diesem Fall verwende ich nur einen einfachen regulären Ausdruck, um die IP-Adresse mit einem Minimum an Tricks mit der Liste zu vergleichen und das * durch etwas zu ersetzen, das Regex versteht. Ich kann eine IP-Adresse mit meinem Code mit der gesamten Liste vergleichen, damit sie immer noch schnell genug ist.

64.233.160.*
64.233.161.*
64.233.162.*
64.233.163.*
64.233.164.*
64.233.165.*
64.233.166.*
64.233.167.*
64.233.168.*
64.233.169.*
64.233.170.*
64.233.171.*
64.233.172.*
64.233.173.*
64.233.174.*
64.233.175.*
64.233.176.*
64.233.177.*
64.233.178.*
64.233.179.*
64.233.180.*
64.233.181.*
64.233.182.*
64.233.183.*
64.233.184.*
64.233.185.*
64.233.186.*
64.233.187.*
64.233.188.*
64.233.189.*
64.233.190.*
64.233.191.*
66.249.64.*
66.249.65.*
66.249.66.*
66.249.67.*
66.249.68.*
66.249.69.*
66.249.70.*
66.249.71.*
66.249.72.*
66.249.73.*
66.249.74.*
66.249.75.*
66.249.76.*
66.249.77.*
66.249.78.*
66.249.79.*
66.249.80.*
66.249.82.*
66.249.83.*
66.249.84.*
66.249.85.*
66.249.86.*
66.249.87.*
66.249.88.*
66.249.89.*
66.249.90.*
66.249.91.*
66.249.92.*
66.249.93.*
66.249.94.*
66.249.95.*
74.125.*
173.194.*

GOOGLE.COM.ANGRYPIRATES.COM und GOOGLE.COM.AFRICANBATS.ORG werden als Domain- oder Subdomain-Hack bezeichnet. Diese gehören überhaupt nicht zu Google. Dies kann jeder jederzeit mit jedem Domainnamen tun. Ohne auf die Details einzugehen, können Sie Informationen im Internet finden. Ich möchte dieses Verhalten nicht fördern, indem ich es hier erkläre.

Schranknoc
quelle
Vielen Dank! Wie könnten Sie die aktualisierte Liste bereitstellen, auch wenn sie nicht in einem netten Listenformat vorliegt (dh auch wenn sie in einem regulären Ausdruck vorliegt)? BEARBEITEN: Und alle anderen Bots außer Google auch, wenn Sie sie haben und nichts dagegen haben, sie zu teilen.
Pamela