Seit ungefähr Mitte August 2014 haben mehrere Google-Server ungefähr einmal pro Woche alle (sehr) großen Binärdateien auf meiner Website heruntergeladen. Die IP-Adressen werden alle als Eigentum von Google angezeigt und sehen folgendermaßen aus: google-proxy-66-249-88-199.google.com. Dies sind GET-Anforderungen, die sich stark auf meinen Serververkehr auswirken.
Zuvor habe ich keinen Datenverkehr von diesen Google-Proxy-IPs gesehen, daher scheint dies etwas relativ Neues zu sein. Ich sehe alle Arten von Datenverkehr von anderen Google IPs, alle nur Googlebot- und HEAD-Anfragen.
Ich würde mir darüber keine Sorgen machen, außer dass all diese Dateien ungefähr jede Woche von Google heruntergeladen werden. Die verwendete Bandbreite wird langsam zu groß.
Ich habe spekuliert, dass viele dieser Dateien ausführbare Windows-Dateien sind und Google sie möglicherweise herunterlädt, um Malware-Scans durchzuführen. Auch wenn das stimmt, muss das wirklich jede Woche passieren?
Beispiel für Datenverkehr von Google Proxy-IPs im November:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
Update Nr. 1: Ich habe vergessen zu erwähnen, dass sich die fraglichen Dateien bereits in der robots.txt-Datei der Site befinden. Damit die robots.txt-Konfiguration ordnungsgemäß funktioniert, habe ich auch den robots.txt-Tester in den Google Webmaster-Tools verwendet, der zeigt, dass die Dateien definitiv für alle Google-Bots blockiert werden, mit einer Ausnahme: Adsbot-Google. Ich bin mir auch nicht sicher, worum es geht. UND ich habe Google nach einigen Dateien durchsucht, die NICHT in den Suchergebnissen angezeigt werden.
Update Nr. 2: Beispiel: Zwischen 5:12 Uhr und 5:18 Uhr PST am 17. November haben etwa ein halbes Dutzend IPs (alle Google-Proxys) GETs für alle fraglichen Binärdateien durchgeführt, insgesamt 27. Am 4. November zwischen 14.09 Uhr und 14.15 Uhr PST haben dieselben IPs im Grunde dasselbe getan.
Update Nr. 3: An diesem Punkt scheint es klar zu sein, dass diese IPs zwar gültige Google-IPs sind, jedoch Teil des Proxy-Dienstes von Google und nicht Teil des Web-Crawler-Systems von Google. Da es sich um Proxy-Adressen handelt, kann nicht festgestellt werden, woher die GET-Anforderungen tatsächlich stammen oder ob sie von einem oder mehreren Orten stammen. Aufgrund der sporadischen Natur der GETs scheint es nicht so, als ob etwas Schändliches vor sich geht. Es ist wahrscheinlich nur jemand, der sich entscheidet, alle Binärdateien herunterzuladen, während er den Proxy-Dienst von Google verwendet. Leider scheint dieser Service völlig undokumentiert zu sein, was nicht hilft. Aus Sicht eines Site-Administrators sind Proxys eher ärgerlich. Ich möchte sie nicht blockieren, weil sie legitime Verwendungszwecke haben. Sie können aber auch missbraucht werden.
Antworten:
Ich habe einige Nachforschungen zu dieser Frage angestellt und einige interessante Dinge gefunden, wie zum Beispiel:
1. Ist es ein gefälschter Crawler? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c
Fazit des Anwenders:
Wir wissen, dass die Live-Vorschau Ihre Dateien nicht herunterlädt. Fahren wir also mit Frage 2 fort.
2. Ist es Teil der Google-Dienste? -> Ist dieser Google-Proxy ein gefälschter Crawler: google-proxy-66-249-81-131.google.com?
Fazit:
Meine Vermutung dazu ist die gleiche wie oben. Jemand versucht, über einen Google-Dienst auf Ihre Dateien zuzugreifen, z. B. einen Übersetzer.
Wenn, wie Sie sagen, die Dateien bereits von der robots.txt blockiert werden, kann dies nur eine manuelle Anforderung sein.
BEARBEITEN: Um den OP-Kommentar ausführlich zu behandeln:
Können die Crawler die robots.txt ignorieren? Ja. Hier ist eine Liste, von der ich glaube, dass Google dies nicht tut. Dies bedeutet, dass es sich um andere Bots handeln kann, die Google-Proxys verwenden.
Kann es ein schlechter Bot sein? Ja, und dafür empfehle ich:
.htaccess-Verbot:
Dieser Code kann IPs oder Benutzeragenten verbieten.
Oder verwenden Sie eine Spinnenfalle, die hier vorgestellt wird
Ich halte meine Meinung, dass dies eine manuelle Anfrage ist.
quelle