Dies ist ein sich schnell änderndes Ereignis, auf das noch keine Antwort vorliegt.
Bitte posten Sie Ihre Ergebnisse oder Annahmen nicht als Antworten. Reservieren Sie das Antwortfeld für den Fall, dass Sie tatsächlich eine Antwort haben.
Wenn Sie etwas Neues hinzufügen möchten, bearbeiten Sie es direkt in der Frage.
Seit Anfang des Jahres bekomme ich viel Verkehr mit dem User Agent:
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).
Meine Zugriffsprotokolle zeigen 40% - 60% von diesem Benutzeragenten. Das ist seltsam, weil der Benutzeragent einen Firefox 3.0.10-Browser angibt (verwendet 2012 jemand diesen Browser? Auf keinen Fall 40% -60% der Besucher einer normalen Website).
Außerdem zeigen die Protokolle, dass dieser Benutzeragent nur das HTML-Dokument und keine referenzierten Assets wie Bilder, CSS, JS-Dateien angefordert hat.
Ich habe die IPs dieser Anfragen überprüft (mit dieser UA). Es kommt aus der ganzen Welt. Ich erkannte, dass diese IPs manchmal einen mobilen Benutzeragenten haben.
Mein Verdacht ist also eine mobile App, die viele "Spinnenanfragen" bearbeitet. Es wäre gut, die Hauptursache des Datenverkehrs von diesem Benutzeragenten zu kennen.
Kann jemand die Grundursache identifizieren?
In den letzten Wochen haben wir festgestellt, dass der Verkehr von dieser UA abgenommen hat und der andere Verkehr zugenommen hat. Es sieht so aus, als ob Bot / Crawler jetzt eine häufigere Benutzeroberfläche verwenden und daher schwieriger zu blockieren sind. Ich habe gesehen, wie jemand anderes dies in einer Antwort auf diese Frage gesagt hat, sie wurde jedoch entfernt, als sich serverfault entschied, diese Frage neu zu ordnen.
ALTE Antworten als Referenz
Update von Dee
Ich betreibe meine eigene Website, die ziemlich häufig besucht wird, und sehe in unseren Apache-Protokollen für den letzten Monat genau dasselbe (ich hatte noch keine Chance, weiter zurückzuschauen). 40% aller Anfragen sind der Prozentsatz, den ich sehe, was offensichtlich verrückt ist.
Und ich bemerkte auch, dass die Anfragen immer zu sagen scheinen, dass der anfragende Browser die gzip-Komprimierung nicht unterstützt - was dazu führt, dass alle Webseitenanfragen unkomprimiert gesendet werden und unsere Bandbreitennutzung ins Wanken gerät!
Bisher konnte ich jedoch nicht feststellen, was wirklich vor sich geht. Bisher vermute ich lediglich, dass es sich um einen Proxyserver oder einen solchen für ein Mobilgerät handelt, das einen falschen Useragent-String sendet.
BEARBEITET, UM HINZUZUFÜGEN: Habe gerade weitere Nachforschungen angestellt und es sieht so aus, als wäre es eine Antivirensoftware: http://www.webmasterworld.com/search_engine_spiders/4428772.htm
Update von jamur21
Ja, wir haben ähnliche Zugriffe auf mehreren Websites festgestellt.
Wir suchen immer noch nach der Ursache, aber einige unserer Ergebnisse beinhalten:
Wenn es eine Spinne ist, macht es einen ziemlich schlechten Job. Es scheint nur ein oder zwei URLs pro Domain für eine Weile (vielleicht ein paar Stunden) zu hämmern, bis es zu einer anderen URL weitergeht. Der Inhalt ist jedoch immer relativ "aktuell", was Google News glaubwürdig macht, wie in dem in der Antwort von Dee angegebenen Link dargelegt (alle unsere Websites sind Nachrichtenseiten).
Während die IPs geografisch verteilt sind, scheinen sich die meisten von ihnen in der Nähe der Ursprungssite zu befinden (die meisten unserer Sites sind lokale Nachrichtenagenturen, sodass sie nicht viel nationalen Datenverkehr haben). Fast keine der Anfragen kommt von außerhalb der USA. Auch dies verleiht den URLs, die von Google News verwendet werden, Glaubwürdigkeit (ich gehe davon aus, dass Personen, die Google News nach Postleitzahl lokalisiert haben, unseren Inhalt sehen werden).
Meistens können die Anforderungen als Hintergrundgeräusche abgeschrieben werden (auch wenn dies besonders laut ist), aber ein paar Mal am Tag werden wir einen Anstieg verzeichnen, und diese UA alleine wird für etwa 15 bis 30 Minuten ~ 100 MBit / s Datenverkehr ausmachen.
Leider scheint Google News ein möglicher Vektor für die Entdeckung dieser URLs zu sein, aber alles, was wir gesehen haben, ist umständlich und wir haben immer noch keine Waffe dafür, wie oder warum diese URLs gehämmert werden.
Update von Bannow Bay
Wir haben eine große Nachrichtenseite - unsere Nachrichten werden mehrmals pro Woche von Google News aufgegriffen. Wir haben seit Ende November Verkehr von dieser Quelle - und es wächst von Woche zu Woche - vielleicht 30 Millionen Kobolde im Februar.
Das Erscheinen auf der Titelseite von Google News US ist ein Auslöser für diesen Datenverkehr - etwa 75 Prozent geben an, von US-amerikanischen IPs zu stammen. Was auch immer es ist, es unternimmt große Anstrengungen, sich selbst zu verschleiern. Und das ist nicht freundlich.
Wir haben auch keine rauchende Waffe gefunden - aber ein großer Sicherheitsdienstleister hat freundlicherweise zugestimmt, weitere Untersuchungen in unserem Auftrag durchzuführen.
Update von Artem Russakovskii
Genau das Gleiche geschah zum ersten Mal mit einer Nachrichtenseite (AndroidPolice.com). Ungefähr 10 Minuten dieser zufälligen Anfragen, die QPS über 5000% unseres Durchschnitts ausmachten (5000qps, das ist das NodeBalancer-Limit von Linode). Die CPU begann im Leerlauf zu laufen, als die Anforderungen E / A und Netzwerk auffraßen - es war ein echtes DDOS.
Ich würde wirklich gerne auf den Grund gehen, aber im Moment scheint es völlig rätselhaft.
Update von Mark
Füge einfach eine +1 hinzu. Wir sehen dasselbe Verhalten auf unserer Website. Nicht jede Menge neuer Informationen, die hier hinzugefügt werden müssen, aber hier ist die allgemeine Form unseres Verkehrs:
- Der Verkehr ist stark verteilt. Der Datenverkehr kommt von über 60.000 eindeutigen IP-Adressen.
- Die überwiegende Mehrheit des Traffics trifft auf eine einzelne URL, in der Regel eine in Google News gelistete aktuelle URL (obwohl Google News nicht immer der Vektor zu sein scheint).
- Der gesamte Datenverkehr stammt von demselben Firefox / 3.0.10-Benutzeragenten wie in diesem Thread angegeben, obwohl wir hier und da einige seltsame mobile Agenten gesehen haben.
- Der gesamte von diesem Agenten eingehende Datenverkehr enthält keine Referrerdaten.
- Ein bis zweimal pro Woche tritt eine Explosion für 30-60 Minuten auf und verschwindet dann.
Update von Don Ireland
Der letzte Post war der 13. April, aber der Verkehr hat sicherlich nicht aufgehört. Das Seltsamste daran ist möglicherweise die Tatsache, dass jeder Malware-Autor, der sein Geld verdient, mit Sicherheit einen User-Agent-String aus einem modernen Browser verwenden könnte (würde), wodurch die Block-User-Agent-Verteidigung wertlos wird. Diese Tatsache lässt es scheinen, als ob ein "harmloser" Nachrichtenaggregator oder eine andere Anwendung die Quelle ist. Bisher konnte ich jedoch noch keine wirklichen Schlussfolgerungen ziehen und hoffe, dass jeder, der Informationen hat, diese hier veröffentlichen wird.
Wir sehen dasselbe Muster mit einer Geschichte, die von Google News aufgegriffen wurde, gefolgt von sehr hohen Verkehrsspitzen, die nach der Geschichte fragten (aber keine zusätzlichen Dateien wie Bilder). Der ausgehende Antwortverkehr verursacht Spitzen, die das Netzwerk überlasten können (oder bis wir mit einem Fehler von nur 503 zu reagieren begannen). Diese Angriffe (wie können wir sie sonst nennen?) Dauern im Durchschnitt etwa 30 Minuten, aber sehr beliebte Geschichten können eine Stunde oder länger viel Verkehr haben (ich spreche vom Firefox 3.0.10-Verkehr, natürlich bleibt auch der normale Verkehr hoch für eine Weile).
In einem Zeitraum von einer Stunde (für einen einzelnen Server in einer Gruppe mit Lastenausgleich) wurden 200.000 Anfragen registriert, von denen 97.000 Firefox 3.0.10-Anfragen waren, fast 50% aller Anfragen. Und wenn Sie bedenken, dass eine Seite normalerweise 10 oder mehr Anforderungen für die Haupt- und Zusatzdateien generiert, sind die 97.000 wesentlich größer. Ich stelle fest, dass es von den 97.000 51.000 eindeutige IP-Adressen gab. Und ich spreche von einer einzigen Stunde (eigentlich waren es fast 45 Minuten). Was auch immer dies verursacht, es ist ziemlich weit verbreitet.
Update von user119708
Wir haben das gleiche Problem auf einer riesigen französischen High-Tech-Nachrichten-Website.
Immer wenn eine Nachricht veröffentlicht und in Google News angezeigt wird, steigt der Datenverkehr in den Nachrichten mit etwa 50 bis 100 Besuchen durch IP und User Agent "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10 ) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729) ".
Alle IP-Adressen scheinen sich in Frankreich oder in französischen Ländern zu befinden und haben keinen Referer. Es scheint ein Bot zu sein, aber warum muss eine einzelne entfernte Adresse innerhalb weniger Minuten 50- oder 100-mal auf dieselbe Nachricht zugreifen? Könnte es sich um infizierte Computer handeln? Warum tritt das Phänomen auf, wenn die Nachrichten in Google News angezeigt werden? Ist Google für diesen seltsamen Verkehr verantwortlich?
Wenn jemand in diesem Thema die Erklärung gefunden hat, würde es meiner Meinung nach vielen mittleren oder großen Websites helfen, ihren Datenverkehr zu kontrollieren!
EDIT: http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html Wenn es sich tatsächlich um infizierte Computer handelt, ist dies angesichts der Anzahl der beteiligten Adressen sehr besorgniserregend. Wir werden dieses Skript für Apache implementieren, um den gesamten Datenverkehr zu blockieren:
# Referer is empty
RewriteCond %{HTTP_REFERER} ^$
# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"
# Forbid the request
RewriteRule ^(.*)$ - [F,L]
Update von Ernesto
Mittlere spanische allgemeine Nachrichtenseite, bemerkte seit einigen Tagen hohen Verkehr in einigen irrelevanten Nachrichten.
Wer auch immer es ist, es lädt das komplette HTML, wie wir es aufgrund der Anzahl der "Seitenaufrufe" bemerken, die wir durch Datenbankaktualisierungen erhöhen, sobald die Seite geladen ist.
Wir bemerken nur ein oder zwei URLs pro Tag.
Viele Anfragen (7000-12000) über dieselbe URL in wenigen Sekunden, verteilt über den Tag von verschiedenen IPs. In den nächsten Tagen werden andere URLs angestrebt.
Kein Referer.
Die ausgewählten Artikel wurden in Google News veröffentlicht. Wir können jedoch nicht garantieren, dass sie in Zusammenhang stehen.
Google Analytics erkennt es nicht als legitimen Datenverkehr. Wir haben Artikel mit mehr als 8000 Treffern und GA meldet nur 25 oder so (ich gehe davon aus, dass Javascript nicht interpretiert wurde).
Update von Old Pro
Hinzufügen einiger Datenpunkte für Sie.
Bots vs. Browser betrachtet diese UA (noch) nicht als Bot.
Auf der Website mit dem höchsten Trafficking, für die ich Protokolle habe, zeigt die Verwendung im Mai 2012, dass diese UA weniger als 1% des Datenverkehrs ausmacht. Ein erheblicher Teil der UA-Anforderungen scheint legitim zu sein (z. B. das Laden aller erwarteten Ressourcen). Dies ist im Grunde das gleiche wie für Februar 2012.
Die Startseite dieser Website wird selten aktualisiert und der gesamte dynamische Inhalt wird von robots.txt blockiert.
Dies ist wahrscheinlich von Genieo. Sie haben ihre Anwendung aktualisiert, um einen neuen Benutzeragenten zu verwenden: Mozilla / 5.0 + (kompatibel; + Genieo / 1.0 + http://www.genieo.com/webfilter.html ). Es trifft mit dem gleichen Muster wie das ursprüngliche Benutzerprogramm zu, aber jetzt scheinen sie sich zu identifizieren. Wenn Sie sich die URL in ihrem Benutzeragenten ansehen, erkennen sie sogar an, dass sie möglicherweise zu viel Verkehr für bestimmte Websites generiert haben oder immer noch generieren. - Fehler
Update von Mike Fagan
Wir kämpfen seit Wochen gegen DDOS-Angriffe. Wir haben gerade angefangen, Genieo als Useragent für diese Angriffe zu sehen. Zuvor sahen wir "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)" und eine Menge Anfragen von " Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0 ". 10k + verschiedene IPs, Ab 1 Million Anfragen pro Tag an nur 3 oder 4 Seiten, bei denen dieselbe IP mehr als 100 Seiten angefordert hat und keine zusätzlichen Assets oder Anzeigen abgerufen hat. Ich habe festgestellt, dass keine dieser IPs tatsächlich auf andere Seiten unserer Website gelangt ist.
Ich habe Genieo kontaktiert und das ist ihre Antwort:
"Danke, dass Sie uns kontaktiert haben.
Eine alte Version von Genieo hat möglicherweise die von Ihnen beschriebenen Verkehrslasten verursacht. Wir entschuldigen uns für etwaige Unannehmlichkeiten. Wir haben gestern veröffentlicht und aktualisiert, dass dies behoben ist. Das Laden von Daten aus unserer Anwendung sollte in den nächsten 24 Stunden verblassen. Wir waren der Meinung, dass wir Ihrer Website einen guten Service bieten, indem wir sie neuen Nutzern vorstellen. Wir haben nicht richtig eingeschätzt, dass unsere Installationsbasis mit zunehmendem Wachstum auf einigen Sitzen zu einer Überlastung führen kann.
Genieo ist eine persönliche Zeitung oder ein intelligenter RSS-Reader. Es ist ein clientseitiger RSS-Reader mit intelligenter semantischer Personalisierungsfilterung. Die Genieo-Anwendung folgt den RSS-Daten der bevorzugten Websites des Benutzers und „liest“ die Artikel, indem sie eine semantische Analyse durchführt und sie in Bezug auf die Interessenbereiche des Benutzers filtert. Wenn der Artikel mit den Benutzerinteressen übereinstimmt, zeigt die Anwendung den Titel und den Ausschnitt des Artikels auf der Benutzerhomepage an. Wenn Sie auf den Titel klicken, wird die Website des Artikels aufgerufen - Ihre Website. Der Genieo-Agent ist autonom (aus Datenschutzgründen). Es wird auf dem Computer des Endbenutzers ausgeführt. Aus diesem Grund kann der Agent von vielen verschiedenen IP-Adressen aus auf Ihre Site zugreifen.
Die meisten Genieo-Daten stammen aus normalen RSS-Feeds der Benutzer, aber Genieo fügt auch einige Inhalte von neuen Nachrichtenseiten hinzu, die zuvor nicht von den Benutzern registriert wurden (aus Gründen der Serendipity und Diversity). Genieo-Algorithmen suchen nach „heißen“ Artikeln, Top-Hits von Twitter, am häufigsten auf YouTube angesehenen YouTube-Nachrichten und Google-Nachrichten-Highlights und prüfen, ob sie mit den Interessen des Benutzers übereinstimmen
Uns war nicht bewusst, dass dies bei einigen Websites zu Problemen beim Laden führte. Sobald wir darauf hingewiesen wurden, aktualisieren wir die aktuellen Benutzer mit einer neuen Version, die Lastspitzen verhindert.
Freundliche Grüße,
-Dotan
PS: Wir haben in der Vergangenheit "Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0" verwendet (aufgrund eines technischen Fehlers), aber alle aktuellen Genieo-Benutzer sollten die Genieo-Benutzeragenten (für die) verwenden letzten Wochen) "
quelle
Antworten:
Ich denke der User dflaw hat es gefunden. Es ist die Software von Genieo. Wir haben einige Tests durchgeführt und Kontakt mit ihnen aufgenommen. Alle Ergebnisse werden hier veröffentlicht .
quelle