Wie soll ich einen leeren User-Agent interpretieren? Ich habe einen benutzerdefinierten Analysecode und dieser Code muss nur den Datenverkehr von Personen analysieren. Ich habe eine Arbeitsliste mit Benutzeragenten, die den menschlichen Verkehr und den Bot-Verkehr anzeigen, aber der leere Benutzeragent erweist sich als problematisch. Und ich bekomme mit dem leeren User-Agent viel Verkehr, ungefähr 10%.
Zusätzlich habe ich die Liste der Benutzeragenten für den menschlichen Verkehr im Vergleich zum Bot-Verkehr erstellt, indem ich meine aktuellen Protokolle analysiert habe. Daher fehlen mir möglicherweise viele Einträge. Gibt es eine gut gepflegte Liste von Benutzeragenten, die Bot-Verkehr bezeichnen, oder umgekehrt eine Liste von Benutzeragenten, die menschlichen Verkehr bezeichnen?
Antworten:
Wenn Sie nur "menschlichen Verkehr" analysieren möchten, würde ich diejenigen mit leerem oder fehlendem Benutzeragenten-String nicht zählen. Nach meiner Erfahrung sendet fast jeder Browser immer einen. Sogar die meisten Datenschutz-Plugins oder -Erweiterungen sind eher gefälscht (einschließlich anderer Betriebssystem- oder Client-Namen) oder "normalisieren" (z. B. keine Versionsnummern) oder randomisieren (z. B. manchmal FF, manchmal IE-Zeichenfolgen) die UA-Zeichenfolgen, entfernen sie jedoch nicht vollständig (wie dies möglicherweise der Fall ist) Probleme mit einigen Sites verursachen, die darauf angewiesen sind, auch wenn dies keine gute Idee ist.)
Eine einfache Anfrage ohne UA kann folgendermaßen erfolgen:
Wie Sie sehen, können Sie alles hinzufügen, was Sie wollen. Websites, auf denen UAs gespeichert und veröffentlicht werden, die "in the wild" gefunden wurden, sind nicht besonders nützlich, da sie viel Mist finden.
Vielleicht hat jemand Ihre Inhalte nur rekursiv abgerufen. Oder verwenden Sie ein SEO-Tool, um Ihre Website zu analysieren (einige erlauben es Benutzern, den Header manuell zu ändern, andere mit der Absicht, eine robots.txt-Zeile zu ignorieren). Sachen wie diese. In solchen Situationen wird der UA-Header oft gefälscht, um Client und Zweck zu verbergen.
Wenn diese Anforderungen ständig bestehen bleiben, kann es hilfreich sein, die Header (Proxies?) Oder die IPs (ein bestimmter Block? Datenschutz betreffendes Unternehmen / Proxy?) Weiter zu analysieren.
quelle
Ich arbeite für ein Sicherheitsunternehmen und wir überwachen unter anderem den Bad Bot-Verkehr.
Nach meiner Erfahrung weisen menschliche Besuche mit leeren Benutzeragentendaten auf Scraping- / Spam-Versuche (normalerweise Scraping-Versuche) hin, die von "headless browser" -Bots durchgeführt wurden.
Diese Besucher können manchmal JS ausführen, und so werden sie in GA angezeigt - dennoch macht diese Dosis sie nicht menschlich :)
Entschuldigen Sie den "Plug", aber bitte beachten Sie, dass wir bei Bedarf kostenlose Schutzdienste für Bad Bot anbieten - zusammen mit CDN-Beschleunigung und anderen Extras.
In diesem speziellen Fall würde unser System diesen Besuch als "verdächtig" erkennen, ihn anhand bekannter Angriffsmethoden verifizieren und - falls immer noch unsicher - weitere Tests und Herausforderungen durchführen. Diese Herausforderungen werden nahtlos ausgeführt, ohne dass die Sitzung verzögert wird.
quelle
Jede Software, die auf das Internet zugreift, wird nicht auf magische Weise einem Benutzeragenten zugewiesen. Softwareentwickler müssen diese Funktionalität in ihre Software programmieren. Ihr leerer Benutzeragent bedeutet nur, dass ein Softwareentwickler vergessen hat, einen Benutzeragenten zu seiner Software hinzuzufügen.
quelle
In den Antworten auf diese Frage werden einige Kommentare angezeigt, in denen der User-Agent mit dem Verbergen Ihrer Identität oder dem menschlichen Sein verglichen wird. Dies ist ein absurder Vergleich. User-Agent hat nichts mit Identität oder Menschlichkeit zu tun.
Stellen Sie es sich wie Schuhe vor. Sie fragen Ihre Besucher, welche Art von Schuhen sie tragen, bevor Sie sie hereinlassen. Der häufigste Verwendungszweck besteht darin, zu wissen, welche Art von Teppich Sie ausrollen müssen, den schönen roten Teppich für saubere Abendschuhe, die hässliche Fußmatte für Schlamm Stiefel und kein Teppich für die Besucher, die allergische Teppiche sind.
Wenn die Besucher nicht sagen möchten, welche Schuhe sie haben (auch bekannt als leerer User-Agent), ignorieren Sie sie.
Ja, es gibt viele bewährte Methoden, die versuchen, Dinge über die Webanforderung basierend auf dem Benutzeragenten und anderen Informationen zum Anforderungsheader anzunehmen. Sie arbeiten in 99% der Fälle sehr gut, aber wie bei so vielen anderen ähnlichen Praktiken neigen sie zu Fehlalarmen und schädigen dadurch die normalen ignoranten Benutzer.
Nachdem ich auf das Problem gestoßen bin, dass ich versehentlich einen leeren User-Agent verwendet habe, kann ich definitiv sagen, dass es keinen Spaß macht, wenn ein Webdienst Sie anders behandelt, nur weil Sie nicht daran gedacht haben, ihm etwas über Ihr Schuhwerk zu erzählen.
quelle