Angenommen, ich habe einen geordneten Vektor, bei dem das erste Element die Anzahl der Besuche auf einer Website in einem bestimmten Zeitraum nach der eindeutigen IP mit der höchsten Anzahl von Besuchen ist, das zweite Element die Anzahl der Besuche nach der eindeutigen IP mit der zweiten höchste Anzahl von Besuchen und so weiter. Ich verstehe, dass es pro Standort Abweichungen geben kann, aber gibt es im Allgemeinen ein angenommenes Muster für die Form dieses Vektors? Folgt es beispielsweise einer Potenzgesetzverteilung?
14
Antworten:
Nein, eindeutige Besucher einer Website befolgen kein Machtgesetz.
In den letzten Jahren wurde die Prüfung von machtrechtlichen Ansprüchen immer strenger (z. B. Clauset, Shalizi und Newman 2009). Anscheinend waren frühere Behauptungen oft nicht gut getestet und es war üblich, die Daten auf einer Log-Log-Skala zu zeichnen und sich auf den "Augapfeltest" zu verlassen, um eine gerade Linie zu demonstrieren. Jetzt, da formale Tests üblicher sind, stellen sich viele Distributionen als ungeeignet heraus, Potenzgesetze zu befolgen.
Die besten zwei Referenzen, die ich kenne, um die Besuche von Nutzern im Internet zu untersuchen, sind Ali und Scarr (2007) sowie Clauset, Shalizi und Newman (2009).
Ali und Scarr (2007) betrachteten eine zufällige Stichprobe von Nutzerklicks auf eine Yahoo-Website und kamen zu dem Schluss:
Hier ist ein Histogramm der Klicks einzelner Benutzer über einen Monat und derselben Daten in einem Protokoll-Protokoll-Diagramm mit verschiedenen Modellen, die sie verglichen haben. Die Daten liegen eindeutig nicht auf einer geraden logarithmischen Linie, die von einer skalierungsfreien Stromverteilung erwartet wird.
Clauset, Shalizi und Newman (2009) verglichen Erklärungen zum Potenzgesetz mit alternativen Hypothesen unter Verwendung von Likelihood-Ratio-Tests und kamen zu dem Schluss, dass sowohl Zugriffe als auch Links "nicht plausibel als Folgen eines Potenzgesetzes angesehen werden können". Ihre Daten für die ersteren waren an einem einzigen Tag Web-Hits von Kunden des America Online-Internetdienstes und für die letzteren Links zu Websites, die 1997 bei einem Web-Crawl von etwa 200 Millionen Webseiten gefunden wurden. Die folgenden Bilder geben die kumulativen Verteilungsfunktionen P (x) und ihre Maximum-Likelihood-Potenzgesetze an.
Clauset, Shalizi und Newman stellten für beide Datensätze fest, dass Leistungsverteilungen mit exponentiellen Cut-Offs zur Modifikation des äußersten Endes der Verteilung eindeutig besser sind als reine Potenzgesetzverteilungen und dass logarithmische Normalverteilungen ebenfalls gut passen. (Sie betrachteten auch exponentielle und gestreckte exponentielle Hypothesen.)
Wenn Sie einen Datensatz in der Hand haben und nicht nur neugierig sind, sollten Sie ihn mit verschiedenen Modellen kombinieren und vergleichen (in R: pchisq (2 * (logLik (model1) - logLik (model2)), df = 1, niedriger). tail = FALSE)). Ich gebe zu, dass ich keine Ahnung habe, wie man ein nullangepasstes ZM-Modell modelliert. Ron Pearson hat über ZM-Distributionen gebloggt und es gibt anscheinend ein R-Paket zipfR. Ich würde wahrscheinlich mit einem negativen Binomialmodell beginnen, aber ich bin kein echter Statistiker (und ich würde ihre Meinung lieben).
(Ich möchte auch @richiemorrisroe oben als zweiten Kommentar hinzufügen, der darauf hinweist, dass Daten wahrscheinlich von Faktoren beeinflusst werden, die nichts mit dem menschlichen Verhalten zu tun haben, z.
Erwähnte Papiere:
Clauset, Aaron, Cosma Rohilla Shalizi und Mark EJ Newman. "Potenzgesetzverteilungen in empirischen Daten." SIAM review 51.4 (2009): 661 & ndash; 703. (Siehe auch diese Seite)
Ali, Kamal und Mark Scarr. "Robuste Methoden zur Modellierung von Web-Klick-Verteilungen." Beiträge der 16. internationalen Konferenz über das World Wide Web. ACM, 2007.
quelle