Wie wird der statistische Abstand zwischen zwei Häufigkeitsverteilungen gemessen?

14

Ich führe ein Datenanalyseprojekt durch, bei dem die Nutzungszeiten der Website im Laufe des Jahres untersucht werden. Was ich tun möchte, ist zu vergleichen, wie "konsistent" die Verwendungsmuster sind, sagen wir, wie nahe sie an einem Muster sind, bei dem es einmal pro Woche 1 Stunde lang verwendet wird, oder an einem, bei dem es 10 Minuten lang verwendet wird, 6 mal pro Woche. Mir sind mehrere Dinge bekannt, die berechnet werden können:

  • Shannon-Entropie: Misst, wie stark sich die "Gewissheit" im Ergebnis unterscheidet, dh wie stark sich eine Wahrscheinlichkeitsverteilung von einer gleichmäßigen Verteilung unterscheidet.
  • Kullback-Liebler-Divergenz: Misst, wie stark sich eine Wahrscheinlichkeitsverteilung von einer anderen unterscheidet
  • Jensen-Shannon-Divergenz: Ähnlich wie die KL-Divergenz, aber nützlicher, da sie endliche Werte liefert
  • Smirnov-Kolmogorov-Test : Ein Test zur Bestimmung, ob zwei kumulative Verteilungsfunktionen für kontinuierliche Zufallsvariablen aus derselben Stichprobe stammen.
  • Chi-Quadrat-Test: Ein Anpassungstest, um zu bestimmen, wie stark sich eine Häufigkeitsverteilung von einer erwarteten Häufigkeitsverteilung unterscheidet.

Ich möchte nur vergleichen, inwieweit die tatsächliche Nutzungsdauer (blau) von der idealen Nutzungsdauer (orange) in der Verteilung abweicht. Diese Verteilungen sind diskret und die folgenden Versionen sind normalisiert, um Wahrscheinlichkeitsverteilungen zu werden. Die horizontale Achse gibt die Zeit (in Minuten) an, die ein Benutzer auf der Website verbracht hat. Dies wurde für jeden Tag des Jahres aufgezeichnet. Wenn der Benutzer die Website überhaupt nicht besucht hat, wird dies als Null-Dauer gewertet, diese wurden jedoch aus der Häufigkeitsverteilung entfernt. Rechts ist die kumulative Verteilungsfunktion.

Verteilung der Nutzungsdaten der Website im Vergleich zu den idealen Nutzungsdaten

Mein einziges Problem ist, obwohl ich die JS-Divergenz dazu bringen kann, einen endlichen Wert zurückzugeben, wenn ich verschiedene Benutzer betrachte und ihre Nutzungsverteilungen mit der idealen vergleiche, erhalte ich Werte, die größtenteils identisch sind (was daher nicht gut ist Indikator dafür, wie sehr sie sich unterscheiden). Außerdem geht beim Normalisieren auf Wahrscheinlichkeitsverteilungen und nicht auf Häufigkeitsverteilungen einiges an Information verloren (wenn beispielsweise ein Schüler die Plattform 50 Mal verwendet, sollte die blaue Verteilung vertikal skaliert werden, sodass die Gesamtlänge der Balken 50 und 50 beträgt Der orangefarbene Balken sollte eine Höhe von 50 anstatt 1) ​​haben. Unter "Konsistenz" verstehen wir unter anderem, ob die Häufigkeit, mit der ein Benutzer die Website besucht, einen Einfluss darauf hat, wie viel er davon erhält. Wenn die Häufigkeit, mit der sie die Website besuchen, verloren geht, ist der Vergleich der Wahrscheinlichkeitsverteilungen etwas zweifelhaft. Selbst wenn die Wahrscheinlichkeitsverteilung der Dauer eines Benutzers nahe an der "idealen" Nutzung liegt, hat dieser Benutzer die Plattform möglicherweise nur eine Woche im Jahr genutzt, was wohl nicht sehr konsistent ist.

Gibt es gut etablierte Techniken zum Vergleichen von zwei Häufigkeitsverteilungen und zum Berechnen einer Art von Metrik, die charakterisiert, wie ähnlich (oder unähnlich) sie sind?

omegaSQU4RED
quelle
4
Möglicherweise möchten Sie sich zunächst fragen, wie Ihre Verlustfunktion aussieht (dh in welcher Weise unterscheidet sich das Verwendungsmuster vom idealen Fehler, und wie hängt die Höhe des Fehlers von der Art der Abweichung ab) und Ihre Metrik entwerfen darum herum.
Akkumulation

Antworten:

12

Möglicherweise interessiert Sie die Entfernung des Erdbewegers , auch als Wasserstein-Metrik bekannt . Es ist in R (siehe emdistPaket) und in Python implementiert . Wir haben auch eine Reihe von Themen auf .

Die EMD arbeitet sowohl für kontinuierliche als auch für diskrete Verteilungen. Das emdistPaket für R arbeitet mit diskreten Verteilungen.

χ2 Ergebnisse . Stellen Sie sich Ihre Verteilung als Erdhaufen vor, und das EMD gibt an, wie viel Erde Sie transportieren müssten, um eine Verteilung in eine andere zu verwandeln.

χ2

S. Kolassa - Setzen Sie Monica wieder ein
quelle
Warum gerade diese Distanz? Es scheint für eine kontinuierliche Verbreitung ausgelegt zu sein. OP hat eine Häufigkeitsverteilung, warum also nicht eine "diskretere" Entfernung wie das Chi-Quadrat?
user2974951
@ user2974951: fair genug. Siehe meine Bearbeitung.
S. Kolassa - Wiedereinsetzung von Monica
Lp
Lp
3

Wenn Sie zufällig eine Person aus jeder der beiden Verteilungen auswählen, können Sie eine Differenz zwischen ihnen berechnen. Wenn Sie dies (mit Ersetzung) mehrmals wiederholen, können Sie eine Differenzverteilung generieren, die alle Informationen enthält, nach denen Sie suchen. Sie können diese Verteilung grafisch darstellen und sie mit beliebigen zusammenfassenden Statistiken charakterisieren - Mittelwerte, Mediane usw.

mkt - Setzen Sie Monica wieder ein
quelle
1
Gibt es einen Namen für ein solches Verfahren?
user2974951
4
Ich frage mich, wie man die grundlegende Tatsache erklären kann, dass die Verteilung der Differenzen für eine beliebige Verteilung und für sich selbst für verschiedene beliebige Verteilungen unterschiedlich sein wird. denke U (0,1) gegen sich selbst im Vergleich zu N (0,1) gegen sich selbst. Daher ist die Verteilung der Unterschiede, die Sie erhalten, wenn Sie zwei verschiedene Verteilungen vergleichen, ohne eine eindeutige Grundlinie schwer zu bewerten. Das Problem verschwindet, wenn die Beobachtungen gepaart sind, dann wäre die Basislinie eine Einheitsmasse bei Null.
Richard Hardy
@ user2974951 Da bin ich mir sicher, da es ziemlich einfach ist und eindeutig mit Bootstrapping zu tun hat. Aber ich weiß nicht, wie ich es genau nennen soll.
mkt - Wiedereinsetzung von Monica
1
@mkt, danke für deine Klarstellung. Ohne dass wir nur deswegen streiten wollen, denke ich immer noch, dass wir ohne eine eindeutige Grundlinie nicht ganz über ein Lineal verfügen. Aber ich werde es dabei belassen. Ihre Idee hat sowieso etwas Schönes.
Richard Hardy
1
@RichardHardy Ich schätze den Austausch hier, und Sie könnten gut Recht haben. Ich muss weiter darüber nachdenken.
mkt - Setzen Sie Monica
0

Eine der Metriken ist der Hellinger-Abstand zwischen zwei Verteilungen, die durch Mittelwerte und Standardabweichungen charakterisiert sind. Die Anwendung finden Sie im folgenden Artikel.

https://www.sciencedirect.com/science/article/pii/S1568494615005104

user9003011
quelle
Dank dafür. Ich habe gesehen, dass es eine ganze Familie von Divergenzen (f-Divergenzen) gibt, die tun, was ich will, aber ein kurzer Blick durch die Literatur scheint nicht anzuzeigen, welche am besten ist, wenn ... kennen Sie eine gute Literatur über Dies?
OmegaSQU4RED