Ich habe folgende Frage: Wie sieht deiner Meinung nach die Verteilung der auf YouTube verbrachten Zeit pro Tag aus?
Meine Antwort ist, dass es wahrscheinlich normal verteilt und stark nach links geneigt ist. Ich gehe davon aus, dass es einen Modus gibt, in dem die meisten Benutzer durchschnittlich viel Zeit und dann einen langen rechten Schwanz verbringen, da einige Benutzer Power-User überfordern.
Ist das eine faire Antwort? Gibt es ein besseres Wort für diese Verteilung?
Antworten:
Ein Bruchteil pro Tag ist sicherlich nicht negativ. Dies schließt die Normalverteilung aus, die eine Wahrscheinlichkeitsmasse über die gesamte reale Achse - insbesondere über die negative Hälfte - hat.
Potenzgesetzverteilungen werden oft verwendet, um Dinge wie Einkommensverteilungen, Stadtgrößen usw. zu modellieren. Sie sind nichtnegativ und typischerweise stark verzerrt. Dies wäre das erste Mal, dass ich versuche, Zeit für das Anschauen von YouTube zu modellieren. (Oder CrossValidated-Fragen überwachen.)
Weitere Informationen zu Potenzgesetzen finden Sie hier oder hier oder in unserem Potenzgesetz - Tag.
quelle
Eine normale Verteilung ist nicht stark verzerrt. Das ist ein Widerspruch. Normalverteilte Variablen haben einen Versatz von 0.
quelle
Wenn es einen langen rechten Schwanz hat, dann ist es richtig schief.
Es kann keine Normalverteilung sein, da der Versatz! = 0 ist, es ist vielleicht eine unimodale Versatznormalverteilung:
https://en.wikipedia.org/wiki/Skew_normal_distribution
quelle
Es könnte sich um eine logarithmische Normalverteilung handeln. Wie hier erwähnt :
Die angegebene Referenz ist: Yin, Peifeng; Luo, Ping; Lee, Wang-Chien; Wang, Min. (2013). Schweigen ist auch ein Beweis: Interpretation der Verweilzeit zur Empfehlung aus psychologischer Sicht. ACM Internationale Konferenz zu KDD.
quelle
"Gibt es ein besseres Wort für diese Verteilung?"
Es gibt hier einen sinnvollen Unterschied zwischen der Verwendung von Wörtern zur Beschreibung der Eigenschaften der Verteilung und dem Versuch, einen "Namen" für die Verteilung zu finden, damit Sie sie als (ungefähr) Instanz einer bestimmten Standardverteilung identifizieren können: eine, für die eine Formel gilt Für die Verteilungsfunktion sind möglicherweise statistische Tabellen vorhanden, für die Sie die Parameter schätzen können. In letzterem Fall verwenden Sie wahrscheinlich die genannte Verteilung, z. B. "normal / Gauß" (die beiden Begriffe sind im Allgemeinen synonym), als Modell , das einige der Hauptmerkmale Ihrer Daten erfasst, anstatt die Grundgesamtheit Ihrer Daten anzugeben gezeichnet von genau folgt , dass die theoretische Verteilung. George Box leicht falsch zitieren,Alle Modelle sind "falsch", aber einige sind nützlich. Wenn Sie über den Modellierungsansatz nachdenken, sollten Sie sich überlegen, welche Funktionen Sie integrieren möchten und wie kompliziert oder sparsam Ihr Modell sein soll.
Als positiv verzerrt ist ein Beispiel eine Eigenschaft beschreibt , dass die Verteilung, aber nicht annähernd zu spezifizieren , welche off-the-shelf Verteilung ist „das“ geeignete Modell. Es schließt einige Kandidaten aus, z. B. hat die Gaußsche (dh normale) Verteilung einen Versatz von Null und ist daher nicht geeignet, Ihre Daten zu modellieren, wenn der Versatz ein wichtiges Merkmal ist. Möglicherweise sind auch andere Eigenschaften der Daten für Sie wichtig, z. B. die unimodale (nur einen Peak haben) oder zwischen 0 und 24 Stunden liegen (oder zwischen 0 und 1, wenn Sie sie als Bruch schreiben) des Tages), oder dass es eine auf Null konzentrierte Wahrscheinlichkeitsmasse gibt (da es Leute gibt, die an einem bestimmten Tag überhaupt kein YouTube schauen). selbst wenn Ihre Verteilung eine "Buckel" - oder "Glockenkurven" -Form und einen Versatz von Null oder nahe Null aufwies, sich daraus nicht automatisch ergibt, dass die Normalverteilung für sie "korrekt" ist!Kurtosis . Und es ist zu bedenken, dassandererseits die Population, aus der Ihre Daten stammen, aufgrund von Stichprobenfehlern genau einer bestimmten Verteilung entsprachIhr Datensatz kann es nicht ganz ähneln. Kleine Datensätze sind wahrscheinlich "verrauscht", und es kann unklar sein, ob bestimmte Merkmale, die Sie sehen können, z. B. zusätzliche kleine Buckel oder asymmetrische Schwänze, Eigenschaften der zugrunde liegenden Grundgesamtheit sind, aus der die Daten stammen (und die daher möglicherweise einbezogen werden sollten) in Ihrem Modell) oder ob es sich nur um Artefakte aus Ihrem speziellen Beispiel handelt (und zu Modellierungszwecken ignoriert werden sollte). Wenn Sie einen kleinen Datensatz haben und der Versatz nahe Null ist, ist es sogar plausibel, dass die zugrunde liegende Verteilung tatsächlich symmetrisch ist. Je größer Ihr Datensatz und je größer die Schiefe, desto weniger plausibel wird dies. Sie können jedoch einen Signifikanztest durchführen, um festzustellen, wie überzeugend die Beweise für die Schiefe in der Grundgesamtheit sind, aus der Ihre Daten stammen , könnte der Punkt fehlen, ob eine normale Verteilung (oder eine andere Verteilung ohne Schiefe) als Modell geeignet ist . .
Welche Eigenschaften der Daten sind für die Zwecke, für die Sie sie modellieren möchten, wirklich von Bedeutung? Beachten Sie, dass, wenn der Versatz einigermaßen klein ist und Sie sich nicht sehr darum kümmern, auch wenn die zugrunde liegende Grundgesamtheit tatsächlich versetzt ist , Sie die Normalverteilung möglicherweise immer noch als nützliches Modell zur Annäherung an diese tatsächliche Verteilung der Beobachtungszeiten ansehen. Sie sollten jedoch sicherstellen, dass dies nicht zu dummen Vorhersagen führt. Da eine Normalverteilung keinen höchstmöglichen oder niedrigstmöglichen Wert hat, werden Sie, obwohl extrem hohe oder niedrige Werte zunehmend unwahrscheinlich werden, immer feststellen, dass Ihr Modell davon ausgeht, dass es einige gibtWahrscheinlichkeit für eine negative Anzahl von Stunden pro Tag oder mehr als 24 Stunden zu beobachten. Dies wird für Sie problematischer, wenn die vorhergesagte Wahrscheinlichkeit solcher unmöglichen Ereignisse hoch wird. Eine symmetrische Verteilung wie die normale sagt voraus, dass so viele Menschen für längere Zeit mehr als z. B. 50% über dem Mittelwert und weniger als 50% unter dem Mittelwert beobachten werden. Wenn die Beobachtungszeiten sehr verzerrt sind, kann diese Art der Vorhersage auch so unplausibel sein, dass Sie irreführende Ergebnisse erhalten, wenn Sie die Ergebnisse Ihres Modells als Eingaben für einen anderen Zweck verwenden (z. B. für Sie) führen eine Simulation der Sendezeiten durch, um die optimale Werbeplanung zu berechnen). Wenn die Schräglage so bemerkenswert ist, dass Sie sie als Teil Ihres Modells erfassen möchten, klicken Sie auf die SchaltflächeEine Normalverteilung mit Versatz kann geeigneter sein. Wenn Sie sowohl die Schiefe als auch die Kurtosis erfassen möchten, sollten Sie das schiefe t berücksichtigen . Wenn Sie die physikalisch möglichen oberen und unteren Grenzen einbeziehen möchten, sollten Sie die abgeschnittenen Versionen dieser Verteilungen verwenden. Es gibt viele andere Wahrscheinlichkeitsverteilungen, die verzerrt und unimodal sein können (für geeignete Parameterauswahl), wie z. B. die F- oder Gamma- Verteilungen, und Sie können diese auch abschneiden, damit sie keine unglaublich hohen Beobachtungszeiten vorhersagen. Eine Beta-DistributionDies kann eine gute Wahl sein, wenn Sie den Bruchteil des Tages modellieren, den Sie mit dem Anschauen verbracht haben, da dieser immer zwischen 0 und 1 liegt, ohne dass ein weiteres Abschneiden erforderlich ist. Wenn Sie die Konzentration der Wahrscheinlichkeit bei genau Null aufgrund nicht-Beobachter zu übernehmen wollen, dann betrachtet in einem Gebäude Hürde Modell .
Aber an dem Punkt, an dem Sie versuchen, alle Funktionen, die Sie anhand Ihrer Daten identifizieren können, einzubeziehen und ein immer ausgefeilteres Modell zu erstellen, sollten Sie sich vielleicht fragen, warum Sie dies tun. Wäre ein einfacheres Modell von Vorteil, wenn es beispielsweise einfacher wäre, mit Mathematik zu arbeiten, oder wenn weniger Parameter geschätzt werden müssten? Wenn Sie befürchten, dass Sie aufgrund einer solchen Vereinfachung nicht alle für Sie interessanten Eigenschaften erfassen können, kann es durchaus sein, dass keine Standarddistribution genau das tut, was Sie möchten. Wir sind jedoch nicht auf die Arbeit mit benannten Distributionen beschränkt, deren mathematische Eigenschaften bereits erläutert wurden. Verwenden Sie stattdessen Ihre Daten, um eine empirische Verteilungsfunktion zu erstellen. Dadurch wird das gesamte Verhalten erfasst, das in Ihren Daten vorhanden war. Sie können ihm jedoch weder einen Namen wie "normal" oder "gamma" zuweisen noch mathematische Eigenschaften anwenden, die sich nur auf eine bestimmte Verteilung beziehen. Die Regel "95% der Daten liegen innerhalb von 1,96 Standardabweichungen vom Mittelwert" gilt beispielsweise für normal verteilte Daten und gilt möglicherweise nicht für Ihre Verteilung. obwohl zur Kenntnis , dass einige gelten Regeln für alle Distributionen, zB Tschebyscheff-Ungleichung Garantien zumindest75% Ihrer Daten müssen unabhängig von der Abweichung innerhalb von zwei Standardabweichungen vom Mittelwert liegen. Leider erbt die empirische Verteilung auch alle Eigenschaften Ihres Datensatzes, die nur durch Stichprobenfehler entstehen, nicht nur die der zugrunde liegenden Population, sodass Sie möglicherweise feststellen, dass ein Histogramm Ihrer empirischen Verteilung einige Buckel und Einbrüche aufweist, die die Population selbst nicht aufweist . Möglicherweise möchten Sie geglättete empirische Verteilungsfunktionen untersuchen oder, noch besser, Ihre Stichprobengröße erhöhen.
Zusammenfassend lässt sich sagen, dass die Normalverteilung zwar keine Abweichung aufweist, die Tatsache, dass Ihre Daten jedoch eine Abweichung aufweisen, die Normalverteilung jedoch nicht als nützliches Modell ausschließt, obwohl dies darauf hindeutet, dass eine andere Verteilung möglicherweise geeigneter ist. Sie sollten bei der Auswahl Ihres Modells neben dem Versatz auch andere Eigenschaften der Daten berücksichtigen und auch die Zwecke berücksichtigen, für die Sie das Modell verwenden möchten. Man kann mit Sicherheit sagen, dass Ihre wahre Population von Beobachtungszeiten nicht genau einer bekannten, benannten Verteilung folgt, aber dies bedeutet nicht, dass eine solche Verteilung als Modell zum Scheitern verurteilt ist. Für einige Zwecke können Sie jedoch die empirische Verteilung selbst verwenden, anstatt zu versuchen, eine Standardverteilung an diese anzupassen.
quelle
Die Gamma-Verteilung könnte ein guter Kandidat sein, um diese Art der Verteilung über nicht negative, rechtsseitige Daten zu beschreiben. Die grüne Linie im Bild sehen Sie hier: https://en.m.wikipedia.org/wiki/Gamma_distribution
quelle
"Normal" und "Gauß" bedeuten genau dasselbe. Wie andere Antworten erklären, ist die Verteilung, über die Sie sprechen, nicht normal / Gaußsch, da diese Verteilung jedem Wert in der reellen Zeile Wahrscheinlichkeiten zuweist, während Ihre Verteilung nur zwischen existiert0 und 24 .
quelle
Im vorliegenden Fall ist da die pro Tag aufgewendete Zeit ab gebunden0 zu 1 (Wenn als Bruchteil des Tages quantifiziert), funktionieren Verteilungen, die oben nicht begrenzt sind (z. B. Pareto, Skew-Normal, Gamma, Log-Normal), nicht, aber Beta.
quelle
Wie wäre es mit einem Hürdenmodell?
Ein Hürdenmodell besteht aus zwei Teilen. Das erste ist ein Bernoulli-Experiment, das bestimmt, ob Sie YouTube überhaupt verwenden. Wenn Sie dies nicht tun, ist Ihre Nutzungszeit offensichtlich null und Sie sind fertig. Wenn Sie dies tun, "bestehen Sie diese Hürde", dann ergibt sich die Nutzungsdauer aus einer anderen streng positiven Verteilung.
Ein eng verwandtes Konzept sind Modelle mit Null-Inflation. Diese sollen sich mit einer Situation befassen, in der wir eine Reihe von Nullen beobachten, aber nicht zwischen immer Nullen und manchmal Nullen unterscheiden können. Betrachten Sie beispielsweise die Anzahl der Zigaretten, die eine Person täglich raucht. Für Nichtraucher ist diese Zahl immer Null, aber manche Raucher rauchen möglicherweise an einem bestimmten Tag nicht (keine Zigaretten mehr? Auf einem langen Flug?). Im Gegensatz zum Hürdenmodell sollte die "Raucher" -Verteilung hier Null enthalten, aber diese Zählungen werden auch durch den Nichtraucherbeitrag "aufgeblasen".
quelle
Wenn die Verteilung tatsächlich eine Teilmenge der Normalverteilung ist, sollten Sie ein abgeschnittenes Modell berücksichtigen. Weit verbreitet ist in diesem Zusammenhang die Familie der TOBIT-Modelle.
Sie schlagen im Wesentlichen ein PDF mit einer (positiven) Wahrscheinlichkeitsmasse bei 0 und dann einen „Teilschnitt der Normalverteilung“ für positive Werte vor.
Ich verzichte hier auf die Eingabe der Formel und verweise eher auf den Wikipedia-Artikel: https://en.wikipedia.org/wiki/Tobit_model
quelle
Normalverteilungen sind per Definition nicht verzerrt, sodass Sie nicht beide Dinge haben können. Wenn die Verteilung nach links verschoben ist, kann sie nicht Gaußsch sein. Sie müssen sich einen anderen aussuchen! Das Nächste, was mir zu Ihrer Anfrage einfällt, ist folgendes:
https://en.wikipedia.org/wiki/Skew_normal_distribution
quelle