Beispiele für gängige Distributionen aus der Praxis

28

Ich bin ein Student, der ein Interesse für Statistik entwickelt. Ich mag das Material über alles, aber manchmal fällt es mir schwer, über Anwendungen für das wirkliche Leben nachzudenken. Insbesondere geht es bei meiner Frage um häufig verwendete statistische Verteilungen (normal - Beta-Gamma usw.). Ich denke, in einigen Fällen erhalte ich die besonderen Eigenschaften, die die Verteilung sehr schön machen - zum Beispiel die memorylose Eigenschaft des Exponentials. In vielen anderen Fällen habe ich jedoch keine Ahnung, welche Bedeutung und welche Anwendungsbereiche die in Lehrbüchern vorkommenden Distributionen haben.

Es gibt wahrscheinlich viele gute Quellen, die sich mit meinen Anliegen befassen. Ich würde mich freuen, wenn Sie uns diese mitteilen könnten. Ich würde mich viel mehr für das Material interessieren, wenn ich es mit Beispielen aus der Praxis in Verbindung bringen könnte.

Roark
quelle
8
Vierzehn Arten von Anwendungen, die einen weiten Bereich von Distributionen abdecken, werden unter "Anwendungen" auf der Hilfeseite für die Mathematica- EstimatedDistribution Funktion beschrieben .
Whuber

Antworten:

23

Wikipedia hat eine Seite, auf der viele Wahrscheinlichkeitsverteilungen mit Links zu weiteren Details zu jeder Verteilung aufgelistet sind . Sie können die Liste durchsehen und den Links folgen, um ein besseres Gefühl für die Arten von Anwendungen zu bekommen, für die die verschiedenen Distributionen üblicherweise verwendet werden.

Denken Sie daran, dass diese Verteilungen verwendet werden, um die Realität zu modellieren, und wie Box sagte: "Alle Modelle sind falsch, einige Modelle sind nützlich".

Hier sind einige der gebräuchlichen Distributionen und einige der Gründe, warum sie nützlich sind:

Normal: Dies ist nützlich, um Mittelwerte und andere lineare Kombinationen (z. B. Regressionskoeffizienten) aufgrund der CLT zu betrachten. Wenn bekannt ist, dass etwas aufgrund von additiven Effekten vieler verschiedener kleiner Ursachen entsteht, kann dies eine vernünftige Verteilung sein: Beispielsweise sind viele biologische Maßnahmen das Ergebnis mehrerer Gene und mehrerer Umweltfaktoren und daher häufig ungefähr normal .

Gamma: Rechts verzerrt und nützlich für Dinge mit einem natürlichen Minimum von 0. Wird häufig für abgelaufene Zeiten und einige finanzielle Variablen verwendet.

Exponentiell: Sonderfall des Gamma. Es ist memoryless und lässt sich leicht skalieren.

Chi-Quadrat ( ): Sonderfall des Gamma. Entsteht als Summe der quadrierten Normalvariablen (wird also für Varianzen verwendet).χ2

Beta: Wird zwischen 0 und 1 definiert (kann aber auch zwischen anderen Werten umgewandelt werden) und eignet sich für Proportionen oder andere Größen, die zwischen 0 und 1 liegen müssen.

Binomial: Wie viele "Erfolge" aus einer bestimmten Anzahl unabhängiger Versuche mit derselben Wahrscheinlichkeit für "Erfolg".

Poisson: Häufig für Zählungen. Schöne Eigenschaften: Wenn die Anzahl der Ereignisse in einem Zeitraum oder Gebiet einem Poisson folgt, folgt die Anzahl der Ereignisse in der doppelten Zeit oder dem doppelten Gebiet immer noch dem Poisson (mit dem doppelten Mittelwert): Dies funktioniert zum Hinzufügen von Poisson oder zum Skalieren mit anderen Werten als 2.

Beachten Sie, dass, wenn Ereignisse im Zeitverlauf auftreten und die Zeit zwischen den Ereignissen einem Exponential folgt, die Zahl, die in einem Zeitraum auftritt, einem Poisson folgt.

Negatives Binomial: Zählt mit mindestens 0 (oder einem anderen Wert, je nach Version) und ohne Obergrenze. Konzeptionell ist es die Anzahl der "Misserfolge" vor k "Erfolgen". Das negative Binomial ist auch eine Mischung von Poisson-Variablen, deren Mittelwerte aus einer Gammaverteilung stammen.

Geometrisch: Sonderfall für negatives Binomial, bei dem es sich um die Anzahl der "Fehler" vor dem ersten "Erfolg" handelt. Wenn Sie eine Exponentialvariable abrunden, um sie diskret zu machen, ist das Ergebnis geometrisch.

Greg Snow
quelle
3
Nun, danke für deine Antwort. Wikipedia bietet jedoch eine allgemeinere Beschreibung, die ich gerne hätte. Grundsätzlich ist meine Frage, warum einige Distributionen nett sind? Um eine mögliche Antwort im Falle einer Normalverteilung zu geben, kann auf einen zentralen begrenzten Satz verwiesen werden - der besagt, dass, wenn Sie eine unendliche Anzahl von Beobachtungen abtasten, Sie tatsächlich asympotisch sehen können, dass die ausreichende Statistik dieser Beobachtungen bei gegebener Unabhängigkeit eine Normalverteilung aufweist . Ich
Roark
Nicht gerade eine echte Distribution, aber was ist mit bimodal? Ich kann mir keine Beispiele aus dem wirklichen Leben vorstellen, nachdem ich herausgefunden habe, dass die vielen geschlechtsspezifischen Unterschiede beim Menschen nicht bimodal sind.
Decke Katze
Add multinomial
3

Die asymptotische Theorie führt zur Normalverteilung, den Extremwerttypen, den stabilen Gesetzen und dem Poisson. Die Exponential- und die Weibull-Zeit treten in der Regel als parametrische Zeit für Ereignisverteilungen auf. Beim Weibull handelt es sich um einen Extremwerttyp für das Minimum einer Stichprobe. In Verbindung mit den parametrischen Modellen für normalverteilte Beobachtungen ergeben sich die Chi-Quadrat-, T- und F-Verteilungen bei Hypothesentests und Konfidenzintervallschätzungen. Für das Studium der Teststärke haben wir die nichtzentralen t- und F-Verteilungen. Die hypergeometrische Verteilung ergibt sich aus dem genauen Fisher-Test für Kontingenztabellen. Die Binomialverteilung ist wichtig, wenn Experimente durchgeführt werden, um die Proportionen abzuschätzen. Das negative Binomial ist eine wichtige Verteilung, um die Überdispersion in einem Punktprozess zu modellieren. Das sollte Ihnen einen guten Einstieg in praktische parametrische Verteilungen ermöglichen. Für nichtnegative Zufallsvariablen auf (0, ∞) ist die Gamma-Verteilung flexibel, um eine Vielzahl von Formen bereitzustellen, und die logarithmische Normale wird ebenfalls häufig verwendet. Auf [0,1] liefert die Beta-Familie symmetrische Verzerrungen, einschließlich der gleichmäßigen sowie der nach links oder rechts verzerrten Verteilungen.

Ich sollte auch erwähnen, dass, wenn Sie alle wichtigen Details über Verteilungen in der Statistik wissen möchten, es die klassische Reihe von Büchern von Johnson und Kotz gibt, die diskrete Verteilungen, kontinuierliche univariate Verteilungen und kontinuierliche multivariate Verteilungen sowie Band 1 der Advanced Theory enthalten of Statistics von Kendall und Stuart.

Michael R. Chernick
quelle
Vielen Dank für die Antwort, dies ist äußerst nützlich. Nochmals vielen Dank, es hat mir sehr geholfen.
Roark
2

Kaufen Sie und lesen Sie mindestens die ersten 6 Kapitel (erste 218 Seiten) von William J. Feller "Eine Einführung in die Wahrscheinlichkeitstheorie und ihre Anwendungen, Vol. 2" http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb . Lesen Sie mindestens alle Probleme zur Lösung durch und versuchen Sie vorzugsweise, so viele wie möglich zu lösen. Sie müssen Vol 1 nicht gelesen haben, was meiner Meinung nach nicht besonders verdienstvoll ist.

Obwohl der Autor vor 45 1/2 Jahren gestorben ist, bevor das Buch überhaupt fertig war, ist dies einfach das schönste Buch, das es gibt, um eine Intuition für Wahrscheinlichkeits- und stochastische Prozesse zu entwickeln und ein Gefühl für verschiedene Distributionen zu entwickeln , in welcher Beziehung sie zu Phänomenen der realen Welt und zu verschiedenen stochastischen Phänomenen stehen, die auftreten können und können. Und mit dem soliden Fundament, das Sie darauf aufbauen, sind Sie in der Statistik gut aufgehoben.

Wenn Sie es in den folgenden Kapiteln schaffen, die etwas schwieriger werden, sind Sie fast allen um Lichtjahre voraus. Einfach ausgedrückt, wenn Sie Feller Vol 2 kennen, kennen Sie die Wahrscheinlichkeit (und die stochastischen Prozesse). Das heißt, alles, was Sie nicht wissen, wie z. B. neue Entwicklungen, können Sie schnell erfassen und beherrschen, indem Sie auf diesem soliden Fundament aufbauen.

Fast alles, was zuvor in diesem Thread erwähnt wurde, ist in Feller Vol. 2 (nicht das gesamte Material in Kendall Advanced Theory of Statistics, aber das Lesen dieses Buches wird nach Feller Vol. 2 ein Kinderspiel sein) und vieles mehr auf eine Weise, die Ihr stochastisches Denken und Ihre Intuition fördern sollte. Johnson und Kotz eignen sich gut für Details zu verschiedenen Wahrscheinlichkeitsverteilungen. Feller Vol. 2 ist nützlich, um zu lernen, wie man probabilistisch denkt und weiß, was man aus Johnson und Kotz extrahiert und wie man es verwendet.

Mark L. Stone
quelle
2

Nur um die anderen ausgezeichneten Antworten zu ergänzen.

npλ=npbleibt konstant, begrenzt von Null und Unendlichkeit. Dies sagt uns, dass es nützlich ist, wenn wir eine große Anzahl von individuell sehr unwahrscheinlichen Ereignissen haben. Einige gute Beispiele sind: Unfälle, wie die Anzahl der Autounfälle in New York an einem Tag, da jedes Mal, wenn zwei Autos vorbeifahren / sich begegnen, die Wahrscheinlichkeit eines Unfalls sehr gering ist und die Anzahl solcher Gelegenheiten tatsächlich astronomisch ist! Jetzt können Sie selbst an andere Beispiele denken, wie die Gesamtzahl der Flugzeugabstürze in der Welt pro Jahr. Das klassische Beispiel, wo die Zahl der Todesfälle durch Tritte in der preußischen Kavallerie!

np(1-p)p1-pnpλpp

kjetil b halvorsen
quelle
0

Kürzlich veröffentlichte Forschunglegt nahe, dass die menschliche Leistung entgegen allgemeiner Überlegungen NICHT normal verteilt ist. Es wurden Daten aus vier Bereichen analysiert: (1) Akademiker in 50 Disziplinen, basierend auf der Veröffentlichungshäufigkeit in den wichtigsten fachspezifischen Zeitschriften. (2) Entertainer wie Schauspieler, Musiker und Schriftsteller sowie die Anzahl der erhaltenen prestigeträchtigen Auszeichnungen, Nominierungen oder Auszeichnungen. (3) Politiker in 10 Nationen und Wahl- / Wiederwahlergebnisse. (4) Hochschulsportler und Profisportler, die sich mit den individuellsten verfügbaren Maßnahmen befassen, z. B. Anzahl der Heimläufe, Empfänge im Mannschaftssport und Gesamtsiege im Einzelsport. Der Autor schreibt: "Wir haben in jeder Studie eine klare und konsistente Verteilung des Potenzgesetzes beobachtet, unabhängig davon, wie eng oder breit wir die Daten analysiert haben ..."

Joel W.
quelle
4
Wer hat vorgeschlagen, dass die menschliche Leistung normal verteilt ist ?! Das 80-20-Prinzip wurde von Pareto (1906!) Vorgeschlagen.
Abaumann