Warum wird oft von einer Gaußschen Verteilung ausgegangen?

13

Zitiert aus einem Wikipedia-Artikel zur Parameterschätzung für einen naiven Bayes-Klassifikator : "Eine typische Annahme ist, dass die mit jeder Klasse verbundenen kontinuierlichen Werte gemäß einer Gaußschen Verteilung verteilt sind."

Ich verstehe, dass eine Gaußsche Verteilung aus analytischen Gründen zweckmäßig ist. Gibt es jedoch einen anderen realen Grund für diese Annahme? Was ist, wenn die Bevölkerung aus zwei Teilpopulationen besteht (kluge / stumme Menschen, große / kleine Äpfel)?

lmsasu
quelle
5
Vielleicht passen die Gaußschen Verteilungen aufgrund des zentralen Grenzwertsatzes zu vielen, wenn auch keineswegs allen Messungen physikalischer Phänomene? Mit Subpopulationen kann man gemischte Gaußsche Verteilungen erhalten.
Dilip Sarwate
1
Im selben Abschnitt (ich gehe davon aus, dass Sie sich den Naive Bayes-Artikel ansehen) wird darauf hingewiesen, dass Binning wahrscheinlich eine bessere Idee ist, wenn Sie die Verteilung nicht kennen. Jemand sollte wahrscheinlich den Wikipedia-Artikel überarbeiten, um klarer zu machen, dass man nur dann von Gauß ausgehen sollte, wenn er argumentieren kann, warum es Gauß ist (z. B. die Daten aufzeichnen oder dem additiven Muster der CLT folgen).
RM999

Antworten:

6

Zumindest für mich ergibt sich die Annahme der Normalität aus zwei (sehr mächtigen) Gründen:

  1. Der zentrale Grenzwertsatz.

  2. Die Gaußsche Verteilung ist eine maximale Entropieverteilung (in Bezug auf die kontinuierliche Version von Shannons Entropie).

Ich denke, Sie kennen den ersten Punkt: Wenn Ihre Stichprobe die Summe vieler Vorgänge ist, dann ist die Verteilung, solange einige milde Bedingungen erfüllt sind, ziemlich gaußartig (es gibt Verallgemeinerungen der CLT, bei denen Sie dies tatsächlich nicht tun) müssen davon ausgehen, dass die rvs der Summe identisch verteilt sind (siehe zB Lyapunov CLT).

Der zweite Punkt ist für manche Menschen (insbesondere für Physiker) sinnvoller: Angesichts des ersten und des zweiten Moments einer Verteilung die Verteilung, die weniger Informationen voraussetzt (dh die konservativste) in Bezug auf das kontinuierliche Entropiemaß von Shannon (das heißt) etwas willkürlich im kontinuierlichen Fall, aber zumindest für mich völlig objektiv im diskreten Fall, aber das ist eine andere Geschichte), ist die Gaußsche Verteilung. Dies ist eine Form des sogenannten "Maximum-Entropy-Prinzips", das nicht so verbreitet ist, weil die tatsächliche Verwendung der Form der Entropie etwas willkürlich ist ( weitere Informationen zu dieser Maßnahme finden Sie in diesem Wikipedia-Artikel ).

μΣ

PD: Ich auf die maximale Entropie Prinzip muß hinzufügen , dass nach diesem Papier , wenn Sie bekannt , dass die Variationsbreite des variablen passieren, müssen Sie Anpassungen an die Verteilung Du durch das maximale Entropie Prinzip erhalten werden.

Néstor
quelle
3

Meine Antwort stimmt mit dem Ersthelfer überein. Der zentrale Grenzwertsatz besagt, dass Ihre Statistik, wenn sie eine Summe oder ein Durchschnitt ist, unter bestimmten technischen Bedingungen annähernd normal ist, unabhängig von der Verteilung der einzelnen Stichproben. Aber Sie haben Recht, dass die Leute dies manchmal zu weit treiben, nur weil es praktisch erscheint. Wenn Ihre Statistik ein Verhältnis ist und der Nenner Null sein kann oder nahe daran liegt, ist das Verhältnis für den Normalfall zu stark. Gosset stellte fest, dass selbst wenn Sie aus einer Normalverteilung einen normalisierten Durchschnitt nehmen, bei dem die Standardabweichung der Stichprobe für die Normalisierungskonstante verwendet wird, die Verteilung die t-Verteilung mit n-1 Freiheitsgraden ist, wenn n die Stichprobengröße ist. Bei seinen Feldversuchen in der Guiness-Brauerei hat er Stichprobengrößen im Bereich von 5 bis 10. In diesen Fällen ist die t-Verteilung ähnlich wie die Standardnormalverteilung, da sie um 0 symmetrisch ist, aber viel schwerere Schwänze aufweist. Beachten Sie, dass die t-Verteilung mit zunehmendem Wert von n zur Standardnormalen konvergiert. In vielen Fällen ist die Verteilung möglicherweise bimodal, da es sich um eine Mischung aus zwei Populationen handelt. Manchmal können diese Verteilungen als eine Mischung von Normalverteilungen angepasst werden. Aber sie sehen bestimmt nicht wie eine Normalverteilung aus. Wenn Sie sich ein grundlegendes Statistiklehrbuch ansehen, werden Sie viele parametrische kontinuierliche und diskrete Verteilungen finden, die häufig bei Inferenzproblemen auftreten. Für diskrete Daten haben wir das Binomial, Poisson-, geometrische, hypergeometrische und negative Binomial, um nur einige zu nennen. Kontinuierliche Beispiele sind das Chi-Quadrat, Lognormal, Cauchy, negative Exponential, Weibull und Gumbel.

Michael R. Chernick
quelle
2

Die Verwendung der CLT zur Rechtfertigung der Verwendung der Gaußschen Verteilung ist ein häufiger Irrtum, da die CLT auf den Stichprobenmittelwert und nicht auf einzelne Beobachtungen angewendet wird. Eine Vergrößerung der Stichprobe bedeutet daher nicht, dass die Stichprobe näher an der Norm liegt.

Die Gaußsche Verteilung wird häufig verwendet, weil:

  1. Die Schätzung der maximalen Wahrscheinlichkeit ist unkompliziert.
  2. Bayesianische Inferenz ist einfach (unter Verwendung von konjugierten Priors oder Jeffreys-ähnlichen Priors).
  3. Es ist in den meisten numerischen Paketen implementiert.
  4. Es gibt viele theoretische Überlegungen zu dieser Verteilung in Bezug auf das Testen von Hypothesen.
  5. Mangelndes Wissen über andere Optionen (flexibler). ...

Die beste Option ist natürlich die Verwendung einer Distribution, die die Merkmale Ihres Kontexts berücksichtigt. Dies kann jedoch eine Herausforderung sein. Es ist jedoch etwas, das die Leute tun sollten

"Alles sollte so einfach wie möglich sein, aber nicht einfacher." (Albert Einstein)

Ich hoffe das hilft.

Die besten Wünsche.

Tony
quelle
Warum die Gegenstimme? Welches Gegenargument ist für diese Erklärung?
lmsasu
4
Die Annahme, dass "die Verwendung der CLT zur Rechtfertigung der Verwendung der Gaußschen Verteilung ein verbreiteter Irrtum ist, weil die CLT auf den Stichprobenmittelwert angewendet wird", ist selbst ein Irrtum. Zum Beispiel bewegen sich die Elektronen in einem Leiter zufällig. Die kleine Ladung auf jedem Elektron trägt zu einer Netto - Rauschspannung (thermisches Rauschen bezeichnet wird ) , die über die Anschlüsse des Leiters gemessen werden können. Jeder Beitrag ist klein, es gibt viele Elektronen, und so wird das Rauschen über die CLT als ein Gaußscher Zufallsprozess modelliert . Dieses Modell wurde in zahlreichen experimentellen Studien kreuzvalidiert.
Dilip Sarwate
1
Dieser erste Absatz ist verwirrend und erscheint unsinnig. Wenn wir die CLT anwenden, sagen wir oft, dass eine Verteilung Gauß ist, weil jede einzelne Beobachtung die Summe / der Mittelwert vieler Prozesse ist. Wenn der erste Absatz gestrichen würde, wäre dies meiner Meinung nach eine gute Antwort.
RM999
1
@ rm999 "Wenn der erste Absatz entfernt würde, wäre dies meiner Meinung nach eine gute Antwort." Eigentlich ist der erste Absatz ist der Kern der Antwort , da der Rest lediglich darauf hin , wie das Gaußsche Modell analytisch hilfreich ist - was die OP schon versteht - und reagiert nicht auf die Frage gestellt.
Dilip Sarwate
@Dilip: (+1) Der Kern einer sehr guten Antwort ist in Ihrem ersten Kommentar vorhanden. Bitte erwägen Sie es in einem separaten Beitrag zu erweitern.
Kardinal