Zitiert aus einem Wikipedia-Artikel zur Parameterschätzung für einen naiven Bayes-Klassifikator : "Eine typische Annahme ist, dass die mit jeder Klasse verbundenen kontinuierlichen Werte gemäß einer Gaußschen Verteilung verteilt sind."
Ich verstehe, dass eine Gaußsche Verteilung aus analytischen Gründen zweckmäßig ist. Gibt es jedoch einen anderen realen Grund für diese Annahme? Was ist, wenn die Bevölkerung aus zwei Teilpopulationen besteht (kluge / stumme Menschen, große / kleine Äpfel)?
normal-distribution
lmsasu
quelle
quelle
Antworten:
Zumindest für mich ergibt sich die Annahme der Normalität aus zwei (sehr mächtigen) Gründen:
Der zentrale Grenzwertsatz.
Die Gaußsche Verteilung ist eine maximale Entropieverteilung (in Bezug auf die kontinuierliche Version von Shannons Entropie).
Ich denke, Sie kennen den ersten Punkt: Wenn Ihre Stichprobe die Summe vieler Vorgänge ist, dann ist die Verteilung, solange einige milde Bedingungen erfüllt sind, ziemlich gaußartig (es gibt Verallgemeinerungen der CLT, bei denen Sie dies tatsächlich nicht tun) müssen davon ausgehen, dass die rvs der Summe identisch verteilt sind (siehe zB Lyapunov CLT).
Der zweite Punkt ist für manche Menschen (insbesondere für Physiker) sinnvoller: Angesichts des ersten und des zweiten Moments einer Verteilung die Verteilung, die weniger Informationen voraussetzt (dh die konservativste) in Bezug auf das kontinuierliche Entropiemaß von Shannon (das heißt) etwas willkürlich im kontinuierlichen Fall, aber zumindest für mich völlig objektiv im diskreten Fall, aber das ist eine andere Geschichte), ist die Gaußsche Verteilung. Dies ist eine Form des sogenannten "Maximum-Entropy-Prinzips", das nicht so verbreitet ist, weil die tatsächliche Verwendung der Form der Entropie etwas willkürlich ist ( weitere Informationen zu dieser Maßnahme finden Sie in diesem Wikipedia-Artikel ).
PD: Ich auf die maximale Entropie Prinzip muß hinzufügen , dass nach diesem Papier , wenn Sie bekannt , dass die Variationsbreite des variablen passieren, müssen Sie Anpassungen an die Verteilung Du durch das maximale Entropie Prinzip erhalten werden.
quelle
Meine Antwort stimmt mit dem Ersthelfer überein. Der zentrale Grenzwertsatz besagt, dass Ihre Statistik, wenn sie eine Summe oder ein Durchschnitt ist, unter bestimmten technischen Bedingungen annähernd normal ist, unabhängig von der Verteilung der einzelnen Stichproben. Aber Sie haben Recht, dass die Leute dies manchmal zu weit treiben, nur weil es praktisch erscheint. Wenn Ihre Statistik ein Verhältnis ist und der Nenner Null sein kann oder nahe daran liegt, ist das Verhältnis für den Normalfall zu stark. Gosset stellte fest, dass selbst wenn Sie aus einer Normalverteilung einen normalisierten Durchschnitt nehmen, bei dem die Standardabweichung der Stichprobe für die Normalisierungskonstante verwendet wird, die Verteilung die t-Verteilung mit n-1 Freiheitsgraden ist, wenn n die Stichprobengröße ist. Bei seinen Feldversuchen in der Guiness-Brauerei hat er Stichprobengrößen im Bereich von 5 bis 10. In diesen Fällen ist die t-Verteilung ähnlich wie die Standardnormalverteilung, da sie um 0 symmetrisch ist, aber viel schwerere Schwänze aufweist. Beachten Sie, dass die t-Verteilung mit zunehmendem Wert von n zur Standardnormalen konvergiert. In vielen Fällen ist die Verteilung möglicherweise bimodal, da es sich um eine Mischung aus zwei Populationen handelt. Manchmal können diese Verteilungen als eine Mischung von Normalverteilungen angepasst werden. Aber sie sehen bestimmt nicht wie eine Normalverteilung aus. Wenn Sie sich ein grundlegendes Statistiklehrbuch ansehen, werden Sie viele parametrische kontinuierliche und diskrete Verteilungen finden, die häufig bei Inferenzproblemen auftreten. Für diskrete Daten haben wir das Binomial, Poisson-, geometrische, hypergeometrische und negative Binomial, um nur einige zu nennen. Kontinuierliche Beispiele sind das Chi-Quadrat, Lognormal, Cauchy, negative Exponential, Weibull und Gumbel.
quelle
Die Verwendung der CLT zur Rechtfertigung der Verwendung der Gaußschen Verteilung ist ein häufiger Irrtum, da die CLT auf den Stichprobenmittelwert und nicht auf einzelne Beobachtungen angewendet wird. Eine Vergrößerung der Stichprobe bedeutet daher nicht, dass die Stichprobe näher an der Norm liegt.
Die Gaußsche Verteilung wird häufig verwendet, weil:
Die beste Option ist natürlich die Verwendung einer Distribution, die die Merkmale Ihres Kontexts berücksichtigt. Dies kann jedoch eine Herausforderung sein. Es ist jedoch etwas, das die Leute tun sollten
"Alles sollte so einfach wie möglich sein, aber nicht einfacher." (Albert Einstein)
Ich hoffe das hilft.
Die besten Wünsche.
quelle