Wie groß ist der Abstand zwischen einer endlichen Gaußschen Mischung und einer Gaußschen?

12

Angenommen, ich habe eine Mischung aus endlich vielen Gaußschen mit bekannten Gewichten, Mittelwerten und Standardabweichungen. Die Mittel sind nicht gleich. Der Mittelwert und die Standardabweichung des Gemisches können natürlich berechnet werden, da die Momente gewichtete Mittelwerte der Momente der Komponenten sind. Die Mischung ist keine Normalverteilung, aber wie weit ist sie von der Normalverteilung entfernt?

Mischung von Gaußschen, getrennt durch 2 Standardabweichungen gegen Gaußsche mit dem gleichen Mittelwert und der gleichen Varianz

2

Mischung aus Gaußschen Werten, die durch 1 Standardabweichung von Gaußschen Werten mit dem gleichen Mittelwert und der gleichen Varianz getrennt sind

1


Motivation: Ich bin nicht einverstanden mit einigen faulen Leuten über einige tatsächliche Verteilungen, die sie nicht gemessen haben und von denen sie annehmen, dass sie nahezu normal sind, weil das nett wäre. Ich bin auch faul. Ich möchte die Verteilungen auch nicht messen. Ich möchte in der Lage sein zu sagen, dass ihre Annahmen inkonsistent sind, weil sie sagen, dass eine endliche Mischung von Gaußschen mit verschiedenen Mitteln ein Gaußscher ist, der nicht richtig ist. Ich möchte nicht nur sagen, dass die asymptotische Form des Schwanzes falsch ist, da dies nur Näherungswerte sind, die nur innerhalb weniger Standardabweichungen des Mittelwerts einigermaßen genau sein sollen. Ich möchte in der Lage sein zu sagen, dass wenn die Komponenten durch Normalverteilungen gut angenähert sind, die Mischung nicht in der Lage ist, dies zu quantifizieren.


L121/4

Douglas Zare
quelle
2
Wenn eine Mischung sehr nahe an der Normalität liegt, ist die Verwendung einer normalen Annäherung keine Faulheit, sondern eine Vereinfachung und könnte eine gute sein. Aber in deinem Beispiel zeigst du eine Mischung, die flacher ist als ein Nromal in der Mitte, die sich in der Mitte mehr ausbreitet und im Schwanz kürzer ist als bei der besten Annäherung an die Norm. Ich denke, Sie möchten sich eine Art integrierten Unterschied zwischen den beiden PDFs ansehen. Nicht das KS-Maß, da die maximale Diskrepanz möglicherweise nicht sehr groß ist, aber die durchschnittliche Diskrepanz über einen Bereich möglicherweise relativ groß ist.
Michael R. Chernick
Können wir annehmen, dass es statistisch signifikante Belege für die Mischung der Gaußschen über eine normale Annäherung gibt? Wir müssen uns nur Sorgen machen, ob der Unterschied von praktischer Bedeutung ist, wenn bekannt ist, dass der Unterschied statistisch signifikant ist. Michaels Vorschlag einer Anderson-Darling-Statistik wäre ein vernünftiger Ausgangspunkt.
Dikran Beuteltier
1/22
3
Es hört sich so an, als würden Sie wirklich eine Frage zur Modellauswahl stellen: Wenn Sie einige Daten für das Modell haben, wann sollte man eine Normalverteilung gegenüber einer Mischung bevorzugen (oder allgemeiner, wie sollte man die Anzahl der Mischungskomponenten wählen)? Wenn Sie die Frage so aktualisieren, haben Sie Zugriff auf ein paar hundert verwandte Fragen auf dieser Site :-).
whuber
@whuber: Der Abstand zur Normalen könnte dann als (mittlere) Leistung eines Tests ausgedrückt werden, der darauf abzielt, die Mischung von einem einzelnen Gaußschen zu trennen.
Xi'an

Antworten:

9

KL-Divergenz wäre natürlich, weil Sie eine natürliche Basenverteilung haben, die einzelne Gaußsche, von der Ihre Mischung abweicht. Andererseits scheint die KL-Divergenz (oder ihre symmetrische "Abstands" -Form) zwischen zwei Gaußschen Gemischen, von denen Ihr Problem ein Sonderfall ist, im Allgemeinen unlösbar zu sein. Hershey und Olson (2007) sehen aus wie eine vernünftige Zusammenfassung der verfügbaren Näherungen, einschließlich Variationsmethoden, die möglicherweise einfachere Grenzen bieten.

Wenn Sie jedoch über die negativen Auswirkungen der Annahme streiten möchten, dass etwas Gauß'sch ist, wenn es sich wirklich um eine Mischung handelt, sollten Sie eine gute Vorstellung von den Konsequenzen haben, an denen Sie tatsächlich interessiert sind - etwas, das spezifischer ist, als nur falsch zu liegen '(das ist @ Michael-Chernicks Punkt). Zum Beispiel die Konsequenzen für einen Test, ein Intervall oder so. Zwei offensichtliche Effekte der Mischung sind Überdispersion, die so gut wie garantiert ist, und Multimodalität, die Maximierer verwirren wird.

Conjugateprior
quelle
1

Lassen Sie mich die Konsequenzen einer inkorrekten Distributionsspezifikation untersuchen. Anstatt ein allgemeines Maß für die Entfernung zu verwenden, wie z. B. KL-Divergenz, können Sie ein benutzerdefiniertes Maß für die "Differenz" auswerten, die für die jeweiligen Konsequenzen von Belang ist.

Wenn die Verteilung beispielsweise für die Risikoberechnung verwendet werden soll, um festzustellen, dass die Ausfallwahrscheinlichkeit niedrig genug ist, sind die Wahrscheinlichkeitsberechnungen im äußersten Schwanz die einzigen Faktoren, die für die Anpassung von Bedeutung sind. Dies kann für Entscheidungen über Milliarden-Dollar-Programme relevant sein und Fragen von Leben und Tod betreffen.

Wo ist die Normalannahme wahrscheinlich am ungenauesten? In vielen Fällen ist in den Extremschwänzen der einzige Ort, der für diese entscheidenden Risikoberechnungen von Bedeutung ist. Wenn zum Beispiel Ihre wahre Verteilung eine Mischung von Normalen mit dem gleichen Mittelwert, aber unterschiedlichen Standardabweichungen ist, sind die Schwänze der Gemischverteilung dicker als die Schwänze der Normalverteilung mit dem gleichen Mittelwert und der gleichen Standardabweichung. Dies kann leicht zu einer Größenordnungsdifferenz (Unterschätzung des Risikos) für Wahrscheinlichkeiten im Extremschwanz führen.

UP(XMichxture>U)-P(XNÖrmeinl>U)

Mark L. Stone
quelle