Angenommen, ich habe eine Mischung aus endlich vielen Gaußschen mit bekannten Gewichten, Mittelwerten und Standardabweichungen. Die Mittel sind nicht gleich. Der Mittelwert und die Standardabweichung des Gemisches können natürlich berechnet werden, da die Momente gewichtete Mittelwerte der Momente der Komponenten sind. Die Mischung ist keine Normalverteilung, aber wie weit ist sie von der Normalverteilung entfernt?
Motivation: Ich bin nicht einverstanden mit einigen faulen Leuten über einige tatsächliche Verteilungen, die sie nicht gemessen haben und von denen sie annehmen, dass sie nahezu normal sind, weil das nett wäre. Ich bin auch faul. Ich möchte die Verteilungen auch nicht messen. Ich möchte in der Lage sein zu sagen, dass ihre Annahmen inkonsistent sind, weil sie sagen, dass eine endliche Mischung von Gaußschen mit verschiedenen Mitteln ein Gaußscher ist, der nicht richtig ist. Ich möchte nicht nur sagen, dass die asymptotische Form des Schwanzes falsch ist, da dies nur Näherungswerte sind, die nur innerhalb weniger Standardabweichungen des Mittelwerts einigermaßen genau sein sollen. Ich möchte in der Lage sein zu sagen, dass wenn die Komponenten durch Normalverteilungen gut angenähert sind, die Mischung nicht in der Lage ist, dies zu quantifizieren.
quelle
Antworten:
KL-Divergenz wäre natürlich, weil Sie eine natürliche Basenverteilung haben, die einzelne Gaußsche, von der Ihre Mischung abweicht. Andererseits scheint die KL-Divergenz (oder ihre symmetrische "Abstands" -Form) zwischen zwei Gaußschen Gemischen, von denen Ihr Problem ein Sonderfall ist, im Allgemeinen unlösbar zu sein. Hershey und Olson (2007) sehen aus wie eine vernünftige Zusammenfassung der verfügbaren Näherungen, einschließlich Variationsmethoden, die möglicherweise einfachere Grenzen bieten.
Wenn Sie jedoch über die negativen Auswirkungen der Annahme streiten möchten, dass etwas Gauß'sch ist, wenn es sich wirklich um eine Mischung handelt, sollten Sie eine gute Vorstellung von den Konsequenzen haben, an denen Sie tatsächlich interessiert sind - etwas, das spezifischer ist, als nur falsch zu liegen '(das ist @ Michael-Chernicks Punkt). Zum Beispiel die Konsequenzen für einen Test, ein Intervall oder so. Zwei offensichtliche Effekte der Mischung sind Überdispersion, die so gut wie garantiert ist, und Multimodalität, die Maximierer verwirren wird.
quelle
Lassen Sie mich die Konsequenzen einer inkorrekten Distributionsspezifikation untersuchen. Anstatt ein allgemeines Maß für die Entfernung zu verwenden, wie z. B. KL-Divergenz, können Sie ein benutzerdefiniertes Maß für die "Differenz" auswerten, die für die jeweiligen Konsequenzen von Belang ist.
Wenn die Verteilung beispielsweise für die Risikoberechnung verwendet werden soll, um festzustellen, dass die Ausfallwahrscheinlichkeit niedrig genug ist, sind die Wahrscheinlichkeitsberechnungen im äußersten Schwanz die einzigen Faktoren, die für die Anpassung von Bedeutung sind. Dies kann für Entscheidungen über Milliarden-Dollar-Programme relevant sein und Fragen von Leben und Tod betreffen.
Wo ist die Normalannahme wahrscheinlich am ungenauesten? In vielen Fällen ist in den Extremschwänzen der einzige Ort, der für diese entscheidenden Risikoberechnungen von Bedeutung ist. Wenn zum Beispiel Ihre wahre Verteilung eine Mischung von Normalen mit dem gleichen Mittelwert, aber unterschiedlichen Standardabweichungen ist, sind die Schwänze der Gemischverteilung dicker als die Schwänze der Normalverteilung mit dem gleichen Mittelwert und der gleichen Standardabweichung. Dies kann leicht zu einer Größenordnungsdifferenz (Unterschätzung des Risikos) für Wahrscheinlichkeiten im Extremschwanz führen.
quelle