Angenommen, ich habe eine leptokurtische Variable, die ich in Normalität umwandeln möchte. Welche Transformationen können diese Aufgabe erfüllen? Mir ist durchaus bewusst, dass die Umwandlung von Daten nicht immer wünschenswert ist, aber als akademische Maßnahme möchte ich die Daten in die Normalität "hämmern". Wie Sie aus der Grafik ersehen können, sind alle Werte streng positiv.
Ich habe verschiedene Transformationen ausprobiert (so ziemlich alles, was ich vorher gesehen habe, einschließlich usw.), aber keines von ihnen funktioniert besonders gut. Gibt es bekannte Transformationen, um die Verteilung von Leptokurtika zu normalisieren?
Siehe das folgende Beispiel eines normalen QQ-Diagramms:
normal-distribution
data-transformation
kurtosis
qq-plot
Underminer
quelle
quelle
Antworten:
Ich benutze Lambert W x F-Verteilungen mit schwerem Schwanz , um leptokurtische Daten zu beschreiben und zu transformieren. Weitere Details und Referenzen finden Sie in (meinen) folgenden Posts:
Hier ist ein reproduzierbares Beispiel mit dem LambertW R-Paket.
yy
Zurück zu Ihrer Frage: Wie können diese leptokurtischen Daten wieder normalisiert werden? Nun, wir können die Parameter der Verteilung mit MLE abschätzen (oder für Methoden von Momenten verwenden
IGMM()
),W_delta()
Voila!
quelle
Obwohl die Kubikwurzel-Transformation nicht gut funktioniert hat, stellt sich heraus, dass die Quadratwurzel und die undurchsichtige Dreiviertelwurzel gut funktionieren.
Hier war die ursprüngliche Kerndichte-Darstellung, die der QQ-Darstellung der leptokurtischen Variablen in der ursprünglichen Frage entsprach:
Nachdem die Quadratwurzel-Transformation auf die Abweichungen angewendet wurde, sieht das QQ-Diagramm folgendermaßen aus:
Besser, aber näher kann es sein.
Wenn Sie die Dreiviertelwurzeltransformation auf die Abweichungen anwenden, erhalten Sie:
Und die endgültige Kerneldichte dieser transformierten Variablen sieht folgendermaßen aus:
Sieht mir nahe.
quelle
In vielen Fällen kann es einfach keine monotone Transformation einfacher Form geben, die ein nahezu normales Ergebnis liefert.
Stellen Sie sich zum Beispiel vor, wir hätten eine Verteilung, die eine endliche Mischung logarithmischer Normalverteilungen verschiedener Parameter ist. Eine Protokolltransformation würde alle Komponenten der Mischung in Normalität transformieren, aber die Mischung der Normalen in den transformierten Daten lässt Sie mit etwas zurück, das nicht normal ist.
Oder es gibt eine relativ nette Transformation, aber keine der Formen, die Sie ausprobieren möchten. Wenn Sie die Verteilung der Daten nicht kennen, werden Sie sie möglicherweise nicht finden. Wenn die Daten beispielsweise gammaverteilt wären, würden Sie nicht einmal die exakte Transformation zur Normalität finden (die sicherlich existiert), es sei denn, ich sage Ihnen genau, wie die Verteilung ist (obwohl Sie möglicherweise auf die darin enthaltene Kubikwurzel-Transformation stoßen case würde es ziemlich normal machen, solange der shape-Parameter nicht zu klein ist).
Es gibt unzählige Möglichkeiten, wie die Daten für eine Transformation einigermaßen geeignet erscheinen können, die jedoch auf keiner Liste offensichtlicher Transformationen gut aussehen.
Wenn Sie uns Zugriff auf die Daten gewähren, können wir möglicherweise eine Transformation erkennen, die in Ordnung ist, oder Ihnen zeigen, warum Sie keine finden.
Nur vom visuellen Eindruck her sieht es eher aus wie eine Mischung aus zwei Normalen mit unterschiedlichen Maßstäben. Es gibt nur einen leichten Hinweis auf Asymmetrie, den Sie leicht zufällig beobachten können. Hier ist ein Beispiel für eine Stichprobe aus einer Mischung von zwei Normalen mit einem gemeinsamen Mittelwert - wie Sie sehen, ähnelt es Ihrer Handlung ziemlich stark (andere Stichproben sehen jedoch möglicherweise schwerer oder schwächer aus - bei dieser Stichprobengröße gibt es große Abweichungen in der Reihenfolge Statistiken außerhalb von 1 sd auf beiden Seiten des Mittelwerts).
In der Tat sind hier Ihre und meine übereinander gelegt:
quelle