Ich habe die Daten erhalten, die Verteilung der Daten geplottet und die Funktion qqnorm verwendet, aber es scheint, dass sie keiner Normalverteilung folgt. Welche Verteilung sollte ich also verwenden, um die Daten zu beschreiben?
Empirische kumulative Verteilungsfunktion
distributions
PepsiCo
quelle
quelle
Antworten:
Ich schlage vor, Sie versuchen es mit Lambert W x F- Verteilungen mit schwerem Schwanz oder verzerrten Lambert W x F- Verteilungen (Haftungsausschluss: Ich bin der Autor). In R sind sie im LambertW- Paket implementiert .
Sie entstehen aus einer parametrischen, nicht-linearen Transformation einer Zufallsvariablen (RV) , zu einer schweren Schwanz (schiefe) Version . Da Gauß ist, reduziert sich der Lambert W x F mit schwerem Schwanz auf Tukeys Verteilung. (Ich werde hier die Heavy-Tail-Version skizzieren, die verzerrte ist analog.)Y ≤ Lambert W × F F hX.∼ F. Y.∼ Lambert W × F. F. h
γ ∈ R U ∼ N ( 0 , 1 ) ×δ≥ 0 γ∈ R. U.∼ N.( 0 , 1 ) × Z.
Wenn Sie den Gaußschen Wert nicht als Basis verwenden möchten, können Sie andere Lambert W-Versionen Ihrer bevorzugten Distribution erstellen, z. B. t, uniform, gamma, exponentiell, beta, ... Für Ihren Datensatz ist jedoch ein Double Heavy- Schwanz Lambert W x Gaußsche (oder eine schiefe Lambert W xt) Verteilung scheint ein guter Ausgangspunkt zu sein.
Da dieser schweren Schwanz Generation auf einem basiert bijektive Transformationen von RVs / Daten, Sie können schwere Schwänze von Daten entfernen und überprüfen , ob sie sind schön jetzt, das heißt, wenn sie Gaussian sind (und testen Sie es Normalitätstests verwendet wird ).
Dies funktionierte ziemlich gut für den simulierten Datensatz. Ich schlage vor, Sie probieren es aus und sehen, ob Sie auch
Gaussianize()
Ihre Daten können .Wie @whuber jedoch betonte, kann Bimodalität hier ein Problem sein. Vielleicht möchten Sie also die transformierten Daten (ohne die schweren Schwänze) einchecken, was mit dieser Bimodalität los ist, und Ihnen so Einblicke in die Modellierung Ihrer (ursprünglichen) Daten geben.
quelle
Dies sieht aus wie eine asymmetrische Verteilung, die in beiden Richtungen längere Schwänze aufweist als die Normalverteilung.
Sie können die Langschwanzigkeit erkennen, da die beobachteten Punkte sowohl auf der linken als auch auf der rechten Seite extremer sind als unter der Normalverteilung erwartet (dh sie befinden sich jeweils unter und über der Linie).
Sie können die Asymmetrie erkennen, da im rechten Schwanz das Ausmaß, in dem die Punkte extremer sind als unter Normalverteilung zu erwarten, größer ist als im linken Schwanz.
Ich kann mir keine "Dosen" -Distributionen vorstellen, die diese Form haben, aber es ist nicht allzu schwer, eine Distribution mit den oben angegebenen Eigenschaften zu "kochen".
Hier ist ein simuliertes Beispiel (in
R
):Dieses Beispiel erzeugt ein ziemlich ähnliches qqplot und eine empirische CDF (qualitativ) zu dem, was Sie sehen:
quelle
Um herauszufinden, welche Verteilung am besten passt, würde ich zuerst einige potenzielle Zielverteilungen identifizieren: Ich würde über den realen Prozess nachdenken, der die Daten generiert hat, dann würde ich einige potenzielle Dichten an die Daten anpassen und ihre Loglikelihood-Scores vergleichen, um sie zu sehen welche potenzielle Verteilung am besten passt. Dies ist in R mit der Funktion fitdistr in der MASS-Bibliothek einfach.
Wenn Ihre Daten wie das z von Macro sind, dann:
Dies gibt die t-Verteilung als die beste Anpassung (von denen, die wir versucht haben) für die Makrodaten. Bestätigen Sie dies mit einigen qqplots mit den Parametern von fitdistr.
Vergleichen Sie dann dieses Diagramm mit den anderen Verteilungsanpassungen.
quelle