Ich arbeite mit einem kleinen Datensatz (21 Beobachtungen) und habe den folgenden normalen QQ-Plot in R:
Was kann ich angesichts der Tatsache, dass die Darstellung keine Normalität unterstützt, auf die zugrunde liegende Verteilung schließen? Es scheint mir, dass eine Verteilung, die mehr nach rechts geneigt ist, besser passt, stimmt das? Welche weiteren Schlussfolgerungen können wir aus den Daten ziehen?
Antworten:
Wenn die Werte entlang einer Linie liegen, hat die Verteilung die gleiche Form (bis zu Ort und Maßstab) wie die theoretische Verteilung, die wir angenommen haben.
Lokales Verhalten : Wenn wir sortierte Stichprobenwerte auf der y-Achse und (ungefähre) erwartete Quantile auf der x-Achse betrachten, können wir feststellen, wie sich die Werte in einigen Abschnitten des Diagramms lokal von einem linearen Gesamttrend unterscheiden Die Werte sind mehr oder weniger konzentriert als die theoretische Verteilung in diesem Abschnitt eines Diagramms annehmen würde:
Wie wir sehen, nehmen weniger konzentrierte Punkte mehr und mehr zu, als angenommen, dass sie weniger schnell zunehmen, als es eine lineare Beziehung insgesamt vermuten lässt, und entsprechen im Extremfall einer Lücke in der Dichte der Probe (zeigt sich als nahezu vertikaler Sprung). oder eine Spitze konstanter Werte (horizontal ausgerichtete Werte). Dies ermöglicht es uns, einen schweren Schwanz oder einen leichten Schwanz zu erkennen, und daher eine Schiefe, die größer oder kleiner als die theoretische Verteilung ist, und so weiter.
Gesamterscheinung:
So sehen QQ-Diagramme (für bestimmte Verteilungsoptionen) im Durchschnitt aus :
Aber Zufälligkeit macht die Dinge eher undeutlich, besonders bei kleinen Stichproben:
Möglicherweise ist der Vorschlag hier auch hilfreich, wenn Sie entscheiden möchten, wie sehr Sie sich über eine bestimmte Krümmung oder Verwackelung Gedanken machen sollen.
Ein geeigneterer Leitfaden für die Interpretation im Allgemeinen würde auch Anzeigen bei kleineren und größeren Stichprobengrößen einschließen.
quelle
Ich habe eine glänzende App erstellt, um die Interpretation eines normalen QQ-Diagramms zu erleichtern. Versuchen Sie diesen Link.
In dieser App können Sie die Skewness, Tailedness (Kurtosis) und Modalität der Daten anpassen und sehen, wie sich das Histogramm und der QQ-Plot ändern. Umgekehrt können Sie es auf eine Weise verwenden, die dem Muster des QQ-Diagramms entspricht, und dann überprüfen, wie die Schiefe usw. sein sollte.
Weitere Einzelheiten finden Sie in der Dokumentation.
Ich habe festgestellt, dass ich nicht genügend Speicherplatz habe, um diese App online bereitzustellen. Als Anforderung, stelle ich alle drei Code Brocken:
sample.R
,server.R
undui.R
hier. Diejenigen, die daran interessiert sind, diese App auszuführen, können diese Dateien einfach in Rstudio laden und dann auf Ihrem eigenen PC ausführen.Die
sample.R
Datei:Die
server.R
Datei:Zum Schluss die
ui.R
Datei:quelle
Eine sehr hilfreiche (und intuitive) Erklärung gibt prof. Philippe Rigollet im MIT MOOC Kurs: 18.650 Statistics for Applications, Herbst 2016 - siehe Video in 45 Minuten
https://www.youtube.com/watch?v=vMaKx9fmJHE
Ich habe sein Diagramm grob kopiert, das ich in meinen Notizen aufbewahre, da ich es sehr nützlich finde.
In Beispiel 1 im oberen linken Diagramm sehen wir, dass das empirische (oder Stichproben-) Quantil im rechten Ende kleiner als das theoretische Quantil ist
Qe <Qt
quelle
Da dieser Thread als endgültiges "Wie interpretiere ich den normalen QQ-Plot?" - StackExchange-Post angesehen wurde, möchte ich die Leser auf eine nette, präzise mathematische Beziehung zwischen dem normalen QQ-Plot und der Statistik über die überschüssige Kurtosis hinweisen.
Hier ist es:
https://stats.stackexchange.com/a/354076/102879
Eine kurze (und zu vereinfachte) Zusammenfassung lautet wie folgt (genauere mathematische Aussagen finden Sie unter dem Link): Tatsächlich können Sie die überschüssige Kurtosis im normalen qq-Diagramm als den durchschnittlichen Abstand zwischen den Datenquantilen und den entsprechenden theoretischen Normalquantilen, gewichtet, sehen nach Entfernung von Daten zum Mittelwert. Wenn die absoluten Werte in den Schwänzen des qq-Diagramms im Allgemeinen stark von den erwarteten Normalwerten in den extremen Richtungen abweichen, liegt eine positive Kurtosisüberschreitung vor.
Da Kurtosis der Durchschnitt dieser Abweichungen ist, gewichtet nach Abständen vom Mittelwert, haben die Werte in der Nähe der Mitte des qq-Diagramms nur geringen Einfluss auf die Kurtosis. Daher ist eine übermäßige Kurtosis nicht mit dem Verteilungszentrum verbunden, in dem sich der "Peak" befindet. Vielmehr wird eine überschüssige Kurtosis fast ausschließlich durch den Vergleich der Schwänze der Datenverteilung mit der Normalverteilung bestimmt.
quelle