Ich habe ein Histogramm, eine Kerneldichte und eine angepasste Normalverteilung der Finanzprotokollrenditen, die in Verluste umgewandelt werden (Vorzeichen werden geändert), und ein normales QQ-Diagramm dieser Daten:
Das QQ-Diagramm zeigt deutlich, dass die Schwänze nicht richtig montiert sind. Wenn ich mir aber das Histogramm und die angepasste Normalverteilung (blau) anschaue, werden auch die Werte um 0.0 nicht richtig angepasst. Das QQ-Diagramm zeigt also, dass nur die Schwänze nicht richtig eingepasst sind, aber eindeutig die gesamte Verteilung nicht richtig eingepasst ist. Warum wird dies im QQ-Plot nicht angezeigt?
data-visualization
normality-assumption
histogram
qq-plot
Statistiker
quelle
quelle
Antworten:
+1 an @NickSabbe, denn 'die Handlung sagt dir nur, dass "etwas nicht stimmt"', was oft der beste Weg ist, eine qq-Handlung zu verwenden (da es schwierig sein kann, zu verstehen, wie man sie interpretiert). Es ist jedoch möglich zu lernen, wie man einen qq-Plot interpretiert, indem man darüber nachdenkt, wie man einen erstellt.
Sie sortieren zunächst Ihre Daten und zählen dann vom Mindestwert aufwärts, wobei Sie jeweils einen gleichen Prozentsatz annehmen. Wenn Sie zum Beispiel 20 Datenpunkte hatten, als Sie den ersten gezählt haben (das Minimum), würden Sie sich sagen: "Ich habe 5% meiner Daten gezählt." Sie würden diese Prozedur befolgen, bis Sie am Ende angelangt sind. An diesem Punkt wären Sie zu 100% durch Ihre Daten gegangen. Diese Prozentwerte können dann mit denselben Prozentwerten aus der entsprechenden theoretischen Normalen (dh der Normalen mit demselben Mittelwert und derselben SD) verglichen werden.
Wenn Sie diese zeichnen, werden Sie feststellen, dass Sie Probleme mit dem letzten Wert haben, nämlich 100%, denn wenn Sie 100% einer theoretischen Normalen durchlaufen haben, sind Sie im Unendlichen. Dieses Problem wird behoben, indem an jedem Punkt in Ihren Daten eine kleine Konstante zum Nenner hinzugefügt wird, bevor die Prozentsätze berechnet werden. Ein typischer Wert wäre die Addition von 1 zum Nenner. Sie würden beispielsweise Ihren ersten (von 20) Datenpunkt 1 / (20 + 1) = 5% und Ihren letzten 20 / (20 + 1) = 95% nennen. Nun , wenn Sie diese Punkte gegen einen entsprechenden theoretischen Normal plotten, haben Sie einen pp-Plot(zum Zeichnen von Wahrscheinlichkeiten gegen Wahrscheinlichkeiten). Ein solches Diagramm würde höchstwahrscheinlich die Abweichungen zwischen Ihrer Verteilung und einer Normalen in der Mitte der Verteilung anzeigen. Dies liegt daran, dass 68% einer Normalverteilung innerhalb von +/- 1 SD liegen, sodass PP-Plots dort eine ausgezeichnete Auflösung und an anderer Stelle eine schlechte Auflösung aufweisen. (Mehr zu diesem Punkt kann es hilfreich sein, meine Antwort hier zu lesen: PP-Diagramme vs. QQ-Diagramme .)
Oft sind wir am meisten besorgt darüber, was in den Enden unserer Distribution passiert. Um eine bessere Auflösung zu bekommen dort (und damit schlechter Auflösung in der Mitte), können wir ein Konstrukt qq-Plot statt. Wir tun dies, indem wir unsere Sätze von Wahrscheinlichkeiten nehmen und sie durch die Umkehrung der CDF der Normalverteilung leiten (dies ist wie das Lesen der Z-Tabelle auf der Rückseite eines Statistikbuchs rückwärts - Sie lesen eine Wahrscheinlichkeit ein und lesen eine Z- Ergebnis). Das Ergebnis dieser Operation sind zwei Mengen von Quantilen , die auf ähnliche Weise gegeneinander geplottet werden können.
@whuber ist richtig, dass die Referenzlinie anschließend (normalerweise) gezeichnet wird, indem die am besten passende Linie durch die mittleren 50% der Punkte (dh vom ersten Quartil bis zum dritten) ermittelt wird. Dies geschieht, um die Darstellung besser lesbar zu machen. Mit dieser Linie können Sie den Plot so interpretieren, dass er Ihnen zeigt, ob die Quantile Ihrer Verteilung von einer echten Normalen progressiv abweichen, wenn Sie sich in die Schwänze bewegen. (Beachten Sie, dass die Position der weiter vom Zentrum entfernten Punkte nicht wirklich unabhängig von der Position der näheren Punkte ist. Die Tatsache, dass in Ihrem spezifischen Histogramm die Schwänze nach dem Unterschied der Schultern zusammenzukommen scheinen, bedeutet also nicht, dass die Quantile unterschiedlich sind sind jetzt gleich wieder.)
quelle
Einfach ausgedrückt: Das QQ-Diagramm zeigt die Rangfolge in der empirischen Verteilung im Vergleich zur erwarteten Verteilung. In Ihrem Fall (und das ist tatsächlich ziemlich oft der Fall; immer mit symmetrischen Verteilungen) sind die Ränge in der Nähe der Mitte zwischen erwartet und empirisch ähnlich, daher liegt der QQ-Plot in der Nähe der Linie dort.
Es ist nicht so einfach, die "seltsamen" Beobachtungen anhand ihrer Position in einem QQ-Diagramm zu identifizieren: Das Diagramm sagt Ihnen nur, dass "etwas nicht stimmt", und wenn Sie mehr über die Daten / Verteilungen wissen, können Sie es herausfinden wo die Probleme sind.
quelle
R
, die Anpassung basiert auf einigen moderaten Perzentilen, wie z. B. Quartilen. Offensichtlich basierte die Anpassung an das Histogramm auf passenden Momenten.)