QQ-Plot in Python

11

Ich habe ein qq-Diagramm mit dem folgenden Code erstellt. Ich weiß, dass qq plot verwendet wird, um zu überprüfen, ob die Daten normal verteilt sind oder nicht. Meine Frage ist, was die Beschriftungen der x- und y-Achse im qq-Diagramm anzeigen und was dieser r-Quadrat-Wert anzeigt.

  N = 1200
  p = 0.53
  q = 1000
  obs = np.random.binomial(N, p, size = q)/N

import scipy.stats as stats

z = (obs-np.mean(obs))/np.std(obs)

stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

Geben Sie hier die Bildbeschreibung ein

Ich weiß, dass es bereits eine Diskussion über qq plot gibt , aber ich konnte das Konzept nicht verstehen, obwohl ich diese Diskussion durchlaufen habe.

Elizabeth Susan Joseph
quelle
4
R.2R.2R.2
R.2R.2R.2R.2
R.2R.2
Sind Sie sicher, dass Sie ein QQ-Diagramm zeichnen? help(probplot)Zustände: probplotErzeugt ein Wahrscheinlichkeitsdiagramm, das nicht mit einem QQ- oder PP-Diagramm verwechselt werden sollte.
Abukaj

Antworten:

9

Maconds Antwort ist korrekt, aber aus dem ursprünglichen Beitrag dachte ich, es könnte hilfreich sein, die Aussprache ein wenig zu vereinfachen.

Ein QQ-Plot steht für ein "Quantil-Quantil-Plot" .

Es ist ein Diagramm, in dem die Achsen absichtlich transformiert werden, um eine normale (oder Gaußsche) Verteilung in einer geraden Linie erscheinen zu lassen . Mit anderen Worten, eine vollkommen normale Verteilung würde genau einer Linie mit Steigung = 1 und Achsenabschnitt = 0 folgen.

Wenn das Diagramm nicht - ungefähr - eine gerade Linie zu sein scheint, ist die zugrunde liegende Verteilung daher nicht normal. Wenn es sich biegt, gibt es zum Beispiel mehr "Überflieger" -Werte als erwartet. (Der Link enthält weitere Beispiele.)


  1. Was bedeuten die x & y-Beschriftungen?

Die theoretischen Quantile sind entlang der x-Achse angeordnet. Das heißt, die x-Achse ist nicht Ihre Daten , sondern lediglich eine Erwartung, wo sich Ihre Daten hätten befinden sollen, wenn sie normal wären.

Die tatsächlichen Daten sind entlang der y-Achse aufgetragen.

Die Werte sind die Standardabweichungen vom Mittelwert. Ist 0also der Mittelwert der Daten, 1liegt 1 Standardabweichung darüber usw. Dies bedeutet zum Beispiel, dass 68.27%alle Ihre Daten zwischen -1 und 1 liegen sollten, wenn Sie eine Normalverteilung haben.

  1. R.2

R.2R.2R.2R.2


Schließlich gibt es ein ähnliches Diagramm, das selten verwendet wird und als pp-Diagramm bezeichnet wird . Dieses Diagramm ist nützlicher, wenn Sie sich darauf konzentrieren möchten, wo der Großteil der Daten liegt, anstatt auf die Extreme.

Mike Williamson
quelle
1
Das Wort schief ist hier nicht die beste Wahl: Ich würde sagen transformiert .
Nick Cox
1

Die Y-Achse zeigt Werte der beobachteten Verteilung und die X-Achse Werte der theoretischen Verteilung.

Jeder Punkt ist ein Quantil. Nehmen wir an, wenn es 100 Punkte auf dem Plot gibt, gibt der erste Punkt (der Punkt unten links) eine Obergrenze für ein Intervall an, und wenn er vom kleinsten zum größten geordnet wird, das kleinste 1 Prozent der Datenpunkte des Die entsprechende Verteilung bleibt in diesem Intervall. In ähnlicher Weise ist der 2. Punkt die Obergrenze eines Intervalls, in dem sich die kleinsten 2 Prozent der Datenpunkte aus der Verteilung befinden. Dies ist das Konzept des Quantils. Es ist jedoch nicht auf einen Fall mit 100 Intervallen beschränkt, es ist ein allgemeines Konzept und Sie können so viele Intervalle wie möglich haben, dann werden Sie so viele Quantile haben, die die Grenzen der Intervalle beschreiben.

- - , -3,5] und auch das kleinste 1 Prozent der Datenpunkte aus der theoretischen Verteilung zwischen (- liegt.- -, -3,2]. Auf diese Weise können Sie die Positionen der Position jeder Intervallgrenze in beiden Verteilungen anzeigen.

Ich habe in meiner Antwort Datenpunkte verwendet, wie geordnete Datenpunkte usw. Dies bezieht sich auf diskrete Verteilungen, aber das Konzept kann für kontinuierliche Verteilungen verallgemeinert werden.

R.2ist ein Maß dafür, wie gut die Punkte auf die rote Linie passen. Wenn beide Achsen die gleiche Verteilung hätten, wären alle Punkte genau auf der Linie undR.2 würde gleich 1 sein. Sie können mehr darüber in jedem Text erfahren, der die lineare Regression erklärt.

Macond
quelle
3
Die Texte zur linearen Regression erklären jedoch nicht, wie sie zu interpretieren sind R.2wenn die Punkte so stark eingeschränkt sind wie die auf einem QQ-Plot! Insbesondere müssen die Punkte auf einem QQ-Diagramm monoton nicht abnehmend sein. Dies zwingtR.2außergewöhnlich hoch sein, egal was passiert.
whuber