Ich habe ein qq-Diagramm mit dem folgenden Code erstellt. Ich weiß, dass qq plot verwendet wird, um zu überprüfen, ob die Daten normal verteilt sind oder nicht. Meine Frage ist, was die Beschriftungen der x- und y-Achse im qq-Diagramm anzeigen und was dieser r-Quadrat-Wert anzeigt.
N = 1200
p = 0.53
q = 1000
obs = np.random.binomial(N, p, size = q)/N
import scipy.stats as stats
z = (obs-np.mean(obs))/np.std(obs)
stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()
Ich weiß, dass es bereits eine Diskussion über qq plot gibt , aber ich konnte das Konzept nicht verstehen, obwohl ich diese Diskussion durchlaufen habe.
probability
normal-distribution
mathematical-statistics
descriptive-statistics
qq-plot
Elizabeth Susan Joseph
quelle
quelle
help(probplot)
Zustände:probplot
Erzeugt ein Wahrscheinlichkeitsdiagramm, das nicht mit einem QQ- oder PP-Diagramm verwechselt werden sollte.Antworten:
Maconds Antwort ist korrekt, aber aus dem ursprünglichen Beitrag dachte ich, es könnte hilfreich sein, die Aussprache ein wenig zu vereinfachen.
Ein QQ-Plot steht für ein "Quantil-Quantil-Plot" .
Es ist ein Diagramm, in dem die Achsen absichtlich transformiert werden, um eine normale (oder Gaußsche) Verteilung in einer geraden Linie erscheinen zu lassen . Mit anderen Worten, eine vollkommen normale Verteilung würde genau einer Linie mit Steigung = 1 und Achsenabschnitt = 0 folgen.
Wenn das Diagramm nicht - ungefähr - eine gerade Linie zu sein scheint, ist die zugrunde liegende Verteilung daher nicht normal. Wenn es sich biegt, gibt es zum Beispiel mehr "Überflieger" -Werte als erwartet. (Der Link enthält weitere Beispiele.)
Die theoretischen Quantile sind entlang der x-Achse angeordnet. Das heißt, die x-Achse ist nicht Ihre Daten , sondern lediglich eine Erwartung, wo sich Ihre Daten hätten befinden sollen, wenn sie normal wären.
Die tatsächlichen Daten sind entlang der y-Achse aufgetragen.
Die Werte sind die Standardabweichungen vom Mittelwert. Ist
0
also der Mittelwert der Daten,1
liegt 1 Standardabweichung darüber usw. Dies bedeutet zum Beispiel, dass68.27%
alle Ihre Daten zwischen -1 und 1 liegen sollten, wenn Sie eine Normalverteilung haben.Schließlich gibt es ein ähnliches Diagramm, das selten verwendet wird und als pp-Diagramm bezeichnet wird . Dieses Diagramm ist nützlicher, wenn Sie sich darauf konzentrieren möchten, wo der Großteil der Daten liegt, anstatt auf die Extreme.
quelle
Die Y-Achse zeigt Werte der beobachteten Verteilung und die X-Achse Werte der theoretischen Verteilung.
Jeder Punkt ist ein Quantil. Nehmen wir an, wenn es 100 Punkte auf dem Plot gibt, gibt der erste Punkt (der Punkt unten links) eine Obergrenze für ein Intervall an, und wenn er vom kleinsten zum größten geordnet wird, das kleinste 1 Prozent der Datenpunkte des Die entsprechende Verteilung bleibt in diesem Intervall. In ähnlicher Weise ist der 2. Punkt die Obergrenze eines Intervalls, in dem sich die kleinsten 2 Prozent der Datenpunkte aus der Verteilung befinden. Dies ist das Konzept des Quantils. Es ist jedoch nicht auf einen Fall mit 100 Intervallen beschränkt, es ist ein allgemeines Konzept und Sie können so viele Intervalle wie möglich haben, dann werden Sie so viele Quantile haben, die die Grenzen der Intervalle beschreiben.
Ich habe in meiner Antwort Datenpunkte verwendet, wie geordnete Datenpunkte usw. Dies bezieht sich auf diskrete Verteilungen, aber das Konzept kann für kontinuierliche Verteilungen verallgemeinert werden.
quelle