Quantifizierung des QQ-Diagramms

10

Das qq-Diagramm kann verwendet werden, um zu visualisieren, wie ähnlich zwei Verteilungen sind (z. B. um die Ähnlichkeit einer Verteilung mit einer Normalverteilung zu visualisieren, aber auch um zwei Artibrary-Datenverteilungen zu vergleichen). Gibt es Statistiken, die ein objektiveres numerisches Maß erzeugen, das ihre Ähnlichkeit darstellt (vorzugsweise in normalisierter Form (0 <= x <= 1))? Der Gini-Koeffizient wird beispielsweise in der Wirtschaft verwendet, wenn mit Lorenz-Kurven gearbeitet wird. Gibt es etwas für QQ-Plots?

Ausreichend
quelle

Antworten:

8

Wie ich als Antwort auf Ihren Kommentar zu Ihrer vorherigen Frage sage, sehen Sie sich den Kolmogorov-Smirnov-Test an. Als Statistik wird der maximale absolute Abstand zwischen zwei kumulativen Verteilungsfunktionen (alternativ als maximaler absoluter Abstand der Kurve im QQ-Diagramm von der 45-Grad-Linie gedacht) verwendet. Der KS-Test kann in R mit dem Befehl ks.test()in der 'stats'-Bibliothek gefunden werden. Hier finden Sie weitere Informationen zur Verwendung von R.

Charlie
quelle
Beachten Sie, dass (so wie ich es verstehe) der KS-Test zum Testen empirischer Daten gegen eine A-priori-Verteilung dient. Es ist weder zum Vergleich zweier empirischer Verteilungen geeignet, noch empirische Daten mit einer A-priori-Verteilung zu vergleichen, deren Parameterwerte aus den empirischen Daten geschätzt wurden.
Mike Lawrence
4
@Mike, Sie können den KS-Test verwenden, um zwei empirisch abgeleitete Verteilungen zu vergleichen. Siehe Charlies vorherige Antwort und Kommentare stats.stackexchange.com/questions/2918/lorenz-curve-qq-plot/…
Andy W
@Andy, Ah, ich habe Punkt 3 aus itl.nist.gov/div898/handbook/eda/section3/eda35g.htm als Folge davon genommen, dass man zwei empirische CDFs nicht vergleichen kann, aber ich sehe, dass meine Annahme dies nicht war angemessen. Gut zu wissen, danke!
Mike Lawrence
2
Punkt 3 bedeutet jedoch, dass Sie KS nicht verwenden können, um zu testen, ob Ihre Daten aus einer Normalverteilung stammen, wobei Mittelwert und SD aus den Daten geschätzt werden . Dies ist ein beliebter Fehler unter den Psychologiestudenten, die ich treffe.
Stephan Kolassa
1
(+1) Der übergeordnete Aspekt dieser Antwort ist, dass die KS-Statistik direkt aus dem QQ-Diagramm abgelesen werden kann.
whuber
2

Ich habe kürzlich die Korrelation zwischen der empirischen CDF und der angepassten CDF verwendet, um die Anpassungsgüte zu quantifizieren, und ich frage mich, ob dieser Ansatz auch im aktuellen Fall nützlich sein könnte, der meines Wissens den Vergleich zweier empirischer Datensätze beinhaltet. Eine Interpolation kann erforderlich sein, wenn zwischen den Sätzen eine unterschiedliche Anzahl von Beobachtungen besteht.

Mike Lawrence
quelle
Ihr Papier enthält sehr schöne Zahlen :)
chl
@chi: Sie wurden alle in R mit ggplot2 erstellt. Es ist ein fantastisches Grafikproduktionssystem!
Mike Lawrence
Was meinst du mit angepasster CDF?
Ampleforth
@Ampleforth, in diesem Artikel habe ich eine Verteilung an empirische Daten angepasst, also mit "angepasster CDF" die theoretische CDF der angepassten Verteilung gemeint. Entschuldigung, ich sehe, wie ich klarer hätte sein können!
Mike Lawrence
Oh, bitte entschuldige dich nicht. Mein Mangel an Statistiken ist ziemlich groß und das ist das einzige Problem hier;) Außerdem habe ich Ihre Zeitung nicht gelesen, sondern nur durch Ihre Grafiken geschaut, die mir sehr gut gefallen haben.
Ampleforth
1

Ich würde sagen, dass der mehr oder weniger kanonische Weg, zwei Verteilungen zu vergleichen, ein Chi-Quadrat-Test wäre. Die Statistik ist jedoch nicht normalisiert und hängt davon ab, wie Sie die Fächer auswählen. Der letzte Punkt kann natürlich als Merkmal und nicht als Fehler angesehen werden: Wenn Sie die Behälter entsprechend auswählen, können Sie die Ähnlichkeit in den Schwänzen genauer untersuchen als beispielsweise in der Mitte der Verteilungen.

Stephan Kolassa
quelle
1

Ein ziemlich direktes Maß für die "Nähe" zur Linearität in einem QQ-Diagramm wäre eine Shapiro-Francia-Teststatistik (die eng mit der bekannteren Shapiro-Wilk verwandt ist und als einfache Annäherung daran angesehen werden kann).

Die Shapiro-Francia-Statistik ist die quadratische Korrelation zwischen den geordneten Datenwerten und der erwarteten Statistik normaler Ordnung (manchmal als "theoretische Quantile" bezeichnet) - das heißt, es sollte das Quadrat der Korrelation sein, das Sie in der Darstellung sehen, ziemlich direkt zusammenfassende Maßnahme.

(Der Shapiro-Wilk ist ähnlich, berücksichtigt jedoch Korrelationen zwischen den Auftragsstatistiken. Er hat eine ähnliche Interpretation wie der Shapiro-Francia und ist genauso nützlich wie eine Zusammenfassung des QQ-Diagramms.)

In beiden Fällen könnte für eine Zusammenfassung einer einzelnen Zahl dessen, was das QQ-Diagramm zeigt, eine davon eine geeignete Möglichkeit sein, das Diagramm zusammenzufassen.

1W

n1W)nn(1W)nnnlog(n)log(n)n

Glen_b - Monica neu starten
quelle