Kann ich mit Kolmogorov-Smirnov zwei empirische Verteilungen vergleichen?

16

Ist es in Ordnung, mit dem Kolmogorov-Smirnov-Anpassungstest zwei empirische Verteilungen zu vergleichen, um festzustellen, ob sie aus derselben zugrunde liegenden Verteilung stammen, anstatt eine empirische Verteilung mit einer vorgegebenen Referenzverteilung zu vergleichen?

Lassen Sie mich versuchen, dies anders zu stellen. Ich sammle N Proben von einer Verteilung an einem Ort. Ich sammle M Proben an einem anderen Ort. Die Daten sind fortlaufend (jede Stichprobe ist beispielsweise eine reelle Zahl zwischen 0 und 10), aber nicht normalverteilt. Ich möchte testen, ob diese N + M-Stichproben alle aus derselben zugrunde liegenden Verteilung stammen. Ist es sinnvoll, den Kolmogorov-Smirnov-Test für diesen Zweck zu verwenden?

F0NF1MF0F1D=supx|F0(x)F1(x)|D

(Ich habe an anderer Stelle gelesen, dass der Kolmogorov-Smirnov-Test für die Anpassungsgüte für diskrete Verteilungen nicht gültig ist , aber ich gebe zu, dass ich nicht verstehe, was dies bedeutet oder warum es wahr sein könnte. Bedeutet das, dass mein vorgeschlagener Ansatz schlecht ist? )

Oder empfehlen Sie stattdessen etwas anderes?

DW
quelle
Ich frage mich, ob man basierend auf @ Glen_bs Kommentaren hier ( stats.stackexchange.com/questions/362/… ) den KS-Test nicht verwenden sollte, um empirische Verteilungen zu vergleichen, da der KS-Test nicht verwendet werden sollte, wenn Parameter geschätzt werden (? ).
Russellpierce

Antworten:

19

Das ist in Ordnung und ganz vernünftig. Es wird als Kolmogorov-Smirnov-Test mit zwei Stichproben bezeichnet . Es ist immer sinnvoll, den Unterschied zwischen zwei Verteilungsfunktionen anhand der Supnorm zu messen. Um jedoch einen formalen Test durchzuführen, müssen Sie die Verteilung unter der Hypothese kennen, dass die beiden Stichproben unabhängig sind und sich jeweils von derselben zugrunde liegenden Verteilung unterscheiden. Um sich auf die übliche asymptotische Theorie verlassen zu können, benötigen Sie die Kontinuität der zugrunde liegenden gemeinsamen Verteilung (nicht der empirischen Verteilungen). Weitere Informationen finden Sie auf der oben verlinkten Wikipedia-Seite.

In R können Sie den verwenden ks.test, der exakte Werte für kleine Stichprobengrößen berechnet . p

NRH
quelle
8
In R können Sie auch einen KS Test Bootstrap sekhon.berkeley.edu/matching/ks.boot.html , die die Kontinuität Anforderung entledigen
Dr G
5
Weitere Informationen, wenn Sie Matlab
Artem Kaznatcheev