Ich verwende den Kolmogorov-Smirnov-Test mit zwei Stichproben, um Verteilungen zu vergleichen, und ich habe festgestellt, dass häufig ein Wert als Teststatistik angegeben wird. Wie wird dieser Wert bestimmt? Ich weiß, dass es die Wahrscheinlichkeit ist, ein Ergebnis zu erhalten, das mindestens so groß ist wie das erhaltene, aber wie wird dieser Wert bestimmt, wenn dies ein nichtparametrischer Test ist? Das heißt, wir können keine Gaußschen Schwankungen in der Verteilung annehmen und den Wert mit einem Test berechnen .
Vielen Dank!
kolmogorov-smirnov
C. Reed
quelle
quelle
Antworten:
Unter der Nullhypothese ist die asymptotische Verteilung der Kolmogorov-Smirnov-Statistik mit zwei Stichproben die Kolmogorov-Verteilung mit CDF
Die Werte können aus dieser CDF berechnet werden - siehe Abschnitt 4 und Abschnitt 2 der Wikipedia-Seite zum Kolmogorov-Smirnov-Test.p
Sie scheinen zu sagen, dass eine nicht parametrische Teststatistik keine Verteilung haben sollte - das ist nicht der Fall - was diesen Test nicht parametrisch macht, ist, dass die Verteilung der Teststatistik nicht davon abhängt, welche kontinuierliche Wahrscheinlichkeitsverteilung die Originaldaten sind komme aus. Beachten Sie, dass der KS-Test diese Eigenschaft auch für endliche Stichproben aufweist, wie durch @cardinal in den Kommentaren gezeigt.
quelle
Der p-Wert von beispielsweise 0,80 impliziert, dass 80% der Proben der Größe n von Proben aus der Population eine D-Statistik aufweisen, die geringer ist als die aus dem Test erhaltene. Dies wird basierend auf der D-Statistik des KS-Tests berechnet, die den maximalen Abstand zwischen den CDFs der theoretischen und empirischen Verteilung für die gegebene Verteilung misst, anhand derer die Probe bewertet wird.
Beachten Sie, dass nur der Wert D * SQRT (Stichprobengröße) eine Kolmogrov-Verteilung hat und nicht D selbst. Wenn Sie den p-Wert bei gegebenem D-Wert manuell berechnen möchten, können Sie die im Internet verfügbaren veröffentlichten Tabellen für die Kolomogrow-Verteilung heranziehen. Dies ist auch der Wert, der in Paketen wie R angegeben ist
quelle