Wie ist der p-Wert des Kolmogorov-Smirnov-Tests (Python) zu interpretieren?

30

Ich habe zwei Beispiele, die ich testen möchte (mit Python), ob sie aus derselben Distribution stammen. Dazu benutze ich die statistische Funktion ks_2samp von scipy.stats. Es gibt 2 Werte zurück und ich finde Schwierigkeiten, sie zu interpretieren. Hilfe bitte!

meri
quelle

Antworten:

23

Wie Stijn ausführte, gibt der ks-Test eine D-Statistik und einen der D-Statistik entsprechenden p-Wert zurück. Die D-Statistik ist der absolute maximale Abstand (Supremum) zwischen den CDFs der beiden Proben. Je näher diese Zahl an 0 liegt, desto wahrscheinlicher ist es, dass die beiden Stichproben aus derselben Verteilung gezogen wurden. Schauen Sie sich die Wikipedia-Seite für den ks-Test an. Es bietet eine gute Erklärung: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

Der vom ks-Test zurückgegebene p-Wert hat dieselbe Interpretation wie andere p-Werte. Sie lehnen die Nullhypothese ab, dass die beiden Stichproben aus derselben Verteilung gezogen wurden, wenn der p-Wert unter Ihrem Signifikanzniveau liegt. Online finden Sie Tabellen zur Umrechnung der D-Statistik in einen p-Wert, wenn Sie an der Vorgehensweise interessiert sind.

CrossValidatedTrading
quelle
Vielen Dank für Ihre Antwort. Tatsächlich kenne ich die Bedeutung der 2 Werte D und P-Wert, aber ich kann die Beziehung zwischen ihnen nicht sehen. Wie kann ich das Signifikanzniveau definieren? Können Sie mir einen Link zur Umwandlung der D-Statistik in einen p-Wert geben?
Meri
Sicher, Tabelle zum Konvertieren von D stat in p-Wert: soest.hawaii.edu/wessel/courses/gg313/Critical_KS.pdf
CrossValidatedTrading
@CrossValidatedTrading: Ihr Link zur D-stat-to-p-Wert-Tabelle lautet jetzt 404.
james.garriss
@CrossValidatedTrading Sollte es eine Beziehung zwischen den p-Werten und den D-Werten aus dem 2-seitigen KS-Test geben? In einigen Fällen habe ich eine proportionale Beziehung gesehen, bei der die D-Statistik mit dem p-Wert zunimmt. Das scheint das Gegenteil zu sein: Zwei Kurven mit einem größeren Unterschied (größere D-Statistik) würden sich signifikanter unterscheiden (niedriger p-Wert) ...
Thomas Matthew
Wenn der p-Wert> 0,05 ist, sollten Ihre beiden Samples identisch und ausgeglichen sein.
User798719
5

Bei einer Google-Suche nach ks_2samp ist der erste Treffer diese Website. Darauf sehen Sie die Funktionsbeschreibung:

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value
Stijn
quelle
Die Parameter a und b sind meine Datensequenz, oder sollte ich die CDFs berechnen, um ks_2samp zu verwenden?
Meri
@meri: Es gibt ein Beispiel auf der Seite, auf die ich verlinkt habe.
Stijn