Wie ist der p-Wert des Kolmogorov-Smirnov-Tests (Python) zu interpretieren?
30
Ich habe zwei Beispiele, die ich testen möchte (mit Python), ob sie aus derselben Distribution stammen. Dazu benutze ich die statistische Funktion ks_2samp von scipy.stats. Es gibt 2 Werte zurück und ich finde Schwierigkeiten, sie zu interpretieren. Hilfe bitte!
Wie Stijn ausführte, gibt der ks-Test eine D-Statistik und einen der D-Statistik entsprechenden p-Wert zurück. Die D-Statistik ist der absolute maximale Abstand (Supremum) zwischen den CDFs der beiden Proben. Je näher diese Zahl an 0 liegt, desto wahrscheinlicher ist es, dass die beiden Stichproben aus derselben Verteilung gezogen wurden. Schauen Sie sich die Wikipedia-Seite für den ks-Test an. Es bietet eine gute Erklärung: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
Der vom ks-Test zurückgegebene p-Wert hat dieselbe Interpretation wie andere p-Werte. Sie lehnen die Nullhypothese ab, dass die beiden Stichproben aus derselben Verteilung gezogen wurden, wenn der p-Wert unter Ihrem Signifikanzniveau liegt. Online finden Sie Tabellen zur Umrechnung der D-Statistik in einen p-Wert, wenn Sie an der Vorgehensweise interessiert sind.
Vielen Dank für Ihre Antwort. Tatsächlich kenne ich die Bedeutung der 2 Werte D und P-Wert, aber ich kann die Beziehung zwischen ihnen nicht sehen. Wie kann ich das Signifikanzniveau definieren? Können Sie mir einen Link zur Umwandlung der D-Statistik in einen p-Wert geben?
@CrossValidatedTrading: Ihr Link zur D-stat-to-p-Wert-Tabelle lautet jetzt 404.
james.garriss
@CrossValidatedTrading Sollte es eine Beziehung zwischen den p-Werten und den D-Werten aus dem 2-seitigen KS-Test geben? In einigen Fällen habe ich eine proportionale Beziehung gesehen, bei der die D-Statistik mit dem p-Wert zunimmt. Das scheint das Gegenteil zu sein: Zwei Kurven mit einem größeren Unterschied (größere D-Statistik) würden sich signifikanter unterscheiden (niedriger p-Wert) ...
Thomas Matthew
Wenn der p-Wert> 0,05 ist, sollten Ihre beiden Samples identisch und ausgeglichen sein.
User798719
5
Bei einer Google-Suche nach ks_2samp ist der erste Treffer diese Website. Darauf sehen Sie die Funktionsbeschreibung:
Thisis a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.Parameters:
a, b : sequence of 1-D ndarrays
two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different
Returns:
D : float, KS statistic
p-value : float, two-tailed p-value
Bei einer Google-Suche nach ks_2samp ist der erste Treffer diese Website. Darauf sehen Sie die Funktionsbeschreibung:
quelle