Kolmogorov-Smirnov-Test: Die Statistik des p-Werts und des ks-Tests nimmt mit zunehmender Stichprobengröße ab

11

Warum nehmen p-Werte und ks-Teststatistiken mit zunehmender Stichprobengröße ab? Nehmen Sie diesen Python-Code als Beispiel:

import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
  x = norm(0, 4).rvs(n)
  y = norm(0, 4.1).rvs(n)
  print ks_2samp(x, y)

Die Ergebnisse sind:

Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)

Intuitiv verstehe ich, dass mit zunehmendem n der Test "sicherer" ist, dass die beiden Verteilungen unterschiedlich sind. Wenn die Stichprobengröße jedoch sehr groß ist, worum geht es bei Ähnlichkeitstests wie diesem und dem Anderson-Darling-Test oder dem t-Test, denn in solchen Fällen, in denen n sehr groß ist, werden die Verteilungen immer als gegeben befunden "deutlich anders!? Jetzt frage ich mich, was um alles in der Welt der Punkt der p-Werte ist. Es hängt so sehr von der Stichprobengröße ab ... Wenn p> 0,05 ist und Sie möchten, dass es niedriger ist, erhalten Sie einfach mehr Daten. und wenn p <0,05 ist und Sie möchten, dass es höher ist, entfernen Sie einfach einige Daten.

Wenn die beiden Verteilungen identisch wären, wäre die ks-Teststatistik 0 und der p-Wert 1. In meinem Beispiel deutet die ks-Teststatistik jedoch darauf hin, dass die Verteilungen mit zunehmender Zeit immer ähnlicher werden (abnimmt), wenn n zunimmt. , aber je nach p-Wert werden sie mit der Zeit immer unterschiedlicher (nehmen auch ab).

Oliver Angelil
quelle
Siehe Ist Normalitätstest "im Wesentlichen nutzlos"? . Beachten Sie, dass das, was Sie sagen, nicht ganz stimmt: Wenn die Verteilungen tatsächlich identisch sind, bleibt die Verteilung des p-Werts gleichmäßig, selbst wenn Sie die Stichprobengröße erhöhen.
Scortchi - Monica wieder einsetzen
2
Ich hatte ein Problem, das sich auf dieses Problem beziehen könnte: stats.stackexchange.com/questions/301628/… Dies hat mich sehr skeptisch gegenüber diesem Test gemacht.
Aleksandar Jovanovic
Mit genügend Daten können Sie zwar zeigen, dass beliebig kleine Effektgrößen ungleich Null statistisch signifikant sind. Der Schlüssel hier ist, die Unterscheidung zwischen statistischer Signifikanz und praktischer Signifikanz zu erkennen. Um Homer Simpson falsch zu zitieren: "Sie können p-Werte verwenden, um alles zu beweisen, was auch nur annähernd wahr ist."
Nuclear Wang

Antworten:

4

Die Teststatistik nimmt ab, da Ihre Verteilungen sehr ähnlich sind und größere Stichproben weniger Rauschen aufweisen. Wenn Sie die beiden von Ihnen verwendeten theoretischen Verteilungen vergleichen, sollten Sie die "wahre" KS-Statistik erhalten. Wenn Sie weitere Daten hinzufügen, sollte sich Ihre geschätzte KS-Statistik diesem wahren Wert annähern. Selbst wenn Ihre KS-Statistik abnimmt, steigt Ihr Vertrauen, dass es sich tatsächlich um zwei verschiedene Verteilungen handelt (dh der p-Wert nimmt ab), da Sie mehr Vertrauen in Ihre Schätzungen der einzelnen Verteilungen haben.

adam.r
quelle
3

p

pp

Maarten Buis
quelle
Vielen Dank für den Hinweis, aber ich bin mir immer noch nicht sicher, warum die ks-Test-Statistik das größere n verringert.
Oliver Angelil