Ist der Kolmogorov-Smirnov-Test mit diskreten Verteilungen gültig?

29

Ich vergleiche eine Stichprobe und überprüfe, ob sie sich als diskrete Verteilung verteilt. Ich bin mir jedoch nicht sicher, ob Kolmogorov-Smirnov zutrifft. Wikipedia scheint das nicht zu implizieren. Wenn nicht, wie kann ich die Verteilung der Stichprobe testen?

Wilhelm
quelle
+1 Ein schönes Beispiel für die versehentliche Anwendung des KS-Tests auf Daten mit (vielen) Bindungen finden Sie auf der Hilfeseite für ein Excel-Statistik-Add-On unter real-statistics.com/non-parametric-tests/goodness-of-fit- Tests /… . Das Ergebnis ist aus vielen Gründen falsch. Vorbehalt Lektor!
Whuber
KS-Tests für diskrete Nullverteilungen sind verfügbar: en.wikipedia.org/wiki/…
Astrid

Antworten:

14

Dies gilt nicht für diskrete Verteilungen. Siehe zum Beispiel http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm .

Gibt es einen Grund, warum Sie keinen Chi-Quadrat-Anpassungstest verwenden können? Weitere Informationen finden Sie unter http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm .

PeterR
quelle
Entschuldigung für das Eindringen, aber ich verstehe nicht wirklich, warum es nur für die kontinuierliche Verteilung (KS und andere Validierungstests) gilt. Kann mir jemand diese Tatsache erklären?
Maurizio
6
@ Maurizio - Die KS-Teststatistik hat unter allen kontinuierlichen Verteilungen die gleiche Verteilung , aber wenn die tatsächliche Verteilung nicht kontinuierlich ist und man versucht, einen Level- Test unter der Annahme zu erstellen, dass die Verteilung kontinuierlich ist, dann die tatsächliche Ebene des Tests mit weniger als . (vgl. Lehmann & Romano Testing Statistical Hypotheses, 3. Auflage , S. 584). Sie können immer noch einen Level Test basierend auf der KS-Statistik durchführen, aber Sie müssen eine andere Methode finden, um den kritischen Wert zu erhalten, z. B. durch Simulation. ααα
DavidR
Es gibt einen diskreten KS-Test: stat.yale.edu/~jay/EmersonMaterials/DiscreteGOF.pdf
Astrid
7

Wie so oft in der Statistik kommt es darauf an, was Sie meinen .

  1. Wenn Sie meinen "Ich berechne meine Teststatistik anhand einer Stichprobe aus einer diskreten Verteilung und schaue dann in den Standardtabellen nach", erhalten Sie eine echte Fehlerrate vom Typ I, die niedriger ist als die von Ihnen gewählte (möglicherweise viel niedrigere).

    Wie viel davon abhängt, "wie diskret" die Verteilung ist. Wenn die Wahrscheinlichkeit eines Ergebnisses ziemlich gering ist (so dass der Anteil der gebundenen Werte in den Daten voraussichtlich gering ist), spielt dies keine große Rolle - viele Menschen hätten kein Problem mit der Ausführung einer 5 % Test bei 4,5% sagen. Wenn Sie beispielsweise eine diskrete Uniform auf [1.1000] testen, müssen Sie sich wahrscheinlich keine Sorgen machen.

    Wenn jedoch die Wahrscheinlichkeit groß ist, dass ein Wert gebunden wird, kann die Auswirkung auf die Fehlerrate von Typ I markiert werden. Wenn Sie ein Signifikanzniveau von 0,005 erhalten, wenn Sie 0,05 wollten, kann dies ein Problem sein, da dies die Leistung entsprechend beeinflusst.

  2. Wenn Sie stattdessen "Ich berechne meine Teststatistik anhand einer Stichprobe aus einer diskreten Verteilung und verwende dann einen geeigneten kritischen Wert / berechne einen geeigneten p-Wert für meine Situation" (z. B. über einen Permutationstest), dann den Test ist sicherlich in dem Sinne gültig, dass Sie die richtige Fehlerrate für Typ I erhalten - natürlich bis zur Diskretion der Teststatistik. (Auch wenn es für Ihren speziellen Zweck möglicherweise bessere Tests gibt, so wie es normalerweise im Dauerbetrieb der Fall ist.)

    Beachten Sie, dass die Verteilung der Teststatistik selbst nicht mehr verteilungsfrei ist, ein Permutationstest dies jedoch vermeidet.

Daher ist es manchmal in Ordnung, die Standardtabellen auch bei diskreten Verteilungen zu verwenden, und selbst wenn dies nicht in Ordnung ist, ist es weniger die Teststatistik als vielmehr die kritischen Werte / p-Werte, die Sie damit verwenden, das Problem.

Glen_b - Setzen Sie Monica wieder ein
quelle
Wie immer in Glen ist Ihre Antwort von hoher Qualität. Aber vielleicht ist das Beste daran, dass Sie den Witz, den ich in diesem Beitrag über Statistiker gemacht habe, die sagen "es kommt darauf an", tatsächlich wiederholt haben! stats.stackexchange.com/questions/182442/…
Sycorax sagt Reinstate Monica
1
@ user777 das war nicht zufällig; es hat mich amüsiert und ich dachte, als ich diese Frage las "nun, es kommt darauf an" ... also habe ich es ausdrücklich gesagt, um deinen Beitrag zu wiederholen.
Glen_b
1
Mein Abend wurde noch besser. Prost!
Sycorax sagt Reinstate Monica
2

Ich glaube , der KS - Test nutzt die Tatsache , dass , wenn eine Zufallsvariable mit CDF ist dann ist eine einheitliche Zufallsvariable. Dies ist nicht der Fall, wenn nicht stetig ist. Wenn zum Beispiel Bernoulli ist, dann ist , keine Uniform.XFF(X)XXF(X)=X

F RA
quelle