Ich habe gelesen, dass der Kolmogorov-Smirnov-Test nicht zum Testen der Anpassungsgüte einer Verteilung verwendet werden sollte, deren Parameter anhand der Stichprobe geschätzt wurden.
Ist es sinnvoll, meine Stichprobe in zwei Teile zu teilen und die erste Hälfte für die Parameterschätzung und die zweite für den KS-Test zu verwenden?
Danke im Voraus
estimation
fitting
kolmogorov-smirnov
sortega
quelle
quelle
Antworten:
Der bessere Ansatz besteht darin, Ihren kritischen Wert des p-Werts durch Simulation zu berechnen. Das Problem ist, dass die Verteilung der KS-Statistik nicht der Nullverteilung folgt, wenn Sie die Parameter anhand der Daten schätzen, anstatt hypothetische Werte zu verwenden.
Sie können stattdessen die p-Werte aus dem KS-Test ignorieren und stattdessen eine Reihe von Datensätzen aus der Kandidatenverteilung (mit einem aussagekräftigen Satz von Parametern) simulieren, die dieselbe Größe haben wie Ihre realen Daten. Schätzen Sie dann für jeden Satz die Parameter und führen Sie den KS-Test mit den geschätzten Parametern durch. Ihr p-Wert ist der Anteil der Teststatistiken aus den simulierten Sätzen, der extremer ist als für Ihre Originaldaten.
quelle
Das Aufteilen von Stichproben kann möglicherweise das Problem mit der Verteilung der Statistik verringern, entfernt es jedoch nicht.
Ihre Idee vermeidet das Problem, dass die Schätzungen im Verhältnis zu den Bevölkerungswerten zu eng sind, da sie auf derselben Stichprobe basieren.
Sie vermeiden nicht das Problem, dass es sich immer noch um Schätzungen handelt. Die Verteilung der Teststatistik ist nicht tabellarisch.
In diesem Fall wird die Ablehnungsrate unter Null erhöht, anstatt sie dramatisch zu reduzieren.
Eine bessere Wahl ist ein Test, bei dem die Parameter nicht als bekannt vorausgesetzt werden, z. B. ein Shapiro Wilk.
Wenn Sie mit einem Kolmogorov-Smirnov-Test verheiratet sind, können Sie den Ansatz des Lilliefors-Tests wählen.
Das heißt, wenn Sie die KS-Statistik verwenden, aber die Verteilung der Teststatistik die Auswirkung der Parameterschätzung widerspiegeln soll, simulieren Sie die Verteilung der Teststatistik unter Parameterschätzung. (Es ist nicht mehr verteilungsfrei, daher benötigen Sie für jede Verteilung neue Tabellen.)
http://en.wikipedia.org/wiki/Lilliefors_test
Liliefors verwendete die Simulation für den Normalfall und den Exponentialfall, aber Sie können dies problemlos für jede bestimmte Verteilung tun. In so etwas wie R ist es nur eine Frage des Augenblicks, 10.000 oder 100.000 Stichproben zu simulieren und eine Verteilung der Teststatistik unter der Null zu erhalten.
[Eine Alternative könnte sein, den Anderson-Liebling in Betracht zu ziehen, der zwar das gleiche Problem hat, der aber nach dem Buch von D'Agostino und Stephens ( Goodness-of-Fit-Techniken ) weniger empfindlich dafür zu sein scheint. Sie könnten die Lilliefors-Idee anpassen, aber sie schlagen eine relativ einfache Anpassung vor, die ziemlich gut zu funktionieren scheint.]
Es gibt aber noch andere Ansätze; Es gibt zum Beispiel Familien von glatten Tests der Anpassungsgüte (siehe z. B. das Buch von Rayner und Best), die sich in einer Reihe spezifischer Fälle mit der Parameterschätzung befassen können.
* Der Effekt kann immer noch ziemlich groß sein - vielleicht größer, als normalerweise als akzeptabel angesehen würde. Momo ist zu Recht besorgt darüber. Wenn eine höhere Fehlerrate Typ I (und eine flachere Leistungskurve) ein Problem darstellt, ist dies möglicherweise keine Verbesserung!
quelle
Ich fürchte, das würde das Problem nicht lösen. Ich glaube, das Problem ist nicht, dass die Parameter aus derselben Stichprobe, sondern aus einer beliebigen Stichprobe geschätzt werden . Die Herleitung der üblichen Nullverteilung des KS-Tests berücksichtigt keine Schätzfehler in den Parametern der Referenzverteilung, sondern sieht diese als gegeben an. Siehe auch Durbin 1973, der diese Probleme ausführlich diskutiert und Lösungen anbietet.
quelle