Die Daten:
Für die Zwecke dieser Frage / Kommunikation können wir annehmen, dass die Daten wie rnbinom(1000,size=0.1,prob=0.01)
in R aussehen , das aus einer negativen Binomialverteilung (mit size=0.1
und Wahrscheinlichkeit des Erfolgs prob=0.01
) eine Zufallsstichprobe von 1.000 Beobachtungen generiert . Dies ist die Parametrisierung, bei der die Zufallsvariable die Anzahl der Fehler vor der size
Anzahl der Erfolge darstellt. Der Schwanz ist lang und 1.000 Beobachtungen sind nicht viele Daten.
Das Problem: Ich habe einige Daten (Ganzzahl auf {1,2, ....}) [siehe oben] (1.500 Datenpunkte) erhalten und gebeten, die "beste Anpassung" -Verteilung und Schätzungen aller Parameter zu finden. Ich weiß nichts anderes über die Daten. Mir ist bewusst, dass dies keine sehr große Stichprobe für Daten mit einem langen Schwanz ist. Weitere Daten sind möglich.
Was ich getan habe: Ich habe überlegt, einen Likelihood-Ratio-Test zu verwenden, indem ich zwei verschiedene Verteilungen an die Daten anpasse, aber ich denke nicht, dass dies zutrifft (wie in, ich kann keine geeigneten kritischen p-Werte bestimmen), es sei denn, die beiden Verteilungen sind verschachtelt ...
Ich überlegte dann, einen Kolmogorov-Smirnov-Test (angepasst für diskrete Daten) zu verwenden, beschwerte sich jedoch in R, dass kein p-Wert für "Daten mit Bindungen" berechnet werden könne.
Was ist für mich der beste Weg, um die Anpassung verschiedener Verteilungen in diesem Zusammenhang zu testen / zu bestimmen? Hier sind einige andere Dinge, die ich berücksichtigt habe:
- Fragen Sie nach (vielen) weiteren Daten. Aber wird das helfen? Kann ich zum Beispiel asymptotische Ergebnisse verwenden?
- Betrachten Sie ein Bootstrap / Re-Sampling / Monte-Carlo-Schema? Wenn ja, gibt es eine Standardreferenz, die ich lesen kann / sollte, um zu lernen, wie man das richtig macht? Vielen Dank
quelle