Ich habe Daten mit einem Doppelpeak, die ich zu modellieren versuche, und es gibt genügend Überlappungen zwischen den Peaks, sodass ich sie nicht unabhängig behandeln kann. Ein Histogramm der Daten könnte ungefähr so aussehen:
Ich habe dafür zwei Modelle erstellt: eines verwendet zwei Poisson-Verteilungen und das andere verwendet zwei negative Binomialverteilungen (um die Überdispersion zu berücksichtigen). Wie lässt sich feststellen, welches Modell genauer zu den Daten passt?
Mein erster Gedanke ist, dass ich einen Kolmogorov-Smirnov-Test verwenden könnte, um jedes Modell mit den Daten zu vergleichen, und dann einen Likelihood-Ratio-Test durchführen könnte, um festzustellen, ob eines signifikant besser passt. Macht das Sinn? Wenn ja, bin ich mir nicht ganz sicher, wie ich den Likelihood-Ratio-Test durchführen soll. Ist Chi-Quadrat angemessen und wie viele Freiheitsgrade habe ich?
Wenn es hilft, könnte ein (sehr vereinfachter) R-Code für die Modelle ungefähr so aussehen:
## inital data points
a <- read.table("data")
#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)
#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)
#here's where I'd do some sort of likelihood ratio test
# . . .
Bearbeiten: Hier ist ein Bild, das die Daten und die Verteilungen erklären kann, die ich besser anpasse. Aus der Visualisierung geht völlig hervor, dass das zweite Modell (das den negativen Binomialdistanz verwendet, um die Überdispersion zu berücksichtigen) besser passt. Ich möchte dies jedoch quantitativ zeigen.
(Rot - Daten, Grün - Modell)
Antworten:
Sie können eine Metrik wie den mittleren quadratischen Fehler zwischen tatsächlichen und vorhergesagten Werten verwenden, um die beiden Modelle zu vergleichen.
quelle
Sie können sie nicht direkt vergleichen, da das negative Binomial mehr Parameter enthält. In der Tat ist das Poisson im negativen Binomial in dem Sinne "verschachtelt", dass es sich um einen Grenzfall handelt, sodass das NegBin immer besser passt als das Poisson. Dies ermöglicht es jedoch, so etwas wie einen Likelihood-Ratio-Test in Betracht zu ziehen, aber die Tatsache, dass sich das Poisson an der Grenze des Parameterraums für das negative Binom befindet, kann die Verteilung der Teststatistik beeinflussen.
Selbst wenn der Unterschied in der Anzahl der Parameter kein Problem war, können Sie KS-Tests nicht direkt durchführen, da Sie geschätzte Parameter haben. KS ist speziell für den Fall vorgesehen, dass alle Parameter angegeben sind. Ihre Idee, den Bootstrap zu verwenden, befasst sich mit diesem Problem, aber nicht mit dem ersten (Unterschied in der Anzahl der Parameter).
Ich würde auch über reibungslose Tests der Anpassungsgüte nachdenken (siehe z. B. das Buch von Rayner und Best), die beispielsweise dazu führen können, dass der Chi-Quadrat-Anpassungstest in interessierende Komponenten unterteilt wird (Messung von Abweichungen vom Poisson-Modell) in diesem Fall) - herausgenommen, um die vierte oder sechste Ordnung zu sagen, sollte dies zu einem Test mit guter Leistung für die NegBin-Alternative führen.
(Bearbeiten: Sie können Ihre Poisson- und Negbin-Passungen mit einem Chi-Quadrat-Test vergleichen, aber er hat eine geringe Leistung. Das Partitionieren des Chi-Quadrats und das Betrachten nur der ersten 4-6 Komponenten, wie dies bei glatten Tests der Fall ist, könnte besser sein .)
quelle