Messung der Anpassungsgüte in einem Modell, das zwei Verteilungen kombiniert

9

Ich habe Daten mit einem Doppelpeak, die ich zu modellieren versuche, und es gibt genügend Überlappungen zwischen den Peaks, sodass ich sie nicht unabhängig behandeln kann. Ein Histogramm der Daten könnte ungefähr so ​​aussehen:

Alt-Text

Ich habe dafür zwei Modelle erstellt: eines verwendet zwei Poisson-Verteilungen und das andere verwendet zwei negative Binomialverteilungen (um die Überdispersion zu berücksichtigen). Wie lässt sich feststellen, welches Modell genauer zu den Daten passt?

Mein erster Gedanke ist, dass ich einen Kolmogorov-Smirnov-Test verwenden könnte, um jedes Modell mit den Daten zu vergleichen, und dann einen Likelihood-Ratio-Test durchführen könnte, um festzustellen, ob eines signifikant besser passt. Macht das Sinn? Wenn ja, bin ich mir nicht ganz sicher, wie ich den Likelihood-Ratio-Test durchführen soll. Ist Chi-Quadrat angemessen und wie viele Freiheitsgrade habe ich?

Wenn es hilft, könnte ein (sehr vereinfachter) R-Code für die Modelle ungefähr so ​​aussehen:

## inital data points
a <- read.table("data")

#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)

#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)

#here's where I'd do some sort of likelihood ratio test
# . . .

Bearbeiten: Hier ist ein Bild, das die Daten und die Verteilungen erklären kann, die ich besser anpasse. Aus der Visualisierung geht völlig hervor, dass das zweite Modell (das den negativen Binomialdistanz verwendet, um die Überdispersion zu berücksichtigen) besser passt. Ich möchte dies jedoch quantitativ zeigen. Alt-Text

(Rot - Daten, Grün - Modell)

Chrisamiller
quelle
Kennen Sie die Wahrscheinlichkeitsverteilung der Werte in jedem Bin ? Die Beschriftung der y-Achse lässt mich denken, dass dies Poissonian oder Multinomial sein könnte? (Angenommen, ein Modell gibt Ihnen den Mittelwert in jedem Behälter)
Andre Holzner
Die Daten stammen im Wesentlichen aus zwei Poisson-Prozessen, aber es gibt versteckte Variablen, die ich nicht korrigieren kann, was zu einer Überdispersion führt. Ein negatives Binom ist also definitiv ein besseres Modell. (Siehe das neue Bild / den neuen Text, den ich oben hinzugefügt habe). Ich muss zeigen, dass mein nb-Modell quantitativ besser passt.
Chrisamiller
1
Wie wäre es mit einer Metrik wie dem mittleren quadratischen Fehler zwischen tatsächlichen und vorhergesagten Werten?
hrmm - Ich mag diese Idee, Srikant. Es ist viel einfacher als ich dachte, macht aber trotzdem Sinn. Geben Sie unten eine Antwort ein, damit ich sie gutschreiben und Ihnen einen Vertreter schicken kann. Ich bin immer noch daran interessiert, andere Methoden zu hören, aber das könnte vorerst funktionieren.
Chrisamiller

Antworten:

4

Sie können eine Metrik wie den mittleren quadratischen Fehler zwischen tatsächlichen und vorhergesagten Werten verwenden, um die beiden Modelle zu vergleichen.


quelle
1
Dies war die richtige Antwort für meine spezielle Situation, obwohl mir die Antwort von Glen_b geholfen hat, mehr zu lernen. Also mehr positive Stimmen für ihn, akzeptierte Antwort für Srikant. Jeder gewinnt - danke an alle.
Chrisamiller
8

Sie können sie nicht direkt vergleichen, da das negative Binomial mehr Parameter enthält. In der Tat ist das Poisson im negativen Binomial in dem Sinne "verschachtelt", dass es sich um einen Grenzfall handelt, sodass das NegBin immer besser passt als das Poisson. Dies ermöglicht es jedoch, so etwas wie einen Likelihood-Ratio-Test in Betracht zu ziehen, aber die Tatsache, dass sich das Poisson an der Grenze des Parameterraums für das negative Binom befindet, kann die Verteilung der Teststatistik beeinflussen.

Selbst wenn der Unterschied in der Anzahl der Parameter kein Problem war, können Sie KS-Tests nicht direkt durchführen, da Sie geschätzte Parameter haben. KS ist speziell für den Fall vorgesehen, dass alle Parameter angegeben sind. Ihre Idee, den Bootstrap zu verwenden, befasst sich mit diesem Problem, aber nicht mit dem ersten (Unterschied in der Anzahl der Parameter).

Ich würde auch über reibungslose Tests der Anpassungsgüte nachdenken (siehe z. B. das Buch von Rayner und Best), die beispielsweise dazu führen können, dass der Chi-Quadrat-Anpassungstest in interessierende Komponenten unterteilt wird (Messung von Abweichungen vom Poisson-Modell) in diesem Fall) - herausgenommen, um die vierte oder sechste Ordnung zu sagen, sollte dies zu einem Test mit guter Leistung für die NegBin-Alternative führen.

(Bearbeiten: Sie können Ihre Poisson- und Negbin-Passungen mit einem Chi-Quadrat-Test vergleichen, aber er hat eine geringe Leistung. Das Partitionieren des Chi-Quadrats und das Betrachten nur der ersten 4-6 Komponenten, wie dies bei glatten Tests der Fall ist, könnte besser sein .)

Glen_b - Monica neu starten
quelle
Vielen Dank. Das klärt eine Reihe von Dingen und wirft eine ganze Reihe neuer Fragen auf, über die ich etwas recherchieren muss. Ich denke, meine Hauptfrage ist: Bedeutet das, was Sie sagen, dass etwas Einfacheres, wie nur den quadratischen Mittelwertfehler zu nehmen, kein gültiger Weg ist, um dieses Problem anzugehen? Ich gebe zu, dass es wahrscheinlich nicht so robust ist und mir keinen p-Wert gibt, aber ich könnte es schnell tun, während ich versuche, eine Kopie des Buches aufzuspüren, auf das Sie verweisen. Alle Gedanken wäre dankbar.
Chrisamiller
2
Stellen Sie sich vor, Sie hätten eine Reihe von Punkten (x, y) und überlegten, ob Sie eine gerade oder eine quadratische Linie anpassen könnten. Wenn Sie den RMSE vergleichen, schlägt das Quadrat immer die gerade Linie , da die Linie quadratisch ist und ein Parameter auf Null gesetzt ist: Wenn die Schätzung der kleinsten Quadrate des Parameters genau Null ist (was eine Wahrscheinlichkeit von Null für eine kontinuierliche Reaktion hat), ist dies der Fall ein Unentschieden, und in jedem anderen Fall verliert die Linie. Das gleiche gilt für das Poisson gegenüber dem negativen Binomial - ein freies negatives Binomial kann immer mindestens genauso gut passen wie ein freies Poisson.
Glen_b -State Monica
Schöne Erklärung - ich verstehe, was Sie jetzt sagen. Ich denke, mein Fall ist etwas anders, weil ich keine Regression mache, um eine Anpassung zu erhalten, sondern den zusätzlichen NB-Parameter auf externe Informationen stütze (ich erwarte, dass das Var / Mean-Verhältnis N ist). Da Poisson der Sonderfall ist, in dem N = 1 ist, vergleiche ich wirklich die Wahl von N. Ich stimme zu, dass die NB bei einer Regression immer eine bessere Anpassung finden würde, da sie weniger eingeschränkt ist. In meinem Fall, in dem ich vorne einen Wert für N wähle, wäre es sicherlich möglich, einen verrückten Wert für N zu wählen, der die Passform verschlechtert.
Chrisamiller
Ich werde auf jeden Fall die von Ihnen vorgeschlagenen reibungslosen Tests der Passgenauigkeit nachlesen. Danke für die informativen Antworten.
Chrisamiller
Es tut uns leid, dass wir nicht bemerkt haben, dass die Daten nicht in die Auswahl des Überdispersionsparameters eingegangen sind. Es mag Argumente dafür geben, es auf Ihre Weise zu tun, aber wenn die externe Schätzung wahrscheinlich das widerspiegelt, was Sie tatsächlich beobachten, kann die NB je nach den Umständen dennoch einen Vorteil haben.
Glen_b -State Monica