Null aufgeblasene Poisson-Regression

14

Angenommen, sind unabhängig undY=(Y1,,Yn)

Yi=0with probability pi+(1pi)eλiYi=kwith probability (1pi)eλiλik/k!

Angenommen, die Parameter und erfülltλ=(λ1,,λn)p=(p1,,pn)

log(λ)=Bβlogit(p)=log(p/(1p))=Gλ.

Wenn die gleichen Kovariaten auf und so dass , warum erfordert die auf Null aufgeblasene Poisson-Regression doppelt so viele Parameter wie die Poisson-Regression?λpB=G

Damien
quelle
2
Sie müssen noch und schätzen . und sind Entwurfsmatrizen (Daten), sodass durch Gleichheit die Dimension des Parameterraums nicht verringert wird. βλBG
Makro
@Macro: Wenn eine Spalte mit Einsen ist, warum benötigen wir dann 1 Parameter mehr als die Poisson-Regression? G
Damien
Nun, Sie müssen (den "Schnittpunkt" im logistischen Teil des Modells) und (den "Schnittpunkt" im Poisson-Teil des Modells) schätzen, damit es 2 Parameter anstelle von 1 gibt.piλi
Macro
1
@Robby, um die Anzahl der Parameter zu verringern, müssten Sie einige Einschränkungen vornehmen. Zum Beispiel , obwohl es keinen Grund gibt, dies für sinnvoll zu halten - zumal die Verknüpfungsfunktionen unterschiedlich sind. λ=β
Makro
3
@MichaelChernick - es heißt Poisson mit Null-Inflation, weil Sie im Grunde die Wahrscheinlichkeit "aufblähen", eine Null von einer Poisson-Distanz aus zu sehen, während Sie die gleichen relativen Wahrscheinlichkeiten beibehalten, einen Wert ungleich Null zu sehen, wie der Poisson.
Bogenschütze

Antworten:

2

In der Null aufgeblasen Poisson Fall, wenn , dann β und λ beide haben die gleiche Länge, die die Anzahl der Spalten ist , B oder G . Die Anzahl der Parameter ist also doppelt so groß wie die Anzahl der Spalten in der Entwurfsmatrix, dh doppelt so groß wie die Anzahl der erklärenden Variablen einschließlich des Abschnitts (und der erforderlichen Dummy-Codierung).B=GβλBG

In einer geraden Poisson-Regression gibt es keinen Vektor, über den man sich Sorgen machen müsste , und es ist nicht erforderlich, λ zu schätzen . Die Anzahl der Parameter ist also nur die Länge von β, dh die Hälfte der Anzahl der Parameter im Fall ohne Aufpumpen.pλβ

Nun, es gibt keinen besonderen Grund, warum gleich G sein muss , aber im Allgemeinen macht es Sinn. Allerdings könnte man einen Datenerzeugungsprozess vorstellen , wo die Wahrscheinlichkeit , überhaupt irgendwelche Ereignisse, die durch einen Prozess erzeugt wird , G λ und ein völlig anderer Prozess B β - Laufwerke , wie viele Ereignisse gibt es, da Nicht-Null - Ereignisse. Als konstruiertes Beispiel wähle ich Klassenzimmer basierend auf den Ergebnissen ihrer Verlaufsprüfung aus, um ein Spiel zu spielen, das nichts damit zu tun hat, und beobachte dann die Anzahl der Tore, die sie erzielen. In diesem Fall ist B möglicherweise ganz anders als G (wenn sich die Punkte der Prüfung zur Fahrgeschichte von denen der Fahrleistung im Spiel unterscheiden) und β und λBGGλBβBGβλkönnte unterschiedliche Längen haben. möglicherweise mehr Spalten als B oder weniger. In diesem Fall verfügt das Poisson-Modell mit Null-Inflation über mehr Parameter als ein einfaches Poisson-Modell.GB

In der allgemeinen Praxis denke ich die meiste Zeit, dass .G=B

Peter Ellis
quelle