Poisson-Regression vs. Log-Count-Regression nach kleinsten Quadraten?

21

Eine Poisson-Regression ist ein GLM mit einer Log-Link-Funktion.

Eine alternative Möglichkeit, nicht normalverteilte Zählerdaten zu modellieren, besteht in der Vorverarbeitung, indem das Protokoll (bzw. das Protokoll (1 + Zähler) zur Behandlung von Nullen) verwendet wird. Wenn Sie eine Regression der kleinsten Quadrate für die Anzahl der logarithmischen Antworten durchführen, hängt dies mit einer Poisson-Regression zusammen? Kann es mit ähnlichen Phänomenen umgehen?

Brendan OConnor
quelle
6
Wie planen Sie, Logarithmen für alle Zählungen zu verwenden, die Null sind?
Whuber
3
Auf keinen Fall gleichwertig. Eine einfache Möglichkeit, dies zu sehen, besteht darin, sich anzusehen, was passieren würde, wenn Sie Nullzählungen beobachten würden. (Kommentar erstellt, bevor der Kommentar von @ whuber angezeigt wird. Diese Seite wurde in meinem Browser anscheinend nicht entsprechend aktualisiert.)
Kardinal
OK, ich sollte natürlich log (1 + count) sagen. Offensichtlich nicht gleichwertig, aber ich frage mich, ob es eine Beziehung gab oder ob sie mit ähnlichen Phänomenen umgehen können.
Brendan OConnor
1
Eine nützliche Diskussion zu diesem Thema finden Sie hier: blog.stata.com/2011/08/22/…
Michael Bishop

Antworten:

22

Einerseits ist in einer Poisson-Regression die linke Seite der Modellgleichung der Logarithmus der erwarteten Anzahl: .log(E[Y|x])

Andererseits ist in einem linearen "Standard" -Modell die linke Seite der erwartete Wert der normalen Antwortvariablen: . Insbesondere ist die Verknüpfungsfunktion die Identitätsfunktion.E[Y|x]

Nehmen wir nun an, ist eine Poisson-Variable und Sie möchten sie normalisieren, indem Sie das Protokoll verwenden: Y = log ( Y ) . Da Y ' normal sein soll, planen Sie, das lineare Standardmodell anzupassen, für das die linke Seite E [ Y ' | ist x ] = E [ log ( Y ) | x ] . Im Allgemeinen ist E [ log ( Y ) | x ] log ( EYY=log(Y)Y.E[Y.|x]=E[Log(Y.)|x] . Infolgedessen sind diese beiden Modellierungsansätze unterschiedlich.E[Log(Y.)|x]Log(E[Y.|x])

Ocram
quelle
6
Tatsächlich ist , es sei denn, P ( Y = f ( X ) | X ) = 1 für eine σ ( X ) -messbare Funktion f , dh Y wird vollständig durch X bestimmt . E(Log(Y.)|X)Log(E(Y.|X)) P(Y.=f(X)|X)=1σ(X)fY.X
Kardinal
@Kardinal. Sehr gut ausgedrückt.
Suncoolsu
9

Ich sehe zwei wichtige Unterschiede.

Erstens verhalten sich die vorhergesagten Werte (auf der ursprünglichen Skala) unterschiedlich; in loglinearen kleinsten Quadraten stellen sie bedingte geometrische Mittel dar; im log-poisson-Modell stellen sie bedingte Mittel dar. Da die Daten in dieser Art der Analyse häufig falsch sind, wird der bedingte geometrische Mittelwert den bedingten Mittelwert unterschätzen.

Ein zweiter Unterschied ist die implizite Verteilung: lognormal versus poisson. Dies bezieht sich auf die Heteroskedastizitätsstruktur der Residuen: Residuenvarianz proportional zu den quadrierten erwarteten Werten (lognormal) gegenüber Residuenvarianz proportional zum erwarteten Wert (Poisson).

ludo
quelle
-1

Ein offensichtlicher Unterschied besteht darin, dass die Poisson-Regression Ganzzahlen als Punktvorhersagen liefert, wohingegen die lineare logarithmische Regression Nicht-Ganzzahlen liefern kann.

Galit Shmueli
quelle
12
Wie funktioniert das? Schätzt der GLM nicht die Erwartungen , die nicht unbedingt integraler Natur sind?
whuber
1
Das ist falsch. Mechanisch sind Poisson-Regressionen perfekt in der Lage, mit Nicht-Ganzzahlen umzugehen. Die Standardfehler werden nicht verteilt, sondern Sie können stattdessen nur robuste Standardfehler verwenden.
Matthew