Interpretationskoeffizienten für die Poisson-Regression

8

Ich verstehe nicht, wie man den Koeffizienten aus einer Poisson-Regression relativ zum Koeffizienten aus einer OLS-Regression interpretiert.

Angenommen, ich habe Zeitreihendaten, meine Variable auf der linken Seite ist die Anzahl der pro Jahr gewonnenen Spiele und meine Hauptvariable auf der rechten Seite ist der NASDAQ-Wert. Wenn meine bevorzugte Spezifikation darin besteht, das Modell prozentual zu interpretieren, nehme ich die Protokolltransformation der gewonnenen Spiele. Ich kann auch das Protokoll der NASDAQ verwenden, um zu sagen, um wie viel eine Erhöhung der NASDAQ um 1 Prozent den Prozentsatz der gewonnenen Spiele erhöhen würde. Jetzt erkenne ich an, dass ein Poisson-Modell möglicherweise sinnvoll ist, da die Daten für gewonnene Spiele zählen und nicht kontinuierlich sind. Ich führe die Regression mit beispielsweise vielen, vielen Kontrollvariablen aus.

Würde ich nicht eine Protokolltransformation für gewonnene Spiele durchführen und stattdessen nur Spiele verwenden? Wenn ich die Koeffizienten erhalte, führe ich dann eine Art Randeffektberechnung durch (wie dies für Probit möglich ist)?
Wie interpretiere ich diese Koeffizienten?
Wie vergleiche ich die Interpretation des Poisson mit OLS - entweder dem logarithmisch transformierten OLS oder dem nicht transformierten OLS?

Ich weiß, dass diese Art von Frage schon einmal gestellt wurde, aber ich verstehe sie immer noch nicht ganz.

user1690130
quelle
Meine Antwort hier ist relevant: stats.stackexchange.com/questions/142338/…
kjetil b halvorsen

Antworten:

10

Nicht kritisch zu sein, aber das ist ein seltsames Beispiel. Es ist nicht klar, ob Sie wirklich Zeitreihenanalysen durchführen oder was der NASDAQ mit der Anzahl der von einem Team gewonnenen Spiele zu tun hätte. Wenn Sie etwas über die Anzahl der Spiele sagen möchten, die ein Team gewonnen hat, ist es meiner Meinung nach am besten, eine binäre logistische Regression zu verwenden, da Sie vermutlich wissen, wie viele Spiele gespielt werden. Die Poisson-Regression ist am besten geeignet, um über Zählungen zu sprechen, wenn die mögliche Gesamtmenge nicht gut eingeschränkt oder zumindest nicht bekannt ist.

Wie Sie Ihre Betas interpretieren würden, hängt teilweise von dem verwendeten Link ab. Es ist möglich , den Identitätslink zu verwenden, obwohl der Protokolllink häufiger (und in der Regel geeigneter) ist. Wenn Sie den Protokolllink verwenden, würden Sie das Protokoll Ihrer Antwortvariablen wahrscheinlich nicht übernehmen - der Link erledigt dies im Wesentlichen für Sie. Nehmen wir einen abstrakten Fall: Sie haben ein Poisson-Modell, das den Protokolllink wie folgt verwendet: alternativ
y =exp( β 0+ β 1x)

y^=exp(β^0)exp(β^1)x
y^=exp(β^0+β^1x)

(EDIT: Ich entferne im Folgenden die "Hüte" von den Betas, weil sie hässlich sind, aber sie sollten trotzdem verstanden werden.)

Bei normaler OLS-Regression sagen Sie den Mittelwert einer Gaußschen Verteilung der Antwortvariablen voraus, die von den Werten der Kovariaten abhängig ist. In diesem Fall sagen Sie den Mittelwert einer Poisson-Verteilung der Antwortvariablen voraus, die von den Werten der Kovariaten abhängig ist. Wenn für OLS ein bestimmter Fall in Ihrer Kovariate 1 Einheit höher wäre, erwarten Sie, dass der Mittelwert dieser bedingten Verteilung bei gleichen Bedingungen Einheiten höher ist. Wenn hier ein gegebener Fall 1 Einheit höher wäre, ceteris paribus , erwarten Sie, dass der bedingte Mittelwert mal höher ist. Sagen Sie zum Beispiele β 1 β 1 =2 β 0 x=0( β 1 ) x =1 β 0 yβ1eβ1 β1=2dann ist es in der normalen Regression 2 Einheiten höher (dh +2), und hier ist es 7,4- mal höher (dh x 7,4). In beiden Fällen ist Ihr Intercept . Betrachten Sie in unserer obigen Gleichung die Situation, wenn , dann exp und die rechte Seite auf exp ( ) reduziert wird , was den Mittelwert von ergibt wenn alle Kovariaten gleich 0 sind. β0x=0(β1)x=1β0y

Es gibt einige Dinge, die diesbezüglich verwirrend sein können. Erstens ist die Vorhersage des Mittelwerts einer Poisson-Verteilung nicht gleichbedeutend mit der Vorhersage des Mittelwerts einer Gaußschen Verteilung. Bei einer Normalverteilung ist der Mittelwert der wahrscheinlichste Einzelwert. Aber mit dem Poisson ist der Mittelwert oft ein unmöglicher Wert (z. B. wenn Ihr vorhergesagter Mittelwert 2,7 beträgt, ist dies keine Zählung, die existieren könnte). Außerdem hängt der Mittelwert normalerweise nicht mit dem Dispersionsgrad (dh der SD) zusammen, aber bei der Poisson-Verteilung entspricht die Varianz notwendigerweise dem Mittelwert (obwohl dies in der Praxis häufig nicht der Fall ist, was zu zusätzlichen Komplexitäten führt). Schließlich machen diese Potenzierungen es komplizierter; Wenn Sie anstelle einer relativen Änderung den genauen Wert wissen möchten, müssen Sie bei 0 beginnen (dh xeβ0) und multipliziere deinen Weg mal. Um einen bestimmten Wert vorherzusagen, ist es einfacher, den Ausdruck in den Klammern in der unteren Gleichung zu lösen und dann zu potenzieren. Dies macht die Bedeutung der Beta weniger klar, aber die Mathematik einfacher und verringert die Möglichkeit von Fehlern. x

gung - Monica wieder einsetzen
quelle
Danke für deine Hilfe! Ja, ich stimme zu, dass das Beispiel schrecklich ist. Danke für die Abstraktion. Ich verstehe, wie man OLS interpretiert. Eine Erhöhung von x um 1 Einheit führt zu einer Beta_1-Erhöhung von y. Wenn ich eine logarithmische Transformation zu y durchführe, führt eine Erhöhung von x um 1 Einheit zu einer Erhöhung von y um 100 * beta_1%. Ich verstehe nicht, was ich mit Poisson machen soll. Wenn ich beta_1 kenne, führt eine Erhöhung von x um 1 Einheit zu einer Erhöhung von y?
user1690130
β1β1=2β1
Ich verstehe nicht, weil es von den Werten von x und y abhängt? Gibt es "marginale Effekte", an denen die Menschen vorbeikommen? Verwenden Benutzer mfx beispielsweise nicht in Stata, um Probit-Schätzungen zu melden?
user1690130
1
β1x1
1
Ich bin mir wie @gung nicht sicher, was Sie versuchen zu tun. Wenn Sie jedoch die Ergebnisse der beiden Modelle vergleichen möchten , können Sie die vorhergesagten Werte in einem Streudiagramm gegeneinander darstellen. Ein Vergleich der Koeffizienten macht keinen Sinn.
Peter Flom