Welche Vorteile hat die Poisson-Regression in diesem Fall gegenüber der linearen Regression?

12

Ich habe einen Datensatz erhalten, der die Anzahl der Auszeichnungen enthält, die von Schülern einer High School erhalten wurden. Zu den Prädiktoren für die Anzahl der Auszeichnungen gehören die Art des Programms, in dem der Schüler eingeschrieben war, und die Punktzahl für die Abschlussprüfung in Mathematik.

Ich habe mich gefragt, ob mir jemand sagen könnte, warum ein lineares Regressionsmodell in diesem Fall möglicherweise ungeeignet ist und warum es besser wäre, eine Poisson-Regression zu verwenden. Vielen Dank.

Emily
quelle

Antworten:

14

Drei Punkte zu Poisson vs Normal Regression, alle in Bezug auf die Modellspezifikation:

Auswirkung von Änderungen bei Prädiktoren

Bei einem kontinuierlichen Prädiktor wie dem Mathe-Testergebnis impliziert die Poisson-Regression (mit der üblichen Protokollverknüpfung), dass eine Änderung der Einheit des Prädiktors zu einer prozentualen Änderung der Anzahl der Auszeichnungen führt, dh 10 weitere Punkte im Mathe-Test sind z. B. 25 Prozent zugeordnet mehr Auszeichnungen. Dies hängt von der Anzahl der Auszeichnungen ab, die der Student bereits erhalten soll. Im Gegensatz dazu verbindet die normale Regression 10 weitere Punkte mit einem festen Betrag, beispielsweise 3 weitere Auszeichnungen unter allen Umständen. Sie sollten mit dieser Annahme zufrieden sein, bevor Sie das Modell verwenden, aus dem sie besteht. (fwiw ich denke es ist sehr vernünftig, modulo der nächste Punkt.)

Umgang mit Studenten ohne Auszeichnungen

Wenn es nicht wirklich viele Auszeichnungen gibt, die auf viele Studenten verteilt sind, sind Ihre Auszeichnungen meistens eher niedrig. Tatsächlich würde ich eine Nullinflation vorhersagen, dh die meisten Studenten erhalten keine Auszeichnung, also viele Nullen, und einige gute Studenten erhalten einige Auszeichnungen. Dies steht im Widerspruch zu den Annahmen des Poisson-Modells und ist für das Normal-Modell mindestens genauso schlecht.

Wenn Sie über eine anständige Datenmenge verfügen, ist ein Modell mit „Null-Inflation“ oder „Hürde“ natürlich. Dies sind zwei Modelle, die miteinander verbunden sind: eines, um vorherzusagen, ob die Schülerin Auszeichnungen erhält, und eines, um vorherzusagen, wie viele sie erhält, wenn sie überhaupt eine erhält (normalerweise eine Art Poisson-Modell). Ich würde erwarten, dass die gesamte Aktion im ersten Modell stattfindet.

Auszeichnung Exklusivität

Zum Schluss noch ein kleiner Punkt zu Auszeichnungen. Wenn Auszeichnungen exklusiv sind, dh wenn ein Schüler die Auszeichnung erhält, kann kein anderer Schüler die Auszeichnung erhalten, sind Ihre Ergebnisse gekoppelt. Eine Zählung für Schüler a drückt die mögliche Zählung von jedem anderen herunter. Ob dies besorgniserregend ist, hängt von der Struktur der Auszeichnungen und der Größe der Studenten ab. Ich würde es beim ersten Durchgang ignorieren.

Zusammenfassend lässt sich sagen, dass Poisson bis auf sehr große Zählungen problemlos Normal dominiert. Überprüfen Sie jedoch die Annahmen des Poisson, bevor Sie sich zu stark auf ihn stützen, um Rückschlüsse zu ziehen, und seien Sie bereit, bei Bedarf zu einer etwas komplexeren Modellklasse zu wechseln.

Konjugatprior
quelle
9

Eine Poisson-Regression wäre in diesem Fall besser geeignet, da Ihre Antwort die Zählung von etwas ist.

λ

λλ

Die normale lineare Regression nimmt normale Fehler um den Mittelwert an und gewichtet sie daher gleichermaßen. Dies besagt, dass wenn ein Schüler eine erwartete Anzahl von Auszeichnungen von 1 hat, es genauso wahrscheinlich ist, dass er -2 Auszeichnungen erhält, wie dass er 3 Auszeichnungen erhält: Dies ist eindeutig Unsinn und das, worauf Poisson abzielt.

Corone
quelle
8

ln(einweinrds+0,5) . Dies führt jedoch zu eigenen Problemen, da Sie sich vermutlich für Auszeichnungen interessieren und die Re-Transformation nicht erfolgt -trivial.

Da die erwartete Anzahl von Auszeichnungen sehr groß wird, sollte OLS aus den von @Corone genannten Gründen eine bessere Leistung erbringen. In Lake Wobegon ist OLS der richtige Weg.

Wenn die erwartete Anzahl niedrig ist und viele Nullen enthält, würde ich das Poisson mit robusten Standardfehlern gegenüber dem negativen Binomialmodell verwenden. Die NB-Regression macht starke Annahmen über die Varianz, die in den Bedingungen erster Ordnung auftritt, die die Koeffizienten erzeugen. Wenn diese Annahmen nicht erfüllt sind, könnten die Koeffizienten selbst kontaminiert sein. Das ist beim Poisson nicht der Fall.

Dimitriy V. Masterov
quelle
4

@corone bringt gute Punkte, aber beachten Sie, dass der Poisson nur dann wirklich asymmetrisch ist, wennλist klein. Sogar fürλ = 10, es ist ziemlich symmetrisch, z.

set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)

zeigt eine Schiefe von 0,31, was ziemlich nahe an 0 liegt.

Ich mag auch die Punkte von @conjugateprior. Nach meiner Erfahrung passt die Poisson-Regression selten gut. Normalerweise verwende ich entweder ein negatives Binomial oder ein Modell ohne Inflation.

Peter Flom - Monica wieder einsetzen
quelle