Warum wird die Poisson-Regression für die Zähldaten verwendet?

33

Ich verstehe, dass für bestimmte Datensätze wie die Abstimmung eine bessere Leistung erzielt wird. Warum wird die Poisson-Regression anstelle der normalen linearen oder logistischen Regression verwendet? Was ist die mathematische Motivation dafür?

zaxtax
quelle
Siehe meine Antwort auf diesen Beitrag für einen anderen Standpunkt: stats.stackexchange.com/questions/142338/…
kjetil b halvorsen

Antworten:

51

Poisson-verteilte Daten sind von Natur aus ganzzahlig, was für Zähldaten sinnvoll ist. Ordentliche kleinste Quadrate (OLS, die Sie als "lineare Regression" bezeichnen) setzen voraus, dass wahre Werte normalerweise um den erwarteten Wert verteilt sind und jeden beliebigen realen Wert annehmen können, egal ob positiv oder negativ, ganzzahlig oder gebrochen. Schließlich funktioniert die logistische Regression nur für Daten mit einem Wert von 0 bis 1 (WAHR-FALSCH-Wert), z. B. "hat eine Krankheit" oder "hat die Krankheit nicht". Daher ist die Poisson-Verteilung für Zähldaten am sinnvollsten.

Trotzdem ist eine Normalverteilung für Daten mit einem Mittelwert über 30 oder so oft eine gute Annäherung an eine Poisson-Verteilung. In einem Regressions-Framework, in dem die Anzahl durch Prädiktoren beeinflusst wird, ist ein OLS mit seiner Normalverteilung möglicherweise einfacher anzupassen und allgemeiner, da die Poisson-Verteilung und die Regression davon ausgehen, dass der Mittelwert und die Varianz gleich sind, während OLS kann mit ungleichen Mitteln und Varianzen umgehen - für ein Zähldatenmodell mit unterschiedlichen Mitteln und Varianzen könnte man beispielsweise eine negative Binomialverteilung verwenden .

S. Kolassa - Setzen Sie Monica wieder ein
quelle
17
Beachten Sie, dass nur die Anpassung mit OlS keine Normalität erfordert - wenn Sie auf die Parameter schließen, benötigen Sie die Normalverteilungsannahme
Dason
1
@Dason: Ich stehe korrigiert.
S. Kolassa - Reinstate Monica
3
Wenn Sie den Huber / White / Sandwich-Varianzschätzer verwenden, können Sie die Annahme der mittleren Varianz
Dimitriy V. Masterov
@Dason Obwohl dies nicht unbedingt erforderlich ist, liefert die Verwendung der richtigen Modellform für Ihre Anpassung fast immer eine bessere Schätzung, und Sie können sie in Diagrammen von Residuen sehen.
Joe
24

Dies liegt im Wesentlichen daran, dass durch lineare und logistische Regression die falschen Annahmen darüber getroffen werden, wie die Zählergebnisse aussehen. Stellen Sie sich Ihr Modell als einen sehr dummen Roboter vor, der Ihren Anweisungen unerbittlich folgt, egal wie unsinnig diese Anweisungen sind. Es fehlt ihm völlig die Fähigkeit zu bewerten, was Sie ihm sagen. Wenn Sie Ihrem Roboter mitteilen, dass so etwas wie Stimmen kontinuierlich von negativ bis unendlich verteilt werden, glauben Sie, dass Stimmen gleich sind, und dies kann zu unsinnigen Vorhersagen führen (Ross Perot wird bei den kommenden Wahlen -10.469 Stimmen erhalten).

Umgekehrt ist die Poisson-Verteilung diskret und positiv (oder Null ... Null zählt als positiv, ja?). Zumindest wird dies Ihren Roboter dazu zwingen, Ihnen Antworten zu geben, die im wirklichen Leben tatsächlich vorkommen könnten. Sie können gute Antworten sein oder auch nicht , aber sie werden zumindest aus dem möglichen Satz von "Anzahl der abgegebenen Stimmen" gezogen.

Natürlich hat der Poisson seine eigenen Probleme: Er geht davon aus, dass der Mittelwert der Stimmenzahlvariablen auch der Varianz entspricht. Ich weiß nicht, ob ich jemals ein nicht erfundenes Beispiel gesehen habe, in dem dies wahr war. Glücklicherweise haben sich kluge Köpfe andere Verteilungen ausgedacht, die ebenfalls positiv und diskret sind, die jedoch Parameter hinzufügen, um die Varianz variieren zu lassen (z. B. negative binomiale Regression).

Matt Parker
quelle
5

T=1λT=tλ.tλ.t

p(N=n)=(λ.t)ne-λ.tn!

Über diese und die Maximum-Likelihood-Methode und verallgemeinerte lineare Modelle (oder eine andere Methode) gelangen Sie zur Poisson-Regression .

In einfachen Worten ist die Poisson-Regression das Modell, das den Annahmen des zugrunde liegenden Zufallsprozesses entspricht und eine kleine Anzahl von Ereignissen mit einer Rate (dh Anzahl pro Zeiteinheit) erzeugt, die von anderen Variablen im Modell bestimmt wird.

Thylacoleo
quelle
3

Andere haben im Grunde das Gleiche gesagt, aber ich dachte, ich würde meine Meinung dazu hinzufügen. Es hängt davon ab, was Sie genau tun, aber häufig möchten wir das Problem / die Daten zur Hand haben. Dies ist ein etwas anderer Ansatz als die Erstellung eines Modells, das ziemlich gut prognostiziert. Wenn wir versuchen zu verstehen, was vor sich geht, ist es sinnvoll, die Zähldaten mit einer nicht-negativen Verteilung zu modellieren, die die Masse nur auf ganzzahlige Werte setzt. Wir haben auch viele Ergebnisse, die darauf hinauslaufen, dass unter bestimmten Bedingungen die Zählung der Daten tatsächlich erfolgtals poisson verteilt. Wenn es also unser Ziel ist, das Problem zu konzipieren, ist es wirklich sinnvoll, ein Poisson als Antwortvariable zu verwenden. Andere haben auf andere Gründe hingewiesen, warum dies eine gute Idee ist. Wenn Sie jedoch wirklich versuchen, das Problem zu konzipieren und wirklich zu verstehen, wie die angezeigten Daten generiert werden können, ist die Verwendung einer Poisson-Regression in einigen Situationen sehr sinnvoll.

Dason
quelle
2

Mein Verständnis ist in erster Linie, weil die Zählungen immer positiv und diskret sind. Der Poisson kann solche Daten mit einem Parameter zusammenfassen. Der Hauptfang ist, dass die Varianz dem Mittelwert entspricht.


quelle