Ich verstehe, dass für bestimmte Datensätze wie die Abstimmung eine bessere Leistung erzielt wird. Warum wird die Poisson-Regression anstelle der normalen linearen oder logistischen Regression verwendet? Was ist die mathematische Motivation dafür?
count-data
poisson-regression
zaxtax
quelle
quelle
Antworten:
Poisson-verteilte Daten sind von Natur aus ganzzahlig, was für Zähldaten sinnvoll ist. Ordentliche kleinste Quadrate (OLS, die Sie als "lineare Regression" bezeichnen) setzen voraus, dass wahre Werte normalerweise um den erwarteten Wert verteilt sind und jeden beliebigen realen Wert annehmen können, egal ob positiv oder negativ, ganzzahlig oder gebrochen. Schließlich funktioniert die logistische Regression nur für Daten mit einem Wert von 0 bis 1 (WAHR-FALSCH-Wert), z. B. "hat eine Krankheit" oder "hat die Krankheit nicht". Daher ist die Poisson-Verteilung für Zähldaten am sinnvollsten.
Trotzdem ist eine Normalverteilung für Daten mit einem Mittelwert über 30 oder so oft eine gute Annäherung an eine Poisson-Verteilung. In einem Regressions-Framework, in dem die Anzahl durch Prädiktoren beeinflusst wird, ist ein OLS mit seiner Normalverteilung möglicherweise einfacher anzupassen und allgemeiner, da die Poisson-Verteilung und die Regression davon ausgehen, dass der Mittelwert und die Varianz gleich sind, während OLS kann mit ungleichen Mitteln und Varianzen umgehen - für ein Zähldatenmodell mit unterschiedlichen Mitteln und Varianzen könnte man beispielsweise eine negative Binomialverteilung verwenden .
quelle
Dies liegt im Wesentlichen daran, dass durch lineare und logistische Regression die falschen Annahmen darüber getroffen werden, wie die Zählergebnisse aussehen. Stellen Sie sich Ihr Modell als einen sehr dummen Roboter vor, der Ihren Anweisungen unerbittlich folgt, egal wie unsinnig diese Anweisungen sind. Es fehlt ihm völlig die Fähigkeit zu bewerten, was Sie ihm sagen. Wenn Sie Ihrem Roboter mitteilen, dass so etwas wie Stimmen kontinuierlich von negativ bis unendlich verteilt werden, glauben Sie, dass Stimmen gleich sind, und dies kann zu unsinnigen Vorhersagen führen (Ross Perot wird bei den kommenden Wahlen -10.469 Stimmen erhalten).
Umgekehrt ist die Poisson-Verteilung diskret und positiv (oder Null ... Null zählt als positiv, ja?). Zumindest wird dies Ihren Roboter dazu zwingen, Ihnen Antworten zu geben, die im wirklichen Leben tatsächlich vorkommen könnten. Sie können gute Antworten sein oder auch nicht , aber sie werden zumindest aus dem möglichen Satz von "Anzahl der abgegebenen Stimmen" gezogen.
Natürlich hat der Poisson seine eigenen Probleme: Er geht davon aus, dass der Mittelwert der Stimmenzahlvariablen auch der Varianz entspricht. Ich weiß nicht, ob ich jemals ein nicht erfundenes Beispiel gesehen habe, in dem dies wahr war. Glücklicherweise haben sich kluge Köpfe andere Verteilungen ausgedacht, die ebenfalls positiv und diskret sind, die jedoch Parameter hinzufügen, um die Varianz variieren zu lassen (z. B. negative binomiale Regression).
quelle
Über diese und die Maximum-Likelihood-Methode und verallgemeinerte lineare Modelle (oder eine andere Methode) gelangen Sie zur Poisson-Regression .
In einfachen Worten ist die Poisson-Regression das Modell, das den Annahmen des zugrunde liegenden Zufallsprozesses entspricht und eine kleine Anzahl von Ereignissen mit einer Rate (dh Anzahl pro Zeiteinheit) erzeugt, die von anderen Variablen im Modell bestimmt wird.
quelle
Andere haben im Grunde das Gleiche gesagt, aber ich dachte, ich würde meine Meinung dazu hinzufügen. Es hängt davon ab, was Sie genau tun, aber häufig möchten wir das Problem / die Daten zur Hand haben. Dies ist ein etwas anderer Ansatz als die Erstellung eines Modells, das ziemlich gut prognostiziert. Wenn wir versuchen zu verstehen, was vor sich geht, ist es sinnvoll, die Zähldaten mit einer nicht-negativen Verteilung zu modellieren, die die Masse nur auf ganzzahlige Werte setzt. Wir haben auch viele Ergebnisse, die darauf hinauslaufen, dass unter bestimmten Bedingungen die Zählung der Daten tatsächlich erfolgtals poisson verteilt. Wenn es also unser Ziel ist, das Problem zu konzipieren, ist es wirklich sinnvoll, ein Poisson als Antwortvariable zu verwenden. Andere haben auf andere Gründe hingewiesen, warum dies eine gute Idee ist. Wenn Sie jedoch wirklich versuchen, das Problem zu konzipieren und wirklich zu verstehen, wie die angezeigten Daten generiert werden können, ist die Verwendung einer Poisson-Regression in einigen Situationen sehr sinnvoll.
quelle
Mein Verständnis ist in erster Linie, weil die Zählungen immer positiv und diskret sind. Der Poisson kann solche Daten mit einem Parameter zusammenfassen. Der Hauptfang ist, dass die Varianz dem Mittelwert entspricht.
quelle