Keine überhöhten Verteilungen, was sind sie wirklich?

15

Ich habe Mühe, keine überhöhten Verteilungen zu verstehen. Was sind Sie? Was ist der Sinn?

Wenn ich Daten mit vielen Nullen habe, könnte ich eine logistische Regression anpassen, zuerst die Wahrscheinlichkeit von Nullen berechnen und dann alle Nullen entfernen und dann eine reguläre Regression mithilfe meiner Verteilungswahl anpassen (Poisson z. B.).

Dann sagte mir jemand: "Hey, benutze eine aufgeblasene Nullverteilung", aber wenn ich nachschaue, scheint es nichts anderes zu tun als das, was ich oben vorgeschlagen habe? Es hat einen regulären Parameter und dann einen weiteren Parameter p zur Modellierung der Wahrscheinlichkeit von Null? Es macht einfach beide Dinge gleichzeitig nein?μp

Calro
quelle
3
Warum entfernst du alle Nullen? Sie können es zusammen machen, indem Sie zuerst die Wahrscheinlichkeit von 0 und 1 berechnen und diese als Gewicht für Ihre Poisson-Verteilung verwenden, die ein Null-Inflationsmodell (Verteilung) ist. Lesen Sie dies, es ist ziemlich klar, en.wikipedia.org/wiki/Zero-inflated_model
Deep North

Antworten:

13

Anpassen einer logistischen Regression Berechnen Sie zuerst die Wahrscheinlichkeit von Nullen. Dann könnte ich alle Nullen entfernen und dann eine reguläre Regression mithilfe meiner Verteilungswahl anpassen (z. B. Poisson).

Du hast absolut recht. Dies ist eine Möglichkeit, ein Modell mit Null-Inflation anzupassen (oder, wie Achim Zeileis in den Kommentaren ausführt, ein "Hürdenmodell", das man als Sonderfall eines Modells mit Null-Inflation ansehen könnte).

Der Unterschied zwischen dem von Ihnen beschriebenen Verfahren und einem "All-in-One" -Null-Inflationsmodell besteht in der Fehlerausbreitung. Wie bei allen anderen zweistufigen Verfahren in der Statistik berücksichtigt die Gesamtunsicherheit Ihrer Vorhersagen in Schritt 2 nicht die Unsicherheit, ob die Vorhersage 0 sein sollte oder nicht.

Manchmal ist das ein notwendiges Übel. Zum Glück ist dies in diesem Fall nicht erforderlich. In R können Sie pscl::hurdle()oder verwenden fitdistrplus::fitdist().

Shadowtalker
quelle
Können Sie dies erklären, "die allgemeine Unsicherheit Ihrer Vorhersagen in Schritt 2 berücksichtigt nicht die Unsicherheit, ob die Vorhersage 0 sein sollte oder nicht"? Wenn Sie eine Zip Poisson durchführen, multiplizieren Sie die Wahrscheinlichkeit des ersten Teils mit der Wahrscheinlichkeitsfunktion des Poisson-Modells. Daher berücksichtigt Schritt 2 die Unsicherheit der 0 oder 1.
Deep North
1
@DeepNorth wenn du mit "Unsicherheit der 0 oder 1" so etwas meinst P(Y.=1|X=x)=0,51, dann ist diese Aussage selbst eine Schätzung. Da es sich um eine Schätzung handelt, besteht ein gewisses Maß an Unsicherheit. Was ist der Bereich plausibler Werte? Wie zuversichtlich sind wir das0,51ist richtig? Das ist die Unsicherheit, die sich in einem einfachen zweistufigen Verfahren nicht ausbreitet.
Shadowtalker
3
@ssdecontrol Normalerweise wird dies nicht als Null-Inflations-Modell, sondern als Hürdenmodell (z pscl::hurdle(). B. ) bezeichnet. Und um eine korrekte Anpassung zu erzielen, sollte die für die Daten ohne Nullen verwendete Verteilung abgeschnitten werden (oder überhaupt nicht zu Nullen führen). Siehe meine Antwort für weitere Details.
Achim Zeileis
9

Die Grundidee, die Sie beschreiben, ist ein gültiger Ansatz und wird oft als Hürdenmodell (oder zweiteiliges Modell) und nicht als Null-Inflations-Modell bezeichnet .

Es ist jedoch entscheidend, dass das Modell für die Nicht-Null-Daten berücksichtigt, dass die Nullen entfernt wurden. Wenn Sie ein Poisson-Modell an die Daten ohne Nullen anpassen, führt dies mit ziemlicher Sicherheit zu einer schlechten Anpassung, da die Poisson-Verteilung immer eine positive Wahrscheinlichkeit für Null aufweist. Die natürliche Alternative ist die Verwendung einer Poisson-Verteilung mit Nullen als klassischer Ansatz zur Hürdenregression für Zähldaten.

Der Hauptunterschied zwischen Null-Inflationsmodellen und Hürdenmodellen besteht darin, welche Wahrscheinlichkeit im binären Teil der Regression modelliert wird. Für Hürdenmodelle ist es einfach die Wahrscheinlichkeit von Null gegen Nicht-Null. Bei Modellen mit Null-Inflation ist es wahrscheinlich, dass die Null überschritten wird , dh die Wahrscheinlichkeit einer Null, die nicht durch die nicht aufgeblasene Verteilung verursacht wird (z. B. Poisson).

Eine Beschreibung der Hürden- und Nullinflationsmodelle für Zähldaten in R finden Sie in unserem Manuskript, das in JSS veröffentlicht und auch als Vignette an das psclPaket gesendet wurde : http://dx.doi.org/10.18637/jss.v027.i08

Achim Zeileis
quelle
7

Was ssdecontrol gesagt hat, ist sehr richtig. Aber ich möchte der Diskussion ein paar Cent hinzufügen.

Ich habe mir gerade den Vortrag über Zero Inflated-Modelle für Zähldaten von Richard McElreath auf YouTube angesehen.

Es ist sinnvoll, p zu schätzen, während Sie die Variablen steuern, die die Rate des reinen Poisson-Modells erklären, insbesondere wenn Sie berücksichtigen, dass die Wahrscheinlichkeit, dass eine beobachtete Null aus der Poisson-Verteilung stammt, nicht 100% beträgt.

Null aufgeblasene Verteilungen als Mehrebenenmodell

Es ist auch sinnvoll, wenn Sie die Parameter des Modells berücksichtigen, da Sie am Ende zwei Variablen zum Schätzen haben, p und die Rate des Poisson-Modells, sowie zwei Gleichungen. Dies ist der Fall, wenn count Null ist und der Fall, wenn count sich von unterscheidet Null.

Bildquelle: Statistisches Umdenken - Ein Bayesianischer Kurs mit Beispielen in R und Stan von Richard McElreath

Bearbeiten : Tippfehler

Guilherme Marthe
quelle
Verweise auf Lernmaterialien sind erwünscht ... aber wie beantwortet dies die vorliegende Frage? Dies sieht aus wie ein Kommentar als Antwort gepostet ...
RTbecard