Ich habe Mühe, keine überhöhten Verteilungen zu verstehen. Was sind Sie? Was ist der Sinn?
Wenn ich Daten mit vielen Nullen habe, könnte ich eine logistische Regression anpassen, zuerst die Wahrscheinlichkeit von Nullen berechnen und dann alle Nullen entfernen und dann eine reguläre Regression mithilfe meiner Verteilungswahl anpassen (Poisson z. B.).
Dann sagte mir jemand: "Hey, benutze eine aufgeblasene Nullverteilung", aber wenn ich nachschaue, scheint es nichts anderes zu tun als das, was ich oben vorgeschlagen habe? Es hat einen regulären Parameter und dann einen weiteren Parameter p zur Modellierung der Wahrscheinlichkeit von Null? Es macht einfach beide Dinge gleichzeitig nein?
zero-inflation
Calro
quelle
quelle
Antworten:
Du hast absolut recht. Dies ist eine Möglichkeit, ein Modell mit Null-Inflation anzupassen (oder, wie Achim Zeileis in den Kommentaren ausführt, ein "Hürdenmodell", das man als Sonderfall eines Modells mit Null-Inflation ansehen könnte).
Der Unterschied zwischen dem von Ihnen beschriebenen Verfahren und einem "All-in-One" -Null-Inflationsmodell besteht in der Fehlerausbreitung. Wie bei allen anderen zweistufigen Verfahren in der Statistik berücksichtigt die Gesamtunsicherheit Ihrer Vorhersagen in Schritt 2 nicht die Unsicherheit, ob die Vorhersage 0 sein sollte oder nicht.
Manchmal ist das ein notwendiges Übel. Zum Glück ist dies in diesem Fall nicht erforderlich. In R können Sie
pscl::hurdle()
oder verwendenfitdistrplus::fitdist()
.quelle
pscl::hurdle()
. B. ) bezeichnet. Und um eine korrekte Anpassung zu erzielen, sollte die für die Daten ohne Nullen verwendete Verteilung abgeschnitten werden (oder überhaupt nicht zu Nullen führen). Siehe meine Antwort für weitere Details.Die Grundidee, die Sie beschreiben, ist ein gültiger Ansatz und wird oft als Hürdenmodell (oder zweiteiliges Modell) und nicht als Null-Inflations-Modell bezeichnet .
Es ist jedoch entscheidend, dass das Modell für die Nicht-Null-Daten berücksichtigt, dass die Nullen entfernt wurden. Wenn Sie ein Poisson-Modell an die Daten ohne Nullen anpassen, führt dies mit ziemlicher Sicherheit zu einer schlechten Anpassung, da die Poisson-Verteilung immer eine positive Wahrscheinlichkeit für Null aufweist. Die natürliche Alternative ist die Verwendung einer Poisson-Verteilung mit Nullen als klassischer Ansatz zur Hürdenregression für Zähldaten.
Der Hauptunterschied zwischen Null-Inflationsmodellen und Hürdenmodellen besteht darin, welche Wahrscheinlichkeit im binären Teil der Regression modelliert wird. Für Hürdenmodelle ist es einfach die Wahrscheinlichkeit von Null gegen Nicht-Null. Bei Modellen mit Null-Inflation ist es wahrscheinlich, dass die Null überschritten wird , dh die Wahrscheinlichkeit einer Null, die nicht durch die nicht aufgeblasene Verteilung verursacht wird (z. B. Poisson).
Eine Beschreibung der Hürden- und Nullinflationsmodelle für Zähldaten in R finden Sie in unserem Manuskript, das in JSS veröffentlicht und auch als Vignette an das
pscl
Paket gesendet wurde : http://dx.doi.org/10.18637/jss.v027.i08quelle
Was ssdecontrol gesagt hat, ist sehr richtig. Aber ich möchte der Diskussion ein paar Cent hinzufügen.
Ich habe mir gerade den Vortrag über Zero Inflated-Modelle für Zähldaten von Richard McElreath auf YouTube angesehen.
Es ist sinnvoll, p zu schätzen, während Sie die Variablen steuern, die die Rate des reinen Poisson-Modells erklären, insbesondere wenn Sie berücksichtigen, dass die Wahrscheinlichkeit, dass eine beobachtete Null aus der Poisson-Verteilung stammt, nicht 100% beträgt.
Es ist auch sinnvoll, wenn Sie die Parameter des Modells berücksichtigen, da Sie am Ende zwei Variablen zum Schätzen haben, p und die Rate des Poisson-Modells, sowie zwei Gleichungen. Dies ist der Fall, wenn count Null ist und der Fall, wenn count sich von unterscheidet Null.
Bildquelle: Statistisches Umdenken - Ein Bayesianischer Kurs mit Beispielen in R und Stan von Richard McElreath
Bearbeiten : Tippfehler
quelle