Was ist der Unterschied zwischen Null-Inflations- und Hürdenmodellen?

81

Ich frage mich, ob es einen deutlichen Unterschied zwischen den sogenannten Null-Inflations-Verteilungen (Modellen) und den sogenannten Hürden-bei-Null-Verteilungen (Modellen) gibt. Die Begriffe kommen in der Literatur häufig vor, und ich vermute, dass sie nicht gleich sind. Erklären Sie mir bitte den Unterschied in einfachen Begriffen.

zero-inflation Skulker
quelle

80

Vielen Dank für die interessante Frage!

Unterschied: Eine Einschränkung der Standardzählungsmodelle besteht darin, dass angenommen wird, dass die Nullen und die Nicht-Nullen (Positive) aus demselben Datenerzeugungsprozess stammen. Bei Hürdenmodellen müssen diese beiden Prozesse nicht identisch sein. Die Grundidee ist, dass eine Bernoulli-Wahrscheinlichkeit das binäre Ergebnis bestimmt, ob eine Zählvariable eine Null oder eine positive Realisierung hat. Wenn die Realisierung positiv ist, wird die Hürde überschritten, und die bedingte Verteilung der Positiven wird durch ein Datenmodell mit abgeschnittener Nullzählung bestimmt. Bei Modellen ohne LuftdruckDie Antwortvariable wird als Mischung aus einer Bernoulli-Verteilung (oder einer Punktmasse bei Null) und einer Poisson-Verteilung (oder einer anderen Zählerverteilung, die für nicht negative ganze Zahlen unterstützt wird) modelliert. Weitere Einzelheiten und Formeln finden Sie beispielsweise in Gurmu und Trivedi (2011) und Dalrymple, Hudson und Ford (2003).

Beispiel: Hürdenmodelle können durch sequenzielle Entscheidungsprozesse motiviert werden, mit denen Einzelpersonen konfrontiert sind. Sie entscheiden zuerst, ob Sie etwas kaufen müssen, und dann über die Menge dieses Etwas (die positiv sein muss). Wenn Sie nach Ihrer Kaufentscheidung nichts kaufen dürfen (oder können), ist dies ein Beispiel für eine Situation, in der ein Null-Inflations-Modell angemessen ist. Nullen können aus zwei Quellen stammen: a) keine Kaufentscheidung; b) wollte kaufen, kaufte aber nichts (z. B. nicht vorrätig).

Beta: Das Hürdenmodell ist ein Sonderfall des in Kapitel 16 von Frees (2011) beschriebenen zweiteiligen Modells. Dort werden wir sehen, dass für zweiteilige Modelle die Menge der in Anspruch genommenen Gesundheitsversorgung sowohl eine kontinuierliche als auch eine Zählvariable sein kann. Was in der Literatur etwas verwirrenderweise als "null-aufgeblasene Beta-Verteilung" bezeichnet wurde, gehört in der Tat zur Klasse der zweiteiligen Verteilungen und Modelle (die in der Aktuarwissenschaft so verbreitet sind), was mit der obigen Definition eines Hürdenmodells übereinstimmt . In diesem hervorragenden Buch wurden Modelle ohne Inflation in Abschnitt 12.4.1 und Hürdenmodelle in Abschnitt 12.4.2 mit Formeln und Beispielen aus versicherungsmathematischen Anwendungen behandelt.

Vorgeschichte: Null-aufgepumpte Poisson-Modelle (ZIP-Modelle) ohne Kovariaten haben eine lange Vorgeschichte (siehe z. B. Johnson und Kotz, 1969). Die allgemeine Form von ZIP-Regressionsmodellen mit Kovariaten geht auf Lambert (1992) zurück. Hürdenmodelle wurden zuerst von einem kanadischen Statistiker Cragg (1971) vorgeschlagen und später von Mullahy (1986) weiterentwickelt. Sie können auch Croston (1972) in Betracht ziehen, bei dem positive geometrische Zählwerte zusammen mit dem Bernoulli-Prozess verwendet werden, um einen ganzzahligen Prozess zu beschreiben, der von Nullen dominiert wird.

R: Wenn Sie R verwenden, gibt es schließlich das Paket pscl für "Classes and Methods for R", das im Political Science Computational Laboratory von Simon Jackman entwickelt wurde und die Funktionen hurdle () und zeroinfl () von Achim Zeileis enthält.

Die folgenden Referenzen wurden konsultiert, um die oben genannten zu produzieren:

Gurmu, S. & Trivedi, PK Überschüssige Nullen in Zählmodellen für Urlaubsreisen Journal of Business & Economic Statistics, 1996, 14, 469-477
Johnson, N., Kotz, S., Verteilungen in der Statistik: Diskrete Verteilungen. 1969, Houghton Mizin, Boston
Lambert, D., Null aufgeblasene Poisson-Regression mit Anwendung auf Herstellungsfehler. Technometrics, 1992, 34 (1), 1–14.
Cragg, JG Einige statistische Modelle für begrenzte abhängige Variablen mit Anwendung auf die Nachfrage nach langlebigen Gütern Econometrica, 1971, 39, 829-844
Mullahy, J. Spezifikation und Prüfung einiger modifizierter Zähldatenmodelle Journal of Econometrics, 1986, 33, 341-365
Frees, EW Regressionsmodellierung mit versicherungsmathematischen und finanziellen Anwendungen Cambridge University Press, 2011
Dalrymple, ML; Hudson, IL & Ford, RPK Finite Mixture, Zero-Inflated Poisson and Hurdle-Modelle mit Anwendung auf SIDS Computational Statistics & Data Analysis, 2003, 41, 491-504
Croston, JD Forecasting and Stock Control für intermittierende Anforderungen Operational Research Quarterly, 1972, 23, 289-303

Winterschlaf halten
quelle

2

Ist ein Hürdenmodell dann wirklich selbst ein "Modell"? Oder werden zwei sequenzielle und getrennt geschätzte Modelle ausgeführt? Stellen Sie sich vor, Sie modellieren die Wettbewerbsfähigkeit von Wahlkämpfen anhand der Wettbewerbsfähigkeitswerte (1 - Gewinnspanne). Dies ist begrenzt [0, 1), weil es keine Bindungen gibt (zB 1). Also führen wir zuerst eine logistische Regression durch, um 0 vs. (0, 1) zu analysieren. Dann führen wir eine Beta-Regression durch, um die (0, 1) -Fälle zu analysieren. Es scheint, als wären dies zwei völlig unterschiedliche Modelle mit eigenen Koeffizienten und getrennter Schätzung? Oder vermisse ich etwas?

Mark White

Zum Beispiel erwähnen Sie in Ihrer Antwort, dass Nullen darauf zurückzuführen sein könnten, (a) dass Sie sich entschieden haben, kein Auto zu kaufen, oder (b) dass Sie es wollten, aber es war nicht vorrätig. Es scheint, als ob ein Hürdenmodell nicht in der Lage wäre, zwischen den beiden zu unterscheiden, da sie nacheinander durchgeführt werden ...?

Mark White

Stellen Sie sich ein anderes Beispiel vor: Die Antworten lauten [1, 7] wie bei einer herkömmlichen Likert-Skala mit einem enormen Deckeneffekt von 7. Man könnte ein Hürdenmodell erstellen, das eine logistische Regression von [1, 7) gegenüber 7 und dann eine Tobit-Regression darstellt Für alle Fälle, in denen die beobachteten Antworten <7 sind, erhalten wir zwei Regressionskoeffizientensätze, die separat geschätzt werden. Es scheint, als würden wir diese Prozesse nicht gemeinsam modellieren, sondern in zwei völlig unterschiedlichen Modellen? Handelt es sich bei der Hürde tatsächlich um ein Modell oder nur um den Vorgang, zwei verschiedene Arten von verallgemeinerten linearen Modellen hintereinander auszuführen?

Mark White

Ich habe diese Frage in meinem eigenen Beitrag hier erweitert: stats.stackexchange.com/questions/320924/…

Mark White

47

Hürdenmodelle setzen voraus, dass es nur einen Prozess gibt, mit dem eine Null erzeugt werden kann, während Modelle mit Null-Inflation davon ausgehen, dass es zwei verschiedene Prozesse gibt, mit denen eine Null erzeugt werden kann.

Hürdenmodelle gehen von zwei Arten von Probanden aus: (1) diejenigen, die das Ergebnis nie erfahren, und (2) diejenigen, die das Ergebnis immer mindestens einmal erleben. Zero-Inflated-Modelle konzipieren Subjekte als (1) diejenigen, die das Ergebnis nie erfahren, und (2) diejenigen, die das Ergebnis erfahren können, dies aber nicht immer tun.

In einfachen Worten: Sowohl Modelle mit Null-Luftdruck als auch Modelle mit Hürden werden in zwei Teilen beschrieben.

$\pi$ $1-\pi$ $\pi$

Der zweite Teil ist der Zählteil, der auftritt, wenn das System eingeschaltet ist. Dies ist der Punkt, an dem sich Modelle ohne Luftdruck und mit Hürden unterscheiden. In Modellen mit Null-Inflation können die Zählwerte immer noch Null sein. In Hürdenmodellen müssen sie ungleich Null sein. Für diesen Teil verwenden Modelle mit Null-Inflation eine "übliche" diskrete Wahrscheinlichkeitsverteilung, während Hürdenmodelle eine diskrete Wahrscheinlichkeitsverteilungsfunktion mit Null-Trunkierung verwenden.

Beispiel eines Hürdenmodells: Ein Automobilhersteller möchte zwei Qualitätskontrollprogramme für seine Automobile vergleichen. Sie werden anhand der Anzahl der eingereichten Garantieansprüche verglichen. Für jedes Programm wird eine Reihe zufällig ausgewählter Kunden 1 Jahr lang verfolgt und die Anzahl der von ihnen eingereichten Garantieansprüche gezählt. Die Inflationswahrscheinlichkeiten für jedes der beiden Programme werden dann verglichen. Der Status "Aus" ist "Keine Ansprüche eingereicht", während der Status "Ein" "Mindestens eine Forderung eingereicht" ist.

Beispiel für ein Modell ohne Luftdruck: In derselben Studie haben die Forscher herausgefunden, dass einige Reparaturen an den Automobilen ohne Einreichung eines Garantieanspruchs repariert wurden. Auf diese Weise sind die Nullen eine Mischung aus dem Fehlen von Qualitätskontrollproblemen und dem Vorhandensein von Qualitätskontrollproblemen, für die keine Garantieansprüche geltend gemacht wurden. Der Status "Aus" bedeutet "Keine Ansprüche eingereicht", während der Status "Ein" bedeutet "Mindestens eine Forderung eingereicht ODER Reparaturen repariert wurden, ohne eine Forderung einzureichen."

Sehen Sie hier für eine Studie , in der beide Arten von Modellen auf den gleichen Datensatz angewendet wurden.

Darren James
quelle

Danke für die ausführliche Antwort. Würden Sie sich überlegen, welche Terminologie für die Standard-Betaverteilung mit zusätzlichen Nullen angemessen ist? Verwenden Sie Ihre Definition von Null-aufgeblasenen Modelle gibt es eindeutig eine Quelle von Nullen , so dass es nicht Null-aufgeblasen bezeichnet werden kann ... Sehen Sie diese Diskussion stats.stackexchange.com/questions/81343/...

skulker

2

Ich mag "Null-Beta-Distribution hinzugefügt", wie von @Hibernating

Darren James am

10

$y_i$ $\pi$ $y_i$ $\lambda$ $1-\pi$

Pr (y_{j} = 0) = π + (1 - π) e^{- λ}

$\Pr (y_j = 0) = \pi + (1 - \pi) e^{-\lambda}$

Pr (y_{j} = X_{ich}) = (1 - π) \frac{λ^{X_{ich}} e^{- λ}}{X_{ich}!}, X_{ich} \geq 1

$\Pr (y_j = x_i) = (1 - \pi) \frac{\lambda^{x_i} e^{-\lambda}} {x_i!},\qquad x_i \ge 1$

$y_i$ $\pi$ $y_i$ $\lambda$ $1-\pi$

Pr (y_{j} = 0) = π

$\Pr (y_j = 0) = \pi$

Pr (y_{j} = X_{ich}) = \frac{(1 - π)}{1 - e^{- λ}} (\frac{λ^{X_{ich}} e^{- λ}}{X_{ich}!}), X_{ich} \geq 1

$\Pr (y_j = x_i) = \frac{(1 - \pi)} {1-e^{-\lambda}} (\frac{\lambda^{x_i} e^{-\lambda}} {x_i!}),\qquad x_i \ge 1$

Marzieh
quelle

4

In Bezug auf Hürdenmodelle ist hier ein Zitat aus den Fortschritten in der mathematischen und statistischen Modellierung (Arnold, Balakrishnan, Sarabia, & Mínguez, 2008):

$P(N_i=n_i)=f_1(0)$ $n_i=0$ $P(N_i=n_i)=\frac{1-f_1(0)}{1-f_2(0)}f_2(n_i)=\phi f_2(n_i)$ $n_i=1,2,...$

$\phi$

Für Modelle ohne Luftdruck sagt Wikipedia :

Ein Null-Inflations-Modell ist ein statistisches Modell, das auf einer Null-Inflations-Wahrscheinlichkeitsverteilung basiert, dh einer Verteilung, die häufige Nullwert-Beobachtungen ermöglicht.

$^{[1]}$
$Pr (y_{j} = 0) = π + (1 - π) e^{- λ}$ $\Pr (y_j = 0) = \pi + (1 - \pi) e^{-\lambda}$ $Pr (y_{j} = h_{ich}) = (1 - π) \frac{λ^{h_{ich}} e^{- λ}}{h_{ich}!}, h_{ich} \geq 1$ $\Pr (y_j = h_i) = (1 - \pi) \frac{\lambda^{h_i} e^{-\lambda}} {h_i!},\qquad h_i \ge 1$ $y_j$ $\lambda_i$ $i$ $\pi$

Von Arnold und Kollegen (2008) sehe ich, dass ein Hürdenmodell ein Sonderfall der allgemeineren Klasse von Hürdenmodellen ist, aber aus einer Referenz auf Wikipedia ( Hall, 2004 ) sehe ich auch, dass einige Nullmodelle aufgeblasene Modelle können nach oben begrenzt werden. Ich verstehe den Unterschied in den Formeln nicht ganz, aber sie scheinen ziemlich ähnlich zu sein (beide verwenden sogar ein sehr ähnliches Beispiel, Versicherungsansprüche). Ich hoffe, dass andere Antworten dazu beitragen können, wichtige Unterschiede zu erklären, und dass diese Antwort dazu beiträgt, die Voraussetzungen für diese zu schaffen.

Wikipedia's Hinweis:

Lambert, D. (1992). Null-aufgeblasene Poisson-Regression mit Anwendung auf Herstellungsfehler. Technometrics, 34 (1), 1–14.

Nick Stauner
quelle

Was ist der Unterschied zwischen Null-Inflations- und Hürdenmodellen?

Antworten: