Vielen Dank für die interessante Frage!
Unterschied: Eine Einschränkung der Standardzählungsmodelle besteht darin, dass angenommen wird, dass die Nullen und die Nicht-Nullen (Positive) aus demselben Datenerzeugungsprozess stammen. Bei Hürdenmodellen müssen diese beiden Prozesse nicht identisch sein. Die Grundidee ist, dass eine Bernoulli-Wahrscheinlichkeit das binäre Ergebnis bestimmt, ob eine Zählvariable eine Null oder eine positive Realisierung hat. Wenn die Realisierung positiv ist, wird die Hürde überschritten, und die bedingte Verteilung der Positiven wird durch ein Datenmodell mit abgeschnittener Nullzählung bestimmt. Bei Modellen ohne LuftdruckDie Antwortvariable wird als Mischung aus einer Bernoulli-Verteilung (oder einer Punktmasse bei Null) und einer Poisson-Verteilung (oder einer anderen Zählerverteilung, die für nicht negative ganze Zahlen unterstützt wird) modelliert. Weitere Einzelheiten und Formeln finden Sie beispielsweise in Gurmu und Trivedi (2011) und Dalrymple, Hudson und Ford (2003).
Beispiel: Hürdenmodelle können durch sequenzielle Entscheidungsprozesse motiviert werden, mit denen Einzelpersonen konfrontiert sind. Sie entscheiden zuerst, ob Sie etwas kaufen müssen, und dann über die Menge dieses Etwas (die positiv sein muss). Wenn Sie nach Ihrer Kaufentscheidung nichts kaufen dürfen (oder können), ist dies ein Beispiel für eine Situation, in der ein Null-Inflations-Modell angemessen ist. Nullen können aus zwei Quellen stammen: a) keine Kaufentscheidung; b) wollte kaufen, kaufte aber nichts (z. B. nicht vorrätig).
Beta: Das Hürdenmodell ist ein Sonderfall des in Kapitel 16 von Frees (2011) beschriebenen zweiteiligen Modells. Dort werden wir sehen, dass für zweiteilige Modelle die Menge der in Anspruch genommenen Gesundheitsversorgung sowohl eine kontinuierliche als auch eine Zählvariable sein kann. Was in der Literatur etwas verwirrenderweise als "null-aufgeblasene Beta-Verteilung" bezeichnet wurde, gehört in der Tat zur Klasse der zweiteiligen Verteilungen und Modelle (die in der Aktuarwissenschaft so verbreitet sind), was mit der obigen Definition eines Hürdenmodells übereinstimmt . In diesem hervorragenden Buch wurden Modelle ohne Inflation in Abschnitt 12.4.1 und Hürdenmodelle in Abschnitt 12.4.2 mit Formeln und Beispielen aus versicherungsmathematischen Anwendungen behandelt.
Vorgeschichte: Null-aufgepumpte Poisson-Modelle (ZIP-Modelle) ohne Kovariaten haben eine lange Vorgeschichte (siehe z. B. Johnson und Kotz, 1969). Die allgemeine Form von ZIP-Regressionsmodellen mit Kovariaten geht auf Lambert (1992) zurück. Hürdenmodelle wurden zuerst von einem kanadischen Statistiker Cragg (1971) vorgeschlagen und später von Mullahy (1986) weiterentwickelt. Sie können auch Croston (1972) in Betracht ziehen, bei dem positive geometrische Zählwerte zusammen mit dem Bernoulli-Prozess verwendet werden, um einen ganzzahligen Prozess zu beschreiben, der von Nullen dominiert wird.
R: Wenn Sie R verwenden, gibt es schließlich das Paket pscl für "Classes and Methods for R", das im Political Science Computational Laboratory von Simon Jackman entwickelt wurde und die Funktionen hurdle () und zeroinfl () von Achim Zeileis enthält.
Die folgenden Referenzen wurden konsultiert, um die oben genannten zu produzieren:
- Gurmu, S. & Trivedi, PK Überschüssige Nullen in Zählmodellen für Urlaubsreisen Journal of Business & Economic Statistics, 1996, 14, 469-477
- Johnson, N., Kotz, S., Verteilungen in der Statistik: Diskrete Verteilungen. 1969, Houghton Mizin, Boston
- Lambert, D., Null aufgeblasene Poisson-Regression mit Anwendung auf Herstellungsfehler. Technometrics, 1992, 34 (1), 1–14.
- Cragg, JG Einige statistische Modelle für begrenzte abhängige Variablen mit Anwendung auf die Nachfrage nach langlebigen Gütern Econometrica, 1971, 39, 829-844
- Mullahy, J. Spezifikation und Prüfung einiger modifizierter Zähldatenmodelle Journal of Econometrics, 1986, 33, 341-365
- Frees, EW Regressionsmodellierung mit versicherungsmathematischen und finanziellen Anwendungen Cambridge University Press, 2011
- Dalrymple, ML; Hudson, IL & Ford, RPK Finite Mixture, Zero-Inflated Poisson and Hurdle-Modelle mit Anwendung auf SIDS Computational Statistics & Data Analysis, 2003, 41, 491-504
- Croston, JD Forecasting and Stock Control für intermittierende Anforderungen Operational Research Quarterly, 1972, 23, 289-303
Hürdenmodelle setzen voraus, dass es nur einen Prozess gibt, mit dem eine Null erzeugt werden kann, während Modelle mit Null-Inflation davon ausgehen, dass es zwei verschiedene Prozesse gibt, mit denen eine Null erzeugt werden kann.
Hürdenmodelle gehen von zwei Arten von Probanden aus: (1) diejenigen, die das Ergebnis nie erfahren, und (2) diejenigen, die das Ergebnis immer mindestens einmal erleben. Zero-Inflated-Modelle konzipieren Subjekte als (1) diejenigen, die das Ergebnis nie erfahren, und (2) diejenigen, die das Ergebnis erfahren können, dies aber nicht immer tun.
In einfachen Worten: Sowohl Modelle mit Null-Luftdruck als auch Modelle mit Hürden werden in zwei Teilen beschrieben.
Der zweite Teil ist der Zählteil, der auftritt, wenn das System eingeschaltet ist. Dies ist der Punkt, an dem sich Modelle ohne Luftdruck und mit Hürden unterscheiden. In Modellen mit Null-Inflation können die Zählwerte immer noch Null sein. In Hürdenmodellen müssen sie ungleich Null sein. Für diesen Teil verwenden Modelle mit Null-Inflation eine "übliche" diskrete Wahrscheinlichkeitsverteilung, während Hürdenmodelle eine diskrete Wahrscheinlichkeitsverteilungsfunktion mit Null-Trunkierung verwenden.
Beispiel eines Hürdenmodells: Ein Automobilhersteller möchte zwei Qualitätskontrollprogramme für seine Automobile vergleichen. Sie werden anhand der Anzahl der eingereichten Garantieansprüche verglichen. Für jedes Programm wird eine Reihe zufällig ausgewählter Kunden 1 Jahr lang verfolgt und die Anzahl der von ihnen eingereichten Garantieansprüche gezählt. Die Inflationswahrscheinlichkeiten für jedes der beiden Programme werden dann verglichen. Der Status "Aus" ist "Keine Ansprüche eingereicht", während der Status "Ein" "Mindestens eine Forderung eingereicht" ist.
Beispiel für ein Modell ohne Luftdruck: In derselben Studie haben die Forscher herausgefunden, dass einige Reparaturen an den Automobilen ohne Einreichung eines Garantieanspruchs repariert wurden. Auf diese Weise sind die Nullen eine Mischung aus dem Fehlen von Qualitätskontrollproblemen und dem Vorhandensein von Qualitätskontrollproblemen, für die keine Garantieansprüche geltend gemacht wurden. Der Status "Aus" bedeutet "Keine Ansprüche eingereicht", während der Status "Ein" bedeutet "Mindestens eine Forderung eingereicht ODER Reparaturen repariert wurden, ohne eine Forderung einzureichen."
Sehen Sie hier für eine Studie , in der beide Arten von Modellen auf den gleichen Datensatz angewendet wurden.
quelle
quelle
In Bezug auf Hürdenmodelle ist hier ein Zitat aus den Fortschritten in der mathematischen und statistischen Modellierung (Arnold, Balakrishnan, Sarabia, & Mínguez, 2008):
Für Modelle ohne Luftdruck sagt Wikipedia :
Von Arnold und Kollegen (2008) sehe ich, dass ein Hürdenmodell ein Sonderfall der allgemeineren Klasse von Hürdenmodellen ist, aber aus einer Referenz auf Wikipedia ( Hall, 2004 ) sehe ich auch, dass einige Nullmodelle aufgeblasene Modelle können nach oben begrenzt werden. Ich verstehe den Unterschied in den Formeln nicht ganz, aber sie scheinen ziemlich ähnlich zu sein (beide verwenden sogar ein sehr ähnliches Beispiel, Versicherungsansprüche). Ich hoffe, dass andere Antworten dazu beitragen können, wichtige Unterschiede zu erklären, und dass diese Antwort dazu beiträgt, die Voraussetzungen für diese zu schaffen.
Wikipedia's Hinweis:
quelle