Bitte entschuldigen Sie im Voraus, falls eine der von mir verwendeten Begriffe nicht korrekt ist. Ich würde jede Korrektur begrüßen. Wenn das, was ich als "Abschaltung" beschreibe, einen anderen Namen hat, lass es mich wissen und ich kann die Frage aktualisieren.
Die Situation, die mich interessiert, ist folgende: Sie haben unabhängige Variablen und eine einzelne abhängige Variable . Ich lasse es vage, gehe aber davon aus, dass es relativ einfach wäre, ein gutes Regressionsmodell für diese Variablen zu erhalten.
a y y w
Ein (etwas unrealistisches) Beispiel dafür wäre, wenn Sie versuchen, zu modellieren, für wie viele Jahre Menschen ihre Rente beziehen werden. In diesem Fall könnte relevante Informationen wie Geschlecht, Gewicht, Stunden Training pro Woche usw. sein. Die zugrunde liegende Variable wäre die Lebenserwartung. Die Variable, auf die Sie Zugriff haben und die Sie in Ihrem Modell vorhersagen möchten, ist jedoch wobei r das Rentenalter ist (der Einfachheit halber vorausgesetzt, es ist fest). y w = min ( 0 , y - r )
Gibt es bei der Regressionsmodellierung einen guten Ansatz, um damit umzugehen?
quelle
Antworten:
Diese Art von Modell hat je nach Disziplin und Themenbereich mehrere Namen. Gebräuchliche Bezeichnungen dafür sind Censored Dependent Variables (Zensierte abhängige Variablen), Truncated Dependent Variables (Abgeschnittene abhängige Variablen), Limited Dependent Variables (Begrenzte abhängige Variablen), Survival Analysis (Überlebensanalyse), Tobit (Tobit) und Censored Regression (Zensierte Regression). Ich lasse wahrscheinlich einige andere Namen aus.
Das Setup, das Sie vorschlagen, wo beobachtet wird, wird als "richtige Zensur" bezeichnet, da Werte von y i zu weit rechts auf der realen Linie zensiert werden - und stattdessen sehen wir nur den Zensurpunkt, a .min{yi,a} yi a
Eine Möglichkeit, mit solchen Daten umzugehen, ist die Verwendung latenter Variablen (und dies ist im Grunde das, was Sie vorschlagen). Hier ist eine Möglichkeit, um fortzufahren:
Dann können Sie dies mit maximaler Wahrscheinlichkeit analysieren. Die Beobachtungen, bei denen die Zensur stattfindet, tragen bei zur Wahrscheinlichkeitsfunktion und die Beobachtungen, bei denen keine Zensur stattfindet, tragen1 beiP{yi>a}=Φ(1σx′iβ−a) auf die Wahrscheinlichkeitsfunktion. Die CDF der Standardnormalen istΦund die Dichte der Standardnormalen istϕ. Die Wahrscheinlichkeitsfunktion sieht also so aus:1σϕ((yi−x′iβ)/σ) Φ ϕ
Sie schätzen und σ, indem Sie dies maximieren. Sie erhalten Standardfehler als die üblichen Standardfehler mit maximaler Wahrscheinlichkeit.β σ
Wie Sie sich vorstellen können, ist dies nur ein Ansatz unter vielen.
quelle