Um die Antwort von @ ken-butler etwas zu erweitern. Wenn Sie sowohl die kontinuierliche Variable (Stunden) als auch eine Indikatorvariable für einen bestimmten Wert (Stunden = 0 oder Nichtstillen) addieren, glauben Sie, dass es einen linearen Effekt für den "nicht speziellen" Wert und einen diskreten Sprung im gibt vorhergesagtes Ergebnis zum Sonderwert. Es hilft (zumindest für mich), ein Diagramm zu betrachten. Im folgenden Beispiel modellieren wir den Stundenlohn als Funktion der Stunden pro Woche, die die Befragten (alle Frauen) arbeiten, und wir denken, dass "der Standard" 40 Stunden pro Woche etwas Besonderes ist:
Der Code, der dieses Diagramm erstellt hat (in Stata), ist hier zu finden: http://www.stata.com/statalist/archive/2013-03/msg00088.html
In diesem Fall haben wir der stetigen Variablen den Wert 40 zugewiesen, obwohl wir wollten, dass sie anders als die anderen Werte behandelt wird. In ähnlicher Weise würden Sie Ihren Wochen beim Stillen den Wert 0 geben, obwohl Sie der Meinung sind, dass er sich qualitativ von den anderen Werten unterscheidet. Ich interpretiere Ihren Kommentar unten so, dass Sie denken, dass dies ein Problem ist. Dies ist nicht der Fall und Sie müssen keinen Interaktionsbegriff hinzufügen. Tatsächlich wird dieser Interaktionsbegriff aufgrund der perfekten Kollinearität gelöscht, wenn Sie es versuchen. Dies ist keine Einschränkung, sondern zeigt nur an, dass die Interaktionsbedingungen keine neuen Informationen hinzufügen.
Angenommen, Ihre Regressionsgleichung sieht folgendermaßen aus:
y^=β1weeks_breastfeeding+β2non_breastfeeding+⋯
Wo die Anzahl der Wochen stillt (einschließlich dem Wert 0 für diejenigen , die nicht gestillt do) und n o n _ b R e a s t f e e d i n g ist eine Indikatorvariable, die 1 ist, wenn jemand nicht stillt, und 0, wenn er nicht stillt.weeks_breastfeedingnon_breastfeeding
Überlegen Sie, was passiert, wenn jemand stillt. Die Regressionsgleichung vereinfacht Folgendes:
y^=β1weeks_breastfeeding+β20+⋯=β1weeks_breastfeeding+⋯
So ist nur ein linearer Effekt der Anzahl der Wochen für die Stillen , die gestillt haben.β1
Überlegen Sie, was passiert, wenn jemand nicht stillt:
y^=β10+β21+⋯=β2+⋯
So gibt Ihnen die Wirkung der nicht still und die Anzahl der Wochen Tropfen aus der Gleichung stillen.β2
Sie können sehen, dass das Hinzufügen eines Interaktionsbegriffs nicht sinnvoll ist, da dieser Interaktionsbegriff bereits (implizit) vorhanden ist.
Es gibt jedoch etwas Seltsames an , da es den Effekt des Stillens misst, indem es das erwartete Ergebnis derjenigen vergleicht, die nicht mit denen stillen, die dies aber erst nach 0 Wochen tun wie mit "wie", aber der praktische Nutzen ist nicht sofort offensichtlich. Es kann sinnvoller sein, die "Nicht-Stillenden" mit Frauen zu vergleichen, die 12 Wochen (ca. 3 Monate) stillten. In diesem Fall geben Sie nur den "Nicht- Zeitstill" den Wert 12 für w e e k e _ b R e a s t f e e d i n gβ2weeks_breastfeeding. So dass der Wert , den Sie Zuweisen für die "Nicht- Zeitstill" beeinflußt den Regressionskoeffizienten β 2 in dem Sinne , dass er mit dem der „nicht bestimmt werden verglichen. Anstelle eines Problems ist dies tatsächlich etwas, das sehr nützlich sein kann.weeks_breastfeedingβ2
Etwas Einfaches: Stellen Sie Ihre Variable durch einen 1/0-Indikator für any / none und den tatsächlichen Wert dar. Setzen Sie beide in die Regression ein.
quelle
Wenn Sie einen Binärindikator für einen beliebigen Zeitaufwand (= 1) im Vergleich zu einem nicht verbrachten Zeitaufwand (= 0) setzen und dann die aufgewendete Zeit als kontinuierliche Variable haben, ist der unterschiedliche Effekt von "0" -Zeiten " aufgenommen "durch die 0-1-Anzeige
quelle
Sie können Modelle mit gemischten Effekten mit einer Gruppierung verwenden, die auf der Zeit 0 und der Zeit ungleich Null basiert, und Ihre unabhängige Variable beibehalten
quelle
Wenn Sie Random Forest oder Neural Network verwenden, ist es in Ordnung, diese Zahl als 0 zu setzen, da sie herausfinden können, dass 0 sich deutlich von anderen Werten unterscheidet (sofern es sich tatsächlich um einen anderen Wert handelt). Eine andere Möglichkeit ist das Hinzufügen einer kategorialen Variablen yes / no zusätzlich zur Zeitvariablen.
Aber alles in allem sehe ich in diesem speziellen Fall kein wirkliches Problem - 0,1 Wochen Stillen liegen nahe bei 0 und der Effekt ist sehr ähnlich, so dass es für mich wie eine ziemlich kontinuierliche Variable aussieht, bei der 0 nicht als etwas auffällt deutlich.
quelle
Tobit-Modell ist das, was Sie wollen, denke ich.
quelle