Zeit, die in einer Aktivität als unabhängige Variable verbracht wurde

14

Ich möchte die Zeit, die ich mit dem Stillen verbracht habe (z. B. Wochen), als unabhängige Variable in ein lineares Modell aufnehmen. Einige Beobachtungen greifen jedoch überhaupt nicht in das Verhalten ein. Sie als 0 zu codieren ist nicht wirklich richtig, da 0 qualitativ von jedem Wert> 0 verschieden ist (dh Frauen, die nicht stillen, können sich stark von Frauen unterscheiden, die es tun, auch von denen, die es nicht sehr lange tun). Das Beste, was ich mir einfallen lassen kann, ist eine Reihe von Dummies, die die verbrachte Zeit kategorisieren, aber dies ist eine Verschwendung wertvoller Informationen. So etwas wie null aufgepumptes Poisson scheint auch eine Möglichkeit zu sein, aber ich kann nicht genau herausfinden, wie das in diesem Zusammenhang aussehen würde. Hat jemand irgendwelche Vorschläge?

DL Dahly
quelle

Antworten:

16

Um die Antwort von @ ken-butler etwas zu erweitern. Wenn Sie sowohl die kontinuierliche Variable (Stunden) als auch eine Indikatorvariable für einen bestimmten Wert (Stunden = 0 oder Nichtstillen) addieren, glauben Sie, dass es einen linearen Effekt für den "nicht speziellen" Wert und einen diskreten Sprung im gibt vorhergesagtes Ergebnis zum Sonderwert. Es hilft (zumindest für mich), ein Diagramm zu betrachten. Im folgenden Beispiel modellieren wir den Stundenlohn als Funktion der Stunden pro Woche, die die Befragten (alle Frauen) arbeiten, und wir denken, dass "der Standard" 40 Stunden pro Woche etwas Besonderes ist:

enter image description here

Der Code, der dieses Diagramm erstellt hat (in Stata), ist hier zu finden: http://www.stata.com/statalist/archive/2013-03/msg00088.html

In diesem Fall haben wir der stetigen Variablen den Wert 40 zugewiesen, obwohl wir wollten, dass sie anders als die anderen Werte behandelt wird. In ähnlicher Weise würden Sie Ihren Wochen beim Stillen den Wert 0 geben, obwohl Sie der Meinung sind, dass er sich qualitativ von den anderen Werten unterscheidet. Ich interpretiere Ihren Kommentar unten so, dass Sie denken, dass dies ein Problem ist. Dies ist nicht der Fall und Sie müssen keinen Interaktionsbegriff hinzufügen. Tatsächlich wird dieser Interaktionsbegriff aufgrund der perfekten Kollinearität gelöscht, wenn Sie es versuchen. Dies ist keine Einschränkung, sondern zeigt nur an, dass die Interaktionsbedingungen keine neuen Informationen hinzufügen.

Angenommen, Ihre Regressionsgleichung sieht folgendermaßen aus:

y^=β1weeks_breastfeeding+β2non_breastfeeding+

Wo die Anzahl der Wochen stillt (einschließlich dem Wert 0 für diejenigen , die nicht gestillt do) und n o n _ b R e a s t f e e d i n g ist eine Indikatorvariable, die 1 ist, wenn jemand nicht stillt, und 0, wenn er nicht stillt.weeks_breastfeedingnon_breastfeeding

Überlegen Sie, was passiert, wenn jemand stillt. Die Regressionsgleichung vereinfacht Folgendes:

y^=β1weeks_breastfeeding+β20+=β1weeks_breastfeeding+

So ist nur ein linearer Effekt der Anzahl der Wochen für die Stillen , die gestillt haben.β1

Überlegen Sie, was passiert, wenn jemand nicht stillt:

y^=β10+β21+=β2+

So gibt Ihnen die Wirkung der nicht still und die Anzahl der Wochen Tropfen aus der Gleichung stillen.β2

Sie können sehen, dass das Hinzufügen eines Interaktionsbegriffs nicht sinnvoll ist, da dieser Interaktionsbegriff bereits (implizit) vorhanden ist.

Es gibt jedoch etwas Seltsames an , da es den Effekt des Stillens misst, indem es das erwartete Ergebnis derjenigen vergleicht, die nicht mit denen stillen, die dies aber erst nach 0 Wochen tun wie mit "wie", aber der praktische Nutzen ist nicht sofort offensichtlich. Es kann sinnvoller sein, die "Nicht-Stillenden" mit Frauen zu vergleichen, die 12 Wochen (ca. 3 Monate) stillten. In diesem Fall geben Sie nur den "Nicht- Zeitstill" den Wert 12 für w e e k e _ b R e a s t f e e d i n gβ2weeks_breastfeeding. So dass der Wert , den Sie Zuweisen für die "Nicht- Zeitstill" beeinflußt den Regressionskoeffizienten β 2 in dem Sinne , dass er mit dem der „nicht bestimmt werden verglichen. Anstelle eines Problems ist dies tatsächlich etwas, das sehr nützlich sein kann.weeks_breastfeedingβ2

Maarten Buis
quelle
1
Ich weiß die Antwort (und die anderen) zu schätzen, aber es fällt mir schwer, sie zu akzeptieren. Wenn ich ein 1: 0 und die kontinuierliche Zeitvariable einbeziehe, muss ich den Nichtstillern immer noch einen Wert für die Zeit zuweisen (oder sie fallen für eine fehlende Co-Variable). Auch wenn dies von der 1: 0-Variablen abhängig ist, kann ich nicht feststellen, dass die Einbeziehung der Nicht-Stillenden als Zeit = 0 den Regressionskoeffizienten nicht beeinflusst. Vielleicht wäre es sinnvoller, auch den Produktinteraktionsterm zwischen den beiden zu addieren?
DL Dahly
@ DLDahly Ich habe meine Antwort bearbeitet, um mit diesen Zweifeln umzugehen
Maarten Buis
Ok, das ist sehr hilfreich. Lassen Sie mich noch eine kurze Antwort geben ... Wenn ich Sie richtig verstehe, sollte der geschätzte Wert für B1 derselbe sein, unabhängig davon, welchen Zeitwert ich den B2 = 1 Personen gebe. Ist das richtig?
DL Dahly
1
Sehr nette Antwort Maarten. Hier ist eine ähnliche Frage / Antwort auf der Site, die eine ähnliche Situation beim Einbeziehen einer unabhängigen Variablen zeigt, die sich nur auf eine bestimmte Untergruppe bezieht .
Andy W
1
@ GavinM.Jones Ich hätte nie gedacht, dass man es benennen oder zitieren muss: Es ist nur eine einfache Anwendung von stetigen Variablen und Indikatorvariablen. Folglich habe ich keine gute Referenz für Sie. Das Letzte, was ich schnell herausfinden könnte, ist Treiman, DJ (2009): Quantitative Data Analysis. Sozialforschung betreiben, um Ideen zu testen. San Francisco: Jossey-Bass. In Kapitel 7 wurde etwas Ähnliches besprochen. Das Modell enthält eine Konstante.
Maarten Buis
6

Etwas Einfaches: Stellen Sie Ihre Variable durch einen 1/0-Indikator für any / none und den tatsächlichen Wert dar. Setzen Sie beide in die Regression ein.

Ken Butler
quelle
4

Wenn Sie einen Binärindikator für einen beliebigen Zeitaufwand (= 1) im Vergleich zu einem nicht verbrachten Zeitaufwand (= 0) setzen und dann die aufgewendete Zeit als kontinuierliche Variable haben, ist der unterschiedliche Effekt von "0" -Zeiten " aufgenommen "durch die 0-1-Anzeige

Glen_b - Setzen Sie Monica wieder ein
quelle
2

Sie können Modelle mit gemischten Effekten mit einer Gruppierung verwenden, die auf der Zeit 0 und der Zeit ungleich Null basiert, und Ihre unabhängige Variable beibehalten

rezakhorshidi
quelle
Könnten Sie dies bitte etwas näher erläutern? Danke vielmals.
DL Dahly
In einem Modell mit gemischten Effekten wird davon ausgegangen, dass es einen Faktor gibt, der die Daten in verschiedene (heterogene) Bereiche unterteilt, in denen möglicherweise eine unterschiedliche Beziehung zwischen erklärenden und abhängigen Variablen besteht (entweder in Bezug auf Achsenabschnitt oder Achsenabschnitt und Steigung / Koeffizient). en.wikipedia.org/wiki/Mixed_model
rezakhorshidi
Verwenden Sie also Personen, die im Stillstatus verschachtelt sind, und dann eine zufällige Neigung beim wochenlangen Stillen? Ich könnte dies als SEM leicht genug tun und bestimmte Einschränkungen testen. Danke +1
DL Dahly
1

Wenn Sie Random Forest oder Neural Network verwenden, ist es in Ordnung, diese Zahl als 0 zu setzen, da sie herausfinden können, dass 0 sich deutlich von anderen Werten unterscheidet (sofern es sich tatsächlich um einen anderen Wert handelt). Eine andere Möglichkeit ist das Hinzufügen einer kategorialen Variablen yes / no zusätzlich zur Zeitvariablen.

Aber alles in allem sehe ich in diesem speziellen Fall kein wirkliches Problem - 0,1 Wochen Stillen liegen nahe bei 0 und der Effekt ist sehr ähnlich, so dass es für mich wie eine ziemlich kontinuierliche Variable aussieht, bei der 0 nicht als etwas auffällt deutlich.

Sashkello
quelle
3
+1 für den ersten Absatz, aber der Umgang mit sozialwissenschaftlichen oder medizinischen Daten, die Wirkung von 0 gegen 0,1 Wochen von etwas ist nicht die Hauptsorge. Der Punkt ist, dass Frauen, die nicht versuchen oder überhaupt nicht über das Stillen berichten, in vielerlei Hinsicht systematisch anders sein können (Gesundheitsprobleme, Einkommen, familiäre Situation, Arbeitsunfähigkeit, Zugang zu Gesundheitsdiensten, über die sie Informationen erhalten haben) Elternschaft usw.) Es gibt wirklich keinen Grund zu der Annahme, dass diese Frauen Müttern sehr ähnlich sind, die das Stillen versuchen und es schnell beenden.
Gala
1
Aus statistischer Sicht wäre es besser, diese anderen Variablen explizit in Ihr Modell aufzunehmen, aber es ist sinnvoll, vorsichtig mit der Annahme umzugehen, dass bei 0 nichts Besonderes los ist, denke ich.
Gala
0

Tobit-Modell ist das, was Sie wollen, denke ich.

Mark T. Patterson
quelle
5
Tobits werden verwendet, wenn das Ergebnis über oder unter einem bestimmten Schwellenwert zensiert wird. Zum Beispiel beobachten wir keine Löhne, die unter dem Mindestlohn liegen, oder Einkommen, die über einem bestimmten Höchstwert liegen. Diese Anwendung ist für eine unabhängige Variable.
Dimitriy V. Masterov