Betrachten Sie die Stichprobendaten einer Population der Größe folgendermaßen: Für
Beobachten Sie den Krankheitsstatus des einzelnen
Wenn sie an der Krankheit leiden, nehmen Sie sie mit der Wahrscheinlichkeit in die Stichprobe auf.
Wenn sie die Krankheit nicht haben, schließen Sie sie mit der Wahrscheinlichkeit .
Angenommen, Sie haben eine binäre Ergebnisvariable und einen Prädiktorvektor für Probanden beobachtet, die auf diese Weise abgetastet wurden. Die Ergebnisvariable ist nicht der "Krankheits" -Status. Ich möchte die Parameter des logistischen Regressionsmodells schätzen:
Alles, was mich interessiert, sind die (logarithmischen) Quotenverhältnisse . Der Abschnitt ist für mich irrelevant.
Meine Frage lautet: Kann ich vernünftige Schätzungen von indem ich die Stichprobenwahrscheinlichkeiten , i = 1, ..., n ignoriere und das Modell so anpasse , als ob es war eine gewöhnliche Zufallsstichprobe?
Ich bin mir ziemlich sicher, dass die Antwort auf diese Frage "Ja" lautet. Was ich suche, ist eine Referenz, die dies bestätigt.
Es gibt zwei Hauptgründe, warum ich von der Antwort überzeugt bin:
Ich habe viele Simulationsstudien durchgeführt und keine davon widerspricht dem, und
Es ist unkompliziert zu zeigen, dass, wenn die Population durch das obige Modell bestimmt wird, das Modell für die abgetasteten Daten gilt
Wenn die Stichprobenwahrscheinlichkeiten nicht von abhängen würden, würde dies eine einfache Verschiebung zum Achsenabschnitt darstellen und die Punktschätzung von würde eindeutig nicht beeinflusst. Wenn jedoch die Offsets für jede Person unterschiedlich sind, gilt diese Logik nicht ganz, da Sie sicherlich eine andere Punktschätzung erhalten, obwohl ich vermute, dass etwas Ähnliches der Fall ist.
Verwandte: Die klassische Arbeit von Prentice und Pyke (1979) besagt, dass logistische Regressionskoeffizienten aus einer Fallkontrolle (mit dem Krankheitsstatus als Ergebnis) dieselbe Verteilung haben wie diejenigen, die aus einer prospektiven Studie gesammelt wurden. Ich vermute, dass das gleiche Ergebnis hier zutreffen würde, aber ich muss gestehen, dass ich nicht jedes Stück des Papiers vollständig verstehe.
Vielen Dank im Voraus für alle Kommentare / Referenzen.
quelle
Antworten:
Dies ist eine Variation des Auswahlmodells in der Ökonometrie. Die Gültigkeit der Schätzungen, die hier nur die ausgewählte Stichprobe verwenden, hängt von der Bedingung ab, dass . Hier ist ‚s Krankheitsstatus.Pr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0) Di i
Um weitere Details zu erhalten, definieren Sie die folgenden Notationen: und ; bezieht sich auf das Ereignis, dass in der Stichprobe ist. Nehmen wir außerdem an, dass der Einfachheit halber unabhängig von .π1=Pr(Di=1) π0=Pr(Di=0) Si=1 i Di Xi
Die Wahrscheinlichkeit von für eine Einheit in der Stichprobe ist nach dem Gesetz der iterierten Erwartung. Angenommen, abhängig vom Krankheitsstatus und anderen Kovariaten ist das Ergebnis unabhängig von . Als Ergebnis,Yi=1 i
Es ist versucht, als zusätzliche erklärende Variable aufzunehmen und das Modell basierend auf schätzen . Um die Gültigkeit der Verwendung von zu rechtfertigen , müssen wir beweisen, dass , was der Bedingung entspricht, dass ist eine ausreichende Statistik von . Ohne weitere Informationen zu Ihrem Probenahmeverfahren bin ich mir nicht sicher, ob dies der Fall ist. Verwenden wir eine abstrakte Notation. Die Beobachtbarkeitsvariable kann beispielsweise als Zufallsfunktion von und den anderen Zufallsvariablen angesehen werdenDi Pr(Yi∣Xi,Di) Pr(Yi∣Xi,Di) Pr(Yi∣Xi,Di,Si=1)=Pr(Yi∣Xi,Di) Di Si Si Di Zi . Bezeichne . Wenn
unabhängig von abhängig von und , haben wir
durch die Definition von Unabhängigkeit. Wenn jedoch nach dem Konditionieren auf und nicht unabhängig von , enthält
intuitiv einige relevante Informationen über
, und im Allgemeinen wird das nicht erwartetSi=S(Di,Zi) Zi Yi Xi Di Pr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) Zi Yi Xi Di Zi Yi Pr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) . Im Fall „jedoch“ könnte die Unkenntnis der Stichprobenauswahl irreführend sein. Ich bin mit der Literatur zur Stichprobenauswahl in der Ökonometrie nicht sehr vertraut. Ich würde empfehlen, dass Kapitel 16 der
Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic book
begrenzten abhängigen und qualitativen Variablen in der Ökonometrie eine systematische Behandlung der Fragen der Stichprobenauswahl und der diskreten Ergebnisse darstellt.quelle