Schätzen logistischer Regressionskoeffizienten in einem Fall-Kontroll-Design, wenn die Ergebnisvariable nicht Fall- / Kontrollstatus ist

10

Betrachten Sie die Stichprobendaten einer Population der Größe folgendermaßen: FürNk=1,...,N

  1. Beobachten Sie den Krankheitsstatus des einzelnenk

  2. Wenn sie an der Krankheit leiden, nehmen Sie sie mit der Wahrscheinlichkeit in die Stichprobe auf.pk1

  3. Wenn sie die Krankheit nicht haben, schließen Sie sie mit der Wahrscheinlichkeit .pk0

Angenommen, Sie haben eine binäre Ergebnisvariable und einen Prädiktorvektor für Probanden beobachtet, die auf diese Weise abgetastet wurden. Die Ergebnisvariable ist nicht der "Krankheits" -Status. Ich möchte die Parameter des logistischen Regressionsmodells schätzen:YiXii=1,...,n

log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ

Alles, was mich interessiert, sind die (logarithmischen) Quotenverhältnisse β . Der Abschnitt ist für mich irrelevant.

Meine Frage lautet: Kann ich vernünftige Schätzungen von β indem ich die Stichprobenwahrscheinlichkeiten {pi1,pi0} , i = 1, ..., n ignoriere i=1,...,nund das Modell so anpasse , als ob es war eine gewöhnliche Zufallsstichprobe?


Ich bin mir ziemlich sicher, dass die Antwort auf diese Frage "Ja" lautet. Was ich suche, ist eine Referenz, die dies bestätigt.

Es gibt zwei Hauptgründe, warum ich von der Antwort überzeugt bin:

  1. Ich habe viele Simulationsstudien durchgeführt und keine davon widerspricht dem, und

  2. Es ist unkompliziert zu zeigen, dass, wenn die Population durch das obige Modell bestimmt wird, das Modell für die abgetasteten Daten gilt

log(P(Yi=1|Xi)P(Yi=0|Xi))=log(pi1)log(pi0)+α+Xiβ

Wenn die Stichprobenwahrscheinlichkeiten nicht von abhängen würden, würde dies eine einfache Verschiebung zum Achsenabschnitt darstellen und die Punktschätzung von würde eindeutig nicht beeinflusst. Wenn jedoch die Offsets für jede Person unterschiedlich sind, gilt diese Logik nicht ganz, da Sie sicherlich eine andere Punktschätzung erhalten, obwohl ich vermute, dass etwas Ähnliches der Fall ist. iβ

Verwandte: Die klassische Arbeit von Prentice und Pyke (1979) besagt, dass logistische Regressionskoeffizienten aus einer Fallkontrolle (mit dem Krankheitsstatus als Ergebnis) dieselbe Verteilung haben wie diejenigen, die aus einer prospektiven Studie gesammelt wurden. Ich vermute, dass das gleiche Ergebnis hier zutreffen würde, aber ich muss gestehen, dass ich nicht jedes Stück des Papiers vollständig verstehe.

Vielen Dank im Voraus für alle Kommentare / Referenzen.

Makro
quelle
1
Sie geben an, dass "die Ergebnisvariable nicht der Krankheitsstatus ist ". Was bedeutet ? Willkommen zurück im Lebenslauf, übrigens. Yi=1
Gung - Reinstate Monica
1
Yi ist eine andere Variable. Was ich damit meine ist, dass die Variable, die Ihre Stichprobenwahrscheinlichkeit bestimmt (normalerweise der Krankheitsstatus in einer Fallkontrolle), nicht mit der Ergebnisvariablen identisch ist - denken Sie an eine sekundäre Analyse eines Datensatzes. Angenommen, die Stichprobe wurde durch systematische Stichprobe von Drogenkonsumenten und einer zusätzlichen Gruppe von Nicht-Drogenkonsumenten (frequenzangepasst, für bestimmte Kovariaten) erstellt. Die von Ihnen untersuchte Ergebnisvariable ist jedoch eine andere Verhaltensmessung. In diesem Fall ist das Stichprobenverfahren ein Ärgernis. Danke übrigens!
Makro

Antworten:

8

Dies ist eine Variation des Auswahlmodells in der Ökonometrie. Die Gültigkeit der Schätzungen, die hier nur die ausgewählte Stichprobe verwenden, hängt von der Bedingung ab, dass . Hier ist ‚s Krankheitsstatus.Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)Dii

Um weitere Details zu erhalten, definieren Sie die folgenden Notationen: und ; bezieht sich auf das Ereignis, dass in der Stichprobe ist. Nehmen wir außerdem an, dass der Einfachheit halber unabhängig von .π1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi

Die Wahrscheinlichkeit von für eine Einheit in der Stichprobe ist nach dem Gesetz der iterierten Erwartung. Angenommen, abhängig vom Krankheitsstatus und anderen Kovariaten ist das Ergebnis unabhängig von . Als Ergebnis, Yi=1i

Pr(Yi=1Xi,Si=1)=E(YiXi,Si=1)=E{E(YiXi,Di,Si=1)Xi,Si=1}=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1,Si=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0,Si=1),
DiXiYiSi
Pr(Yi=1Xi,Si=1)=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0).
Es ist leicht zu erkennen, dass Hier sind und wie in Ihrem Stichprobenschema definiert. Somit,
Pr(Di=1Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0
Pr(Yi=1Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1Xi,Di=0).
Wenn , wir haben und Sie können das Problem der Stichprobenauswahl weglassen. Wenn andererseits , im Allgemeinen. Betrachten Sie als besonderen Fall das Logit-Modell. Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)=Pr(Yi=1Xi),
Pr(Yi=1Xi,Di=1)Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)Pr(Yi=1Xi)
Pr(Yi=1Xi,Di=1)=eXiα1+eXiα and Pr(Yi=1Xi,Di=0)=eXiβ1+eXiβ.
Selbst wenn und über konstant sind, die resultierende Verteilung die Logit-Bildung nicht bei. Noch wichtiger ist, dass die Interpretationen der Parameter völlig unterschiedlich wären. Hoffentlich helfen die obigen Argumente, Ihr Problem ein wenig zu klären.pi1pi0i

Es ist versucht, als zusätzliche erklärende Variable aufzunehmen und das Modell basierend auf schätzen . Um die Gültigkeit der Verwendung von zu rechtfertigen , müssen wir beweisen, dass , was der Bedingung entspricht, dass ist eine ausreichende Statistik von . Ohne weitere Informationen zu Ihrem Probenahmeverfahren bin ich mir nicht sicher, ob dies der Fall ist. Verwenden wir eine abstrakte Notation. Die Beobachtbarkeitsvariable kann beispielsweise als Zufallsfunktion von und den anderen Zufallsvariablen angesehen werdenDiPr(YiXi,Di)Pr(YiXi,Di)Pr(YiXi,Di,Si=1)=Pr(YiXi,Di)DiSiSiDiZi . Bezeichne . Wenn unabhängig von abhängig von und , haben wir durch die Definition von Unabhängigkeit. Wenn jedoch nach dem Konditionieren auf und nicht unabhängig von , enthält intuitiv einige relevante Informationen über , und im Allgemeinen wird das nicht erwartetSi=S(Di,Zi)ZiYiXiDiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)ZiYiXiDiZiYiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di) . Im Fall „jedoch“ könnte die Unkenntnis der Stichprobenauswahl irreführend sein. Ich bin mit der Literatur zur Stichprobenauswahl in der Ökonometrie nicht sehr vertraut. Ich würde empfehlen, dass Kapitel 16 der Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic bookbegrenzten abhängigen und qualitativen Variablen in der Ökonometrie eine systematische Behandlung der Fragen der Stichprobenauswahl und der diskreten Ergebnisse darstellt.

Semibruin
quelle
2
Vielen Dank. Dies ist eine großartige Antwort und macht vollkommen Sinn. In meiner Anwendung ist die Annahme, dass nicht realistisch. Es wäre jedoch genauso gut, als Prädiktor hinzuzufügen und die Verteilung berücksichtigen . Mit einer ähnlichen Herleitung können Sie zeigen, dass es Ihnen gut geht, wenn . Dies ist in meinem Fall eine vernünftige Annahme. Was denken Sie? Übrigens, hätten Sie zufällig Referenzen, die dieses Problem erwähnen? Ich bin nicht mit ökonometrischer Literatur vertraut. P(Yi|Xi,Di=1)=P(Yi|Xi,Di=0)DiP(Yi|Xi,Di)P(Yi=1|Xi,Di,Si=1)=P(Yi=1|Xi,Di,Si=0)
Makro
Ich bin mir sicher, dass der Auswahlprozess ein Bernoulli-Prozess ist, dh Unter dieser Annahme ist dieser Bernoulli-Versuch bedingt unabhängig von , daher denke ich, dass es uns gut geht. Ich schätze Ihre Bemühungen und Einblicke in dieses Problem und akzeptiere die Antwort. Angenommen, niemand kommt mit der genauen Referenz, nach der ich suche (ich könnte dieses Problem lieber einfach "zitieren", als mit einer ausführlichen Diskussion abzuschweifen), werde ich Ihnen auch das Kopfgeld verleihen. Prost.
Si|Di=d,Xi=xBernoulli(p(x,d))
Yi
Makro
Dieser Auswahlprozess passt zu Ihrer Strategie. Basierend auf einem solchen Auswahlproblem wird Ihr Problem zu einem Beispiel für das zufällige Fehlen (MAR) in der Literatur zu fehlenden Daten. Vielen Dank für Ihre Auszeichnung.
Semibruin