Eine Regression von auf muss nicht kausal sein, wenn Variablen ausgelassen werden, die sowohl als auch . Aber wenn nicht für ausgelassene Variablen und Messfehler, ist eine Regression kausal? Das heißt, wenn jede mögliche Variable in der Regression enthalten ist?
regression
bias
causality
Esha
quelle
quelle
Antworten:
Nein, das ist es nicht. Ich zeige Ihnen einige Gegenbeispiele.
Das erste ist die umgekehrte Kausalität . Angenommen, das Kausalmodell istY→X , wobei X und Y Standard-Gauß-Zufallsvariablen sind. Dann E[Y|do(x)]=0 , da X nicht Ursache tut Y , aber E[Y|x] wird von X abhängen .
Das zweite Beispiel ist die Steuerung für Collider (siehe hier ). Betrachten Sie das KausalmodellX→Z←Y , dh X verursacht nicht Y und Z ist eine häufige Ursache. Beachten Sie jedoch , dass der Regressionskoeffizient von X nicht Null ist , wenn Sie eine Regression mit Z ausführen , da die Konditionierung auf die gemeinsame Ursache eine Assoziation zwischen Y und X hervorruft (möglicherweise möchten Sie hier auch die Pfadanalyse in Gegenwart von X anzeigen) ein Conditioned-Upon-Collider ).X Y X
Allgemein gesagt , die Regression vonY auf X wird kausale wenn das in den Regressions enthaltenen Variablen die Hintertür Kriterium erfüllen .
quelle
Neben der wichtigen Antwort von Carlos Cinelli auf diese Frage gibt es noch einige weitere Gründe dafür, dass die Regressionskoeffizienten möglicherweise nicht kausal sind.
Erstens kann eine falsche Modellspezifikation dazu führen, dass die Parameter nicht kausal sind. Nur weil Sie alle relevanten Variablen in Ihrem Modell haben, heißt das nicht, dass Sie sie korrekt angepasst haben. Stellen Sie sich als sehr einfaches Beispiel eine VariableX , die symmetrisch um 0 verteilt ist. Angenommen, Ihre Ergebnisvariable Y wird von X so beeinflusst, dass E(Y∣X)=X2 . Wenn Sie Y auf X drücken (im Gegensatz zu X2 ), erhalten Sie einen geschätzten Koeffizienten für X von etwa 0, eindeutig voreingenommen, obwohl Sie alle (einzigen) Variablen berücksichtigt haben, die Y betreffen .
Zweitens besteht in Bezug auf das Thema der umgekehrten Kausalität auch das Risiko, dass Sie einen Selektionsbias haben , dh dass Ihre Stichprobe so ausgewählt wurde, dass sie für die Population, auf die Sie schließen möchten, nicht repräsentativ ist. Darüber hinaus können fehlende Daten zu Verzerrungen führen, wenn die Daten nicht zufällig vollständig fehlen.
quelle