In der Regression im Allgemeinen und in der linearen Regression im Besonderen ist manchmal eine kausale Interpretation von Parametern zulässig. Zumindest in der ökonometrischen Literatur, aber nicht nur, wenn eine kausale Interpretation erlaubt ist, ist dies nicht so klar; Für eine Diskussion können Sie sehen: Regression und Verursachung: Eine kritische Untersuchung von sechs ökonometrischen Lehrbüchern - Chen und Pearl (2013).
Für einen ordnungsgemäßen Umgang mit der Kausalität im statistischen Modell ist es wahrscheinlich am besten, das strukturelle Kausalmodell zu verwenden, wie es beispielsweise (in Kürze) in Trygve Haavelmo und der Entstehung des Kausalkalküls - Pearl 2012 feb.
Derzeit sind dies jedoch nicht die Standardmethoden im grundlegenden ökonometrischen Modell (klassische multiple lineare Regression). In der Tat wird häufig das Konzept des „wahren Modells“ oder des „Datenerzeugungsprozesses“ verwendet, die manchmal eine explizite kausale Bedeutung haben. Auf jeden Fall möchte ich nur den kausalen Sinn betrachten. Wenn wir also das Stichprobengegenstück des „wahren Modells“ schätzen, erreichen wir eine kausale Interpretation der Parameter.
Unter Berücksichtigung der obigen Überlegung ist mein Versuch zu erfassen
die Verbindung zwischen dem Konzept des „wahren Modells“ (aktueller ökonometrischer Lehrbücher) und dem strukturellen Kausalmodell (von Pearl)… falls vorhanden.
Die Verbindung zwischen dem vorherigen Punkt und dem Konzept des randomisierten kontrollierten Experiments , wie es im Labor verwendet wird, ist manchmal der Bezugspunkt in der ökonometrischen Beobachtungsstudie ( so gut es auch ist). Zum Beispiel diskutieren Stock und Watson (2013) viel darüber (insbesondere Cap 13). Darüber hinaus gibt es in Pearl 2012, Februar 14, eine Debatte zwischen „Strukturalisten“ und „Experimentatoren“, die in engem Zusammenhang mit diesem Punkt steht.
Können Sie mir im einfachsten Szenario etwas über diese beiden Punkte erklären?
quelle
Antworten:
Im Zusammenhang mit dem von Ihnen gegebenen Pearl-Papier würden die meisten Ökonomen ein echtes Modell als Eingabe I-1 in das strukturelle Kausalmodell bezeichnen: eine Reihe von AnnahmenEIN und ein Modell M.EIN das codiert diese Annahmen, geschrieben als ein System von Strukturgleichungen (wie in den Modellen 1 und 2) und eine Liste statistischer Annahmen, die die Variablen betreffen. Im Allgemeinen muss das wahre Modell nicht rekursiv sein, sodass der entsprechende Graph Zyklen haben kann.
Was ist ein Beispiel für ein echtes Modell? Betrachten Sie die Beziehung zwischen Schule und Einkommen, die in Angrist und Pischke (2009), Abschnitt 3.2 beschrieben ist. Für den Einzelnenich Was Ökonomen das wahre Modell nennen würden, ist eine angenommene Funktion, die jedes Schulniveau abbildets zu einem Ergebnis ys i ::
ys i=fich( s ) .
Dies ist genau das mögliche Ergebnis. Man könnte noch weiter gehen und eine parametrische Funktionsform für annehmenfich( s ) . Zum Beispiel das Kausalmodell für lineare Konstanteffekte:
fich( s ) = α + ρ s +ηich.
Hier, α und ρ sind unbeobachtete Parameter. Wenn wir es so schreiben, nehmen wir das anηich hängt nicht davon ab s . In Perles Sprache sagt uns dies, was mit dem erwarteten Einkommen passiert, wenn wir die Schulbildung einer Person festlegensich=s0 , aber wir beobachten nicht ηich ::
E.[ys i∣dÖ(sich=s0) ] = E.[fich(s0) ] = α + ρs0+ E.[ηich] .
Wir haben nicht gesagt, an welchen Anfragen wir interessiert sind oder welche Daten wir haben. Das "wahre Modell" ist also kein vollständiges SCM. (Dies gilt im Allgemeinen nicht nur in diesem Beispiel.)
Was ist der Zusammenhang zwischen einem echten Modell und einem randomisierten Experiment? Angenommen, ein Ökonometriker möchte schätzenρ . Nur beobachten(sich,yich) für eine Gruppe von Personen ist nicht ausreichend. Dies ist identisch mit Pearl's Punkt über statistische Konditionierung. Hier
E.[ys i∣sich=s0] = E.[fich(s0) ∣sich=s0] = α + ρs0+ E.[ηich∣sich=s0] .
Wie Angrist und Pischke betonen, ηich kann mit korreliert sein sich in Beobachtungsdaten aufgrund von Auswahlverzerrungen: Die Entscheidung einer Person über die Schulbildung kann von ihrem Wert von abhängen ηich .
Randomisierte Experimente sind eine Möglichkeit, diese Korrelation zu korrigieren. Verwenden Sie die Pearl-Notation hier locker, wenn wir unsere Themen zufällig zuweisendo (sich=s0) und do (sich=s1) dann können wir schätzen E.[ys i∣ do (sich=s1) ] und E.[ys i∣ do (sich=s0) ] . Dannρ ist gegeben durch:
E.[ys i∣ do (sich=s1) ] - E.[ys i∣ do (sich=s0) ] = ρ (s1- -s0) .
Mit zusätzlichen Annahmen und Daten gibt es andere Möglichkeiten, die Korrelation zu korrigieren. Ein randomisiertes Experiment wird nur als das "beste" angesehen, da wir den anderen Annahmen möglicherweise nicht glauben. Zum Beispiel könnten wir mit der Annahme der bedingten Unabhängigkeit und zusätzlichen Daten schätzenρ von OLS; oder wir könnten instrumentelle Variablen einbringen.
Edit 2 (CIA) : Dies ist hauptsächlich ein philosophischer Punkt, und Angrist und Pischke sind möglicherweise nicht mit meiner Präsentation hier einverstanden. Mit der Annahme der bedingten Unabhängigkeit (Auswahl auf Observablen) können wir die Auswahlverzerrung korrigieren. Es wird eine Annahme über gemeinsame Verteilungen hinzugefügt: dassfich( s ) ⊥⊥sich∣X.ich
für alle s . Wenn wir nur die bedingte Erwartungsalgebra verwenden (siehe die Ableitung in Angrist und Pischke), können wir schreiben
yich=fich(sich) = α + ρsich+X.'ichγ+vich
mit E.[vich∣X.ich,sich] = 0 . Diese Gleichung erlaubt es uns zu schätzenρ in den Daten mit OLS.
Weder die Randomisierung noch die CIA gehen in das Gleichungssystem ein, das das wahre Modell definiert. Es handelt sich um statistische Annahmen, mit denen wir die Parameter eines bereits definierten Modells anhand der uns vorliegenden Daten schätzen können. Ökonomen würden den CIA-Teil normalerweise nicht als Teil des wahren Modells betrachten, aber Pearl würde ihn einbeziehenEIN .
quelle
Ich werde mit dem zweiten Teil Ihrer Frage beginnen, der sich auf den Unterschied zwischen randomisierten Kontrollstudien und Beobachtungsstudien bezieht, und ihn mit dem Teil Ihrer Frage abschließen, der sich auf "wahres Modell" vs. "strukturelles Kausalmodell" bezieht.
Ich werde eines von Perles Beispielen verwenden, das leicht zu verstehen ist. Sie stellen fest, dass die Kriminalitätsrate am höchsten ist (im Sommer), wenn die Eisverkäufe am höchsten sind (im Sommer), und wenn die Eisverkäufe am niedrigsten sind (im Winter), die Kriminalitätsrate am niedrigsten ist. Dies lässt Sie sich fragen, ob die Höhe der Eisverkäufe die Kriminalität verursacht.
Wenn Sie ein randomisiertes Kontrollexperiment durchführen könnten, würden Sie viele Tage, angenommen 100 Tage, in Anspruch nehmen und an jedem dieser Tage zufällig das Verkaufsniveau für Eiscreme zuweisen. Der Schlüssel zu dieser Randomisierung liegt angesichts der in der folgenden Grafik dargestellten Kausalstruktur darin, dass die Zuordnung der Höhe der Eisverkäufe unabhängig von der Temperatur ist. Wenn ein solches hypothetisches Experiment durchgeführt werden könnte, sollten Sie feststellen, dass an den Tagen, an denen die Verkäufe zufällig als hoch eingestuft wurden, die durchschnittliche Kriminalitätsrate statistisch nicht anders ist als an den Tagen, an denen die Verkäufe als niedrig eingestuft wurden. Wenn Sie solche Daten in die Hände bekommen hätten, wären Sie fertig. Die meisten von uns müssen jedoch mit Beobachtungsdaten arbeiten, bei denen die Randomisierung nicht die Magie ausführte, die sie im obigen Beispiel hatte. Entscheidend in Beobachtungsdaten, Wir wissen nicht, ob die Höhe der Eisverkäufe unabhängig von der Temperatur bestimmt wurde oder ob sie von der Temperatur abhängt. Infolgedessen müssten wir den kausalen Effekt irgendwie vom bloßen Korrelativen entwirren.
Perles Behauptung ist, dass Statistiken keine Möglichkeit haben, E [Y | Wir setzen X auf einen bestimmten Wert] darzustellen, im Gegensatz zu E [Y | Konditionierung auf die Werte von X, wie sie durch die gemeinsame Verteilung von X und Y gegeben sind ]. Deshalb verwendet er die Notation E [Y | do (X = x)], um sich auf die Erwartung von Y zu beziehen, wenn wir auf X eingreifen und seinen Wert gleich x setzen, im Gegensatz zu E [Y | X = x]. Dies bezieht sich auf die Konditionierung des Wertes von X und dessen Annahme.
Was genau bedeutet es, in die Variable X einzugreifen oder X auf einen bestimmten Wert zu setzen? Und wie unterscheidet es sich von der Konditionierung auf den Wert von X?
Die Intervention lässt sich am besten anhand der folgenden Grafik erklären, in der die Temperatur einen kausalen Effekt sowohl auf den Eisverkauf als auch auf die Kriminalitätsrate hat und der Eisverkauf einen kausalen Effekt auf die Kriminalitätsrate hat. Die U-Variablen stehen für nicht gemessene Faktoren, die die Variablen jedoch beeinflussen Wir möchten diese Faktoren nicht modellieren. Unser Interesse gilt der kausalen Auswirkung von Eisverkäufen auf die Kriminalitätsrate und wir nehmen an, dass unsere kausale Darstellung korrekt und vollständig ist. Siehe die Grafik unten.
Nehmen wir nun an, wir könnten das Niveau der Eisverkäufe sehr hoch einstellen und beobachten, ob dies zu höheren Kriminalitätsraten führen würde. Um dies zu tun, würden wir in den Verkauf von Eiscreme eingreifen, was bedeutet, dass wir nicht zulassen, dass der Verkauf von Eiscreme auf natürliche Weise auf die Temperatur reagiert. Dies bedeutet, dass wir das, was Pearl als "Operation" bezeichnet, in der Grafik durchführen, indem wir alle darauf gerichteten Kanten entfernen Variable. In unserem Fall würden wir, da wir beim Verkauf von Eiscreme intervenieren, die Kante vom Verkauf von Temperatur zu Eiscreme entfernen, wie unten dargestellt. Wir stellen das Niveau der Eisverkäufe auf das ein, was wir wollen, anstatt zuzulassen, dass es durch die Temperatur bestimmt wird. Stellen Sie sich dann vor, wir hätten zwei solche Experimente durchgeführt: Eine, bei der wir eingegriffen haben und die Höhe der Eisverkäufe sehr hoch eingestellt haben, und eine, bei der wir eingegriffen haben und die Höhe der Eisverkäufe sehr niedrig eingestellt haben, und dann beobachtet haben, wie die Kriminalitätsrate jeweils reagiert. Dann werden wir ein Gefühl dafür bekommen, ob es einen kausalen Effekt zwischen Eisverkäufen und Kriminalitätsrate gibt oder nicht.
Pearl unterschied zwischen Intervention und Konditionierung. Die Konditionierung bezieht sich hier lediglich auf eine Filterung eines Datensatzes. Stellen Sie sich die Temperaturkonditionierung so vor, als würden Sie in unserem Beobachtungsdatensatz nur Fälle betrachten, in denen die Temperatur gleich war. Konditionierung gibt uns nicht immer den Kausaleffekt, den wir suchen (es gibt uns die meiste Zeit nicht den Kausaleffekt). Es kommt vor, dass die Konditionierung den kausalen Effekt in dem oben gezeichneten vereinfachenden Bild ergibt, aber wir können das Diagramm leicht modifizieren, um ein Beispiel zu veranschaulichen, bei dem die Konditionierung auf die Temperatur nicht den kausalen Effekt ergibt, wohingegen eine Intervention auf den Verkauf von Eiscreme dies tun würde. Stellen Sie sich vor, es gibt eine andere Variable, die Eisverkäufe verursacht. Nennen Sie sie Variable X. In der Grafik wird sie mit einem Pfeil in Eisverkäufe dargestellt. In diesem Fall, Eine Konditionierung auf die Temperatur würde uns nicht den kausalen Effekt von Eisverkäufen auf die Kriminalitätsrate geben, da dies den Pfad unberührt lassen würde: Variable X -> Eisverkäufe -> Kriminalitätsrate. Im Gegensatz dazu würde ein Eingreifen in den Verkauf von Eis per Definition bedeuten, dass wir alle Pfeile in Eis entfernen, und dies würde uns den kausalen Effekt des Verkaufs von Eis auf die Kriminalitätsrate geben.
Ich möchte nur erwähnen, dass einer der größten Beiträge einer Perle meiner Meinung nach das Konzept der Kollider ist und wie die Konditionierung von Kollidern dazu führt, dass unabhängige Variablen wahrscheinlich abhängig sind.
Pearl würde ein Modell mit Kausalkoeffizienten (direkter Effekt) nennen, wie es durch E [Y | do (X = x)] als strukturelles Kausalmodell gegeben ist. Und Regressionen, bei denen die Koeffizienten durch E [Y | X] gegeben sind, nennen die Autoren fälschlicherweise "wahres Modell", dh fälschlicherweise, wenn sie versuchen, den kausalen Effekt von X auf Y abzuschätzen und nicht nur Y vorherzusagen .
Welche Verbindung besteht zwischen den Strukturmodellen und dem, was wir empirisch tun können? Angenommen, Sie möchten den kausalen Effekt von Variable A auf Variable B verstehen. Pearl schlägt zwei Möglichkeiten vor: das Backdoor-Kriterium und das Front-Door-Kriterium. Ich werde auf das erstere eingehen.
Backdoor-Kriterium: Zuerst müssen Sie alle Ursachen jeder Variablen korrekt zuordnen und mithilfe des Backdoor-Kriteriums die Variablen identifizieren, auf die Sie sich einstellen müssen (und ebenso wichtig die Variablen, die Sie benötigen, um sich zu vergewissern) nicht bedingen (dh Kollider), um die kausale Wirkung von A auf B zu isolieren. Wie Pearl betont, ist dies überprüfbar. Sie können testen, ob Sie das Kausalmodell korrekt zugeordnet haben. In der Praxis ist dies leichter gesagt als getan und meiner Meinung nach die größte Herausforderung mit dem Backdoor-Kriterium von Pearl. Zweitens führen Sie die Regression wie gewohnt aus. Jetzt wissen Sie, worauf Sie sich einstellen müssen. Die Koeffizienten, die Sie erhalten, sind die direkten Auswirkungen, wie in Ihrer Kausalkarte dargestellt.
quelle
Die Verwendung von "kausal" in solchen auf Regression / Korrelation basierenden Ansätzen ist meiner Meinung nach irreführend. Pfadanalyse, Strukturgleichungsmodellierung, Granger-Kausalität usw. versuchen, kausale Schlussfolgerungen zu lizenzieren, indem einige ziemlich schwache Annahmen auferlegt werden. Im Fall der Strukturgleichungsmodellierung zum Beispiel sind die Pfade gerichtet und A scheint B zu "verursachen". Dies bedeutet jedoch einfach, dass das strukturierte Modell "plausibel" ist, indem es eine beobachtete Kovarianzmatrix (tatsächlich die Richtung) reproduziert der Pfade sind nicht einmal wichtig - nur die Einschränkungen).
quelle