Statistik und kausale Folgerung?

51

In seiner Arbeit "Statistics and Causal Inference" von 1984 hat Paul Holland eine der grundlegendsten Fragen in der Statistik aufgeworfen:

Was kann ein statistisches Modell über die Kausalität aussagen?

Dies führte zu seinem Motto:

KEINE URSACHE OHNE MANIPULATION

in denen die Bedeutung von Einschränkungen für Experimente unter Berücksichtigung von Ursachen betont wurde. Andrew Gelman macht einen ähnlichen Punkt :

"Um herauszufinden, was passiert, wenn Sie etwas ändern, müssen Sie es ändern." ... Es gibt Dinge, die Sie aus der Störung eines Systems lernen, die Sie niemals durch passive Beobachtung herausfinden werden.

Seine Ideen sind in diesem Artikel zusammengefasst .

Welche Überlegungen sollten angestellt werden, wenn aus einem statistischen Modell eine kausale Schlussfolgerung gezogen wird?

Shane
quelle
2
tolle frage
Jeromy Anglim
5
Zu viel zu sagen. Sie können jedoch Pearl's Buch "Causality" (2002, aber neuere 2. Auflage) oder Hernan and Robins 'Buch "Causal Inference" (2015, kostenlose elektronische Fassung online, wenn Sie suchen) lesen.

Antworten:

28

Dies ist eine weit gefasste Frage, aber angesichts der Tatsache, dass Box, Hunter und Hunter zutreffend sind, denke ich, worauf es ankommt

  1. Die Qualität des Versuchsaufbaus:

    • Randomisierung, Stichprobengröße, Kontrolle von Confoundern, ...
  2. Die Qualität der Umsetzung des Entwurfs:

    • Protokolleinhaltung, Messfehler, Datenhandling, ...
  3. Die Qualität des Modells, um das Design genau wiederzugeben:

    • blockierende Strukturen werden genau dargestellt, richtige Freiheitsgrade werden mit Effekten assoziiert, Schätzer sind unvoreingenommen, ...

Auf die Gefahr hin, das Offensichtliche zu sagen, werde ich versuchen, die wichtigsten Punkte eines jeden zu treffen:

  1. ist ein großes Teilgebiet der Statistik, aber in seiner grundlegendsten Form kommt es meiner Meinung nach darauf an, dass wir bei kausalen Schlussfolgerungen im Idealfall mit identischen Einheiten beginnen, die in identischen Umgebungen überwacht werden und nicht einer Behandlung zugeordnet sind. Alle systematischen Unterschiede zwischen Gruppen nach der Zuordnung sind dann logischerweise auf die Behandlung zurückzuführen (wir können auf eine Ursache schließen). Aber die Welt ist nicht so schön und die Einheiten unterscheiden sich vor der Behandlung und die Umgebung während der Experimente wird nicht perfekt kontrolliert. Also "kontrollieren wir, was wir können und randomisieren, was wir nicht können", wodurch sichergestellt wird, dass aufgrund der von uns kontrollierten oder randomisierten Confounder keine systematische Verzerrung auftritt. Ein Problem besteht darin, dass Experimente in der Regel schwierig (bis unmöglich) und teuer sind und eine Vielzahl von Designs entwickelt wurden, um unter Berücksichtigung der Kosten so viele Informationen wie möglich in einer möglichst sorgfältig kontrollierten Umgebung effizient zu extrahieren. Einige davon sind ziemlich streng (z. B. in der Medizin die doppelblinde, randomisierte, placebokontrollierte Studie), andere weniger (z. B. verschiedene Formen von „Quasi-Experimenten“).

  2. ist auch ein großes Thema, an das Statistiker im Allgemeinen nicht denken ... obwohl wir sollten. In der angewandten statistischen Arbeit kann ich mich an Vorkommnisse erinnern, bei denen die in den Daten gefundenen "Effekte" falsche Ergebnisse einer inkonsistenten Datenerfassung oder -verarbeitung waren. Ich frage mich auch, wie oft Informationen über die tatsächlichen kausalen Auswirkungen von Interesse aufgrund dieser Probleme verloren gehen (ich glaube, dass Studenten der angewandten Wissenschaften im Allgemeinen kaum oder gar nicht darüber geschult sind, wie Daten verfälscht werden können - aber ich komme hier nicht zum Thema ...)

  3. ist ein weiteres großes technisches Thema und ein weiterer notwendiger Schritt zur objektiven kausalen Folgerung. Bis zu einem gewissen Grad ist dies erledigt, da die Design-Masse gemeinsam Designs und Modelle entwickelt (da die Schlussfolgerung aus einem Modell das Ziel ist, treiben die Attribute der Schätzer das Design voran). Das bringt uns aber nur weiter, weil wir in der „realen Welt“ experimentelle Daten von Nicht-Lehrbuchdesigns analysieren und uns dann überlegen müssen, wie die entsprechenden Steuerelemente in das Modell aufgenommen werden sollen und in welchem ​​Ausmaß Freiheit sollte sein und ob Annahmen getroffen werden, wenn nicht, wie Verstöße zu korrigieren sind und wie robust die Schätzer gegenüber verbleibenden Verstößen sind und ...

Wie auch immer, hoffentlich helfen einige der oben genannten Punkte dabei, Überlegungen anzustellen, um aus einem Modell einen kausalen Rückschluss zu ziehen. Habe ich etwas Großes vergessen?

Kingsford Jones
quelle
3
Ein großes Plus für Punkt 2. Abgesehen davon, dass ich ein Training zum Schutz von Menschen durchlaufen habe, habe ich noch nie die geringste Schulung zur Datenerfassung und -speicherung erhalten. Die richtige Datenerfassung ist weitaus wichtiger als die Analyse.
Matt Parker
Ich würde auch gerne antworten, aber ich fürchte, Kingsford hat nichts mehr hinzuzufügen.
Joris Meys
7

Zusätzlich zu der hervorragenden Antwort oben gibt es eine statistische Methode, mit der Sie dem Nachweis der Kausalität näher kommen können. Es ist die Granger-Kausalität, die zeigt, dass eine unabhängige Variable, die vor einer abhängigen Variablen auftritt, eine kausale Wirkung hat oder nicht. Ich stelle diese Methode in einer übersichtlichen Präsentation unter folgendem Link vor:

http://www.slideshare.net/gaetanlion/granger-causality-presentation

Ich wende diese Methode auch zum Testen konkurrierender makroökonomischer Theorien an: http://www.slideshare.net/gaetanlion/economic-theory-testing-presentation

Beachten Sie, dass diese Methode nicht perfekt ist. Es wird lediglich bestätigt, dass bestimmte Ereignisse vor anderen auftreten und dass diese Ereignisse eine konsistente Richtungsbeziehung zu haben scheinen. Dies scheint wahre Kausalität mit sich zu bringen, ist jedoch nicht immer der Fall. Der Hahn-Morgenruf lässt die Sonne nicht aufgehen.

Sympa
quelle
4

Was kann ein statistisches Modell über die Kausalität aussagen? Welche Überlegungen sollten angestellt werden, wenn aus einem statistischen Modell eine kausale Schlussfolgerung gezogen wird?

Als Erstes muss klargestellt werden, dass Sie aus einem rein statistischen Modell keine kausalen Schlussfolgerungen ziehen können. Kein statistisches Modell kann ohne kausale Annahmen etwas über die Kausalität aussagen. Das heißt, um kausale Schlussfolgerungen ziehen zu können , benötigen Sie ein Kausalmodell .

Sogar in einem als Goldstandard angesehenen Bereich, z. B. in randomisierten Kontrollstudien (Randomized Control Trials, RCTs), müssen Sie kausale Annahmen treffen, um fortzufahren. Lassen Sie mich das klarstellen. Angenommen, ist das Randomisierungsverfahren, die Behandlung von Interesse und das Ergebnis von Interesse. Wenn Sie von einer perfekten RCT ausgehen, gehen Sie davon aus, dassZXY

Bildbeschreibung hier eingeben

In diesem Fall ist damit die Dinge gut funktionieren. Angenommen, Sie haben eine fehlerhafte Konformität, die zu einer verwechslungsreichen Beziehung zwischen und . Dann sieht Ihr RCT jetzt so aus:P(Y|do(X))=P(Y|X)XY

Bildbeschreibung hier eingeben

Sie können immer noch die Absicht haben, die Analyse zu behandeln. Aber wenn Sie den tatsächlichen Effekt von abschätzen möchten, sind die Dinge nicht mehr einfach. Dies ist eine instrumentelle Variableneinstellung, und Sie können den Effekt möglicherweise eingrenzen oder sogar punktuell identifizieren, wenn Sie einige parametrische Annahmen treffen .X

Dies kann noch komplizierter werden. Möglicherweise haben Sie Probleme mit Messfehlern, Probanden brechen die Studie ab oder folgen unter anderem nicht den Anweisungen. Sie müssen Annahmen darüber treffen, in welchem ​​Zusammenhang diese Dinge mit ableitendem Vorgehen stehen. Bei "reinen" Beobachtungsdaten kann dies problematischer sein, da die Forscher in der Regel keine genaue Vorstellung vom Datenerzeugungsprozess haben.

Um kausale Schlussfolgerungen aus Modellen zu ziehen, müssen Sie daher nicht nur die statistischen Annahmen, sondern vor allem die kausalen Annahmen beurteilen. Hier sind einige häufige Bedrohungen für die Ursachenanalyse:

  • Unvollständige / ungenaue Daten
  • Ziel-Kausalzinsmenge nicht genau definiert (Was ist der Kausaleffekt, den Sie identifizieren möchten? Was ist die Zielpopulation?)
  • Confounding (unbeobachtete Confounder)
  • Selektionsbias (Selbstselektion, abgeschnittene Samples)
  • Messfehler (der nicht nur Störgeräusche verursachen kann)
  • Fehlspezifikation (zB falsche Funktionsform)
  • Externe Validitätsprobleme (falscher Rückschluss auf die Zielpopulation)

Manchmal kann die Behauptung des Fehlens dieser Probleme (oder die Behauptung, diese Probleme angegangen zu sein) durch das Design der Studie selbst gestützt werden. Deshalb sind experimentelle Daten in der Regel glaubwürdiger. Manchmal werden die Leute diese Probleme jedoch entweder theoretisch oder aus Bequemlichkeitsgründen wegnehmen. Wenn die Theorie weich ist (wie in den Sozialwissenschaften), wird es schwieriger sein, die Schlussfolgerungen zum Nennwert zu ziehen.

Wann immer Sie glauben, dass eine Annahme nicht gesichert werden kann, sollten Sie bewerten, wie sensibel die Schlussfolgerungen für plausible Verstöße gegen diese Annahmen sind - dies wird normalerweise als Sensitivitätsanalyse bezeichnet.

Carlos Cinelli
quelle
Wäre es gleichbedeutend, den gestrichelten bidirektionalen Pfeil durch zwei unidirektionale durchgezogene Pfeile von einem zusätzlichen Knoten zu ersetzen?
Taylor
@ Taylor ja, ein latenter (nicht beobachteter) zusätzlicher Knoten.
Carlos Cinelli