Frage: Kann man aus der Sicht eines Statistikers (oder eines Praktikers) die Kausalität mit Hilfe von Neigungsbewertungen anhand einer Beobachtungsstudie ( kein Experiment ) ableiten ?
Bitte, wollen Sie keinen Flammenkrieg oder eine fanatische Debatte beginnen.
Hintergrund: In unserem stat-Promotionsprogramm haben wir nur durch Arbeitsgruppen und einige Themensitzungen auf kausale Schlussfolgerungen hingewiesen. Es gibt jedoch einige sehr prominente Forscher in anderen Abteilungen (z. B. HDFS, Soziologie), die diese aktiv nutzen.
Ich habe bereits eine ziemlich hitzige Debatte über dieses Thema miterlebt. Ich habe nicht die Absicht, hier eine zu starten. Welche Referenzen sind Ihnen dabei begegnet? Welche Standpunkte haben Sie? Ein Argument, das ich zum Beispiel gegen Neigungsbewertungen als eine kausale Inferenzmethode gehört habe, ist, dass man niemals auf Kausalität schließen kann, wenn man eine Variable weglässt - wenn man etwas Wichtiges auslässt, bricht man die Kausalkette. Ist das ein unlösbares Problem?
Haftungsausschluss: Diese Frage kann möglicherweise nicht richtig beantwortet werden - völlig cool, wenn Sie auf cw klicken. Ich persönlich bin jedoch sehr an den Antworten interessiert und würde mich über einige gute Referenzen freuen, die Beispiele aus der Praxis enthalten.
quelle
Die Frage scheint zwei Dinge zu betreffen, die wirklich getrennt betrachtet werden sollten. Erstens, ob man Kausalität aus einer Beobachtungsstudie ableiten kann, und dazu könnten Sie die Ansichten von Pearl (2009), die mit Ja argumentiert, kontrastieren, solange Sie den Prozess richtig modellieren können, und die Ansicht @propofol, wer wird Finden Sie viele Verbündete in experimentellen Disziplinen, die vielleicht einige der Gedanken teilen, die in einem (eher obskuren, aber dennoch guten) Aufsatz von Gerber et al. (2004) geäußert wurden. Zweitens, wenn Sie der Meinung sind, dass Kausalität aus Beobachtungsdaten abgeleitet werden kann, könnten Sie sich fragen, ob die Propensity-Score-Methoden dazu nützlich sind. Die Propensity-Score-Methoden umfassen verschiedene Konditionierungsstrategien sowie die inverse Propensity-Gewichtung. Eine schöne Rezension geben Lunceford und Davidian (2004).
Ein kleiner Kniffel: Propensity-Score-Matching und Gewichtung werden auch bei der Analyse von randomisierten Experimenten verwendet, wenn beispielsweise Interesse an der Berechnung von "indirekten Effekten" besteht und Probleme mit potenziell nicht zufälligem Abrieb oder Ausfall auftreten ( In diesem Fall ähnelt das, was Sie haben, einer Beobachtungsstudie.
Verweise
Gerber A. et al. 2004. "Die Illusion, aus Beobachtungsforschung zu lernen." In Shapiro I et al., Probleme und Methoden im Studium der Politik , Cambridge University Press.
Lunceford JK, Davidian M. 2004. "Schichtung und Gewichtung über den Propensity Score bei der Abschätzung der kausalen Behandlungseffekte: eine vergleichende Studie." Statistik in der Medizin 23 (19): 2937–2960.
Pearl J. 2009. Causality (2. Aufl.) , Cambridge University Press.
quelle
Konventionelle Weisheit besagt, dass nur randomisierte kontrollierte Studien ("echte" Experimente) Kausalität identifizieren können.
Es ist jedoch nicht so einfach.
Ein Grund, warum die Randomisierung möglicherweise nicht ausreicht, ist, dass in "kleinen" Stichproben das Gesetz der großen Zahl nicht "stark genug" ist, um sicherzustellen, dass alle Unterschiede ausgeglichen sind. Die Frage ist: Was ist "zu klein" und wann beginnt "groß genug"? Saint-Mont (2015) argumentiert hier, dass "groß genug" durchaus zu Tausenden (n> 1000) anfangen könnte!
Schließlich geht es darum, Unterschiede zwischen Gruppen auszugleichen und auf Unterschiede zu kontrollieren. Daher sollte auch bei Experimenten größte Sorgfalt darauf verwendet werden, Unterschiede zwischen den Gruppen auszugleichen. Nach den Berechnungen von Saint-Mont (2015) kann es durchaus sein, dass man bei kleineren Stichproben mit abgestimmten (manuell ausgeglichenen) Stichproben erheblich besser abschneiden kann.
In Bezug auf die Wahrscheinlichkeit. Natürlich kann die Wahrscheinlichkeit niemals eine schlüssige Antwort geben - es sei denn, die Wahrscheinlichkeit ist extrem (null oder eins). In der Wissenschaft waren wir jedoch häufig mit Situationen konfrontiert, in denen wir keine schlüssige Antwort geben können, da die Dinge schwierig sind. Daher das Bedürfnis nach Wahrscheinlichkeit. Wahrscheinlichkeit ist nichts anderes als eine Möglichkeit, unsere Unsicherheit in einer Aussage auszudrücken. Als solches ähnelt es der Logik; siehe Briggs (2016) hier .
Die Wahrscheinlichkeit wird uns helfen, aber keine schlüssigen Antworten geben, keine Gewissheit. Aber es ist von großem Nutzen, Unsicherheit auszudrücken.
Beachten Sie auch, dass Kausalität nicht in erster Linie eine statistische Frage ist. Angenommen, zwei Mittel unterscheiden sich "signifikant". Bedeutet das nicht, dass die Gruppierungsvariable die Ursache für den Unterschied in der gemessenen Variablen ist? Nein (nicht unbedingt). Unabhängig davon, welche bestimmte Statistik verwendet wird - Neigungsbewertung, p-Werte, Bayes-Faktoren usw. - reichen solche Methoden (praktisch) nicht aus, um kausale Behauptungen zu sichern.
quelle