Kann man aus statistischer Sicht mit einer Beobachtungsstudie auf die Kausalität schließen, indem man die Neigungsbewertungen verwendet?

27

Frage: Kann man aus der Sicht eines Statistikers (oder eines Praktikers) die Kausalität mit Hilfe von Neigungsbewertungen anhand einer Beobachtungsstudie ( kein Experiment ) ableiten ?

Bitte, wollen Sie keinen Flammenkrieg oder eine fanatische Debatte beginnen.

Hintergrund: In unserem stat-Promotionsprogramm haben wir nur durch Arbeitsgruppen und einige Themensitzungen auf kausale Schlussfolgerungen hingewiesen. Es gibt jedoch einige sehr prominente Forscher in anderen Abteilungen (z. B. HDFS, Soziologie), die diese aktiv nutzen.

Ich habe bereits eine ziemlich hitzige Debatte über dieses Thema miterlebt. Ich habe nicht die Absicht, hier eine zu starten. Welche Referenzen sind Ihnen dabei begegnet? Welche Standpunkte haben Sie? Ein Argument, das ich zum Beispiel gegen Neigungsbewertungen als eine kausale Inferenzmethode gehört habe, ist, dass man niemals auf Kausalität schließen kann, wenn man eine Variable weglässt - wenn man etwas Wichtiges auslässt, bricht man die Kausalkette. Ist das ein unlösbares Problem?

Haftungsausschluss: Diese Frage kann möglicherweise nicht richtig beantwortet werden - völlig cool, wenn Sie auf cw klicken. Ich persönlich bin jedoch sehr an den Antworten interessiert und würde mich über einige gute Referenzen freuen, die Beispiele aus der Praxis enthalten.

M. Tibbits
quelle

Antworten:

16

Zu Beginn eines Artikels zur Förderung des Einsatzes von PS in der Epidemiologie zitierten Oakes und Church (1) die Behauptungen von Hernán und Robins über die Störwirkung in der Epidemiologie (2):

Können Sie garantieren, dass die Ergebnisse Ihrer Beobachtungsstudie von nicht gemessenen Verwirrungen unberührt bleiben? Die einzige Antwort, die ein Epidemiologe geben kann, ist "Nein".

Dies soll nicht nur heißen, dass wir nicht sicherstellen können, dass die Ergebnisse von Beobachtungsstudien objektiv oder nutzlos sind (da ihre Ergebnisse, wie @propofol sagte, für das Entwerfen von RCTs nützlich sein können), sondern auch, dass PSs sicherlich keine vollständige Lösung dafür bieten Problem, oder zumindest nicht unbedingt bessere Ergebnisse als andere Matching- oder multivariate Methoden (siehe zB (10)).

Propensity Scores (PS) sind konstruktionsbedingt probabilistische nicht kausale Indikatoren. Die Wahl der Kovariaten, die in die Propensity-Score-Funktion eingehen, ist ein Schlüsselelement für die Gewährleistung ihrer Zuverlässigkeit, und ihre Schwäche beruht, wie bereits gesagt, hauptsächlich darauf, dass nicht beobachtete Störfaktoren kontrolliert werden (was in retrospektiven oder Fall-Kontroll- Studien sehr wahrscheinlich ist ). . Andere Faktoren müssen berücksichtigt werden: (a) Fehlspezifikationen des Modells wirken sich auf direkte Effektschätzungen aus (allerdings nicht wirklich mehr als im OLS-Fall), (b) möglicherweise fehlen Daten auf der Ebene der Kovariaten, (c) PSs Synergieeffekte, von denen bekannt ist, dass sie die kausale Interpretation beeinflussen, nicht überwinden (8,9).

Bezüglich der Referenzen fand ich Roger Newsons Folien - Kausalität, Störfaktoren und Neigungsbewertungen - relativ ausgewogen in Bezug auf die Vor- und Nachteile der Verwendung von Neigungsbewertungen mit Abbildungen aus realen Studien. Es gab auch mehrere gute Artikel über die Verwendung von Neigungsbewertungen in Beobachtungsstudien oder der Umweltepidemiologie vor zwei Jahren in Statistics in Medicineund ich lege ein paar davon am Ende bei (3-6). Aber ich mag Pearl's Review (7), weil es eine größere Perspektive auf Kausalitätsfragen bietet (PSs werden auf den Seiten 117 und 130 besprochen). Offensichtlich finden Sie bei der Betrachtung der angewandten Forschung noch viele weitere Abbildungen. Ich möchte zwei neue Artikel von William R Shadish hinzufügen, die auf Andrew Gelmans Website (11,12) gestoßen sind. Die Verwendung von Neigungsscores wird diskutiert, die beiden Arbeiten konzentrieren sich jedoch stärker auf die kausale Inferenz in Beobachtungsstudien (und wie sie mit randomisierten Einstellungen verglichen werden).

Verweise

  1. Oakes, JM und Church, TR (2007). Eingeladener Kommentar: Weiterentwicklung der Propensity-Score-Methoden in der Epidemiologie . American Journal of Epidemiology , 165 (10), 1119-1121.
  2. Hernan MA und Robins JM (2006). Instrumente zur kausalen Folgerung: der Traum eines Epidemiologen? Epidemiology , 17, 360 & ndash; 72.
  3. Rubin, D. (2007). Das Design versus die Analyse von Beobachtungsstudien auf kausale Effekte: Parallelen zum Design randomisierter Studien . Statistik in der Medizin , 26, 20–36.
  4. Shrier, I. (2008). Brief an den Herausgeber . Statistics in Medicine , 27, 2740–2741.
  5. Pearl, J. (2009). Anmerkungen zur Methode der Neigungsbewertung . Statistics in Medicine , 28, 1415–1424.
  6. Stuart, EA (2008). Entwicklung praktischer Empfehlungen für die Verwendung von Neigungsscores: Diskussion von 'Eine kritische Bewertung der Übereinstimmung von Neigungsscores in der medizinischen Literatur zwischen 1996 und 2003' von Peter Austin . Statistics in Medicine , 27, 2062–2065.
  7. Pearl, J. (2009). Kausaler Rückschluss in der Statistik: Ein Überblick . Statistics Surveys , 3, 96-146.
  8. Oakes, JM und Johnson, PJ (2006). Propensity Score passend zur sozialen Epidemiologie . In Methods in Social Epidemiology , JM Oakes und S. Kaufman (Hrsg.), S. 364-386. Jossez-Bass.
  9. Höfler, M (2005). Kausaler Rückschluss basierend auf Kontrafakten . BMC Medical Research Methodology , 5, 28.
  10. Winkelmayer, WC und Kurth, T. (2004). Propensity Scores: Hilfe oder Hype? Nephrology Dialysis Transplantation , 19 (7), 1671 & ndash ; 1673.
  11. Shadish, WR, Clark, MH und Steiner, PM (2008). Können nicht randomisierte Experimente genaue Antworten liefern? Ein randomisiertes Experiment zum Vergleich von zufälligen und nicht zufälligen Aufgaben . JASA , 103 (484), 1334 & ndash; 1356.
  12. Cook, TD, Shadish, WR und Wong, VC (2008). Drei Bedingungen, unter denen Experimente und Beobachtungsstudien vergleichbare Kausalschätzungen liefern: Neue Erkenntnisse aus studieninternen Vergleichen . Journal of Policy Analysis and Management , 27 (4), 724–750.
U / min chl
quelle
11

Neigungsbewertungen werden typischerweise in der passenden Literatur verwendet. Die Neigungsbewertungen verwenden Vorbehandlungs-Kovariaten, um die Wahrscheinlichkeit einer Behandlung abzuschätzen. Im Wesentlichen wird eine Regression (entweder nur reguläres OLS oder Logit, Probit usw.) verwendet, um den Propensity Score mit der Behandlung zu berechnen, da Ihr Ergebnis und die Variablen vor der Behandlung Ihre Kovariaten sind. Sobald eine gute Schätzung der Neigungsbewertung erhalten wurde, werden Probanden mit ähnlichen Neigungsbewertungen, aber unterschiedlichen Behandlungen, aufeinander abgestimmt. Der Behandlungseffekt ist der Mittelwertunterschied zwischen diesen beiden Gruppen.

Rosenbaum und Rubin (1983) zeigen, dass es ausreicht, behandelte und kontrollierte Probanden nur mit dem Neigungsscore abzugleichen, um alle Verzerrungen in der Schätzung des Behandlungseffekts zu beseitigen, die aus den beobachteten Vorbehandlungskovariaten resultieren, die zur Erstellung des Scores verwendet wurden. Beachten Sie, dass für diesen Beweis die tatsächliche Neigungsbewertung und nicht eine Schätzung erforderlich ist. Der Vorteil dieses Ansatzes besteht darin, dass das Problem des Abgleichs in mehreren Dimensionen (eine für jede Vorbehandlungs-Kovariate) in einen univariaten Abgleichsfall umgewandelt wird - eine große Vereinfachung.

Rosenbaum, Paul R. und Donald B. Rubin. 1983. " Die zentrale Rolle des Propensity Score in Beobachtungsstudien für kausale Effekte ." Biometrika. 70 (1): 41–55.

Charlie
quelle
8

Nur eine prospektive randomisierte Studie kann die Kausalität bestimmen. In Beobachtungsstudien wird es immer die Möglichkeit einer ungemessenen oder unbekannten Kovariate geben, die es unmöglich macht, Kausalität zuzuschreiben.

Beobachtungsstudien können jedoch Hinweise auf eine starke Assoziation zwischen x und y liefern und sind daher für die Erstellung von Hypothesen nützlich. Diese Hypothesen müssen dann durch eine randomisierte Studie bestätigt werden.

pmgjones
quelle
Ich stimme dir voll und ganz zu. Eine Beobachtungsstudie kann hilfreich sein, um einige Assoziationen aufzudecken, die wiederum unter Verwendung eines viel strengeren Rahmens getestet werden können (randomisierte Studie, wie Sie vorschlagen).
Sympa
Ordentlicher Ausdruck. Kann nicht mehr mit dem Wort "starke" Assoziation zwischen x und y mit Ihnen übereinstimmen.
Kevin Kang
7

Die Frage scheint zwei Dinge zu betreffen, die wirklich getrennt betrachtet werden sollten. Erstens, ob man Kausalität aus einer Beobachtungsstudie ableiten kann, und dazu könnten Sie die Ansichten von Pearl (2009), die mit Ja argumentiert, kontrastieren, solange Sie den Prozess richtig modellieren können, und die Ansicht @propofol, wer wird Finden Sie viele Verbündete in experimentellen Disziplinen, die vielleicht einige der Gedanken teilen, die in einem (eher obskuren, aber dennoch guten) Aufsatz von Gerber et al. (2004) geäußert wurden. Zweitens, wenn Sie der Meinung sind, dass Kausalität aus Beobachtungsdaten abgeleitet werden kann, könnten Sie sich fragen, ob die Propensity-Score-Methoden dazu nützlich sind. Die Propensity-Score-Methoden umfassen verschiedene Konditionierungsstrategien sowie die inverse Propensity-Gewichtung. Eine schöne Rezension geben Lunceford und Davidian (2004).

Ein kleiner Kniffel: Propensity-Score-Matching und Gewichtung werden auch bei der Analyse von randomisierten Experimenten verwendet, wenn beispielsweise Interesse an der Berechnung von "indirekten Effekten" besteht und Probleme mit potenziell nicht zufälligem Abrieb oder Ausfall auftreten ( In diesem Fall ähnelt das, was Sie haben, einer Beobachtungsstudie.

Verweise

Gerber A. et al. 2004. "Die Illusion, aus Beobachtungsforschung zu lernen." In Shapiro I et al., Probleme und Methoden im Studium der Politik , Cambridge University Press.

Lunceford JK, Davidian M. 2004. "Schichtung und Gewichtung über den Propensity Score bei der Abschätzung der kausalen Behandlungseffekte: eine vergleichende Studie." Statistik in der Medizin 23 (19): 2937–2960.

Pearl J. 2009. Causality (2. Aufl.) , Cambridge University Press.

Cyrus S
quelle
Gut, dass Sie das ganze Buch von Pearl zitieren.
chl
0

Konventionelle Weisheit besagt, dass nur randomisierte kontrollierte Studien ("echte" Experimente) Kausalität identifizieren können.

Es ist jedoch nicht so einfach.

Ein Grund, warum die Randomisierung möglicherweise nicht ausreicht, ist, dass in "kleinen" Stichproben das Gesetz der großen Zahl nicht "stark genug" ist, um sicherzustellen, dass alle Unterschiede ausgeglichen sind. Die Frage ist: Was ist "zu klein" und wann beginnt "groß genug"? Saint-Mont (2015) argumentiert hier, dass "groß genug" durchaus zu Tausenden (n> 1000) anfangen könnte!

Schließlich geht es darum, Unterschiede zwischen Gruppen auszugleichen und auf Unterschiede zu kontrollieren. Daher sollte auch bei Experimenten größte Sorgfalt darauf verwendet werden, Unterschiede zwischen den Gruppen auszugleichen. Nach den Berechnungen von Saint-Mont (2015) kann es durchaus sein, dass man bei kleineren Stichproben mit abgestimmten (manuell ausgeglichenen) Stichproben erheblich besser abschneiden kann.

In Bezug auf die Wahrscheinlichkeit. Natürlich kann die Wahrscheinlichkeit niemals eine schlüssige Antwort geben - es sei denn, die Wahrscheinlichkeit ist extrem (null oder eins). In der Wissenschaft waren wir jedoch häufig mit Situationen konfrontiert, in denen wir keine schlüssige Antwort geben können, da die Dinge schwierig sind. Daher das Bedürfnis nach Wahrscheinlichkeit. Wahrscheinlichkeit ist nichts anderes als eine Möglichkeit, unsere Unsicherheit in einer Aussage auszudrücken. Als solches ähnelt es der Logik; siehe Briggs (2016) hier .

Die Wahrscheinlichkeit wird uns helfen, aber keine schlüssigen Antworten geben, keine Gewissheit. Aber es ist von großem Nutzen, Unsicherheit auszudrücken.

Beachten Sie auch, dass Kausalität nicht in erster Linie eine statistische Frage ist. Angenommen, zwei Mittel unterscheiden sich "signifikant". Bedeutet das nicht, dass die Gruppierungsvariable die Ursache für den Unterschied in der gemessenen Variablen ist? Nein (nicht unbedingt). Unabhängig davon, welche bestimmte Statistik verwendet wird - Neigungsbewertung, p-Werte, Bayes-Faktoren usw. - reichen solche Methoden (praktisch) nicht aus, um kausale Behauptungen zu sichern.

Sebastian Sauer
quelle