Warum funktioniert Propensity Score Matching für kausale Inferenz?

13

Propensity Score Matching wird verwendet, um kausale Schlussfolgerungen in Beobachtungsstudien zu ziehen (siehe das Rosenbaum / Rubin-Papier ). Was ist die einfache Intuition dahinter, warum es funktioniert?

Mit anderen Worten, warum verschwinden die verwirrenden Effekte, wenn wir sicherstellen, dass die Wahrscheinlichkeit einer Teilnahme an der Behandlung für beide Gruppen gleich ist, und wir können das Ergebnis verwenden, um kausale Schlussfolgerungen über die Behandlung zu ziehen?

max
quelle
8
Meins ist wahrscheinlich eine unpopuläre Meinung, aber ich denke, dass PSM es Ihnen ermöglicht, kausale Schlussfolgerungen zu ziehen, was es ein wenig ausdehnt. Ja, es ist eine feinere Übereinstimmungsmethode als nur eine "grobe" Übereinstimmung mit einer Handvoll Variablen, aber am Ende des Tages stimmen Sie immer noch nur mit den Variablen überein, die für Sie beobachtbar sind. Möglicherweise haben Sie noch eine endogene Behandlung, aber Sie gehen davon aus, dass die Behandlung nach dem Matching exogen ist. Aber andererseits bin ich ein Niemand im Vergleich zu Rubin :)
Marquis de Carabas
5
Es gibt diejenigen, die Rosenbaum und Rubin nicht zustimmen. Gary King hat ziemlich effektiv argumentiert, dass die Ergebnisse des Matchings mit PSM schlechter sind als die Ergebnisse des Matchings basierend auf der Mahalanobis-Distanz. Siehe seinen Artikel hier ... gking.harvard.edu/files/gking/files/psnot.pdf?m=1456683191 Darüber hinaus bietet dieses Webinar noch überzeugendere Beweise ... methoden-colloquium.com/…
Mike Hunter
4
Theoretisch KÖNNEN Sie mit Rubins Kausalmodell kausale Schlussfolgerungen ziehen, wenn alle Annahmen erfüllt sind. Aber natürlich steckt der Teufel immer im Detail der Annahme, und für mich ist die Annahme von unbeobachteten Störfaktoren oft schwierig. In der Tat ist es unmöglich zu beweisen. Sie können jedoch zumindest Sensitivitätsanalysen durchführen, um festzustellen, wie sich Ihre Schlussfolgerungen ändern würden, wenn Sie nicht beobachtete Störfaktoren hätten.
StatsStudent
5
Guter Punkt @DJohnson. Es gibt auch Leute wie Judea Pearl, Ian Shrier und Arvid Sjolander, die das potenzielle Ergebnis-Framework von Rubin für kausale Schlussfolgerungen kritisch sehen, da die Möglichkeit besteht, "M-Bias" durch einen sogenannten "Collider" einzuführen. Sie sind interessante Lesungen und sollten alle Lesungen von Rubin ergänzen.
StatsStudent

Antworten:

12

Ich werde versuchen, Ihnen ein intuitives Verständnis mit minimalem Schwerpunkt auf der Mathematik zu vermitteln.

Das Hauptproblem bei Beobachtungsdaten und daraus resultierenden Analysen ist verwirrend. Verwirrung tritt auf, wenn eine Variable nicht nur die zugewiesene Behandlung, sondern auch die Ergebnisse beeinflusst. Wenn ein randomisiertes Experiment durchgeführt wird, werden die Probanden nach Behandlungen randomisiert, so dass die jeder Behandlung zugewiesenen Probanden im Durchschnitt in Bezug auf die Kovariaten (Alter, Rasse, Geschlecht usw.) ähnlich sein sollten. Aufgrund dieser Randomisierung ist es unwahrscheinlich (insbesondere bei großen Stichproben), dass Unterschiede im Ergebnis auf Kovariaten zurückzuführen sind, jedoch auf die angewandte Behandlung, da die Kovariaten in den Behandlungsgruppen im Durchschnitt ähnlich sind.

Andererseits gibt es bei Beobachtungsdaten keinen zufälligen Mechanismus, der Probanden Behandlungen zuordnet. Nehmen Sie zum Beispiel eine Studie, um die Überlebensraten von Patienten nach einer neuen Herzoperation im Vergleich zu einem chirurgischen Standardverfahren zu untersuchen. Normalerweise kann man Patienten aus ethischen Gründen nicht für jedes Verfahren randomisieren. Infolgedessen wählen sich Patienten und Ärzte selbst für eine der Behandlungen aus, häufig aus einer Reihe von Gründen, die mit ihren Kovariaten zusammenhängen. Zum Beispiel könnte das neue Verfahren etwas riskanter sein, wenn Sie älter sind, und infolgedessen könnten Ärzte jüngeren Patienten die neue Behandlung häufiger empfehlen. Wenn dies passiert und Sie sich die Überlebensraten ansehen, scheint die neue Behandlung möglicherweise effektiver zu sein. Dies wäre jedoch irreführend, da jüngere Patienten dieser Behandlung zugewiesen wurden und jüngere Patienten tendenziell länger leben. alles andere ist gleich. Hier bieten sich Neigungswerte an.

Propensity Scores helfen bei dem grundsätzlichen Problem der kausalen Inferenz - dass Sie aufgrund der Nicht-Randomisierung der behandelten Probanden möglicherweise Verwirrung stiften und dies möglicherweise die Ursache für die "Effekte" ist, die Sie sehen, und nicht die Intervention oder Behandlung allein. Wenn Sie Ihre Analyse irgendwie so ändern könnten, dass die Kovariaten (z. B. Alter, Geschlecht, Geschlecht, Gesundheitszustand) zwischen den Behandlungsgruppen „ausgewogen“ sind, hätten Sie starke Beweise dafür, dass der Unterschied in den Ergebnissen auf die Intervention / Behandlung zurückzuführen ist eher als diese Kovariaten. Die Neigungsbewertungen bestimmen die Wahrscheinlichkeit jedes Probanden, der Behandlung zugeordnet zu werden, die es angesichts der beobachteten Kovariten erhalten hat. Wenn Sie dann mit diesen Wahrscheinlichkeiten übereinstimmen (Neigungswerte),

Sie fragen sich vielleicht, warum die Kovariaten nicht genau übereinstimmen (z. B. stellen Sie sicher, dass Sie 40-jährige Männer bei guter Gesundheit in Behandlung 1 mit 40-jährigen Männern bei guter Gesundheit in Behandlung 2 übereinstimmen)? Dies funktioniert gut für große Stichproben und einige wenige Kovariaten, ist jedoch nahezu unmöglich, wenn die Stichprobengröße klein und die Anzahl der Kovariaten sogar mäßig groß ist (siehe den Fluch der Dimensionalität bei Cross-Validated, warum dies der Fall ist). .

Nun, all dies gesagt, ist die Achillesferse der Neigungsbewertung die Annahme, dass keine unbeobachteten Störfaktoren auftreten. Diese Annahme besagt, dass Sie keine Kovariaten in Ihre Anpassung einbezogen haben, die potenzielle Störfaktoren darstellen. Intuitiv ist der Grund dafür, dass Sie sich darauf einstellen können, wenn Sie bei der Erstellung Ihrer Neigungsbewertung keinen Störfaktor berücksichtigt haben. Es gibt auch zusätzliche Annahmen wie die Annahme eines stabilen Einheitsbehandlungswerts, die besagt, dass die einem Subjekt zugewiesene Behandlung das potenzielle Ergebnis der anderen Subjekte nicht beeinflusst.

StatsStudent
quelle
7

Im engeren Sinne hat die Anpassung des Neigungsscores nicht mehr mit kausaler Inferenz zu tun als die Regressionsmodellierung. Der einzige wirkliche Unterschied zu den Neigungswerten besteht darin, dass sie es einfacher machen, sich auf mehr beobachtete potenzielle Störfaktoren einzustellen, als dass die Stichprobengröße die Einbeziehung von Regressionsmodellen ermöglichen könnte. Die Anpassung des Neigungsscores (in den meisten Fällen am besten durch kovariate Anpassung unter Verwendung eines Splines im logit PS) kann als Datenreduktionstechnik angesehen werden, bei der die Reduzierung entlang einer wichtigen Achse erfolgt - verwirrend. Die Heterogenität der Ergebnisse (Suszeptibilitätsverzerrung) wird jedoch nicht behandelt, sodass Sie auch bei Verwendung von Neigungen wichtige wichtige Kovariaten berücksichtigen müssen (siehe auch Probleme im Zusammenhang mit der Nichtkollabierbarkeit von Quoten und Gefährdungsquoten).

Propensity Score Matching kann viele Beobachtungen ausschließen und ist daher furchtbar ineffizient. Ich halte jede Methode, die relevante Beobachtungen ausschließt, für problematisch. Das eigentliche Problem beim Abgleich besteht darin, dass leicht übereinstimmende Beobachtungen aufgrund eines wahrgenommenen Bedarfs an 1: 1-Abgleich ausgeschlossen werden und die meisten Abgleichalgorithmen von der Beobachtungsreihenfolge abhängen.

Beachten Sie, dass es bei der Standardanpassung der Regression für Verwechslungen sehr einfach ist, nicht überlappende Bereiche zu prüfen und auszuschließen. Propensity Score-Benutzer lernen dies und der einzige Grund, warum Regressionsmodellierer dies nicht tun, ist, dass sie dies nicht lernen.

Die Propensity-Score-Analyse verbirgt alle Wechselwirkungen mit der Exposition, und die Propensity-Score-Übereinstimmung verbirgt zusätzlich eine mögliche Beziehung zwischen PS und Behandlungseffekt.

Die Sensitivitätsanalyse (für nicht gemessene Störfaktoren) wurde für PS ausgearbeitet, ist jedoch mit der Standard-Regressionsmodellierung noch einfacher durchzuführen.

Wenn Sie flexible Regressionsmethoden verwenden, um die PS zu schätzen (z. B. nehmen Sie nicht an, dass kontinuierliche Variablen linear wirken), müssen Sie nicht einmal nach dem Gleichgewicht suchen - es muss ein Gleichgewicht vorhanden sein, oder das PS-Regressionsmodell wurde am Anfang nicht korrekt angegeben . Sie müssen nur auf Nichtüberlappung prüfen. Dies setzt voraus, dass es keine wichtigen Wechselwirkungen gibt, die im Neigungsmodell weggelassen wurden. Matching macht die gleiche Annahme.

Frank Harrell
quelle
3

Ich empfehle, sich Mostly Harmless Econometrics anzuschauen - sie haben eine gute Erklärung dafür auf einer intuitiven Ebene.

xichy0ich,y1ichxy0ich,y1ichxy0ich,y1ich korreliert mit der Behandlung.

xxxxx

xxxx

y0ich,y1ichxichp(xich)p(x)xx

p(x)xxxy0ich,y1ichsind nicht mit der Behandlung korreliert. Diese Bedingung stellt sicher, dass die durchschnittliche Differenz des Ergebnisses zwischen behandelten und unbehandelten Unterproben eine konsistente Schätzung des durchschnittlichen Behandlungseffekts auf diese Unterprobe ist, d. H.

E.[yich|Behandelt,p(x)]]- -E.[yich|Unbehandelt,p(x)]]

ist eine konsistente Schätzung des lokalen durchschnittlichen Behandlungseffekts.

Weiterführende Literatur:

Sollten wir in der Praxis wirklich den Propensity Score Matching verwenden?

Verwandte Frage zum Vergleich von Matching und Regression

nfernand
quelle
1

Es "funktioniert" aus dem gleichen Grund, aus dem die Regression "funktioniert" - Sie kontrollieren alle Störfaktoren.

Sie können eine solche analytische Kontrolle durch ein vollständig spezifiziertes Regressionsmodell mit möglicherweise vielen verwirrenden Variablen oder ein Regressionsmodell mit nur einer Variablen durchführen - dem Neigungswert (der möglicherweise ein ebenso kompliziertes Modell ist, das aus denselben Störfaktoren besteht oder nicht). Sie können sich an diese Regression gegenüber dem Neigungswert halten oder die Antwort in ähnlichen Gruppen vergleichen, wobei die Ähnlichkeit durch den Neigungswert definiert wird. Im Geiste tun Sie dasselbe, aber einige Leute glauben, dass die letztere Methode die vorliegende kausale Aufgabe besser hervorhebt.

Aktualisiere folgendes Feedback

Mein Gedanke, um die Intuition zu erklären, warum Propensity Score Matching funktioniert, war, den Propensity Score Theorem zu erklären , dh

Y.(0),Y.(1)T.|X.Y.(0),Y.(1)T.|p(X.),
etwas, von dem ich dachte, ich könnte es mit Regression tun. Aber wie @StatsStudent argumentiert, macht es die Regression einfach, Vergleiche zwischen Behandlung und Kontrolle zu extrapolieren, die in den Daten niemals vorkommen. Wenn dies ein Teil dessen ist, warum die Neigungsbewertung "funktioniert", war meine Antwort unvollständig. Ich habe Counterfactuals und Causal Inference konsultiertund lesen Sie über eine Version des Matchings mit dem nächsten Nachbarn, die als "Caliper Matching" bezeichnet wird (S. 108), bei der die Neigungswerte der Behandlung und des nächsten Kontrollfalls innerhalb eines maximalen Abstands liegen müssen, was zu einigen Behandlungsfällen ohne Matches führt. In diesem Fall würde die Methode weiterhin funktionieren, indem der Neigungswert unter Verwendung eines nichtparametrischen Analogons zur Regression angepasst wird, aber es wird auch klar, was aus den Daten allein nicht bekannt ist (ohne ein Modell, aus dem extrapoliert werden kann), und eine Neudefinition von ermöglicht die kausale Menge unter Berücksichtigung der verfügbaren Daten.
Ben Ogorek
quelle
1
Diese Antwort wird bestimmt nicht gemocht, weil sie die Neigungsbewertungsmethoden verbilligt, indem sie mit der Regression verglichen wird, einem Schimpfwort in kausalen Kreisen. Die führende Antwort gibt jedoch zu, dass "die Achillesferse der Neigungsbewertung die Annahme ist, dass keine unbeobachteten Störfaktoren auftreten". Das ist eine ziemlich große Achillesferse. Angenommen, die Annahme ist erfüllt und ich habe einen Datensatz mit allen Störfaktoren im Universum. Helfen Sie mir zu verstehen, warum Regression nicht funktioniert, um die kausale Wahrheit aufzudecken, sondern der Neigungs-Score-Matching.
Ben Ogorek
1
Der Grund, warum Regression oft problematisch ist, liegt darin, dass Ergebnisse aus Regression extrapoliert werden. Mit den Neigungswerten wird bei kovariaten Gleichgewichtsprüfungen sichergestellt, dass zwischen den Behandlungsgruppen eine ausreichende Überlappung der Störfaktoren besteht. Dies ist bei der Regression nicht unbedingt der Fall und kann zu ungenauen Schätzungen führen, da es keine Standarddiagnoseprüfungen gibt, die Ihnen mitteilen, dass Ihr Regressionsmodell extrapoliert. Aus diesem Grund führe ich normalerweise Ausgleichsprüfungen für Neigungsbewertungen durch, auch wenn ich nur ein Regressionsmodell durchführe und nicht vorhabe, die Neigungsbewertungen selbst zu verwenden.
StatsStudent