Das Warum-Buch von Judea Pearl: Warum schlägt er Statistiken?

79

Ich lese The Book of Why von Judea Pearl und es geht mir unter die Haut 1 . Insbesondere scheint es mir, dass er die "klassische" Statistik bedingungslos kritisiert, indem er argumentiert, dass die Statistik niemals in der Lage ist, Kausalzusammenhänge zu untersuchen, dass sie niemals an Kausalzusammenhängen interessiert ist und dass die Statistik "zum Modell wurde Datenreduzierungsunternehmen ". Statistik wird in seinem Buch zu einem hässlichen Schimpfwort.

Zum Beispiel:

Die Statistiker waren immens verwirrt darüber, welche Variablen kontrolliert werden sollten und welche nicht. Daher bestand die Standardpraxis darin, alles zu kontrollieren, was man messen kann. [...] Es ist eine bequeme, einfache Prozedur, die jedoch sowohl verschwenderisch als auch mit Fehlern behaftet ist. Ein Schlüsselerfolg der Kausalen Revolution war es, diese Verwirrung zu beenden.

Gleichzeitig unterschätzen Statistiker das Controlling stark, da sie es ablehnen, überhaupt über Kausalität zu sprechen [...]

Kausale Modelle sind jedoch schon immer in der Statistik enthalten. Ich meine, ein Regressionsmodell kann im Wesentlichen als Kausalmodell verwendet werden, da wir im Wesentlichen davon ausgehen, dass eine Variable die Ursache und eine andere die Wirkung ist (daher unterscheidet sich die Korrelation von der Regressionsmodellierung) und testen, ob dieser Kausalzusammenhang die beobachteten Muster erklärt .

Ein weiteres Zitat:

Kein Wunder, dass insbesondere Statistiker dieses Rätsel [Das Monty Hall-Problem] schwer zu verstehen fanden. Sie sind es gewohnt, wie RA Fisher (1922) es ausdrückte, "Daten zu reduzieren" und den Datenerzeugungsprozess zu ignorieren.

Dies erinnert mich an die Antwort, die Andrew Gelman an die berühmte xkcd-Karikatur über Bayesianer und Frequentisten schrieb: "Dennoch halte ich die Karikatur als Ganzes für unfair, da sie einen vernünftigen Bayesianer mit einem frequentistischen Statistiker vergleicht, der blind den Ratschlägen flacher Lehrbücher folgt . "

Das Ausmaß der Falschdarstellung von S-Wörtern, die meines Erachtens in Judea Pearls Buch vorkommt, ließ mich fragen, ob eine kausale Folgerung (die ich bisher als nützliche und interessante Methode zum Organisieren und Testen einer wissenschaftlichen Hypothese 2 angesehen habe ) fraglich ist.

Fragen: Glauben Sie, dass Judea Pearl Statistiken falsch darstellt, und wenn ja, warum? Nur um kausale Folgerungen größer klingen zu lassen als sie sind? Denken Sie, dass kausale Folgerung eine Revolution mit einem großen R ist, die unser gesamtes Denken wirklich verändert?

Bearbeiten:

Die obigen Fragen sind meine Hauptfrage, aber da sie zugegebenermaßen eine Meinung sind, beantworten Sie bitte diese konkreten Fragen (1). Was bedeutet die "Kausalrevolution"? (2) Wie unterscheidet es sich von "orthodoxen" Statistiken?

1. Auch weil er so ein bescheidener Typ ist.
2. Ich meine im wissenschaftlichen, nicht statistischen Sinne.

BEARBEITEN : Andrew Gelman schrieb diesen Blogbeitrag über Judea Pearls Buch und ich denke, er hat meine Probleme mit diesem Buch viel besser erklärt als ich. Hier sind zwei Zitate:

Auf Seite 66 des Buches schreiben Pearl und Mackenzie, dass die Statistik „zu einem Modell-Blind-Datenreduktionsunternehmen geworden ist.“ Hey! Was zum Teufel redest du? Ich bin Statistiker, mache seit 30 Jahren Statistiken und arbeite in Bereichen von Politik bis Toxikologie. "Model-Blind-Datenreduktion"? Das ist nur Schwachsinn. Wir benutzen die ganze Zeit Modelle.

Und noch einer:

Aussehen. Ich kenne das Dilemma des Pluralisten. Einerseits glaubt Pearl, dass seine Methoden besser sind als alles, was vorher kam. Fein. Für ihn und für viele andere sind sie die besten Werkzeuge, um kausale Folgerungen zu untersuchen. Gleichzeitig erkennen wir als Pluralist oder Student der Wissenschaftsgeschichte, dass es viele Möglichkeiten gibt, einen Kuchen zu backen. Es ist eine Herausforderung, Respekt für Ansätze zu zeigen, die Sie nicht wirklich für sich arbeiten, und irgendwann ist der einzige Weg, dies zu tun, einen Schritt zurückzutreten und zu erkennen, dass echte Menschen diese Methoden verwenden, um echte Probleme zu lösen. Ich denke zum Beispiel, Entscheidungen mit p-Werten zu treffen, ist eine schreckliche und logisch inkohärente Idee, die zu vielen wissenschaftlichen Katastrophen geführt hat. Gleichzeitig gelingt es vielen Wissenschaftlern, p-Werte als Lerninstrumente zu verwenden. Ich erkenne das. Ähnlich, Ich würde Pearl empfehlen zu erkennen, dass der Apparat der Statistik, der hierarchischen Regressionsmodellierung, der Interaktionen, der Poststratifizierung, des maschinellen Lernens usw. usw. echte Probleme der kausalen Inferenz löst. Unsere Methoden, wie die von Pearl, können ebenfalls durcheinander bringen - GIGO! - und vielleicht hat Pearl Recht, dass wir alle besser dran sind, zu seinem Ansatz zu wechseln. Aber ich glaube nicht, dass es hilft, wenn er ungenaue Aussagen darüber macht, was wir tun.

Januar
quelle
41
Die lineare Regression ist kein kausales Modell. Einfache lineare Regression ist dasselbe wie paarweise Korrelation, der einzige Unterschied ist die Standardisierung . Wenn Sie also sagen, dass Regression kausal ist, sollte dies auch für die Korrelation gelten. Ist Korrelation Kausalität? Mithilfe der Regression können Sie beliebige Unsinnbeziehungen zwischen beliebigen Variablen vorhersagen (mit vielen zufälligen "signifikanten" Ergebnissen).
Tim
8
Meinungsverschiedenheiten darüber, wie Pearl, Rubin, Heckman und andere über die Kausalität in der Statistik argumentieren, scheinen am meisten zu verdienen, und ich denke, Pearl wird immer lauter. Lass dich davon nicht von den echten Einsichten ablenken, die er zu bieten hat. Lesen Sie sein früheres Buch Causality, es geht Ihnen weniger unter die Haut.
CloseToC
7
@CloseToC Ich möchte hinzufügen, dass Pearl, Rubin und Heckman in gewisser Weise alle im selben Framework arbeiten (dh logisch äquivalente Frameworks, siehe hier stats.stackexchange.com/questions/249767/… ), sodass ihre Streitigkeiten unterschiedlich sind Ebene von Argumenten wie "lineare Regression ist ein Kausalmodell".
Carlos Cinelli
9
Das Buch hat mich selbst gereizt. Es gibt einige einfach falsche statistische Behauptungen (kann jetzt nicht zitieren, das Buch mit meinen Notizen am Rand ist zu Hause), die mich fragen ließen, ob nur der Journalist, der Pearl geholfen hat, das Buch zu schreiben, oder auch Pearl selbst ein schlechter Statistiker war. (Unnötig zu sagen, ich war sehr überrascht, solche offensichtlichen Fehler in einem Werk eines so verehrten Wissenschaftlers zu entdecken.) Seine Arbeiten sind viel besser, obwohl selbst dort niemand Pearl für Bescheidenheit beschuldigen würde ...
Richard Hardy
15
Ich habe einige Bedenken, dass dieser Thread bereits (a) ein bestimmtes Buch einer sehr intelligenten Person (b) die Persönlichkeit und den Stil der Debatte dieser intelligenten Person (c) zusammenfasst, ob ein bestimmter Standpunkt richtig, übertrieben oder was auch immer ist.
Nick Cox

Antworten:

59

Ich stimme voll und ganz zu, dass Perles Ton arrogant ist und seine Charakterisierung von "Statistikern" simpel und monolithisch ist. Außerdem finde ich sein Schreiben nicht besonders klar.

Ich denke jedoch, dass er einen Punkt hat.

Kausales Denken gehörte nicht zu meiner formalen Ausbildung (MSc): Am nächsten kam ich dem Thema mit einem Wahlfach für experimentelles Design, dh alle Kausalitätsansprüche erforderten eine physische Kontrolle der Umwelt. Pearl's Buch Causality war meine erste Entdeckung einer Widerlegung dieser Idee. Natürlich kann ich nicht für alle Statistiker und Curricula sprechen, aber aus meiner eigenen Perspektive unterstütze ich Pearl's Beobachtung, dass kausales Denken in der Statistik keine Priorität hat.

Es ist richtig, dass Statistiker manchmal mehr Variablen kontrollieren als unbedingt erforderlich, aber dies führt selten zu Fehlern (zumindest nach meiner Erfahrung).

Dies ist auch eine Überzeugung, die ich nach meinem Abschluss in Statistik im Jahr 2010 vertreten habe.

Es ist jedoch zutiefst falsch. Wenn Sie einen allgemeinen Effekt steuern (im Buch "Collider" genannt), können Sie eine Auswahlverzerrung einführen. Diese Erkenntnis war für mich ziemlich erstaunlich und überzeugte mich wirklich von der Nützlichkeit, meine kausalen Hypothesen als Diagramme darzustellen.

EDIT: Ich wurde gebeten, auf Auswahlbias auszuarbeiten. Dieses Thema ist sehr subtil, empfehle ich die EDX MOOC auf Lesen Causal Diagrams , eine sehr schöne Einführung in Graphen , die ein Kapitel selection bias gewidmet hat.

Um dieses im Buch zitierte Papier als Spielzeugbeispiel zu paraphrasieren : Betrachten Sie die Variablen A = Attraktivität, B = Schönheit, C = Kompetenz. Angenommen, B und C haben in der Allgemeinbevölkerung keinen ursächlichen Zusammenhang (dh Schönheit verursacht keine Kompetenz, Kompetenz verursacht keine Schönheit, und Schönheit und Kompetenz haben keine gemeinsame Ursache). Nehmen wir auch an, dass eines von B oder C ausreicht, um attraktiv zu sein, dh A ist ein Kollider. Die Konditionierung auf A erzeugt eine falsche Assoziation zwischen B und C.

Ein ernsthafteres Beispiel ist das "Geburtsgewichtsparadoxon", wonach das Rauchen (S) einer Mutter während der Schwangerschaft die Sterblichkeit (M) des Babys zu senken scheint, wenn das Baby untergewichtig ist (U). Die vorgeschlagene Erklärung ist, dass Geburtsfehler (D) auch ein niedriges Geburtsgewicht verursachen und auch zur Sterblichkeit beitragen. Das entsprechende Kausaldiagramm ist {S -> U, D -> U, U -> M, S -> M, D -> M}, in dem U ein Kollider ist; Konditionierung darauf führt die falsche Assoziation ein. Die Intuition dahinter ist, dass, wenn die Mutter raucht, das niedrige Geburtsgewicht weniger wahrscheinlich auf einen Defekt zurückzuführen ist.

mitchus
quelle
8
+1. Können Sie noch etwas genauer erläutern, wie es zu einer Verzerrung der Auswahl kommt? Vielleicht macht ein kleines konkretes Beispiel es den meisten Lesern klar.
Amöbe
2
Danke für die Bearbeitung. Dies sind sehr klare Beispiele.
Amöbe
Die Intuition für das niedrige Geburtsgewicht von Smokers 'Babies ist also richtig, oder?
Malady
@Malandy: Dieses Modell stimmt mit den Daten überein und ist intuitiv sinnvoll. Ich weiß nicht, ob es richtig ist.
Mitchus
71

Ihre Frage spiegelt wider, was Pearl sagt!

Eine einfache lineare Regression ist im Wesentlichen ein Kausalmodell

Y,X,ZE[YX]E[XY]E[YX,Z]E[ZY.,X]

Eine lineare Strukturgleichung ist dagegen ein Kausalmodell. Der erste Schritt besteht jedoch darin, den Unterschied zwischen statistischen Annahmen (Einschränkungen der beobachteten gemeinsamen Wahrscheinlichkeitsverteilung) und kausalen Annahmen (Einschränkungen des kausalen Modells) zu verstehen.

Denken Sie, dass Judea Pearl Statistiken falsch darstellt, und wenn ja, warum?

Nein, das glaube ich nicht, denn wir sehen diese Missverständnisse täglich. Natürlich macht Pearl einige Verallgemeinerungen, da einige Statistiker mit kausaler Folgerung arbeiten (Don Rubin war ein Pionier bei der Förderung potenzieller Ergebnisse ... auch ich bin ein Statistiker!). Aber er sagt zu Recht, dass der Großteil der traditionellen Statistikausbildung die Kausalität meidet, selbst um formal zu definieren, was ein Kausaleffekt ist.

Y.XE[Y.|X] E[Y.X]E[Y.|dO(X)]

Das Zitat, das Sie aus dem Buch mitbringen, ist ebenfalls ein gutes Beispiel. In herkömmlichen Statistikbüchern finden Sie weder eine korrekte Definition dessen, was ein Confounder ist, noch eine Anleitung, wann Sie sich in Beobachtungsstudien auf eine Kovariate einstellen sollten (oder nicht). Im Allgemeinen werden „Korrelationskriterien“ angezeigt, z. B. „Wenn die Kovariate mit der Behandlung und dem Ergebnis verbunden ist, sollten Sie sich darauf einstellen“. Eines der bemerkenswertesten Beispiele für diese Verwirrung zeigt sich in Simpsons Paradoxon - wenn man sich zwei Schätzungen entgegengesetzter Vorzeichen gegenübersieht, welches sollte man verwenden, das angepasste oder das nicht angepasste? Die Antwort hängt natürlich vom Kausalmodell ab.

Und was bedeutet Pearl, wenn er sagt, dass diese Frage beendet wurde? Bei einer einfachen Anpassung über eine Regression bezieht er sich auf das Backdoor-Kriterium (siehe mehr hier) . Und für die Identifizierung im Allgemeinen - über die einfache Anpassung hinaus - bedeutet er, dass wir jetzt vollständige Algorithmen zur Identifizierung von kausalen Auswirkungen für eine bestimmte semi-markovianische DAG haben.

Eine weitere Bemerkung hier ist es wert, gemacht zu werden. Auch in experimentellen Studien, in denen die traditionelle Statistik mit Sicherheit viel wichtige Arbeit bei der Versuchsplanung geleistet hat, braucht man am Ende des Tages noch ein Kausalmodell . Experimente können an mangelnder Konformität, ausbleibendem Follow-up, aus selektivem Bias leiden. Außerdem möchten Sie die Ergebnisse Ihrer Experimente in den meisten Fällen nicht auf die von Ihnen analysierte spezifische Population beschränken, sondern diese verallgemeinern experimentelle Ergebnisse für eine breitere / andere Population. Auch hier kann man sich fragen: Worauf sollten Sie sich einstellen? Sind die Daten und das inhaltliche Wissen, über die Sie verfügen, ausreichend, um eine solche Hochrechnung zu ermöglichen? All dies sind kausale Konzepte. Daher benötigen Sie eine Sprache, mit der Sie kausale Annahmen formell ausdrücken und prüfen können, ob sie ausreichen, um das zu tun, was Sie wollen!

Zusammenfassend sind diese Missverständnisse in der Statistik und Ökonometrie weit verbreitet. Hier finden Sie einige Beispiele in Cross Validated:

Und viele mehr.

Denken Sie, dass kausale Folgerung eine Revolution mit einem großen R ist, die unser gesamtes Denken wirklich verändert?

In Anbetracht des gegenwärtigen Zustands in vielen Wissenschaften, wie weit wir vorangekommen sind und wie schnell sich die Dinge ändern und wie viel wir noch tun können, würde ich sagen, dass dies in der Tat eine Revolution ist.

PS : Pearl hat zwei seiner Beiträge im Kausalitätsblog der UCLA vorgeschlagen, die für diese Diskussion von Interesse sein werden. Die Beiträge finden Sie hier und hier .

PS 2 : Wie Januar in seiner neuen Ausgabe erwähnt hat, hat Andrew Gelman einen neuen Beitrag in seinem Blog. Zusätzlich zur Debatte auf Gelmans Blog hat Pearl auch auf Twitter geantwortet (siehe unten):

Gelmans Rezension von #Bookofwhy sollte von Interesse sein, da es eine Haltung darstellt, die weite Kreise statistischer Forscher lähmt. Meine erste Reaktion ist jetzt auf https://t.co/mRyDcgQtEc veröffentlicht. Verwandte Beiträge:https://t.co/xUwR6eCGrZ undhttps://t.co/qwqV3oyGUy

- Judea Pearl (@yudapearl), 9. Januar 2019

Carlos Cinelli
quelle
4
Danke. Aber - nun, ich schreibe einfach, ich kann sowohl E [X | Y] als auch E [Y | X] berechnen, aber ich kann X ← Y sowie X → Y in eine DAG schreiben. Auf die eine oder andere Weise muss ich mit einer wissenschaftlichen Hypothese oder einem Modell beginnen. Meine Hypothese, mein Modell - meine Wahl. Die bloße Tatsache, dass ich etwas tun kann, bedeutet nicht , dass ich es tun sollte.
Januar
3
@Januar heißt das nicht, dass Sie es sollten. Hier geht es nur darum, genau zu artikulieren, was Sie schätzen möchten (der kausale Schätzer), Ihre kausalen Annahmen genau zu artikulieren (die Unterscheidung zwischen kausalen und statistischen Annahmen klar zu machen), zu überprüfen die logischen Implikationen dieser kausalen Annahmen und die Fähigkeit zu verstehen, ob Ihre kausalen Annahmen + Daten ausreichen, um Ihre Anfrage zu beantworten.
Carlos Cinelli
3
XY.
4
Ich denke schon: Es scheint nicht ganz unfair zu sein, zu behaupten, dass Ihr durchschnittlicher Statistiker, obwohl er sich mit kausalen Schlussfolgerungen aus kontrollierten Experimenten auskennt und mit Sicherheit nicht in der Gefahr steht, die Korrelation mit der Kausalität zu verwechseln, bei kausalen Schlussfolgerungen aus Beobachtungen etwas wackelig sein könnte Daten. Ich nehme das Letzte als Kontext des Zitats (ich habe das Buch nicht gelesen) und es ist etwas, das manche Leser dieses Beitrags möglicherweise nicht aufgreifen.
Scortchi
5
@Januar Kurz gesagt bedeutet "Anpassung für Kovariaten" nicht unbedingt, dass Sie die Verzerrung der Schätzungen der Kausaleffekte aus diesen Variablen eliminiert haben.
Alexis
31

Ich bin ein Fan von Judeas Schreiben, und ich habe Kausalität (Liebe) und Warum-Buch (wie) gelesen.

Ich glaube nicht, dass Judäa Statistiken schlägt. Kritik ist schwer zu hören. Aber was können wir über eine Person oder einen Bereich sagen, der keine Kritik vertritt? Sie tendieren von Größe zu Selbstzufriedenheit. Sie müssen sich fragen: Ist die Kritik richtig, notwendig, nützlich und schlägt sie Alternativen vor? Die Antwort auf all diese Fragen lautet nachdrücklich "Ja".

1

Erforderlich? Die Medien sind gespickt mit scheinbar widersprüchlichen Aussagen über die gesundheitlichen Auswirkungen schwerer Expositionen. Die Inkonsistenz mit der Datenanalyse hat zu einer Stagnation der Daten geführt, weshalb uns nützliche Richtlinien, Verfahren im Gesundheitswesen und Empfehlungen für ein besseres Leben fehlen.

Nützlich? Judeas Kommentar ist sachdienlich und spezifisch genug, um eine Pause einzulegen. Es ist direkt relevant für jede Datenanalyse, auf die ein Statistiker oder Datenexperte stoßen könnte.

Schlägt es Alternativen vor? Ja, Judäa diskutiert in der Tat die Möglichkeit fortgeschrittener statistischer Methoden und sogar, wie sie sich auf bekannte statistische Rahmenbedingungen (wie das Structural Equation Modeling) und ihre Verbindung zu Regressionsmodellen reduzieren lassen. Alles läuft darauf hinaus, eine explizite Aussage über das Inhaltswissen zu erfordern, das den Modellierungsansatz geleitet hat.

Judäa schlägt nicht nur vor, alle statistischen Methoden (z. B. Regression) zu entwerten. Er sagt vielmehr, dass wir eine Kausaltheorie anwenden müssen, um Modelle zu rechtfertigen.

1

AdamO
quelle
3
Gute Antwort. Man beachte, dass man kein Statistiker ist, sondern seit vielen Jahren als Schnittstelle zwischen Statistik und Biologie fungiert. Kritik an Statistikern ist für mich wirklich nicht so schwer zu hören überhaupt, wie Pearl ausdrücklich feststellt?
Januar
4
@ Januar au Contraire . Ich denke, dass der Mangel an Akzeptanz der kausalen Folgerung bei den Statistikern in ihren Analysen direkt mit ihrem Mangel an Verständnis für die häufig auftretende Folgerung zusammenhängt. Es ist die kontrafaktische Begründung, die fehlt.
AdamO
4
+1 Der Ansatz "Anpassung" beinhaltet die Auswahl von Variablen, da sie von Hand aus der DD als "nützlich", "relevant", "wichtig" oder als anderer Unsinn ausgewählt wurden, ohne formale Hypothesen über die spezifischen Kausalzusammenhänge zwischen ihnen ( a la the formelle Verwendung von DAGs) . " Bearbeiten hinzugefügt. :)
Alexis
Kommentare sind nicht für eine längere Diskussion gedacht. Diese Unterhaltung wurde in den Chat verschoben .
Scortchi
23

Ich habe dieses Buch nicht gelesen, daher kann ich nur das von Ihnen angegebene Zitat beurteilen. Aber auch auf dieser Grundlage stimme ich Ihnen zu, dass dies dem statistischen Beruf äußerst unfair erscheint. Ich bin der Meinung, dass Statistiker immer bemerkenswert gute Arbeit geleistet haben, um die Unterscheidung zwischen statistischen Assoziationen (Korrelation usw.) und Kausalität hervorzuheben und vor dem Zusammentreffen der beiden zu warnen. Nach meiner Erfahrung waren Statistiker in der Regel die wichtigste Fachkraft im Kampf gegen die allgegenwärtige Verwechslung von Ursache und Korrelation. Es ist geradezu falsch (und geradezu verleumderisch) zu behaupten, dass Statistiker "... es ablehnen, überhaupt über Kausalität zu sprechen". Ich kann verstehen, warum Sie es ärgern, so arroganten Scheiß zu lesen.

Ich würde sagen, dass dies für Nicht-Statistiker durchaus üblich istdie statistische Modelle verwenden, um die Beziehung zwischen statistischer Assoziation und Kausalität nicht richtig zu verstehen. Einige verfügen über eine gute wissenschaftliche Ausbildung in anderen Bereichen. In diesem Fall sind sie sich des Themas möglicherweise auch gut bewusst, aber es gibt sicherlich einige Personen, die statistische Modelle verwenden und diese Probleme nur unzureichend verstehen. Dies gilt in vielen Bereichen der angewandten Wissenschaft, in denen die Praktiker eine Grundausbildung in Statistik haben, diese jedoch nicht auf einer tiefen Ebene erlernen. In diesen Fällen sind es häufig professionelle Statistiker, die andere Forscher auf die Unterschiede zwischen diesen Konzepten und ihrer richtigen Beziehung aufmerksam machen. Statistiker sind häufig die Hauptentwickler von RCTs und anderen Experimenten mit Kontrollen zur Isolierung der Kausalität. Sie werden häufig aufgefordert, Protokolle wie Randomisierung, Placebos, und andere Protokolle, mit denen versucht wird, Beziehungen zu potenziell verwirrenden Variablen zu trennen. Es ist richtig, dass Statistiker manchmal mehr Variablen kontrollieren als unbedingt erforderlich, aber dies führt selten zu Fehlern (zumindest nach meiner Erfahrung). Ich denke, die meisten Statistiker sind sich des Unterschieds bewusstVerwirrende Variablen und Kollidervariablen, wenn sie im Hinblick auf kausale Schlussfolgerungen eine Regressionsanalyse durchführen, und selbst wenn sie nicht immer perfekte Modelle erstellen, ist die Vorstellung, dass sie die Berücksichtigung der Kausalität irgendwie vermeiden, einfach lächerlich.

Ich denke, Judea Pearl hat mit seiner Arbeit zur Kausalität einen sehr wertvollen Beitrag zur Statistik geleistet, und ich danke ihm für diesen wunderbaren Beitrag. Er hat einige sehr nützliche Formalismen konstruiert und untersucht, die helfen, Kausalzusammenhänge zu isolieren, und seine Arbeit ist zu einem Grundpfeiler einer guten statistischen Ausbildung geworden. Ich habe sein Buch Causality gelesenAls ich noch Student war, steht es in meinem Regal und in den Regalen vieler anderer Statistiker. Ein Großteil dieses Formalismus spiegelt Dinge wider, die den Statistikern seit ihrer Formalisierung zu einem algebraischen System intuitiv bekannt waren. Er ist jedoch in jedem Fall sehr wertvoll und geht über das Offensichtliche hinaus. (Ich denke tatsächlich, dass wir in Zukunft eine Verschmelzung der "do" -Operation mit der Wahrscheinlichkeitsalgebra auf axiomatischer Ebene sehen werden, und dies wird wahrscheinlich irgendwann zum Kern der Wahrscheinlichkeitstheorie. Ich würde es begrüßen, wenn dies direkt in die statistische Bildung eingebaut würde , damit Sie mehr über Kausalmodelle und die "do" -Operation erfahren, wenn Sie mehr über Wahrscheinlichkeitsmessungen erfahren.)

Als letztes gilt es zu bedenken, dass es viele statistische Anwendungen gibt, bei denen das Ziel voraussagbar ist und bei denen der Arzt nicht auf Kausalität schließen möchte. Diese Arten von Anwendungen sind in der Statistik äußerst verbreitet, und in solchen Fällen ist es wichtig, sich nicht auf kausale Zusammenhänge zu beschränken. Dies gilt für die meisten statistischen Anwendungen in den Bereichen Finanzen, Personalwesen, Personalmodellierung und vielen anderen Bereichen. Man sollte die Menge der Kontexte nicht unterschätzen, in denen man Variablen nicht kontrollieren kann oder soll.


Update: Ich stelle fest, dass meine Antwort nicht mit der von Carlos übereinstimmt . Vielleicht sind wir uns nicht einig darüber, was "ein Statistiker / Ökonometriker mit nur einer regelmäßigen Ausbildung" ist. Jeder, den ich als "Statistiker" bezeichnen würde, verfügt in der Regel über mindestens eine Hochschulausbildung und in der Regel über eine umfassende Berufsausbildung / -erfahrung. (Zum Beispiel erfordert in Australien die Voraussetzung, ein "Accredited Statistician" bei unserer nationalen Berufsorganisation zu werden, mindestens vier Jahre Erfahrung nach einem Honours Degree oder sechs Jahre Erfahrung nach einem regulären Bachelor Degree.) In jedem Fall ein Student Das Studium der Statistik ist kein Statistiker .

Ich stelle fest, dass Carlos als Beweis für das angebliche mangelnde Verständnis der Kausalität durch Statistiker auf mehrere Fragen zu CV.SE verweist, die sich mit der Kausalität in der Regression befassen. In jedem dieser Fälle wird die Frage von jemandem gestellt, der offensichtlich ein Anfänger ist (kein Statistiker), und die Antworten von Carlos und anderen (die die richtige Erklärung widerspiegeln) sind hochrangige Antworten. In der Tat hat Carlos in mehreren Fällen ausführlich über die Kausalität berichtet, und seine Antworten sind die am höchsten bewerteten. Dies beweist sicherlich, dass Statistiker die Kausalität verstehen .

Einige andere Plakate haben darauf hingewiesen, dass die Analyse der Kausalität häufig nicht im statistischen Lehrplan enthalten ist. Das ist wahr, und es ist eine große Schande, aber die meisten professionellen Statistiker sind keine Absolventen, und sie haben weit über das hinaus gelernt, was in einem Standard-Master-Programm enthalten ist. Auch in dieser Hinsicht scheint mir der durchschnittliche Kenntnisstand der Statistiker höher einzuschätzen als bei anderen Plakaten.

Ben
quelle
12
Ich bin ein Nicht-Statistiker, dessen formale Ausbildung in Statistik von Nicht-Statistikern auf demselben Gebiet absolviert wurde, und ich unterrichte und forsche mit Nicht-Statistikern, die Statistiken anwenden. Ich kann Ihnen versichern, dass das Prinzip, dass (z. B.) Korrelation keine Kausalität ist, ein wiederkehrendes Mantra in meinem Bereich ist und war. In der Tat begegne ich keinen Menschen, die nicht erkennen können, dass ein Zusammenhang zwischen Niederschlag und Weizenertrag nicht alles ist, was über die Beziehung zwischen ihnen und den zugrunde liegenden Prozessen gesagt werden muss. Auch Nicht-Statistiker haben sich das meiner Erfahrung nach längst überlegt.
Nick Cox
8
Als Epidemiologe ärgere ich mich immer mehr über dieses Mantra. Wie @NickCox sagt, verstehen das auch Nicht-Wissenschaftler. Das Problem, das ich habe, ist, wenn alle auf den Plan springen: "Korrelation bedeutet nicht Verursachung!" Wann immer eine Beobachtungsstudie (zum Beispiel eine Fall-Kontroll-Studie) veröffentlicht wird. Ja, Korrelation bedeutet nicht Verursachung, aber die Forscher sind sich dessen in der Regel durchaus bewusst und werden alles daran setzen, eine Studie so zu konzipieren und zu analysieren, dass eine kausale Interpretation zumindest plausibel ist.
COOLSerdash
5
@ Nick Cox: Ich habe bearbeitet, um genauer zu sagen, dass es viele Nicht-Statistiker gibt, die dies gut verstehen. Es war nicht meine Absicht, Streuungen über andere Berufe zu werfen - nur um zu betonen, dass das Thema von Statistikern sehr gut verstanden wird.
Ben
7
@NickCox In Pearl's Beiträgen über Kausalität steckt viel mehr als "Korrelation ist keine Kausalität". Ich bin mit Carlos hier. Es gibt genug über Kausalität zu lernen, dass es ein ganzer Kurs sein sollte. Soweit ich weiß, bieten die meisten Statistikabteilungen einen solchen Kurs nicht an.
Neil G
12
@ Ben: Pearl beschuldigt Statistiker nicht, Korrelation und Kausalität zu verwechseln. Er wirft ihnen vor, sich größtenteils von kausalen Überlegungen fernzuhalten. Ich stimme Ihnen zu, dass sein Ton arrogant ist, aber ich denke, er hat einen Punkt.
Mitchus
11

Eine einfache lineare Regression ist im Wesentlichen ein Kausalmodell

Hier ist ein Beispiel, bei dem ein lineares Regressionsmodell nicht kausal ist. Nehmen wir a priori an, dass ein Medikament zum Zeitpunkt 0 ( t = 0 ) eingenommen wurde und dass es keinen Einfluss auf die Rate der Herzinfarkte bei t = 1 hat . Herzinfarkte bei t = 1 betreffen Herzinfarkte bei t = 2 (dh vorherige Schäden machen das Herz anfälliger für Schäden). Das Überleben bei t = 3 hängt nur davon ab, ob Menschen bei t = 2 einen Herzinfarkt hatten oder nicht - ein Herzinfarkt bei t = 1 würde sich realistisch auf das Überleben bei t = 3 auswirken , aber wir werden aus Gründen der Sicherheit keinen Pfeil haben Einfachheit.

Hier ist die Legende:

DAG-Legende

Hier ist der wahre Kausaldiagramm: Collider Bias

Nehmen wir an, wir wissen nicht, dass Herzinfarkte bei t = 1 unabhängig von der Einnahme des Arzneimittels bei t = 0 sind , und konstruieren ein einfaches lineares Regressionsmodell, um die Wirkung des Arzneimittels auf den Herzinfarkt bei t = 0 abzuschätzen . Hier wäre unser Prädiktor Drug t = 0 und unsere Ergebnisvariable wäre Heart Attack t = 1 . Die einzigen Daten, die wir haben, sind Menschen, die bei t = 3 überleben , also werden wir unsere Regression auf diese Daten anwenden.

Hier ist das glaubwürdige 95% Bayes-Intervall für den Drogenkoeffizienten t = 0 : 95% glaubwürdiges Intervall, Kollider-Voreingenommenheit

Wie wir sehen, ist ein Großteil der Wahrscheinlichkeit größer als 0, also scheint es einen Effekt zu geben! Wir wissen jedoch a priori, dass es einen 0-Effekt gibt. Die von Judea Pearl und anderen entwickelte Kausalitätsmathematik macht es viel einfacher zu erkennen, dass in diesem Beispiel Verzerrungen auftreten (bedingt durch die Konditionierung eines Nachkommen eines Kolliders). Judeas Arbeit impliziert, dass wir in dieser Situation den vollständigen Datensatz verwenden sollten (dh nicht die Menschen anschauen, die nur überlebt haben), um die voreingenommenen Pfade zu beseitigen:

keine voreingenommenheit

Hier ist das 95% -ige glaubwürdige Intervall, wenn der gesamte Datensatz betrachtet wird (dh nicht abhängig von denen, die überlebt haben).

95% glaubwürdiges Intervall, keine Verzerrung.

Es ist bei 0 dicht zentriert, was im Wesentlichen überhaupt keine Assoziation zeigt.

In realen Beispielen sind die Dinge möglicherweise nicht so einfach. Es kann viel mehr Variablen geben, die systematische Verzerrungen verursachen können (Verwirrung, Auswahlverzerrung usw.). Was in den Analysen angepasst werden muss, wurde von Pearl mathematisiert. Algorithmen können vorschlagen, welche Variable angepasst werden soll, oder uns sogar mitteilen, wenn die Anpassung nicht ausreicht, um systematische Verzerrungen zu beseitigen. Mit dieser formalen Theorie müssen wir nicht so lange darüber streiten, worauf wir uns einstellen müssen und worauf wir uns nicht einstellen müssen. Wir können schnell zu Schlussfolgerungen gelangen, ob unsere Ergebnisse solide sind oder nicht. Wir können unsere Experimente besser gestalten und Beobachtungsdaten einfacher analysieren.

Hier ist ein frei verfügbarer Online-Kurs zu Causal DAGs von Miguel Hernàn. Es gibt eine Reihe realer Fallstudien, in denen Professoren / Wissenschaftler / Statistiker zu entgegengesetzten Schlussfolgerungen in Bezug auf die vorliegende Frage gekommen sind. Einige von ihnen scheinen paradox zu sein. Sie können sie jedoch einfach über Judea Pearl's D-Separation und Backdoor-Kriterium lösen .

Als Referenz hier Code zum Datenerzeugungsprozess und Code für glaubwürdige Intervalle, wie oben gezeigt:

import numpy as np
import pandas as pd
import statsmodels as sm
import pymc3 as pm
from sklearn.linear_model import LinearRegression

%matplotlib inline

# notice that taking the drug is independent of heart attack at time 1.
# heart_attack_time_1 doesn't "listen" to take_drug_t_0
take_drug_t_0 = np.random.binomial(n=1, p=0.7, size=10000)
heart_attack_time_1 = np.random.binomial(n=1, p=0.4, size=10000)

proba_heart_attack_time_2 = []

# heart_attack_time_1 increases the probability of heart_attack_time_2. Let's say
# it's because it weakens the heart and makes it more susceptible to further
# injuries
# 
# Yet, take_drug_t_0 decreases the probability of heart attacks happening at
# time 2
for drug_t_0, heart_attack_t_1 in zip(take_drug_t_0, heart_attack_time_1):
    if drug_t_0 == 0 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 1 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 0 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.5)
    elif drug_t_0 == 1 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.05)

heart_attack_time_2 = np.random.binomial(
    n=2, p=proba_heart_attack_time_2, size=10000
)

# people who've had a heart attack at time 2 are more likely to die by time 3

proba_survive_t_3 = []
for heart_attack_t_2 in heart_attack_time_2:
    if heart_attack_t_2 == 0:
        proba_survive_t_3.append(0.95)
    else:
        proba_survive_t_3.append(0.6)

survive_t_3 = np.random.binomial(
    n=1, p=proba_survive_t_3, size=10000
)

df = pd.DataFrame(
    {
        'survive_t_3': survive_t_3,
        'take_drug_t_0': take_drug_t_0,
        'heart_attack_time_1': heart_attack_time_1,
        'heart_attack_time_2': heart_attack_time_2
    }
)

# we only have access to data of the people who survived
survive_t_3_data = df[
    df['survive_t_3'] == 1
]

survive_t_3_X = survive_t_3_data[['take_drug_t_0']]

lr = LinearRegression()
lr.fit(survive_t_3_X, survive_t_3_data['heart_attack_time_1'])
lr.coef_

with pm.Model() as collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * survive_t_3_data['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=survive_t_3_data['heart_attack_time_1']
    )

    collider_bias_normal_trace = pm.sample(2000, tune=1000)

pm.plot_posterior(collider_bias_normal_trace['take_drug_t_0'])

with pm.Model() as no_collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * df['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=df['heart_attack_time_1']
    )

    no_collider_bias_normal_trace = pm.sample(2000, tune=2000)

pm.plot_posterior(no_collider_bias_normal_trace['take_drug_t_0'])
edderisch
quelle
4

Zwei Artikel, der zweite ein Klassiker, die (glaube ich) zusätzliche Aufschluss über Judeas Punkte und dieses Thema im Allgemeinen geben. Dies kommt von jemandem, der SEM (das ist Korrelation und Regression) wiederholt verwendet hat und mit seiner Kritik übereinstimmt:

https://www.sciencedirect.com/science/article/pii/S0022103111001466

http://psycnet.apa.org/record/1973-20037-001

Im Wesentlichen beschreiben die Arbeiten, warum Korrelationsmodelle (Regression) normalerweise nicht als starke kausale Folgerung aufgefasst werden können. Jedes Assoziationsmuster kann zu einer bestimmten Kovarianzmatrix passen (dh keine Angabe der Richtung und / oder Beziehung zwischen den Variablen). Daher die Notwendigkeit von Dingen wie experimentellem Design, kontrafaktischen Aussagen usw. Dies gilt auch dann, wenn man eine zeitliche Struktur für seine Daten hat, bei der die mutmaßliche Ursache rechtzeitig vor dem mutmaßlichen Effekt auftritt.

Jhaltiga68
quelle
1

"... da wir im Wesentlichen davon ausgehen, dass eine Variable die Ursache und eine andere die Wirkung ist (daher unterscheidet sich die Korrelation von der Regressionsmodellierung) ..."

Regressionsmodellierung trifft diese Annahme definitiv NICHT.

"... und zu testen, ob dieser Kausalzusammenhang die beobachteten Muster erklärt."

Wenn Sie von Kausalität ausgehen und diese anhand von Beobachtungen validieren, führen Sie eine SEM-Modellierung durch oder das, was Pearl als SCM-Modellierung bezeichnen würde. Es ist umstritten, ob Sie diesen Teil der Statistikdomäne anrufen möchten oder nicht. Aber ich denke, die meisten würden es nicht als klassische Statistik bezeichnen.

Ich glaube, Pearl kritisiert nur die Zurückhaltung der Statistiker, sich mit der kausalen Semantik zu befassen, anstatt sich generell auf Statistiken zu stürzen. Er hält dies für ein ernstes Problem, da Carl Sagan das "Einsteigen und Aussteigen" -Phänomen nennt, bei dem Sie eine Studie fallenlassen, in der "Fleischkonsum" in engem Zusammenhang mit erhöhter Libido steht, p <.05 "und sich dann dem Wissen entzieht Die beiden Ergebnisse werden in der Öffentlichkeit kausal miteinander verknüpft sein.

Null zählen
quelle