Wenn 'Korrelation keine Kausalität impliziert', wie kann ich dann die Kausalität nachweisen, wenn ich eine statistisch signifikante Korrelation finde?

30

Ich verstehe, dass Korrelation keine Kausalität ist . Angenommen, wir erhalten eine hohe Korrelation zwischen zwei Variablen. Wie überprüfen Sie, ob diese Korrelation tatsächlich kausal bedingt ist? Oder können wir unter welchen Bedingungen genau experimentelle Daten verwenden, um einen Kausalzusammenhang zwischen zwei oder mehr Variablen herzuleiten?

Manish Barnwal
quelle
2
Es werden experimentelle Daten benötigt. Bitte beschreiben Sie den Versuchsaufbau, auf den Sie sich beziehen.
Frank Harrell
1
Sir, ich habe keine experimentellen Daten. Ich wollte verstehen, welche Art von kontrollierten Experimenten durchgeführt werden müssen, um die Ursache abzuleiten.
Manish Barnwal
4
Es gibt viele mögliche Designs. Kurz gesagt, Sie versuchen, alle anderen Variablen physikalisch zu steuern und den einen interessierenden Faktor zu variieren, oder Sie randomisieren die Anwendung der experimentellen Manipulation, wodurch die Auswirkungen aller anderen möglichen Erklärungen "herausgemittelt" werden.
Frank Harrell
2
Kurz gesagt, Sie benötigen irgendeine Art von exogener Variation.
Abaumann
1
Zwischen korreliert Xund Ywählt das eine als Ursache des anderen aus, was das Verantwortungsgefühl minimiert und das Schicksalsgefühl maximiert.
TTNPHNS

Antworten:

16

Ein sehr wahrscheinlicher Grund für die Korrelation zweier Variablen ist, dass ihre Änderungen mit einer dritten Variablen verknüpft sind. Andere wahrscheinliche Gründe sind Zufälle (wenn Sie genügend nicht korrelierte Variablen für die Korrelation testen, zeigen einige eine Korrelation) oder sehr komplexe Mechanismen, die mehrere Schritte umfassen.

Beispiele finden Sie unter http://tylervigen.com/ :

Bildbeschreibung hier eingeben

Um die Ursache von A -> B sicher festzustellen, benötigen Sie ein Experiment, bei dem Sie die Variable A steuern und die anderen Variablen nicht beeinflussen können. Dann messen Sie, ob die Korrelation von A und B noch besteht, wenn Sie Ihre Variable ändern.

Bei fast allen praktischen Anwendungen ist es fast unmöglich, auch andere (oft unbekannte) Variablen nicht zu beeinflussen. Deshalb können wir das Fehlen von Ursachen am besten nachweisen.

Um einen Kausalzusammenhang feststellen zu können, gehen Sie zunächst von der Hypothese aus, dass zwei Variablen einen Kausalzusammenhang haben, widerlegen die Hypothese mithilfe eines Experiments, und wenn Sie versagen, können Sie mit einer gewissen Sicherheit feststellen, dass die Hypothese wahr ist. Wie hoch Ihre Sicherheit sein muss, hängt von Ihrem Forschungsgebiet ab.

In vielen Bereichen ist es üblich oder erforderlich, 2 Teile Ihres Experiments parallel auszuführen, einen, in dem die Variable A geändert wird, und eine Kontrollgruppe, in der die Variable A nicht geändert wird, das Experiment jedoch ansonsten genau gleich ist - z. B. im Fall von Medizin Sie stechen Probanden immer noch mit einer Nadel oder lassen sie Pillen schlucken. Wenn das Experiment eine Korrelation zwischen A und B zeigt, jedoch nicht zwischen A und B '(B der Kontrollgruppe), können Sie von einer Kausalität ausgehen.

Es gibt auch andere Möglichkeiten, auf Kausalität zu schließen, wenn ein Experiment entweder nicht möglich oder aus verschiedenen Gründen (Moral, Ethik, PR, Kosten, Zeit) nicht ratsam ist. Eine gebräuchliche Methode ist der Abzug. Ein Beispiel aus einem Kommentar: Um zu beweisen, dass Rauchen beim Menschen Krebs verursacht, können wir anhand eines Experiments nachweisen, dass Rauchen bei Mäusen Krebs verursacht. Dann können wir nachweisen, dass es einen Zusammenhang zwischen Rauchen und Krebs beim Menschen gibt, und daraus schließen, dass dies extrem ist wahrscheinlich, dass Rauchen beim Menschen Krebs verursacht - dieser Beweis kann gestärkt werden, wenn wir auch widerlegen, dass Krebs Rauchen verursacht. Eine andere Möglichkeit, auf Kausalität zu schließen, ist der Ausschluss anderer Korrelationsursachen, wobei die Kausalität die beste verbleibende Erklärung für die Korrelation darstellt - diese Methode ist nicht immer anwendbar. weil es manchmal unmöglich ist, alle möglichen Ursachen der Korrelation zu beseitigen (in einer anderen Antwort "Hintertürpfade" genannt). Im Beispiel Rauchen / Krebs könnten wir diesen Ansatz wahrscheinlich verwenden, um zu beweisen, dass das Rauchen für Teer in der Lunge verantwortlich ist, da es nicht so viele mögliche Quellen dafür gibt.

Diese anderen Wege, die Kausalität zu "beweisen", sind aus wissenschaftlicher Sicht nicht immer ideal, da sie nicht so schlüssig sind wie ein einfacheres Experiment. Die Debatte über die globale Erwärmung ist ein gutes Beispiel dafür, wie viel einfacher es ist, Kausalitäten zu beseitigen, die mit einem wiederholbaren Experiment noch nicht endgültig bewiesen wurden.

Zur Erleichterung des Comics hier ein Beispiel eines Experiments, das technisch plausibel, aber aus nicht wissenschaftlichen Gründen (Moral, Ethik, PR, Kosten) nicht ratsam ist:

Bild von phroyd.tumblr.com genommen

Peter
quelle
3
Dies ist eine zu starke Bedingung. In der Epidemiologie sind die Anforderungen weniger streng , weil ein Experiment zu steuern bestenfalls unpraktisch ist, und im schlimmsten Fall unethisch - „tut dem Rauchen von Zigaretten verursacht Krebs“
user295691
2
Das Beispiel, das Pearl gibt, um zu zeigen, dass Rauchen beim Menschen Krebs verursacht, ist die Methode vor der Haustür, bei der Teer als eine Zwischenvariable zwischen Rauchen und Krebs angesehen wird. Ich weiß nicht, was du mit "nicht ideal" meinst. Es ist definitiv idealer, als Leute zum Rauchen zu zwingen und zu sehen, ob sie Krebs bekommen!
Neil G
1
@Neil "Es ist definitiv idealer, als die Leute zum Rauchen zu zwingen und zu sehen, ob sie Krebs bekommen" - Wenn das Ziel darin besteht, einen Kausalzusammenhang zu beweisen, bin ich absolut anderer Meinung. Auf der anderen Seite ist es idealer, wenn das Ziel darin besteht, ein ethisches Problem, eine geringere Finanzierung oder einen Lynchmob zu vermeiden.
Peter
10

Unabhängig davon, ob der Entwurf experimentell oder beobachtend ist, spiegelt eine Assoziation zwischen einer Variablen A und einem Ergebnis Y einen Kausalzusammenhang zwischen A und Y wider, wenn es keine offenen Hintertürpfade zwischen A und Y gibt.

In einem experimentellen Design wird dies am einfachsten durch Randomisierung der Exposition oder der Behandlungszuordnung erreicht. Abgesehen von einer idealen Randomisierung ist der assoziative Behandlungseffekt eine unvoreingenommene Schätzung des kausalen Behandlungseffekts unter den Annahmen der Austauschbarkeit (die Zuordnung der Behandlung ist unabhängig von den kontrafaktischen Ergebnissen), der Positivität usw.

Verweise

Hernan, Robins. Kausale Folgerungsperle
. Kausaler Rückschluss in der Statistik: Ein Überblick

PS: Sie können nach Causal Inference und den folgenden Namen (zu Beginn) googeln, um weitere Informationen zum Thema zu erhalten: Judea Pearl, Donald Rubin, Miguil Hernan.

Asche
quelle
Schauen Sie hier: en.wikipedia.org/wiki/Correlation_does_not_imply_causation Ich widerspreche Ashs Aussage: Unabhängig davon, ob das Design experimentell oder beobachtend ist, spiegelt eine Assoziation zwischen einer Variablen A und einem Ergebnis Y einen Kausalzusammenhang zwischen A und Y wider, falls vorhanden Keine offenen Hintertürpfade zwischen A und Y. Zum Beispiel Eisverkauf, Y Todesfälle in Schwimmbädern; korreliert sind, aber die Ursache für ihre Zunahme oder Abnahme ist die Temperatur. Vielleicht meint Ash mit offenen Hintertürpfaden beides abhängig von einer dritten Variablen, aber dann ist seine Formulierung sehr unklar.
Karl
Der Hintertürpfad in Ihrem Beispiel ist die Jahreszeit. Ein Backdoor-Pfad bedeutet eine dritte Variable.
Neil G
Für diejenigen, die mit den Beiträgen von Judea Pearl zur Untersuchung der Kausalität nicht vertraut sind, kann es hilfreich sein, seine Biografie von der Website des Verbandes für Computermaschinen zu lesen , die ihn mit dem Turing Award 2011 auszeichnete. Pearl erörtert in einem Interview mit Amstat News, wie wichtig es ist, die Diskussion über kausale Inferenz in die Lehrpläne für statistische Bildung aufzunehmen .
Jthetzel
Kommentare sind nicht für eine längere Diskussion gedacht. Diese Unterhaltung wurde in den Chat verschoben .
gung - Wiedereinsetzung von Monica
3

Betrachten Sie eine Erhöhung der Scheidungsrate, die mit einer Erhöhung des Anwaltseinkommens korreliert.

Intuitiv erscheint es offensichtlich, dass diese Metriken korreliert werden sollten. Mehr Paare (Nachfrage) melden mehr Scheidungen an, so dass mehr Anwälte (Angebot) ihre Preise erhöhen.

Es scheint , dass ein Anstieg der Scheidungsrate bewirkt eine Zunahme der Anwalt Einkommen, weil die zusätzliche Nachfrage aus den Paaren verursacht die Anwälte ihre Preise zu erhöhen.

Oder ist das rückwärts? Was wäre, wenn die Anwälte absichtlich und unabhängig ihre Preise erhöhen und ihr neues Einkommen für Scheidungsanzeigen ausgeben würden? Das scheint auch eine plausible Erklärung zu sein.

Dieses Szenario zeigt die willkürliche Anzahl von dritten erklärenden Variablen, die eine statistische Analyse aufweisen kann. Folgendes berücksichtigen:

  1. Sie können nicht jeden Datenpunkt messen,
  2. Sie möchten jeden nicht erklärenden Datenpunkt entfernen,
  3. Sie können nur begründen, warum ein Datenpunkt entfernt werden soll, wenn Sie ihn messen.

Sie haben ein Rätsel. Sie können nicht jeden Datenpunkt messen. Wenn Sie das Ignorieren nicht erklärender Datenpunkte rechtfertigen möchten, müssen Sie sie messen. (Sie können einige Datenpunkte entfernen, ohne sie zu messen, aber Sie müssen sie zumindest begründen.)

In einem unbegrenzten System kann kein Kausalitätsnachweis korrekt sein.

Miles Richardson
quelle
2

Wenn A und B korreliert sind und Sie den Zufall ausgeschlossen haben, ist es am wahrscheinlichsten, dass entweder A B oder B A verursacht oder eine möglicherweise unbekannte Ursache, dass X sowohl A als auch B verursacht.

Der erste Schritt wäre, einen möglichen Mechanismus zu untersuchen. Könnten Sie sich vorstellen, wie A Fall B oder umgekehrt, oder welche andere Ursache X beide verursachen könnte? (Dies setzt voraus, dass diese Untersuchung billiger ist als die Durchführung eines Experiments zum Nachweis einer Ursache). Sie befinden sich hoffentlich in einer Position, in der sich ein Experiment zum Aufzeigen von Ursachen lohnt. Sie können fortfahren, wenn Sie sich keinen Mechanismus vorstellen können (A verursacht B, aber wir wissen nicht, warum dies möglich ist).

In diesem Experiment müssen Sie in der Lage sein, die vermutete Ursache nach Belieben zu manipulieren (wenn die Ursache beispielsweise "Einnahme von Pille A" ist, erhalten einige Personen die Pille, andere nicht). Dann treffen Sie die üblichen Vorsichtsmaßnahmen, indem Sie Leute auswählen, die die Pille zufällig bekommen oder nicht bekommen, wobei weder Sie noch die Testpersonen wissen, wer die Pille bekommen hat und wer nicht. Sie versuchen auch, den Rest des Experiments gleich zu halten (Personen in einem schönen, warmen Raum, in dem Sonnenschein durch das Fenster fällt, die Pille A zu geben, während die andere Gruppe in einem schmutzigen, unbequemen Raum eine gefälschte Pille erhält, kann sich auf Ihre Daten auswirken). Wenn Sie also zu dem Schluss gekommen sind, dass der einzige Unterschied in dieser Pille besteht und der Grund, warum Sie die Pille bekommen oder nicht bekommen, eine zufällige Entscheidung ist, die nichts anderes beeinflusst hat,

gnasher729
quelle
2

Interventionelle (experimentelle) Daten, wie sie von Gnasher und Peter beschrieben wurden, sind der einfachste Weg, einen guten Fall für einen Kausalzusammenhang zu finden. In der Antwort von Ash wird jedoch nur die Möglichkeit erwähnt, einen Kausalzusammenhang über Beobachtungsdaten abzuleiten. Neben der von ihm erwähnten Backdoor-Methode stellt die Frontdoor-Methode eine weitere Möglichkeit dar, die Kausalität auf der Grundlage von Beobachtungsdaten und einigen kausalen Annahmen zu ermitteln. Diese wurden von Judea Pearl entdeckt. Ich habe versucht, diese hier zusammenzufassen und zu referenzieren .

Neil G
quelle
0

Um eine kausale Aussage treffen zu können, müssen Sie sowohl eine zufällige Stichprobe als auch eine zufällige Zuordnung haben

  • Zufallsstichprobe: Jede Person hat die gleiche Wahrscheinlichkeit, für die Studie ausgewählt zu werden
  • Zufällige Zuordnung: Jedes Individuum im Experiment zeigt eine etwas andere Eigenschaft.

Wenn Sie also eine Behandlung und eine Kontrollgruppe aus der obigen Stichprobengruppe auswählen, sollte sich eine gleiche Anzahl von Personen mit ähnlichen Merkmalen sowohl in der Behandlung als auch in der Kontrollgruppe befinden.

Die Behandlungsgruppe ist die Gruppe, in der das Arzneimittel an Personen verabreicht wird. Die Kontrollgruppe ist die Gruppe, in der das Arzneimittel nicht verabreicht wird. Sie können auch eine Placebo-Gruppe definieren , in der den Probanden keine Medikamente verabreicht werden, ihnen jedoch mitgeteilt wird, dass sie verabreicht werden.

Sind die Wirkungen in der Behandlungsgruppe sichtbar, aber nicht in der Kontrollgruppe, so können wir die Ursache feststellen.

show_stopper
quelle
Meiner Meinung nach ist die Placebo-Gruppe unbedingt erforderlich. Außerdem dürfen die für den Umgang mit Probanden Verantwortlichen nicht wissen, wer zu welcher Gruppe gehört ("Doppelblind"). Alles andere würde ich definitiv für unzuverlässig halten. Testen ist nicht einfach.
Mafu
Randomisierte kontrollierte Placebo-Studien sind authentischer als randomisierte kontrollierte Studien, jedoch können mit randomisierten kontrollierten Studien kausale Aussagen getroffen werden
show_stopper
2
"Um eine kausale Aussage treffen zu können, müssen Sie sowohl eine zufällige Stichprobe als auch eine zufällige Zuordnung haben" - das ist nicht wahr. Siehe die Methoden für die Vordertür und die Hintertür.
Neil G