Ich verstehe, dass Korrelation keine Kausalität ist . Angenommen, wir erhalten eine hohe Korrelation zwischen zwei Variablen. Wie überprüfen Sie, ob diese Korrelation tatsächlich kausal bedingt ist? Oder können wir unter welchen Bedingungen genau experimentelle Daten verwenden, um einen Kausalzusammenhang zwischen zwei oder mehr Variablen herzuleiten?
correlation
mathematical-statistics
causality
Manish Barnwal
quelle
quelle
X
undY
wählt das eine als Ursache des anderen aus, was das Verantwortungsgefühl minimiert und das Schicksalsgefühl maximiert.Antworten:
Ein sehr wahrscheinlicher Grund für die Korrelation zweier Variablen ist, dass ihre Änderungen mit einer dritten Variablen verknüpft sind. Andere wahrscheinliche Gründe sind Zufälle (wenn Sie genügend nicht korrelierte Variablen für die Korrelation testen, zeigen einige eine Korrelation) oder sehr komplexe Mechanismen, die mehrere Schritte umfassen.
Beispiele finden Sie unter http://tylervigen.com/ :
Um die Ursache von A -> B sicher festzustellen, benötigen Sie ein Experiment, bei dem Sie die Variable A steuern und die anderen Variablen nicht beeinflussen können. Dann messen Sie, ob die Korrelation von A und B noch besteht, wenn Sie Ihre Variable ändern.
Bei fast allen praktischen Anwendungen ist es fast unmöglich, auch andere (oft unbekannte) Variablen nicht zu beeinflussen. Deshalb können wir das Fehlen von Ursachen am besten nachweisen.
Um einen Kausalzusammenhang feststellen zu können, gehen Sie zunächst von der Hypothese aus, dass zwei Variablen einen Kausalzusammenhang haben, widerlegen die Hypothese mithilfe eines Experiments, und wenn Sie versagen, können Sie mit einer gewissen Sicherheit feststellen, dass die Hypothese wahr ist. Wie hoch Ihre Sicherheit sein muss, hängt von Ihrem Forschungsgebiet ab.
In vielen Bereichen ist es üblich oder erforderlich, 2 Teile Ihres Experiments parallel auszuführen, einen, in dem die Variable A geändert wird, und eine Kontrollgruppe, in der die Variable A nicht geändert wird, das Experiment jedoch ansonsten genau gleich ist - z. B. im Fall von Medizin Sie stechen Probanden immer noch mit einer Nadel oder lassen sie Pillen schlucken. Wenn das Experiment eine Korrelation zwischen A und B zeigt, jedoch nicht zwischen A und B '(B der Kontrollgruppe), können Sie von einer Kausalität ausgehen.
Es gibt auch andere Möglichkeiten, auf Kausalität zu schließen, wenn ein Experiment entweder nicht möglich oder aus verschiedenen Gründen (Moral, Ethik, PR, Kosten, Zeit) nicht ratsam ist. Eine gebräuchliche Methode ist der Abzug. Ein Beispiel aus einem Kommentar: Um zu beweisen, dass Rauchen beim Menschen Krebs verursacht, können wir anhand eines Experiments nachweisen, dass Rauchen bei Mäusen Krebs verursacht. Dann können wir nachweisen, dass es einen Zusammenhang zwischen Rauchen und Krebs beim Menschen gibt, und daraus schließen, dass dies extrem ist wahrscheinlich, dass Rauchen beim Menschen Krebs verursacht - dieser Beweis kann gestärkt werden, wenn wir auch widerlegen, dass Krebs Rauchen verursacht. Eine andere Möglichkeit, auf Kausalität zu schließen, ist der Ausschluss anderer Korrelationsursachen, wobei die Kausalität die beste verbleibende Erklärung für die Korrelation darstellt - diese Methode ist nicht immer anwendbar. weil es manchmal unmöglich ist, alle möglichen Ursachen der Korrelation zu beseitigen (in einer anderen Antwort "Hintertürpfade" genannt). Im Beispiel Rauchen / Krebs könnten wir diesen Ansatz wahrscheinlich verwenden, um zu beweisen, dass das Rauchen für Teer in der Lunge verantwortlich ist, da es nicht so viele mögliche Quellen dafür gibt.
Diese anderen Wege, die Kausalität zu "beweisen", sind aus wissenschaftlicher Sicht nicht immer ideal, da sie nicht so schlüssig sind wie ein einfacheres Experiment. Die Debatte über die globale Erwärmung ist ein gutes Beispiel dafür, wie viel einfacher es ist, Kausalitäten zu beseitigen, die mit einem wiederholbaren Experiment noch nicht endgültig bewiesen wurden.
Zur Erleichterung des Comics hier ein Beispiel eines Experiments, das technisch plausibel, aber aus nicht wissenschaftlichen Gründen (Moral, Ethik, PR, Kosten) nicht ratsam ist:
quelle
Unabhängig davon, ob der Entwurf experimentell oder beobachtend ist, spiegelt eine Assoziation zwischen einer Variablen A und einem Ergebnis Y einen Kausalzusammenhang zwischen A und Y wider, wenn es keine offenen Hintertürpfade zwischen A und Y gibt.
In einem experimentellen Design wird dies am einfachsten durch Randomisierung der Exposition oder der Behandlungszuordnung erreicht. Abgesehen von einer idealen Randomisierung ist der assoziative Behandlungseffekt eine unvoreingenommene Schätzung des kausalen Behandlungseffekts unter den Annahmen der Austauschbarkeit (die Zuordnung der Behandlung ist unabhängig von den kontrafaktischen Ergebnissen), der Positivität usw.
Verweise
Hernan, Robins. Kausale Folgerungsperle
. Kausaler Rückschluss in der Statistik: Ein Überblick
PS: Sie können nach Causal Inference und den folgenden Namen (zu Beginn) googeln, um weitere Informationen zum Thema zu erhalten: Judea Pearl, Donald Rubin, Miguil Hernan.
quelle
Betrachten Sie eine Erhöhung der Scheidungsrate, die mit einer Erhöhung des Anwaltseinkommens korreliert.
Intuitiv erscheint es offensichtlich, dass diese Metriken korreliert werden sollten. Mehr Paare (Nachfrage) melden mehr Scheidungen an, so dass mehr Anwälte (Angebot) ihre Preise erhöhen.
Es scheint , dass ein Anstieg der Scheidungsrate bewirkt eine Zunahme der Anwalt Einkommen, weil die zusätzliche Nachfrage aus den Paaren verursacht die Anwälte ihre Preise zu erhöhen.
Oder ist das rückwärts? Was wäre, wenn die Anwälte absichtlich und unabhängig ihre Preise erhöhen und ihr neues Einkommen für Scheidungsanzeigen ausgeben würden? Das scheint auch eine plausible Erklärung zu sein.
Dieses Szenario zeigt die willkürliche Anzahl von dritten erklärenden Variablen, die eine statistische Analyse aufweisen kann. Folgendes berücksichtigen:
Sie haben ein Rätsel. Sie können nicht jeden Datenpunkt messen. Wenn Sie das Ignorieren nicht erklärender Datenpunkte rechtfertigen möchten, müssen Sie sie messen. (Sie können einige Datenpunkte entfernen, ohne sie zu messen, aber Sie müssen sie zumindest begründen.)
In einem unbegrenzten System kann kein Kausalitätsnachweis korrekt sein.
quelle
Wenn A und B korreliert sind und Sie den Zufall ausgeschlossen haben, ist es am wahrscheinlichsten, dass entweder A B oder B A verursacht oder eine möglicherweise unbekannte Ursache, dass X sowohl A als auch B verursacht.
Der erste Schritt wäre, einen möglichen Mechanismus zu untersuchen. Könnten Sie sich vorstellen, wie A Fall B oder umgekehrt, oder welche andere Ursache X beide verursachen könnte? (Dies setzt voraus, dass diese Untersuchung billiger ist als die Durchführung eines Experiments zum Nachweis einer Ursache). Sie befinden sich hoffentlich in einer Position, in der sich ein Experiment zum Aufzeigen von Ursachen lohnt. Sie können fortfahren, wenn Sie sich keinen Mechanismus vorstellen können (A verursacht B, aber wir wissen nicht, warum dies möglich ist).
In diesem Experiment müssen Sie in der Lage sein, die vermutete Ursache nach Belieben zu manipulieren (wenn die Ursache beispielsweise "Einnahme von Pille A" ist, erhalten einige Personen die Pille, andere nicht). Dann treffen Sie die üblichen Vorsichtsmaßnahmen, indem Sie Leute auswählen, die die Pille zufällig bekommen oder nicht bekommen, wobei weder Sie noch die Testpersonen wissen, wer die Pille bekommen hat und wer nicht. Sie versuchen auch, den Rest des Experiments gleich zu halten (Personen in einem schönen, warmen Raum, in dem Sonnenschein durch das Fenster fällt, die Pille A zu geben, während die andere Gruppe in einem schmutzigen, unbequemen Raum eine gefälschte Pille erhält, kann sich auf Ihre Daten auswirken). Wenn Sie also zu dem Schluss gekommen sind, dass der einzige Unterschied in dieser Pille besteht und der Grund, warum Sie die Pille bekommen oder nicht bekommen, eine zufällige Entscheidung ist, die nichts anderes beeinflusst hat,
quelle
Interventionelle (experimentelle) Daten, wie sie von Gnasher und Peter beschrieben wurden, sind der einfachste Weg, einen guten Fall für einen Kausalzusammenhang zu finden. In der Antwort von Ash wird jedoch nur die Möglichkeit erwähnt, einen Kausalzusammenhang über Beobachtungsdaten abzuleiten. Neben der von ihm erwähnten Backdoor-Methode stellt die Frontdoor-Methode eine weitere Möglichkeit dar, die Kausalität auf der Grundlage von Beobachtungsdaten und einigen kausalen Annahmen zu ermitteln. Diese wurden von Judea Pearl entdeckt. Ich habe versucht, diese hier zusammenzufassen und zu referenzieren .
quelle
Um eine kausale Aussage treffen zu können, müssen Sie sowohl eine zufällige Stichprobe als auch eine zufällige Zuordnung haben
Wenn Sie also eine Behandlung und eine Kontrollgruppe aus der obigen Stichprobengruppe auswählen, sollte sich eine gleiche Anzahl von Personen mit ähnlichen Merkmalen sowohl in der Behandlung als auch in der Kontrollgruppe befinden.
Die Behandlungsgruppe ist die Gruppe, in der das Arzneimittel an Personen verabreicht wird. Die Kontrollgruppe ist die Gruppe, in der das Arzneimittel nicht verabreicht wird. Sie können auch eine Placebo-Gruppe definieren , in der den Probanden keine Medikamente verabreicht werden, ihnen jedoch mitgeteilt wird, dass sie verabreicht werden.
Sind die Wirkungen in der Behandlungsgruppe sichtbar, aber nicht in der Kontrollgruppe, so können wir die Ursache feststellen.
quelle