Ich weiß, dass diese Frage milliardenfach gestellt wurde, und bin daher nach einem Online-Blick fest davon überzeugt, dass die Korrelation zwischen zwei Variablen keine Kausalität impliziert. In einem meiner Statistikvorträge hatten wir heute einen Gastvortrag eines Physikers über die Bedeutung statistischer Methoden in der Physik. Er sagte eine erstaunliche Aussage:
Korrelation impliziert keine Kausalität, es sei denn, eine der Variablen ist die Zeit. Wenn also eine starke Korrelation zwischen einer unabhängigen Variablen und der Zeit besteht, impliziert dies auch eine Kausalität.
Ich hatte diese Aussage noch nie gehört. Sehen Physiker / Relativisten "Verursachung" anders als Menschen?
correlation
mathematical-statistics
causality
Thomas Moore
quelle
quelle
Antworten:
Ich werde eine andere Antwort geben, da ich denke, dass die derzeit gelieferten einen wichtigen Punkt der Aussage des Physikers verfehlen. Die zitierte Aussage ist:
Der Physiker sagt nicht :
Das wäre falsch. Was der Physiker ist zu sagen ist:
Ein Beispiel könnte Entropie sein. Wenn wir eine starke Korrelation zwischen Zeitablauf und zunehmender Entropie haben, können wir sagen, dass eine zunehmende Zeit eine Zunahme der Entropie verursacht. Beachten Sie, dass dies die physikalischen Ursachen für die zunehmende Entropie ignoriert (Partikelzerfall, expandierendes Universum usw.).
Eine der traditionellen Voraussetzungen für die Kausalität ist der zeitliche Verlauf, dh, dass X nur dann Y verursachen kann, wenn X vor Y steht. Wenn jedoch eine Ihrer Variablen die Zeit ist, ist der zeitliche Verlauf bereits in die Beziehung integriert (sofern eine Beziehung besteht).
BEARBEITEN: Auf der Grundlage einer Vielzahl von Kommentaren werde ich Folgendes hinzufügen. Ich denke, dass der Physiker hier eine andere Vorstellung vom Wort "Kausalität" verwendet. Er scheint zu sagen, dass, wenn es eine Korrelation zwischen einer unabhängigen Variablen und der Zeit gibt, man schließen kann, dass sich die unabhängige Variable im Laufe der Zeit vorhersagbar ändert. Einige Leute sagen vielleicht, dass die Änderungen durch die Zeit "verursacht" werden. In Wirklichkeit verwenden Statistiker die Worte "Ursache" oder "Kausalität" nicht, was zu Verwirrung führen kann.
quelle
Wir wissen nicht, was der Physiker gemeint hat. Es folgen zwei unterschiedliche Interpretationen.
Y Y X Y X Y X Y X Y W X ← W → Y X ← V → Z ← W → YX Y Y X Y X Y X Y X Y W X←W→Y X←V→Z←W→Y Z X Y sind abhängig und haben keine gemeinsame Ursache, aber keine bewirkt die andere.
Die zeitliche Rangfolge vereinfacht jedoch die Bedingungen für die Behauptung eines Kausalzusammenhangs erheblich, die Sie in Pearl's Kausalitätsbuch Kapitel 2.7 "Lokale Kriterien für Kausalzusammenhänge" finden.
Im Wesentlichen impliziert (1), dass eine potenzielle Ursache für wenn der zeitliche Vorrang gegeben ist, und (2), dass diese Beziehung unterbrechen kann, was nur passieren kann, wenn verursacht .Y X X YZ Y X X Y
Diese Bedingung ist viel einfacher als die Definition von Pearl für eine echte Ursache ohne zeitliche Information.
Eine weitere Möglichkeit , in einigen der anderen Antworten skizziert ist , dass der Physiker gemeint , dass , wenn im Laufe der Zeit und es ist korreliert mit ist , dann bewirkt . Diese Aussage ist richtig, aber unvollständig, da der Zeitablauf die Ursache für alle anderen Variablen ist, womit ich meine, dass die kausale grafische Struktur auf diese Weise vorliegt. Eine kausale grafische Struktur ist eine Reihe von Behauptungen über Unabhängigkeitsverhältnisse bei Beobachtungen und Eingriffen.Y X YX Y X Y
quelle
Ich spekuliere, dass Ihr Gastdozent gemeint hat, dass in der Physik die einzigen Korrelationen, die die Replikation überleben, diejenigen sind, denen ein kausaler Zusammenhang zugrunde liegt. Zeitvariable ist eine Ausnahme, da sie die einzige Variable ist, die vom Physiker nicht kontrolliert wird. Hier ist der Grund.
In der Physik beschäftigen wir uns normalerweise mit wiederholbaren Phänomenen und Experimenten. Tatsächlich ist es fast selbstverständlich, dass jedes Experiment wiederholbar ist und von Ihnen oder anderen Forschern zu einem späteren Zeitpunkt repliziert werden kann. Angenommen, Sie betrachten eine Stichprobe, bei der Beobachtungen der interessierenden Variablen und der unabhängigen Variablen . Wie oben erwähnt, steuern wir die Variablen vollständig und können sie auf einen beliebigen Wert setzen. x k x kyi,xki xk xk
Ihr Physiker sagt, dass Sie in diesem Setup keine Korrelation sei denn, es gibt einen Kausalzusammenhang. Warum? Weil jemand anderes oder Sie selbst das Experiment mit einer beliebigen Kombination und Folge von wiederholen und nur die Korrelationen mit kausalen Beziehungen die Wiederholungen eines Experiments überleben. Alle anderen (falschen) Korrelationen verschwinden, sobald Sie in allen möglichen Kombinationen eines Experiments genügend Daten gesammelt haben.x k jCorr[y,xk] xkj
Diese Situation steht in krassem Gegensatz zu den Sozialwissenschaften und einigen Geschäftsanwendungen, in denen Sie keine Experimente durchführen können. Sie beobachten nur eine Sequenz des BIP eines Landes und können die Arbeitslosigkeit nicht ändern, wenn alle anderen gleich sind, und beobachten die Korrelationen.
Jetzt ist die Zeit die einzige Variable, die ein Physiker nicht kontrollieren kann. Es gibt nur einen 1. Januar 2017. Er kann diesen Tag nicht wiederholen. Er kann jede andere Variable wiederholen, aber nicht die Zeit. Aus diesem Grund sitzt ein Physiker in Bezug auf die Zeit ( nicht die abgelaufene Zeit oder das Alter) im selben Boot wie alle anderen: Korrelation bedeutet für ihn keine Verursachung.
quelle
Ich habe das vorher noch nicht gehört, und es wäre nicht wahr nach den Begriffen der Kausalität, die ich kenne (obwohl ich kein Physiker bin).
Typischerweise wird für zu Ursache ist es notwendig , daß vorausgeht in der Zeit. Wenn also vor , kann es nicht durch "verursacht" werden , unabhängig von jeglicher Korrelation. Darüber hinaus ist vor keine ausreichende Bedingung für die Kausalität (auch unabhängig von jeglicher Korrelation).Y X Y Y X X X YX Y X Y Y X X X Y
quelle
Ich denke nicht, dass Zeit in dieser Hinsicht unbedingt einzigartig ist, aber es ist sicherlich ein gutes Beispiel. Der Punkt ist, dass Sie, wenn A & B in der Regel korreliert sind, vermuten können, dass es eine gemeinsame Kausalität gibt, aber Sie wissen nicht, ob A B oder B A verursacht, oder vielleicht eine dritte Variable C beide A & B verursacht In bestimmten Fällen können Sie ausschließen, dass eine andere Variable A verursacht hat, und daher muss A auch B verursacht haben. Ein Beispiel hierfür ist ein kontrolliertes Experiment, bei dem Sie als Experimentator A steuern A "korreliert" mit einer Änderung von B, Sie wissen, dass es A gewesen sein muss, das bewirkt hat, dass sich B ändert, und nicht umgekehrt.
Eine andere Art von Szenario, in das dieses Beispiel mit der Zeit fällt, ist, wenn Sie einfach wissen, dass keine andere Variable A verursacht haben könnte, weil Sie wissen, dass nichts A beeinflussen kann Wenn die Zeit mit Änderungen einer Variablen korreliert, an der Sie interessiert sind (z. B. der Anzahl der Menschen auf dem Planeten), wissen Sie mit Sicherheit, dass sich diese Variable im Laufe der Zeit geändert hat als Ihre Variable, die dazu führt, dass die Zeit vergeht oder sich auf andere Weise ändert (dh die Zeit ist nicht vorgerückt, weil mehr Menschen geboren wurden, es muss umgekehrt sein).
Was Sie natürlich immer noch nicht wissen, ist, ob die Kausalität direkt ist. Vermutlich bringt der Lauf der Zeit nicht automatisch mehr Menschen hervor. Vielmehr führt die Entwicklung der Geschichte zu Fortschritten in verschiedenen Bereichen der Gesellschaft, und dies führt zu einer Zunahme der Bevölkerung (und dies ist auch eine Vereinfachung vieler kleiner ursächlicher Zusammenhänge). Aber unabhängig von den genauen Faktoren, die im Spiel sind, wissen Sie definitiv, dass A (letztendlich) zu B führt und nicht umgekehrt.
quelle
Tatsächlich impliziert die Korrelation einen Kausalzusammenhang.
Vielleicht hat A B oder C A und B verursacht.
Allerdings Korrelation nicht beweisen Verursachung.
Das ist selbstverständlich.
quelle
Ich würde dies eher als semantisches als als als mathematisch / statistisches Argument interpretieren. Ich würde es auch als eine ziemlich strenge Verallgemeinerung ansehen.
Die Bradford Hill Kriterien , oft in der Epidemiologie verwendet, bieten einen guten Rahmen für das Denken über Verursachung. Nichts kann definitiv die Ursache beweisen, ob Zeit ein Faktor ist oder nicht, und ich vermute, dass der Dozent nicht versucht hat, eine so starke Behauptung aufzustellen. Es können jedoch viele verschiedene Faktoren als vernünftige Argumente für die Kausalität herangezogen werden.
Beispielsweise legen die Bradford Hill-Kriterien nahe, dass die Stärke der Assoziation zwischen Variablen Anhaltspunkte für eine Verursachung liefern kann, jedoch allein nicht ausreicht. In ähnlicher Weise kann eine Assoziation, die mit anderen bekannten / vermuteten Tatsachen übereinstimmt, eine stärkere Kausalität suggerieren als eine Assoziation, die nicht mit dem vorherrschenden Wissen übereinstimmt. Zeitlichkeit ist auch eines der Kriterien - eine Ursache sollte ihrer Wirkung vorausgehen. Eine Assoziation und die Schlussfolgerungen, die wir über die Kausalität ziehen, müssen zeitlich sinnvoll sein. Ich empfehle die anderen Kriterien zu überprüfen. Einige sind spezifisch für die Epidemiologie und gelten nicht für die Physik, aber es ist immer noch eine nützliche Denkweise.
Der wichtigste Punkt ist, dass Sie, obwohl kein einzelnes Beweisstück die Kausalität definitiv beweisen wird, eine gute Argumentation dafür auf der Grundlage einer Reihe verschiedener logischer Prüfungen erstellen können. Ich würde argumentieren, dass es nicht angemessen ist, einem Kriterium wie der Zeit den absoluten Vorrang einzuräumen, aber die Zeitlichkeit kann ein wichtiger Faktor sein, wenn der Fall plausibel ist.
Dies führt zu einem breiteren Punkt der Statistik: Im Allgemeinen verwenden wir die Statistik, um ein Argument zu liefern. Wir verwenden Daten und statistische Tools, um einen bestimmten Punkt zu verdeutlichen. Häufig können dieselben Daten (und sogar dieselben Tools) verwendet werden, um widersprüchliche Punkte zu erstellen. Wir können den endgültigen Kausalitätsnachweis nicht in der Mathematik selbst finden, aber wir können unsere statistischen Tools als Teil eines breiteren Arguments einsetzen. Um mehr darüber zu erfahren, empfehle ich Abelsons Statistik als prinzipielles Argument.
Um dies auf die ursprüngliche Situation zurückzuführen, nehmen wir an, Sie haben ein Experiment über die Auswirkung der Konzentration einer bestimmten Chemikalie in einer Lösung auf die Temperatur dieser Lösung durchgeführt. Sie vermuten, dass die Zugabe von mehr dieser Chemikalie zu einer Reaktion führt, die die Temperatur erhöht. Mit der Zeit fügen Sie mehr hinzu. Sie können die Temperatur gegen die Zeit ablesen und einen Anstieg feststellen. All dies zeigt, dass die Temperatur mit der Zeit steigt; es beweist nicht, dass die Zeit selbst (oder irgendetwas anderes) eine kausale Wirkung hat. Es liefert jedoch einige Beweise für ein breiteres Argument, dass eine erhöhte Konzentration dieser Chemikalie zu einer Reaktion führt, die die Temperatur erhöht.
quelle
Der Satz ist recht einfach und nicht zu überdenken wert (und hat nichts mit Vorrang zu tun).
Wenn es einen festen Zusammenhang zwischen einer Variablen und der Zeit gibt (dh wir wissen, dass eine Zunahme der Zeit mit einer Zunahme der Variablen einhergeht, und dies ist gegeben ), dann kennen wir die "kausale" Richtung: dh die Zeit nimmt zu, verursacht die zu erhöhende Variable.
Weil die alternative Hypothese von "nah-uh, könnte es sein, dass die Zeit nur erhöht wird, weil die Variable zuerst erhöht wird ", kann es einfach nicht ertragen, wie die Zeit funktioniert.
Dies mag nach einer dummen Beobachtung klingen, hat aber wichtige Auswirkungen auf das Studiendesign, das versucht, eine kausale Richtung zu beweisen. Ein wichtiges Beispiel in der Medizin ist der Unterschied zwischen einer Querschnitts- und einer Kohortenstudie.
Zum Beispiel könnte eine Querschnittsstudie, die versucht, einen Zusammenhang zwischen Rauchen und Krebs zu finden, eine Gruppe von Menschen in Raucher und Nichtraucher aufteilen und herausfinden, wie viele in jeder Gruppe an Krebs leiden und nicht an Krebs leiden. Dies ist jedoch ein schwacher Beweis, da eine Korrelation zwischen Rauchen und Krebs auch so interpretiert werden könnte, dass "Menschen mit Krebs eher gerne mit dem Rauchen beginnen".
Wenn Sie jedoch eine Kohortenstudie durchführen, dh eine Gruppe von Rauchern und eine Gruppe von Nichtrauchern nehmen und diese über die Zeit verfolgen, und die Variable "Krebs bei Rauchern minus Krebs bei Nichtrauchern" messen und einen positiven Befund erstellen Korrelation dieser Variablen mit der Zeit (unter vernünftigen Annahmen, dass die einmal begonnene Rauchmenge konstant und unabhängig von der Zeit usw. ist), dann wissen Sie, dass "Zeit" die Ursache für den Krebsunterschied ist, da Sie nicht behaupten können, dass die Krebsraten steigen ließ mehr Zeit in der Rauchergruppe vergehen. Daher können Sie eine Ursache zwischen dem Verstreichen der Zeit und einer positiven Krebsdifferenz im Zusammenhang mit höheren Raten in der Rauchergruppe geltend machen. (oder einfacher ausgedrückt, die Zeit, die zur Rauchergruppe gehört, führt zu einem proportionalen Anstieg des Krebsrisikos).
Darüber hinaus ist die Schwäche der Querschnittsstudie, dh die Möglichkeit, dass "Krebspatienten häufiger mit dem Rauchen beginnen", nun aus dem Fenster verschwunden, da das Rauchen als Variable aus der "Zeit gegen Krebs" genommen wurde. Gleichung (hier als konstant angenommen und daher zeitlich unbeeinflusst). Mit anderen Worten, indem wir die Studie auf diese Weise formulieren, haben wir eine sehr spezifische Kausalrichtung untersucht . Wenn wir untersuchen wollen, inwieweit die umgekehrte Kausalrichtung gilt (dh wie wahrscheinlich es ist, dass Menschen, die irgendwann an Krebs erkranken, mit der Zeit mit dem Rauchen beginnen), müssten wir notwendigerweise eine Kohortenstudie entwerfen, die in zwei Teile unterteilt ist "Future Cancer vs No Future Cancer" und messen Sie die Aufnahme des Rauchens im Laufe der Zeit.
Update als Antwort auf Kommentare:
Beachten Sie, dass dies eine Diskussion über eine kausale Richtung ist, anstatt einen direkten Kausalzusammenhang zu finden. Die Frage der Verwechslung ist eine andere. (dh es gibt nichts, was darauf hindeutet, dass es keine unabhängige dritte Variable gibt, die beide die Wahrscheinlichkeit erhöht, dass Sie rauchen, und mit der Zeit das Krebsrisiko erhöht). Was die kontrafaktische Kausalität angeht, haben wir nicht definitiv gezeigt, dass "ohne das Rauchen diese Menschen keinen Krebs bekommen hätten". Aber wir habengezeigt, dass "die Assoziation zwischen Rauchergruppe und Krebs nicht zugenommen hätte, wäre die Zeit nicht vergangen". (dh der Verein ist nicht auf eine Momentaufnahme von Krebspatienten zurückzuführen, die lediglich die Präferenz haben, in der Rauchergruppe zu sein, oder nicht, sondern mit der Zeit gestärkt werden).
quelle
Dies ist wirklich eine Frage der Feststellung der Kausalität, da Ereignisse, die miteinander zusammenhängen, aber nicht ursächlich sind, wahrscheinlich zeitlich oder räumlich korreliert sind. Wenn wir uns also einige korrelierte Daten ansehen, wie können wir feststellen, ob die Beziehung abhängig ist? Ein weiser Forschungsberater sagte mir einmal: "Korrelation impliziert keine Kausalität, sie sagt nur, wo Sie suchen müssen."
Betrachten wir die Situation, in der sich herausstellt, dass Ereignisse A und B zeitlich oder räumlich korreliert sind. Wenn wir die Präposition untersuchen möchten, dass A B verursacht , besteht die traditionelle Denkweise darin, Tests auf Notwendigkeit und Suffizienz einzuführen - was Kausalität wirklich bedeutet.
Wenn ich nicht mit Milch in den Laden gehe , heißt das nicht, dass ich in meine leere Milch komme und fahre. Absolute Kausalität würde bedeuten, dass ich nicht die Mühe habe, in den Laden zu gehen , wenn ich noch Milch habe. und umgekehrt, wenn ich im Laden bin, weil ich keine Milch habe. Jetzt ist das Problem der positiven Kausalitätsfeststellung im engeren Sinne leicht zu erkennen: Die meisten Dinge sind nicht absolut kausal. Es gibt viele andere Gründe, warum ich in den Laden gehe, die nichts mit dem Milchzustand zu tun haben.
Dies ist eine einfache Möglichkeit, ein gutes Papier von einem guten Papier zu unterscheiden. Bei sorgfältiger Recherche werden Sie überall Angemessenheits- und Notwendigkeitstests sehen. Die Behauptung aufstellen, dass das niedermolekulare Medikament A zur Zerlegung des Proteinkomplexes B führen könnte? Sie sehen sofort die Tests:
Notwendigkeit
----test---- ----result---- everything but B --> [nothing] (check for false positive) everything but A --> assembled everything with A-like compound --> assembled (control group)
ausreichen
A + B alone (in vitro) --> disassembled (check for false negative) A + B + everything --> disassembled (trial group)
Dies ist die traditionelle Art und Weise, wie Sie ein induktives Argument für Kausalität experimentell unter Verwendung von Korrelation aufbauen würden. Ich bin sicher, dass sich Ihr Dozent dem entzogen hat!
quelle