Bedeutet Kausalität Korrelation?

118

Korrelation impliziert keine Kausalität, da es viele Erklärungen für die Korrelation geben könnte. Aber impliziert Kausalität Korrelation? Intuitiv würde ich denken, dass das Vorhandensein von Kausalität zwangsläufig eine gewisse Korrelation bedeutet. Aber meine Intuition hat mir in der Statistik nicht immer gute Dienste geleistet. Bedeutet Kausalität Korrelation?

Matthew
quelle
5
Das Problem ist, wenn Sie "implizieren" in einem Wörterbuch nachschlagen, werden Sie sowohl "vorschlagen" als auch "notwendig" sehen.
Rolando2
6
Korrelation impliziert keine Kausalität, aber sie zieht suggestiv die Augenbrauen hoch und gestikuliert verstohlen, während sie mit dem Mund den Blick nach oben schweift. xkcd.com/552
jchristie
1
Die Frage selbst scheint nicht nach einer konkreten, sachlichen Antwort zu suchen, wie die Verwendung des Wortes impliziert. Der obige Verweis ist wie ein Ultimate vielleicht. Oder eher wie ein wahrscheinlich, aber ich kann es nicht beweisen.
Jchristie

Antworten:

96

Wie viele der obigen Antworten bereits ausgeführt haben, impliziert die Kausalität keine lineare Korrelation . Da viele Korrelationskonzepte aus Feldern stammen, die stark von linearen Statistiken abhängen, wird Korrelation normalerweise als gleich lineare Korrelation angesehen. Der Wikipedia-Artikel ist eine gute Quelle dafür, ich mag dieses Bild wirklich:

Korrelationsbeispiele

Schauen Sie sich einige der Figuren in der unteren Reihe an, zum Beispiel die parabelförmige Form im vierten Beispiel. Dies geschieht in @StasK answer (mit ein wenig Rauschen). Y kann vollständig durch X verursacht werden, aber wenn die numerische Beziehung nicht linear und symmetrisch ist, haben Sie immer noch eine Korrelation von 0.

Das Wort, nach dem Sie suchen, ist gegenseitige Information : Dies ist eine Art allgemeine nichtlineare Version der Korrelation. In diesem Fall wäre Ihre Aussage wahr: Kausalität impliziert eine hohe gegenseitige Information .

Artem Kaznatcheev
quelle
3
Es ist normalerweise, aber nicht immer wahr, dass eine hohe gegenseitige Information mit einer Kausalität einhergeht. Siehe @ gungs Antwort "Wenn die Ursache perfekt mit einer anderen kausalen Variablen korreliert, mit genau dem gegenteiligen Effekt."
Neil G
5
Das Argument zweier Ursachen mit gegensätzlichen Wirkungen, die sich immer aufheben, macht für mich als Ursache wenig Sinn . Ich kann immer davon ausgehen, dass es Einhörner gibt, die etwas verursachen, und Gremlins, die ihre Bemühungen perfekt abbrechen. Ich vermeide das, weil es albern ist. Aber vielleicht verstehe ich Ihren Punkt falsch.
Artem Kaznatcheev
11
Sein Beispiel ist extremer als es sein muss. Es ist möglich, dass Sie Boolesche Variablen und , sodass und Ursachen für sind und (mod 2). Fehlen dann Kenntnisse über , und liegen keine gegenseitigen Informationen vor. ist ein unentdeckter Störer - was Sie "Gremlins" nennen, obwohl es etwas sehr Häufiges ist. A,BCABCC=A+BBACB
Neil G
2
@NielG Ich stimme deinem ersten Satz zu, aber nicht dem zweiten. Nur weil A & B C verursacht, heißt das nicht, dass A C und B C verursacht. Ich verstehe nicht, warum Ursache über & verteilt sein muss.
Artem Kaznatcheev
4
Der Grund, warum A dennoch eine Ursache für C ist, ist, dass sich durch das Ändern von A immer noch C ändert. Daher ist C von A abhängig, auch wenn wir B nicht beobachten.
Neil G,
41

Die strenge Antwort lautet "Nein, Kausalität impliziert nicht unbedingt Korrelation".

Betrachte und . Verursachung bekommt keine stärker: bestimmt . Die Korrelation zwischen und ist jedoch 0. Beweis: Die (gemeinsamen) Momente dieser Variablen sind: ; ; Verwendung von die Eigenschaft der Standardnormalverteilung, dass ihre ungeraden Momente alle gleich Null sind (kann leicht aus ihrer momenterzeugenden Funktion abgeleitet werden). Daher ist die Korrelation gleich Null.XN(0,1)Y=X2χ12XYXYE[X]=0E[Y]=E[X2]=1

Cov[X,Y]=E[(X0)(Y1)]=E[XY]E[X]1=E[X3]E[X]=0

Um auf einige der Kommentare einzugehen: Der einzige Grund, warum dieses Argument funktioniert, ist, dass die Verteilung von auf Null zentriert und um 0 symmetrisch ist. Tatsächlich hätte jede andere Verteilung mit diesen Eigenschaften, die eine ausreichende Anzahl von Momenten hätte, funktioniert Stelle von , zB Uniform auf oder Laplace . Ein stark vereinfachtes Argument ist, dass für jeden positiven Wert von ein ebenso wahrscheinlicher negativer Wert von gleicher Größe vorliegt. Wenn Sie also das quadrieren, können Sie nicht sagen, dass größere Werte von mit größeren oder kleineren Werten verknüpft sind vonXN(0,1)(10,10)exp(|x|)XXXXY. Wenn Sie jedoch , dann ist , , und . Dies macht durchaus Sinn: Für jeden Wert von unter Null gibt es einen weitaus wahrscheinlicheren Wert von der über Null liegt, sodass größere Werte von größeren Werten von . (Letzteres hat eine nicht-zentrale Verteilung ; Sie können die Varianz von der Wikipedia-Seite abrufen und die Korrelation berechnen, wenn Sie interessiert sind.)XN(3,1)E[X]=3E[Y]=E[X2]=10E[X3]=36Cov[X,Y]=E[XY]E[X]E[Y]=3630=60XXXYχ2

StasK
quelle
2
@DQdlM: Die Standard-Zufallsvariable hat aufgrund der Gleichmäßigkeit der Dichte verschwindende ungerade zentrale Momente . Matthew: Die Antwort ist nein, wie StasK gezeigt hat, weil Korrelation nicht die einzige Art von Abhängigkeit ist.
Emre
3
@DQdlM: Siehe unteres mittleres Diagramm im ersten Bild auf der Wikipedia- Korrelationsseite . Das ist der Fall von StasK. Es funktioniert nur, wenn x gleichmäßig über den Ursprung verteilt ist (dh wenn , ist die Korrelation ziemlich hoch)XN(3,1)
naught101
3
PS Ich bin so froh, dass du diese Antwort gepostet hast. Es war schwer zu glauben, dass die Frage ohne diese Antwort so lange ging. Dies war das genaue Beispiel, das mir einfiel, als ich diese Frage sah, aber ich hatte nicht die Zeit, sie aufzuschreiben. Ich bin froh , Sie haben sich die Zeit nehmen. Prost.
Kardinal
3
@cardinal: Ja, ich denke, wir alle haben diese einfachen Gegenbeispiele in der Grundschule gelernt ... und ja, nach Ableitung der Kovarianz brauchen Sie nur den ersten und den dritten Moment, um Null zu sein. Wenn Sie ein nicht triviales Beispiel für eine asymmetrische Verteilung mit einem Null-Drittel-Moment haben (fein abgestimmte Wahrscheinlichkeitsmassen über fünf oder sechs Punkte zählen nicht), wäre ich sehr gespannt darauf.
StasK
3
Hier wird angenommen, dass 'Kausalität' als Funktion ausgedrückt werden kann. Dies bedeutet, dass genau dann verursacht, wenn es eine messbare Funktion , so dass . Ich denke, wir könnten den Rest unseres Lebens damit verbringen, über die Gültigkeit dieses Arguments zu diskutieren. XYfY=f(X)
31

Im Wesentlichen ja.

Korrelation impliziert keine Kausalität, da es andere Erklärungen für eine Korrelation geben könnte, die über die Ursache hinausgeht. Aber damit A eine Ursache für B ist , müssen sie in irgendeiner Weise verbunden sein . Das heißt, es besteht eine Korrelation zwischen ihnen - obwohl diese Korrelation nicht unbedingt linear sein muss.

Wie einige der Kommentatoren vorgeschlagen haben, ist es wahrscheinlich sinnvoller, einen Begriff wie "Abhängigkeit" oder "Assoziation" zu verwenden, als eine Korrelation. Obwohl ich in den Kommentaren erwähnt habe, habe ich gesehen, dass "Korrelation nicht Kausalität" als Reaktion auf eine Analyse ist, die weit über die einfache lineare Korrelation hinausgeht, und daher habe ich für die Zwecke des Sprichworts die "Korrelation" im Wesentlichen auf jede erweitert Assoziation zwischen A und B.

Fomite
quelle
16
Ich neige dazu, das Wort Korrelation für lineare Korrelation zu reservieren und die Abhängigkeit für nichtlineare Beziehungen zu verwenden, die möglicherweise eine lineare Korrelation haben oder nicht.
Memming
4
@Memming Ich würde auch, abgesehen von der Tatsache, dass die Leute "Korrelation impliziert keine Kausalität" betonen: ziemlich komplexe nichtlineare Assoziation.
Fomite
Memming ist richtig. Sie müssen die Korrelation definieren, wenn Sie nicht die Pearson-Korrelation meinen.
Neil G
1
@NeilG Oder vielleicht kann man eine lineare Pearson-Korrelation erhalten, indem man die eine oder andere Variable transformiert. Das Problem ist, dass das Sprichwort selbst zu stark vereinfacht ist.
Fomite
1
@EpiGrad: Beide guten Punkte. Im allgemeinen Sprachgebrauch stimmt die Korrelation eher mit A als mit B überein. Ich denke, Ihre Antwort würde davon profitieren, wenn Sie eine breite Definition der Korrelation klar definieren würden.
Neil G
23

Hinzufügen zu @EpiGrads Antwort. Ich denke, für viele Leute wird "Korrelation" "lineare Korrelation" bedeuten. Und das Konzept der nichtlinearen Korrelation ist möglicherweise nicht intuitiv.

Also würde ich sagen "nein, sie müssen nicht korreliert sein, aber sie müssen verwandt sein ". Wir sind uns einig in der Sache, sind uns aber nicht einig, wie wir die Sache am besten vermitteln können.

Ein Beispiel für eine solche Ursache (zumindest die Leute denken, dass sie ursächlich ist) ist die Wahrscheinlichkeit, dass Sie das Telefon beantworten, und das Einkommen. Es ist bekannt, dass Menschen an beiden Enden des Einkommensspektrums ihre Telefone mit geringerer Wahrscheinlichkeit beantworten als Menschen in der Mitte. Es wird angenommen, dass das Kausalmuster für Arme (z. B. Vermeiden von Geldsammlern) und Reiche (z. B. Vermeiden von Personen, die um Spenden bitten) unterschiedlich ist.

Peter Flom
quelle
21

Die Dinge sind hier definitiv nuanciert. Verursachung nicht Korrelation impliziert nicht einmal statistische Abhängigkeit, zumindest nicht in der einfachen Art , wie wir über sie in der Regel denken, oder in der Art und Weise einige Antworten sind darauf hindeutet , (nur transformieren oder usw.).XY

Betrachten Sie das folgende Kausalmodell:

XYU

Das heißt, sowohl und Ursache .XUY

Nun lass:

Xbernoulli(0.5)Ubernoulli(0.5)Y=1XU+2XU

Angenommen, Sie beobachten . Beachten Sie, dass . Das heißt, obwohl verursacht (im Sinne einer nichtparametrischen Strukturgleichung), sehen Sie keine Abhängigkeit! Sie können jede gewünschte nichtlineare Transformation durchführen, und dies wird keine Abhängigkeit erkennen lassen, da hier keine marginale Abhängigkeit von und .UP(Y|X)=P(Y)XYYX

Der Trick ist, dass, obwohl und verursachen , ihr durchschnittlicher Kausaleffekt geringfügig Null ist. Sie sehen nur die (exakte) Abhängigkeit, wenn Sie sowohl auf als auch auf zusammen konditionieren (das zeigt auch, dass und nicht implizieren ). Also, ja, man könnte argumentieren, dass, obwohl verursacht , der marginale kausale Effekt von auf Null ist, weshalb wir keine Abhängigkeit von und . Dies zeigt jedoch nur, wie differenziert das Problem ist, daU Y X U X Y U Y { X , U } Y X Y X Y X Y X Y UXUYXUXYUY {X,U}YXYXYXYXverursacht , nicht nur so, wie Sie es naiv denken würden (es interagiert mit ).YU

Kurz gesagt würde ich sagen, dass: (i) Kausalität Abhängigkeit suggeriert ; aber (ii) die Abhängigkeit ist eine funktionale / strukturelle Abhängigkeit und kann sich in der spezifischen statistischen Abhängigkeit, an die Sie denken, niederschlagen oder nicht.

Carlos Cinelli
quelle
Carlos, ist es richtig zu sagen, dass dieses Problem (statistische Unsichtbarkeit) verschwindet, wenn wir alle Variablen des Kausalmodells kennen?
Markowitz
@markowitz müsste man alles bis auf das deterministische niveau beobachten, also kein sehr realistisches szenario.
Carlos Cinelli
Ich interpretiere Ihre Antwort als "Ja". Sie haben recht, die von mir angenommene Situation ist unrealistisch; Ich bin mir dessen bewusst. Die Frage bezog sich jedoch nur auf die Logik, die Sie beschrieben haben, und die Endgültigkeit bestand darin, sie zu erfassen. Meine Überzeugung war so etwas wie "Kausalität impliziert statistische Assoziation", und andere Antworten auf dieser Seite klingen so. Immerhin ist auch Ihr Beispiel etwas unrealistisch, aber aus diesem Grund nicht uninteressant. Es scheint mir, dass auch im Allgemeinen eine Kausalität ohne statistische Assoziation leicht unrealistisch, aber theoretisch interessant ist.
Markowitz
1
@markowitz die "statistische Unsichtbarkeit" tritt auf, wenn das Modell dem Graphen nicht treu ist. Für eine genaue Löschung hängt dies von einer bestimmten Parametrisierung ab, so dass einige Leute der Meinung sind, dass dies in der Tat unwahrscheinlich ist. Eine Annullierung in der Nähe könnte jedoch plausibel sein, da sie von einer Nachbarschaft von Parametern abhängt, sodass alles vom Kontext abhängt. Der Punkt hier ist nur, dass Sie Ihre kausalen Annahmen explizit machen müssen, da Kausalität logischerweise keine Assoziation für sich bedeutet - Sie benötigen zusätzliche Annahmen.
Carlos Cinelli
13

Die Ursache und die Wirkung wird in Beziehung gesetzt werden , es sei denn es keine Variation ist bei allen in der Häufigkeit und der Größe der Ursache und ohne Veränderung überhaupt in ihrer kausalen Kraft. Die einzige andere Möglichkeit wäre, wenn die Ursache perfekt mit einer anderen kausalen Variablen korreliert ist, mit genau dem gegenteiligen Effekt. Grundsätzlich sind dies gedankliche Versuchsbedingungen. In der realen Welt impliziert die Kausalität in irgendeiner Form eine Abhängigkeit (obwohl es sich möglicherweise nicht um eine lineare Korrelation handelt).

gung
quelle
3
@NeilG, frönte ich meine Sucht kursiv .
gung
1
Einige Theorien implizieren dies tatsächlich, zB viele Modelle der Spieltheorie. Einige empirische Situationen, in denen Sie keinen Unterschied erkennen können (obwohl es tatsächlich einen "gung-kursiven" geben würde :-) beinhalten "neutrale" Szenarien ohne Genveränderung, wenn der evolutionäre Selektionsdruck auf zwei Ebenen in verschiedene Richtungen weist.
Conjugateprior
1
Ich mag die erste Ausnahme, aber nicht die zweite Ausnahme. Ich mag zu denken, dass das Umlegen des Schalters das Licht zum Leuchten bringt, aber wenn ich den Schalter nur während eines Stromausfalls umlege, passiert nichts. Vielleicht gab es keinen wirklichen Kausalzusammenhang.
Emory
1
@ naught101, Sie sprechen einen guten Punkt an, der an anderer Stelle auf dieser Seite besprochen wurde. Ich habe meine Antwort bearbeitet. Wenn ich jedoch mit Menschen gearbeitet habe, glaube ich nicht, dass sie eine starke Auffassung von Korrelation als notwendigerweise linear haben, obwohl ich ihnen das sage. Obwohl sie es nicht so ausdrücken würden, denke ich, dass die meisten Leute "Korrelation" näher an "Funktion von" verstehen. Trotzdem hätte ich von Anfang an klarer mit Begriffen umgehen sollen.
Gung
2
@emory: Die Ursache für das Aufleuchten des Lichts ist eigentlich das Schließen des Stromkreises (was durch das Betätigen des Schalters unter den Umgebungsbedingungen einschließlich eines funktionierenden Gitters verursacht wird). Während eines Stromausfalls wird der Stromkreis durch Betätigen des Schalters nicht geschlossen, da er an anderer Stelle defekt ist. In gewissem Sinne ist der Blackout der "gegenteilige" Effekt, von dem Gung gesprochen hat (dh Licht ist an, Blackout schaltet es aus). Man könnte es sich auch als aufhebenden Effekt vorstellen.
Naught101
2

Hier gibt es gute Antworten. Artem Kaznatcheev , Fomite und Peter Flom weisen darauf hin, dass Kausalität normalerweise eher Abhängigkeit als lineare Korrelation impliziert. Carlos Cinelli gibt ein Beispiel, in dem es keine Abhängigkeit gibt, weil die Erzeugungsfunktion so eingerichtet ist.

Ich möchte einen Punkt hinzufügen, wie diese Abhängigkeit in der Praxis verschwinden kann, und zwar in den Arten von Datensätzen, mit denen Sie möglicherweise arbeiten. Situationen wie Carlos 'Beispiel beschränken sich nicht auf bloße "Gedankenexperimentbedingungen".

Abhängigkeiten verschwinden in sich selbst regulierenden Prozessen . Die Homöostase sorgt beispielsweise dafür, dass Ihre innere Körpertemperatur unabhängig von der Raumtemperatur bleibt. Externe Wärme beeinflusst direkt Ihre Körpertemperatur, beeinflusst aber auch die Kühlsysteme des Körpers (z. B. Schwitzen), die die Körpertemperatur stabil halten. Wenn wir die Temperatur in extrem schnellen Intervallen und mit extrem präzisen Messungen messen, haben wir die Möglichkeit, die kausalen Abhängigkeiten zu beobachten, aber bei normalen Abtastraten scheinen Körpertemperatur und Außentemperatur unabhängig voneinander zu sein.

Selbstregulierende Prozesse sind in biologischen Systemen weit verbreitet. Sie werden durch Evolution erzeugt. Säugetiere, die ihre Körpertemperatur nicht regulieren können, werden durch natürliche Auslese entfernt. Forscher, die mit biologischen Daten arbeiten, sollten sich bewusst sein, dass kausale Abhängigkeiten in ihren Datensätzen verschwinden können.

Lizzie Silver
quelle
-3

Wäre eine Ursache ohne Korrelation nicht eine Sache?

Wenn Sie nicht, wie die akzeptierte Antwort andeutet, eine unglaublich eingeschränkte Interpretation des Wortes "Korrelation" verwenden, ist dies eine dumme Frage Bevölkerungswachstum oder nur Intensität.

richtig?

Andererseits könnten Sie über etwas mehr diskutieren, die Sichtbarkeit von etwas, das von etwas anderem beeinflusst wird, was meiner Meinung nach wie eine Kausalität aussieht, aber Sie messen wirklich nicht, was Sie denken, dass Sie messen ...

Also ja, ich denke die kurze Antwort wäre: "Ja, solange du keine Entropie erschaffen kannst."

user3363155
quelle