Beziehungen zwischen Korrelation und Kausalität

19

Aus der Wikipedia-Seite mit dem Titel Korrelation impliziert nicht Kausalität ,

Für zwei beliebige korrelierte Ereignisse, A und B, umfassen die verschiedenen möglichen Beziehungen:

A verursacht B (direkte Ursache);
B verursacht A (umgekehrte Ursache);
A und B sind Konsequenzen einer gemeinsamen Ursache, verursachen sich aber nicht gegenseitig;
A und B verursachen beide C, was (explizit oder implizit) abhängig ist von .;
A verursacht B und B verursacht A (bidirektionale oder zyklische Verursachung);
A verursacht C, was B verursacht (indirekte Verursachung);
Es gibt keine Verbindung zwischen A und B; Die Korrelation ist ein Zufall.

Was bedeutet der vierte Punkt? A und B verursachen beide C, wovon (explizit oder implizit) abhängig ist. Wenn A und B C verursachen, warum müssen A und B korreliert werden?

correlation causality matt
quelle

8

Obligatorische verwandte xkcd: xkcd.com/552

Todd Wilcox

2

Trotz des Sprichworts würde ich erwarten, dass es eine hohe Korrelation zwischen Korrelation und Kausalität gibt ...

Mehrdad,

2

tylervigen.com/spurious-correlations

Ant

Siehe möglicherweise auch die Diskussion unter Bedeutet keine Korrelation keine Kausalität?

Ctwardy

18

"Konditionierung" ist ein Wort aus der Wahrscheinlichkeitstheorie: https://en.wikipedia.org/wiki/Conditional_probability

Die Konditionierung auf C bedeutet, dass wir nur Fälle betrachten, in denen C wahr ist. "Implizit" bedeutet, dass wir diese Einschränkung möglicherweise nicht explizit angeben und uns manchmal sogar dessen nicht bewusst sind.

Der Punkt bedeutet, dass, wenn A und B beide C verursachen, die Beobachtung einer Korrelation zwischen A und B in Fällen, in denen C wahr ist, nicht bedeutet, dass es eine reale Beziehung zwischen A und B gibt schafft eine künstliche Korrelation.

Nehmen wir ein Beispiel.

In einem Land gibt es genau zwei Arten von Krankheiten, die vollkommen unabhängig sind. Anruf A: "Person hat erste Krankheit", B: "Person hat zweite Krankheit". Angenommen, , $P(A)=0.1$ . $P(B)=0.1$

Jetzt geht jede Person, die eine dieser Krankheiten hat, zum Arzt und erst dann. Anruf C: "Person geht zum Arzt". Wir haben . $C=A \text{ or } B$

Nun berechnen wir einige Wahrscheinlichkeiten:

$P(C)=0.19$
$P(A|C)=P(B|C)=\frac{0.1}{0.19}\approx 0.53$
$P(A \text{ and } B|C)=\frac{0.01}{0.19}\approx 0.053$
$P(A|C)P(B|C)\approx 0.28$

Offensichtlich sind und , wenn sie auf C konditioniert sind, weit davon entfernt, unabhängig zu sein. Eigentlich Anlage auf C, scheint "Ursache" . $A$ $B$ $not A$ $B$

Wenn Sie die Liste der Personen verwenden, die von ihren Ärzten als Datenquelle für eine Analyse erfasst wurden, scheint eine starke Korrelation zwischen den Krankheiten und $A$ $B$ . Möglicherweise wissen Sie nicht, dass es sich bei Ihrer Datenquelle tatsächlich um eine Konditionierung handelt. Dies wird auch als "Auswahlverzerrung" bezeichnet.

Benoit Sanchez
quelle

13

Der vierte Punkt ist ein Beispiel für Berksons Paradoxon , das auch als Konditionierung auf einem Collider bekannt ist und auch als " Explain-Away" -Phänomen bezeichnet wird .

Stellen Sie sich beispielsweise eine junge Frau vor, die häufig von jungen Männern zu Terminen befragt wird, und sie muss entscheiden, ob sie jeden Terminvorschlag annimmt oder ablehnt. Die jungen Männer unterscheiden sich darin, wie attraktiv und charmant sie sind, und nehmen wir an, dass diese beiden Merkmale in der Population der datumsvorschlagenden Männer unabhängig sind. Natürlich ist die junge Frau eher geneigt, einen Terminvorschlag anzunehmen, je attraktiver oder charmanter der Mann ist. So ein Kausalmodell für diese Situation aussehen kann:

A t t r a c t i v e \to A c c e p t \leftarrow C h a r m i n g

$Attractive \rightarrow Accept \leftarrow Charming$

A t t r a c t i v e

$Attractive$

C h a r m i n g

$Charming$

A c c e p t

$Accept$

$Attractive$ $Charming$ $Accept=1$ . Now suppose I tell you about a man who the woman agreed to date, and I tell you that he is (in the woman's opinion) not attractive at all. Well, we know that the woman agreed to date him anyway, so we would reasonably infer that he must be quite charming indeed. Conversely, if we learn about a man whose date proposal was accepted and who is not charming, we would reasonably infer that he must be quite attractive.

Do you see what's happened here? By conditioning on $Accept=1$ , we've induced a negative correlation between $Attractive$ and $Charming$ , even though these two traits are (by assumption) marginally independent. From the perspective of the woman, the attractive men she dates tend to be less charming, and the charming men she dates tend to be less attractive. But this is because, by thinking only of the men she has dated, she is implicitly conditioning on $Accept$ . If she would instead consider all the men who have proposed dates, regardless of whether she accepted the proposal, she would see that there is no statistical association between the two traits.

Jake Westfall
quelle

5

Simpson's paradox and Berkson's paradox can each give examples of "A and B both cause C, which is (explicitly or implicitly) conditioned on"

As an example suppose I have $1000$ stamps in my collection of which $100$ are rare ( $10\%$ ) and $200$ are pretty ( $20\%$ ). If there is no intrinsic relationship between rarity and prettiness, it might turn out $20$ of my stamps are both pretty and rare.

If I now display my $280$ interesting stamps, i.e. those which are rare or pretty or both, there will be an apparent negative correlation between rarity and prettiness ( $20\%$ of displayed rare stamps are pretty while $100\%$ of displayed common stamps are pretty) due entirely to conditioning on being interesting.

Henry
quelle

This is an example Berkson's paradox, not Simpson's paradox (see my answer).

Jake Westfall

@JakeWestfall You are probably right - I knew I had written the stamps example before somewhere but forgotten where and it turns out to be the Wikipedia page for Berkson's paradox

Henry

4

The paragraph starts with "For any two correlated events, A and B,...", so my guess is that correlation is assumed at the beginning. In other words, they need not be correlated to simultaneously cause C, but if they were correlated and they did both cause C, it does not imply that there exists a causal relationship between them.

Roux
quelle

Beziehungen zwischen Korrelation und Kausalität

Antworten: