Warum impliziert Unabhängigkeit eine Nullkorrelation?

16

Zunächst frage ich nicht:

Warum bedeutet Nullkorrelation keine Unabhängigkeit?

Dies wird hier (ziemlich gut) angesprochen : /math/444408/why-does-zero-correlation-not-imply-independence

Was ich frage ist das Gegenteil ... sagen zwei Variablen sind völlig unabhängig voneinander.

Könnten sie nicht zufällig ein kleines bisschen Korrelation haben?

Sollte es nicht sein ... Unabhängigkeit impliziert SEHR KLEINE Korrelation?

Joshua Ronis
quelle
5
Sogar unabhängige Variablen weisen fast immer eine SAMPLE-Korrelation ungleich Null auf, obwohl sie wahrscheinlich immer noch nahe bei Null liegt.
Jsk
10
Wie @jsk hervorhob, verwechseln Sie möglicherweise die Probenkorrelation mit der erwarteten Korrelation
David,
1
@ David könntest du erklären? Ich bin immer noch ein Anfänger in der Statistik.
Joshua Ronis
3
@JoshuaRonis Beispielkorrelation ist die Korrelation, die Sie beim Arbeiten mit einer Reihe von Daten beobachten. Damit erhalten Sie eine Vorstellung von der "wahren" Korrelation zwischen zwei Variablen. Je größer die Stichprobe ist, desto besser ist die Schätzung. Beispielsweise ist die Korrelation zwischen den Ergebnissen von zwei Würfeln unabhängig und daher nicht korreliert, auch wenn Sie sie zehnmal zusammenwürfeln. Dies kann zu einer zufälligen Korrelation führen. Beachten Sie jedoch, dass weder eine positive noch eine negative Korrelation bevorzugt wird (dh Sie haben jeweils die gleiche Chance)
David
1
Keine Trickserei, sondern verwandte Diskussion: Bedeutet eine Nicht-Null-Korrelation Abhängigkeit?
SecretAgentMan

Antworten:

36

Durch die Definition des Korrelationskoeffizienten ist ihre Korrelation Null, wenn zwei Variablen unabhängig sind. Zufällig konnte es also zu keiner Korrelation kommen!

ρX,Y=E[XY]E[X]E[Y]E[X2][E[X]]2 E[Y2][E[Y]]2

Wenn und unabhängig sind, bedeutet . Daher ist der Zähler von in diesem Fall Null.XYE[XY]=E[X]E[Y]ρX,Y

Wenn Sie also die hier erwähnte Bedeutung der Korrelation nicht ändern, ist dies nicht möglich. Wenn nicht, klären Sie Ihre Definition anhand der Korrelation.

Oh mein Gott
quelle
2
Und doch haben wir Diagramme, die deutlich eine (inverse) Korrelation zwischen der Anzahl der Piraten und der globalen Durchschnittstemperatur zeigen. Wie aus anderen Kommentaren hervorgeht, muss man bei den Stichprobengrößen vorsichtig sein, ganz zu schweigen von "zufälligen Erscheinungen"
Carl Witthoft,
@OmG "Wenn Sie die Bedeutung der Korrelation nicht ändern, wie hier erwähnt" Wenn ich die OPs-Frage lese, habe ich eine ganz andere Bedeutung von "Korrelation". Für mich: "Könnten sie nicht aus Versehen ein kleines Stück Korrelation haben?" sehr stark impliziert "Korrelation messen", und wenn Sie Korrelation in der Realität messen, werden Sie sehr oft "ein kleines Stück Korrelation durch Zufall" finden.
Industrie7
1
@ industry7 Ich verstehe. Aber es sollte in einer formalen Methode definiert werden. Es ist qualitativ und wir können hier nicht darüber sprechen.
OmG
@CarlWitthoft Die Anzahl der Piraten und die globale Durchschnittstemperatur sind nicht unabhängig. Sie haben eine gemeinsame Ursache (dh Zeit, Entwicklung, Modernisierung usw.), die eine Abhängigkeit zwischen ihnen schafft. "Unabhängigkeit" bedeutet nicht "verursacht nicht"; es bedeutet "nicht assoziiert" und diese Diagramme zeigen eindeutig Assoziationen.
Noah,
@Noah Ich fürchte, ein WHOOSH ist passiert. venganza.org
Carl Witthoft
19

Kommentar zur Probenkorrelation . Bei einem Vergleich der zwei kleine unabhängige Proben der gleichen Größe, die Probe Korrelation oft deutlich von [Nichts ist hier im Widerspruch @ OmG Antwort- (+1) auf der Bevölkerung Korrelationr=0.ρ . ]ρ.]

Betrachten Sie Korrelationen zwischen einer Million Paare unabhängiger Stichproben der Größe aus der Exponentialverteilung mit Raten=51.

set.seed(616)
r = replicate( 10^6, cor(rexp(5), rexp(5))  )
mean(abs(r) > .5)
[1] 0.386212
mean(r)
[1] -0.0005904455

hist(r, prob=T, br=40, col="skyblue2")
  abline(v=c(-.5,.5), col="red", lwd=2)

Bildbeschreibung hier eingeben

Hier ist zum Beispiel das Streudiagramm des ersten der Millionen Paare von Proben der Größe für die 5,r=0.5716.

Bildbeschreibung hier eingeben

In dieser Hinsicht ist die Exponentialverteilung nichts Besonderes. Das Ändern der Elternverteilung auf Standardnormal ergab die folgenden Ergebnisse.

set.seed(2019)
...
mean(abs(r) > .5)
[1] 0.391061
mean(r)
[1] 1.43269e-05

Bildbeschreibung hier eingeben

Im Gegensatz dazu ist hier das entsprechende Histogramm der Korrelationen für Paare normaler Stichproben der Größen=20.

Bildbeschreibung hier eingeben

Hinweis: Auf anderen Seiten dieser Site wird die Verteilung von genauer erläutert. einer von ihnen ist die Q & A .r

BruceET
quelle
6
Bei kleinen Stichproben werden Sie wahrscheinlich Stichproben-Korrelationen finden, die sich "merklich" von Null unterscheiden, aber Sie werden keine Korrelationen mehr finden, die sich signifikant von Null unterscheiden. Obwohl Ihre Punktschätzung weit von Null entfernt ist, haben Sie viel zu wenig Daten, um sicher zu behaupten, dass Sie eine Korrelation ungleich Null sehen, die auf nichts anderes als den Zufall zurückzuführen ist. Mit nur 5 Paaren dürfen sich selbst Korrelationskoeffizienten von mehr als 0,8 nicht signifikant von 0 unterscheiden.
Nuclear Wang,
11

Einfache Antwort: Wenn zwei Variablen unabhängig sind, ist die Populationskorrelation Null, wohingegen die Stichprobenkorrelation normalerweise klein ist, aber nicht Null.

Das liegt daran, dass die Stichprobe keine perfekte Darstellung der Bevölkerung ist.

Je größer die Stichprobe ist, desto besser repräsentiert sie die Population. Je geringer die Korrelation, die Sie haben. Für eine unendliche Stichprobe wäre die Korrelation Null.

Dave
quelle
1
Die genaue Formulierung wäre, dass es für jedes und einige so dass, wenn die Stichprobengröße größer als , die Wahrscheinlichkeit, dass die Korrelation größer als ist, geringer als . ϵ n n ϵ ppϵnnϵp
Ansammlung
Ja, absolut richtig! Ich habe versucht, meine Antwort so einfach und konzeptuell wie möglich zu halten.
Dave
1

Vielleicht ist dies hilfreich für einige Leute, die das gleiche intuitive Verständnis teilen. Wir haben alle so etwas gesehen:

Bildbeschreibung hier eingeben

Diese Daten sind vermutlich unabhängig, weisen jedoch eine eindeutige Korrelation auf ( ). "Ich dachte, Unabhängigkeit impliziert keine Korrelation!" der Student sagt.r=0.66

Wie bereits erwähnt, sind die Stichprobenwerte korreliert, was jedoch nicht bedeutet, dass die Grundgesamtheit eine Korrelation ungleich Null aufweist.

Natürlich sollten diese beiden unabhängig sein - da Nicolas Cage in diesem Jahr in zehn Filmen mit Rekordauflage auftrat, sollten wir aus Sicherheitsgründen den örtlichen Pool für den Sommer nicht schließen.

Wenn wir jedoch nachsehen, wie viele Menschen in diesem Jahr ertrinken, ist die Wahrscheinlichkeit gering, dass in diesem Jahr 1000 Menschen in Rekordhöhe ertrinken.

Eine solche Korrelation ist unwahrscheinlich. Vielleicht einer von tausend. Aber es ist möglich, obwohl die beiden unabhängig sind. Dies ist jedoch nur ein Fall. Bedenken Sie, dass dort Millionen von möglichen Ereignissen zu messen sind und dass die Wahrscheinlichkeit, dass zwei Ereignisse eine hohe Korrelation ergeben, ziemlich hoch ist (daher gibt es Grafiken wie die oben genannten).

Eine andere Sichtweise ist, dass die Gewährleistung, dass zwei unabhängige Ereignisse immer unkorrelierte Werte ergeben, selbst einschränkend ist. Bei zwei unabhängigen Würfeln und den Ergebnissen des ersten gibt es für den zweiten Würfel eine bestimmte (beträchtliche) Menge von Ergebnissen, die eine Korrelation ungleich Null ergeben. Das Beschränken der Ergebnisse des zweiten Würfels auf eine Korrelation von Null mit dem ersten Würfel ist eine eindeutige Verletzung der Unabhängigkeit, da die Würfelwürfe des ersten Würfels nun die Verteilung der Ergebnisse beeinflussen.

Simon Alford
quelle