Warum Nullkorrelation nicht unbedingt Unabhängigkeit impliziert

41

Wenn zwei Variablen eine Korrelation von 0 aufweisen, warum sind sie dann nicht unbedingt unabhängig? Sind nullkorrelierte Variablen unter bestimmten Umständen unabhängig? Wenn möglich, suche ich eine intuitive Erklärung, keine hochtechnische.

Sieger
quelle
10
Die Korrelation ist ein Maß für die lineare Abhängigkeit (Assoziation). Es ist möglich, dass zwei Zufallsvariablen nicht korreliert, aber nicht linear abhängig sind.
Mark L. Stone
Intuitive Erklärung -> math.stackexchange.com/questions/444408/…
Siddhesh
6
Eine Nullkorrelation impliziert Unabhängigkeit, wenn die Variablen multivariate Normalen sind. Dies ist nicht dasselbe, als
ob
1
Korrelation (nicht qualifiziert) kann Rangkorrelation usw. umfassen, für die die monotone Abhängigkeit das Problem ist, und so weiter.
Nick Cox
1
Als Ausblick empfehle ich Ihnen, Wikipedia "Fernkorrelation" als Maß für die Unabhängigkeit zu betrachten.
TTNPHNS

Antworten:

41

Die Korrelation misst die lineare Assoziation zwischen zwei gegebenen Variablen und ist nicht verpflichtet, eine andere Form der Assoziation zu erkennen.

Diese beiden Variablen können also auf verschiedene andere nichtlineare Arten verknüpft werden, und die Korrelation kann nicht von einem unabhängigen Fall unterschieden werden.

Als ein sehr didaktisches, künstliches und nicht realistisches Beispiel kann man so betrachten, dass für und . Beachten Sie, dass sie nicht nur verknüpft sind, sondern eine Funktion der anderen. Ihre Korrelation ist jedoch 0, da ihre Assoziation orthogonal zu der Assoziation ist, die die Korrelation erkennen kann.XP(X=x)=1/3x=1,0,1Y=X2

Marcelo Ventura
quelle
1
Ich suchte nach Beweisen dafür, dass zufällige Varianzen unkorreliert und doch abhängig sind, aber keine der direkten Antworten auf meine Frage enthüllte intuitive Fakten. Ihre Antwort gibt mir andererseits einen sehr guten Blickwinkel, um darüber nachzudenken, vielen Dank!
Stucash
1
@ Stucash mein Vergnügen! Es war ein altes Gegenbeispiel, das ich gelernt habe
Marcelo Ventura,
23

Es gibt einen allgemeinen Mangel an Genauigkeit bei der Verwendung des Wortes "Korrelation" aus dem einfachen Grund, dass es sehr unterschiedliche Annahmen und Bedeutungen haben kann. Die einfachste, lockerste und gebräuchlichste Verwendung besteht darin, dass zwischen einem statischen Paar von Zufallsvariablen eine vage Assoziation, Beziehung oder mangelnde Unabhängigkeit besteht.

Die hier angegebene Standardmetrik ist normalerweise die Pearson- Korrelation, bei der es sich um ein standardisiertes Maß für die paarweise lineare Assoziation zwischen zwei kontinuierlich verteilten Variablen handelt. Einer der häufigsten Missbräuche von Pearson ist die prozentuale Angabe. Es ist definitiv kein Prozentsatz. Die Pearson- Korrelation r liegt zwischen -1,0 und +1,0, wobei 0 keine lineare Assoziation bedeutet. Andere, nicht so weit verbreitete Probleme bei der Verwendung der Pearson- Korrelation als Standard sind, dass es sich tatsächlich um ein ziemlich stringentes, nicht robustes Maß für die Linearität handelt, das intervallskalierte Variationen als Eingabe erfordert (siehe Paul Embrechts 'hervorragendes Papier überKorrelation und Abhängigkeit im Risikomanagement: Eigenschaften und Fallstricke hier: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).

Embrechts stellt fest, dass es viele trügerische Annahmen über die Abhängigkeit gibt, die mit Annahmen über die zugrunde liegende Struktur und die geometrische Form dieser Beziehungen beginnen:

Diese Irrtümer ergeben sich aus einer naiven Annahme, dass Abhängigkeitseigenschaften der elliptischen Welt auch in der nicht-elliptischen Welt gelten

Embrechts weist auf Copulas als eine viel breitere Klasse von Abhängigkeitsmetriken hin, die im Finanz- und Risikomanagement verwendet werden und deren Pearson- Korrelation nur ein Typ ist.

Die Statistikabteilung in Kolumbien konzentrierte sich im akademischen Jahr 2013-2014 auf die Entwicklung eines tieferen Verständnisses von Abhängigkeitsstrukturen: z. B. linear, nichtlinear, monoton, rangmäßig, parametrisch, nichtparametrisch, potenziell hochkomplex und mit großen Unterschieden in der Skalierung. Das Jahr endete mit einem dreitägigen Workshop und einer Konferenz, an der die meisten Top-Autoren in diesem Bereich teilnahmen ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2 ).

Diese Mitwirkenden gehörten die Reschef Brüder, jetzt berühmt für ein 2011 Wissenschaft Papier Detecting Novel Verbände in großen Datensätzen http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf dass wurde vielfach kritisiert (siehe AndrewGelman.com für einen guten Überblick, der gleichzeitig mit der Columbia-Veranstaltung veröffentlicht wurde: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ). Die Reshefs haben all diese Kritikpunkte in ihrer Präsentation (verfügbar auf der Columbia-Konferenz-Website) sowie in einem weitaus effizienteren MIC-Algorithmus angesprochen.

Viele andere führende Statistiker stellten sich auf dieser Veranstaltung vor, darunter Gabor Szekely, der jetzt bei der NSF in DC ist. Szekely entwickelte seine Entfernungs- und Teilentfernungskorrelationen . Deep Mukhopadhay, Temple U, präsentiert seinen Unified Statistical Algorithm - ein Framework für Unified Algorithms of Data Science - basierend auf der Arbeit von Eugene Franzen http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . Und viele andere. Eines der interessantesten Themen war für mich die breite Hebelwirkung und Nutzung des Reproducing Kernel Hilbert Space (RKHS) und des Chi-Quadrats. Wenn es bei dieser Konferenz einen modalen Ansatz für Abhängigkeitsstrukturen gab, dann war es das RKHS.

Die typischen Lehrbücher für Introstatistik sind in ihrer Behandlung der Abhängigkeit oberflächlich und stützen sich in der Regel auf Präsentationen derselben Reihe von Visualisierungen kreisförmiger oder parabolischer Beziehungen. Weitergehende Texte werden in Anscombes Quartett vorgestellt , einer Visualisierung von vier verschiedenen Datensätzen mit ähnlichen, einfachen statistischen Eigenschaften, aber sehr unterschiedlichen Beziehungen: https://en.wikipedia.org/wiki/Anscombe%27s_quartet

Das Tolle an diesem Workshop war, dass eine Vielzahl von Abhängigkeitsstrukturen und -beziehungen visualisiert und präsentiert wurden, die weit über die übliche oberflächliche Behandlung hinausgingen. Zum Beispiel hatten die Reshefs Dutzende von Miniaturbildern, die nur eine Auswahl möglicher Nichtlinearitäten darstellten. Deep Mukhopadhay hatte atemberaubende Bilder von hochkomplexen Beziehungen, die eher wie eine Satellitenansicht des Himalaya aussahen. Statistik- und Data Science-Lehrbuchautoren müssen dies zur Kenntnis nehmen.

Als ich aus der Columbia-Konferenz mit der Entwicklung und Visualisierung dieser hochkomplexen, paarweisen Abhängigkeitsstrukturen herauskam, stellte ich die Fähigkeit multivariater statistischer Modelle in Frage, diese Nichtlinearitäten und Komplexitäten zu erfassen.

Mike Hunter
quelle
2
Ich bin gerade auf diese ausgezeichnete und umfassende Diskussion über Assoziationsmaßnahmen bei Quora gestoßen
Mike Hunter
6

Es hängt von Ihrer genauen Definition von "Korrelation" ab, aber es ist nicht zu schwierig, entartete Fälle zu konstruieren. "Unabhängig" könnte so etwas wie "überhaupt keine Vorhersagekraft" bedeuten, genauso wie "lineare Korrelation".

Lineare Korrelation, würde beispielsweise nicht an , die Abhängigkeit von , wenn die Domäne von war .y=sin(2000x)x[0,1)

Andrew Charneski
quelle
3

Grundsätzlich bedeutet die Abhängigkeit von Y von X, dass die Verteilung der Werte von Y in irgendeiner Weise vom Wert von X abhängt. Diese Abhängigkeit kann vom Mittelwert von Y (der in den meisten Antworten übliche Fall) oder einem beliebigen anderen Merkmal von Y abhängen Y.

Zum Beispiel sei X 0 oder 1. Wenn X = 0, dann sei Y 0, wenn X = 1, sei Y -1, 0 oder 1 (gleiche Wahrscheinlichkeit). X und Y sind nicht korreliert. Im Mittel hängt Y nicht von X ab, da der Mittelwert von Y 0 ist, egal welcher Wert X ist. Die Verteilung der Werte von Y hängt jedoch eindeutig vom X-Wert ab. In diesem Fall ist beispielsweise die Varianz von Y 0, wenn X = 0 und> 0, wenn X = 1, so dass zumindest eine Abhängigkeit von der Varianz besteht, dh es besteht eine Abhängigkeit.

Die lineare Korrelation zeigt also nur eine Art Abhängigkeit vom Mittelwert (lineare Abhängigkeit), die wiederum nur ein Sonderfall der Abhängigkeit ist.

Karpablanca
quelle