Was ist die Korrelation, wenn die Standardabweichung einer Variablen 0 ist?

15

Soweit ich weiß, können wir eine Korrelation erhalten, indem wir die Kovarianz mithilfe der Gleichung normalisieren

ρich,j=cÖv(Xich,Xj)σichσj

Dabei ist die Standardabweichung von . Xiσich=E[(Xich-μich)2]Xich

Meine Sorge ist, was ist, wenn die Standardabweichung gleich Null ist? Gibt es eine Bedingung, die garantiert, dass sie nicht Null sein kann?

Vielen Dank.

chepukha
quelle
11
Keine Variable mit der Standardabweichung 0 könnte möglicherweise mit einer anderen (nicht konstanten) Variablen korreliert werden. Die Korrelation ist ein Maß dafür, wie große / kleine Werte in einer Variablen großen / kleinen Werten in einer anderen Variablen entsprechen. Wenn eine der Variablen einer Konstanten mit der Wahrscheinlichkeit 1 entspricht (eine Folge der Standardabweichung 0), kann dies Geben Sie möglicherweise Informationen darüber an, ob die andere Variable klein oder groß ist. Ich weiß nicht, was die Konvention ist, aber es scheint, als sollte die Korrelation in diesem Fall als 0 definiert werden.
Makro
Vielen Dank, Macro. Ich denke, Ihre Idee ist die gleiche wie die Antwort unten. Ich konnte Ihren Kommentar jedoch aufgrund von Punktebeschränkungen nicht abstimmen. Vielen Dank.
Chepukha
4
Sie haben bereits eine Antwort akzeptiert, und deshalb werde ich nur einen Kommentar schreiben. Wenn eine Zufallsvariable die Standardabweichung , dann ist für jede andere Zufallsvariable (seit mit Wahrscheinlichkeit ). Somit ergibt die Definition des Korrelationskoeffizienten die unbestimmte Form . Es ist üblich , in diesem Fall gleich zu definieren , und dies kann aufgrund des Grenzwerts von als verteidigt werdenσ Y = 0 cov ( X , Y ) = E [ ( X - μ X ) ( Y - μ Y ) ] = 0 X ( Y - μ Y ) = 0 1 ρ X , Y = cov ( X , Y )Y.σY.=0
cov(X,Y.)=E[(X-μX)(Y.-μY.)]=0
X(Y.-μY.)=01 0ρX,Y.=cov(X,Y.)σXσY.00 ρX,Y.0ρX,Y.σY.0 usw.
Dilip Sarwate
6
@ Dilip, wenn es eine Antwort ist, sollte es als Antwort gehen. Es sollte egal sein, ob eine Antwort bereits akzeptiert wird.
Andy W
1
@Dilip Das Problem bei der -Form ist, dass der Wert davon abhängt, wie Sie den Grenzwert einhalten , auch wenn er durch eine Begrenzungsoperation auf einen bestimmten Wert festgelegt werden kann . Daher ist das Argument, dass ist, unvollständig (und nicht überzeugend). Können Sie eine Quelle angeben, die diese Konvention annimmt und sie mit einem triftigen Grund unterstützt? ρX,Y=000ρX,Y.=0
whuber

Antworten:

14

Es ist wahr, dass diese Gleichung undefiniert ist, wenn eine Ihrer SDs 0 ist. Eine bessere Möglichkeit, darüber nachzudenken, ist jedoch, dass es keine Korrelation gibt, wenn eine Ihrer SDs 0 ist. In losen begrifflichen Begriffen sagt Ihnen eine Korrelation, wie sich eine Variable bewegt, während sich die andere Variable bewegt. Eine SD von 0 impliziert, dass sich die Variable nicht bewegt. Sie müssten einen Vektor einer Konstanten haben, wie z rep(constant, n_times).

gung - Wiedereinsetzung von Monica
quelle
Danke vielmals. Ich denke das macht Sinn. Es ist interessant, dass ich noch kein Lehrbuch gesehen habe, das diesen Fall erwähnt.
Chepukha
@gung So ist dies eine Einschränkung in der Definition von Korrelationskoeffizienten, meine ich die Korrelationsgleichung zwei Werte haben kann, ist eines , wie oben in Gleichung gegeben ist und 0 , wenn der SD eine der Variablen 0 ist
Prashanth
@ Prashanth, nehme ich an.
gung - Wiedereinsetzung von Monica
2

Das andere, woran man denken muss, sind die zugrunde liegenden Annahmen, wenn wir über Mittelwerte und Standardabweichungen sowie Korrelationen sprechen.

Wenn es sich um eine Datenstichprobe handelt, wird häufig davon ausgegangen, dass die Daten (zumindest näherungsweise) normalverteilt sind oder so transformiert werden können (z. B. über eine Protokolltransformation). Wenn Sie eine Standardabweichung von Null beobachten, gibt es zwei Szenarien: Entweder ist die Standardabweichung tatsächlich ungleich Null, aber sehr klein, und daher enthält der Datensatz Stichproben, die alle auf dem Mittelwert liegen (dies könnte beispielsweise vorkommen) wenn Sie Daten mit einer groben Genauigkeit messen); oder das Modell ist falsch angegeben.

In diesem zweiten Szenario ist die Standardabweichung und folglich die Korrelation ein bedeutungsloses Maß.

Im Allgemeinen müssen die zugrunde liegenden Verteilungen beide endliche zweite Momente und daher Standardabweichungen ungleich Null aufweisen, damit die Korrelation ein gültiges Konzept ist.

tdc
quelle
Es kann erwähnenswert sein, dass es sich bei der ursprünglichen Frage um (theoretische) Verteilungen handelt, nicht um Daten.
whuber
Wenn dies der Fall ist, würde eine Standardabweichung von Null eine entartete Verteilung mit einem Maß nur für den Mittelwert (dh die konstante Funktion) bedeuten. Auch hier macht die Standardabweichung nur Sinn, wenn die zugrunde liegende Verteilung normal ist. Wenn die Standardabweichung Null ist, ist das PDF des Gaußschen nicht richtig definiert und daher im Modell nicht zulässig.
tdc
Ich bin überrascht, wie Gauß in Ihrem Kommentar auftaucht, Tom. Dies scheint eine unnötige Einschränkung zu sein. Das Vorhandensein eines PDFs zu fordern, scheint ebenfalls einschränkend zu sein (schließlich hat keine diskrete Verteilung ein PDF). Beachten Sie auch, dass die SD immer dann gut definiert ist - "sinnvoll" -, wenn der zweite Moment endlich ist, und dies schließt Wahrscheinlichkeitsatome ein (Ihre "Dirac-Delta" -Funktionen).
whuber
Ok, ich stimme zu, dass es wahrscheinlich zu restriktiv war, aber im Allgemeinen ist dies das, was die Leute mit SD meinen. zB von Wolfram: "Die Standardabweichung kann für jede Verteilung mit endlichen ersten beiden Momenten definiert werden, aber es ist am häufigsten anzunehmen, dass die zugrunde liegende Verteilung normal ist." Gehen Sie jedoch davon aus, dass bei SD = 0 für eine der Variablen die Grundannahmen, die dem statistischen Korrelationskonzept zugrunde liegen, nicht erfüllt sind?
tdc
Ja, Tom, deine letzte Aussage ist genau richtig und ich akzeptiere sie gerne. Der darin zum Ausdruck gebrachte Gedanke kommt in Ihrer Antwort jedoch nicht sehr gut zur Geltung. Wenn es da ist, ist es in den Anmerkungen zu normalen Verteilungen, Protokollen, Delta-Funktionen und dem Fokus auf Daten und nicht auf den Verteilungen selbst vergraben. Übrigens sollte man vorsichtig sein, wenn statistische Aussagen auf der Wolfram-Site erscheinen: Sie ist so stark auf Mathematik ausgerichtet, dass ihre Charakterisierung der statistischen Praxis fragwürdig sein kann. Hier ist es absolut falsch: Die Verwendung von SD geht weit über die Normalverteilungseinstellungen hinaus.
whuber
2

Eine Korrelation ist der Kosinus des Winkels zwischen zwei Vektoren. Zu sagen, dass die Standardabweichung für Y Null ist, ist dasselbe wie zu sagen, dass der Vektor Y-Mittelwert (Y) Null ist (oder genauer gesagt, dass er im entsprechenden Vektorraum Null darstellt). Die Frage lautet also "Was kann man über den (Kosinus des) Winkels zwischen dem Nullvektor und dem Vektor X-Mittelwert (X) sagen?". Was ist allgemeiner in jedem Vektorraum mit einem inneren Produkt mit dem Winkel zwischen dem Nullvektor und einem anderen Vektor gemeint? Meiner Meinung nach gibt es nur eine Antwort darauf, nämlich dass das Konzept des "Winkels" in dieser Situation bedeutungslos ist und daher das Konzept der Korrelation in dieser Situation bedeutungslos ist.

David Epstein
quelle
0

Ausschlussklausel, mir ist klar, dass es bereits eine akzeptierte Qualitätsantwort gibt, daher sollte dies eine Antwort sein, aber ich habe nicht die Erfahrungspunkte, um dies zuzulassen. @ Dilip erwähnte, dass Sie die Korrelation als 0 für die Konvention definieren können, aber dies scheint problematisch zu sein, da es eine ganz andere Interpretation als eine Korrelation gibt, die wirklich Null ist (mit SDs ungleich Null). Die ursprüngliche Frage lautet "Wenn die SD einer Variablen Null ist". Wenn wir nur an die Definition von 'Variable' denken, erhalten wir einen viel direkteren Weg zur Antwort. Eine Variable mit 0 SD ist überhaupt keine Variable, sondern eine Konstante. In diesem Fall haben Sie also keine zwei Variablen. Daher ist es konzeptionell nicht sinnvoll, überhaupt eine Korrelation zu definieren.

Skye Buckner-Petty
quelle
Wenn Sie nicht genug Punkte haben, um zu kommentieren, sollten Sie nicht durch Antworten kommentieren.
Michael R. Chernick