Wie kann die Summe zweier Variablen mehr Varianz erklären als die einzelnen Variablen?

13

Ich erhalte einige verwirrende Ergebnisse für die Korrelation einer Summe mit einer dritten Variablen, wenn die beiden Prädiktoren negativ korreliert sind. Was verursacht diese verwirrenden Ergebnisse?

Beispiel 1: Korrelation zwischen der Summe zweier Variablen und einer dritten Variablen

Betrachten Sie die Formel 16.23 auf Seite 427 von Guildfords Text von 1965 (siehe unten).

Verwirrender Befund: Korrelieren beide Variablen .2 mit der dritten Variablen und -.7 miteinander, ergibt die Formel einen Wert von .52. Wie kann die Korrelation der Summe mit der dritten Variablen .52 sein, wenn die beiden Variablen jeweils nur .2 mit der dritten Variablen korrelieren?

Beispiel 2: Was ist die Mehrfachkorrelation zwischen zwei Variablen und einer dritten Variablen?

Betrachten Sie die Formel 16.1 auf Seite 404 von Guildfords Text von 1965 (siehe unten).

Verwirrender Befund: Gleiche Situation. Korrelieren beide Variablen .2 mit der dritten Variablen und -.7 miteinander, ergibt die Formel einen Wert von .52. Wie kann die Korrelation der Summe mit der dritten Variablen .52 sein, wenn die beiden Variablen jeweils nur .2 mit der dritten Variablen korrelieren?

Ich habe eine kleine Monte-Carlo-Simulation ausprobiert, die die Ergebnisse der Guilford-Formeln bestätigt.

Aber wenn die beiden Prädiktoren jeweils 4% der Varianz der dritten Variablen vorhersagen, wie kann eine Summe von ihnen 1/4 der Varianz vorhersagen?

Korrelation der Summe zweier Variablen mit einer dritten Variablen Mehrfachkorrelation zweier Variablen mit einer dritten Variablen

Quelle: Fundamental Statistics in Psychology and Education, 4. Auflage, 1965.

KLÄRUNG

Die Situation, mit der ich es zu tun habe, beinhaltet die Vorhersage der zukünftigen Leistung einzelner Personen auf der Grundlage der Messung ihrer aktuellen Fähigkeiten.

Die beiden folgenden Venn-Diagramme zeigen mein Verständnis der Situation und sollen meine Verwirrung klären.

Dieses Venn-Diagramm (Abb. 1) spiegelt die nullte Ordnung r = .2 zwischen x1 und C wider. In meinem Bereich gibt es viele solcher Prädiktorvariablen, die ein Kriterium nur mäßig vorhersagen.

1

Dieses Venn-Diagramm (Fig. 2) spiegelt zwei solcher Prädiktoren x1 und x2 wider, die jeweils C bei r = 0,2 und die beiden negativ korrelierten Prädiktoren r = - 7 vorhersagen.

2

Ich kann mir keine Beziehung zwischen den beiden r = .2-Prädiktoren vorstellen, bei der sie zusammen 25% der Varianz von C vorhersagen würden.

Ich suche Hilfe beim Verständnis der Beziehung zwischen x1, x2 und C.

Wenn (wie von einigen als Antwort auf meine Frage vorgeschlagen) x2 als Unterdrückungsvariable für x1 fungiert, welcher Bereich im zweiten Venn-Diagramm wird unterdrückt?

Wenn ein konkretes Beispiel hilfreich wäre, können wir davon ausgehen, dass x1 und x2 zwei menschliche Fähigkeiten und C 4 Jahre später ein College-GPA von 4 Jahren sind.

Ich kann mir nur schwer vorstellen, wie eine Suppressorvariable dazu führen könnte, dass sich die 8% -erklärte Varianz der beiden r = .2-Werte nullter Ordnung vergrößert und 25% der Varianz von C erklärt. Ein konkretes Beispiel wäre eine sehr hilfreiche Antwort.

Joel W.
quelle
Es gibt eine alte Faustregel in der Statistik, dass die Varianz der Summe einer Menge unabhängiger Variablen gleich der Summe ihrer Varianzen ist.
Mike Hunter
@ DJohnson. Wie bezieht sich Ihr Kommentar auf die gestellte Frage?
Joel W.
Entschuldigung, ich verstehe die Frage nicht. Für mich ist es offensichtlich, wie es sich verhält. Außerdem ist es ein Kommentar, der weder für das Kopfgeld in Frage kommt, noch einer tieferen Ausarbeitung bedarf.
Mike Hunter
1
@ DJohnson. Wie bezieht sich Ihr Kommentar auf die gestellte Frage? Für mich ist es NICHT offensichtlich, wie es sich verhält.
Joel W.
2
Ihre Frage zur Bedeutung von N-Views wird möglicherweise auf der Meta-CV-Site besser beantwortet.
mdewey

Antworten:

3

Dies kann passieren, wenn die beiden Prädiktoren einen großen Störfaktor enthalten, jedoch mit entgegengesetztem Vorzeichen. Wenn Sie sie also addieren, wird die Störung aufgehoben und Sie nähern sich der dritten Variablen.

Lassen Sie uns mit einem noch extremeren Beispiel veranschaulichen. Angenommen, sind unabhängige normale Standard-Zufallsvariablen. Nun lassX,Y.N(0,1)

EIN=X

B=-X+0,00001Y.

Nehmen wir an , ist Ihre dritte Variable, A , B sind Ihre beiden Prädiktoren und X ist eine latente Variable, von der Sie nichts wissen. Die Korrelation von A mit Y ist 0, und die Korrelation von B mit Y ist sehr gering und liegt nahe bei 0,00001. * Die Korrelation von A + B mit Y ist jedoch 1.Y.A,BXA+BY

* Es gibt eine winzige Korrektur für die Standardabweichung von B, die etwas mehr als 1 beträgt.

Paul
quelle
Tritt eine solche Situation jemals in den Sozialwissenschaften auf?
Joel W.
1
In der sozialwissenschaftlichen Fachsprache ist dies im Grunde genommen nur ein starker Effekt, der einen schwachen Effekt in besonderer Weise verwechselt. Ich bin kein sozialwissenschaftlicher Experte, aber ich kann mir nicht vorstellen, dass es schwierig ist, ein Beispiel dafür zu finden.
Paul
Haben Sie Beispiele aus anderen Bereichen als den Naturwissenschaften?
Joel W.
Kann die von Ihnen beschriebene Beziehung in einem Venn-Diagramm dargestellt werden?
Joel W.
Ich persönlich würde ein hilfreiches Venn-Diagramm hier nicht finden, aber wenn Sie müssen, würde ich B als Rechteck zeichnen und es dann in zwei Teilrechtecke aufteilen, ein dickes A und ein winziges dünnes Y. Summieren von A und B ist Annullieren des großen Teils A und Verlassen des kleinen Teils Y.
Paul
10

Es kann hilfreich sein, sich die drei Variablen als Linearkombinationen anderer nicht korrelierter Variablen vorzustellen. Um unsere Einsicht zu verbessern, können wir sie geometrisch darstellen, mit ihnen algebraisch arbeiten und statistische Beschreibungen nach Belieben bereitstellen.

Man betrachte dann drei nicht korrelierte Variablen , Y und Z mit dem Mittelwert Null und der Varianzeinheit . Aus diesen konstruieren Sie folgendes:XYZ

U=X,V=(7X+51Y)/10;W=(3X+17Y+55Z)/75.

Geometrische Erklärung

Die folgende Grafik ist ungefähr alles, was Sie benötigen, um die Beziehungen zwischen diesen Variablen zu verstehen.

Zahl

Dieses Pseudo-3D-Diagramm zeigt , V , W und U + V im X- , Y- und Z- Koordinatensystem. Die Winkel zwischen den Vektoren spiegeln ihre Korrelationen wider (die Korrelationskoeffizienten sind die Cosinus der Winkel). Die große negative Korrelation zwischen U und V spiegelt sich im stumpfen Winkel zwischen ihnen wider. Die kleinen positiven Korrelationen von U und V mit W spiegeln sich in ihrer nahezu senkrechten Ausrichtung wider. Die Summe von U und V liegt jedoch direkt unter WUVWU+VX,Y,ZUVUVWUVWeinen spitzen Winkel (um 45 Grad) bilden: Es gibt die unerwartet hohe positive Korrelation.


Algebraische Berechnungen

Für diejenigen, die mehr Genauigkeit wünschen, ist hier die Algebra, um die Geometrie in der Grafik zu sichern.

Alle diese Quadratwurzeln sind vorhanden, damit , V und W auch Einheitsvarianzen aufweisen. Dies erleichtert die Berechnung ihrer Korrelationen, da die Korrelationen den Kovarianzen entsprechen. DeshalbUVW

Cor(U,V)=Cov(U,V)=E(UV)=E(51XY7X2)/10=7/10=0.7

weil und Y nicht korreliert sind. Ähnlich,XY

Cor(U,W)=3/75=1/5=0.2

und

Cor(V,W)=(73+1517)/(1075)=1/5=0.2.

Schließlich,

Cor(U+V,W)=Cov(U+V,W)Var(U+V)Var(W)=1/5+1/5Var(U)+Var(V)+2Cov(U,V)=2/51+12(7/10)=2/53/50.5164.

Folglich haben diese drei Variablen die gewünschten Korrelationen.


Statistische Erklärung

Jetzt können wir sehen, warum alles so funktioniert:

  • und V haben eine starke negative Korrelation von - 7 / 10 , weil V an die negative des proportionalen U plus ein wenig „Rauschen“ in Form eines kleinen Vielfachen von Y .UV7/10VUY

  • und W haben schwache positive Korrelation von 1 / 5 , da W ein kleines Vielfaches der umfasst U sowie eine Menge Lärm in Form von Vielfachen von Y und Z .UW1/5WUYZ

  • und W haben schwache positive Korrelation von 1 / 5 , da W (wenn multipliziert mitVW1/5W , das keine Korrelationen ändert) ist die Summe von drei Dingen:75

    • , was positiv mitVkorreliert;17YV
    • , dessennegativeKorrelation mitVdie Gesamtkorrelation verringert;3XV
    • und ein Vielfaches von das viel Rauschen einführt.Z
  • Trotzdem ist ist eher positiv korreliert mitW,weil es ein Vielfaches desjenigen Teils vonW ist,derZnicht enthält.U+V=(3X+51Y)/10=3/100(3X+17Y)WWZ

whuber
quelle
Gibt es eine Möglichkeit, dies in einem Venn-Diagramm anzuzeigen? Trotz der Mathematik sehe ich immer noch nicht die Logik der Summe zweier Variablen, die 25 +% der Varianz einer dritten Variablen erklärt, wenn jede der beiden Variablen, die in die Summe eingehen, 4% der Varianz dieser dritten Variablen vorhersagt . Wie kann aus 8% erklärter Varianz 25% erklärter Varianz werden, wenn nur die beiden Variablen addiert werden?
Joel W.
Gibt es auch praktische Anwendungen dieses seltsamen Phänomens?
Joel W.
Wenn ein Venn-Diagramm für die Darstellung der erklärten Varianz ungeeignet ist, können Sie mir sagen, warum es ungeeignet ist?
Joel W.
@JoelW. Die nette Antwort hier berührt, warum Venn-Diagramme nicht in der Lage sind,
Jake Westfall
Joel, die Cohens verwendeten ein Venn-ähnliches Diagramm, das sie "Ballantine" nannten, um Varianzen zu analysieren. Siehe zum Beispiel ww2.amstat.org/publications/jse/v10n1/kennedy.html . Was die praktischen Anwendungen angeht, sollte man sich die gegenteilige Frage stellen: Welche Anwendungen von Varianz und Varianzzerlegung sind nicht praktikabel?
Whuber
5

Ein weiteres einfaches Beispiel:

  • Sei zN(0,1)
  • Sei x1N(0,1)
  • Sei (daher z = x 1 + x 2 )x2=zx1z=x1+x2

Dann:

  • Corr(z,x1)=0
  • Corr(z,x2).7
  • Corr(z,x1+x2)=1

Geometrisch ist das, was los ist, wie in Whubers Grafik. Konzeptionell könnte es ungefähr so ​​aussehen: enter image description here

E[XY]

x1zθ

  • Corr(z,x1)=cosθzx1=0θz,x1=π2
  • Corr(z,x2)=cosθzx2.7θz,x2=π4
  • Corr(z,x1+x2)=cosθz,x1+x2=1θz,x1+x2=0

zx1x2zx1x1x2x1x2

Matthew Gunn
quelle
(+1) Schönes Beispiel!
user795305
Bitte erläutern Sie die Prämissen Ihrer Antwort. Wenn Sie z = x1 + x2 gesetzt haben, warum sagen Sie dann Corr (z, x1) = 0? Wollen Sie damit sagen, dass Corr (z, x1) = 0 aus Ihrer ersten Let-Anweisung folgt, oder ist die Korrelation von Null eine zusätzliche Annahme? Wenn es sich um eine zusätzliche Annahme handelt, warum erfordert die Situation in der ursprünglichen Frage diese zusätzliche Annahme?
Joel W.
@JoelW. I'm saying z is a random variable following the standard normal distribution and x1 is an independent random variable that also follows the standard normal distribution. z und x1 sind unabhängig, daher ist ihre Korrelation genau 0. Dann berechnen z-x1 und nenne das x2.
Matthew Gunn
@MatthewGunn. Ihre dritte Let sagt z = x1 + x2. Das scheint Ihre ersten beiden Lets zu verletzen, die besagen, dass z und x1 unabhängig sind.
Joel W.
1
@JoelW. I do not agree because that statement is not true. Seeing z=x1+x2 implies nothing about independence between z and x1.
Matthew Gunn
3

Addressing your comment:

Despite the math, I still do not see the logic of the sum of two variables explaining 25+% of the variance of a third variable when each off the two variables that go into the sum predict but 4% of the variance of that third variable. How can 8% explained variance become 25% explained variance just by adding the two variables?

The issue here seems to be the terminology "variance explained". Like a lot of terms in statistics, this has been chosen to make it sound like it means more than it really does.

Here's a simple numerical example. Suppose some variable Y has the values

y=(6,7,4,8,9,6,6,3,5,10)

and U is a small multiple of Y plus some error R. Let's say the values of R are much larger than the values of Y.

r=(20,80,100,90,50,70,40,30,40,60)

and U=R+0.1Y, so that

u=(19.4,79.3,100.4,90.8,50.9,70.6,40.6,30.3,40.5,61.0)

and suppose another variable V=R+0.1Y so that

v=(20.6,80.7,99.6,89.2,49.1,69.4,39.4,29.7,39.5,59.0)

Then both U and V have very small correlation with Y, but if you add them together then the r's cancel and you get exactly 0.2Y, which is perfectly correlated with Y.

In terms of variance explained, this makes perfect sense. Y explains a very small proportion of the variance in U because most of the variance in U is due to R. Similarly, most of the variance in V is due to R. But Y explains all of the variance in U+V. Here is a plot of each variable:

Plot of each of the variables

However, when you try to use the term "variance explained" in the other direction, it becomes confusing. This is because saying that something "explains" something else is a one-way relationship (with a strong hint of causation). In everyday language, A can explain B without B explaining A. Textbook authors seem to have borrowed the term "explain" to talk about correlation, in the hope that people won't realise that sharing a variance component isn't really the same as "explaining".

Flounderer
quelle
@naught101 has created some figures to illustrate your variables, Flounderer. You might want to see if including them appeals to you.
gung - Reinstate Monica
Sure, edit it however you like. I can't actually view imgur at work but I'm sure it will be fine!
Flounderer
I rejected the suggestion, b/c I didn't see that he had contacted you here. You can approve it by going to the suggested edit queue, though.
gung - Reinstate Monica
The example you provide is interesting, if carefully crafted, but the situation I presented is more general (with the numbers not carefully chosen) and based on 2 variables N(0,1). Even if we change the terminology from "explains" to "shared", the question remains. How can 2 random variables, each with 4% shared variance with a third variable, be combined in terms of a simple sum that, according to the formula, has 25% shared variance with a third variable? Also, if the goal is prediction, are there any real-world practical applications of this strange increase in shared variance?
Joel W.
Well, anywhere in electronics when you have (loud noise + weak signal) + (-loud noise) = weak signal, you would be applying this. For example, noise-cancelling headphones.
Flounderer