Korrelation in jeder Gruppe signifikant, aber insgesamt nicht signifikant?

9

Angenommen , wir die Pearson - Korrelation zwischen Variablen TEST und in den Gruppen und . Ist es möglich, dass die -Korrelation in und signifikant ist, aber nicht signifikant, wenn Daten aus beiden Gruppen kombiniert werden? Könnten Sie in diesem Fall bitte eine Erklärung dafür geben? $x$ $y$ $A$ $B$ $(x,y)$ $A$ $B$

correlation qed
quelle

21

Ja, es ist möglich und es kann auf alle möglichen Arten geschehen. Ein offensichtliches Beispiel ist, wenn die Zugehörigkeit von A und B auf eine Weise gewählt wird, die die Werte von x und y widerspiegelt. Andere Beispiele sind möglich, z. B. schlägt der Kommentar von @ Macro eine alternative Möglichkeit vor.

Betrachten Sie das folgende Beispiel, das in R geschrieben ist. X und y sind normale Standardvariablen, aber wenn ich sie auf der Grundlage der relativen Werte von x und y Gruppen zuordne, erhalte ich die von Ihnen benannte Siutation. Innerhalb der Gruppe A und der Gruppe B besteht eine starke statistisch signifikante Korrelation zwischen x und y. Wenn Sie jedoch die Gruppierungsstruktur ignorieren, besteht keine Korrelation.

Geben Sie hier die Bildbeschreibung ein

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)

Peter Ellis
quelle

+1. Dies ist ein sehr kluges Beispiel, das mir nicht in den Sinn gekommen war.

Makro

13

Eine Möglichkeit besteht darin, dass die Effekte in jeder Gruppe in unterschiedliche Richtungen gehen und beim Aggregieren aufgehoben werden . Dies hängt auch damit zusammen, wie die Haupteffekte irreführend sein können, wenn Sie einen wichtigen Interaktionsterm in einem Regressionsmodell weglassen.

Angenommen, in Gruppe ist die wahre Beziehung zwischen der Antwort und dem Prädiktor : $\rm A$ $y_i$ $x_i$

E (y_{i} | x_{i}, G r o u p A) = 1 + x_{i}

$E(y_i|x_i, {\rm Group \ A}) = 1 + x_i$

und in Gruppe , $\rm B$

E (y_{i} | x_{i}, G r o u p B) = 1 - x_{i}

$E(y_i|x_i, {\rm Group \ B}) = 1 - x_i$

Angenommen, die Gruppenmitgliedschaft ist so verteilt, dass . Wenn Sie dann über die Gruppenmitgliedschaft marginalisieren und durch berechnen Gesetz der totalen Erwartung, das Sie erhalten

P (G r o u p A) = 1 - P (G r o u p B) = p

$P({\rm Group \ A}) = 1-P( {\rm Group \ B}) = p$

E (y_{i} | x_{i})

$E(y_i|x_i)$

\begin{aligned} E (y_{i} | x_{i}) = E (E (y_{i} | x_{i}, G r o u p)) & = p (1 + x_{i}) + (1 - p) (1 - x_{i}) \\ = p + p x_{i} + 1 - x_{i} - p + p x_{i} \\ = 1 - x_{i} (2 p - 1) \end{aligned}

$\begin{align*} E(y_i | x_i) = E( E(y_i|x_i,{\rm Group}) ) &= p(1+ x_i) + (1-p)(1-x_i) \\ &= p + px_i + 1 - x_i - p + px_i \\ &= 1 - x_i(2p-1) \end{align*}$

Wenn daher , ist und hängt überhaupt nicht von ab. Es gibt also eine Beziehung innerhalb beider Gruppen, aber wenn Sie sie aggregieren, gibt es keine Beziehung. Mit anderen Worten, für eine zufällig ausgewählte Person in der Bevölkerung, deren Gruppenmitgliedschaft wir nicht kennen, besteht im Durchschnitt keine Beziehung zwischen und . Aber innerhalb jeder Gruppe gibt es. $p = 1/2$ $E(y_i | x_i) = 1$ $x_i$ $x_i$ $y_i$

Jedes Beispiel, bei dem der Wert von die Effektgrößen innerhalb jeder Gruppe perfekt ausgleicht, würde ebenfalls zu diesem Ergebnis führen - dies war nur dieses Spielzeugbeispiel, um die Berechnungen zu vereinfachen :) $p$

Hinweis: Bei normalen Fehlern entspricht die Signifikanz eines linearen Regressionskoeffizienten der Signifikanz der Pearson-Korrelation. In diesem Beispiel wird daher eine Erklärung für das, was Sie sehen, hervorgehoben.

Makro
quelle

Korrelation in jeder Gruppe signifikant, aber insgesamt nicht signifikant?

Antworten: