Können wir Korrelationen zwischen Gruppen vergleichen, indem wir Regressionssteigungen vergleichen?

10

In dieser Frage fragen sie, wie Pearson r für zwei unabhängige Gruppen (wie Männer gegen Frauen) verglichen werden kann. Antworten und Kommentare schlugen zwei Möglichkeiten vor:

  1. Verwenden Sie die bekannte Formel von Fisher unter Verwendung der "z-Transformation" von r;
  2. Verwenden Sie den Vergleich von Steigungen (Regressionskoeffizienten).

Letzteres könnte einfach über ein gesättigtes lineares Modell durchgeführt werden: , wobei und die korrelierten Variablen sind und eine Dummy-Variable (0 gegen 1) ist, die die beiden Gruppen angibt. Die Größe der (das Wechselwirkungsterm - Koeffizient) ist genau der Unterschied in der Koeffizient nach Modell einzeln in zwei Gruppen durchgeführt, und seine ( ‚s) Bedeutung ist , damit der Test des Unterschiedes in der Steigung zwischen den Gruppen.X Y G d b Y = a + b X dY=a+bX+cG+dXGXYGdbY=a+bXd

Nun Steigung oder Regressionskoef. ist noch kein Korrelationskoeffizient. Aber wenn wir standardisieren und - getrennt in zwei Gruppen - dann wird in Höhe der Differenz r in Gruppe 1 minus r in der Gruppe 0 und daher wird ihre Bedeutung , den Unterschied zwischen den beiden Korrelationen Prüfung werden: Wir testen Pisten aber es scheint [als ob -?] wir testen Korrelationen.Y dXYd

Ist das richtig geschrieben?

Wenn ja, bleibt die Frage offen, welche ein besserer Test für Korrelationen ist - diese beschriebene oder die von Fisher? Denn sie werden nicht identische Ergebnisse liefern. Was denkst du?

Später bearbeiten: Ich danke @Wolfgang für seine Antwort. Trotzdem habe ich das Gefühl, dass ich nicht verstehe, warum der Fisher-Test ein korrekterer Test für r ist als der oben beschriebene Ansatz des Vergleichs der Steigung unter Standardisierung. Weitere Antworten sind also willkommen. Vielen Dank.

ttnphns
quelle

Antworten:

10

Alles, was Sie geschrieben haben, ist korrekt. Sie können solche Dinge immer anhand eines Spielzeugbeispiels testen. Hier ist ein Beispiel mit R:

library(MASS)

rho <- .5  ### the true correlation in both groups

S1 <- matrix(c( 1,   rho,   rho, 1), nrow=2)
S2 <- matrix(c(16, 4*rho, 4*rho, 1), nrow=2)

cov2cor(S1)
cov2cor(S2)

xy1 <- mvrnorm(1000, mu=c(0,0), Sigma=S1)
xy2 <- mvrnorm(1000, mu=c(0,0), Sigma=S2)

x <- c(xy1[,1], xy2[,1])
y <- c(xy1[,2], xy2[,2])
group <- c(rep(0, 1000), rep(1, 1000))

summary(lm(y ~ x + group + x:group))

Was Sie feststellen werden, ist, dass die Interaktion von hoher Bedeutung ist, obwohl die wahre Korrelation in beiden Gruppen gleich ist. Warum passiert das? Denn die rohen Regressionskoeffizienten in den beiden Gruppen spiegeln nicht nur die Stärke der Korrelation wider, sondern auch die Skalierung von X (und Y) in den beiden Gruppen. Da sich diese Skalierungen unterscheiden, ist die Wechselwirkung signifikant. Dies ist ein wichtiger Punkt, da häufig angenommen wird, dass Sie zum Testen des Unterschieds in der Korrelation nur die Interaktion im obigen Modell testen müssen. Lass uns weitermachen:

summary(lm(xy2[,2] ~ xy2[,1]))$coef[2] - summary(lm(xy1[,2] ~ xy1[,1]))$coef[2]

Dies zeigt Ihnen, dass die Differenz der Regressionskoeffizienten für das Modell, das separat in die beiden Gruppen eingepasst wurde, genau den gleichen Wert wie der Interaktionsterm ergibt.

Was uns aber wirklich interessiert, ist der Unterschied in den Korrelationen:

cor(xy1)[1,2]
cor(xy2)[1,2]
cor(xy2)[1,2] - cor(xy1)[1,2]

Sie werden feststellen, dass dieser Unterschied im Wesentlichen Null ist. Lassen Sie uns X und Y innerhalb der beiden Gruppen standardisieren und das vollständige Modell neu anpassen:

x <- c(scale(xy1[,1]), scale(xy2[,1]))
y <- c(scale(xy1[,2]), scale(xy2[,2]))
summary(lm(y ~ x + x:group - 1))

Beachten Sie, dass ich hier weder den Achsenabschnitt noch den Gruppen-Haupteffekt einbeziehe, da sie per Definition Null sind. Sie werden feststellen, dass der Koeffizient für x gleich der Korrelation für Gruppe 1 ist und der Koeffizient für die Wechselwirkung gleich der Differenz in den Korrelationen für die beiden Gruppen ist.

Nun zu Ihrer Frage, ob es besser wäre, diesen Ansatz zu verwenden, als den Test zu verwenden, bei dem die R-zu-Z-Transformation von Fisher verwendet wird.

BEARBEITEN

Die Standardfehler der Regressionskoeffizienten, die berechnet werden, wenn Sie die X- und Y-Werte innerhalb der Gruppen standardisieren, berücksichtigen diese Standardisierung nicht. Daher sind sie nicht korrekt. Dementsprechend steuert der t-Test für die Wechselwirkung die Fehlerrate vom Typ I nicht angemessen. Ich habe eine Simulationsstudie durchgeführt, um dies zu untersuchen. Wenn , wird der Fehler vom Typ I gesteuert. Wenn jedoch , ist der Typ I-Fehler des t-Tests tendenziell zu konservativ (dh er wird für ein gegebenes nicht oft genug zurückgewiesenρ 1 = ρ 20 α ± 1ρ1=ρ2=0ρ1=ρ20αWert). Andererseits ist der Test, bei dem die Fisher-R-zu-Z-Transformation verwendet wird, unabhängig von der Größe der tatsächlichen Korrelationen in beiden Gruppen angemessen (außer wenn die Gruppengrößen sehr klein werden und die tatsächlichen Korrelationen in den beiden Gruppen Komme sehr nahe an .±1

Schlussfolgerung: Wenn Sie einen Unterschied in den Korrelationen testen möchten, verwenden Sie die R-zu-Z-Transformation von Fisher und testen Sie den Unterschied zwischen diesen Werten.

Wolfgang
quelle
Hat die Fisher-Transformation Vorteile gegenüber dem anderen Test?
Mark999
Es stellte sich heraus, dass ich etwas zu schnell war. Siehe meine Änderungen. Das sollte hoffentlich Ihre Frage beantworten.
Wolfgang
Also, @Wolfgang, Sie halten den Ansatz des Vergleichs der Steigung unter Standardisierung für einen gültigen Vergleich von r. Fischers berühmte Alternative ist eigentlich eine Annäherung daran. Habe ich dich richtig verstanden?
ttnphns
Siehe meine Änderungen. Ich war mit meinen ersten Schlussfolgerungen zu schnell.
Wolfgang
@ Wolfgang, später hinzugefügt EDIT Ihrer Antwort besagt, dass Fisher besser ist. Der Ansatz des Vergleichs der Steigung unter Standardisierung ist unzureichend, da "Standardfehler ... beim Standardisieren ... diese Standardisierung nicht berücksichtigen". Bitte erläutern Sie mir, wie sie die Standardisierung berücksichtigen sollten, damit der Ansatz des Vergleichs von Steigung unter Standardisierung genauso gültig wird wie der Fisher-Test.
ttnphns