Bedeutung des durchschnittlichen Korrelationskoeffizienten

11

Haftungsausschluss: Wenn Sie feststellen, dass diese Frage einer anderen zu ähnlich ist, freue ich mich, dass sie zusammengeführt wird. Ich habe jedoch nirgendwo anders eine zufriedenstellende Antwort gefunden (und habe noch nicht den "Ruf", Kommentare abzugeben oder zu stimmen), daher dachte ich, es wäre am besten, selbst eine neue Frage zu stellen.

Meine Frage ist dies. Für jedes der 12 menschlichen Probanden habe ich einen Korrelationskoeffizienten (Spearman-Rho) zwischen 6 Ebenen einer unabhängigen Variablen X und entsprechenden Beobachtungen einer abhängigen Variablen Y berechnet. (Hinweis: Die Ebenen von X sind nicht für alle Probanden gleich.) My Die Nullhypothese lautet, dass diese Korrelation in der Allgemeinbevölkerung gleich Null ist. Ich habe diese Hypothese auf zwei Arten getestet:

  1. Verwendung eines t-Tests mit einer Stichprobe zu den Korrelationskoeffizienten meiner 12 Probanden.

  2. Indem ich meine X-Ebenen und Beobachtungen von Y so zentriere, dass für jeden Teilnehmer Mittelwert (X) = 0 und Mittelwert (Y) = 0 ist, und dann eine Korrelation über die aggregierten Daten berechnet (72 Ebenen von X und 72 Beobachtungen von Y) .

Nachdem ich über das Arbeiten mit Korrelationskoeffizienten (hier und anderswo) gelesen habe, habe ich angefangen zu bezweifeln, ob der erste Ansatz gültig ist. Insbesondere habe ich die folgende Gleichung an mehreren Stellen gesehen, die (anscheinend) als t-Test für durchschnittliche Korelationskoeffizienten dargestellt wurden:

t=rSEr=n21r2

Dabei wäre der durchschnittliche Korrelationskoeffizient (und nehmen wir an, wir haben diesen zuerst mit der Fisher-Transformation für die Pro-Subjekt-Koeffizienten erhalten) und die Anzahl der Beobachtungen. Intuitiv erscheint mir dies falsch, da es kein Maß für die Variabilität zwischen Subjekten enthält. Mit anderen Worten, wenn ich 3 Korrelationskoeffizienten hätte, würde ich die gleiche t-Statistik erhalten, unabhängig davon, ob sie [0,1, 0,5, 0,9] oder [0,45, 0,5, 0,55] oder ein beliebiger Wertebereich mit demselben Mittelwert (und ) sind.n n = 3rnn=3

Ich vermute daher, dass die obige Gleichung tatsächlich nicht gilt, wenn die Signifikanz eines Durchschnitts von Korrelationskoeffizienten getestet wird, sondern wenn die Signifikanz eines einzelnen Korrelationskoeffizienten basierend auf Beobachtungen von 2 Variablen getestet wird.n

Könnte hier jemand bitte diese Intuition bestätigen oder erklären, warum es falsch ist? Wenn diese Formel nicht für meinen Fall gilt, kennt jemand einen / den richtigen Ansatz? Oder ist mein eigener Test Nummer 2 schon gültig? Jede Hilfe wird sehr geschätzt (einschließlich Hinweisen auf frühere Antworten, die ich möglicherweise übersehen oder falsch interpretiert habe).

Ruben van Bergen
quelle
2
Pearsons ist unempfindlich gegenüber Zentrierungs- und Skalierungstransformationen, daher denke ich, dass die Zentrierung für Ihre Frage irrelevant ist. Zum Beispiel ist cor ( ) = cor ( ) = cor ( ) = cor ( ). X , Y X , Y - ˉ Y X , Y + 1000 X , Y × 1000rX,YX,YY¯X,Y+1000X,Y×1000
Alexis
Ich stimme mit Ihnen ein. Aus diesem Grund habe ich die Zentrierung als "Zentrieren jeder Variablen vor dem Zusammenfügen" interpretiert.
Federico Tedeschi
1
@FedericoTedeschi Ist es nicht "jede Variable einzeln zentrieren, bevor sie zusammengesetzt werden", was bedeutet? YY¯
Alexis
@Alexis Ich habe Ihnen am Ende meiner Antwort geantwortet (es wäre zu lang gewesen, es in einen Kommentar zu schreiben, und ich hätte es aufgrund des WYSINWYG-Problems auch mehrmals korrigieren müssen).
Federico Tedeschi

Antworten:

2

Ein besserer Ansatz zur Analyse dieser Daten besteht darin, ein (auch bekannt als Mischeffektmodell, hierarchisches Modell) subjectals Zufallseffekt (zufälliger Schnittpunkt oder zufälliger Schnittpunkt + Steigung) zu verwenden. Um eine andere Antwort von mir zusammenzufassen:

Dies ist im Wesentlichen eine Regression, die eine einzelne Gesamtbeziehung modelliert und gleichzeitig zulässt, dass sich diese Beziehung zwischen Gruppen (den menschlichen Subjekten) unterscheidet. Dieser Ansatz profitiert vom teilweisen Pooling und nutzt Ihre Daten effizienter.

mkt - Monica wieder einsetzen
quelle
-1

Ich gehe davon aus, dass die Variablen ( und ) für alle Personen gleich sind (eigentlich bin ich mir nicht sicher, was Sie damit meinen, dass die Ebenen nicht fachübergreifend gleich sind: Ich hoffe, Sie sind es unter Bezugnahme auf die Unabhängigkeit zwischen den Bereichen der Variablen, nicht darauf, welche Variablen für jedes Individuum gemessen werden). Ja, die von Ihnen gezeigte Formel gilt für den Korrelationskoeffizienten zwischen zwei Variablen.126 X6 Y

In Punkt 2 sprechen Sie über Normalisierung: Ich denke, dies wäre sinnvoll, wenn Sie dies für jede der Variablen separat tun würden . Das Problem bei diesem Ansatz ist jedoch, dass die Abhängigkeit innerhalb des Einzelnen nicht kontrolliert wird.62

Ich glaube, Ihr Ansatz 1 ist auch nicht gültig, da es sich um einen Test unter Variablen mit einer Verteilung mit nur Freiheitsgraden handelt. Daher glaube ich nicht, dass Sie in diesem Fall den zentralen Grenzwertsatz anwenden können.6t10

Bei größeren Zahlen könnten Sie möglicherweise einen Zufallseffektansatz verwenden, der eine zufällige Steigung ermöglicht und gleichzeitig sowohl einen durchschnittlichen (von auf ) als auch das Nichtvorhandensein eines zufälligen Koeffizienten . Ich glaube jedoch, dass 6 Variablen und 12 Beobachtungen nicht ausreichen, um dies zu tun.XiYi

Ich schlage vor, Sie sehen es als Test für 6 Werte (12, wenn Sie auch Werte unterhalb der Diagonale berücksichtigen) der Korrelationsmatrix zwischen den Variablen (sowohl als auch ), dh diejenigen auf der Diagonale der 2. (und äquivalent zum 3.) Quadranten. Daher würde ich einen Likelihood-Ratio-Test zwischen dem eingeschränkten und dem uneingeschränkten Modell durchführen.12XY

@Alexis Mein Verständnis ist, dass , , indem sie durch Sinn machen würde (ich glaube es auch Sinn machen würde , sie durch ihr teilen ‚s). Auf diese Weise hätten alle Variablen und (erstellt unter Berücksichtigung von als ob sie Vorkommen einer eindeutigen Variablen wären , und dasselbe für ) ein Mittelwert. Im Gegenteil, wenn wir zuerst zwei Variablen erstellen (erstellt unter Berücksichtigung vonX1,,X6Y1,,Y6X1=X1X1¯,,X6=X6X6¯,Y1=Y1Y1¯,,Y6=Y6Y6¯SEXYXi,1i6Yi0X,YXi,1i6Als ob sie Vorkommen einer eindeutigen Variablen und dasselbe für ), würde das Subtrahieren des Mittelwerts (und auch das Teilen durch die SE von und ) natürlich nichts ändern.YiXY

EDIT 01/01/18

Sei die Variable und ( ) das Individuum. Nehmen wir an, wir haben:ij1j12

X1j=Y1j=10,j ;

X2j=Y2j=8,j ;

X3j=Y3j=6,j ;

X4j=Y4j=4,j ;

X5j=Y5j=2,j ;

X6j=Y6j=j,j .

Die Korrelation sollte in diesem Fall .0.5428

Wenn wir jede Variable haben wir für sowohl als auch keine Variation, wir haben: . Für wir die Werte (dh für die : und genau das Gegenteil für die ). Da und , erhalten wir: , was eine Korrelation von impliziert .1i5XiYiXij=Yij=0i=6X6j=j6.5,Yj6=(13j)6.5=6.5jX5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.5Y0=0j6.5=(6.5j)Xij=Yiji,jX=Y1

Federico Tedeschi
quelle
Ich stimme Ihnen zu, wenn wir das zweite Verfahren befolgen. Deshalb glaube ich, dass Ruben van Bergen das gemeint hat, was ich im ersten Verfahren beschrieben habe. In diesem Fall haben wir folgendes: , aber nicht Grundsätzlich richtig. Ich bearbeite meinen Beitrag, um ein Gegenbeispiel zu zeigen. cor(Xi,Yi)=cor(Xi,Yi),icor(X,Y)=cor(X,Y)
Federico Tedeschi
Die Werte, die eine Korrelation von sind: ; . Es spielt keine Rolle, ob die Korrelation wirklich , da sie sich deutlich von . 0.5428X=10,10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,1,2,3,4,5,6,7,8,9,10,11,12Y=10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,12,11,10,9,8,7,6,5,4,3,2,10.54281
Federico Tedeschi
Die Korrelation zwischen und ist . Die Tatsache, dass Sie sagen, dass und zu ist wahr, aber dies nur bedeutet, dass , das habe ich bereits geschrieben. X=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.5X=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.51X=1,,12Y=12,,1cor(X,Y)=cor(X,Y)=1cor(Xi,Yi)=cor(Xi,Yi)
Federico Tedeschi
Natürlich ist : Dies ist eine Folge der Invarianz der Korrelation zu linearen Transformationen. Dies ist etwas, worauf ich mich bereits in meinem ersten Kommentar geeinigt habe: "Ich stimme Ihnen zu. Deshalb habe ich das Zentrieren als" Zentrieren jeder Variablen vor dem Zusammenfügen "interpretiert." - Federico Tedeschi 27. Dezember 17 um 10:27cor(X;Y)=cor(XX¯;YY¯)
Federico Tedeschi
Vielleicht verstehe ich nicht, was es bedeutet, "jede Variable einzeln zu zentrieren, bevor sie zusammengesetzt wird". Für mich bedeutet dass "zentriert" vor dem Zusammenstellen separat variieren ". Können Sie mir helfen, unser offensichtlich unterschiedliches Verständnis zu verstehen? X 1 - ˉ X , X 2 - ˉ X , , X n - ˉ X.XX¯X1X¯,X2X¯,,XnX¯
Alexis