Mittelung der Korrelationswerte

20

Angenommen, ich teste, wie die Variable unter verschiedenen Versuchsbedingungen von der Variablen Yabhängt X, und erhalte das folgende Diagramm:

Bildbeschreibung hier eingeben

Die gestrichelten Linien in der obigen Grafik stellen die lineare Regression für jede Datenreihe dar (Versuchsaufbau), und die Zahlen in der Legende bezeichnen die Pearson-Korrelation für jede Datenreihe.

Ich möchte die "durchschnittliche Korrelation" (oder "mittlere Korrelation") zwischen Xund berechnen Y. Darf ich die rWerte einfach mitteln? Was ist mit dem "Durchschnittsbestimmungskriterium" ? Sollte ich den Durchschnitt berechnen und dann das Quadrat dieses Wertes nehmen oder sollte ich den Durchschnitt der einzelnen berechnen ?R2rR2

Boris Gorelik
quelle

Antworten:

15

Die einfache Möglichkeit besteht darin, eine kategoriale Variable hinzuzufügen , um die verschiedenen experimentellen Bedingungen zu identifizieren und diese zusammen mit einer "Interaktion" mit in Ihr Modell aufzunehmen . das heißt, . Dies führt alle fünf Regressionen gleichzeitig durch. Sein ist was Sie wollen.zxyz+x#zR2

Um zu sehen, warum die Mittelung einzelner Werte falsch sein kann, wird angenommen, dass die Richtung der Steigung unter einigen experimentellen Bedingungen umgekehrt ist. Sie würden ein Bündel von Einsen und Einsen auf ungefähr 0 mitteln, was nicht die Qualität einer der Passungen widerspiegeln würde. Um zu sehen, warum die Mittelung von (oder einer festen Transformation davon) nicht richtig ist, nehmen wir an, dass Sie unter den meisten experimentellen Bedingungen nur zwei Beobachtungen hatten, so dass ihre alle gleich , während Sie in einem Experiment hundert Beobachtungen mit hatten . Das durchschnittliche von fast 1 würde die Situation nicht korrekt widerspiegeln.RR2R21R2=0R2

whuber
quelle
1
Entschuldigen Sie meine Unwissenheit, aber was bedeutet das # -Zeichen in Ihrer Antwort?
Boris Gorelik
1
Ich denke, Ihre Antwort ist sehr gut für die implizite Definition der verwendeten Korrelation. Was ist, wenn sie es als mittlere standardisierte Neigung (möglicherweise in der Abbildung impliziert) meinten? In diesem Fall möchten Sie, dass Negative und Positive storniert werden. Sie wissen nicht mehr, was das Problem mit der Stichprobengröße betrifft. Ziehen Sie auch in Betracht, Ihren Kommentar in Ihre Antwort zu verschieben.
John
Willst du den oder den angepassten ? R2R2
Russellpierce
@whuber in Ihrem ersten Kommentar dort, Ihr Mittelwert, dass die Korrelation ; das ist jeweils . (Mir ist klar, dass dies nur ein Tipp- oder Bearbeitungsproblem ist. Es ändert nichts an Ihrem Standpunkt, kann aber irreführen.)±1R21
Glen_b
@rpierce Im zweiten Absatz macht es keinen Unterschied für die Ideen, wenn Sie angepasstes verwenden - stellen Sie sich einfach Sätze von drei statt zwei Punkten vor, die fast kollinear sind. Ihr eingestelltes kann beliebig nahe bei . R2R21
Whuber
24

Für Pearson-Korrelationskoeffizienten ist es im Allgemeinen angebracht, die r- Werte unter Verwendung einer Fisher- z- Transformation zu transformieren. Dann werden die z- Werte gemittelt und der Durchschnitt zurück in einen r- Wert umgewandelt.

Ich stelle mir vor, dass es auch für einen Spearman-Koeffizienten in Ordnung wäre.

Hier ist ein Artikel und der Wikipedia- Eintrag .

Amyunimus
quelle
1
+1; Diese Antwort erscheint angemessener und allgemeiner als die akzeptierte Antwort, würde sie jedoch im speziellen Anwendungsfall für r-Werte von 1 nicht auseinanderfallen? Ist hier so etwas wie ein kaiserliches Logit sinnvoll, bei dem man nur einen Datenpunkt "hinzufügt", dem die Korrelation fehlt? Wenn ja, wo würde man es hinzufügen? Müsste man eine Monte Carlo Sim durchführen, die zwei Zufallsvariablen aus den Quelldistributionen abruft? Alternativ würde man einfach r auf einen Wert einstellen, der etwas kleiner als 1 ist? Um wie viel sollte man sich einstellen?
Russellpierce
3

Die durchschnittliche Korrelation kann bedeutsam sein. Berücksichtigen Sie auch die Verteilung der Korrelationen (zeichnen Sie beispielsweise ein Histogramm auf).

n

m

Karl
quelle
1

Was ist mit der Verwendung des mittleren vorhergesagten Fehlerquadrats (MSPE) für die Leistung des Algorithmus? Dies ist ein Standardansatz für das, was Sie versuchen, wenn Sie die prädiktive Leistung einer Reihe von Algorithmen vergleichen möchten.

StatsStudent
quelle
Ich bin nicht sicher, warum dieser Beitrag stats.stackexchange.com/questions/17129/… mit diesem zusammengeführt wurde. Tatsächlich stellen sie in meiner Meinung zwei verschiedene Fragen - es gibt zwei verschiedene Ziele.
StatsStudent
1
Sie haben Recht: Es handelt sich um unterschiedliche Fragen. Ich habe dafür gestimmt, den anderen Beitrag wieder zu eröffnen (obwohl unklar ist, welchen Effekt dies haben könnte). Ich entschuldige mich dafür, dass Sie Ihren Kommentar nicht gesehen haben: Wenn Sie stattdessen diesen Beitrag markiert hätten , wären wir einige Jahre früher darauf aufmerksam geworden!
whuber