Der Korrelationskoeffizient wird normalerweise mit einem Großbuchstaben , manchmal jedoch nicht. Ich frage mich, ob es wirklich einen Unterschied zwischen und . Kann etwas anderes als einen Korrelationskoeffizienten bedeuten?r 2 R 2 r
21
Antworten:
Notation in dieser Angelegenheit scheint ein wenig zu variieren.
Y Y Y X i Y = β 0 + β 1 X 1 + β 2 X 2 β i 0 ≤ R ≤ 1R wird im Kontext der Mehrfachkorrelation verwendet und als "Mehrfachkorrelationskoeffizient" bezeichnet. Es ist die Korrelation zwischen den beobachteten Antworten und dem vom Modell angepasstenDie ist in der Regel aus mehreren Prädiktorvariablen vorhergesagten , zB wobei der Achsenabschnitt und die Steigung Koeffizienten wurden aus den Daten geschätzt . Beachten Sie, dass .Y. Y.^ Y^ Xi Y^=β^0+β^1X1+β^2X2 β^i 0≤R≤1
Das Symbol ist der "Stichproben-Korrelationskoeffizient", der im bivariaten Fall verwendet wird - dh es gibt zwei Variablen, und - und es bedeutet normalerweise die Korrelation zwischen und in Ihrer Stichprobe. Sie können dies als eine Schätzung der Korrelation behandeln zwischen den beiden Variablen in der breiten Bevölkerung. Um zwei Variablen zu korrelieren, muss nicht identifiziert werden, welche die Vorhersage und welche die Antwort ist. In der Tat, wenn Sie die Korrelation zwischen und würden, wäre dies die gleiche wie die Korrelation zwischen und , da die Korrelation symmetrisch istX Y X Y ρ Y X X Yr X Y X Y ρ Y X X Y . Beachten Sie, dass wenn das Symbol auf diese Weise verwendet wird, mit (negative Korrelation), wenn die beiden Variablen eine linear abnehmende Beziehung haben (wenn eine steigt, sinkt die andere tendenziell).r r < 0−1≤r≤1 r r<0
Wenn die Notation inkonsistent wird, gibt es zwei Variablen, und , und es wird eine einfache lineare Regression durchgeführt. Dies bedeutet, eine Variable als Antwortvariable und die andere als Prädiktorvariable zu identifizieren und das Modell . Einige Leute benutzen auch das Symbol , um die Korrelation zwischen und anzuzeigen, während andere (aus Gründen der Konsistenz mit multipler Regression) schreibenY Y X Y = β 0 + β 1 X R Y Y R R X Y Y Y X Y R R R Y YX Y Y X Y^=β^0+β^1X r Y Y^ R . Es ist zu beachten, dass die Korrelation zwischen beobachteten und angepassten Antworten notwendigerweise größer oder gleich Null ist. Dies ist ein Grund, warum mir die Verwendung des Symbols in diesem Fall nicht gefällt : Die Korrelation zwischen und könnte negativ sein, während die Korrelation zwischen und positiv ist (tatsächlich wird es einfach der Modul von sein) die Korrelation zwischen und ) könnte jedoch beide mit dem Symbol . Ich habe gesehen, dass einige Lehrbücher und Wikipedia-Artikel fast austauschbar zwischen den beiden Bedeutungen von wechseln und fand es unnötig verwirrend. Ich benutze lieber das Symbolr X Y Y Y^ X Y r r R für die Korrelation zwischen und sowohl in der einfachen als auch in der multiplen Regression.Y Y^
Sowohl bei einfacher als auch bei multipler Regression ist das zwischen und einfach die Quadratwurzel des Bestimmungskoeffizienten (oft als "Anteil der Varianz erklärt" bezeichnet), solange es einen im Modell angepassten Intercept-Term gibt " o.ä). Im Falle einer einfachen linearen Regression könnte wobei ich für die Korrelation zwischen und schreibe , und entweder den Bestimmungskoeffizienten der Regression oder das Quadrat der Korrelation darstellen zwischen und . Schon seitY Y R 2R Y Y^ R2 R 2 = r 2 R X Y R 2 Y Y - 1 ≤ r ≤ 1 0 ≤ R ≤ 1 R = | r | X Y R = - 0,7 Y Y Y = β 0 + β 1 X R = 0,7 R 2 =R2=r2 r X Y R2 Y Y^ −1≤r≤1 und , dies bedeutet, dass. So zum Beispiel, wenn Sie eine Korrelation zwischen bekommen und von dann die Korrelation zwischen und der angepassten aus der einfachen linearen Regression wäre und der Bestimmungskoeffizient wäre dh fast die Hälfte der Variation in der Antwort würde durch Ihr Modell erklärt.0≤R≤1 R=|r| X Y r=−0.7 Y Y^ Y=β^0+β^1X R=0.7 R2=0.49
Wenn im Modell kein Intercept-Term enthalten war, ist das Symbol mehrdeutig. Es ist in der Regel als Bestimmungskoeffizient vorgesehen, dies wird jedoch in der Regel anders berechnet als gewöhnlich . Seien Sie also vorsichtig, wenn Sie die Ausgabe Ihrer Statistiksoftware lesen. Dann ist es nicht mehr dasselbe wie das Quadrat der Mehrfachkorrelation , und im bivariaten Fall ist es auch nicht gleich ! R r 2R2 R r2
quelle