Angenommen, ich habe zwei eindimensionale Arrays, und . Jedes enthält 100 Datenpunkte. sind die tatsächlichen Daten und ist die Modellvorhersage. In diesem Fall wäre der Wert: In der Zwischenzeit wäre dies gleich dem Quadratwert des Korrelationskoeffizienten Wenn ich nun die beiden vertausche: sind die tatsächlichen Daten und ist die Modellvorhersage. Aus Gleichung ergibt sich, da es für den Korrelationskoeffizienten nicht wichtig ist, welcher zuerst kommt, derR 2 ( 1 ) S S t o t = Σ i ( y i - ˉ y ) 2 R 2 S S t o t y a 1 ein 2 S S R e s = & Sgr; i ( f i - ˉ y ) 2
Meine Frage ist: Wie können sich diese widersprechen?
Bearbeiten :
Ich habe mich gefragt, ob die Beziehung in Gl. (2) noch stehen, wenn es sich nicht um eine einfache lineare Regression handelt, dh die Beziehung zwischen IV und DV nicht linear ist (könnte exponentiell / log sein)?
Wird diese Beziehung bestehen bleiben, wenn die Summe der Vorhersagefehler ungleich Null ist?
quelle
Antworten:
Dies ist wahr, dass sich ändern wird ... aber Sie haben vergessen, dass sich auch die Regressionssumme der Quadrate ändern wird. Betrachten wir also das einfache Regressionsmodell und bezeichnen den Korrelationskoeffizienten als , zu dem ich den Subindex habe betonen Sie die Tatsache, dass die unabhängige Variable und die abhängige Variable ist. Offensichtlich bleibt unverändert, wenn Sie mit tauschen . Wir können leicht zeigen, dass , wobei die Regressionssumme von Quadraten und r 2 x y = S 2 x ySStot xyxyr2 x y xySSRxy=Syy(R2 x y )SSRxySyyxyR2 x y =SSRxyr2xy=S2xySxxSyy xy x y r2xy x y SSRxy=Syy(R2xy) SSRxy Syy ist die Gesamtsumme der Quadrate, wobei unabhängig ist und eine abhängige Variable ist. Also: wobei ist die entsprechende Restsumme der Quadrate, wobei unabhängig und abhängig von der Variablen ist. Beachten Sie, dass in diesem Fall mit vorliegt (siehe z. B. Gleichung (34) - ( 41) hier .) Also:Die obige Gleichung ist eindeutig symmetrisch in Bezug aufx y SSExyxySSExy=b2 x y Sxxb=Sxy
quelle
Eine Möglichkeit, den Bestimmungskoeffizienten zu interpretieren, besteht darin, ihn als quadratischen Pearson-Korrelationskoeffizienten zwischen den beobachteten Werten und den angepassten Werten . y i y iR2 yi y^i
Der vollständige Beweis, wie der Bestimmungskoeffizient R2 aus dem quadratischen Pearson-Korrelationskoeffizienten zwischen den beobachteten Werten yi und den angepassten Werten y ^ i abgeleitet werden kann, ist unter dem folgenden Link zu finden:
http://economictheoryblog.wordpress.com/2014/11/05/proof/
In meinen Augen sollte es ziemlich einfach zu verstehen sein, folge einfach den einzelnen Schritten. Ich denke, es ist wichtig zu verstehen, wie die Beziehung zwischen den beiden Schlüsselfiguren tatsächlich funktioniert.
quelle
Im Falle einer einfachen linearen Regression mit nur einem Prädiktor ist . Bei der multiplen linearen Regression mit mehr als einem Prädiktor wird das Konzept der Korrelation zwischen den Prädiktoren und der Antwort nicht automatisch erweitert. Die Formel bekommt:R2=r2=Corr(x,y)2
Das Quadrat der Korrelation zwischen der Antwort und dem angepassten linearen Modell.
quelle
@Stat hat eine detaillierte Antwort geliefert. In meiner kurzen Antwort werde ich kurz auf etwas andere Weise zeigen, was die Ähnlichkeit und der Unterschied zwischen und .r 2r r2
Y X X Y r .30r ist der standardisierte Regressionskoeffizient Beta von nach oder von nach und als solcher ein Maß für die (gegenseitige) Effektgröße . Was am deutlichsten zu sehen ist, wenn die Variablen dichotom sind. Dann bedeutet , zum Beispiel , dass 30% der Fälle ihren Wert in einer Variablen in das Gegenteil ändern, wenn die andere Variable ihren Wert in das Gegenteil ändert.Y X X Y r .30
(Die beiden Verhältnisse sind multiplikativ und nicht additiv, um die Idee zu dass sie in ihrer Teamarbeit zusammenarbeiten und sich nicht ausgleichen können. Sie müssen multiplikativ sein, da die Größe von von beiden Größen und und conformably, hat zweimal in Folge einmal geteilt werden - um sich zu einem richtigen „Anteil der gemeinsamen Varianz“ zu konvertieren Aber. , die „cross-Varianz“, teilt die gleichen Maßeinheiten sowohl mit und , die " ", und nicht mitcov σ2x σ2y cov cov σ2x σ2y σxσy die "hybride Varianz"; deshalb ist , nicht , angemessener als der "Anteil der geteilten Varianz".)r2 r
Sie sehen also, dass die Bedeutung von und als Maß für die Menge der Assoziation unterschiedlich ist (beide Bedeutungen sind gültig), aber diese Koeffizienten widersprechen sich in keiner Weise. Und beide sind gleich, unabhängig davon, ob Sie oder vorhersagen .r r2 Y~X X~Y
quelle
Ich denke, Sie könnten sich irren. Wenn , nehme ich an, dass Sie ein bivariates Modell haben: ein DV, ein IV. Ich denke nicht, dass sich ändern wird, wenn Sie diese austauschen oder wenn Sie die IV durch die Vorhersagen der DV ersetzen, die auf der IV basieren. Hier ist Code für eine Demonstration in R:R2=r2 R2
Wenn Sie nicht mit einem bivariaten Modell arbeiten, wirkt sich Ihre Wahl von DV auf ... es sei denn, Ihre Variablen sind alle identisch korreliert, aber dies ist keine große Ausnahme. Wenn alle Variablen identische Korrelationsstärken aufweisen und auch die gleichen Anteile der DV-Varianz aufweisen (z. B. [oder vielleicht "dh"], wenn einige der Variablen vollständig identisch sind), können Sie dies einfach auf ein bivariates Modell reduzieren, ohne zu verlieren irgendwelche Informationen. Ob Sie es tun oder nicht, würde sich immer noch nicht ändern.R2 R2
In allen anderen Fällen kann ich mir mit mehr als zwei Variablen vorstellen, wobei der Bestimmungskoeffizient ist und ein bivariater Korrelationskoeffizient jeglicher Art ist (nicht notwendigerweise Pearsons; z. B. möglicherweise auch) ein Spearman ).R2≠r2 R2 r ρ
quelle