Zusätzlich zu den zahlreichen (korrekten) Kommentaren anderer Benutzer, die darauf hinweisen, dass der p Wert für r2 mit dem p Wert für den globalen F Test identisch ist, können Sie auch den mit r ^ verknüpften p Wert abrufen r2 "direkt" unter Verwendung der Tatsache, dass r2 unter der Nullhypothese als Beta ( vn2, vd2) , wobei vn und vd der Zähler sind bzw. Nennerfreiheitsgrade für die zugehörige F Statistik.
Der dritte Aufzählungspunkt im Unterabschnitt " Abgeleitet von anderen Distributionen" des Wikipedia-Eintrags zur Betaverteilung besagt Folgendes:
Wenn und unabhängig sind, dann ist .Y ~ χ 2 ( β ) XX~ χ2( α )Y.~ χ2( β)XX+ Y∼ Beta ( α2, β2)
Nun, wir können in dieser -Form schreiben .Xr2XX+ Y
Sei die Gesamtsumme der Quadrate für eine Variable , die Summe der quadratischen Fehler für eine Regression von bei einigen anderen Variablen und die "Summe der reduzierten Quadrate", . Dann
Und natürlich ist Quadratsummen, und sind beide verteilt als mit bzw. Freiheitsgraden. Daher
Y S S E Y S S R S S R = S S Y - S S E r 2 = 1 - S S ESSY.Y.SSEY.SSRSSR= SSY.- SSE SSRSSE& khgr;2vnvdr2~Beta(vn
r2= 1 - SSESSY.= SSY.- SSESSY.= SSRSSR+ SSE
SSRSSEχ2vnvdr2∼ Beta ( vn2, vd2)
(Natürlich habe ich nicht gezeigt, dass die beiden Chi-Quadrate unabhängig sind. Vielleicht kann ein Kommentator etwas dazu sagen.)
Demonstration in R (Code aus @gung ausleihen):
set.seed(111)
x = runif(20)
y = 5 + rnorm(20)
cor.test(x,y)
# Pearson's product-moment correlation
#
# data: x and y
# t = 1.151, df = 18, p-value = 0.2648
# alternative hypothesis: true correlation is not equal to 0
# 95 percent confidence interval:
# -0.2043606 0.6312210
# sample estimates:
# cor
# 0.2618393
summary(lm(y~x))
# Call:
# lm(formula = y ~ x)
#
# Residuals:
# Min 1Q Median 3Q Max
# -1.6399 -0.6246 0.1968 0.5168 2.0355
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 4.6077 0.4534 10.163 6.96e-09 ***
# x 1.1121 0.9662 1.151 0.265
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.061 on 18 degrees of freedom
# Multiple R-squared: 0.06856, Adjusted R-squared: 0.01681
# F-statistic: 1.325 on 1 and 18 DF, p-value: 0.2648
1 - pbeta(0.06856, 1/2, 18/2)
# [1] 0.2647731
set.seed(111); x = runif(20); y = 5 + rnorm(20); cor.test(x,y); summary(lm(y~x))
. Das p für r ist.265
. Das p für b & für den globalen F-Test ist identisch, obwohl das p für a ist6.96e-09
.R
1 - pbeta(0.06856, 1/2, 18/2)
0.2647731
.265
, wie sind sie nicht identisch?Es gibt mehrere Möglichkeiten der Teststatistik für die Prüfung der Pearson - Korrelation ableiten, . Um einen Wert zu erhalten , ist hervorzuheben, dass Sie sowohl einen Test als auch eine Stichprobenverteilung einer Teststatistik unter der Nullhypothese benötigen. Ihr Titel und Ihre Frage scheinen eine gewisse Verwechslung zwischen der Pearson-Korrelation und der "erklärten Varianz" . Ich werde zuerst den Korrelationskoeffizienten betrachten.p r 2ρ p r2
Es gibt keinen "besten" Weg, die mir bekannte Pearson-Korrelation zu testen. Die Fisher- Z-Transformation basiert auf hyperbolischen Transformationen, sodass die Inferenz ein wenig effizienter ist. Dies ist sicherlich ein "guter" Ansatz, aber das traurige ist, dass die Schlussfolgerung für diesen Parameter mit der Schlussfolgerung über den Steigungsparameter für Assoziation übereinstimmt : Sie erzählen auf lange Sicht die gleiche Geschichte.β
Der Grund , warum die Statistiker haben (klassisch) ganz Tests von bevorzugten ist , weil wir es einen „besten“ Test haben: lineare Regression, die der BLUE Schätzer ist. In den Tagen der modernen Statistik ist es uns eigentlich egal, ob ein Test mehr "am besten" ist, aber die lineare Regression hat viele andere fantastische Eigenschaften, die ihre weitere Verwendung zur Bestimmung der Assoziation zwischen zwei Variablen rechtfertigen. Im Allgemeinen stimmt Ihre Intuition: Sie sind im Wesentlichen identisch, und wir konzentrieren unsere Aufmerksamkeit auf als ein praktischeres Maß für die Assoziation.ββ β
Das ist eine Funktion sowohl der Steigung als auch des Abschnitts. Wenn einer dieser Werte ungleich Null ist, sollte das eine erkennbare Stichprobenverteilung relativ zu der haben, die zu erwarten wäre, wenn die linearen Parameter Null wären. Das Ableiten von Verteilungen von unter der Null und der Vergleich mit unter einer alternativen Hypothese gibt mir jedoch nicht die Gewissheit, dass dieser Test viel Macht hat, um zu erkennen, was wir wollen. Nur ein Bauchgefühl. Wenn wir uns wieder den "besten" Schätzern zuwenden, gibt uns OLS "beste" Schätzungen sowohl der Steigung als auch des Achsenabschnitts, sodass wir zuversichtlich sind, dass unser Test durch direktes Testen der Modellparameter mindestens die gleiche Assoziation ermitteln kann . Für mich gemeinsam testen dier 2 r 2 r 2 α β r 2r2 r2 r2 r2 α und mit OLS sind allen Tests zu überlegen, außer in einem seltenen Fall (vielleicht) einer nicht verschachtelten Kalibrierungsanwendung für Vorhersagemodelle ... aber BIC wäre in diesem Szenario wahrscheinlich ohnehin eine bessere Maßnahme.β r2
quelle
So würde ich Dinge nicht interpretieren. Ich glaube nicht, dass ich jemals einen Wert für oder berechnen würde . und sind qualitative Maße eines Modells, keine Maße, die wir mit einer Verteilung vergleichen, daher ist ein Wert nicht wirklich sinnvoll.r r 2 r r 2 pp r r2 r r2 p
b b 0 rp b b 0 r r2 r2
quelle