Meine Frage entstand aus einer Diskussion mit @whuber in den Kommentaren einer anderen Frage .
Konkret lautete der Kommentar von @whuber wie folgt:
Ein Grund dafür könnte sein, dass die Annahmen, die einem Korrelationstest und einem Regressionssteigungstest zugrunde liegen, unterschiedlich sind. Selbst wenn wir verstehen, dass Korrelation und Steigung wirklich dasselbe messen, warum sollten ihre p-Werte dann gleich sein? Das zeigt, wie diese Probleme tiefer gehen als nur, ob und numerisch gleich sein sollten.β
Dies brachte mich zum Nachdenken und ich fand eine Vielzahl interessanter Antworten. Zum Beispiel fand ich diese Frage " Annahmen des Korrelationskoeffizienten ", kann aber nicht sehen, wie dies den obigen Kommentar verdeutlichen würde.
Ich habe in einer einfachen linearen Regression (siehe hier und hier zum Beispiel) interessantere Antworten über die Beziehung von Pearson's und der Steigung aber keine scheint zu beantworten, worauf sich @whuber in seinem Kommentar bezog (zumindest nicht offensichtlich) mir).β
Frage 1: Welche Annahmen liegen einem Korrelationstest und einem Regressionstest zugrunde?
Berücksichtigen Sie für meine zweite Frage die folgenden Ausgaben in R
:
model <- lm(Employed ~ Population, data = longley)
summary(model)
Call:
lm(formula = Employed ~ Population, data = longley)
Residuals:
Min 1Q Median 3Q Max
-1.4362 -0.9740 0.2021 0.5531 1.9048
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3807 4.4224 1.895 0.0789 .
Population 0.4849 0.0376 12.896 3.69e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared: 0.9224, Adjusted R-squared: 0.9168
F-statistic: 166.3 on 1 and 14 DF, p-value: 3.693e-09
Und die Ausgabe der cor.test()
Funktion:
with(longley, cor.test(Population, Employed))
Pearson's product-moment correlation
data: Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8869236 0.9864676
sample estimates:
cor
0.9603906
Wie aus der ersichtlich ist , lm()
und cov.test()
Ausgabe der Korrelationskoeffizient Pearson und die Steigungsschätzung ( ) sind stark unterschiedlich, 0,96 vs. 0,485 bzw. aber der T-Wert und die p-Werte gleich sind.β 1
Dann habe ich auch versucht, herauszufinden, ob ich den t-Wert für und berechnen kann , die identisch sind, obwohl und unterschiedlich sind. Und da bleibe ich stecken, zumindest für :β 1 r β 1 r
Berechnen Sie die Steigung ( ) in einer einfachen linearen Regression mit den Gesamtsummen der Quadrate von und : x y
x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))
Berechnen Sie die Schätzung der kleinsten Quadrate der Regressionssteigung (ein Beweis dafür ist in Crawleys R Book 1st Edition , Seite 393, zu finden):
b1 <- ss.xy/ss.x
b1
# [1] 0.4848781
Berechnen Sie den Standardfehler für :
ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029
Und der t-Wert und der p-Wert für :
t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09
Was ich an dieser Stelle nicht weiß, und dies ist Frage 2 , ist, wie man den gleichen t-Wert mit anstelle von β 1 berechnet (vielleicht in kleinen Schritten)?
Ich gehe davon aus, dass ich, da cor.test()
die alternative Hypothese lautet, ob die wahre Korrelation ungleich 0 ist (siehe cor.test()
Ausgabe oben), so etwas wie den Pearson - Korrelationskoeffizienten dividiert durch den "Standardfehler des Pearson - Korrelationskoeffizienten" erwarten würde (ähnlich dem über)?! Aber was wäre dieser Standardfehler und warum?b1/se.b1
Vielleicht hat dies etwas mit den oben genannten Annahmen zu tun, die einem Korrelationstest und einem Regressionssteigungstest zugrunde liegen ?!
BEARBEITEN (27. Juli 2017): Während @whuber eine sehr ausführliche Erklärung für Frage 1 (und teilweise Frage 2 , siehe Kommentare unter seiner Antwort) lieferte , habe ich einige weitere Untersuchungen durchgeführt und festgestellt, dass diese beiden Beiträge ( hier und hier ) zutreffen zeigen einen spezifischen Standardfehler für , der gut funktioniert, um Frage 2 zu beantworten , dh den t-Wert zu reproduzieren, der r gegeben ist :
r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956
Antworten:
Einführung
Diese Antwort befasst sich mit der zugrunde liegenden Motivation für diese Reihe von Fragen:
In Anbetracht des Hintergrunds der Frage möchte ich jedoch vorschlagen, diese Frage ein wenig zu erweitern: Lassen Sie uns die verschiedenen Zwecke und Konzepte von Korrelation und Regression untersuchen.
Korrelation wird normalerweise in Situationen aufgerufen, in denen
Daten sind bivariat: Jedem "Subjekt" oder jeder "Beobachtung" sind genau zwei unterschiedliche interessierende Werte zugeordnet.
Die Daten sind Beobachtungsdaten: Keiner der Werte wurde vom Experimentator festgelegt. Beide wurden beobachtet oder gemessen.
Das Interesse liegt darin, eine Beziehung zwischen den Variablen zu identifizieren, zu quantifizieren und zu testen.
Wo wird Regression verwendet?
Daten sind bivariat oder multivariat: Es können mehr als zwei unterschiedliche Werte von Interesse sein.
Das Interesse konzentriert sich auf das Verständnis dessen, was über eine Teilmenge der Variablen - die "abhängigen" Variablen oder "Antworten" - gesagt werden kann, basierend auf dem, was über die andere Teilmenge - die "unabhängigen" Variablen oder "Regressoren" - bekannt sein könnte.
Spezifische Werte der Regressoren können vom Experimentator festgelegt worden sein.
Diese unterschiedlichen Ziele und Situationen führen zu unterschiedlichen Ansätzen. Da sich dieser Thread um ihre Ähnlichkeiten sorgt, konzentrieren wir uns auf den Fall, in dem sie am ähnlichsten sind: bivariate Daten. In beiden Fällen werden diese Daten typischerweise als Realisierungen einer Zufallsvariablen modelliert . Ganz allgemein streben beide Formen der Analyse nach relativ einfachen Charakterisierungen dieser Variablen.( X, Y)
Korrelation
Ich glaube, "Korrelationsanalyse" wurde nie allgemein definiert. Sollte es auf die Berechnung von Korrelationskoeffizienten beschränkt sein, oder könnte es umfassender als PCA, Clusteranalyse und andere Formen der Analyse betrachtet werden, die zwei Variablen in Beziehung setzen? Unabhängig davon, ob Ihre Sichtweise eng umschrieben oder weit gefasst ist, stimmen Sie vielleicht der folgenden Beschreibung zu:
Regression
Regression hat eine klare, allgemein verständliche Definition:
Korrelation und Regression
Eine besondere Situation ist beiden Ansätzen gemeinsam und häufig anzutreffen: das bivariate Normalmodell. In diesem Modell nimmt ein Streudiagramm von Daten eine klassische "Fußball-", ovale oder Zigarrenform an: Die Daten sind elliptisch um ein orthogonales Achsenpaar verteilt.
Eine Korrelationsanalyse konzentriert sich auf die "Stärke" dieser Beziehung in dem Sinne, dass eine relativ geringe Streuung um die Hauptachse "stark" ist.
(Es lohnt sich, über die klaren geometrischen Unterschiede zwischen diesen beiden Beschreibungen nachzudenken: Sie beleuchten die zugrunde liegenden statistischen Unterschiede.)
Diese gemeinsame Anwendung, die die erste ist, die man lernt, kann es schwierig machen, zu erkennen, wie unterschiedlich die Korrelation und die Regression in ihren Konzepten und Zielen sind. Nur wenn wir ihre Verallgemeinerungen kennen, werden die zugrunde liegenden Unterschiede aufgedeckt. Es wäre schwierig, ein GAM so zu interpretieren, dass es viele Informationen über "Korrelation" liefert, genauso wie es schwierig ist, eine Clusteranalyse als eine Form von "Regression" zu definieren. Bei beiden handelt es sich um unterschiedliche Verfahrensfamilien mit unterschiedlichen Zielsetzungen, die bei angemessener Anwendung jeweils für sich nützlich sind.
quelle
Wie aus der Antwort von @ whuber hervorgeht, gibt es eine Reihe von Modellen und Techniken, die unter den Korrelationsschirm fallen können und in einer Welt der Regression keine klaren Analoga haben und umgekehrt. Im Großen und Ganzen betrachten die Menschen jedoch, wenn sie über Regression und Korrelation nachdenken, diese vergleichen und gegenüberstellen, tatsächlich zwei Seiten derselben mathematischen Medaille (typischerweise eine lineare Regression und eine Pearson-Korrelation). Ob sie eine breitere Sicht auf beide Analysefamilien haben sollten, ist eine getrennte Debatte, mit der sich die Forscher zumindest minimal auseinandersetzen sollten.
In dieser engen Sichtweise von sowohl Regression als auch Korrelation sollten die folgenden Erklärungen helfen zu klären, wie und warum ihre Schätzungen, Standardfehler und p-Werte im Wesentlichen Varianten voneinander sind.
Wenn der Datenrahmen
dat
derlongley
Datensatz ist, auf den oben verwiesen wird, erhalten wir für den Kor.-Test Folgendes. (Es gibt hier nichts Neues, es sei denn, Sie haben die obige Frage übersprungen und die Antworten gelesen.):Und das Folgende für das lineare Modell (auch dasselbe wie oben):
Nun zur neuen Komponente zu dieser Antwort. Erstellen Sie zunächst zwei neue standardisierte Versionen der Variablen
Employed
undPopulation
:Führen Sie die Regression erneut aus:
Voila! Die Regressionssteigung entspricht dem Korrelationskoeffizienten von oben. Die Antwort auf Frage 1 lautet dann, dass die Annahmen für beide Tests im Wesentlichen gleich sind:
Für Frage 2 , lassen Sie sich mit dem Standardfehler der Regressionssteigung Formel beginnt oben (implizierte in dem R - Code - aber völlig unten angegeben) verwendet:
Aus dieser Formel können Sie den folgenden, komprimierten und nützlicheren Ausdruck erhalten ( siehe diesen Link für schrittweise Anweisungen ):
Wenn Sie diese Gleichung für nicht standardisierte und standardisierte (dh Korrelations-) lineare Modelle lösen, erhalten Sie vermutlich dieselben p- und t-Werte für Ihre Steigungen. Beide Tests basieren auf einer gewöhnlichen Schätzung der kleinsten Quadrate und gehen von denselben Annahmen aus. In der Praxis überspringen viele Forscher die Überprüfung von Annahmen sowohl für einfache lineare Regressionsmodelle als auch für Korrelationen, obwohl dies meiner Meinung nach bei Korrelationen noch häufiger vorkommt, da sie von vielen Menschen nicht als Spezialfälle für einfache lineare Regressionen erkannt werden. (Hinweis: Dies ist keine bewährte Vorgehensweise.)
quelle
r <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956
Hier ist eine Erklärung der Äquivalenz des Tests, die auch zeigt, wie r und b zusammenhängen.
http://www.real-statistics.com/regression/hypothesis-testing-significance-regression-line-slope/
Um OLS durchzuführen, müssen Sie https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions eingeben
Zusätzlich erfordern OLS und corr die Annahme einer Zufallsstichprobe.
Die Erstellung eines Korrosionstests setzt voraus:
Wir haben eine "zufällige und ausreichend große Stichprobe" aus der Population von (x, y).
quelle
Zu Frage 2
Mit der Einschränkung, dass
Quelle: Hypothesentest im multiplen Regressionsmodell
quelle