Einfache Interpretation der linearen Regressionsausgabe

20

Ich habe eine einfache lineare Regression des natürlichen Logarithmus von 2 Variablen durchgeführt, um festzustellen, ob sie korrelieren. Meine Ausgabe ist diese:

R^2 = 0.0893

slope = 0.851

p < 0.001

Ich bin verwirrt. Wenn ich den Wert betrachte, würde ich sagen, dass die beiden Variablen nicht korreliert sind, da sie so nahe bei . Die Steigung der Regressionslinie beträgt jedoch fast (obwohl sie im Diagramm fast horizontal erscheint), und der p-Wert zeigt an, dass die Regression hoch signifikant ist. 0 1R201

Bedeutet dies , dass die beiden Variablen sind stark korreliert? Wenn ja, was zeigt der -Wert an?R2

Ich sollte hinzufügen, dass die Durbin-Watson-Statistik in meiner Software getestet wurde und die Nullhypothese ( ) nicht zurückwies . Ich dachte, dass dies für die Unabhängigkeit zwischen den beiden Variablen getestet . In diesem Fall würde ich erwarten, dass die Variablen abhängig sind, da es sich um zwei Messungen eines einzelnen Vogels handelt. Ich mache diese Regression als Teil einer veröffentlichten Methode, um den Körperzustand eines Individuums zu bestimmen. Daher nahm ich an, dass die Verwendung einer Regression auf diese Weise Sinn macht. Angesichts dieser Ergebnisse denke ich jedoch, dass diese Methode für diese Vögel möglicherweise nicht geeignet ist. Scheint dies eine vernünftige Schlussfolgerung zu sein?1,35722

Mog
quelle
1
Die Durbin-Watson-Statistik ist ein Test für die serielle Korrelation: Das heißt, um festzustellen, ob benachbarte Fehlerterme miteinander korreliert sind. Es sagt nichts über die Korrelation zwischen Ihrem X und Ihrem Y aus! Ein Nichtbestehen des Tests ist ein Hinweis darauf, dass die Steigung und der p-Wert mit Vorsicht interpretiert werden sollten.
Whuber
Ach ja ok Das ist ein bisschen sinnvoller als die Frage, ob die beiden Variablen selbst korreliert sind. Und wenn der Test nicht bestanden wird, sollte ich die Steigung und den p-Wert vorsichtig interpretieren, was in diesem Fall noch sinnvoller ist! Danke @whuber!
Mog
1
Ich möchte nur eine Steigung hinzufügen, die sehr signifikant sein kann (p-Wert <0,001), obwohl die Beziehung schwach ist, insbesondere bei einer großen Stichprobe. Dies wurde in den meisten Antworten angedeutet, da die Steigung (auch wenn sie signifikant ist) nichts über die Stärke der Beziehung aussagt.
Glen
Sie benötigen , um die Stärke der Beziehung zu bestimmen. Siehe auch stats.stackexchange.com/a/265924/99274 . n
Carl

Antworten:

22

Der geschätzte Wert der Steigung allein sagt noch nichts über die Stärke der Beziehung aus. Die Stärke der Beziehung hängt von der Größe der Fehlervarianz und dem Bereich des Prädiktors ab. Ein signifikanter Wert sagt nicht unbedingt aus, dass eine starke Beziehung besteht. Der p- Wert testet einfach, ob die Steigung genau 0 ist. Bei einer ausreichend großen Stichprobe führen selbst kleine Abweichungen von dieser Hypothese (z. B. solche, die nicht von praktischer Bedeutung sind) zu einem signifikanten p- Wert.ppp

Von den drei Größen, die Sie angegeben haben, gibt , der Bestimmungskoeffizient , den größten Hinweis auf die Stärke der Beziehung. In Ihrem Fall bedeutet R 2 = 0,089 , dass 8,9 % der Variation Ihrer Antwortvariablen als linearer Zusammenhang mit dem Prädiktor erklärt werden können. Was einen "großen" R 2 ausmacht, ist disziplinabhängig. Zum Beispiel könnte in den Sozialwissenschaften R 2 = .2 "groß" sein, aber in kontrollierten Umgebungen wie einer Werkseinstellung ist R 2 > .9R2R2=.0898.9%R2R2=.2R2>.9Möglicherweise müssen Sie angeben, dass eine "starke" Beziehung besteht. In den meisten Situationen ist ein sehr kleines R 2 , daher ist Ihre Schlussfolgerung, dass es eine schwache lineare Beziehung gibt, wahrscheinlich vernünftig..089R2

Makro
quelle
Vielen Dank, Macro. Sehr hilfreiche Antwort. Ich bin froh, dass Sie den Teil darüber aufgenommen haben, was genau der p-Wert testet. Es macht sehr viel Sinn, dass der p-Wert so niedrig wäre, wenn man bedenkt, wie nahe die Steigung 1 ist. Angesichts Ihrer Antwort und @jedfrancis 'scheint mir der r ^ 2 -Wert diese' Wolke 'von Datenpunkten um die Regressionslinie zu beschreiben. Ausgezeichnet! Das ist jetzt viel klarer!
Mog
@Macro (+1), gute Antwort. Aber wie hängt die "Stärke der Beziehung" von der "Größe des Abschnitts" ab? AFAIK der Abschnitt sagt überhaupt nichts über die Korrelation oder "Stärke" einer linearen Beziehung aus.
Whuber
@whuber, du hast recht - der Achsenabschnitt ist irrelevant und ändert definitiv nichts an der Korrelation - Ich habe über die Regressionsfunktion vs. y = x nachgedacht und irgendwie gedacht, die zweite sei eine stärkere Beziehung ( alle anderen gleich), da im letzteren Fall ein größerer Betrag der Größe von y auf x zurückzuführen ist. Macht jetzt nicht viel Sinn, wenn ich darüber nachdenke. Ich habe den Beitrag bearbeitet. y=10000+xy=xyx
Makro
4
@macro Ausgezeichnete Antwort, aber ich möchte betonen (für diejenigen, die neu in diesem Thema sind), dass R ^ 2 auch bei einer starken Beziehung sehr niedrig sein kann, wenn die Beziehung nichtlinear und insbesondere nichtmonoton ist. Mein Lieblingsbeispiel hierfür ist die Beziehung zwischen Stress und Prüfungsergebnis; Sehr niedriger Stress und sehr hoher Stress sind in der Regel schlechter als mäßiger Stress.
Peter Flom - Wiedereinsetzung von Monica
1
@macro Ja, Ihre Antwort war gut, aber ich habe mit Leuten zusammengearbeitet, die nicht viele Statistiken kennen, und ich habe gesehen, was passiert ... manchmal ist das, was wir sagen, nicht das, was sie hören!
Peter Flom - Reinstate Monica
14

Der gibt an, wie viel Variation der abhängigen Variablen durch ein Modell erklärt wird. Man kann jedoch sowohl R 2 als auch die Korrelation zwischen den ursprünglichen Werten der abhängigen Variablen und den angepassten Werten interpretieren . Die genaue Interpretation und Herleitung des Bestimmtheitsmaßes R 2 finden Sie hier .R2R2R2

Der Beweis , dass der Koeffizient der Bestimmung ist das Äquivalent der quadrierten Pearson - Korrelationskoeffizienten zwischen den beobachteten Werten und die angepaßten Werte y i gefunden werden kann hier .yichy^ich

Das oder der Bestimmungskoeffizient gibt die Stärke Ihres Modells an, um die abhängige Variable zu erläutern. In Ihrem Fall ist R 2 = 0,089 . Damit kann Ihr Modell 8,9% der Variation Ihrer abhängigen Variablen erklären. Oder der Korrelationskoeffizient zwischen y i und Ihren angepassten Werten y i ist 0,089. Was ein gutes R 2 ausmacht, ist disziplinabhängig.R2R2=0,089yichy^ichR2

Schließlich zum letzten Teil Ihrer Frage. Sie können den Durbin-Watson-Test nicht dazu bringen, etwas über die Korrelation zwischen Ihren abhängigen und unabhängigen Variablen zu sagen. Der Durbin-Watson-Test prüft die serielle Korrelation. Es wird geprüft, ob Ihre Fehlerausdrücke miteinander korreliert sind.

Lionel Benza
quelle
9

R2

R2

x

jedfrancis
quelle
Vielen Dank, @jed. Ja, ich hatte die Normalität der Residuen überprüft und alles war in Ordnung. Ihr Vorschlag, dass die Daten weit um diese Regressionslinie verteilt sind, ist genau richtig - die Datenpunkte sehen aus wie eine Wolke um die von der Software gezeichnete Regressionslinie.
Mog
1
Willkommen auf unserer Website, @jed, und vielen Dank für Ihre Antwort! Bitte beachten Sie, dass die Steigung selbst, abgesehen von ihrem Vorzeichen, fast nichts über die Korrelation aussagt, da die Korrelation nicht von den Einheiten abhängt, in denen X und Y gemessen werden, sondern von der Steigung.
Whuber
1
@whuber sagt , dass der Wert der Steigung ist nicht Sie sagen nichts über die Stärke der Assoziation , es sei denn Variablen standardisiert sind. Siehe shabbychefs Antwort.
wolf.rauch
@ wolf.rauch gotcha
jedfrancis
@jed Es wäre gut, wenn du deine Antwort korrigieren würdest.
Whuber
7

R2yxxyR2

Kurz gesagt, die Steigung ist kein guter Indikator für die Modellanpassung, es sei denn, Sie sind sich sicher, dass die Skalen der abhängigen und unabhängigen Variablen gleich sein müssen.

shabbychef
quelle
1

Ich mag die bereits gegebenen Antworten, aber lasse mich sie mit einem anderen (und ironischeren) Ansatz ergänzen.

Angenommen, wir sammeln eine Reihe von Beobachtungen von 1000 zufälligen Personen, die versuchen herauszufinden, ob Schläge im Gesicht mit Kopfschmerzen verbunden sind:

Heeindeinches=β0+β1Punch_ichn_the_feince+ε

ε

β1R2

Grafisch sieht dies wahrscheinlich wie ein steiler Hang aus, jedoch mit einer sehr großen Abweichung um diesen Hang herum.

cd98
quelle
0

@Macro hatte eine tolle Antwort.

Der geschätzte Wert der Steigung allein sagt noch nichts über die Stärke der Beziehung aus. Die Stärke der Beziehung hängt von der Größe der Fehlervarianz und dem Bereich des Prädiktors ab. Ein signifikanter pp-Wert sagt nicht unbedingt aus, dass eine starke Beziehung besteht. Der pp-Wert testet einfach, ob die Steigung genau 0 ist.

Ich möchte nur ein numerisches Beispiel hinzufügen, um zu zeigen, wie es aussieht, wenn ein Fall-OP beschrieben wird.

  • R2
  • Signifikant für den p-Wert
  • 1,0

    set.seed(6)
    y=c(runif(100)*50,runif(100)*50+10)
    x=c(rep(1,100),rep(10,100))
    plot(x,y)
    
    fit=lm(y~x)
    summary(fit)
    abline(fit)
    
    
    > summary(lm(y~x))
    
    Call:
    lm(formula = y ~ x)
    
    Residuals:
       Min     1Q Median     3Q    Max 
    -24.68 -13.46  -0.87  14.21  25.14 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
    x             0.9164     0.2407   3.807 0.000188 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 15.32 on 198 degrees of freedom
    Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
    F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877
    

Bildbeschreibung hier eingeben

Haitao Du
quelle