Was sagen r, r im Quadrat und die Reststandardabweichung über eine lineare Beziehung aus?

13

Wenig Hintergrund
Ich arbeite an der Interpretation der Regressionsanalyse, aber ich bin sehr verwirrt über die Bedeutung von r, r im Quadrat und der restlichen Standardabweichung. Ich kenne die Definitionen:

Charakterisierungen

r misst die Stärke und Richtung einer linearen Beziehung zwischen zwei Variablen in einem Streudiagramm

Das R-Quadrat ist ein statistisches Maß dafür, wie nahe die Daten an der angepassten Regressionslinie liegen.

Die Reststandardabweichung ist ein statistischer Ausdruck, der zur Beschreibung der Standardabweichung von Punkten verwendet wird, die um eine lineare Funktion gebildet werden, und ist eine Schätzung der Genauigkeit der zu messenden abhängigen Variablen. ( Ich weiß nicht, was die Einheiten sind. Informationen zu den Einheiten hier wären hilfreich. )

(Quellen: hier )

Frage
Obwohl ich die Charakterisierungen "verstehe", verstehe ich, wie diese Begriffe eine Schlussfolgerung über den Datensatz ziehen können. Ich werde hier ein kleines Beispiel einfügen. Vielleicht kann dies als Leitfaden für die Beantwortung meiner Frage dienen ( Sie können gerne ein eigenes

Beispiel verwenden !). Beispiel
Dies ist keine Howework-Frage, ich habe jedoch in meinem Buch nach einem einfachen Beispiel gesucht (Der aktuelle Datensatz, den ich analysiere, ist zu komplex und zu groß, um ihn hier anzuzeigen.)

In einem großen Getreidefeld wurden 20 Parzellen zu je 10 x 4 Metern zufällig ausgewählt. Für jede Parzelle wurden die Pflanzendichte (Anzahl der Pflanzen in der Parzelle) und das mittlere Kolbengewicht (g Getreide pro Kolben) beobachtet. Die Ergebnisse sind in der folgenden Tabelle aufgeführt:
(Quelle: Statistik für die Biowissenschaften )

╔═══════════════╦════════════╦══╗
 Platn density  Cob weight   
╠═══════════════╬════════════╬══╣
           137         212   
           107         241   
           132         215   
           135         225   
           115         250   
           103         241   
           102         237   
            65         282   
           149         206   
            85         246   
           173         194   
           124         241   
           157         196   
           184         193   
           112         224   
            80         257   
           165         200   
           160         190   
           157         208   
           119         224   
╚═══════════════╩════════════╩══╝

Zuerst mache ich ein Streudiagramm, um die Daten zu visualisieren: So kann ich r, R 2 und die verbleibende Standardabweichung berechnen. Zuerst der Korrelationstest:
Bildbeschreibung hier eingeben

    Pearson's product-moment correlation

data:  X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9770972 -0.8560421
sample estimates:
       cor 
-0.9417954 

und zweitens eine Zusammenfassung der Regressionsgeraden:

Residuals:
    Min      1Q  Median      3Q     Max 
-11.666  -6.346  -1.439   5.049  16.496 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 316.37619    7.99950   39.55  < 2e-16 ***
X            -0.72063    0.06063  -11.88 5.89e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared:  0.887, Adjusted R-squared:  0.8807 
F-statistic: 141.3 on 1 and 18 DF,  p-value: 5.889e-10

Also basierend auf diesem Test: r = -0.9417954, R-Quadrat: 0.887und Reststandardfehler: 8.619 Was sagen diese Werte über den Datensatz aus? (siehe Frage )

KingBoomie
quelle
3
Es kann erwähnenswert sein, dass das, was Sie als "Definitionen" bezeichnen, nur zufällige Charakterisierungen sind und als solche in Abhängigkeit davon, wie sie interpretiert und angewendet werden, irreführend sein können. Die tatsächlichen Definitionen sind quantitativ und präzise.
whuber
Vielen Dank, dass Sie darauf hingewiesen haben, dass die von mir verwendeten Quellen diese Definitionen genannt haben, aber ohne Kontext "Charakterisierungen" wäre dies wahrscheinlich besser, das werde ich ändern!
KingBoomie
Teile: R-Quadrat wird normalerweise als der Anteil der Varianz erklärt, der durch die Prädiktoren erklärt wird, so dass nahe 1 gut ist. Die Einheiten der Residuen-Standardabweichung sollten die Einheiten Ihrer Residuen sein, die die Einheiten Ihrer Antwortvariablen sind.
alistaire
Vielen Dank! @alistaire tatsächlich macht dies Sinn, hahah, weil wir den y-Wert der ursprünglichen Punkte mit den y-Werten der vorhergesagten Punkte vergleichen
KingBoomie
Sie sollten die vorhergesagten Residuen wie von David in seiner Antwort vorgeschlagen gegenzeichnen.
HelloWorld

Antworten:

5

Diese Statistiken können Aufschluss darüber geben, ob die Beziehung eine lineare Komponente aufweist, aber nicht darüber, ob die Beziehung streng linear ist. Eine Beziehung mit einer kleinen quadratischen Komponente kann ein r ^ 2 von 0,99 haben. Eine Darstellung von Residuen als Funktion der Vorhersage kann aufschlussreich sein. In Galileos Experiment hier https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html ist die Korrelation sehr hoch, aber die Beziehung ist eindeutig nichtlinear.

David Lane
quelle
5

Hier ist ein zweiter Versuch einer Antwort, nachdem ich Feedback zu Problemen mit meiner ersten Antwort erhalten habe.

r|r||r|

R2r2R2

rR2rrR2rR2

Der Reststandardfehler ist die Standardabweichung für eine Normalverteilung, die auf der vorhergesagten Regressionslinie zentriert ist und die Verteilung der tatsächlich beobachteten Werte darstellt. Mit anderen Worten, wenn wir nur die Pflanzendichte für eine neue Parzelle messen, können wir das Cob-Gewicht anhand der Koeffizienten des angepassten Modells vorhersagen. Dies ist der Mittelwert dieser Verteilung. Der RSE ist die Standardabweichung dieser Verteilung und somit ein Maß dafür, wie stark die tatsächlich beobachteten Cob-Gewichte von den vom Modell vorhergesagten Werten abweichen. Ein RSE von ~ 8 muss in diesem Fall mit der Standardabweichung der Stichprobe des Kolbengewichts verglichen werden, aber je kleiner der RSE mit dem Stichproben-SD verglichen wird, desto prädiktiver oder angemessener ist das Modell.

Johan Falkenjack
quelle
@whuber Da es noch keine anderen Antworten auf diese Frage gibt, habe ich beschlossen, es noch einmal zu versuchen. Anstatt die alte Antwort mit allem Gepäck wiederherzustellen, habe ich beschlossen, einfach eine neue zu schreiben (mit Ausnahme des RSE-Absatzes, den ich kopiert habe). Wenn Sie Zeit haben, wäre ich für jede Rückmeldung zu diesem zweiten Versuch sehr dankbar. Mein üblicher Ansatz für die Modellbewertung ist die Kreuzvalidierung und das Festhalten an bestimmten Werten, da der Zweck in der Regel die Vorhersage ist, aber ich möchte diese Metriken wirklich verstehen, da sie ziemlich häufig sind.
Johan Falkenjack
2
|r|rρ