Wenig Hintergrund
Ich arbeite an der Interpretation der Regressionsanalyse, aber ich bin sehr verwirrt über die Bedeutung von r, r im Quadrat und der restlichen Standardabweichung. Ich kenne die Definitionen:
Charakterisierungen
r misst die Stärke und Richtung einer linearen Beziehung zwischen zwei Variablen in einem Streudiagramm
Das R-Quadrat ist ein statistisches Maß dafür, wie nahe die Daten an der angepassten Regressionslinie liegen.
Die Reststandardabweichung ist ein statistischer Ausdruck, der zur Beschreibung der Standardabweichung von Punkten verwendet wird, die um eine lineare Funktion gebildet werden, und ist eine Schätzung der Genauigkeit der zu messenden abhängigen Variablen. ( Ich weiß nicht, was die Einheiten sind. Informationen zu den Einheiten hier wären hilfreich. )
(Quellen: hier )
Frage
Obwohl ich die Charakterisierungen "verstehe", verstehe ich, wie diese Begriffe eine Schlussfolgerung über den Datensatz ziehen können. Ich werde hier ein kleines Beispiel einfügen. Vielleicht kann dies als Leitfaden für die Beantwortung meiner Frage dienen ( Sie können
gerne ein eigenes
Beispiel verwenden !). Beispiel
Dies ist keine Howework-Frage, ich habe jedoch in meinem Buch nach einem einfachen Beispiel gesucht (Der aktuelle Datensatz, den ich analysiere, ist zu komplex und zu groß, um ihn hier anzuzeigen.)
In einem großen Getreidefeld wurden 20 Parzellen zu je 10 x 4 Metern zufällig ausgewählt. Für jede Parzelle wurden die Pflanzendichte (Anzahl der Pflanzen in der Parzelle) und das mittlere Kolbengewicht (g Getreide pro Kolben) beobachtet. Die Ergebnisse sind in der folgenden Tabelle aufgeführt:
(Quelle: Statistik für die Biowissenschaften )
╔═══════════════╦════════════╦══╗
║ Platn density ║ Cob weight ║ ║
╠═══════════════╬════════════╬══╣
║ 137 ║ 212 ║ ║
║ 107 ║ 241 ║ ║
║ 132 ║ 215 ║ ║
║ 135 ║ 225 ║ ║
║ 115 ║ 250 ║ ║
║ 103 ║ 241 ║ ║
║ 102 ║ 237 ║ ║
║ 65 ║ 282 ║ ║
║ 149 ║ 206 ║ ║
║ 85 ║ 246 ║ ║
║ 173 ║ 194 ║ ║
║ 124 ║ 241 ║ ║
║ 157 ║ 196 ║ ║
║ 184 ║ 193 ║ ║
║ 112 ║ 224 ║ ║
║ 80 ║ 257 ║ ║
║ 165 ║ 200 ║ ║
║ 160 ║ 190 ║ ║
║ 157 ║ 208 ║ ║
║ 119 ║ 224 ║ ║
╚═══════════════╩════════════╩══╝
Zuerst mache ich ein Streudiagramm, um die Daten zu visualisieren:
So kann ich r, R 2 und die verbleibende Standardabweichung berechnen.
Zuerst der Korrelationstest:
Pearson's product-moment correlation
data: X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9770972 -0.8560421
sample estimates:
cor
-0.9417954
und zweitens eine Zusammenfassung der Regressionsgeraden:
Residuals:
Min 1Q Median 3Q Max
-11.666 -6.346 -1.439 5.049 16.496
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 316.37619 7.99950 39.55 < 2e-16 ***
X -0.72063 0.06063 -11.88 5.89e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared: 0.887, Adjusted R-squared: 0.8807
F-statistic: 141.3 on 1 and 18 DF, p-value: 5.889e-10
Also basierend auf diesem Test: r = -0.9417954
, R-Quadrat: 0.887
und Reststandardfehler: 8.619
Was sagen diese Werte über den Datensatz aus? (siehe Frage )
quelle
Antworten:
Diese Statistiken können Aufschluss darüber geben, ob die Beziehung eine lineare Komponente aufweist, aber nicht darüber, ob die Beziehung streng linear ist. Eine Beziehung mit einer kleinen quadratischen Komponente kann ein r ^ 2 von 0,99 haben. Eine Darstellung von Residuen als Funktion der Vorhersage kann aufschlussreich sein. In Galileos Experiment hier https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html ist die Korrelation sehr hoch, aber die Beziehung ist eindeutig nichtlinear.
quelle
Hier ist ein zweiter Versuch einer Antwort, nachdem ich Feedback zu Problemen mit meiner ersten Antwort erhalten habe.
Der Reststandardfehler ist die Standardabweichung für eine Normalverteilung, die auf der vorhergesagten Regressionslinie zentriert ist und die Verteilung der tatsächlich beobachteten Werte darstellt. Mit anderen Worten, wenn wir nur die Pflanzendichte für eine neue Parzelle messen, können wir das Cob-Gewicht anhand der Koeffizienten des angepassten Modells vorhersagen. Dies ist der Mittelwert dieser Verteilung. Der RSE ist die Standardabweichung dieser Verteilung und somit ein Maß dafür, wie stark die tatsächlich beobachteten Cob-Gewichte von den vom Modell vorhergesagten Werten abweichen. Ein RSE von ~ 8 muss in diesem Fall mit der Standardabweichung der Stichprobe des Kolbengewichts verglichen werden, aber je kleiner der RSE mit dem Stichproben-SD verglichen wird, desto prädiktiver oder angemessener ist das Modell.
quelle