Interpretation der lm () -Ausgabe von R

234

Die Hilfeseiten in R setzen voraus, dass ich weiß, was diese Zahlen bedeuten, aber ich weiß es nicht. Ich versuche, jede Zahl hier wirklich intuitiv zu verstehen. Ich werde nur die Ausgabe posten und kommentieren, was ich herausgefunden habe. Es könnte (wird) Fehler geben, da ich einfach schreiben werde, was ich annehme. Hauptsächlich möchte ich wissen, was der t-Wert in den Koeffizienten bedeutet und warum sie den restlichen Standardfehler ausgeben.

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

Dies ist eine 5-Punkte-Zusammenfassung der Residuen (ihr Mittelwert ist immer 0, oder?). Die Zahlen können verwendet werden (ich vermute hier), um schnell zu sehen, ob es große Ausreißer gibt. Außerdem können Sie hier bereits sehen, ob die Residuen nicht normalverteilt sind (sie sollten normalverteilt sein).

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Schätzungen , berechnet durch Regression der kleinsten Quadrate. Außerdem lautet der Standardfehler . Ich würde gerne wissen, wie das berechnet wird. Ich habe keine Ahnung, woher der t-Wert und der entsprechende p-Wert kommen. Ich weiß, dass normalverteilt sein sollte, aber wie wird der t-Wert berechnet?βi^σβiβ^

Residual standard error: 0.407 on 148 degrees of freedom

1npϵTϵ , denke ich. Aber warum berechnen wir das und was sagt es uns?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

R2=sy^2sy2 , das ist . Das Verhältnis liegt nahe bei 1, wenn die Punkte auf einer geraden Linie liegen, und bei 0, wenn sie zufällig sind. Was ist das bereinigte R-Quadrat?i=1n(yi^y¯)2i=1n(yiy¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

F und p für das gesamte Modell, nicht nur für einzelne s wie zuvor. Der F-Wert ist . Je größer es wird, desto unwahrscheinlicher ist es, dass die überhaupt keine Wirkung haben.βisy^2ϵiβ

Alexander Engelhardt
quelle
Residuen weichen nicht so stark von der Normalität ab, warum denkst du das?
Nico
@nico: Ich denke, @Alexx Hardt hat hypothetisch gesprochen. Das heißt, einmal konnte man anhand der Fünf-Zahlen-Zusammenfassung feststellen, ob die Residuen vom Normalwert abweichen
Gavin Simpson,
@Gavin Simpson: Du hast recht, ich habe den Satz falsch verstanden. Ignoriere meinen vorherigen Kommentar.
Nico
9
Geringfügiger Streit: Sie können nichts über Normalität oder Nicht-Normalität sagen, wenn Sie nur diese 5 Quantile verwenden. Alles, was Sie anhand dieser Zusammenfassung sagen können, ist, ob die geschätzten Residuen um Null herum ungefähr symmetrisch sind. Sie könnten die angegebenen Quantile durch den geschätzten Reststandardfehler dividieren und diese Werte mit den jeweiligen Quantilen von N (0,1) vergleichen. Ein Blick auf ein QQ-Diagramm ist jedoch wahrscheinlich sinnvoller.
Fabians
5
Eine Anmerkung hier: Das Modell ist nicht , sondern . wird in der Antwort unten korrekt beschrieben, erwähnt jedoch nicht ausdrücklich, dass es in der Frage falsch charakterisiert ist, sodass jemand die Diskrepanz möglicherweise nicht bemerkt. FSSmodel/SSerrorMSmodel/MSerrorF
gung

Antworten:

202

Fünf-Punkte-Zusammenfassung

Ja, die Idee ist, eine kurze Zusammenfassung der Verteilung zu geben. Es sollte ungefähr symmetrisch zum Mittelwert sein, der Median sollte nahe 0 sein, die 1Q- und 3Q-Werte sollten idealerweise ungefähr ähnliche Werte sein.

Koeffizienten undβi^s

Jeder Koeffizient im Modell ist eine Gaußsche (normale) Zufallsvariable. Die ist die Schätzung des Mittelwerts der Verteilung dieser Zufallsvariablen, und der Standardfehler ist die Quadratwurzel der Varianz dieser Verteilung. Es ist ein Maß für die Unsicherheit bei der Schätzung des .βi^βi^

Sie können sehen, wie diese bei Wikipedia berechnet werden (auch die verwendeten mathematischen Formeln) . Beachten Sie, dass jedes Programm für Statistiken mit Selbstachtung nicht die mathematischen Standardgleichungen verwendet, um den zu berechnen, da dies auf einem Computer zu einem großen Genauigkeitsverlust bei den Berechnungen führen kann.βi^

t -Statistiken

Die Statistiken sind die Schätzungen ( ) geteilt durch ihre Standardfehler ( ), z. B. . Angenommen, Sie haben dasselbe Modell im Objekt wie Ihr Q:tβi^σi^ti=βi^σi^mod

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

dann werden die Werte R-Berichte wie folgt berechnet:t

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

Wo coef(mod)sind die und gibt die Quadratwurzeln der diagonalen Elemente der Kovarianzmatrix der Modellparameter an, die die Standardfehler der Parameter sind ( ).βi^sqrt(diag(vcov(mod)))σi^

Der p-Wert ist die Wahrscheinlichkeit, einso groß wie oder größer als der absolute beobachtet t - Wert , wenn die Nullhypothese ( ) wahr ist , wobei ist . Sie werden wie folgt berechnet (Verwendung von oben):|t|H0H0βi=0tstats

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

Daher berechnen wir die Wahrscheinlichkeit des oberen Endes, die Werte zu erreichen, die wir aus einer Verteilung mit Freiheitsgraden erzielt haben, die den verbleibenden Freiheitsgraden des Modells entsprechen. Dies stellt die Wahrscheinlichkeit dar, einen Wert zu erreichen, der größer als die absoluten Werte der beobachteten s ist. Es wird mit 2 multipliziert, da natürlich auch in negativer Richtung groß sein kann.ttttt

Reststandardfehler

Der verbleibende Standardfehler ist eine Schätzung des Parameters . Die Annahme in gewöhnlichen kleinsten Quadraten ist, dass die Residuen einzeln durch eine Gaußsche (Normal-) Verteilung mit Mittelwert 0 und Standardabweichung . Das bezieht sich auf die Annahme der konstanten Varianz; Jedes Residuum hat die gleiche Varianz und diese Varianz ist gleich .σσσσ2

BereinigtesR2

Das angepasste wird wie folgt berechnet:R2

1(1R2)n1np1

Das angepasste ist dasselbe wie , wird jedoch an die Komplexität (dh die Anzahl der Parameter) des Modells angepasst. Wenn wir bei einem Modell mit einem einzelnen Parameter und einem bestimmten diesem Modell einen weiteren Parameter hinzufügen, muss sich der des neuen Modells erhöhen, auch wenn der hinzugefügte Parameter keine statistische Aussagekraft hat. Das angepasste berücksichtigt dies, indem die Anzahl der Parameter in das Modell aufgenommen wird.R2R2R2R2R2

F Statistik

Das ist das Verhältnis zweier Varianzen ( ), die Varianz, die durch die Parameter im Modell (Summe der Regressionsquadrate, SSR) und die verbleibende oder unerklärte Varianz (Summe der Fehlerquadrate, SSE) erklärt wird. Sie können dies besser sehen, wenn wir die ANOVA-Tabelle für das Modell erhalten über :FSSR/SSEanova()

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Die sind in der ANOVA-Ausgabe und der Ausgabe gleich. Die Spalte enthält die beiden Varianzen und . Wir können aus einer Verteilung mit 1 und 148 Freiheitsgraden die Wahrscheinlichkeit berechnen, ein , das unter der Nullhypothese ohne Wirkung so groß ist . Dies ist, was in der letzten Spalte der ANOVA-Tabelle berichtet wird. Im einfachen Fall eines einzelnen kontinuierlichen Prädiktors (wie in Ihrem Beispiel) ist , weshalb die p-Werte gleich sind. Diese Äquivalenz gilt nur in diesem einfachen Fall.Fsummary(mod)Mean Sq3.7945/0.1656=22.91FFF=tPetal.Width2

Gavin Simpson
quelle
5
@Gavin (+1) Tolle Resonanz mit schönen Illustrationen!
chl
2
Gute Arbeit. Eine Sache, die Sie in Bezug auf die Berechnung von t-Werten klarstellen könnten: sqrt (diag (vcov (mod))) erzeugt die SE der Schätzungen. Dies sind dieselben SEs, die in der Modellzusammenfassung ausgegeben werden. Einfacher und klarer zu sagen, dass t = Schätzen / Schätzen. In diesem Sinne ist es nicht anders als jeder andere t-Wert.
Brett
2
(+1) Das ist großartig. Das einzige, was ich hinzufügen möchte, ist, dass der Wert für die Steigung mit identisch ist (weshalb die p-Werte identisch sind). Dies gilt natürlich nicht für mehrere erklärende Variablen. Ft2
2
@ Jay; Vielen Dank. Ich habe darüber nachgedacht, auch diese Äquivalenz zu erwähnen. War nicht sicher, ob es zu detailliert war oder nicht? Ich werde in Kürze etwas dazu hinzufügen.
Gavin Simpson
2
"wird nicht die mathematischen Standardgleichungen verwenden, um zu berechnen" Was werden sie verwenden?
SmallChess
0

Ronen Israel und Adrienne Ross (AQR) haben zu diesem Thema einen sehr schönen Artikel geschrieben: Measuring Factor Exposures: Uses and Abuses .

Zusammenfassend (siehe: S. 8),

  • Im Allgemeinen erklärt das Modell die Portfoliorenditen umso besser , je höher der .R2
  • Wenn die t-Statistik größer als zwei ist, können wir mit einer Wahrscheinlichkeit von 95% (oder mit einer Wahrscheinlichkeit von 5%, dass wir falsch liegen) sagen, dass die Beta-Schätzung statistisch von Null abweicht. Mit anderen Worten, wir können sagen, dass ein Portfolio in erheblichem Maße einem Faktor ausgesetzt ist.

Die lm()Zusammenfassung von R berechnet den p-Wert Pr(>|t|). Je kleiner der p-Wert ist, desto signifikanter ist der Faktor. P-Wert = 0,05 ist eine vernünftige Schwelle.

Steve Lihn
quelle
6
Die Arten von Falschangaben in diesem Artikel, beispielhaft dargestellt durch "Wenn die t-Statistik größer als zwei ist, können wir (mit einer Wahrscheinlichkeit von 5%, dass wir falsch liegen) sagen, dass die Beta-Schätzung statistisch von Null abweicht" [auf S. . 11] finden Sie unter stats.stackexchange.com/questions/311763 und stats.stackexchange.com/questions/26450 .
Whuber