Die Hilfeseiten in R setzen voraus, dass ich weiß, was diese Zahlen bedeuten, aber ich weiß es nicht. Ich versuche, jede Zahl hier wirklich intuitiv zu verstehen. Ich werde nur die Ausgabe posten und kommentieren, was ich herausgefunden habe. Es könnte (wird) Fehler geben, da ich einfach schreiben werde, was ich annehme. Hauptsächlich möchte ich wissen, was der t-Wert in den Koeffizienten bedeutet und warum sie den restlichen Standardfehler ausgeben.
Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)
Residuals:
Min 1Q Median 3Q Max
-1.09907 -0.23626 -0.01064 0.23345 1.17532
Dies ist eine 5-Punkte-Zusammenfassung der Residuen (ihr Mittelwert ist immer 0, oder?). Die Zahlen können verwendet werden (ich vermute hier), um schnell zu sehen, ob es große Ausreißer gibt. Außerdem können Sie hier bereits sehen, ob die Residuen nicht normalverteilt sind (sie sollten normalverteilt sein).
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.30843 0.06210 53.278 < 2e-16 ***
iris$Petal.Width -0.20936 0.04374 -4.786 4.07e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Schätzungen , berechnet durch Regression der kleinsten Quadrate. Außerdem lautet der Standardfehler . Ich würde gerne wissen, wie das berechnet wird. Ich habe keine Ahnung, woher der t-Wert und der entsprechende p-Wert kommen. Ich weiß, dass normalverteilt sein sollte, aber wie wird der t-Wert berechnet?
Residual standard error: 0.407 on 148 degrees of freedom
, denke ich. Aber warum berechnen wir das und was sagt es uns?
Multiple R-squared: 0.134, Adjusted R-squared: 0.1282
, das ist . Das Verhältnis liegt nahe bei 1, wenn die Punkte auf einer geraden Linie liegen, und bei 0, wenn sie zufällig sind. Was ist das bereinigte R-Quadrat?
F-statistic: 22.91 on 1 and 148 DF, p-value: 4.073e-06
F und p für das gesamte Modell, nicht nur für einzelne s wie zuvor. Der F-Wert ist . Je größer es wird, desto unwahrscheinlicher ist es, dass die überhaupt keine Wirkung haben.
quelle
Antworten:
Fünf-Punkte-Zusammenfassung
Ja, die Idee ist, eine kurze Zusammenfassung der Verteilung zu geben. Es sollte ungefähr symmetrisch zum Mittelwert sein, der Median sollte nahe 0 sein, die 1Q- und 3Q-Werte sollten idealerweise ungefähr ähnliche Werte sein.
Koeffizienten undβi^s
Jeder Koeffizient im Modell ist eine Gaußsche (normale) Zufallsvariable. Die ist die Schätzung des Mittelwerts der Verteilung dieser Zufallsvariablen, und der Standardfehler ist die Quadratwurzel der Varianz dieser Verteilung. Es ist ein Maß für die Unsicherheit bei der Schätzung des .βi^ βi^
Sie können sehen, wie diese bei Wikipedia berechnet werden (auch die verwendeten mathematischen Formeln) . Beachten Sie, dass jedes Programm für Statistiken mit Selbstachtung nicht die mathematischen Standardgleichungen verwendet, um den zu berechnen, da dies auf einem Computer zu einem großen Genauigkeitsverlust bei den Berechnungen führen kann.βi^
Die Statistiken sind die Schätzungen ( ) geteilt durch ihre Standardfehler ( ), z. B. . Angenommen, Sie haben dasselbe Modell im Objekt wie Ihr Q:t βi^ σi^ ti=βi^σi^
mod
dann werden die Werte R-Berichte wie folgt berechnet:t
Woβi^ σi^
coef(mod)
sind die und gibt die Quadratwurzeln der diagonalen Elemente der Kovarianzmatrix der Modellparameter an, die die Standardfehler der Parameter sind ( ).sqrt(diag(vcov(mod)))
Der p-Wert ist die Wahrscheinlichkeit, einso groß wie oder größer als der absolute beobachtet t - Wert , wenn die Nullhypothese ( ) wahr ist , wobei ist . Sie werden wie folgt berechnet (Verwendung von oben):|t| H0 H0 βi=0
tstats
Daher berechnen wir die Wahrscheinlichkeit des oberen Endes, die Werte zu erreichen, die wir aus einer Verteilung mit Freiheitsgraden erzielt haben, die den verbleibenden Freiheitsgraden des Modells entsprechen. Dies stellt die Wahrscheinlichkeit dar, einen Wert zu erreichen, der größer als die absoluten Werte der beobachteten s ist. Es wird mit 2 multipliziert, da natürlich auch in negativer Richtung groß sein kann.t t t t t
Reststandardfehler
Der verbleibende Standardfehler ist eine Schätzung des Parameters . Die Annahme in gewöhnlichen kleinsten Quadraten ist, dass die Residuen einzeln durch eine Gaußsche (Normal-) Verteilung mit Mittelwert 0 und Standardabweichung . Das bezieht sich auf die Annahme der konstanten Varianz; Jedes Residuum hat die gleiche Varianz und diese Varianz ist gleich .σ σ σ σ2
BereinigtesR2
Das angepasste wird wie folgt berechnet:R2
Das angepasste ist dasselbe wie , wird jedoch an die Komplexität (dh die Anzahl der Parameter) des Modells angepasst. Wenn wir bei einem Modell mit einem einzelnen Parameter und einem bestimmten diesem Modell einen weiteren Parameter hinzufügen, muss sich der des neuen Modells erhöhen, auch wenn der hinzugefügte Parameter keine statistische Aussagekraft hat. Das angepasste berücksichtigt dies, indem die Anzahl der Parameter in das Modell aufgenommen wird.R2 R2 R2 R2 R2
Das ist das Verhältnis zweier Varianzen ( ), die Varianz, die durch die Parameter im Modell (Summe der Regressionsquadrate, SSR) und die verbleibende oder unerklärte Varianz (Summe der Fehlerquadrate, SSE) erklärt wird. Sie können dies besser sehen, wenn wir die ANOVA-Tabelle für das Modell erhalten über :F SSR/SSE
anova()
Die sind in der ANOVA-Ausgabe und der Ausgabe gleich. Die Spalte enthält die beiden Varianzen und . Wir können aus einer Verteilung mit 1 und 148 Freiheitsgraden die Wahrscheinlichkeit berechnen, ein , das unter der Nullhypothese ohne Wirkung so groß ist . Dies ist, was in der letzten Spalte der ANOVA-Tabelle berichtet wird. Im einfachen Fall eines einzelnen kontinuierlichen Prädiktors (wie in Ihrem Beispiel) ist , weshalb die p-Werte gleich sind. Diese Äquivalenz gilt nur in diesem einfachen Fall.F 3.7945/0.1656=22.91 F F F=t2Petal.Width
summary(mod)
Mean Sq
quelle
Ronen Israel und Adrienne Ross (AQR) haben zu diesem Thema einen sehr schönen Artikel geschrieben: Measuring Factor Exposures: Uses and Abuses .
Zusammenfassend (siehe: S. 8),
Die
lm()
Zusammenfassung von R berechnet den p-WertPr(>|t|)
. Je kleiner der p-Wert ist, desto signifikanter ist der Faktor. P-Wert = 0,05 ist eine vernünftige Schwelle.quelle