Was ist die genaue Formel, die in R lm()
für das angepasste R-Quadrat verwendet wird? Wie kann ich das interpretieren?
Angepasste R-Quadrat-Formeln
Es scheinen verschiedene Formeln zur Berechnung des bereinigten R-Quadrats zu existieren.
- Wherry-Formel:
- McNemars Formel:
- Gottes Formel:
- Steins Formel:
Lehrbuchbeschreibungen
- Laut Field's Lehrbuch, Discovering Statistics Using R (2012, S. 273), verwendet R Wherry's Gleichung, die besagt, "wie viel Varianz in Y berücksichtigt würde, wenn das Modell aus der Population abgeleitet worden wäre, aus der die Stichprobe entnommen wurde". Er gibt die Formel für Wherry nicht an. Er empfiehlt die Verwendung von Steins Formel (von Hand), um zu überprüfen, wie gut das Modell eine Kreuzvalidierung durchführt.
- Kleiber / Zeileis, Angewandte Ökonometrie mit R (2008, S. 59) behaupten, es sei "Theils angepasstes R-Quadrat" und sagen nicht genau, wie sich seine Interpretation von dem multiplen R-Quadrat unterscheidet.
- Dalgaard, Introductory Statistics with R (2008, S. 113), schreibt: "Wenn Sie [angepasstes R-Quadrat] mit 100% multiplizieren, kann dies als '% Varianzreduktion' interpretiert werden." Er sagt nicht, welcher Formel dies entspricht.
Ich hatte vorher viel darüber nachgedacht und gelesen, dass R-Quadrat bestraft, wenn dem Modell zusätzliche Variablen hinzugefügt wurden. Nun scheint die Verwendung dieser verschiedenen Formeln unterschiedliche Interpretationen erforderlich zu machen. Ich habe mir auch eine verwandte Frage zum Stapelüberlauf ( Was ist der Unterschied zwischen multiplem R-Quadrat und angepasstem R-Quadrat in einer Regression mit einer einzigen variablen kleinsten Quadrate? ) Und das statistische Wörterbuch der Wharton-Schule bei UPenn angesehen .
Fragen
- Welche Formel wird für das angepasste r-Quadrat von R verwendet
lm()
? - Wie kann ich das interpretieren?
ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
wobei ans $ r.squared = R ^ 2 ist; n = n, rdf = restliche df, df.int = Schnittpunkt df (0 oder 1).Antworten:
1. Welche Formel wird
lm
in R für das angepasste r-Quadrat verwendet?Wie bereits erwähnt, erhalten Sie durch Tippen
summary.lm
den Code, den R zur Berechnung des angepassten R-Quadrats verwendet. Extrahieren der relevantesten Zeile, die Sie erhalten:was in mathematischer Notation entspricht:
Angenommen, es gibt einen Achsenabschnitt (dhn p
df.int=1
), ist Ihre Stichprobengröße und p ist Ihre Anzahl von Prädiktoren. Somit sind Ihre Fehlerfreiheitsgrade (dh ) gleich .rdf
n-p-1
2. Warum gibt es so viele angepasste R-Quadrat-Formeln?
Verweise
quelle
Zu Ihrer ersten Frage: Wenn Sie nicht wissen, wie sie berechnet wird, schauen Sie sich den Code an! Wenn Sie
summary.lm
Ihre Konsole eingeben, erhalten Sie den Code für diese Funktion. Wenn Sie throught den Code abschöpfen finden Sie eine Zeile finden:ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
. Wenn Sie sich einige Zeilen oberhalb dieser Zeile ansehen, werden Sie feststellen, dass:ans$r.squared
n
ist die Anzahl der Residuen = Anzahl der Beobachtungendf.int
ist 0 oder 1 (abhängig davon, ob Sie einen Intercept haben)rdf
sind deine restlichen dfquelle