In R gibt der drop1
Befehl etwas Ordentliches aus.
Diese beiden Befehle sollten Ihnen eine Ausgabe bringen:
example(step)#-> swiss
drop1(lm1, test="F")
Meins sieht so aus:
> drop1(lm1, test="F")
Single term deletions
Model:
Fertility ~ Agriculture + Examination + Education + Catholic +
Infant.Mortality
Df Sum of Sq RSS AIC F value Pr(F)
<none> 2105.0 190.69
Agriculture 1 307.72 2412.8 195.10 5.9934 0.018727 *
Examination 1 53.03 2158.1 189.86 1.0328 0.315462
Education 1 1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic 1 447.71 2552.8 197.75 8.7200 0.005190 **
Infant.Mortality 1 408.75 2513.8 197.03 7.9612 0.007336 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Was bedeutet das alles? Ich gehe davon aus, dass die "Sterne" bei der Entscheidung helfen, welche Eingabevariablen beibehalten werden sollen. In der obigen Ausgabe möchte ich die Variable "Examination" verwerfen und mich auf die Variable "Education" konzentrieren. Ist die Interpretation so korrekt?
Auch der AIC-Wert, niedriger ist besser, ja?
Ed. Beachten Sie bitte die Antwort im Community-Wiki unten und ergänzen Sie sie, wenn Sie dies für richtig halten, um diese Ausgabe zu verdeutlichen.
step()
wurde zum Zeitpunkt des Schreibens mit +2 bewertet (warum also ?!), (3) das OP hat die Nützlichkeit der Antwort von @ Joris anerkannt.Antworten:
drop1
gibt Ihnen einen Vergleich der Modelle basierend auf dem AIC-Kriterium und bei Verwendung der Optiontest="F"
, fügen Sie eine "Typ II-ANOVA" hinzu, wie in den Hilfedateien erläutert . Solange Sie nur stetige Variablen haben, ist diese Tabelle genau gleichbedeutend mitsummary(lm1)
, da die F-Werte nur die quadrierten T-Werte sind. P-Werte sind exakt gleich.Also, was soll man damit machen? Interpretieren Sie es genau so: Es drückt auf eine Art und Weise aus, ob sich das Modell ohne diesen Begriff "signifikant" vom Modell mit diesem Begriff unterscheidet. Beachten Sie das "" deutlich, da die Bedeutung hier nicht so interpretiert werden kann, wie die meisten Leute denken. (Multi-Test-Problem und alle ...)
Und zum AIC: Je niedriger, desto besser. AIC ist ein Wert, der für das Modell gilt , nicht für die Variable. Das beste Modell aus dieser Ausgabe wäre also das ohne die Variablenprüfung.
Die Berechnung der AIC- und der F-Statistik unterscheidet sich jedoch von den R-Funktionen
AIC(lm1)
.anova(lm1)
. DieseAIC()
Informationen finden Sie auf den Hilfeseiten vonextractAIC()
. Für dieanova()
Funktion ist es ziemlich offensichtlich, dass Typ I und Typ II SS nicht gleich sind.Ich versuche nicht unhöflich zu sein, aber wenn Sie nicht verstehen, was in den Hilfedateien dort erklärt wird, sollten Sie die Funktion überhaupt nicht verwenden. Eine schrittweise Regression ist unglaublich trickreich und gefährdet Ihre p-Werte in höchstem Maße. Beruhen Sie sich also nicht auf den p-Werten. Ihr Modell sollte Ihre Hypothese widerspiegeln und nicht umgekehrt.
quelle
Als Referenz sind dies die Werte, die in der Tabelle enthalten sind:
Df
Bezieht sich auf Freiheitsgrade . "Die Anzahl der Freiheitsgrade ist die Anzahl der Werte in der endgültigen Berechnung einer Statistik, die frei variieren kann."Die
Sum of Sq
Spalte bezieht sich auf die Summe der Quadrate (oder genauer gesagt die Summe der quadratischen Abweichungen ). Kurz gesagt ist dies ein Maß für den Betrag, um den jeder einzelne Wert vom Gesamtmittel dieser Werte abweicht.RSS
ist die Restsumme der Quadrate . Dies ist ein Maß dafür, wie stark der vorhergesagte Wert der abhängigen (oder ausgegebenen) Variablen vom wahren Wert für jeden Datenpunkt in der Menge abweicht (oder umgangssprachlich: jede "Linie" in der Datentabelle).AIC
ist das Akaike-Informationskriterium, das allgemein als "zu komplex zum Erklären" angesehen wird, aber kurz gesagt ein Maß für die Anpassungsgüte eines geschätzten statistischen Modells ist. Wenn Sie weitere Informationen benötigen, müssen Sie sich an tote Bäume wenden, auf denen Wörter (dh Bücher) stehen. Oder Wikipedia und die dortigen Ressourcen.Das
F value
wird verwendet, um einen sogenannten F-Test durchzuführen, und daraus wird derPr(F)
Wert abgeleitet , der beschreibt, wie wahrscheinlich (oder wahrscheinlich = Pr) dieser F-Wert ist. Ein Pr (F) -Wert nahe Null (angezeigt durch***
) zeigt eine Eingabevariable an, die in irgendeiner Weise wichtig ist, um in ein gutes Modell aufgenommen zu werden, dh ein Modell, das es nicht enthält, unterscheidet sich "signifikant" von dem einen das tut.Alle diese Werte werden im Kontext des
drop1
Befehls berechnet, um das Gesamtmodell (einschließlich aller Eingabevariablen) mit dem Modell zu vergleichen, das sich aus dem Entfernen dieser einen bestimmten Variablen pro Zeile in der Ausgabetabelle ergibt.Wenn dies nun verbessert werden kann, können Sie es gerne ergänzen oder Probleme klären. Mein Ziel ist es nur, einen besseren "Reverse Lookup" -Referenzwert von der Ausgabe eines R-Befehls zur tatsächlichen Bedeutung des Befehls zu erläutern und bereitzustellen.
quelle