Ich versuche die Logik hinter dem ANOVA F-Test in der einfachen linearen Regressionsanalyse zu verstehen. Die Frage, die ich habe, ist wie folgt. Wenn der F-Wert, dh
MSR/MSE
groß ist, akzeptieren wir das Modell als signifikant. Welche Logik steckt dahinter?
regression
anova
Kann nicht sagen
quelle
quelle
Antworten:
Im einfachsten Fall, wenn Sie nur einen Prädiktor haben (einfache Regression), sagen Sie , sagt Ihnen der F- Test, ob die Einbeziehung von X 1 einen größeren Teil der in Y beobachteten Varianz erklärt als das Nullmodell (nur Achsenabschnitt). . Die Idee ist dann zu testen, ob die hinzugefügte erklärte Varianz (Gesamtvarianz, TSS, minus Restvarianz, RSS) groß genug ist, um als "signifikante Größe" angesehen zu werden. Wir vergleichen hier ein Modell mit einem Prädiktor oder einer erklärenden Variablen mit einer Basislinie, die nur "Rauschen" ist (nichts außer dem großen Mittelwert).X1 F X1 Y
Eine Verallgemeinerung der obigen Idee ist der Likelihood-Ratio-Test .
Wenn Sie R verwenden, können Sie mit den obigen Konzepten wie folgt spielen:
quelle
anova()
Funktion in R gibt jedoch eine einzelne Zeile für jeden Prädiktor im Modell zurück. Zum Beispielanova(lm0)
liefert über eine Zeile fürV1
,V2
undResiduals
(und nicht insgesamt). Daher erhalten wir für dieses Modell zwei F * -Statistiken. Wie ändert sich die Interpretation der in der ANOVA-Tabelle angegebenen F * -Statistik?anova()
für den GLM-Vergleich. Wenn es auf einlm
oder einaov
Objekt angewendet wird, werden für jeden Begriff im Modell separate Effekte (SS) angezeigt, und TSS wird nicht angezeigt. (Früher habe ich das andersherum angewendet, dh nach dem Anpassen einer ANOVAaov()
kann ich mirsummary.lm()
ein Bild von den Behandlungskontrasten machen.) Es gibt jedoch subtile Probleme zwischensummary.lm()
undsummary.aov()
, insbesondere im Zusammenhang mit der sequentiellen Anpassung.