Logik hinter dem ANOVA F-Test in einfacher linearer Regression

17


Ich versuche die Logik hinter dem ANOVA F-Test in der einfachen linearen Regressionsanalyse zu verstehen. Die Frage, die ich habe, ist wie folgt. Wenn der F-Wert, dh MSR/MSEgroß ist, akzeptieren wir das Modell als signifikant. Welche Logik steckt dahinter?

Kann nicht sagen
quelle
@ Can'tTell Hier finden Sie Hilfe zum Formatieren: stats.stackexchange.com/editing-help

Antworten:

21

Im einfachsten Fall, wenn Sie nur einen Prädiktor haben (einfache Regression), sagen Sie , sagt Ihnen der F- Test, ob die Einbeziehung von X 1 einen größeren Teil der in Y beobachteten Varianz erklärt als das Nullmodell (nur Achsenabschnitt). . Die Idee ist dann zu testen, ob die hinzugefügte erklärte Varianz (Gesamtvarianz, TSS, minus Restvarianz, RSS) groß genug ist, um als "signifikante Größe" angesehen zu werden. Wir vergleichen hier ein Modell mit einem Prädiktor oder einer erklärenden Variablen mit einer Basislinie, die nur "Rauschen" ist (nichts außer dem großen Mittelwert).X1FX1Y

FFtz

F

F=(TSSRSS)/(p1)RSS/(np),

pnFp1,npp

M0M1pq=p+1RSSM1RSSM0(RSSM1RSSM0)/RSSM0pqnpFpqnpFFαα=0.05

Eine Verallgemeinerung der obigen Idee ist der Likelihood-Ratio-Test .

Wenn Sie R verwenden, können Sie mit den obigen Konzepten wie folgt spielen:

df <- transform(X <- as.data.frame(replicate(2, rnorm(100))), 
                                   y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df))         # "ANOVA view"
summary(lm(y ~ V1, df))       # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0)               # test of V2
chl
quelle
@chl - Zuallererst nette Antwort! Dies kann eine eigene Frage rechtfertigen. Lassen Sie es mich wissen. Die Beschreibungen zu ANOVA-Tabellen für Regressionsmodelle beziehen sich jedoch in der Regel auf drei Zeilen in der Tabelle: Prädiktoren, Fehler und Summe. Die anova()Funktion in R gibt jedoch eine einzelne Zeile für jeden Prädiktor im Modell zurück. Zum Beispiel anova(lm0)liefert über eine Zeile für V1, V2und Residuals(und nicht insgesamt). Daher erhalten wir für dieses Modell zwei F * -Statistiken. Wie ändert sich die Interpretation der in der ANOVA-Tabelle angegebenen F * -Statistik?
Chase
@Chase Ja, die ANOVA-Tabelle, an die ich denke, ist auch so angeordnet. Fühlen Sie sich frei, die Frage zu stellen; Ich würde gerne hören, was andere Benutzer davon halten. Ich benutze in der Regel anova()für den GLM-Vergleich. Wenn es auf ein lmoder ein aovObjekt angewendet wird, werden für jeden Begriff im Modell separate Effekte (SS) angezeigt, und TSS wird nicht angezeigt. (Früher habe ich das andersherum angewendet, dh nach dem Anpassen einer ANOVA aov()kann ich mir summary.lm()ein Bild von den Behandlungskontrasten machen.) Es gibt jedoch subtile Probleme zwischen summary.lm()und summary.aov(), insbesondere im Zusammenhang mit der sequentiellen Anpassung.
Chl
@Chase Ich habe gerade diese sehr nette Antwort von @Gavin über die Interpretation der lm () -Ausgabe von R wiederentdeckt .
Chl
@chl - Ein bisschen pingelig von mir. Es ist eine schöne Antwort auf die Intuition hinter dem F-Test und wie es "in die richtigen Richtungen geht". Aber es erklärt nicht die Logik, warum Sie diesen speziellen Test wählen sollten. Warum sollten wir zum Beispiel nicht die PRESS-Statistik verwenden? Sie deutete auf dem Likelihood - Verhältnis - was tut eine logische Rechtfertigung hat - daher ihre Anwendbarkeit auf alle Modelle, im Gegensatz zu dem F-Test.
Wahrscheinlichkeit
@ probabilityislogic Guter Punkt. Meine Idee war es ursprünglich, die Logik des Modellvergleichs aufzuzeigen, von der das einfache Regressionsmodell nur ein Einzelfall ist (vergleiche mit dem "sehr null" -Modell), was auch den kurzen Hinweis zu LRT motiviert. Ich stimme Ihnen zu, wenn wir nach einem reinen Neyman-Pearson-Ansatz für HT arbeiten. Ich dachte jedoch hauptsächlich an die Theorie der LMs, in der SS eine direkte geometrische Interpretation hat und in der der Modellvergleich oder der einzelne F-Test für eine Einweg-ANOVA (...)
chl