Die Ausgabe dieses Ansatzes zum Anpassen von GAMs ist so strukturiert, dass die linearen Teile der Glätter mit den anderen parametrischen Begriffen gruppiert werden. Notice Private
hat einen Eintrag in der ersten Tabelle, aber in der zweiten Tabelle ist der Eintrag leer. Dies liegt daran, dass Private
es sich um einen streng parametrischen Begriff handelt. es ist eine Faktorvariable und daher einem geschätzten Parameter zugeordnet, der die Wirkung von darstellt Private
. Der Grund, warum die glatten Terme in zwei Arten von Effekten unterteilt sind, besteht darin, dass Sie mit dieser Ausgabe entscheiden können, ob ein glatter Term vorliegt
- ein nichtlinearer Effekt : Sehen Sie sich die nichtparametrische Tabelle an und bewerten Sie die Signifikanz. Bei Signifikanz als glatten nichtlinearen Effekt belassen. Wenn nicht signifikant, betrachten Sie den linearen Effekt (2. unten)
- Ein linearer Effekt : Sehen Sie sich die Parametertabelle an und beurteilen Sie die Bedeutung des linearen Effekts. Wenn bedeutende Sie den Begriff in eine glatte drehen kann
s(x)
-> x
in der Formel beschreibt das Modell. Wenn dies nicht von Belang ist, sollten Sie in Betracht ziehen, den Begriff vollständig aus dem Modell zu streichen (seien Sie jedoch vorsichtig damit - das bedeutet, dass der wahre Effekt == 0 ist).
Parametrische Tabelle
Die Einträge hier entsprechen denen, die Sie erhalten würden, wenn Sie ein lineares Modell anpassen und die ANOVA-Tabelle berechnen würden, mit der Ausnahme, dass keine Schätzungen für zugeordnete Modellkoeffizienten angezeigt werden. Anstelle von geschätzten Koeffizienten und Standardfehlern und zugehörigen t- oder Wald-Tests wird der Betrag der erklärten Varianz (in Form von Quadratsummen) neben F-Tests angezeigt. Wie bei anderen Regressionsmodellen, die mit mehreren Kovariaten (oder Funktionen von Kovariaten) ausgestattet sind, hängen die Einträge in der Tabelle von den anderen Begriffen / Funktionen im Modell ab.
Nichtparametrischer Tisch
Die nichtparametrischen Effekte beziehen sich auf die nichtlinearen Teile der angepassten Glätter. Keiner dieser nichtlinearen Effekte ist mit Ausnahme des nichtlinearen Effekts von signifikant Expend
. Es gibt Hinweise auf einen nichtlinearen Effekt von Room.Board
. Jedes von diesen ist mit einer Reihe von nicht parametrischen Freiheitsgraden verbunden ( Npar Df
) und sie erklären ein Ausmaß an Variation in der Antwort, deren Ausmaß über einen F-Test bewertet wird (standardmäßig siehe Argument test
).
Diese Tests im nichtparametrischen Abschnitt können als Test der Nullhypothese einer linearen Beziehung anstelle einer nichtlinearen Beziehung interpretiert werden .
Die Art und Weise, wie Sie dies interpretieren können, ist, dass nur Expend
Warrants als glatter nichtlinearer Effekt behandelt werden. Die anderen Glättungen könnten in lineare parametrische Terme umgewandelt werden. Möglicherweise möchten Sie überprüfen, ob die Glättung von Room.Board
weiterhin einen nicht signifikanten nicht parametrischen Effekt hat, wenn Sie die anderen Glättungen in lineare, parametrische Terme konvertieren. es kann sein, dass der Effekt von Room.Board
leicht nichtlinear ist, dies wird jedoch durch das Vorhandensein der anderen glatten Terme im Modell beeinflusst.
Ein Großteil davon könnte jedoch von der Tatsache abhängen, dass viele Smooths nur 2 Freiheitsgrade verwenden durften. warum 2?
Automatische Auswahl der Glätte
Neuere Ansätze zum Anpassen von GAMs würden den Grad der Glätte für Sie über automatische Glättungsauswahlansätze wie den bestraften Spline-Ansatz von Simon Wood auswählen, der im empfohlenen Paket mgcv implementiert ist :
data(College, package = 'ISLR')
library('mgcv')
set.seed(1)
nr <- nrow(College)
train <- with(College, sample(nr, ceiling(nr/2)))
College.train <- College[train, ]
m <- mgcv::gam(Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate), data = College.train,
method = 'REML')
Die Modellzusammenfassung ist prägnanter und betrachtet die Glättungsfunktion direkt als Ganzes und nicht als linearen (parametrischen) und nichtlinearen (nichtparametrischen) Beitrag:
> summary(m)
Family: gaussian
Link function: identity
Formula:
Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate)
Parametric coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8544.1 217.2 39.330 <2e-16 ***
PrivateYes 2499.2 274.2 9.115 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Approximate significance of smooth terms:
edf Ref.df F p-value
s(Room.Board) 2.190 2.776 20.233 3.91e-11 ***
s(PhD) 2.433 3.116 3.037 0.029249 *
s(perc.alumni) 1.656 2.072 15.888 1.84e-07 ***
s(Expend) 4.528 5.592 19.614 < 2e-16 ***
s(Grad.Rate) 2.125 2.710 6.553 0.000452 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
R-sq.(adj) = 0.794 Deviance explained = 80.2%
-REML = 3436.4 Scale est. = 3.3143e+06 n = 389
In der Ausgabe werden nun die Glättungsterme und die parametrischen Terme in separaten Tabellen zusammengefasst, wobei letztere eine bekanntere Ausgabe erhalten, die der eines linearen Modells ähnelt. Der gesamte Effekt der Glättungsbedingungen ist in der unteren Tabelle dargestellt. Dies sind nicht die gleichen Tests wie für das gam::gam
gezeigte Modell. Sie sind Tests gegen die Nullhypothese, dass der Glättungseffekt eine flache horizontale Linie, ein Nulleffekt oder ein Nulleffekt ist. Die Alternative ist, dass sich der wahre nichtlineare Effekt von Null unterscheidet.
Beachten Sie, dass die EEFs alle größer als 2 sind, mit Ausnahme von s(perc.alumni)
, was darauf hindeutet, dass das gam::gam
Modell möglicherweise etwas restriktiv ist.
Die angepassten Glättungen zum Vergleich sind gegeben durch
plot(m, pages = 1, scheme = 1, all.terms = TRUE, seWithMean = TRUE)
was produziert
Die automatische Auswahl der Glätte kann auch so gewählt werden, dass Ausdrücke vollständig aus dem Modell entfernt werden:
Danach sehen wir, dass sich die Modellanpassung nicht wirklich geändert hat
> summary(m2)
Family: gaussian
Link function: identity
Formula:
Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate)
Parametric coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8539.4 214.8 39.755 <2e-16 ***
PrivateYes 2505.7 270.4 9.266 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Approximate significance of smooth terms:
edf Ref.df F p-value
s(Room.Board) 2.260 9 6.338 3.95e-14 ***
s(PhD) 1.809 9 0.913 0.00611 **
s(perc.alumni) 1.544 9 3.542 8.21e-09 ***
s(Expend) 4.234 9 13.517 < 2e-16 ***
s(Grad.Rate) 2.114 9 2.209 1.01e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
R-sq.(adj) = 0.794 Deviance explained = 80.1%
-REML = 3475.3 Scale est. = 3.3145e+06 n = 389
Alle Glättungen scheinen leicht nichtlineare Effekte zu suggerieren, selbst nachdem wir die linearen und nichtlinearen Teile der Splines verkleinert haben.
Persönlich finde ich die Ausgabe von mgcv einfacher zu interpretieren, und weil gezeigt wurde, dass die automatischen Auswahlmethoden für die Glätte eher zu einem linearen Effekt passen, wenn dies von den Daten unterstützt wird.