Ich habe begonnen, mit GAM in R zu arbeiten, und ich habe Simon Woods ausgezeichnetes Buch zum Thema ( "Generalisierte additive Modelle Eine Einführung mit R" ) erworben. Anhand eines seiner Beispiele betrachte ich Folgendes:
library(mgcv)
data(trees)
ct1<-gam(log(Volume) ~ Height + s(Girth), data=trees)
Ich habe zwei allgemeine Fragen zu diesem Beispiel:
Wie entscheidet man, wann eine Variable in der Modellschätzung parametrisch sein soll (z. B. Höhe) oder wann sie glatt sein soll (z. B. Umfang)? Hat einer einen Vorteil gegenüber dem anderen und gibt es eine Möglichkeit zu bestimmen, welcher Typ für eine Variable optimal ist? Wenn jemand Literatur zu diesem Thema hat, würde ich mich freuen, davon zu erfahren.
Sagen , dass ich bei den Gewichten der näher betrachten möchten
ct1
:ct1$coefficients
. Kann ich sie verwenden, wenn dasgam
Verfahren sie ausgibt, oder muss ich sie transformieren, bevor ich sie analysiere, wenn ich dazu passelog(Volume)
? Im letzteren Fall müsste ich wohl verwendenexp (ct1$coefficients)
quelle
Antworten:
Ich gehe davon aus, dass dies in der 2. Ausgabe von Simons Buch (die in ein paar Tagen erscheinen sollte) besser erklärt wird, da er und seine Schüler nur einen Teil der Theorie für diese Jahre ausgearbeitet haben, nachdem Simon sein Buch geschrieben hat.
Was Marra & Wood (2011) gezeigt hat, war, dass, wenn wir ein Modell mit glatten Begriffen auswählen möchten, ein sehr guter Ansatz darin besteht, allen glatten Begriffen eine zusätzliche Strafe hinzuzufügen. Diese zusätzliche Strafe arbeitet mit der Glättungsstrafe für diesen Begriff zusammen, um sowohl die Wackeligkeit des Begriffs als auch die Frage zu steuern, ob ein Begriff überhaupt im Modell enthalten sein sollte.
Wenn Sie also keine gute Theorie haben, um entweder glatte oder lineare / parametrische Formen / Effekte für die Kovariaten anzunehmen, können Sie sich dem Problem so nähern, dass Sie zwischen allen Modellen (darstellbar durch die additive Kombination linearer Kombinationen der Basisfunktionen) zwischen eins mit wählen Glättungen jeder Kovariate bis zu einem Modell, das nur einen Achsenabschnitt enthält.
Zum Beispiel:
Bei der Betrachtung der Ausgabe (insbesondere im Abschnitt Parametrische Koeffizienten ) stellen wir fest, dass beide Begriffe von hoher Bedeutung sind. Beachten Sie jedoch den effektiven Wert für die Freiheitsgrade für die Glättung von
Height
; es ist ~ 1. Was diese Tests bewirken, wird in Wood (2013) erklärt.Dies legt mir nahe, dass
Height
das Modell als linearer parametrischer Term eingegeben werden sollte. Wir können dies bewerten, indem wir die angepasste Glatte zeichnen:was gibt:
Dies zeigt deutlich, dass die ausgewählte Form des Effekts von
Height
linear ist.Wenn Sie dies jedoch nicht im Voraus gewusst haben (und dies auch nicht, weil Sie die Frage sonst nicht gestellt hätten), können Sie das Modell jetzt nicht mit nur einem linearen Begriff für an diese Daten anpassen
Height
. Das würde Ihnen echte Probleme mit der Schlussfolgerung auf der ganzen Linie verursachen. Die Ausgabe insummary()
hat die Tatsache berücksichtigt, dass Sie diese Auswahl getroffen haben. Wenn Sie das Modell mit einem linearen parametrischen Effekt vonHeight
umrüsten, würde die Ausgabe dies nicht wissen und Sie würden zu optimistische p-Werte erhalten.Wie bei Frage 2, wie bereits in den Kommentaren erwähnt, nein, potenzieren Sie die Koeffizienten aus diesem Modell nicht. Tauchen Sie auch nicht in angepasste Modelle ein, da der Inhalt dieser Komponenten nicht immer den Erwartungen entspricht. Verwenden Sie stattdessen die Extraktionsfunktionen. in diesem Fall
coef()
.Später in diesem Buch, wenn Simon zu GLMs und GAMs gelangt, wird er diese Daten über ein Gamma-GLM modellieren:
In diesem Modell könnten die Koeffizienten potenziert werden, um einen Teileffekt zu erzielen, da die Anpassung auf der Skala des linearen Prädiktors (auf der logarithmischen Skala) erfolgt. Sie sollten sie jedoch besser verwenden
predict(ct1, ...., type = "response")
, um angepasste Werte / Vorhersagen auf der Skala zurückzugewinnen Skala der Antwort (in m ^ 3).Marra, G. & Wood, SN Praktische Variablenauswahl für verallgemeinerte additive Modelle. Comput. Stat. Daten Anal. 55, 2372–2387 (2011).
Wood, SN On p-Werte für glatte Komponenten eines erweiterten verallgemeinerten additiven Modells. Biometrika 100, 221–228 (2013).
quelle