Ich habe einen Datensatz, für den ich ein GAM-Modell erstelle, mit einer Reihe von Faktoren, die die abhängige Variable vorhersagen. Wenn ich eine Zusammenfassung des Modells mache, erhalte ich ein Diagramm, das die "Bedeutung von glatten Begriffen" angibt (was ziemlich bedeutsam ist). Was bedeutet das?
Hier ist ein Beispiel einiger Daten (übrigens komplett zusammengestellt).
gam.happiness_rating <- gam(data = ratehappiness2008, overall_happy ~ s(salary, k=3) + s(age, k=3) + as.factor(sex) + as.factor(year) + num_siblings + num_vacation)
summary(gam.happiness_rating)
Parametric coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 68.9221 5.4937 10.432 < 2e-14 ***
as.factor(sex)1 -12.3661 3.6232 -2.55 0.02346 **
as.factor(year)1999 21.4689 3.3060 2.262 2.03e-06 ***
num_siblings 1.2332 0.1082 1.648 0.02235 .
num_vacation -4.3824 3.3261 -1.233 0.132343
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Approximate significance of smooth terms:
edf Ref.df F p-value
s(salary) 2.111 1.723 15.843 < 2e-16 ***
s(age) 1.844 1.485 16.46 2.47e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Antworten:
Wie not_bonferroni erwähnt,
help(summary.gam)
haben Sie nützliche Informationen. Siehe die Referenzen darin oderinsbesondere Abschnitt 6.12. Um eine kurze und einfache Antwort zu geben
Nehmen wir an, Sie haben nur eine Kovariate und eine Ergebnisvariable ist was wenn die Beobachtung insgesamt glücklich ist, und wenn dies nicht der Fall ist . Das Modell, das Sie passen, istxich yich∈ { 0 , 1 } 1 ich 0
Dabei ist eine Verknüpfungsfunktion und eine unbekannte glatte Funktion. Dann ist der Wert für die Nullhypothese . Um ein einfaches Beispiel zu geben, führen wir nachfolgend einige Simulationen durch, wobei , und .G f p H0:f(xi)=0 f(xi)=2sin(xi) f(x)=x f(xi)=0
Wir lehnen die Nullhypothese in den beiden ersten Fällen ab, aber nicht in den letzteren wie erwartet. Nehmen wir nun an, wir fügen dem Modell zwei zusätzliche Kovaraiten hinzu, so dass
Ihre Nullhypothese lautet, dass es keine (möglicherweise nicht lineare) Assoziation mit der Kovariate eins, , gibt, wenn eine (möglicherweise nicht lineare) Assoziation mit der Kovaraite zwei, , und eine lineare Assoziation mit der Kovariate drei vorliegt , auf der Verbindungsskala.x1i x2i x3i
Ein letzter Kommentar (der in betont wirdp p
help(summary.gam)
) ist, dass die Werte ohne Berücksichtigung der Unsicherheit bei den Schätzungen der Glättungsparameter sind. Daher müssen Sie möglicherweise vorsichtig sein, wenn der Wert nahe an Ihrem Schwellenwert liegt.quelle
Die Bedeutung der glatten Begriffe ist genau das, was der Name sagt: Wie wichtig die glatten Begriffe Ihres Modells sind. Vielleicht war die Frage viel mehr, was die glatten Begriffe sind (da Sie zu verstehen scheinen, was Bedeutung ist)? Ihr Modell enthält verschiedene Begriffe, von denen einige "glatte" Begriffe sind, im Grunde genommen bestrafte kubische Regressionssplines. Dies sind beispielsweise die Begriffe mit einem "s", dh s (Gehalt, k = 3). Einige andere Begriffe sind parametrisch, z. B. num_s Geschwister oder num_vacation. Jeder dieser Begriffe ist mehr oder weniger wichtig für die Erklärung der Varianz Ihrer Antwortvariablen "total_happy". Einige von ihnen scheinen ziemlich unwichtig zu sein, wie num_vacation, das eine kleine Bedeutung hat (ein großer p-Wert von 0,132343). Dies bedeutet, dass diese Variable wahrscheinlich keinen mechanistischen oder deterministischen oder physikalischen Einfluss auf Ihre Antwortvariable hat. Sie können sie daher ignorieren und aus Ihrem Modell entfernen. Andere Begriffe haben eine hohe Bedeutung (ein kleiner p-Wert), wie der glatte Begriff s (Gehalt). Dies bedeutet, dass das Gehalt einer Person in Wirklichkeit höchstwahrscheinlich einer der Hauptfaktoren ist, die zu ihrem Glück beitragen.
quelle