Ich habe eine Frage zu verallgemeinerten additiven Modellen. Was wird Deviance erklärt, GCV-Score und Scale est. In GAM-Ergebnissen? Was zeigen diese Indikatoren?
quelle
Ich habe eine Frage zu verallgemeinerten additiven Modellen. Was wird Deviance erklärt, GCV-Score und Scale est. In GAM-Ergebnissen? Was zeigen diese Indikatoren?
Die erklärte Abweichung ist ein bisschen wie für Modelle, bei denen Quadratsummen als Maß für die Diskrepanz zwischen den Beobachtungen und den angepassten Werten wenig sinnvoll sind. In verallgemeinerten Modellen messen wir diese Diskrepanz stattdessen mit Abweichungen . Sie wird unter Verwendung der Wahrscheinlichkeit des Modells berechnet und hat daher für jede Fehlerverteilung eine etwas andere mathematische Definition ( Argument in / ). Bei Gaußschen Modellen, die als GLM / GAM geschätzt werden, sind Abweichung und Restquadratsummen äquivalent.family
glm()
gam()
Die Abweichung eines Modells ist definiert als:
Dabei ist die maximierte Wahrscheinlichkeit des gesättigten Modells und die maximierte Wahrscheinlichkeit des von Ihnen angepassten Modells. Das gesättigte Modell ist ein Modell mit einem Parameter für jeden Datenpunkt. Sie können angesichts der Daten keine höhere Wahrscheinlichkeit als diese erhalten. ist der Skalierungsparameter. Die skalierte Abweichung ist einfach
Diese skalierten Abweichungen spielen eine Rolle bei Likelihood-Ratio-Tests, bei denen der Unterschied der skalierten Abweichungen für zwei Modelle beträgt (Chi-Quadrat verteilt mit Freiheitsgraden und ).
Die erklärte Abweichung stellt lediglich das Obige als den Anteil der Gesamtabweichung dar, der durch das aktuelle Modell erklärt wird.
Die Skalenschätzung ist , dh dies ist der Wert von , der während der Modellanpassung geschätzt wird. Für die Poisson- und Binomial-Familien / -Verteilungen ist per Definition , für andere Verteilungen ist dies jedoch nicht der Fall, einschließlich der Gaußschen. Im Gaußschen Fall ist der Reststandardfehler im Quadrat .
Der GCV-Score ist der minimierte GCV-Score (Generalized Cross Validation) des angepassten GAM. GCV wird für die Glättungsauswahl im mgcv- Paket für R verwendet; Glättungsparameter werden ausgewählt, um Vorhersagefehler zu minimieren, wenn unbekannt ist, und Standard-CV oder GCV können verwendet werden, um Vorhersagefehler zu schätzen. GCv wird hier bevorzugt, da es berechnet werden kann, ohne es tatsächlich gegenseitig zu validieren (das Modell an Teilmengen der Daten anzupassen), was Rechenzeit / -aufwand spart. Der gemeldete Wert ist der minimierte GCV-Score (UBRE, Un-Bias Risk Estimator, Scores werden angezeigt, stattdessen passen Sie ein Modell mit bekanntem ), und Sie können diese Scores ein wenig wie AIC verwenden, kleinere Werte zeigen besser passende Modelle an.
GAMs, die mit der GCV-Glättungsauswahl ausgestattet sind, können unter einer Unterglättung leiden. Dies kann passieren, wenn das GCV-Profil relativ flach ist und zufällige Variationen dazu führen können, dass der Algorithmus bei einer zu wackeligen Anpassung konvergiert. Die Anpassung über REML (Verwendung method = "REML"
im gam()
Aufruf) oder ML hat von Simon Wood und Kollegen gezeigt, dass sie wesentlich robuster gegen Unterglättung ist, jedoch mit Rechenaufwand.
Die obigen Zusammenfassungen basieren auf den Beschreibungen in Simon Woods ziemlich ausgezeichnetem Buch über GAMs:
Wood, SN (2006). Generalized Additive Modelle: Eine Einführung mit R . Chapman und Hall / CRC.