Mir ist klar, dass dies eine potenziell breite Frage ist, aber ich habe mich gefragt, ob es verallgemeinerbare Annahmen gibt, die auf die Verwendung eines GAM (Generalized Additive Model) gegenüber einem GLM (Generalized Linear Model) hinweisen.
Jemand sagte mir kürzlich, dass GAMs nur verwendet werden sollten, wenn ich annehme, dass die Datenstruktur "additiv" ist, dh ich erwarte, dass Additionen von x y vorhersagen. Eine andere Person wies darauf hin, dass ein GAM eine andere Art der Regressionsanalyse durchführt als ein GLM und dass ein GLM bevorzugt wird, wenn Linearität angenommen werden kann.
In der Vergangenheit habe ich ein GAM für ökologische Daten verwendet, zB:
- kontinuierliche Zeitreihen
- wenn die Daten keine lineare Form hatten
- Ich hatte mehrere x, um mein y vorherzusagen, und dachte, ich hätte eine nichtlineare Interaktion, die ich mithilfe von "Oberflächenplots" zusammen mit einem statistischen Test visualisieren könnte
Ich verstehe offensichtlich nicht genau, was ein GAM anders macht als ein GLM. Ich glaube, es ist ein gültiger statistischer Test (und ich sehe eine Zunahme der Verwendung von GAMs, zumindest in ökologischen Fachzeitschriften), aber ich muss besser wissen, wann seine Verwendung gegenüber anderen Regressionsanalysen angezeigt wird.
quelle
Antworten:
quelle
mgcv
macht eine Menge Dinge, mit denen Sie nichtsglm
mgcv
)?Ich möchte betonen, dass GAMs viel flexibler sind als GLMs und daher mehr Sorgfalt bei ihrer Verwendung erfordern. Mit größerer Macht kommt größere Verantwortung.
Sie erwähnen ihre Verwendung in der Ökologie, die ich auch bemerkt habe. Ich war in Costa Rica und habe eine Art Studium in einem Regenwald gesehen, in dem einige Studenten einige Daten in ein GAM geworfen und dessen verrückte, komplexe Smoothers akzeptiert hatten, weil die Software dies sagte. Es war ziemlich deprimierend, abgesehen von der humorvollen / bewundernswerten Tatsache, dass sie rigoros eine Fußnote enthielten, die die Tatsache dokumentierte, dass sie ein GAM und die daraus resultierenden hochrangigen Smoothers verwendet hatten.
Sie müssen nicht genau verstehen, wie GAMs funktionieren, um sie zu verwenden, aber Sie müssen wirklich über Ihre Daten nachdenken, über das Problem, die automatische Auswahl von Parametern durch Ihre Software, wie z. wenn ein glatter gerechtfertigt ist, etc) und die Plausibilität Ihrer Ergebnisse.
Machen Sie viele Zeichnungen und betrachten Sie Ihre Glättungskurven. Werden sie in Gebieten mit wenigen Daten verrückt? Was passiert, wenn Sie einen Glätter niedriger Ordnung angeben oder die Glättung vollständig entfernen? Ist ein glatter Grad 7 für diese Variable realistisch, passt er trotz der Zusicherungen, dass er seine Entscheidungen überprüft, übermäßig gut? Haben Sie genug Daten? Ist es hochwertig oder laut?
Ich mag GAMS und denke, dass sie für die Datenexploration unterbewertet sind. Sie sind einfach superflexibel und wenn Sie sich die Wissenschaft ohne Strenge erlauben, bringen sie Sie weiter in die statistische Wildnis als einfachere Modelle wie GLMs.
quelle
mgcv
ich mit meinen Daten umgehen kann. Ich versuche mit meinen Parametern sparsam umzugehen und überprüfe, wie gut die vorhergesagten Werte mit meinen Daten übereinstimmen. ihre kommentare sind eine gute erinnerung, etwas strenger zu werden - und vielleicht endlich simon woods buch zu bekommen!Ich habe keinen Ruf, einfach einen Kommentar hinzuzufügen. Ich stimme dem Kommentar von Wayne voll und ganz zu: Mit größerer Macht geht größere Verantwortung einher . GAMs können sehr flexibel sein und oft bekommen / sehen wir verrückt-komplexe Smoothers . Dann empfehle ich den Forschern dringend, die Freiheitsgrade (Anzahl der Knoten) der glatten Funktionen einzuschränken und verschiedene Modellstrukturen (Wechselwirkungen / keine Wechselwirkungen usw.) zu testen.
GAMs können zwischen modellgetriebenen Ansätzen (obwohl die Grenze unscharf ist, würde ich GLM in diese Gruppe einschließen) und datengetriebenen Ansätzen (z. B. künstliche neuronale Netze oder Zufallswälder, die vollständig interagierende Effekte nichtlinearer Variablen annehmen) betrachtet werden. Entsprechend stimme ich Hastie und Tibshirani nicht vollständig zu, da GAMs noch Detektivarbeit benötigen (hoffentlich bringt mich niemand um, wenn ich das sage).
Aus ökologischer Sicht würde ich die Verwendung des R- Paket- Betrugs empfehlen , um diese unzuverlässigen, variabel verrückten, komplexen Glätter zu vermeiden . Es wurde von Natalya Pya und Simon Wood entwickelt und ermöglicht es, die glatten Kurven auf die gewünschten Formen (z. B. unimodal oder monoton) zu beschränken, auch für wechselseitige Interaktionen. Ich denke, GLM wird zu einer kleinen Alternative, nachdem die Form der glatten Funktionen eingeschränkt wurde, aber dies ist nur meine persönliche Meinung.
Pya, N., Wood, SN, 2015. Additive Modelle mit Formbeschränkung. Stat. Comput. 25 (3), 543–559. 10.1007 / s11222-013-9448-7
quelle