Wie interpretiere ich GAM P-Werte?

10

Mein Name ist Hugh und ich bin ein Doktorand, der verallgemeinerte additive Modelle verwendet, um explorative Analysen durchzuführen.

Ich bin mir nicht sicher, wie ich die p-Werte aus dem MGCV-Paket interpretieren soll, und wollte mein Verständnis überprüfen (ich verwende Version 1.7-29 und habe einige Dokumentationen von Simon Wood konsultiert). Ich habe zuerst nach anderen Fragen zum Lebenslauf gesucht, aber die relevantesten scheinen allgemeine Regressionen zu betreffen, nicht insbesondere GAM-p-Werte.

Ich weiß, dass GAM viele verschiedene Argumente hat und die p-Werte nur annähernd sind. Aber ich fange einfach an zu sehen, ob es für meine Kovariaten überhaupt ein "Signal" gibt. Z.B:

Y ~ s (a, k = 3) + s (b, k = 3) + s (c, k = 3) + s (d, k = 3) + s (e, k = 3)

Ungefähre p-Werte der glatten Terme:

s (a) = 0,000473
s (b) = 1,13e-05
s (c) = 0,000736
s (d) = 0,887579
s (e) = 0,234017

(angepasst) = 0,62 Abweichung erklärt = 63,7% GCV-Punktzahl = 411,17 Scale est. = 390,1 n = 120

Ich habe die df-Spalten usw. aufgrund der Formatierung ausgeschnitten. Ich interpretiere die p-Werte für jede Kovariate als Test, ob die entsprechende glatte Funktion die Modellabweichung signifikant verringert, wobei p die Wahrscheinlichkeit ist, Daten zu erhalten, die mindestens so "relativ unplausibel" sind wie die unter einem Nullmodell von 0 beobachteten.

Dies würde bedeuten, dass (z. B. mit Alpha = 0,05) die geglätteten Funktionen die Abweichung für "d" & "e" gegenüber einem Nullmodell nicht verringerten, wohingegen sie dies für die anderen Begriffe taten. Daher fügen (d) und (e) der Regression keine signifikanten Informationen hinzu, und die erklärte Abweichung ist auf (a) (b) (c) zurückzuführen.

Jeder Rat wäre sehr dankbar und viel Glück bei Ihrer Recherche.

user45178
quelle

Antworten:

8

Das Papier, das beschreibt, wie sie funktionieren, ist hier .

Dies sind p-Werte, die mit Wald-Tests assoziiert sind, bei denen die gesamte Funktion s (.) = 0 ist. Niedrige p-Werte zeigen eine geringe Wahrscheinlichkeit an, dass die Splines, aus denen die Funktion besteht, gemeinsam Null sind.

Das Komplizierte an ihnen ist, dass es sich um eine Pseudoinverse mit reduziertem Rang handelt. Der typische Wald-Test ist . Sie können sofort erkennen, dass dies im univariaten Fall ein T-Test ist (dh keine Matrizen, sondern Beta und Varianz). Dies ergibt im Fall von bestraften Splines eine sehr geringe Leistung, da diese Koeffizienten bestraft werden. Die pseudoinverse Rang-R erklärt dies. Das Papier ist wirklich ziemlich dicht, aber sobald Sie den allgemeinen Kern verstanden haben - die Leistung eines Tests durch Berücksichtigung von EDF anstelle von Matrixrang zu verbessern - wird es möglich, dem Formalismus zu folgen.f^(Vβ)1f^

generic_user
quelle