Signifikanz von (GAM) Regressionskoeffizienten, wenn die Modellwahrscheinlichkeit nicht signifikant höher als Null ist

10

Ich führe eine GAM-basierte Regression mit dem R-Paket gamlss durch und gehe von einer Null- Inflations -Beta-Verteilung der Daten aus. Ich habe nur eine einzige erklärende Variable in meinem Modell, also ist es im Grunde : mymodel = gamlss(response ~ input, family=BEZI).

Der Algorithmus gibt mir den Koeffizienten für den Einfluss der erklärenden Variablen auf den Mittelwert ( μ ) und den zugehörigen p-Wert für k ( Eingabe ) = 0 , so etwas wie:kμk(input)=0

Mu link function:  logit                                               
Mu Coefficients:                                                      
              Estimate  Std. Error  t value   Pr(>|t|)                  
(Intercept)  -2.58051     0.03766  -68.521  0.000e+00                  
input        -0.09134     0.01683   -5.428  6.118e-08

Wie Sie im obigen Beispiel sehen können, wird die Hypothese von mit hoher Sicherheit verworfen.k(input)=0

Ich führe dann das Nullmodell aus: null = gamlss(response ~ 1, family=BEZI)und vergleiche die Wahrscheinlichkeiten mit einem Likelihood-Ratio-Test:

p=1-pchisq(-2*(logLik(null)[1]-logLik(mymodel)[1]), df(mymodel)-df(null)).

In einigen Fällen erhalte ich selbst wenn die Koeffizienten am Eingang als hoch signifikant gemeldet werden (wie oben). Ich finde das ziemlich ungewöhnlich - zumindest ist es in meiner Erfahrung mit linearer oder logistischer Regression nie passiert (tatsächlich ist dies auch nie passiert, als ich nullangepasstes Gamma mit Gamlss verwendet habe).p>0.05

Meine Frage ist: Kann ich der Abhängigkeit zwischen Antwort und Eingabe immer noch vertrauen, wenn dies der Fall ist?

a11msp
quelle

Antworten:

1

Ich sehe keinen unmittelbaren Grund, warum dies mit GAM zusammenhängen sollte. Tatsache ist, dass Sie zwei Tests für dieselbe Sache verwenden. Da es in der Statistik keine absolute Sicherheit gibt, ist es sehr gut möglich, dass einer ein signifikantes Ergebnis liefert und der andere nicht.

Vielleicht ist einer der beiden Tests einfach leistungsfähiger (stützt sich dann aber möglicherweise auf weitere Annahmen), oder der einzige signifikante Test ist Ihr Eins-zu-Zwanzig-Typ-I-Fehler.

Ein gutes Beispiel sind Tests, ob Stichproben aus derselben Verteilung stammen: Sie haben sehr parametrische Tests dafür (der T-Test kann verwendet werden: Wenn die Mittelwerte unterschiedlich sind, sollten auch die Verteilungen) und auch nichtparametrisch diejenigen: Es kann vorkommen, dass der parametrische ein signifikantes Ergebnis liefert und der nichtparametrische nicht. Dies könnte daran liegen, dass die Annahmen des parametrischen Tests falsch sind, dass die Daten einfach außergewöhnlich sind (Typ I) oder dass die Stichprobengröße nicht ausreicht, damit der nichtparametrische Test den Unterschied erfasst, oder schließlich an dem Aspekt von Was Sie wirklich testen möchten (verschiedene Verteilungen), das von den verschiedenen Tests überprüft wird, ist nur unterschiedlich (anders bedeutet <-> Chance, "höher als" zu sein).

Wenn ein Testergebnis signifikante Ergebnisse zeigt und das andere nur geringfügig nicht signifikant ist, würde ich mir keine Sorgen machen.

Nick Sabbe
quelle