Ich bin daran interessiert, die Nullhypothesen glm()
in R zu ändern .
Beispielsweise:
x = rbinom(100, 1, .7)
summary(glm(x ~ 1, family = "binomial"))
testet die Hypothese, dass . Was ist, wenn ich die Null in = einen beliebigen Wert innerhalb von ändern möchte ? glm()
Ich weiß, dass dies auch mit prop.test()
und möglich ist chisq.test()
, aber ich möchte die Idee untersuchen, glm()
mit allen Hypothesen, die sich auf kategoriale Daten beziehen, einen Test durchzuführen.
r
hypothesis-testing
generalized-linear-model
chi-squared
offset
Bill Ravenwood
quelle
quelle
glm
Antworten:
Sie können einen Versatz verwenden :β0= 0 p q= logit ( p ) = log( p / ( 1 - p ) )
glm
mitfamily="binomial"
Schätzparametern auf der Log-Odds- oder Logit-Skala, sodass einer Log-Odds von 0 oder einer Wahrscheinlichkeit von 0,5 entspricht. Wenn Sie mit einer Wahrscheinlichkeit von vergleichen möchten , möchten Sie, dass der Grundlinienwert . Das statistische Modell ist jetztp q = logit ( p ) = log ( p / ( 1 - p ) )wobei sich nur die letzte Zeile gegenüber der Standardeinstellung geändert hat. Im R-Code:
offset(q)
in der Formelqlogis(p)
rep(q,100)
.quelle
glm(y ~ offset(q)-1, family=binomial, data=dd)
und Verwendenlrtest
aus demlmtest
Paket erstellt werden. Pearsons Chi-Quadrat-Test ist der Score-Test für das GLM-Modell. Wald / LRT / Score sind allesamt konsistente Tests und sollten bei relativ großen Stichproben entsprechende Schlussfolgerungen liefern.anova()
von Basis R auf dem glm verwenden, um einen LR-Test zu erhaltenlrtest
Fall ist.anova(.,test="Chisq")
?Sehen Sie sich das Konfidenzintervall für die Parameter Ihres GLM an:
Dies ist ein Konfidenzintervall für Log-Odds.
quelle
confint
Es ist nicht (vollständig) korrekt / genau, die p-Werte, die auf den z- / t-Werten in der Funktion glm.summary basieren, als Hypothesentest zu verwenden.
Das ist verwirrende Sprache. Die angegebenen Werte werden als z-Werte bezeichnet. In diesem Fall wird jedoch der geschätzte Standardfehler anstelle der tatsächlichen Abweichung verwendet. In Wirklichkeit sind sie daher näher an t-Werten . Vergleichen Sie die folgenden drei Ausgaben:
1) summary.glm
2) t-test
3) z-test
Sie sind keine exakten p-Werte. Eine genaue Berechnung des p-Wertes mit der Binomialverteilung würde besser funktionieren (mit der Rechenleistung ist dies heutzutage kein Problem mehr). Die t-Verteilung unter der Annahme einer Gaußschen Verteilung des Fehlers ist nicht genau (sie überschätzt p, ein Überschreiten des Alpha-Niveaus tritt in der "Realität" seltener auf). Siehe folgenden Vergleich:
Die schwarze Kurve steht für Gleichheit. Die rote Kurve ist darunter. Dies bedeutet, dass wir für einen gegebenen berechneten p-Wert durch die glm-Zusammenfassungsfunktion diese Situation (oder einen größeren Unterschied) in der Realität seltener finden, als der p-Wert angibt.
quelle