Betrachten Sie die folgende binomiale Regression:
# Create some data
set.seed(10)
n <- 500
x <- runif(n,0,100)
y <- x + rnorm(n,sd=100) < 0
# Fit a binomial regression model
model <- glm(y ~ x, family="binomial")
summary(model)
Die summary
Funktion gibt einen p-Wert von zurück 1.03e-05
. Bei Verwendung anova.glm
erhält man etwas extremere p-Werte, unabhängig davon, mit welcher Methode der p-Wert berechnet wird.
anova(model, test="Rao") # p.value = 7.5e-6
anova(model, test="LRT") # p.value = 6.3e-6
anova(model, test="Chisq") # p.value = 6.3e-6
Gilt der p-Wert der summary
Funktion für dieselbe Hypothese wie die von der anova
Funktion zurückgegebenen? Wenn ja, wie wurde summary
dieser p-Wert berechnet und ist es möglich, dieselbe Berechnung direkt mit durchzuführen anova
?
Antworten:
Es kann Ihnen helfen, meine Antwort hier zu lesen: Warum unterscheiden sich meine p-Werte zwischen der logistischen Regressionsausgabe, dem Chi-Quadrat-Test und dem Konfidenzintervall für den OP? Ihre Frage hier ist fast ein Duplikat davon, aber es gibt ein paar zusätzliche Elemente in Ihrer Frage, die angesprochen werden können.
Wie @CliffAB feststellt, stammen die p-Werte in dert 0 t
summary.glm()
Ausgabe aus Wald-Tests. Diese sind insofern analog zu Tests von Koeffizienten für ein lineares Modell, als sie die Differenz zwischen dem angepassten Wert des Koeffizienten und dem Referenzwert (angenommen als ) geteilt durch den Standardfehler sind. Der Unterschied besteht darin, dass diese als Standardnormal anstelle von . Auf der anderen Seite gelten diese für große Stichproben, und wir wissen nicht unbedingt, was in einem bestimmten Fall eine „große Stichprobe“ ausmacht.Mit können
anova.glm()
Sie auf verschiedene Tests zugreifen. Wenn Sie einstellentest="Rao"
, erhalten Sie den p-Wert aus einem Score-Test. Und wenn Sie entwedertest="Chisq"
odertest="LRT"
(sie sind gleich) einstellen , erhalten Sie den p-Wert aus einem Likelihood-Ratio-Test.Die
anova.glm()
Funktionsummary()
testet in diesem Fall dieselbe Nullhypothese wie der Wald-Test in der Ausgabe . Das liegt nur daran, dass Ihr Modell nur eine Variable hat. Dieanova.glm()
Funktion führt sequentielle Tests durch, die in einer linearen Einstellung analog zu 'Typ I SS' sind, während die Wald-Tests in einer linearen Einstellungsummary()
analog zu 'Typ III SS' sind (siehe meine Antwort hier: Interpretation von Typ I, Typ II und Typ III ANOVA und MANOVA? ). Erwägen:Sie können die
anova.glm()
Funktion nutzen, um Score- und Likelihood-Ratio-Tests einzelner Variablen in einem multiplen logistischen Regressionsmodell durchzuführen, das analog zu 'Typ III SS' ist, aber es ist langwierig. Sie müssten Ihr Modell weiter anpassen, damit jede Variable der Reihe nach zuletzt in der Formel aufgeführt wird, die für denglm()
Aufruf bereitgestellt wird . Der letzte in deranova.glm()
Ausgabe aufgeführte p-Wert ist analog zu 'Typ III SS'.Verwenden Sie
drop1()
stattdessen, um die Score- oder Likelihood-Ratio-Tests einzelner Variablen bequemer zu erhalten. Erwägen:quelle
In berechnet
R
diesummary
Funktion fürglm
den p-Wert unter Verwendung einer einfachen Wald-Statistik, d. H.Versuchen Sie es, um dies aus Ihrer Ausgabe wiederherzustellen
quelle