Ich führte eine multivariate logistische Regression durch, wobei die abhängige Variable Y
innerhalb eines bestimmten Eintrittszeitraums der Tod in einem Pflegeheim war, und erhielt die folgenden Ergebnisse (beachten Sie, dass die Variablen, die darin beginnen A
, ein kontinuierlicher Wert sind, während die Variablen, die in beginnen, B
kategorisch sind):
Call:
glm(Y ~ A1 + B2 + B3 + B4 + B5 + A6 + A7 + A8 + A9, data=mydata, family=binomial)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.0728 -0.2167 -0.1588 -0.1193 3.7788
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 20.048631 6.036637 3.321 0.000896 ***
A1 0.051167 0.016942 3.020 0.002527 **
B2 -0.664940 0.304299 -2.185 0.028878 *
B3 -2.825281 0.633072 -4.463 8.09e-06 ***
B4 -2.547931 0.957784 -2.660 0.007809 **
B5 -2.862460 1.385118 -2.067 0.038774 *
A6 -0.129808 0.041286 -3.144 0.001666 **
A7 0.020016 0.009456 2.117 0.034276 *
A8 -0.707924 0.253396 -2.794 0.005210 **
A9 0.003453 0.001549 2.229 0.025837 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 485.10 on 2206 degrees of freedom
Residual deviance: 417.28 on 2197 degrees of freedom
AIC: 437.28
Number of Fisher Scoring iterations: 7
(Intercept) A1 B2 B3 B4 B5 A6 A7 A8 A9
5.093426e+08 1.052499e+00 5.143045e-01 5.929197e-02 7.824340e-02 5.712806e-02 8.782641e-01 1.020218e+00 4.926657e-01 1.003459e+00
2.5 % 97.5 %
(Intercept) 3.703525e+03 7.004944e+13
A1 1.018123e+00 1.088035e+00
B2 2.832698e-01 9.337710e-01
B3 1.714448e-02 2.050537e-01
B4 1.197238e-02 5.113460e-01
B5 3.782990e-03 8.627079e-01
A6 8.099945e-01 9.522876e-01
A7 1.001484e+00 1.039302e+00
A8 2.998207e-01 8.095488e-01
A9 1.000416e+00 1.006510e+00
Wie Sie sehen können, sind alle Variablen insofern "signifikant", als ihre p-Werte unter dem üblichen Schwellenwert von 0,05 liegen. Wenn ich jedoch die Koeffizienten betrachte, bin ich mir nicht ganz sicher, was ich mit diesen Ergebnissen anfangen soll. Es scheint, dass diese Variablen, obwohl sie zum Modell beitragen, wenn man die Quotenverhältnisse betrachtet, nicht wirklich viel Vorhersagekraft zu haben scheinen. Bemerkenswert ist, dass ich bei der Berechnung der AUC ungefähr 0,8 erhalten habe.
Kann ich sagen, dass dieses Modell die Sterblichkeit besser vorhersagen kann (z. B. vorhersagen, dass Senioren über den vorgeschriebenen Zeitraum hinaus leben werden) als die Sterblichkeit vorherzusagen?
quelle
Antworten:
C
Dxy
Wie oben erwähnt, ist das Modell wahrscheinlich überoptimistisch. Wir verwenden jetzt Bootstrap, um den Optimismus zu quantifizieren:
optimism
index.corrected
Wir können auch eine Kalibrierungskurve mithilfe von Resampling berechnen:
Predictive Modellbau ist ein großes Thema , und ich schlage vor , Frank Harrell Lesen natürlich Notizen .
quelle
rms
Anleitungen für das Paket @COOLSerdash und Nick.Ein Hinweis zur Interpretation von Koeffizienten: Denken Sie daran, dass sie davon abhängen, wie die Prädiktoren als Zahlen geschrieben sind. Für kontinuierliche Variablen hängen sie also von den Einheiten ab, in denen sie gemessen werden. für kategoriale Prädiktoren das Codierungsschema. Seien Sie nicht versucht zu glauben, dass A9 beispielsweise "unwichtig" ist, nur weil sein Koeffizient von 0,003453 klein ist - A9 kann in einigen interessierenden Populationen über mehrere Größenordnungen reichen, während die anderen Prädiktoren nur geringfügig variieren, oder es kann sein leicht auf sehr hohe oder niedrige Werte einzustellen, während die anderen schwer zu ändern sind.
quelle