Interpretation der logistischen Regressionsausgabe in R

13

Ich arbeite an einer multiplen logistischen Regression in R mit glm. Die Prädiktorvariablen sind kontinuierlich und kategorial. Ein Auszug aus der Zusammenfassung des Modells zeigt Folgendes:

Coefficients:
               Estimate Std. Error z value Pr(>|z|)
(Intercept)   2.451e+00  2.439e+00   1.005   0.3150
Age           5.747e-02  3.466e-02   1.658   0.0973 .
BMI          -7.750e-02  7.090e-02  -1.093   0.2743
...
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Vertrauensintervalle:

                  2.5 %       97.5 %
(Intercept)  0.10969506 1.863217e+03
Age          0.99565783 1.142627e+00
BMI          0.80089276 1.064256e+00
...

Ungerade verhältnisse:

                 Estimate Std. Error   z value Pr(>|z|)
(Intercept)  1.159642e+01  11.464683 2.7310435 1.370327
Age          1.059155e+00   1.035269 5.2491658 1.102195
B            9.254228e-01   1.073477 0.3351730 1.315670
...

Die erste Ausgabe zeigt, dass das signifikant ist. Das Konfidenzintervall für enthält jedoch den Wert 1, und die Quote für liegt sehr nahe bei 1. Was bedeutet der signifikante p-Wert aus der ersten Ausgabe? Ist das ein Prädiktor für das Ergebnis oder nicht?AgeAgeAgeAge

SabreWolfy
quelle
8
Es ist nur bei einem Konfidenzniveau von 10% signifikant, aber die Konfidenzintervalle betragen 5%.
Nick Sabbe
Das Konfidenzintervall für 10% würde also nicht 1 enthalten?
SabreWolfy
Der p-Wert (letzte Spalte, erste Tabelle) ist die Wahrscheinlichkeit, dass das erhaltene Ergebnis oder ein schlechteres Ergebnis erzielt würde, wenn die Nullhypothese wahr wäre. Das Konfidenzintervall ist eine / der Bereich, der in z. B. 95% der Fälle den wahren Wert enthält. Wenn es nicht den hypothetischen wahren Wert enthält, besteht eine Wahrscheinlichkeit von höchstens 5%, dass wir das erhaltene Ergebnis erhalten, oder schlechter, wenn die Hypothese wahr ist. Dies würde also bedeuten, dass Ihr p-Wert unter 5% liegt. Zwischen p-Werten und Konfidenzintervallen besteht ein sehr enger Zusammenhang (Statistik 101). Aber kurz gesagt: Ja, der CI für 10% wird 1 beinhalten.
Nick Sabbe
Es scheint, dass Sie Linearität annehmen. Wie ist das gerechtfertigt?
Frank Harrell

Antworten:

8

Hier auf der Website gibt es eine Vielzahl von Fragen, die bei der Interpretation der Modellausgabe hilfreich sind (hier sind drei verschiedene Beispiele, 1 2 3 , und ich bin sicher, dass es noch mehr gibt, wenn Sie das Archiv durchsuchen). Hier finden Sie auch ein Tutorial auf der UCLA- Statistikwebsite zur Interpretation der Koeffizienten für die logistische Regression.

Obwohl das Odds-Ratio für den Alterskoeffizienten nahe bei eins liegt, bedeutet dies nicht unbedingt, dass der Effekt gering ist (ob ein Effekt gering oder groß ist, ist häufig eine ebenso normative wie eine empirische Frage). Man müsste die typischen Unterschiede im Alter zwischen den Beobachtungen kennen, um eine fundiertere Meinung zu bilden.

Andy W
quelle
Vielen Dank für den Link zum Tutorial, das umfassend aussieht. Ich habe hier gesucht, bevor ich meine Frage gestellt habe. Die Links 1 und 3 scheinen nicht mit meiner Frage zu tun zu haben.
SabreWolfy
@ SabreWolfy, Link 1 erläutert weiter, wie die Koeffizienten in Bezug auf die ursprünglichen Einheiten zu interpretieren sind. Link 3 beschreibt die Schritte zur Interpretation der Auswirkungen in Bezug auf Wahrscheinlichkeiten (was für Ihre Frage wirklich zutreffend ist, und die vorgeschlagenen Diagramme in dieser Frage wären Eine vernünftige Antwort auf die Frage, wie groß der direkte Effekt ist, ist schwer zu interpretieren, ohne die Unterschiede im Alter zu kennen.
Andy W
5
(1.059301)×100%=458%
Der UCLA-Link ist tot, aber dieser entspricht wahrscheinlich (zumindest sein Inhalt hilft mir, diese Frage zu verstehen).
MBR