Auswertung der logistischen Regression und Interpretation von Hosmer-Lemeshow Goodness of Fit

24

Wie wir alle wissen, gibt es zwei Methoden, um das logistische Regressionsmodell zu bewerten, und sie testen sehr unterschiedliche Dinge

  1. Vorhersagekraft:

    Erhalten Sie eine Statistik, die misst, wie gut Sie die abhängige Variable basierend auf den unabhängigen Variablen vorhersagen können. Die bekannten Pseudo R ^ 2 sind McFadden (1974) und Cox and Snell (1989).

  2. Statistik der Anpassungsgüte

    Der Test zeigt, ob Sie noch bessere Ergebnisse erzielen können, indem Sie das Modell komplizierter gestalten. Dabei wird geprüft, ob es Nichtlinearitäten oder Wechselwirkungen gibt.

    Ich habe beide Tests auf meinem Modell implementiert, die bereits quadratisch und interaktiv waren
    :

    >summary(spec_q2)
    
    Call:
    glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + 
     I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, 
     family = binomial())
    
     Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
    (Intercept)  0.955431   8.838584   0.108   0.9139    
    Top          0.311891   0.189793   1.643   0.1003    
    Right       -1.015460   0.502736  -2.020   0.0434 *  
    Left        -0.962143   0.431534  -2.230   0.0258 *  
    Bottom       0.198631   0.157242   1.263   0.2065    
    I(Top^2)    -0.003213   0.002114  -1.520   0.1285    
    I(Left^2)   -0.054258   0.008768  -6.188 6.09e-10 ***
    I(Bottom^2)  0.003725   0.001782   2.091   0.0366 *  
    Top:Right    0.012290   0.007540   1.630   0.1031    
    Top:Bottom   0.004536   0.002880   1.575   0.1153    
    Right:Left  -0.044283   0.015983  -2.771   0.0056 ** 
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1
    (Dispersion parameter for binomial family taken to be 1)
    Null deviance: 3350.3  on 2799  degrees of freedom
    Residual deviance: 1984.6  on 2789  degrees of freedom
    AIC: 2006.6
    

und die vorhergesagte Leistung ist wie folgt, die MaFadden ist 0,4004, und der Wert zwischen 0,2 ~ 0,4 sollte angenommen werden, um eine sehr gute Anpassung des Modells darzustellen (Louviere et al. (2000), Domenich und McFadden (1975)):

 > PseudoR2(spec_q2)
    McFadden     Adj.McFadden        Cox.Snell       Nagelkerke McKelvey.Zavoina           Effron            Count        Adj.Count 
   0.4076315        0.4004680        0.3859918        0.5531859        0.6144487        0.4616466        0.8489286        0.4712500 
         AIC    Corrected.AIC 
2006.6179010     2006.7125925 

und die Anpassungsgütestatistik:

 > hoslem.test(result,phat,g=8)

     Hosmer and Lemeshow goodness of fit (GOF) test

  data:  result, phat
  X-squared = 2800, df = 6, p-value < 2.2e-16

Nach meinem Verständnis testet GOF die folgende Null- und Alternativhypothese:

  H0: The models does not need interaction and non-linearity
  H1: The models needs interaction and non-linearity

Da meine Modelle Interaktion hinzugefügt haben, sollte die Nichtlinearität bereits verworfen werden, und der p-Wert zeigt H0 an. Daher bin ich zu dem Schluss gekommen, dass mein Modell Interaktion benötigt, in der Tat Nichtlinearität. Hoffe meine Interpretation ist korrekt und danke für jeden Hinweis im Voraus, danke.

Samoth
quelle
2
Sehen Sie sich die zugrunde liegende Tabelle besser an als den p-Wert für den HL-Test. Und auch bei Darstellungen der Residuen Ihres Modells. Dies wird zeigen, wo das Problem liegt.
Wahrscheinlichkeitsrechnung

Antworten:

26

Es gibt mehrere Probleme zu lösen.

  • R2 misst an sich niemals die Anpassungsgüte; Sie messen hauptsächlich prädiktive Diskriminierung. Die Anpassungsgüte ergibt sich nur aus dem Vergleich von mit aus einem reicheren ModellR2R2
  • Der Hosmer-Lemeshow-Test bezieht sich auf den gesamten Kalibrierungsfehler, nicht auf einen bestimmten Mangel an Passung, wie z. B. quadratische Effekte. Die Überanpassung wird nicht richtig berücksichtigt, die Auswahl der Bins und die Methode zur Berechnung der Quantile sind beliebig und die Leistung ist häufig zu niedrig.
  • Aus diesen Gründen wird der Hosmer-Lemeshow-Test nicht mehr empfohlen. Hosmer et al haben einen besseren Omnibus-Fit-Test, der in der R- rmsPaket- residuals.lrmFunktion implementiert ist .
  • Für Ihren Fall kann die Anpassungsgüte durch gemeinsames Testen (in einem "Chunk" -Test) des Beitrags aller Quadrat- und Interaktionsterme bewertet werden.
  • Ich empfehle jedoch, das Modell so festzulegen, dass es mit größerer Wahrscheinlichkeit nach vorne passt (insbesondere im Hinblick auf die Lockerung der Linearitätsannahmen mithilfe von Regressionssplines) und den Bootstrap zu verwenden, um die Überanpassung abzuschätzen und eine überanpassungskorrigierte, hochauflösende, glatte Kalibrierungskurve zur Überprüfung des Absoluten zu erhalten Richtigkeit. Dies geschieht mit dem R- rmsPaket.

Was den letzten Punkt betrifft, bevorzuge ich die Philosophie, dass Modelle flexibel sind (wie durch die Stichprobengröße ohnehin begrenzt) und dass wir uns mehr auf "Passform" als auf "mangelnde Passform" konzentrieren.

Frank Harrell
quelle
2
Nur eines: Die meisten Messungen vergleichen das angepasste Modell mit einem "perfekten Modell", das die richtige Vorhersage für jede Aufzeichnung liefert, ohne eine Anpassung von df / overfitting vorzunehmen. +1 von mir. R2
Wahrscheinlichkeitsrechnung
Ja, es ist nur so, dass wir nie hoffen, perfekt zu sein, also würde ich nicht mangelnde Passform nennen. 1-R2
Frank Harrell
4

Aus Wikipedia :

Der Test bewertet, ob die beobachteten Ereignisraten mit den erwarteten Ereignisraten in Untergruppen der Modellpopulation übereinstimmen. Der Hosmer-Lemeshow-Test identifiziert spezifisch Untergruppen als Dezile angepasster Risikowerte. Modelle, für die erwartete und beobachtete Ereignisraten in Untergruppen ähnlich sind, werden als gut kalibriert bezeichnet.

Ihre Bedeutung: Nachdem Sie ein Modell erstellt haben, das das y Ihres Modells bewertet, möchten Sie überprüfen, ob es auf 10 Dezile verteilt ist, ähnlich wie die tatsächlichen Ereignisraten.

So werden Hypothesen sein

  • H0 : Die tatsächlichen und vorhergesagten Ereignisraten sind in 10 Dezilen ähnlich
  • H1

Wenn also der p- Wert kleiner als 0,05 ist, sind sie nicht gut verteilt und Sie müssen Ihr Modell verfeinern.

Ich hoffe, dies beantwortet einige Ihrer Fragen.

Rajnish Kumar
quelle
3

Dies ist nach der Antwort von @ FrankHarrell eher umstritten, aber ein Fan des H – L-Tests würde aus diesem Ergebnis schließen, dass das Modell trotz Ihrer Einbeziehung quadratischer Terme und einiger Interaktionen 2. Ordnung immer noch einen signifikanten Mangel an Passung aufwies, und das vielleicht ein noch komplexeres Modell wäre angebracht. Sie testen die Passform genau des von Ihnen angegebenen Modells, nicht des einfacheren Modells 1. Ordnung.

† Es handelt sich nicht um ein vollständiges Modell 2. Ordnung - es stehen drei Interaktionen zur Verfügung.

Scortchi - Wiedereinsetzung von Monica
quelle