Ich habe ein binäres logistisches Regressionsmodell mit einem McFadden-Pseudo-R-Quadrat von 0,192 mit einer abhängigen Variablen namens Zahlung (1 = Zahlung und 0 = keine Zahlung). Wie ist die Interpretation dieses Pseudo-R-Quadrats?
Handelt es sich um einen relativen Vergleich für verschachtelte Modelle (z. B. hat ein 6-Variablen-Modell ein McFadden-Pseudo-R-Quadrat von 0,192, während ein 5-Variablen-Modell (nach Entfernen einer Variablen aus dem oben genannten 6-Variablen-Modell) ein Pseudo-R hat Würden wir diese 6. Variable im Modell behalten wollen?) oder handelt es sich um eine absolute Größe (z. B. ist ein gegebenes Modell mit einem McFadden-Pseudo-R-Quadrat von 0,192 besser als jedes bestehende Modell mit einem McFadden-Pseudo R-Quadrat von 0,180 (auch für nicht verschachtelte Modelle): Dies sind nur mögliche Betrachtungsweisen für McFaddens Pseudo-R-Quadrat, ich gehe jedoch davon aus, dass diese beiden Ansichten weit voneinander entfernt sind, weshalb ich diese Frage hier stelle.
Ich habe viel zu diesem Thema recherchiert und muss noch die Antwort finden, nach der ich suche, um ein McFadden-Pseudo-R-Quadrat von 0,192 interpretieren zu können. Alle Einblicke und / oder Referenzen sind sehr dankbar! Bevor ich diese Frage beantworte, bin ich mir bewusst, dass dies nicht das beste Maß ist, um ein logistisches Regressionsmodell zu beschreiben, aber ich möchte diese Statistik trotzdem besser verstehen!
quelle
McFaddens R-Quadrat ist definiert als 1-l_mod / l_null, wobei l_mod der logarithmische Wahrscheinlichkeitswert für das angepasste Modell ist und l_null die logarithmische Wahrscheinlichkeit für das Nullmodell ist, das nur einen Abschnitt als Prädiktor enthält (sodass für jede Person die gleiche Wahrscheinlichkeit vorhergesagt wird des Erfolgs').
Für ein logistisches Regressionsmodell ist der logarithmische Wahrscheinlichkeitswert immer negativ (da der Wahrscheinlichkeitsbeitrag aus jeder Beobachtung eine Wahrscheinlichkeit zwischen 0 und 1 ist). Wenn Ihr Modell das Ergebnis nicht wirklich besser vorhersagt als das Nullmodell, ist l_mod nicht viel größer als l_null, und l_mod / l_null ist ungefähr 1, und McFaddens quadratisches R ist nahe 0 (Ihr Modell hat keinen Vorhersagewert). .
Umgekehrt, wenn Ihr Modell wirklich gut wäre, hätten die Personen mit einem Erfolg (1) eine passende Wahrscheinlichkeit nahe 1 und umgekehrt für diejenigen mit einem Misserfolg (0). Wenn Sie in diesem Fall die Wahrscheinlichkeitsberechnung durchlaufen, liegt der Wahrscheinlichkeitsbeitrag für jedes Individuum für Ihr Modell nahe bei Null, sodass l_mod nahe bei Null liegt und McFaddens quadratisches R nahe bei 1 liegt, was auf eine sehr gute Vorhersagefähigkeit hinweist.
Was als guter Wert angesehen werden kann, ist meiner persönlichen Ansicht nach, dass ähnliche Fragen in der Statistik (z. B. was stellt eine große Korrelation dar?) Niemals eine endgültige Antwort sein können. Letztes Jahr habe ich einen Blogbeitrag über McFaddens R-Quadrat in der logistischen Regression geschrieben, der einige weitere Simulationsillustrationen enthält.
quelle
Ich habe mich mehr mit diesem Thema befasst und festgestellt, dass die Interpretationen von McFaddens Pseudo-R-Quadrat (auch als Likelihood-Ratio-Index bekannt) nicht klar sind. Er kann jedoch von 0 bis 1 reichen, wird aber aufgrund seiner Berechnung niemals 1 erreichen oder überschreiten.
Eine Faustregel, die ich als sehr hilfreich empfand, ist, dass ein McFadden-Pseudo-R-Quadrat im Bereich von 0,2 bis 0,4 eine sehr gute Modellanpassung anzeigt. Daher ist das oben erwähnte Modell mit einem McFadden-Pseudo-R-Quadrat von 0,192 wahrscheinlich kein schreckliches Modell, zumindest nach dieser Metrik, aber es ist auch nicht besonders stark.
Es ist auch wichtig anzumerken, dass McFaddens Pseudo-R-Quadrat am besten verwendet wird, um verschiedene Spezifikationen desselben Modells (dh verschachtelte Modelle) zu vergleichen. In Bezug auf das oben genannte Beispiel passt das 6-Variablen-Modell (McFaddens Pseudo-R-Quadrat = 0,192) besser zu den Daten als das 5-Variablen-Modell (McFaddens Pseudo-R-Quadrat = 0,131), das ich formell mit einem Log-Likelihood-Ratio-Test getestet habe Dies zeigt an, dass zwischen den beiden Modellen ein signifikanter Unterschied besteht ( p <0,001), und daher wird das 6-Variablen-Modell für den angegebenen Datensatz bevorzugt.
quelle
http://cowles.yale.edu/sites/default/files/files/pub/d04/d0474.pdf
quelle