McFaddens Pseudo-R2-Interpretation

29

Ich habe ein binäres logistisches Regressionsmodell mit einem McFadden-Pseudo-R-Quadrat von 0,192 mit einer abhängigen Variablen namens Zahlung (1 = Zahlung und 0 = keine Zahlung). Wie ist die Interpretation dieses Pseudo-R-Quadrats?

Handelt es sich um einen relativen Vergleich für verschachtelte Modelle (z. B. hat ein 6-Variablen-Modell ein McFadden-Pseudo-R-Quadrat von 0,192, während ein 5-Variablen-Modell (nach Entfernen einer Variablen aus dem oben genannten 6-Variablen-Modell) ein Pseudo-R hat Würden wir diese 6. Variable im Modell behalten wollen?) oder handelt es sich um eine absolute Größe (z. B. ist ein gegebenes Modell mit einem McFadden-Pseudo-R-Quadrat von 0,192 besser als jedes bestehende Modell mit einem McFadden-Pseudo R-Quadrat von 0,180 (auch für nicht verschachtelte Modelle): Dies sind nur mögliche Betrachtungsweisen für McFaddens Pseudo-R-Quadrat, ich gehe jedoch davon aus, dass diese beiden Ansichten weit voneinander entfernt sind, weshalb ich diese Frage hier stelle.

Ich habe viel zu diesem Thema recherchiert und muss noch die Antwort finden, nach der ich suche, um ein McFadden-Pseudo-R-Quadrat von 0,192 interpretieren zu können. Alle Einblicke und / oder Referenzen sind sehr dankbar! Bevor ich diese Frage beantworte, bin ich mir bewusst, dass dies nicht das beste Maß ist, um ein logistisches Regressionsmodell zu beschreiben, aber ich möchte diese Statistik trotzdem besser verstehen!

Matt Reichenbach
quelle

Antworten:

34

Also dachte ich, ich würde das, was ich über McFaddens Pseudo R2 gelernt habe, als richtige Antwort zusammenfassen.

Die wegweisende Referenz, die ich für McFaddens Pseudo R2 sehen kann, ist: McFadden, D. (1974) "Conditional Logit Analysis of Qualitative Choice Behaviour". 105-142 in P. Zarembka (Hrsg.), Frontiers in Econometrics. Akademische Presse. http://eml.berkeley.edu/~mcfadden/travel.html Abbildung 5.5 zeigt die Beziehung zwischen Rho-Quadrat und traditionellen R2-Messwerten aus OLS. Meine Interpretation ist, dass größere Werte von Rho-Quadrat (McFaddens Pseudo R2) besser sind als kleinere.

Die Interpretation von McFaddens Pseudo R2 zwischen 0,2 und 0,4 stammt aus einem Buchkapitel, zu dem er beigetragen hat: Bahvioural Travel Modeling. Hrsg. Von David Hensher und Peter Stopher. 1979. McFadden steuerte Ch. Bei. 15 "Quantitative Methoden zur Analyse des Reiseverhaltens von Einzelpersonen: Einige aktuelle Entwicklungen". Die Diskussion der Modellbewertung (im Kontext von multinomialen Logit-Modellen) beginnt auf Seite 306, wo er Rho-Quadrat (McFaddens Pseudo R2) einführt. McFadden stellt fest, dass der R2-Index für Planer, die Erfahrung mit OLS haben, zwar ein vertrauteres Konzept ist, sich für die ML-Schätzung jedoch nicht so gut verhält wie das Rho-Quadrat-Maß deutlich niedriger sein als die des R2-Index ... Zum Beispiel bedeuten Werte von 0,2 bis 0,4 für das Rho-Quadrat eine AUSGEZEICHNETE Anpassung.

Im Grunde kann Rho-Quadrat wie R2 interpretiert werden, aber erwarte nicht, dass es so groß ist. Und Werte von 0,2 bis 0,4 zeigen (in McFaddens Worten) eine hervorragende Modellanpassung an.

Chris
quelle
Gute Zusammenfassung, Chris. Danke für Ihre Bemühungen!
Matt Reichenbach
13

McFaddens R-Quadrat ist definiert als 1-l_mod / l_null, wobei l_mod der logarithmische Wahrscheinlichkeitswert für das angepasste Modell ist und l_null die logarithmische Wahrscheinlichkeit für das Nullmodell ist, das nur einen Abschnitt als Prädiktor enthält (sodass für jede Person die gleiche Wahrscheinlichkeit vorhergesagt wird des Erfolgs').

Für ein logistisches Regressionsmodell ist der logarithmische Wahrscheinlichkeitswert immer negativ (da der Wahrscheinlichkeitsbeitrag aus jeder Beobachtung eine Wahrscheinlichkeit zwischen 0 und 1 ist). Wenn Ihr Modell das Ergebnis nicht wirklich besser vorhersagt als das Nullmodell, ist l_mod nicht viel größer als l_null, und l_mod / l_null ist ungefähr 1, und McFaddens quadratisches R ist nahe 0 (Ihr Modell hat keinen Vorhersagewert). .

Umgekehrt, wenn Ihr Modell wirklich gut wäre, hätten die Personen mit einem Erfolg (1) eine passende Wahrscheinlichkeit nahe 1 und umgekehrt für diejenigen mit einem Misserfolg (0). Wenn Sie in diesem Fall die Wahrscheinlichkeitsberechnung durchlaufen, liegt der Wahrscheinlichkeitsbeitrag für jedes Individuum für Ihr Modell nahe bei Null, sodass l_mod nahe bei Null liegt und McFaddens quadratisches R nahe bei 1 liegt, was auf eine sehr gute Vorhersagefähigkeit hinweist.

Was als guter Wert angesehen werden kann, ist meiner persönlichen Ansicht nach, dass ähnliche Fragen in der Statistik (z. B. was stellt eine große Korrelation dar?) Niemals eine endgültige Antwort sein können. Letztes Jahr habe ich einen Blogbeitrag über McFaddens R-Quadrat in der logistischen Regression geschrieben, der einige weitere Simulationsillustrationen enthält.

Jonathan Bartlett
quelle
5

Ich habe mich mehr mit diesem Thema befasst und festgestellt, dass die Interpretationen von McFaddens Pseudo-R-Quadrat (auch als Likelihood-Ratio-Index bekannt) nicht klar sind. Er kann jedoch von 0 bis 1 reichen, wird aber aufgrund seiner Berechnung niemals 1 erreichen oder überschreiten.

Eine Faustregel, die ich als sehr hilfreich empfand, ist, dass ein McFadden-Pseudo-R-Quadrat im Bereich von 0,2 bis 0,4 eine sehr gute Modellanpassung anzeigt. Daher ist das oben erwähnte Modell mit einem McFadden-Pseudo-R-Quadrat von 0,192 wahrscheinlich kein schreckliches Modell, zumindest nach dieser Metrik, aber es ist auch nicht besonders stark.

Es ist auch wichtig anzumerken, dass McFaddens Pseudo-R-Quadrat am besten verwendet wird, um verschiedene Spezifikationen desselben Modells (dh verschachtelte Modelle) zu vergleichen. In Bezug auf das oben genannte Beispiel passt das 6-Variablen-Modell (McFaddens Pseudo-R-Quadrat = 0,192) besser zu den Daten als das 5-Variablen-Modell (McFaddens Pseudo-R-Quadrat = 0,131), das ich formell mit einem Log-Likelihood-Ratio-Test getestet habe Dies zeigt an, dass zwischen den beiden Modellen ein signifikanter Unterschied besteht ( p <0,001), und daher wird das 6-Variablen-Modell für den angegebenen Datensatz bevorzugt.

Matt Reichenbach
quelle
1
Was ist die Referenz, die Sie gefunden haben, die behauptet, dass McFaddens R2 zwischen 0,2 und 0,4 eine "sehr gute" Anpassung ist?
Chris
Übrigens ... hier ist eine Referenz und ein Link zum Originalartikel von McFadden, in dem er sein Pseudo-R2-Maß definiert. McFadden, D. (1974) "Conditional Logit Analysis of Qualitative Choice Behavior". 105-142 in P. Zarembka (Hrsg.), Frontiers in Econometrics. Akademische Presse. elsa.berkeley.edu/reprints/mcfadden/zarembka.pdf
Chris
1
Danke für die Hinweise. Es scheint, dass eine Menge von McFaddens Arbeiten auf seiner Berkeley-Website zu finden sind. Unten finden Sie einen Link zu dem gesamten Buch, das Sie oben zitieren: elsa.berkeley.edu/users/mcfadden/travel.html Alle Kapitel erscheinen als PDF. Rho-Quadrat (McFaddens Pseudo R2) wird in Kapitel 5 erwähnt. Ab Seite 122 (siehe Gleichung 5.33 und das unmittelbar folgende Diagramm). Ich sehe keine Erwähnung von 0.2-0.4 = "VG model fit". Ich werde weiter nach dem bahnbrechenden Erscheinungsbild dieser "Faustregel" suchen. Danke für Ihre Hilfe!
Chris
1
Kein Problem! Ich schätze Ihre Neugier und Gründlichkeit. Der genaue Ausdruck ist auf lifesciencesite.com/lsj/life1002/… zu finden . Dort geben die Autoren an , dass für die Anpassung des Gesamtmodells das Pseudo-R-Quadrat (ρ2) von McFadden verwendet wird. McFadden schlug ρ2 vor Werte zwischen 0,2 und 0,4 sollten angenommen werden, um eine sehr gute Anpassung des Modells darzustellen (Louviere et al., 2000).
Matt Reichenbach
4
Meine Institution hat eine elektronische Kopie von Louviere et al. (2000). "Angegebene Auswahlmethoden: Analyse und Anwendungen". Cambridge University Press. Dies ist die Referenz, die Lee (Life Science Journal) für das Rho-Quadrat in {0.2-0.4} = "VG fit" zitiert. Auf Seite 55 von Louviere (in Verbindung mit Gleichung 3.32) sehen wir das folgende Zitat: "Werte im Rho-Quadrat zwischen 0,2 und 0,4 gelten als Hinweis auf extrem gute Modellanpassungen. Simulationen von Domenich und McFadden (1975) entsprechen diesem Bereich 0,7 bis 0,9 für eine lineare Funktion ".
Chris