Ich habe SPSS
für ein logistisches Regressionsmodell ausgegeben. Die Ausgabe meldet zwei Maßnahmen für das Modell fit, Cox & Snell
und Nagelkerke
.
Welche dieser Kennzahlen würden Sie als Faustregel als passend melden?
Oder welcher dieser Anpassungsindizes ist derjenige, über den normalerweise in Fachzeitschriften berichtet wird?
Hintergrund: Bei der Regression wird versucht, das Vorhandensein oder Fehlen eines Vogels (Auerhuhn) anhand einiger Umgebungsvariablen (z. B. Steilheit, Vegetationsbedeckung usw.) vorherzusagen. Leider erschien der Vogel nicht sehr oft (35 Treffer bis 468 Fehler), so dass die Regression eher schlecht abschneidet. Cox & Snell ist .09, Nagelkerke, .23.
Das Fach ist Umweltwissenschaften oder Ökologie.
logistic
goodness-of-fit
r-squared
Henrik
quelle
quelle
Antworten:
Normalerweise würde ich überhaupt nicht melden . Hosmer und Lemeshow erklären in ihrem Lehrbuch Applied Logistic Regression (2nd Ed.), Warum:R2
[Um p. 164.]
In Bezug auf verschiedene ML-Versionen von , dem "Pseudo " -Stat, wird erwähnt, dass es nicht "für den routinemäßigen Gebrauch empfohlen, da es nicht so intuitiv zu erklären ist", sondern dass sie sich verpflichtet fühlen, es zu beschreiben, weil es verschiedene sind Software-Pakete melden es.R2 R2
Sie schließen diese Diskussion schriftlich ab,
[Um p. 167.]
Meine Erfahrung mit einigen großen Logistikmodellen (100.000 bis 300.000 Datensätze, 100 bis 300 erklärende Variablen) war genau so, wie H & L es beschrieben hat. Ich konnte mit meinen Daten einen relativ hohen Wert von bis zu 0,40 erreichen. Dies entsprach einer Klassifizierungsfehlerrate zwischen 3% und 15% (falsch-negative und falsch-positive Werte, ausgewogen, bestätigt anhand von 50% Hold-out-Datensätzen). Wie H & L andeutete, musste ich viel Zeit damit verbringen, den Klienten (einen erfahrenen Berater, der mit vertraut war ) in Bezug auf entwerten und ihn dazu zu bringen, sich auf das zu konzentrieren, was in der Analyse wichtig war (den Klassifizierungsfehler) Preise). Ich kann wärmstens empfehlen, die Ergebnisse Ihrer Analyse ohne Bezugnahme auf , was eher irreführend ist als nicht.R2 R2 R2 R2
quelle
Beide Indizes sind ein Maß für die Assoziationsstärke (dh, ob ein Prädiktor wie bei einem LR-Test mit dem Ergebnis assoziiert ist) und können zur Quantifizierung der Vorhersagefähigkeit oder der Modellleistung verwendet werden. Ein einzelner Prädiktor kann einen signifikanten Einfluss auf das Ergebnis haben, ist jedoch möglicherweise nicht unbedingt für die Vorhersage der individuellen Reaktion von Nutzen. Daher muss die Modellleistung als Ganzes bewertet werden (bezogen auf das Nullmodell). Die Nagelkerke ist nützlich, weil sie einen Maximalwert von 1,0 hat, wie Srikant sagte. Dies ist nur eine normalisierte Version des berechnet aus dem WahrscheinlichkeitsverhältnisR 2 R 2 LR = 1 - exp ( - LR / n )R2 R2 R2LR=1−exp(−LR/n) , die im Zusammenhang mit der Wald-Statistik für die Gesamtassoziation steht, wie ursprünglich von Cox und Snell vorgeschlagen. Andere Indikatoren für die Vorhersagefähigkeit sind der Brier-Score, der C-Index (Konkordanzwahrscheinlichkeit oder ROC-Bereich) oder Somers 'D, wobei die beiden letzteren ein besseres Maß für die Vorhersageunterscheidung liefern.
Die einzigen in der logistischen Regression getroffenen Annahmen sind die der Linearität und Additivität (+ Unabhängigkeit). Obwohl viele globale Anpassungstests (wie der Hosmer & Lemeshow Test, siehe aber meinen Kommentar zu @onestop) vorgeschlagen wurden, fehlt ihnen im Allgemeinen die Leistung. Zur Beurteilung der Modellanpassung sollten visuelle Kriterien (geschichtete Schätzungen, nichtparametrische Glättung) herangezogen werden, mit deren Hilfe lokale oder globale Abweichungen zwischen vorhergesagten und beobachteten Ergebnissen (z. B. Nichtlinearität oder Interaktion) festgestellt werden können. Dies wird in Harrells RMS weitgehend erläutert Handout . Zu einem verwandten Thema (Kalibrierungstests), Steyerberg ( Clinical Prediction Modelsχ2 , 2009) weist auf denselben Ansatz zur Bewertung der Übereinstimmung zwischen beobachteten Ergebnissen und vorhergesagten Wahrscheinlichkeiten hin:
Er schlägt auch vor, sich auf den absoluten Unterschied zwischen geglätteten beobachteten Ergebnissen und vorhergesagten Wahrscheinlichkeiten entweder visuell oder mit der sogenannten Harrell-E-Statistik zu verlassen.
Weitere Einzelheiten finden Sie in Harrells Buch " Regression Modeling Strategies" (S. 203-205, 230-244, 247-249). Für eine neuere Diskussion siehe auch
Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T., Gonen, M., Obuchowski, N., Pencina, MJ und Kattan, MW (2010). Bewertung der Leistung von Vorhersagemodellen, ein Rahmen für traditionelle und neuartige Maßnahmen . Epidemiology , 21 (1) , 128 & ndash; 138.
quelle
Ich hätte gedacht, dass das Hauptproblem bei jeder Art von Maß für die logistische Regression darin besteht, dass es sich um ein Modell handelt, dessen Rauschwert bekannt ist. Dies ist anders als bei der linearen Standardregression, bei der der Rauschpegel normalerweise als unbekannt behandelt wird. Denn wir können eine glm-Wahrscheinlichkeitsdichtefunktion schreiben als:R2
Wobei Bekannte Funktionen sind und für die Umkehrverbindungsfunktion . Definieren wir die üblichen GLM-Abweichungsreste alsb(.), c(.), d(.;.) μi=g−1(xTiβ) g−1(.)
Wobei die Dimension von . Für die logistische Regression gilt , was bekannt ist. Auf diese Weise können wir einen bestimmten Restwert festlegen, der "akzeptabel" oder "vernünftig" ist. Dies kann normalerweise nicht für die OLS-Regression durchgeführt werden (es sei denn, Sie verfügen über vorherige Informationen zum Rauschen). Wir erwarten nämlich, dass jeder Abweichungsrest ungefähr . Zu viele und es ist wahrscheinlich, dass wichtige Effekte im Modell fehlen ( ); zu viele und es ist wahrscheinlich, dass das Modell redundante oder unechte Effekte aufweist (Überanpassung). (Dies kann auch eine falsche Modellangabe bedeuten.)p β ϕ=1 1 d2i≫1 d2i≪1
Dies bedeutet nun, dass das Problem für das Pseudo- besteht, dass es nicht berücksichtigt, dass das Niveau der binomialen Variation vorhersehbar ist (vorausgesetzt, die binomiale Fehlerstruktur wird nicht in Frage gestellt). Obwohl Nagelkerke von bis , ist es dennoch nicht richtig skaliert. Außerdem kann ich nicht erkennen, warum diese als Pseudo- wenn sie nicht den üblichen wenn Sie eine "GLM" mit einem Identitätslink und einem normalen Fehler einfügen. Zum Beispiel ist das äquivalente Cox-Snell-R-Quadrat für den normalen Fehler (unter Verwendung der REML-Varianzschätzung) gegeben durch:R2 0 1 R2 R2
Welches sicherlich seltsam aussieht.
Ich denke, das bessere Maß für die Anpassungsgüte ist die Summe der Abweichungsreste, . Dies liegt hauptsächlich daran, dass wir ein Ziel haben, auf das wir zielen müssen.χ2
quelle
Ich fand Tue Tjurs Kurzbeitrag "Bestimmungskoeffizienten in logistischen Regressionsmodellen - Ein neuer Vorschlag: Der Diskriminierungskoeffizient" (2009, The American Statistician ) zu verschiedenen Vorschlägen für einen Bestimmungskoeffizienten in logistischen Modellen ziemlich aufschlussreich. Er macht einen guten Job, indem er Vor- und Nachteile hervorhebt - und bietet natürlich eine neue Definition. Sehr zu empfehlen (obwohl ich selbst keinen Favoriten habe).
quelle
Ich wollte auch 'keiner von ihnen' sagen, also habe ich Whubers Antwort positiv bewertet.
Hosmer & Lemeshow kritisierten nicht nur R ^ 2, sondern schlugen auch ein alternatives Maß für die Anpassung an die logistische Regression vor, das manchmal nützlich ist. Dies basiert auf der Aufteilung der Daten in (sagen wir) 10 Gruppen gleicher Größe (oder so nahe wie möglich) durch Ordnen nach der vorhergesagten Wahrscheinlichkeit (oder gleichwertig dem linearen Prädiktor) und anschließendem Vergleichen der beobachteten mit der erwarteten Anzahl positiver Antworten in jeder Gruppe und Durchführen eines Chi-Quadrat-Tests. Dieser Hosmer-Lemeshow-Anpassungstest ist in den meisten Statistik-Softwarepaketen implementiert.
quelle
Design
Paket mit dem alternativen H & L 1 df-Test.Ich würde die Nagelkerke vorziehen, da diese Modellanpassung 1 erreicht, wenn das Modell perfekt passt, sodass der Leser ein Gefühl dafür hat, wie weit Ihr Modell von der perfekten Passform entfernt ist. Der Cox & Shell erreicht keine 1 für eine perfekte Modellanpassung und daher ist es etwas schwieriger, einen Wert von 0,09 zu interpretieren. In dieser URL finden Sie weitere Informationen zu Pseudo RSquared mit Erläuterungen zu verschiedenen Arten von Passungen.
quelle
Trotz der Argumente gegen die Verwendung von Pseudo-R-Quadraten werden manche Menschen aus verschiedenen Gründen sie zumindest zu bestimmten Zeiten weiterhin verwenden wollen. Was ich aus meinen Lesungen verinnerlicht habe (und es tut mir leid, dass ich im Moment keine Zitate liefern kann), ist das
wenn beide über 0,5 sind, Nag. werden; und
wenn sie .5 überspannen, stechen Sie.
Auch eine Formel, deren Ergebnisse häufig zwischen diesen beiden liegen, wird von Scott Menard in Applied Logistic Regression Analysis (Sage) erwähnt
Dies wird in der folgenden Tabelle mit "L" bezeichnet.
quelle