Um meine Frage besser zu stellen, habe ich einige der Ausgaben sowohl eines 16-Variablen-Modells ( fit
) als auch eines 17-Variablen-Modells ( fit2
) unten bereitgestellt (alle Prädiktorvariablen in diesen Modellen sind kontinuierlich, wobei der einzige Unterschied zwischen diesen Modellen darin besteht, dass fit
dies nicht der Fall ist enthalten Variable 17 (var17)):
fit Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703
0 69833 d.f. 17 g 1.150 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma 0.416
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
fit2 Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13639.70 R2 0.174 C 0.703
0 69833 d.f. 18 g 1.154 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.170 gamma 0.412
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
Ich habe Frank Harrells rms
Paket verwendet, um diese lrm
Modelle zu bauen . Wie Sie sehen können, scheinen diese Modelle in Bezug auf Diskriminierungsindizes und Rangdiskriminierung , wenn überhaupt, nicht sehr unterschiedlich zu sein. Indizes ; Bei Verwendung von lrtest(fit,fit2)
wurde ich jedoch mit den folgenden Ergebnissen versorgt:
L.R. Chisq d.f. P
3.685374e+01 1.000000e+00 1.273315e-09
Als solches würden wir die Nullhypothese dieses Likelihood-Ratio-Tests ablehnen; Ich würde jedoch annehmen, dass dies wahrscheinlich auf die große Stichprobengröße ( n = 102849) zurückzuführen ist, da diese Modelle auf ähnliche Weise zu funktionieren scheinen. Darüber hinaus bin ich daran interessiert, einen besseren Weg zu finden, um verschachtelte binäre logistische Regressionsmodelle formal zu vergleichen, wenn n groß ist.
Ich freue mich über Feedback, R-Skripte oder Dokumentationen, die mich beim Vergleich dieser Arten verschachtelter Modelle in die richtige Richtung lenken können! Vielen Dank!
quelle
fit2
es sich um ein Modell mit 17 Variablen handelt, aber es ist auch das Modell, das weggelassen wirdV17
. Vielleicht möchten Sie dies bearbeiten.fit2
habefit
im obigen Beispiel gemäß Ihrer Korrektur geändert . Vielen Dank!Antworten:
(1) Es gibt eine umfangreiche Literatur darüber, warum man Vollmodelle eingeschränkten / sparsamen Modellen vorziehen sollte. Mein Verständnis sind nur wenige Gründe, das sparsame Modell zu bevorzugen. Größere Modelle sind jedoch für viele klinische Anwendungen möglicherweise nicht realisierbar.
(2) Soweit ich weiß, werden Diskriminierungs- / Diskriminierungsindizes nicht als Modell- / Variablenauswahlparameter verwendet (sollten nicht verwendet werden). Sie sind nicht für diese Verwendung vorgesehen, und daher gibt es möglicherweise nicht viel Literatur darüber, warum sie nicht für den Modellbau verwendet werden sollten.
(3) Sparsame Modelle können Einschränkungen aufweisen, die nicht ohne weiteres erkennbar sind. Sie sind möglicherweise weniger gut kalibriert als größere Modelle, die externe / interne Gültigkeit kann verringert sein.
(4) Die c-Statistik ist möglicherweise nicht optimal für die Bewertung von Modellen, die das zukünftige Risiko vorhersagen oder Personen in Risikokategorien einteilen. In dieser Einstellung ist die Kalibrierung für die genaue Risikobewertung ebenso wichtig. Beispielsweise kann ein Biomarker mit einer Odds Ratio von 3 nur geringe Auswirkungen auf die Statistik haben, ein erhöhtes Niveau könnte jedoch das geschätzte 10-Jahres-Herz-Kreislauf-Risiko für einen einzelnen Patienten von 8% auf 24% verschieben
Koch NR; Verwendung und Missbrauch der ROC-Kurve in der medizinischen Literatur. Verkehr. 115 2007: 928 & ndash; 935.
(5) AUC / c-Statistik / Diskriminierung ist bekanntermaßen unempfindlich gegenüber signifikanten Prädiktorvariablen. Dies wird in der obigen Cook-Referenz und der motivierenden Kraft hinter der Entwicklung des Netto-Reklassifizierungsindex erörtert. Auch oben in Cook besprochen.
(6) Große Datensätze können immer noch zu größeren Modellen als gewünscht führen, wenn Standardmethoden zur Variablenauswahl verwendet werden. Bei schrittweisen Auswahlverfahren wird häufig ein p-Wert-Grenzwert von 0,05 verwendet. Dieser Wert enthält jedoch nichts Eigenes, was bedeutet, dass Sie diesen Wert auswählen sollten. Bei kleineren Datensätzen kann ein größerer p-Wert (0,2) geeigneter sein, bei größeren Datensätzen kann ein kleinerer p-Wert angemessen sein (aus diesem Grund wurde 0,01 für den GUSTO I-Datensatz verwendet).
(7) Während AIC häufig zur Modellauswahl verwendet wird und in der Literatur besser unterstützt wird, kann BIC in größeren Datensätzen eine gültige Alternative sein. Für die Auswahl des BIC-Modells muss das Chi-Quadrat log (n) überschreiten, daher werden kleinere Modelle in größeren Datensätzen erstellt. (Malven können ähnliche Eigenschaften haben)
(8) Aber wenn Sie nur ein Maximum von 10 oder 12 Variablen wollen, ist die einfachere Lösung ist so etwas wie
bestglm
oderleaps
Pakete wurden Sie nur die maximale Anzahl von Variablen einstellen , dass Sie betrachten wollen.(9) Wenn Sie nur einen Test wünschen, bei dem die beiden Modelle gleich aussehen und sich keine Sorgen um die Details machen, können Sie wahrscheinlich die AUC der beiden Modelle vergleichen. Einige Pakete geben Ihnen sogar einen p-Wert für den Vergleich. Scheint nicht ratsam.
Ambler G (2002) Vereinfachung eines Prognosemodells: eine Simulationsstudie basierend auf klinischen Daten
Cook NR; Verwendung und Missbrauch der ROC-Kurve in der medizinischen Literatur. Verkehr. 115 2007: 928 & ndash; 935.
Gail MH, Pfeiffer RM; Über Kriterien zur Bewertung von Modellen des absoluten Risikos. Biostat. 6 2005: 227 & ndash; 239.
(10) Sobald das Modell erstellt wurde, sind C-Statistiken / Dezimierungsindizes möglicherweise nicht der beste Ansatz für den Vergleich von Modellen und weisen gut dokumentierte Einschränkungen auf. Vergleiche sollten wahrscheinlich auch mindestens die Kalibrierung und den Reklassifizierungsindex umfassen.
Steyerber (2010) Bewertung der Leistung von Vorhersagemodellen: ein Rahmen für einige traditionelle und neuartige Maßnahmen
(11) Es kann eine gute Idee sein, darüber hinauszugehen und entscheidungsanalytische Maßnahmen anzuwenden.
Vickers AJ, Elkin EB. Entscheidungskurvenanalyse: Eine neuartige Methode zur Bewertung von Vorhersagemodellen. Med Entscheidungsfindung. 2006; 26: 565 & ndash; 74.
Bäcker SG, Koch NR, Vickers A, Kramer BS. Verwendung relativer Nutzenkurven zur Bewertung der Risikoprognose. JR Stat Soc A. 2009; 172: 729 & ndash; 48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Bewertung von Markern und Risikoprognosemodellen: Überblick über die Beziehungen zwischen NRI und entscheidungsanalytischen Maßnahmen. Med Entscheidungsfindung. 2013; 33: 490 & ndash; 501
--- Update --- Ich finde den Vickers-Artikel am interessantesten. Trotz vieler Leitartikel wurde dies jedoch noch nicht allgemein akzeptiert. Kann also nicht viel von praktischem Nutzen sein. Die Artikel von Cook und Steyerberg sind viel praktischer.
Niemand mag schrittweise Auswahl. Ich werde mich bestimmt nicht dafür einsetzen. Ich möchte betonen, dass die meisten Kritikpunkte an schrittweise EPV <50 und die Wahl zwischen einem vollständigen oder vordefinierten Modell und einem reduzierten Modell voraussetzen. Wenn EPV> 50 ist und eine Verpflichtung zu einem Reduzierungsmodell besteht, kann die Kosten-Nutzen-Analyse unterschiedlich sein.
Der schwache Gedanke beim Vergleich von C-Statistiken ist, dass sie möglicherweise nicht unterschiedlich sind, und ich erinnere mich an diesen Test, der deutlich unterfordert ist. Aber jetzt kann ich die Referenz nicht finden, also könnte es weit davon entfernt sein.
quelle
bestglm
undleaps
Pakete sind sehr rechenintensiv und es dauert Tage, bis sie mit Datensätzen ausgeführt werden, mit denen ich arbeite, aber ich danke Ihnen für die möglichen Ideen.Eine Möglichkeit besteht darin, für beide Modelle Pseudo-R-Quadrat-Maße zu verwenden. Ein starker Unterschied im Pseudo-R-Quadrat würde darauf hindeuten, dass die Modellanpassung durch Weglassen von V17 stark abnimmt.
Es gibt verschiedene Arten von Pseudo-R-Quadraten. Eine Übersicht finden Sie hier zum Beispiel:
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm
Eine beliebte Maßnahme ist das Nagelkerke R-Quadrat. Sie variiert zwischen 0 und 1 und kann mit Vorsicht wie ein R-Quadrat aus einem einfachen linearen Regressionsmodell interpretiert werden. Es basiert auf einem transformierten Verhältnis der geschätzten Wahrscheinlichkeiten des vollständigen Modells zum Nur-Intercept-Modell.
Sie können es für
fit
bzw. schätzenfit2
und die relative Größe vergleichen, um einen Hinweis auf Ihr Problem zu erhalten. Ein wesentlich höheres Nagelkerke-R-Quadrat fürfit
würde darauf hindeuten, dassfit2
durch Weglassen von V17 viel Vorhersagekraft verloren geht.In
lrm
demstats
Wert liefert Nagelkerkes R-Quadrat. Gebenfit$stats
sollte Ihnen also einen Kostenvoranschlag geben. Siehe auch?lrm
.quelle
fit
" ist. Im obigen Beispiel gibt es eine Differenz von 0,001 wie wir Nagelkerkes R-Quadrat von 0,173 und 0,174 für habenfit
undfit2
sind. Haben Sie Hinweise darauf, was "ein wesentlich höherer Nagelkerke R-Platz" ist? Vielen Dank!Ich habe gerade darüber gelesen. Der richtige Weg, dies zu tun, besteht darin, die endgültige Modellausgabe von Rs glm zu verwenden und nach "Restabweichung:" zu suchen und das Delta zwischen den beiden Modellen abzuleiten und diesen Wert in einem Chi-Quadrat-Test unter Verwendung von df zu verwenden, das gleich der Anzahl der abgelehnten Prädiktorterme ist. Und das ist dein p-Wert.
Angewandte Regressionsmodellierung Iaian Pardoe 2. Auflage 2012 S. 270
quelle