Vergleichen verschachtelter binärer logistischer Regressionsmodelle, wenn

10

Um meine Frage besser zu stellen, habe ich einige der Ausgaben sowohl eines 16-Variablen-Modells ( fit) als auch eines 17-Variablen-Modells ( fit2) unten bereitgestellt (alle Prädiktorvariablen in diesen Modellen sind kontinuierlich, wobei der einzige Unterschied zwischen diesen Modellen darin besteht, dass fitdies nicht der Fall ist enthalten Variable 17 (var17)):

fit                    Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13602.84    R2       0.173    C       0.703    
  0          69833    d.f.            17    g        1.150    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.160    gamma   0.416    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190       


fit2                 Model Likelihood       Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13639.70    R2       0.174    C       0.703    
  0          69833    d.f.            18    g        1.154    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.170    gamma   0.412    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190          

Ich habe Frank Harrells rmsPaket verwendet, um diese lrmModelle zu bauen . Wie Sie sehen können, scheinen diese Modelle in Bezug auf Diskriminierungsindizes und Rangdiskriminierung , wenn überhaupt, nicht sehr unterschiedlich zu sein. Indizes ; Bei Verwendung von lrtest(fit,fit2)wurde ich jedoch mit den folgenden Ergebnissen versorgt:

 L.R. Chisq         d.f.            P 
3.685374e+01     1.000000e+00    1.273315e-09 

Als solches würden wir die Nullhypothese dieses Likelihood-Ratio-Tests ablehnen; Ich würde jedoch annehmen, dass dies wahrscheinlich auf die große Stichprobengröße ( n = 102849) zurückzuführen ist, da diese Modelle auf ähnliche Weise zu funktionieren scheinen. Darüber hinaus bin ich daran interessiert, einen besseren Weg zu finden, um verschachtelte binäre logistische Regressionsmodelle formal zu vergleichen, wenn n groß ist.

Ich freue mich über Feedback, R-Skripte oder Dokumentationen, die mich beim Vergleich dieser Arten verschachtelter Modelle in die richtige Richtung lenken können! Vielen Dank!

Matt Reichenbach
quelle
Was ist der Zweck des Entfernens der Variablen 17?
Michael M
Dies ist ein Spielzeugbeispiel; Normalerweise werde ich jedoch gebeten, Modelle mit 8-12 Variablen zu erstellen. Das Entfernen von Variablen, die nicht zu einem Modell beitragen, ist für mich ein Hauptinteresse. Die Variable 17 scheint für das gesamte Modell nur sehr wenig zu bedeuten (in Bezug auf die Vorhersagbarkeit), doch der Likelihood-Ratio-Test zeigt, dass es einen signifikanten Unterschied zwischen den beiden Modellen gibt (wahrscheinlich eher aufgrund eines großen n als aufgrund eines tatsächlichen Unterschieds in diesen zwei Modelle). Daher hoffe ich, einen Weg zu finden, diese beiden Modelle zu vergleichen (eine Methode zu finden, die keinen Unterschied zwischen diesen beiden Modellen anzeigt)
Matt Reichenbach,
(1) Ich bin mir nicht sicher, ob ich ganz verstehe, wonach Sie suchen. In der Medizin ist das Problem der Verwendung von Diskriminierung wie der C-Statistik jedoch gut etabliert. Die C-Statik kann auch bei Hinzufügung einer signifikanten Variablen unverändert bleiben und hat zur Entwicklung von Reklassifizierungsindizes geführt ( circ.ahajournals.org/content/121/15/). 1768.full ) (2) Sind die AIC / BIC ähnlich? Eine Reihe variabler Informationsgewinnkriterien kann nützlicher sein als Unterscheidungskriterien.
Charles
1
Ich denke, in Ihrem ersten Absatz ist ein Tippfehler. Es wird angegeben, dass fit2es sich um ein Modell mit 17 Variablen handelt, aber es ist auch das Modell, das weggelassen wird V17. Vielleicht möchten Sie dies bearbeiten.
Tomka
1
@ Tomka, ich fit2habe fitim obigen Beispiel gemäß Ihrer Korrektur geändert . Vielen Dank!
Matt Reichenbach

Antworten:

6

(1) Es gibt eine umfangreiche Literatur darüber, warum man Vollmodelle eingeschränkten / sparsamen Modellen vorziehen sollte. Mein Verständnis sind nur wenige Gründe, das sparsame Modell zu bevorzugen. Größere Modelle sind jedoch für viele klinische Anwendungen möglicherweise nicht realisierbar.

(2) Soweit ich weiß, werden Diskriminierungs- / Diskriminierungsindizes nicht als Modell- / Variablenauswahlparameter verwendet (sollten nicht verwendet werden). Sie sind nicht für diese Verwendung vorgesehen, und daher gibt es möglicherweise nicht viel Literatur darüber, warum sie nicht für den Modellbau verwendet werden sollten.

(3) Sparsame Modelle können Einschränkungen aufweisen, die nicht ohne weiteres erkennbar sind. Sie sind möglicherweise weniger gut kalibriert als größere Modelle, die externe / interne Gültigkeit kann verringert sein.

(4) Die c-Statistik ist möglicherweise nicht optimal für die Bewertung von Modellen, die das zukünftige Risiko vorhersagen oder Personen in Risikokategorien einteilen. In dieser Einstellung ist die Kalibrierung für die genaue Risikobewertung ebenso wichtig. Beispielsweise kann ein Biomarker mit einer Odds Ratio von 3 nur geringe Auswirkungen auf die Statistik haben, ein erhöhtes Niveau könnte jedoch das geschätzte 10-Jahres-Herz-Kreislauf-Risiko für einen einzelnen Patienten von 8% auf 24% verschieben

Koch NR; Verwendung und Missbrauch der ROC-Kurve in der medizinischen Literatur. Verkehr. 115 2007: 928 & ndash; 935.

(5) AUC / c-Statistik / Diskriminierung ist bekanntermaßen unempfindlich gegenüber signifikanten Prädiktorvariablen. Dies wird in der obigen Cook-Referenz und der motivierenden Kraft hinter der Entwicklung des Netto-Reklassifizierungsindex erörtert. Auch oben in Cook besprochen.

(6) Große Datensätze können immer noch zu größeren Modellen als gewünscht führen, wenn Standardmethoden zur Variablenauswahl verwendet werden. Bei schrittweisen Auswahlverfahren wird häufig ein p-Wert-Grenzwert von 0,05 verwendet. Dieser Wert enthält jedoch nichts Eigenes, was bedeutet, dass Sie diesen Wert auswählen sollten. Bei kleineren Datensätzen kann ein größerer p-Wert (0,2) geeigneter sein, bei größeren Datensätzen kann ein kleinerer p-Wert angemessen sein (aus diesem Grund wurde 0,01 für den GUSTO I-Datensatz verwendet).

(7) Während AIC häufig zur Modellauswahl verwendet wird und in der Literatur besser unterstützt wird, kann BIC in größeren Datensätzen eine gültige Alternative sein. Für die Auswahl des BIC-Modells muss das Chi-Quadrat log (n) überschreiten, daher werden kleinere Modelle in größeren Datensätzen erstellt. (Malven können ähnliche Eigenschaften haben)

(8) Aber wenn Sie nur ein Maximum von 10 oder 12 Variablen wollen, ist die einfachere Lösung ist so etwas wie bestglmoder leapsPakete wurden Sie nur die maximale Anzahl von Variablen einstellen , dass Sie betrachten wollen.

(9) Wenn Sie nur einen Test wünschen, bei dem die beiden Modelle gleich aussehen und sich keine Sorgen um die Details machen, können Sie wahrscheinlich die AUC der beiden Modelle vergleichen. Einige Pakete geben Ihnen sogar einen p-Wert für den Vergleich. Scheint nicht ratsam.

Ambler G (2002) Vereinfachung eines Prognosemodells: eine Simulationsstudie basierend auf klinischen Daten
Cook NR; Verwendung und Missbrauch der ROC-Kurve in der medizinischen Literatur. Verkehr. 115 2007: 928 & ndash; 935.
Gail MH, Pfeiffer RM; Über Kriterien zur Bewertung von Modellen des absoluten Risikos. Biostat. 6 2005: 227 & ndash; 239.

(10) Sobald das Modell erstellt wurde, sind C-Statistiken / Dezimierungsindizes möglicherweise nicht der beste Ansatz für den Vergleich von Modellen und weisen gut dokumentierte Einschränkungen auf. Vergleiche sollten wahrscheinlich auch mindestens die Kalibrierung und den Reklassifizierungsindex umfassen.

Steyerber (2010) Bewertung der Leistung von Vorhersagemodellen: ein Rahmen für einige traditionelle und neuartige Maßnahmen

(11) Es kann eine gute Idee sein, darüber hinauszugehen und entscheidungsanalytische Maßnahmen anzuwenden.

Vickers AJ, Elkin EB. Entscheidungskurvenanalyse: Eine neuartige Methode zur Bewertung von Vorhersagemodellen. Med Entscheidungsfindung. 2006; 26: 565 & ndash; 74.
Bäcker SG, Koch NR, Vickers A, Kramer BS. Verwendung relativer Nutzenkurven zur Bewertung der Risikoprognose. JR Stat Soc A. 2009; 172: 729 & ndash; 48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Bewertung von Markern und Risikoprognosemodellen: Überblick über die Beziehungen zwischen NRI und entscheidungsanalytischen Maßnahmen. Med Entscheidungsfindung. 2013; 33: 490 & ndash; 501

--- Update --- Ich finde den Vickers-Artikel am interessantesten. Trotz vieler Leitartikel wurde dies jedoch noch nicht allgemein akzeptiert. Kann also nicht viel von praktischem Nutzen sein. Die Artikel von Cook und Steyerberg sind viel praktischer.

Niemand mag schrittweise Auswahl. Ich werde mich bestimmt nicht dafür einsetzen. Ich möchte betonen, dass die meisten Kritikpunkte an schrittweise EPV <50 und die Wahl zwischen einem vollständigen oder vordefinierten Modell und einem reduzierten Modell voraussetzen. Wenn EPV> 50 ist und eine Verpflichtung zu einem Reduzierungsmodell besteht, kann die Kosten-Nutzen-Analyse unterschiedlich sein.

Der schwache Gedanke beim Vergleich von C-Statistiken ist, dass sie möglicherweise nicht unterschiedlich sind, und ich erinnere mich an diesen Test, der deutlich unterfordert ist. Aber jetzt kann ich die Referenz nicht finden, also könnte es weit davon entfernt sein.

Charles
quelle
(1) Ich bin mir bewusst, dass Vollmodelle bevorzugt werden, aber ich habe mehr als 1.000 Varianten zur Auswahl und muss diese kleineren Modelle aufgrund branchenspezifischer Anforderungen bauen. (2) Das macht Sinn! (3) Einverstanden! (4) Richtig (5) Interessant
Matt Reichenbach
(6) vereinbart; Schrittweise Verfahren sind jedoch sehr fragwürdig, und je niedriger der p- Wert-Grenzwert ist, desto voreingenommener werden diese Modelltypen, unabhängig von der Stichprobengröße. (7) „Für die Auswahl des BIC-Modells muss das Chi-Quadrat log (n) überschreiten“, scheint dies sehr nützlich zu sein. Vielen Dank! (8) bestglmund leapsPakete sind sehr rechenintensiv und es dauert Tage, bis sie mit Datensätzen ausgeführt werden, mit denen ich arbeite, aber ich danke Ihnen für die möglichen Ideen.
Matt Reichenbach
(9) Diese p- Werte wären selbst dann signifikant, wenn die Modelle allein aufgrund der großen Stichprobengröße nahezu exakt gleich wären. (10) Ich muss den Kalibrierungs- und Neuklassifizierungsindex genauer untersuchen, danke! (11) Ich bin sehr daran interessiert, diese Artikel zu lesen. Würden Sie mir empfehlen, mit Vickers zu beginnen? Vielen Dank!
Matt Reichenbach
5

Eine Möglichkeit besteht darin, für beide Modelle Pseudo-R-Quadrat-Maße zu verwenden. Ein starker Unterschied im Pseudo-R-Quadrat würde darauf hindeuten, dass die Modellanpassung durch Weglassen von V17 stark abnimmt.

Es gibt verschiedene Arten von Pseudo-R-Quadraten. Eine Übersicht finden Sie hier zum Beispiel:

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Eine beliebte Maßnahme ist das Nagelkerke R-Quadrat. Sie variiert zwischen 0 und 1 und kann mit Vorsicht wie ein R-Quadrat aus einem einfachen linearen Regressionsmodell interpretiert werden. Es basiert auf einem transformierten Verhältnis der geschätzten Wahrscheinlichkeiten des vollständigen Modells zum Nur-Intercept-Modell.

Sie können es für fitbzw. schätzen fit2und die relative Größe vergleichen, um einen Hinweis auf Ihr Problem zu erhalten. Ein wesentlich höheres Nagelkerke-R-Quadrat für fitwürde darauf hindeuten, dass fit2durch Weglassen von V17 viel Vorhersagekraft verloren geht.

In lrmdem statsWert liefert Nagelkerkes R-Quadrat. Geben fit$statssollte Ihnen also einen Kostenvoranschlag geben. Siehe auch ?lrm.

Tomka
quelle
Ich kenne Nagelkerkes R-Quadrat; Meine Frage liegt jedoch darin, wofür "ein wesentlich höherer Nagelkerke R-Platz fit" ist. Im obigen Beispiel gibt es eine Differenz von 0,001 wie wir Nagelkerkes R-Quadrat von 0,173 und 0,174 für haben fitund fit2sind. Haben Sie Hinweise darauf, was "ein wesentlich höherer Nagelkerke R-Platz" ist? Vielen Dank!
Matt Reichenbach
@Matt: Ich denke, es gibt keine allgemeinen Richtlinien für die Interpretation von Nagelkerkes R² oder anderen Pseudo-R²-Maßen. Beachten Sie jedoch, dass es sich um ein transformiertes Maß für die "Wahrscheinlichkeitsreduzierung" handelt, indem Kovariaten in das Intercept-Only-Modell aufgenommen werden, wodurch es der "erklärten Varianz" ähnelt, die durch Standard R² in der linearen Regression angegeben wird. In diesem Sinne würde ich den Unterschied von .173 / .174 als sehr klein interpretieren. Ein stärkerer Unterschied wäre etw. Dezile überbrücken. Ich schlage jedoch vor, andere Pseudo-R²-Messungen zu schätzen, z. B. McFadden oder Cox / Snell, um die Robustheit dieser Schlussfolgerung zu überprüfen.
Tomka
Ich bin damit einverstanden, dass der Unterschied sehr gering ist, aber ich wünschte, ich könnte eine Referenz finden, die besagt, was ein "kleiner" Unterschied ist ... Ich schätze Ihre Gedanken. Danke noch einmal!
Matt Reichenbach
1
kein Problem! Entschuldigung, dass Sie nicht früher gewählt wurden! Ich werde wieder posten, wenn ich eine Antwort finde, was ein "kleiner" Unterschied in Bezug auf Pseduo R-Quadrat ist! Vielen Dank!
Matt Reichenbach
-1

Ich habe gerade darüber gelesen. Der richtige Weg, dies zu tun, besteht darin, die endgültige Modellausgabe von Rs glm zu verwenden und nach "Restabweichung:" zu suchen und das Delta zwischen den beiden Modellen abzuleiten und diesen Wert in einem Chi-Quadrat-Test unter Verwendung von df zu verwenden, das gleich der Anzahl der abgelehnten Prädiktorterme ist. Und das ist dein p-Wert.

Angewandte Regressionsmodellierung Iaian Pardoe 2. Auflage 2012 S. 270

Distelknoten
quelle