Modellauswahl mit logistischer Regression nach Firth

21

In einem kleinen Datensatz ( ), mit dem ich arbeite, geben mir mehrere Variablen eine perfekte Vorhersage / Trennung . Ich benutze daher die logistische Regression von Firth , um das Problem zu lösen.n100

Wenn ich das beste Modell nach AIC oder BIC auswähle , sollte ich bei der Berechnung dieser Informationskriterien den Firth-Penalty-Term in die Wahrscheinlichkeit einbeziehen?

StasK
quelle
2
Würde es Ihnen etwas ausmachen zu erklären, warum dies unvermeidbar ist, da die Variablenauswahl bei dem Problem "zu viele Variablen, zu wenig Stichprobengröße" nicht hilft?
Frank Harrell
4
Das ist so schlimm wie es nur geht.
Frank Harrell
1
Haben Sie in Betracht gezogen, dies als Bayes'sches Inferenzproblem zu behandeln? Die logistische Regression von Firth entspricht der von MAP mit Jeffrey Prior. Sie könnten die vollständige Laplace-Näherung verwenden, um die Grenzwahrscheinlichkeiten zu bewerten - ähnlich einem angepassten BIC (ähnlich AICc)
Wahrscheinlichkeitslogik
1
@user, Da solche Variablen in der Regel nur eine Handvoll Fälle vorhersagen und dies nicht reproduzierbar ist: Die tatsächliche Wahrscheinlichkeit für diese Zelle kann bei etwa 90% liegen, aber mit nur zwei Fällen erhalten Sie in 81% der Fälle zwei .
StasK
1
Link zum Herunterladen des Artikels von
Alecos Papadopoulos

Antworten:

1

Wenn Sie die Verwendung von BIC rechtfertigen möchten: Sie können die maximale Wahrscheinlichkeit durch die maximale a posteriori-Schätzung (MAP) ersetzen, und das resultierende Kriterium vom Typ 'BIC' bleibt asymptotisch gültig (im Grenzfall als Stichprobengröße ). Wie von @probabilityislogic erwähnt, entspricht die logistische Regression von Firth der Verwendung eines Jeffrey-Prior (was Sie also aus Ihrer Regressionsanpassung erhalten, ist der MAP).n

Der BIC ist ein Pseudo-Bayes-Kriterium, das (grob) unter Verwendung einer Taylor-Reihen-Erweiterung der um die maximale Wahrscheinlichkeitsschätzung . Daher ignoriert es den Prior, aber der Effekt des letzteren verschwindet, da sich die Information auf die Wahrscheinlichkeit konzentriert.

py(y)=L(θ;y)π(θ)dθ
θ^

Als Nebenbemerkung beseitigt die Firth-Regression auch die Verzerrung erster Ordnung in exponentiellen Familien.

belzile
quelle