In einem kleinen Datensatz ( ), mit dem ich arbeite, geben mir mehrere Variablen eine perfekte Vorhersage / Trennung . Ich benutze daher die logistische Regression von Firth , um das Problem zu lösen.
Wenn ich das beste Modell nach AIC oder BIC auswähle , sollte ich bei der Berechnung dieser Informationskriterien den Firth-Penalty-Term in die Wahrscheinlichkeit einbeziehen?
Antworten:
Wenn Sie die Verwendung von BIC rechtfertigen möchten: Sie können die maximale Wahrscheinlichkeit durch die maximale a posteriori-Schätzung (MAP) ersetzen, und das resultierende Kriterium vom Typ 'BIC' bleibt asymptotisch gültig (im Grenzfall als Stichprobengröße ). Wie von @probabilityislogic erwähnt, entspricht die logistische Regression von Firth der Verwendung eines Jeffrey-Prior (was Sie also aus Ihrer Regressionsanpassung erhalten, ist der MAP).n → ∞
Der BIC ist ein Pseudo-Bayes-Kriterium, das (grob) unter Verwendung einer Taylor-Reihen-Erweiterung der um die maximale Wahrscheinlichkeitsschätzung . Daher ignoriert es den Prior, aber der Effekt des letzteren verschwindet, da sich die Information auf die Wahrscheinlichkeit konzentriert.
Als Nebenbemerkung beseitigt die Firth-Regression auch die Verzerrung erster Ordnung in exponentiellen Familien.
quelle