L2-Regularisierung vs. Schrumpfen mit zufälligen Effekten

8

Eine grundlegende Eigenschaft der Regression mit zufälligen Effekten besteht darin, dass die zufälligen Abschnittsschätzungen in Abhängigkeit von der relativen Varianz jeder Schätzung in Richtung des Gesamtmittelwerts der Antwort "geschrumpft" werden.

U.^j=ρjy¯j+(1- -ρj)y¯
wobei
ρj=τ2/.(τ2+σ2/.nj).

Dies ist auch bei verallgemeinerten linearen gemischten Modellen (GLMMs) wie der logistischen Regression der Fall.

Wie ist diese Schrumpfung besser als / anders als die logistische Regression mit festen Effekten mit One-Hot-Codierung von ID-Variablen und Schrumpfung durch L2-Regularisierung?

In einem Modell mit festen Effekten kann ich das Ausmaß der Schrumpfung steuern, indem ich meine Strafe für die L2-Regularisierung ändere, während ich in einem Modell mit zufälligen Effekten keine Kontrolle über das Ausmaß der Schrumpfung habe. Wäre es richtig zu sagen "Verwenden Sie das Zufallseffektmodell, wenn das Ziel Inferenz ist, aber verwenden Sie das Festeffektmodell, wenn das Ziel Vorhersage ist"?λ

Paman Gujral
quelle

Antworten:

8

Das ist etwas vereinfacht. Die Schrumpfung in einer Regression mit gemischten Effekten wird durch das Gesamtgleichgewicht zwischen "Klassen" / "Gruppen" in den Strukturen mit zufälligen Effekten gewichtet. Sie müssen also nicht wählen, sondern Ihre Gruppengröße und -stärke Beweise wählen. (Betrachten Sie es als einen gewichteten großen Mittelwert). Darüber hinaus sind Modelle mit gemischten Effekten sehr nützlich, wenn Sie eine Reihe von Gruppen haben, aber nur sehr wenige Daten in jeder Gruppe: Die Gesamtstruktur und das teilweise Pooling ermöglichen bessere Schlussfolgerungen auch innerhalb jeder Gruppe!

Es gibt auch LASSO- (L1-reguliert), Ridge- (L2-reguliert) und elastische Netzvarianten (Kombination aus L1- und L2-Regularisierung) von gemischten Modellen. Mit anderen Worten, diese Dinge sind orthogonal. In Bayes'schen Begriffen erhalten Sie eine Schrumpfung mit gemischten Effekten über Ihre hierarchische / mehrstufige Modellstruktur und eine Regularisierung über Ihre vorherige Auswahl der Verteilung der Modellkoeffizienten.

Vielleicht ergibt sich die Verwirrung aus der häufigen Verwendung von Regularisierung beim "maschinellen Lernen" (wo Vorhersage das Ziel ist), aber der häufigen Verwendung von gemischten Effekten in "Statistiken" (wo Inferenz das Ziel ist), aber das ist eher ein Nebeneffekt anderer Aspekte gängiger Datensätze in solchen Bereichen (z. B. Größe) und Rechenprobleme. Modelle mit gemischten Effekten sind im Allgemeinen schwieriger anzupassen. Wenn also ein reguliertes Modell mit festen Effekten, das eine bestimmte Struktur der Daten ignoriert, für die von Ihnen benötigten Vorhersagen gut genug ist, lohnt es sich möglicherweise nicht, ein Modell mit gemischten Effekten anzupassen. Wenn Sie jedoch Rückschlüsse auf Ihre Daten ziehen müssen, ist es eine schlechte Idee, deren Struktur zu ignorieren.

Livius
quelle
präzise und auf den Punkt Antwort.
Subhash C. Davar
Danke Livius. Ist das Schrumpfen zufälliger Effekte ähnlich wie bei empirischen Bayes? Wenn ja, wäre es dann immer noch sinnvoll, ein Zufallseffektmodell mit L2-Regularisierung / Bayesian weiter zu verkleinern? Mein Ziel ist es, die Gruppen nach BLUP zu ordnen und das Ranking in einem Vorhersagemodell der nächsten Stufe zu verwenden.
Paman Gujral
Ich baue ein Vorhersagemodell auf einem Gesundheitsdatensatz auf Episodenebene auf, der mehrere Krankenhaus-Episoden pro Mitglieds-ID enthält. Die meisten Mitglieder haben weniger als 5 Folgen. Ich denke, dies ist ein Fall, in dem sowohl eine Lasso- oder Ridge-Regression, die auf die festen Effekte angewendet wird, als auch ein zufälliger Effekt für das Mitglieds-ID-Feld angemessen wären.
RobertF
1
@PamanGujral Sie möchten vielleicht "Empirische Bayes-Schätzung von Zufallseffektparametern in logistischen Regressionsmodellen mit gemischten Effekten" von Ten Have und Localio
AdamO
"Modelle mit gemischten Effekten sind im Allgemeinen schwerer zu montieren." Wenn das Ziel darin besteht, die Korrelation zwischen Datensätzen mit derselben ID zu berücksichtigen, und es gibt Tausende oder Millionen eindeutiger IDs, erscheint das Hinzufügen eines einfachen zufälligen Intercept-Terms zur Regressionsformel unter Verwendung der in der OP-Frage aufgeführten Formel vernünftig und ziemlich einfach erster Schritt. Sie schätzen nur zwei Parameter anstelle eines festen Effektterms für jede eindeutige ID minus einen, was weitaus mehr Freiheitsgrade spart.
RobertF