Bestrafte Methoden für kategoriale Daten: Kombinieren von Ebenen in einem Faktor

Bestrafte Modelle können verwendet werden, um Modelle zu schätzen, bei denen die Anzahl der Parameter gleich oder sogar größer als die Stichprobengröße ist. Diese Situation kann in logarithmisch linearen Modellen großer, spärlicher Tabellen mit kategorialen oder Zähldaten auftreten. In diesen Einstellungen ist es häufig auch wünschenswert oder hilfreich, Tabellen zu reduzieren, indem Ebenen eines Faktors kombiniert werden, bei denen diese Ebenen nicht in Bezug auf die Interaktion mit anderen Faktoren unterscheidbar sind. Zwei Fragen:

Gibt es eine Möglichkeit, bestrafte Modelle wie LASSO oder elastisches Netz zu verwenden, um die Kollabierbarkeit von Ebenen innerhalb jedes Faktors zu testen?
Wenn die Antwort auf die erste Frage Ja lautet, kann und sollte dies so eingerichtet werden, dass der Zusammenbruch von Ebenen und die Schätzung von Modellkoeffizienten in einem einzigen Schritt erfolgen?

categorical-data lasso elastic-net log-linear many-categories andrewH
quelle

Dieses Papier, doi.org/10.1177/1471082X16642560 , gibt einen schönen Überblick darüber, was in diesem Bereich in den letzten zehn Jahren getan wurde.

Jorne Biccler

Hinweis: Die Strafe, die ich unten diskutiere, ist Gleichung 3.4 in @JorneBicclers Link. (Es ist interessant zu sehen, dass diese Frage schon einmal berücksichtigt wurde!)

user795305

Mögliches Duplikat von kategorialen Variablen

kjetil b halvorsen

Wie können wir dies als Duplikat einer vorhergehenden Frage bezeichnen?

Michael R. Chernick

Antworten:

Es ist möglich. Wir können eine Variante des verschmolzenen Lassos verwenden , um dies zu erreichen.

Wir können den Schätzer

\hat{β} = \arg min_{β} \frac{- 1}{n} \sum_{i = 1}^{n} (y_{i} β^{T} x_{i} - e^{β^{T} x_{i}}) + \sum_{factors g} λ_{g} (\sum_{j \in g} | β_{j} | + \frac{1}{2} \sum_{j, k \in g} | β_{j} - β_{k} |) .

$\hat{\beta} = \arg\min_{\beta} \frac{-1}{n} \sum_{i=1}^n \left(y_i \beta^T x_i - e^{\beta^T x_i} \right) + \sum_{\textrm{factors g}} \lambda_g \left(\sum_{j \in g} |\beta_j| + \frac{1}{2} \sum_{j,k \in g} |\beta_j - \beta_k| \right).$

Beachten Sie, dass die Verlustfunktion für log-linear ist Modelle. $\frac{-1}{n} \sum_{i=1}^n \left(y_i \beta^T x_i - e^{\beta^T x_i} \right)$

Dies ermutigt die Koeffizienten innerhalb einer Gruppe, gleich zu sein. Diese Gleichheit der Koeffizienten entspricht dem Zusammenfallen der Ebenen und des Faktors. Wenn , entspricht dies dem Reduzieren der Ebene mit der Referenzstufe. Die können als konstant behandelt werden. Wenn jedoch nur wenige Faktoren vorhanden sind, ist es möglicherweise besser, sie als separat zu behandeln. $j^{th}$ $k^{th}$ $\hat{\beta}_j=0$ $j^{th}$ $\lambda_g$

Der Schätzer ist ein Minimierer einer konvexen Funktion, sodass er über beliebige Löser effizient berechnet werden kann. Es ist möglich, dass, wenn ein Faktor viele, viele Ebenen hat, diese paarweisen Unterschiede außer Kontrolle geraten - in diesem Fall ist es notwendig, mehr Struktur über mögliche Kollapsmuster zu wissen.

Beachten Sie, dass dies alles in einem Schritt erledigt wird! Dies ist ein Teil dessen, was Lasso-Schätzer so cool macht!

Ein weiterer interessanter Ansatz ist die Verwendung des OSCAR-Schätzers, der wie oben beschrieben ist, mit der Ausnahme, dass die Strafe durch . $\|[-1 \, 1] \cdot [\beta_i \, \beta_j]'\|_1$ $\|[\beta_i \, \beta_j]\|_\infty$

user795305
quelle