Ich habe gelesen, dass das Gruppen-Lasso für die Variablenauswahl und die Sparsamkeit in einer Gruppe von Variablen verwendet wird. Ich möchte die Intuition hinter dieser Behauptung kennen.
- Warum wird Gruppenlasso dem Lasso vorgezogen?
- Warum ist der Lösungsweg des Gruppen-Lassos nicht stückweise linear?
regression
feature-selection
lasso
regularization
Vendetta
quelle
quelle
Antworten:
Intuitiv kann das Gruppen-Lasso dem Lasso vorgezogen werden, da es uns die Möglichkeit bietet, (eine bestimmte Art von) zusätzlichen Informationen in unsere Schätzung für den wahren Koeffizienten . Als extremes Szenario unter Berücksichtigung der folgenden Punkte:β∗
Mit sei S = { j : β ∗ j ≠ 0 } als Träger von β ∗ . Betrachten wir die "Oracle" Schätzer β = arg min β ‖ y - X β ‖ 2 2 + λ ( | S | 1 / 2 ‖ β S ‖y∼ N( Xβ∗, σ2ich) S= { j : β∗j≠ 0 } β∗ die die Gruppe Lasso mit zwei Gruppen ist- man die wahre Träger und eine das Komplement. Lassen λ m ein x der kleinste Wert von seinem λ das macht β = 0 . Aufgrund der Natur der Gruppen-Lasso-Strafe wissen wir, dass sich bei λ von λ m a x nach λ m a x - ϵ bewegt
In der Praxis wählen wir die Gruppen nicht so gut aus. Die Gruppen, auch wenn sie feiner sind als das obige extreme Szenario, werden uns dennoch helfen: Die Wahl würde weiterhin zwischen einer Gruppe wahrer Kovariaten und einer Gruppe unwahrer Kovariaten getroffen werden. Wir leihen uns immer noch Kraft.
Dies wird hier formalisiert . Sie zeigen unter bestimmten Bedingungen, dass die Obergrenze des Vorhersagefehlers des Gruppen-Lassos niedriger ist als die Untergrenze des Vorhersagefehlers des einfachen Lassos. Das heißt, sie haben bewiesen, dass die Gruppierung unsere Einschätzung verbessert.
quelle
Bens Antwort ist das allgemeinste Ergebnis. Die intuitive Antwort auf das OP ist jedoch durch den Fall kategorialer Prädiktoren motiviert, die normalerweise als mehrere Dummy-Variablen codiert sind: eine für jede Kategorie. In vielen Analysen ist es sinnvoll, diese Dummy-Variablen (die einen kategorialen Prädiktor darstellen) zusammen und nicht getrennt zu betrachten.
Wenn Sie eine kategoriale Variable mit beispielsweise fünf Ebenen haben, lässt ein Straight Lasso möglicherweise zwei In- und drei Outs. Wie gehen Sie prinzipiell damit um? Entscheide dich zu stimmen? Verwenden Sie im wahrsten Sinne des Wortes die Dummy-Variablen anstelle der aussagekräftigeren kategorialen? Wie wirkt sich Ihre Dummy-Codierung auf Ihre Auswahl aus?
Wie in der Einführung von The group lasso for logistic regression heißt es:
Wie Ben hervorhebt, gibt es auch subtilere Verknüpfungen zwischen Prädiktoren, die möglicherweise darauf hinweisen, dass sie zusammen ein- oder ausgehen sollten. Aber kategoriale Variablen sind das Aushängeschild für Gruppen-Lasso.
quelle