Es gibt viele Methoden zur Durchführung der Regularisierung - beispielsweise die Regularisierung , und . Laut Friedman Hastie & Tibsharani hängt der beste Regularisierer vom Problem ab: nämlich der Art der tatsächlichen Zielfunktion, der jeweils verwendeten Basis, dem Signal-Rausch-Verhältnis und der Stichprobengröße.L 1 L 2
Gibt es empirische Untersuchungen zum Vergleich von Methoden und Leistung verschiedener Regularisierungsmethoden?
r
regression
machine-learning
regularization
Ram Ahluwalia
quelle
quelle
Antworten:
Betrachten wir ein bestraftes lineares Modell.
Die Strafe wird nicht sehr häufig verwendet und häufig durch die mathematisch flexiblere Norm ersetzt .L 1L0 L1
Die Regularisierung hat die Eigenschaft, ein spärliches Modell zu erstellen. Dies bedeutet, dass nur wenige Variablen einen Regressionskoeffizienten ungleich 0 haben. Es wird besonders verwendet, wenn Sie davon ausgehen, dass nur wenige Variablen einen echten Einfluss auf die Ausgabevariablen haben. Wenn es sehr korrelierte Variablen gibt, wird nur eine davon mit einem Koeffizienten ungleich 0 ausgewählt.L1
Die Strafe ist wie wenn Sie einen Wert auf der Diagonale der Eingabematrix hinzufügen . Es kann beispielsweise in Situationen verwendet werden, in denen die Anzahl der Variablen größer als die Anzahl der Stichproben ist. Um eine quadratische Matrix zu erhalten. Mit der alle Variablen einen Regressionskoeffizienten ungleich Null. λ L 2L2 λ L2
quelle
Einige Ergänzungen zur Antwort von @Donbeo
1) Die L0-Norm ist keine Norm im eigentlichen Sinne. Dies ist die Anzahl der Einträge ungleich Null in einem Vektor. Diese Norm ist eindeutig keine konvexe Norm und keine Norm im eigentlichen Sinne. Daher sehen Sie möglicherweise Begriffe wie L0 'Norm'. Es wird zu einem kombinatorischen Problem und ist daher NP-schwer.
2) Die L1-Norm gibt eine spärliche Lösung (siehe LASSO). Es gibt wegweisende Ergebnisse von Candes, Donoho usw., die zeigen, dass die L1-bestraften Methoden sie wiederherstellen, wenn die wahre Lösung wirklich spärlich ist. Wenn die zugrunde liegende Lösung nicht dünn ist, erhalten Sie die zugrunde liegende Lösung in Fällen, in denen p >> n ist, nicht. Es gibt schöne Ergebnisse, die zeigen, dass das Lasso konsistent ist.
3) Es gibt Methoden wie das Elastic Net von Zhou und Hastie, die bestrafte L2- und L1-Lösungen kombinieren.
quelle