ich ein lineares Regressionsmodell mit einer Verlustfunktion durchführe, warum sollte ich anstelle der Regularisierung verwenden?
Ist es besser, eine Überanpassung zu verhindern? Ist es deterministisch (also immer eine einzigartige Lösung)? Ist es besser bei der Auswahl von Features (weil spärliche Modelle hergestellt werden)? Verteilt es die Gewichte auf die Merkmale?
linear-regression
regularization
astudentofmaths
quelle
quelle
Antworten:
Grundsätzlich fügen wir einen Regularisierungsterm hinzu, um zu verhindern, dass die Koeffizienten so perfekt zur Überanpassung passen.
Der Unterschied zwischen L1 und L2 ist, dass L1 die Summe der Gewichte ist und L2 nur die Summe des Quadrats der Gewichte ist.
L1 kann nicht in gradientenbasierten Ansätzen verwendet werden, da es im Gegensatz zu L2 nicht differenzierbar ist
L1 hilft bei der Feature-Auswahl in spärlichen Feature-Räumen. Bei der Feature-Auswahl muss bekannt sein, welche Features hilfreich und welche redundant sind.
Der Unterschied zwischen ihren Eigenschaften kann wie folgt zusammengefasst werden:
quelle
L2 hat einen sehr wichtigen Vorteil gegenüber L1, nämlich die Invarianz gegenüber Rotation und Skalierung.
Dies ist besonders wichtig bei der geografischen / physischen Anwendung.
Angenommen, Ihr Techniker hat Ihren Sensor versehentlich in einem 45-Grad-Winkel installiert. L1 wäre betroffen, während L2 (euklidischer Abstand) gleich bleibt.
quelle