Vorspannungs- und Varianz-Eigenschaften der Normalisierung von gegen

Sollte ich beim Übergang von der zur Normalisierung in der linearen Regression mehr Verzerrung oder Varianz erwarten? Beachten Sie, dass die Vorspannung ein Zeichen für eine Unteranpassung ist und die Varianz ein Zeichen für eine Überanpassung ist. Nehmen Sie eine Konstante λ an. $L^2$ $L^1$

Ich suche hier eine allgemeine Faustregel. Wenn es keinen gibt und die Antwort von einigen anderen Faktoren abhängt, die ich nicht berücksichtigt habe, erklären Sie dies bitte.

variance lasso bias regularization ridge-regression Max
quelle

+1 Behalten wir das gleiche ?

λ

$\lambda$

Haitao Du

Ich denke, das ist zu weit gefasst, um verantwortlich zu sein. Haben Sie weitere Details zum Problem?

Richard Hardy

Ich suche nach einer allgemeinen Faustregel, die absichtlich vage ist. Wenn dies bedeutet, dass es keine Antwort gibt, es sei denn, es gibt weitere Details, ist dies akzeptabel. Ich wäre gespannt, welche Details hinzugefügt werden müssten, um zu einem Ergebnis zu kommen.

Max

Antworten:

Die Varianz wird zunehmen, das Problem bei der L1-Regularisierung besteht darin, dass einige der Koeffizienten höchst unvorhersehbar sind. Die Antwort hängt davon ab, wie stark Ihre Regularisierung ist ( $\lambda$ Wert). Ich habe eine Sinuswelle mit Gaußschem Rauschen mit verschiedenen Samen erzeugt und was beobachtet wird, ist genauso niedrig $\lambda$ Wert Die l1-Norm hat eine geringere Varianz als $\lambda$ Werte erhöhen die l2-Norm hat eine geringere Varianz.

Wie Sie im Bild sehen können, ist das Alpha der Regularisierungskoeffizient. beim $\alpha = 1e-15$ entsprechend sehen wir den großen Unterschied zwischen den Rigde-Regressionskoeffizienten, aber wenn Alpha zunimmt, nimmt die Abweichung im Grat drastisch ab. aber wenn $\alpha = 10$ Das Lasso und der Grat weisen beide eine geringere Varianz auf. Wenn das Alpha abnimmt, nimmt die Varianz des Kamms drastisch zu.

PS: Ich habe mehrmals mit diesem Setup experimentiert und der Trend ist konsistent.
Wenn Sie also Ihre Frage beantworten, erhöht sich die Varianz, wenn Sie vom L1- zum L2-Regularisierer wechseln (und das Ausmaß der Erhöhung hängt davon ab $\lambda$ Wert.)

auch ich habe die dot produkte von hinzugefügt $W$ vector.just um zu sehen, wie unterschiedlich die $w$ . Die diagonalen Einträge sind -ve, was besagt, dass es einen großen Unterschied zwischen den gibt $Ws$ . Dies wird durch eine detailliertere Analyse weiter ausgebaut.

Vivek Barsopia
quelle

Haben Sie eine Referenz dafür (außer Ihren eigenen Simulationen)?

kjetil b halvorsen

Nein, ich habe keine Referenzen

Vivek Barsopia