Diese Frage mag dumm sein, aber ich habe festgestellt, dass es zwei verschiedene Formulierungen der Lasso- Regression gibt. Wir wissen, dass das Lasso- Problem darin besteht, das Ziel zu minimieren, das aus dem plus dem 1-Strafausdruck besteht, ausgedrückt wie folgt:
Aber oft habe ich gesehen, dass der Lasso-Schätzer als
Meine Frage ist, sind das Äquivalent? Woher kommt der Begriff ? Die Verbindungen zwischen den beiden Formulierungen sind für mich nicht offensichtlich.
[Update] Ich denke, eine andere Frage, die ich stellen sollte, ist:
Warum gibt es die zweite Formulierung? Was ist der theoretische oder rechnerische Vorteil, wenn man das Problem so formuliert?
Antworten:
Sie sind in der Tat gleichwertig, da Sie jederzeit neu skalieren können (siehe auch @ whubers Kommentar). Aus theoretischer Sicht ist es eine Frage der Bequemlichkeit, aber soweit ich weiß, ist dies nicht notwendig. Aus rechnerischer Sicht finde ich das ziemlich ärgerlich, daher verwende ich normalerweise die erste Formulierung, wenn ich einen Algorithmus entwerfe, der Regularisierung verwendet.λ 1/(2n)
Eine kleine Hintergrundgeschichte: Als ich anfing, über bestrafte Methoden zu lernen, ärgerte ich mich darüber, dass ich das überall in meiner Arbeit herumtrug, deshalb zog ich es vor, es zu ignorieren - es vereinfachte sogar einige meiner Berechnungen. Zu dieser Zeit war meine Arbeit hauptsächlich rechnerisch. In jüngerer Zeit habe ich theoretische Arbeit geleistet und festgestellt, dass unverzichtbar ist (sogar gegen beispielsweise ).1/(2n) 1/(2n) 1/n
Weitere Details: Wenn Sie versuchen, das Verhalten des Lasso als Funktion der Stichprobengröße zu analysieren , müssen Sie sich häufig mit Summen von iid-Zufallsvariablen befassen, und in der Praxis ist es im Allgemeinen bequemer, solche Summen nach der Normalisierung durch - zu analysieren. -denke Gesetz der großen Zahlen / zentraler Grenzwertsatz (oder wenn du Lust haben willst, Konzentration des Maßes und empirische Prozesstheorie). Wenn Sie den Term nicht vor dem Verlust haben, skalieren Sie am Ende der Analyse letztendlich etwas neu, sodass es im Allgemeinen besser ist, ihn zunächst dort zu haben. Die ist praktisch, weil sie einige störende Faktoren von aufhebtn n 1/n 1/2 2 in der Analyse (zB wenn Sie die Ableitung des quadratischen Verlustterms nehmen).
Eine andere Möglichkeit, dies zu betrachten, besteht darin, dass wir bei der Durchführung der Theorie im Allgemeinen am Verhalten von Lösungen interessiert sind, wenn zunimmt - das heißt, ist keine feste Größe. In der Praxis ist , wenn wir das Lasso für einen festen Datensatz ausführen, aus der Perspektive des Algorithmus / der Berechnungen tatsächlich fest. Es ist also nicht allzu hilfreich, den zusätzlichen Normalisierungsfaktor im Vordergrund zu haben.n n n
Dies mag wie nervige Bequemlichkeitsfragen erscheinen, aber nachdem ich genug Zeit damit verbracht habe, diese Art von Ungleichungen zu manipulieren, habe ich gelernt, die zu lieben .1/(2n)
quelle