Verbindung zwischen Lasso-Formulierungen

9

Diese Frage mag dumm sein, aber ich habe festgestellt, dass es zwei verschiedene Formulierungen der Lasso- Regression gibt. Wir wissen, dass das Lasso- Problem darin besteht, das Ziel zu minimieren, das aus dem plus dem 1-Strafausdruck besteht, ausgedrückt wie folgt: L

minβyXβ22+λβ1

Aber oft habe ich gesehen, dass der Lasso-Schätzer als

β^n(λ)=argminβ{12nyXβ22+λβ1}

Meine Frage ist, sind das Äquivalent? Woher kommt der Begriff 12n ? Die Verbindungen zwischen den beiden Formulierungen sind für mich nicht offensichtlich.

[Update] Ich denke, eine andere Frage, die ich stellen sollte, ist:

Warum gibt es die zweite Formulierung? Was ist der theoretische oder rechnerische Vorteil, wenn man das Problem so formuliert?

Aaron Zeng
quelle
2
Wenn Sie in der zweiten Formulierung gleich dem -fachen des in der ersten Formulierung setzen, ist die Zielfunktion in der zweiten Formulierung das -fache der Zielfunktion in der ersten Formulierung. Tatsächlich haben Sie lediglich die Maßeinheiten für den Verlust geändert. Wie würden sich die optimalen Werte von ändern ? λ1/(2n)λ1/(2n)β
whuber
Danke, @Whuber. Das macht für mich Sinn. Warum gibt es dann die letztere Formulierung? Was ist der theoretische oder rechnerische Vorteil, wenn man das Problem so formuliert?
Aaron Zeng

Antworten:

10

Sie sind in der Tat gleichwertig, da Sie jederzeit neu skalieren können (siehe auch @ whubers Kommentar). Aus theoretischer Sicht ist es eine Frage der Bequemlichkeit, aber soweit ich weiß, ist dies nicht notwendig. Aus rechnerischer Sicht finde ich das ziemlich ärgerlich, daher verwende ich normalerweise die erste Formulierung, wenn ich einen Algorithmus entwerfe, der Regularisierung verwendet.λ1/(2n)

Eine kleine Hintergrundgeschichte: Als ich anfing, über bestrafte Methoden zu lernen, ärgerte ich mich darüber, dass ich das überall in meiner Arbeit herumtrug, deshalb zog ich es vor, es zu ignorieren - es vereinfachte sogar einige meiner Berechnungen. Zu dieser Zeit war meine Arbeit hauptsächlich rechnerisch. In jüngerer Zeit habe ich theoretische Arbeit geleistet und festgestellt, dass unverzichtbar ist (sogar gegen beispielsweise ).1/(2n)1/(2n)1/n

Weitere Details: Wenn Sie versuchen, das Verhalten des Lasso als Funktion der Stichprobengröße zu analysieren , müssen Sie sich häufig mit Summen von iid-Zufallsvariablen befassen, und in der Praxis ist es im Allgemeinen bequemer, solche Summen nach der Normalisierung durch - zu analysieren. -denke Gesetz der großen Zahlen / zentraler Grenzwertsatz (oder wenn du Lust haben willst, Konzentration des Maßes und empirische Prozesstheorie). Wenn Sie den Term nicht vor dem Verlust haben, skalieren Sie am Ende der Analyse letztendlich etwas neu, sodass es im Allgemeinen besser ist, ihn zunächst dort zu haben. Die ist praktisch, weil sie einige störende Faktoren von aufhebtnn1/n1/22 in der Analyse (zB wenn Sie die Ableitung des quadratischen Verlustterms nehmen).

Eine andere Möglichkeit, dies zu betrachten, besteht darin, dass wir bei der Durchführung der Theorie im Allgemeinen am Verhalten von Lösungen interessiert sind, wenn zunimmt - das heißt, ist keine feste Größe. In der Praxis ist , wenn wir das Lasso für einen festen Datensatz ausführen, aus der Perspektive des Algorithmus / der Berechnungen tatsächlich fest. Es ist also nicht allzu hilfreich, den zusätzlichen Normalisierungsfaktor im Vordergrund zu haben.nnn

Dies mag wie nervige Bequemlichkeitsfragen erscheinen, aber nachdem ich genug Zeit damit verbracht habe, diese Art von Ungleichungen zu manipulieren, habe ich gelernt, die zu lieben .1/(2n)

JohnA
quelle
3
Sobald Sie erkennen, wozu diese Normalisierungskonstanten dienen, sehen Sie sie überall .
Matthew Drury
Vielen Dank für diese Erklärung. Wir sind so stolz darauf, Ihre großartigen Erfahrungen auf diesem Gebiet zu lesen. Nochmals vielen Dank
Christina