Eine geometrische Interpretation
Der in der Frage beschriebene Schätzer ist das Lagrange-Multiplikatoräquivalent des folgenden Optimierungsproblems:
minimize f(β) subject to g(β)≤t and h(β)=1
f(β)g(β)h(β)=∥y−Xβ∥2=∥β∥2=∥Xβ∥2
Dies kann geometrisch als Auffinden des kleinsten Ellipsoids , das den Schnittpunkt der Kugel und des Ellipsoids berührtf(β)=RSS g(β)=th(β)=1
Vergleich mit der Standardansicht der Gratregression
In Bezug auf eine geometrische Ansicht ändert dies die alte Ansicht (für die Standardkammregression) des Punktes, an dem sich ein Sphäroid (Fehler) und eine Kugel ( ) berühren∥β∥2=t . In einer neuen Ansicht suchen wir nach dem Punkt, an dem der Sphäroid (Fehler) eine Kurve berührt (Beta-Norm durch )∥Xβ∥2=1 . Die eine Kugel (blau im linken Bild) verwandelt sich aufgrund des Schnittpunkts mit der Bedingung in eine Figur mit einer niedrigeren Dimension .∥Xβ∥=1
Im zweidimensionalen Fall ist dies einfach zu sehen.
Wenn wir stimmen die Parameter dann ändern wir die relative Länge der blau / roten Kugeln oder die relativen Größen von und (In der Theorie der Lagrange - Multiplikatoren gibt es wahrscheinlich eine saubere Art und Weise zu formell und genau beschreiben, dass dies bedeutet, dass für jedes als Funktion von oder umgekehrt eine monotone Funktion ist. Aber ich stelle mir vor, dass Sie intuitiv sehen können, dass die Summe der quadratischen Residuen nur zunimmt, wenn wir verringern .)tf(β)g(β) tλ||β||
Die Lösung für lautet, wie Sie in einer Zeile zwischen 0 und argumentiert haben.βλλ=0βLS
Die Lösung für ist (in der Tat, wie Sie kommentiert haben) in den Ladevorgängen der ersten Hauptkomponente. Dies ist der Punkt, an dem für am kleinsten ist . ist der Punkt, an dem der Kreis die Ellipse in einem einzelnen Punkt berührt .βλλ→∞∥β∥2∥βX∥2=1∥β∥2=t|Xβ|=1
In dieser 2D-Ansicht sind die Kanten des Schnittpunkts von Kugel und Sphäroid Punkte. In mehreren Dimensionen sind dies Kurven∥β∥2=t∥βX∥2=1
(Ich dachte zuerst , dass diese Kurven Ellipsen sein würde , aber sie sind komplizierter. Sie das Ellipsoid vorstellen konnte durch die Kugel geschnitten wird wie einige Art ellipsoider Kegelstumpf, aber mit Kanten, die keine einfachen Ellipsen sind)∥Xβ∥2=1∥β∥2≤t
Bezüglich des Limitsλ→∞
Zuerst (vorherige Änderungen) schrieb ich, dass es einige einschränkende über denen alle Lösungen gleich sind (und sie befinden sich im Punkt ). Dies ist jedoch nicht der Fallλlimβ∗∞
Betrachten Sie die Optimierung als LARS-Algorithmus oder Gradientenabstieg. Wenn es für einen Punkt eine Richtung gibt, in die wir das so ändern können, dass der Strafausdruck weniger zunimmt als der SSR-Ausdruck abnimmt, sind Sie nicht in einem Minimum .ββ|β|2|y−Xβ|2
- Bei einer normalen Gratregression haben Sie eine Nullsteigung (in alle Richtungen) für im Punkt . Für alle endlichen die Lösung also nicht (da ein infinitesimaler Schritt durchgeführt werden kann, um die Summe der quadratischen Residuen zu reduzieren, ohne die Strafe zu erhöhen).|β|2β=0λβ=0
- Für LASSO ist dies nicht dasselbe, da die Strafe (also nicht quadratisch mit einer Steigung von Null). Aus diesem Grund wird LASSO einen Grenzwert über dem alle Lösungen Null sind, da der Strafwert (multipliziert mit ) mehr zunimmt, als die verbleibende Quadratsumme abnimmt.|β|1λlimλ
- Für den eingeschränkten Kamm erhalten Sie das Gleiche wie für die reguläre Kammregression. Wenn Sie das beginnend mit ändern, verläuft diese Änderung senkrecht zu (das verläuft senkrecht zur Oberfläche der Ellipse ). und kann durch einen infinitesimalen Schritt geändert werden, ohne den Strafausdruck zu ändern, aber die Summe der quadratischen Residuen zu verringern. Somit kann für jedes endliche der Punkt nicht die Lösung sein.ββ∗∞ββ∗∞|Xβ|=1βλβ∗∞
Weitere Hinweise zum Limitλ→∞
Die übliche Kammregressionsgrenze für bis unendlich entspricht einem anderen Punkt in der eingeschränkten Kammregression. Diese 'alte' Grenze entspricht dem Punkt, an dem gleich -1 ist. Dann die Ableitung der Lagrange-Funktion in das normalisierte Problemλμ
2(1+μ)XTXβ+2XTy+2λβ
entspricht einer Lösung für die Ableitung der Lagrange-Funktion im Standardproblem
2XTXβ′+2XTy+2λ(1+μ)β′with β′=(1+μ)β
Geschrieben von StackExchangeStrike
Dies ist ein algebraisches Gegenstück zu @ Martijns schöner geometrischer Antwort.
Zuallererst die Grenze von wenn sehr ist einfach zu erhalten: im Grenzfall wird der erste Term in der Verlustfunktion vernachlässigbar und kann daher vernachlässigt werden. Das Optimierungsproblem wird ist die erste Hauptkomponente von
Betrachten wir nun die Lösung für jeden Wert von , auf den ich in Punkt 2 meiner Frage Bezug genommen habe. Addiert man zur Verlustfunktion den Lagrange-Multiplikator und differenziert manλ μ(∥Xβ∥2−1)
Wie verhält sich diese Lösung, wenn von null bis unendlich wächst?λ
Bei erhalten wir eine skalierte Version der OLS-Lösung:λ=0
Für positive, aber kleine Werte von ist die Lösung eine skalierte Version eines Gratschätzers:λ
Wennist der Wert von benötigt wird, um die Bedingung zu erfüllen, . Dies bedeutet, dass die Lösung eine skalierte Version der ersten PLS-Komponente ist (was bedeutet, dass des entsprechenden Kantenschätzers ):λ=∥XX⊤y∥ (1+μ) 0 λ∗ ∞
Wenn größer als das wird, wird der notwendige Term negativ. Ab sofort ist die Lösung eine skalierte Version eines Pseudo-Ridge-Schätzers mit negativem Regularisierungsparameter ( negativer Ridge ). In Bezug auf die Richtungen sind wir nun hinter der Gratregression mit unendlichem Lambda.λ (1+μ)
Wenn , würde der Term auf Null gehen (oder divergieren zu unendlich) es sei denn wobei der größte Singularwert von . Dies macht endlich und proportional zur ersten Hauptachse . Wir müssen , um die Bedingung zu erfüllen. So erhalten wir dasλ→∞ ((1+μ)X⊤X+λI)−1 μ=−λ/s2max+α smax X=USV⊤ β^∗λ V1 μ=−λ/s2max+U⊤1y−1
Insgesamt sehen wir, dass dieses eingeschränkte Minimierungsproblem Versionen mit Einheitsvarianz von OLS, RR, PLS und PCA im folgenden Spektrum umfasst:
Dies scheint einem obskuren (?) Chemometrischen Framework mit der Bezeichnung "Continuum Regression" (siehe https://scholar.google.de/scholar?q="continuum+regression " , insbesondere Stone & Brooks 1990, Sundberg 1993, zu entsprechen. Björkström & Sundberg 1999 usw.), die die gleiche Vereinheitlichung durch Maximierung eines Ad-hoc- KriteriumsDies ergibt offensichtlich skaliertes OLS, wenn , PLS, wenn , PCA, wenn ;, und es kann gezeigt werden, dass es skaliertes RR für ergibt
Trotz einiger Erfahrung mit RR / PLS / PCA / etc muss ich zugeben, dass ich noch nie von "Continuum Regression" gehört habe. Ich sollte auch sagen, dass ich diesen Begriff nicht mag.
Ein Schema, das ich basierend auf dem von @ Martijn gemacht habe:
Update: Die Abbildung wurde mit dem negativen Gratpfad aktualisiert. Vielen Dank an @Martijn, der vorgeschlagen hat, wie es aussehen soll. Weitere Informationen finden Sie in meiner Antwort unter Grundlegendes zur negativen Gratregression .
quelle