Ich scheine eine Behauptung über lineare Regressionsmethoden, die ich an verschiedenen Orten gesehen habe, falsch zu verstehen. Die Parameter des Problems sind:
Eingang:
p + 1 y i p x i j Datenproben von Größen, die jeweils aus einer "Antwort" -Größe und "Prädiktor" -Größen
Das gewünschte Ergebnis ist eine "gute lineare Anpassung", die die Antwort basierend auf den Prädiktoren vorhersagt, wobei eine gute Anpassung (unter anderen Kriterien) kleine Unterschiede zwischen der Vorhersage und der beobachteten Antwort aufweist.
Ausgabe: Koeffizienten wobei eine "gute Anpassung" für die Vorhersage der Antwortgröße aus den Prädiktorgrößen ist.
Ich bin verwirrt über den "Ridge Regression" -Ansatz für dieses Problem. In "Die Elemente des statistischen Lernens" von Hastie, Tibshirani und Friedman wird die Gratregression auf zwei Arten formuliert.
Zunächst als eingeschränktes Optimierungsproblem :
p Σ j = 1 β 2 i ≤t
Zweitens ist das bestrafte Optimierungsproblem : für einen positiven Parameter . λ
Der Text sagt, dass diese Formulierungen äquivalent sind und dass es eine "Eins-zu-Eins-Entsprechung zwischen den Parametern und " gibt. Ich habe diese Behauptung (und ähnliche) zusätzlich zu diesem Buch an mehreren Stellen gesehen. Ich glaube, mir fehlt etwas, weil ich nicht sehe, wie die Formulierungen gleichwertig sind, wie ich es verstehe.t
Betrachten Sie den Fall, in dem und mit , und , . Wenn Sie den Parameter wählen, wird die eingeschränkte Formulierung zu:p = 1 y 1 = 0 x 1 , 1 = 0 y 2 = 1 x 1 , 2 = 1 t = 2
erweitert auf
Um dies zu lösen, finden Sie die Lösung, bei der die partiellen Ableitungen in Bezug auf und Null sind: mit Lösung und . Beachten Sie, dass nach Bedarf.β 1 4 β 0 + 2 β 1 - 2 = 0 2 β 0 + 2 β 1 - 2 = 0 β 0 = 0 β 1 = 1 β 2 0 + β 2 1 ≤ t
In welcher Beziehung steht diese Ableitung zur anderen Formulierung? Gemäß der Erklärung gibt es einen Wert von eindeutig entspricht. Wenn wir die bestrafte Formulierung des Problems optimieren, werden wir die gleichen und ableiten . In diesem Fall wird die bestrafte Form zu erweitert auf Um dies zu lösen, finden Sie die Lösung, bei der die partiellen Ableitungen mit hinsichtlicht λ + 2 β 2
Zusammenfassend bin ich total verwirrt von den beiden Präsentationen und ich verstehe nicht, wie sie einander entsprechen. Ich verstehe nicht, wie Sie ein Formular optimieren und die gleiche Lösung für das andere Formular erhalten können oder wie mit . Dies ist nur ein Beispiel für diese Art von Korrespondenz - es gibt andere für andere Ansätze wie Lasso - und ich verstehe keinen von ihnen.t
Jemand, bitte hilf mir.
quelle
Antworten:
Die Verwirrung entsteht hier durch den Versuch, in einem Bereich von oder Werten zu arbeiten, in denen die Regression nicht eingeschränkt ist.t λ
In Ihrem Beispiel beträgt bei der perfekten Anpassung der Regressionslinie die Summe der Quadrate der Regressionskoeffizienten 1. Der Wert von (oder ein Wert von , der 1 oder größer ist) stellt also keine Einschränkung für die Regression dar. Im Raum der Werte wird die gesamte uneingeschränkte Regression durch . Es gibt keine Eins-zu-Eins-Entsprechung zwischen und in der uneingeschränkten Regression ; Alle Werte von von 1 oder höher entsprechen in diesem Fall . Das war die Region, die Sie untersucht haben.t λ λ = 0 t λ t λ = 0t=2 t λ λ=0 t λ t λ=0
Nur ein Wert von kleiner als 1 wird die Regression einschränken, was positiven Werten von . Wie die akzeptierte Antwort auf diese Seite zeigt, gilt die Eins-zu-Eins-Entsprechung zwischen und in Ihrem Beispiel für " wenn die Einschränkung bindend ist" für Werte von kleiner als 1.λ t λ tt λ t λ t
quelle
Die klassische Ridge Regression ( Tikhonov Regularization ) ist gegeben durch:
Die obige Behauptung ist, dass das folgende Problem äquivalent ist:
Definieren wir als die optimale Lösung des ersten Problems und als die optimale Lösung des zweiten Problems.x^ x~
Der Äquivalenzanspruch bedeutet, dass . Sie können nämlich immer ein Paar von und so dass die Lösung des Problems dieselbe ist.∀t,∃λ≥0:x^=x~
t λ≥0
Wie könnten wir ein Paar finden?
Nun, indem Sie die Probleme lösen und die Eigenschaften der Lösung betrachten.
Beide Probleme sind konvex und glatt, so dass die Dinge einfacher werden sollten.
Die Lösung für das erste Problem wird an dem Punkt gegeben, an dem der Gradient verschwindet, was bedeutet:
Die KKT-Bedingungen des zweiten Problems besagen:
und
Die letzte Gleichung legt nahe, dass entweder oder .μ=0 ∥x~∥22=t
Achten Sie darauf, dass die beiden Basisgleichungen äquivalent sind.x^=x~ μ=λ
Nämlich wenn und beide Gleichungen gelten.
Das bedeutet also, dass im Fall man muss was bedeutet, dass für groß genug, damit beide gleichwertig sind, man .∥y∥22≤t μ=0 t λ=0
Im anderen Fall sollte man wo:μ
Dies ist im Grunde genommen, wenn∥x~∥22=t
Sobald Sie feststellen, dass die Lösungen kollidieren.μ
In Bezug auf den Fall funktioniert dies mit derselben Idee. Der einzige Unterschied besteht darin, dass wir keine Lösung gefunden haben. Daher ist es schwieriger, die Verbindung abzuleiten.L1
Schauen Sie sich meine Antwort unter StackExchange Cross Validated Q291962 und StackExchange Signal Processing Q21730 an - Bedeutung von in Basis Pursuitλ .
quelle