Bei der Gratregression ist die zu minimierende Zielfunktion:
Kann dies mit der Lagrange-Multiplikatormethode optimiert werden? Oder ist es gerade Differenzierung?
Bei der Gratregression ist die zu minimierende Zielfunktion:
Kann dies mit der Lagrange-Multiplikatormethode optimiert werden? Oder ist es gerade Differenzierung?
Antworten:
Es gibt zwei Formulierungen für das Gratproblem. Der erste ist
unterliegen
Diese Formulierung zeigt die Größenbeschränkung für die Regressionskoeffizienten. Beachten Sie, was diese Einschränkung impliziert. Wir zwingen die Koeffizienten, mit dem Radius √ in einer Kugel um den Ursprung zu liegen .s√
Die zweite Formulierung ist genau Ihr Problem
was als die Largrange-Multiplikatorformulierung angesehen werden kann. Hierbei ist zu beachten, dass ein Abstimmungsparameter ist und größere Werte zu einer größeren Schrumpfung führen. Sie können fortfahren, den Ausdruck in Bezug auf β zu differenzieren und den bekannten Kammschätzer erhaltenλ β
Die beiden Formulierungen sind vollständig äquivalent , da es eine Eins-zu-Eins-Entsprechung zwischen und λ gibts λ .
Lassen Sie mich etwas näher darauf eingehen. Stellen Sie sich vor , dass Sie in dem idealen orthogonalen Fall sind, . Dies ist eine stark vereinfachte und unrealistische Situation, aber wir können den Schätzer etwas genauer untersuchen, halten Sie es mit mir aus. Überlegen Sie, was mit Gleichung (1) passiert. Der Kammschätzer reduziert sich aufX′X=I
wie im orthogonalen Fall ist der OLS-Schätzer gegeben durch . Betrachtet man nun diese Komponente, so erhält manβOLS=X′y
Beachten Sie dann, dass jetzt die Schrumpfung für alle Koeffizienten konstant ist. Dies kann im allgemeinen Fall nicht zutreffen, und es kann in der Tat gezeigt werden, dass sich die Schrumpfungen stark unterscheiden, wenn es Entartungen imX′X - Matrix.
Kehren wir jedoch zum eingeschränkten Optimierungsproblem zurück. Nach der KKT-Theorie eine notwendige Bedingung für die Optimalität
also entweder oder ∑ β 2 R , j - s = 0 (in diesem Fall sagen wir, dass die Bedingung bindend ist). Wenn λ = 0 ist, gibt es keine Strafe und wir sind wieder in der regulären OLS-Situation. Nehmen wir an, dass die Bedingung bindend ist und wir uns in der zweiten Situation befinden. Mit der Formel in (2) haben wir dannλ=0 ∑β2R,j−s=0 λ=0
woher wir bekommen
die zuvor behauptete Eins-zu-Eins-Beziehung. Ich gehe davon aus, dass dies im nicht-orthogonalen Fall schwieriger festzustellen ist, aber das Ergebnis bleibt davon unberührt.
Schauen Sie sich (2) noch einmal an und Sie werden sehen, dass wir immer noch das vermissen . Um einen optimalen Wert dafür zu erhalten, können Sie entweder eine Kreuzvalidierung verwenden oder sich die Gratspur ansehen. Die letztere Methode beinhaltet das Konstruieren einer Folge von λ in (0,1) und das Betrachten, wie sich die Schätzungen ändern. Sie wählen dann das λ , das sie stabilisiert. Diese Methode wurde übrigens in der zweiten der folgenden Referenzen vorgeschlagen und ist die älteste.λ λ λ
Verweise
quelle
Mein Buch Regression Modeling Strategies befasst sich mit der Verwendung effektiver AIC für die Wahl von . Dies kommt von der bestraft Log - Likelihood und der effektiven Freiheitsgraden, wobei die letztere eine Funktion ist , wie viel Abweichungen von β werden durch penalization reduziert. Eine Präsentation dazu gibt es hier . Das R- Paket findet λ , das den effektiven AIC optimiert, und erlaubt auch mehrere Strafparameter (z. B. einen für lineare Haupteffekte, einen für nichtlineare Haupteffekte, einen für lineare Interaktionseffekte und einen für nichtlineare Interaktionseffekte).λ β^ λ
rms
pentrace
quelle
Ich mache das nicht analytisch, sondern numerisch. Ich zeichne normalerweise RMSE gegen λ als solches:
Figure 1. RMSE und die Konstante λ oder alpha.
quelle