Wie finde ich die Regressionskoeffizienten

14

Bei der Gratregression ist die zu minimierende Zielfunktion:

RSS+λβj2.

Kann dies mit der Lagrange-Multiplikatormethode optimiert werden? Oder ist es gerade Differenzierung?

Minaj
quelle
1
Was ist der Zusammenhang zwischen dem Titel (der sich auf konzentriert λ) und der Frage (die sich nur um das scheint βj)? Ich befürchte, dass "optimiert werden" deutlich unterschiedliche Interpretationen haben könnte, je nachdem, welche Variablen als variabel angesehen werden und welche festgesetzt werden sollen.
Whuber
1
Dank änderte die Frage. Ich habe gelesen , dass die λ durch Kreuzvalidierung gefunden wird - aber ich glaube , das bedeutet , dass Sie das haben βj bereits und verwenden unterschiedliche Daten die besten zu finden λ Frage ist - wie finden Sie das βj ‚s in erster Linie Wann ist λ ein Unbekannter?
Minaj

Antworten:

22

Es gibt zwei Formulierungen für das Gratproblem. Der erste ist

βR=argminβ(y-Xβ)(y-Xβ)

unterliegen

jβj2s.

Diese Formulierung zeigt die Größenbeschränkung für die Regressionskoeffizienten. Beachten Sie, was diese Einschränkung impliziert. Wir zwingen die Koeffizienten, mit dem Radius in einer Kugel um den Ursprung zu liegen .s

Die zweite Formulierung ist genau Ihr Problem

βR=argminβ(y-Xβ)(y-Xβ)+λβj2

was als die Largrange-Multiplikatorformulierung angesehen werden kann. Hierbei ist zu beachten, dass ein Abstimmungsparameter ist und größere Werte zu einer größeren Schrumpfung führen. Sie können fortfahren, den Ausdruck in Bezug auf β zu differenzieren und den bekannten Kammschätzer erhaltenλβ

(1)βR=(XX+λich)-1Xy

Die beiden Formulierungen sind vollständig äquivalent , da es eine Eins-zu-Eins-Entsprechung zwischen und λ gibtsλ .

Lassen Sie mich etwas näher darauf eingehen. Stellen Sie sich vor , dass Sie in dem idealen orthogonalen Fall sind, . Dies ist eine stark vereinfachte und unrealistische Situation, aber wir können den Schätzer etwas genauer untersuchen, halten Sie es mit mir aus. Überlegen Sie, was mit Gleichung (1) passiert. Der Kammschätzer reduziert sich aufXX=I

βR=(I+λI)1Xy=(I+λI)1βOLS

wie im orthogonalen Fall ist der OLS-Schätzer gegeben durch . Betrachtet man nun diese Komponente, so erhält manβOLS=Xy

(2)βR=βOLS1+λ

Beachten Sie dann, dass jetzt die Schrumpfung für alle Koeffizienten konstant ist. Dies kann im allgemeinen Fall nicht zutreffen, und es kann in der Tat gezeigt werden, dass sich die Schrumpfungen stark unterscheiden, wenn es Entartungen im XX - Matrix.

Kehren wir jedoch zum eingeschränkten Optimierungsproblem zurück. Nach der KKT-Theorie eine notwendige Bedingung für die Optimalität

λ(βR,j2s)=0

also entweder oder β 2 R , j - s = 0 (in diesem Fall sagen wir, dass die Bedingung bindend ist). Wenn λ = 0 ist, gibt es keine Strafe und wir sind wieder in der regulären OLS-Situation. Nehmen wir an, dass die Bedingung bindend ist und wir uns in der zweiten Situation befinden. Mit der Formel in (2) haben wir dannλ=0βR,j2s=0λ=0

s=βR,j2=1(1+λ)2βOLS,j2

woher wir bekommen

λ=βOLS,j2s1

die zuvor behauptete Eins-zu-Eins-Beziehung. Ich gehe davon aus, dass dies im nicht-orthogonalen Fall schwieriger festzustellen ist, aber das Ergebnis bleibt davon unberührt.

Schauen Sie sich (2) noch einmal an und Sie werden sehen, dass wir immer noch das vermissen . Um einen optimalen Wert dafür zu erhalten, können Sie entweder eine Kreuzvalidierung verwenden oder sich die Gratspur ansehen. Die letztere Methode beinhaltet das Konstruieren einer Folge von λ in (0,1) und das Betrachten, wie sich die Schätzungen ändern. Sie wählen dann das λ , das sie stabilisiert. Diese Methode wurde übrigens in der zweiten der folgenden Referenzen vorgeschlagen und ist die älteste.λλλ

Verweise

Hoerl, Arthur E. und Robert W. Kennard. "Gratregression: Verzerrte Schätzung für nichtorthogonale Probleme." Technometrics 12.1 (1970): 55 & ndash; 67.

Hoerl, Arthur E. und Robert W. Kennard. "Ridge Regression: Anwendungen auf nichtorthogonale Probleme." Technometrics 12.1 (1970): 69 & ndash; 82.

JohnK
quelle
2
@Minaj Ridge-Regression hat für alle Koeffizienten (außer dem Achsenabschnitt) eine konstante Schrumpfung. Deshalb gibt es nur einen Multiplikator.
JohnK
2
@amoeba Dies ist ein Vorschlag von Hoerl und Kennard, den Leuten, die in den 1970er Jahren die Gratregression eingeführt haben. Aufgrund ihrer Erfahrung - und meiner - stabilisieren sich die Koeffizienten in diesem Intervall auch bei extremer Multikollinearität. Dies ist natürlich eine empirische Strategie, und es ist nicht garantiert, dass sie immer funktioniert.
JohnK
2
Sie könnten auch einfach die Pseudobeobachtungsmethode anwenden und die Schätzungen mit nichts Komplizierterem als einem Regressionsprogramm für kleinste Fehlerquadrate erhalten. In ähnlicher Weise können Sie auch den Effekt der Änderung von untersuchen . λ
Glen_b
2
@amoeba Es ist wahr, dass Ridge nicht skalierungsinvariant ist, deshalb ist es üblich, die Daten im Voraus zu standardisieren. Ich habe die relevanten Referenzen beigefügt, falls Sie einen Blick darauf werfen möchten. Sie sind immens interessant und nicht so technisch.
JohnK
2
@JohnK schrumpft in der Tat die Gratregression jedes um einen anderen Betrag, so dass die Schrumpfung nicht konstant ist, obwohl es nur einen Schrumpfungsparameter λ gibt . βλ
Frank Harrell
4

Mein Buch Regression Modeling Strategies befasst sich mit der Verwendung effektiver AIC für die Wahl von . Dies kommt von der bestraft Log - Likelihood und der effektiven Freiheitsgraden, wobei die letztere eine Funktion ist , wie viel Abweichungen von β werden durch penalization reduziert. Eine Präsentation dazu gibt es hier . Das R- Paket findet λ , das den effektiven AIC optimiert, und erlaubt auch mehrere Strafparameter (z. B. einen für lineare Haupteffekte, einen für nichtlineare Haupteffekte, einen für lineare Interaktionseffekte und einen für nichtlineare Interaktionseffekte).λβ^rmspentraceλ

Frank Harrell
quelle
1
λ
Das habe ich nicht studiert. LOOCV erfordert viel Rechenaufwand.
Frank Harrell
Nicht, wenn die explizite Formel verwendet wird: stats.stackexchange.com/questions/32542 .
Amöbe sagt Reinstate Monica
1
Diese Formel gilt für den speziellen Fall von OLS, nicht für die maximale Wahrscheinlichkeit im Allgemeinen. Es gibt jedoch eine ungefähre Formel unter Verwendung von Bewertungsrestwerten. Mir ist klar, dass wir in dieser Diskussion hauptsächlich über OLS sprechen.
Frank Harrell
1

Ich mache das nicht analytisch, sondern numerisch. Ich zeichne normalerweise RMSE gegen λ als solches:

enter image description here

Figure 1. RMSE und die Konstante λ oder alpha.

Lennart
quelle
Bedeutet dies, dass Sie einen bestimmten Wert von festlegen? λ und dann differenzieren Sie den Ausdruck, um die zu finden βjDanach berechnen Sie RMSE und wiederholen den Vorgang für neue Werte von λ?
Minaj