Warum wäre in Ridge Regression und LASSO kleineres besser?

8

Kann jemand eine intuitive Vorstellung davon geben, warum es besser ist, eine kleinere Beta zu haben?

Für LASSO kann ich verstehen, dass es hier eine Feature-Auswahlkomponente gibt. Weniger Funktionen machen das Modell einfacher und daher weniger wahrscheinlich, dass es überpasst.

Für den Grat bleiben jedoch alle Merkmale (Faktoren) erhalten. Nur die Werte sind kleiner (im Sinne der L2-Norm). Wie macht dies das Modell einfacher?

Kann jemand eine intuitive Ansicht dazu geben?

user152503
quelle
kleiner ist nicht unbedingt besser: Das Schrumpfen in Richtung eines Raums verringert das Risiko, insbesondere in der Nachbarschaft dieses Raums. Diese Schätzer, die Sie erwähnen, nehmen zufällig diesen Raum als Ursprung.
user795305

Antworten:

9

TL; DR - Das gleiche Prinzip gilt sowohl für LASSO als auch für Ridge

Weniger Funktionen machen das Modell einfacher und daher weniger wahrscheinlich, dass es überpasst

Dies ist die gleiche Intuition wie bei der Ridge-Regression - wir verhindern, dass das Modell die Daten überpasst, aber anstatt auf kleine, potenziell unechte Variablen (die in LASSO auf Null reduziert werden) abzuzielen, zielen wir stattdessen auf die größten Koeffizienten ab, die die Werte möglicherweise überbewerten Fall für ihre jeweiligen Variablen.

Die L2-Strafe verhindert im Allgemeinen, dass das Modell einer Variablen "zu viel" Bedeutung beimisst, da große Koeffizienten mehr als kleine bestraft werden.

Dies scheint das Modell nicht zu "vereinfachen", führt jedoch eine ähnliche Aufgabe aus, um zu verhindern, dass das Modell zu stark an die vorliegenden Daten angepasst wird.

Ein Beispiel, um Intuition aufzubauen

Nehmen Sie ein konkretes Beispiel - Sie versuchen möglicherweise, Krankenhausrückübernahmen anhand der Merkmale des Patienten vorherzusagen.

In diesem Fall haben Sie möglicherweise eine relativ seltene Variable (z. B. eine seltene Krankheit), die in Ihrem Trainingssatz sehr stark mit der Rückübernahme korreliert. In einem Datensatz von 10.000 Patienten sehen Sie diese Krankheit möglicherweise nur 10 Mal mit 9 Wiederaufnahmen (ein extremes Beispiel, um sicher zu sein).

Infolgedessen kann der Koeffizient relativ zum Koeffizienten anderer Variablen massiv sein . Durch die Minimierung sowohl der MSE als auch der L2-Strafe wäre dies ein guter Kandidat für eine Kammregression, um auf einen kleineren Wert zu "schrumpfen", da dies selten ist (daher die MSE nicht so stark beeinflusst) und ein extremer Koeffizientenwert.

Michael Oberst
quelle
4

Es gibt keine Garantie dafür, dass kleinere Gewichte tatsächlich besser sind. Die Lasso- und Ridge-Regression funktioniert, indem der Lösung Vorkenntnisse / Annahmen / Einschränkungen auferlegt werden. Dieser Ansatz funktioniert gut, wenn die vorherigen / Annahmen / Einschränkungen für die tatsächliche Verteilung, die die Daten generiert hat, gut geeignet sind und ansonsten möglicherweise nicht gut funktionieren. In Bezug auf Einfachheit / Komplexität sind nicht die einzelnen Modelle einfacher oder komplexer. Vielmehr ist es die Familie von Modellen unter Berücksichtigung.

Aus geometrischer Sicht zwingen die Lasso- und Gratregression die Gewichte zu Einschränkungen. Zum Beispiel die übliche Strafe / Lagrange-Form der Gratregression:

minβyXβ22+λβ22

kann in der entsprechenden Einschränkungsform neu geschrieben werden:

minβyXβ22s.t. β22c

Dies macht deutlich, dass die Gratregression die Gewichte auf eine Hypersphäre beschränkt, deren Radius durch den Regularisierungsparameter bestimmt wird. In ähnlicher Weise beschränkt Lasso die Gewichte so, dass sie innerhalb eines Polytops liegen, dessen Größe durch den Regularisierungsparameter bestimmt wird. Diese Einschränkungen bedeuten, dass der größte Teil des ursprünglichen Parameterraums nicht zulässig ist und wir nach den optimalen Gewichten in einem viel kleineren Unterraum suchen. Dieser kleinere Unterraum kann als weniger "komplex" angesehen werden als der gesamte Raum.

Aus Bayes'scher Sicht kann man über die posteriore Verteilung über alle möglichen Gewichtswahlen nachdenken. Sowohl die Lasso- als auch die Ridge-Regression entsprechen der MAP-Schätzung, nachdem ein Prior auf die Gewichte gesetzt wurde (Lasso verwendet einen Laplace-Prior und Ridge-Regression verwendet einen Gauß-Prior). Ein engerer posteriorer Wert entspricht einer größeren Einschränkung und einer geringeren Komplexität, da ein kleinerer Satz von Parametern eine hohe posteriore Dichte aufweist. Zum Beispiel ergibt das Multiplizieren der Wahrscheinlichkeitsfunktion mit einem engen Gaußschen Prior (was einer großen Gratstrafe entspricht) einen engeren hinteren Teil.

Einer der Hauptgründe für die Auferlegung von Einschränkungen / Prioritäten ist, dass die Auswahl des optimalen Modells aus einer eingeschränkteren Familie weniger wahrscheinlich überanpasst als die Auswahl aus einer weniger eingeschränkten Familie. Dies liegt daran, dass die weniger eingeschränkte Familie mehr Möglichkeiten zur Anpassung der Daten bietet und es zunehmend wahrscheinlicher ist, dass eine von ihnen zufällige Schwankungen im Trainingssatz berücksichtigen kann. Eine formellere Behandlung finden Sie im Kompromiss zwischen Bias und Varianz . Dies bedeutet nicht unbedingt, dass die Auswahl eines Modells aus einer eingeschränkteren Familie gut funktioniert. Um eine gute Leistung zu erzielen, muss die eingeschränkte Familie tatsächlich gute Modelle enthalten. Dies bedeutet, dass wir einen Prior / eine Einschränkung auswählen müssen, die / die gut auf das jeweilige Problem abgestimmt ist.

user20160
quelle
(+1) Die Schlüsselidee bei der Beantwortung von OP-Fragen scheint der Bias-Varianz-Kompromiss zu sein
user795305
1

Obwohl die Frage nach einer intuitiven Erklärung gefragt wurde, gibt es tatsächlich eine strenge Ableitung des mittleren quadratischen Fehlers (MSE) für die Gratregression, die zeigt, dass es Werte von , die eine bessere MSE als die lineare Regression erreichen.λ

Rückruf: Call der Schätzer von für eine Gratregression, deren Schrumpfungsparameter und definiert: .MSE(β^)=E[(β^β)(β^β)T]βλ^βλM(λ)=MSE(βλ^)

Daher ist die MSE einer linearen Regression.M(0)

Wenn man diesen Kursnotizen folgt , kann man Folgendes zeigen:

M(0)M(λ)=λ(XTX+λI)1(2σ²I+λσ²(XTX)1λββT){(XTX+λI)1}T

Die Terme sind positiv definitiv, aber für ist der Term in der Mitte auch positiv. Für diese Werte haben wir , was zeigt, dass die Gratregression den mittleren quadratischen Fehler reduziert.(XTX+λI)1λ<2σ2(βTβ)1M(0)>M(λ)

RUser4512
quelle
Obwohl Algebra gut ist, brauchen Sie sie nicht, um Ihren Standpunkt zu verdeutlichen. Da OLS die Einschränkung der Unparteilichkeit auferlegt und Ridge Regression diese beseitigt, kann es niemals zu einer größeren MSE als OLS führen und wird dieselbe MSE nur dann erreichen, wenn seine Lösung und die OLS-Lösung identisch sind. Andernfalls muss es eine kleinere MSE haben.
whuber
@whuber Ich verstehe das Argument in deinem Kommentar nicht. Kann man sich nicht leicht einen dummen Schätzer für einfallen lassen , der voreingenommen ist und eine höhere MSE als der OLS-Schätzer hat? β
Amöbe
@Amoeba Ja, ich denke, es gibt eine Subtilität: Ich gehe implizit davon aus, dass der Ridge-Regressionsverlust für infinitesimales quer zum OLS-Verlust ist. Dies impliziert, dass es für beliebig kleine RR-Lösungen mit kleinerer MSE geben muss, es sei denn, OLS erreicht bereits die kleinste unverzerrte MSE. λλ
whuber
@whuber In der Tat ist es offensichtlich, dass man die MSE nur reduzieren kann, wenn man die Einschränkung lockert. Dieser Satz garantiert, dass wir diese Reduktion tatsächlich erreichen.
RUser4512