Kann jemand eine intuitive Vorstellung davon geben, warum es besser ist, eine kleinere Beta zu haben?
Für LASSO kann ich verstehen, dass es hier eine Feature-Auswahlkomponente gibt. Weniger Funktionen machen das Modell einfacher und daher weniger wahrscheinlich, dass es überpasst.
Für den Grat bleiben jedoch alle Merkmale (Faktoren) erhalten. Nur die Werte sind kleiner (im Sinne der L2-Norm). Wie macht dies das Modell einfacher?
Kann jemand eine intuitive Ansicht dazu geben?
regression
lasso
ridge-regression
shrinkage
user152503
quelle
quelle
Antworten:
TL; DR - Das gleiche Prinzip gilt sowohl für LASSO als auch für Ridge
Dies ist die gleiche Intuition wie bei der Ridge-Regression - wir verhindern, dass das Modell die Daten überpasst, aber anstatt auf kleine, potenziell unechte Variablen (die in LASSO auf Null reduziert werden) abzuzielen, zielen wir stattdessen auf die größten Koeffizienten ab, die die Werte möglicherweise überbewerten Fall für ihre jeweiligen Variablen.
Die L2-Strafe verhindert im Allgemeinen, dass das Modell einer Variablen "zu viel" Bedeutung beimisst, da große Koeffizienten mehr als kleine bestraft werden.
Dies scheint das Modell nicht zu "vereinfachen", führt jedoch eine ähnliche Aufgabe aus, um zu verhindern, dass das Modell zu stark an die vorliegenden Daten angepasst wird.
Ein Beispiel, um Intuition aufzubauen
Nehmen Sie ein konkretes Beispiel - Sie versuchen möglicherweise, Krankenhausrückübernahmen anhand der Merkmale des Patienten vorherzusagen.
In diesem Fall haben Sie möglicherweise eine relativ seltene Variable (z. B. eine seltene Krankheit), die in Ihrem Trainingssatz sehr stark mit der Rückübernahme korreliert. In einem Datensatz von 10.000 Patienten sehen Sie diese Krankheit möglicherweise nur 10 Mal mit 9 Wiederaufnahmen (ein extremes Beispiel, um sicher zu sein).
Infolgedessen kann der Koeffizient relativ zum Koeffizienten anderer Variablen massiv sein . Durch die Minimierung sowohl der MSE als auch der L2-Strafe wäre dies ein guter Kandidat für eine Kammregression, um auf einen kleineren Wert zu "schrumpfen", da dies selten ist (daher die MSE nicht so stark beeinflusst) und ein extremer Koeffizientenwert.
quelle
Es gibt keine Garantie dafür, dass kleinere Gewichte tatsächlich besser sind. Die Lasso- und Ridge-Regression funktioniert, indem der Lösung Vorkenntnisse / Annahmen / Einschränkungen auferlegt werden. Dieser Ansatz funktioniert gut, wenn die vorherigen / Annahmen / Einschränkungen für die tatsächliche Verteilung, die die Daten generiert hat, gut geeignet sind und ansonsten möglicherweise nicht gut funktionieren. In Bezug auf Einfachheit / Komplexität sind nicht die einzelnen Modelle einfacher oder komplexer. Vielmehr ist es die Familie von Modellen unter Berücksichtigung.
Aus geometrischer Sicht zwingen die Lasso- und Gratregression die Gewichte zu Einschränkungen. Zum Beispiel die übliche Strafe / Lagrange-Form der Gratregression:
kann in der entsprechenden Einschränkungsform neu geschrieben werden:
Dies macht deutlich, dass die Gratregression die Gewichte auf eine Hypersphäre beschränkt, deren Radius durch den Regularisierungsparameter bestimmt wird. In ähnlicher Weise beschränkt Lasso die Gewichte so, dass sie innerhalb eines Polytops liegen, dessen Größe durch den Regularisierungsparameter bestimmt wird. Diese Einschränkungen bedeuten, dass der größte Teil des ursprünglichen Parameterraums nicht zulässig ist und wir nach den optimalen Gewichten in einem viel kleineren Unterraum suchen. Dieser kleinere Unterraum kann als weniger "komplex" angesehen werden als der gesamte Raum.
Aus Bayes'scher Sicht kann man über die posteriore Verteilung über alle möglichen Gewichtswahlen nachdenken. Sowohl die Lasso- als auch die Ridge-Regression entsprechen der MAP-Schätzung, nachdem ein Prior auf die Gewichte gesetzt wurde (Lasso verwendet einen Laplace-Prior und Ridge-Regression verwendet einen Gauß-Prior). Ein engerer posteriorer Wert entspricht einer größeren Einschränkung und einer geringeren Komplexität, da ein kleinerer Satz von Parametern eine hohe posteriore Dichte aufweist. Zum Beispiel ergibt das Multiplizieren der Wahrscheinlichkeitsfunktion mit einem engen Gaußschen Prior (was einer großen Gratstrafe entspricht) einen engeren hinteren Teil.
Einer der Hauptgründe für die Auferlegung von Einschränkungen / Prioritäten ist, dass die Auswahl des optimalen Modells aus einer eingeschränkteren Familie weniger wahrscheinlich überanpasst als die Auswahl aus einer weniger eingeschränkten Familie. Dies liegt daran, dass die weniger eingeschränkte Familie mehr Möglichkeiten zur Anpassung der Daten bietet und es zunehmend wahrscheinlicher ist, dass eine von ihnen zufällige Schwankungen im Trainingssatz berücksichtigen kann. Eine formellere Behandlung finden Sie im Kompromiss zwischen Bias und Varianz . Dies bedeutet nicht unbedingt, dass die Auswahl eines Modells aus einer eingeschränkteren Familie gut funktioniert. Um eine gute Leistung zu erzielen, muss die eingeschränkte Familie tatsächlich gute Modelle enthalten. Dies bedeutet, dass wir einen Prior / eine Einschränkung auswählen müssen, die / die gut auf das jeweilige Problem abgestimmt ist.
quelle
Obwohl die Frage nach einer intuitiven Erklärung gefragt wurde, gibt es tatsächlich eine strenge Ableitung des mittleren quadratischen Fehlers (MSE) für die Gratregression, die zeigt, dass es Werte von , die eine bessere MSE als die lineare Regression erreichen.λ
Rückruf: Call der Schätzer von für eine Gratregression, deren Schrumpfungsparameter und definiert: .MSE(β^)=E[(β^−β)(β^−β)T] βλ^ β λ M(λ)=MSE(βλ^)
Daher ist die MSE einer linearen Regression.M(0)
Wenn man diesen Kursnotizen folgt , kann man Folgendes zeigen:
Die Terme sind positiv definitiv, aber für ist der Term in der Mitte auch positiv. Für diese Werte haben wir , was zeigt, dass die Gratregression den mittleren quadratischen Fehler reduziert.(XTX+λI)−1 λ<2σ2(βTβ)−1 M(0)>M(λ)
quelle