Ridge-Regression: Regularisierung in Richtung eines Wertes

7

Die traditionelle Kammregressionsschätzung ist

β^ridge=(XTX+λI)1XTY

ergibt sich aus dem Hinzufügen des .λ||β||22

Ich habe mich bemüht, Literatur über die Regularisierung auf einen bestimmten Wert zu finden . Insbesondere habe ich mir ein Ridge-Regressionsmodell angesehen, das die Form der Strafe wobei die anfängliche Schätzung von unter der Einstellung Iterativ neu gewichtete kleinste Quadrate ist. Die Kammregressionsschätzung ist wiederumλ||βB||22Bβ

β^ridge=(XTX+λI)1(XTY+λB).

Der Lambda-Parameter wird ebenfalls sehr groß gewählt ( ), was mir den Anschein erweckt, dass die Schätzung versucht, gegen zu konvergieren .λ=100000B

Warum auf einen Wert regulieren? Ändert dies die Interpretation von ?β

Alle Kommentare und / oder Zitate wären sehr dankbar. Vielen Dank!

CindyLhasapoo
quelle
3
Ich folge Ihrer Frage nicht vollständig, da sie verschiedene Dinge zu betreffen scheint: Regularisierung, IRLS und Konzentration auf einen bestimmten Wert. Was letzteres betrifft, können Sie, wenn Sie durch ersetzen , einfach die Standard-Ridge-Regression anwenden. Ob dies eine gute Idee ist oder nicht, hängt davon ab, was IRLS für Ihre Daten leistet: Offensichtlich können die Ergebnisse äußerst empfindlich auf die IRLS-Schätzung reagieren. YYXB
whuber
Ich wollte wirklich nur wissen, welchen Zweck der von ihnen verwendete Strafbegriff hat und ob die Gratschätzung noch eine Interpretation hat. Das hier ist eine Matrix in der Arbeit, aber und sind immer noch Vektoren. Was ich nicht verstehen kann, ist das in ihrer endgültigen Schätzung der Prädiktormatrix. Ich würde erwarten, dass eine Struktur, in der die Diagonale oben und unten dominiert, einige Beiträge liefert, denken Sie an die Blockdiagonale. Dies ist jedoch nicht der Fall, daher frage ich mich, ob sich die Interpretation ändert, wenn verschiedene Kombinationen von Straf- und Gratwerten verwendet werden. βYX
CindyLhasapoo
Ich folge dir nicht, weil es keinen mathematischen oder statistischen Sinn macht , wenn und Vektoren und eine Matrix sind. Normalerweise ist die Entwurfsmatrix (sie enthält die Werte aller Regressorvariablen), ist ein Vektor (von Antworten) und ist ein Vektor von Koeffizienten. Wenn Sie verstehen möchten, was die Ridge-Regressionsschätzung bedeutet, überprüfen Sie, was Ridge-Regression ist: Wie ich in meinem ersten Kommentar ausgeführt habe, kann das, was Sie beschreiben, als Standardmodell für die Ridge-Regression umformuliert werden. XYβXYβ
whuber
Eine Regularisierung auf einen anderen Wert als Null könnte mithilfe von Offsets implementiert werden, wenn die Software dies implementiert.
kjetil b halvorsen
Unter stats.stackexchange.com/a/311490/919 gebe ich die Details des Arguments an, dass das Regularisieren auf einen bestimmten Wert dasselbe ist wie das Regularisieren auf 0. Dies sollte bei der Interpretation helfen.
whuber

Antworten:

5

Wir haben die Kostenfunktion

yXβ22+γββ022

Dabei ist . Das Minimum wird bei erreichtγ0

β^:=(XX+γI)1(Xy+γβ0)

Beachten Sie, dass möglicherweise nicht invertierbar ist, jedoch immer invertierbar ist, wenn .XXXX+γIγ>0

Wenn , dannγ1

β^=(XX+γI)1(Xy+γβ0)=(γ1XX+I)1(γ1Xy+β0)(Iγ1XX)(β0+γ1Xy)(Iγ1XX)β0+γ1Xy=β0+γ1X(yXβ0)

Für großes haben wir die ungefähre Schätzungγ

β~:=β0+γ1X(yXβ0)

Wenn , dann , wie erwartet. Wenn wir beide Seiten mit links multiplizieren , erhalten wirγβ~β0X

Xβ~=Xβ0+γ1XX(yXβ0)

und somit,

yXβ~=(Iγ1XX)(yXβ0)

Dies gibt uns , eine Annäherung des Fehlervektors für großes, aber endliches , ausgedrückt als , den Fehlervektor für unendlich .yXβ~ γyXβ0γ

Nichts davon scheint besonders aufschlussreich oder nützlich zu sein, aber es kann besser als nichts sein.

Rodrigo de Azevedo
quelle
Schreiben Sie und . Jetzt haben Sie das übliche Ridge Regression-Setup für die Kosten , sodass Sie die Lösung sofort aufschreiben können. ββ0=αy=zXβ0||zXα||2+γ||α||2
whuber
3

Konzeptionell kann es hilfreich sein, in Bezug auf die Bayes'sche Aktualisierung zu denken : Der Strafbegriff entspricht einer vorherigen Schätzung mit Genauigkeit (dh einem multivariaten Gaußschen Priorβ0 λβNβ0,I/λ).

In diesem Sinne ist ein „sehr großes“ ist nicht entspricht einen bestimmten Zahlenwert. Vielmehr wäre es ein Wert, der den Fehler "dominiert", so dass er numerisch relativ zu einer Norm groß sein muss der Entwurfsmatrix. Für Ihr Beispiel können wir also nicht sagen, ob "sehr groß" ist oder nicht, ohne weitere Informationen.λXλ=100000

Das heißt, warum könnte ein "sehr großer" Wert verwendet werden? Ein häufiger Fall, den ich in der Praxis gesehen habe, ist, dass das eigentliche Problem gleichheitsbeschränkte kleinste Quadrate sind , aber dies wird unter Verwendung der Tikhonov-Regularisierung mit einem "großen " angenähert . (Dies ist etwas allgemeiner als Ihr Fall und würde einer "breiten" Matrix , so dass genau gelöst werden könnte.)λΛΛ(ββ0)=0

GeoMatt22
quelle
Normalerweise wird die Ridge-Regression erst durchgeführt, nachdem die Spalten von standardisiert wurden , sodass eine intrinsische Bedeutung hat. Xλ
whuber
@whuber danke für die Informationen, die ich nicht kannte.
GeoMatt22
Ich denke, es ist wenn der zweite Parameter für die Kovarianzmatrix steht. Nβ0,I/λ
Benoit Sanchez
@ BenoitSanchez danke! Ich weiß nicht, was ich dachte, da ich es Präzision nur 5 Wörter zuvor genannt habe :)
GeoMatt22
Ich schrieb eine ähnliche Antwort, als ich Ihre las und dachte, einer von uns könnte etwas vermissen :-)
Benoit Sanchez
2

Ich habe eine Antwort für "Warum auf einen Wert regulieren? Ändert dies die Interpretation von ?"β

Transferlernen ist eine Art des maschinellen Lernens, bei dem Wissen aus der Quelldomäne beim Ausführen einer Aufgabe in die Zieldomäne übertragen wird, wenn dieselbe Aufgabe ausgeführt wird, dh die Aufgabe bleibt gleich, aber die Datensätze in den beiden Domänen unterscheiden sich.

Eine Möglichkeit, Transferlernen durchzuführen, ist die gemeinsame Nutzung von Parametern. Die Intuition auf hoher Ebene ist, dass die Parameter des Zieldomänenmodells sehr nahe an den Parametern des Quelldomänenmodells liegen sollten, während dennoch eine gewisse Unsicherheit berücksichtigt wird. Mathematisch wird diese Intuition erfasst, indem die Abweichung der Parameter , dh , wobei der Bestrafungsparameter ist und W ein Vektor von Modellparametern ist.λWtargetWsource22λ

Ich habe diesen Ansatz verwendet, um Transferlernen für bedingte Zufallsfelder durchzuführen , siehe Gl. 4 und zugehöriger Text.

Ich hatte eine ähnliche Frage zur Ridge-Regression, die hier zur Interpretierbarkeit der Lösung in geschlossener Form gestellt wurde.

anataraj
quelle
1

Es ist möglich, es aus Bayes'scher Sicht zu verstehen .

Die Ridge-Regularisierung für die lineare Regression ist eine getarnte Bayes'sche Methode. Siehe: https://en.wikipedia.org/wiki/Lasso_(statistics)#Bayesian_interpretation (es ist leichter zu verstehen, erklärt auf der Lasso-Seite der Wikipedia, aber es ist die gleiche Idee mit Ridge).

Die Konvention, die ich für die Regularisierung verwende, ist die folgende. Minimieren: . Angenommen, das Rauschen hat der Einfachheit halber die Varianz (andernfalls ersetzen Sie überall durch ).(i=1N(yiβxi)2)+λββ02σ2=1λλ/σ2

Regularisierung mit dem Koeffizienten bedeutet die Annahme eines normalen vorherigen : "Ich erwarte als vorherige Annahme, dass die Koeffizienten klein sind": Die vorherige Verteilung ist eine Normalverteilung mit dem Mittelwert und "Radius" . Eine Regularisierung in Richtung bedeutet die Annahme eines normalen vorherigen : "Ich erwarte als vorherige Annahme, dass die Koeffizienten nicht weit von ": Die vorherige Verteilung ist normal Verteilung mit Mittelwert und "Radius" .λN(0;1λI)01λβ0N(β0;1λI)β0β01λ

Dieser Prior resultiert oft aus einem früheren Training, bei dem als Schätzung angegeben wurde. Die Stärke deines Glaubens ist die statistische Aussagekraft Ihrer ersten Trainingssatz. Ein großes Lambda bedeutet, dass Sie zuvor viele Informationen hatten. Ihre Überzeugung ändert sich für jedes neue Beispiel nur geringfügig: ein kleines Update nach Beispiel.β0λ

Benoit Sanchez
quelle