Die traditionelle Kammregressionsschätzung ist
ergibt sich aus dem Hinzufügen des .
Ich habe mich bemüht, Literatur über die Regularisierung auf einen bestimmten Wert zu finden . Insbesondere habe ich mir ein Ridge-Regressionsmodell angesehen, das die Form der Strafe wobei die anfängliche Schätzung von unter der Einstellung Iterativ neu gewichtete kleinste Quadrate ist. Die Kammregressionsschätzung ist wiederum
Der Lambda-Parameter wird ebenfalls sehr groß gewählt ( ), was mir den Anschein erweckt, dass die Schätzung versucht, gegen zu konvergieren .
Warum auf einen Wert regulieren? Ändert dies die Interpretation von ?
Alle Kommentare und / oder Zitate wären sehr dankbar. Vielen Dank!
regression
references
least-squares
ridge-regression
CindyLhasapoo
quelle
quelle
Antworten:
Wir haben die Kostenfunktion
Dabei ist . Das Minimum wird bei erreichtγ≥0
Beachten Sie, dass möglicherweise nicht invertierbar ist, jedoch immer invertierbar ist, wenn .X⊤X X⊤X+γI γ>0
Wenn , dannγ≫1
Für großes haben wir die ungefähre Schätzungγ
Wenn , dann , wie erwartet. Wenn wir beide Seiten mit links multiplizieren , erhalten wirγ→∞ β~→β0 X
und somit,
Dies gibt uns , eine Annäherung des Fehlervektors für großes, aber endliches , ausgedrückt als , den Fehlervektor für unendlich .y−Xβ~ γ y−Xβ0 γ
Nichts davon scheint besonders aufschlussreich oder nützlich zu sein, aber es kann besser als nichts sein.
quelle
Konzeptionell kann es hilfreich sein, in Bezug auf die Bayes'sche Aktualisierung zu denken : Der Strafbegriff entspricht einer vorherigen Schätzung mit Genauigkeit (dh einem multivariaten Gaußschen Priorβ0 λ β∼Nβ0,I/λ).
In diesem Sinne ist ein „sehr großes“ ist nicht entspricht einen bestimmten Zahlenwert. Vielmehr wäre es ein Wert, der den Fehler "dominiert", so dass er numerisch relativ zu einer Norm groß sein muss der Entwurfsmatrix. Für Ihr Beispiel können wir also nicht sagen, ob "sehr groß" ist oder nicht, ohne weitere Informationen.λ ∥X∥ λ=100000
Das heißt, warum könnte ein "sehr großer" Wert verwendet werden? Ein häufiger Fall, den ich in der Praxis gesehen habe, ist, dass das eigentliche Problem gleichheitsbeschränkte kleinste Quadrate sind , aber dies wird unter Verwendung der Tikhonov-Regularisierung mit einem "großen " angenähert . (Dies ist etwas allgemeiner als Ihr Fall und würde einer "breiten" Matrix , so dass genau gelöst werden könnte.)λ Λ Λ(β−β0)=0
quelle
Ich habe eine Antwort für "Warum auf einen Wert regulieren? Ändert dies die Interpretation von ?"β
Transferlernen ist eine Art des maschinellen Lernens, bei dem Wissen aus der Quelldomäne beim Ausführen einer Aufgabe in die Zieldomäne übertragen wird, wenn dieselbe Aufgabe ausgeführt wird, dh die Aufgabe bleibt gleich, aber die Datensätze in den beiden Domänen unterscheiden sich.
Eine Möglichkeit, Transferlernen durchzuführen, ist die gemeinsame Nutzung von Parametern. Die Intuition auf hoher Ebene ist, dass die Parameter des Zieldomänenmodells sehr nahe an den Parametern des Quelldomänenmodells liegen sollten, während dennoch eine gewisse Unsicherheit berücksichtigt wird. Mathematisch wird diese Intuition erfasst, indem die Abweichung der Parameter , dh , wobei der Bestrafungsparameter ist und W ein Vektor von Modellparametern ist.λ∥Wtarget−Wsource∥22 λ
Ich habe diesen Ansatz verwendet, um Transferlernen für bedingte Zufallsfelder durchzuführen , siehe Gl. 4 und zugehöriger Text.
Ich hatte eine ähnliche Frage zur Ridge-Regression, die hier zur Interpretierbarkeit der Lösung in geschlossener Form gestellt wurde.
quelle
Es ist möglich, es aus Bayes'scher Sicht zu verstehen .
Die Ridge-Regularisierung für die lineare Regression ist eine getarnte Bayes'sche Methode. Siehe: https://en.wikipedia.org/wiki/Lasso_(statistics)#Bayesian_interpretation (es ist leichter zu verstehen, erklärt auf der Lasso-Seite der Wikipedia, aber es ist die gleiche Idee mit Ridge).
Die Konvention, die ich für die Regularisierung verwende, ist die folgende. Minimieren: . Angenommen, das Rauschen hat der Einfachheit halber die Varianz (andernfalls ersetzen Sie überall durch ).(∑i=1N(yi−βxi)2)+λ∥β−β0∥2 σ2=1 λ λ/σ2
Regularisierung mit dem Koeffizienten bedeutet die Annahme eines normalen vorherigen : "Ich erwarte als vorherige Annahme, dass die Koeffizienten klein sind": Die vorherige Verteilung ist eine Normalverteilung mit dem Mittelwert und "Radius" . Eine Regularisierung in Richtung bedeutet die Annahme eines normalen vorherigen : "Ich erwarte als vorherige Annahme, dass die Koeffizienten nicht weit von ": Die vorherige Verteilung ist normal Verteilung mit Mittelwert und "Radius" .λ N(0;1λI) 0 1λ−−√ β0 N(β0;1λI) β0 β0 1λ−−√
Dieser Prior resultiert oft aus einem früheren Training, bei dem als Schätzung angegeben wurde. Die Stärke deines Glaubens ist die statistische Aussagekraft Ihrer ersten Trainingssatz. Ein großes Lambda bedeutet, dass Sie zuvor viele Informationen hatten. Ihre Überzeugung ändert sich für jedes neue Beispiel nur geringfügig: ein kleines Update nach Beispiel.β0 λ
quelle