Warum wird die Gratregression als "Grat" bezeichnet, warum wird sie benötigt und was passiert, wenn

71

Firstregressionskoeffizientenschätzung β R sind die Werte , die die Minimierungβ^R

RSS+λj=1pβj2.

Meine Fragen sind:

  1. Wenn , dann sehen wir, dass sich der obige Ausdruck auf das übliche RSS reduziert. Was ist, wenn λ ? Ich verstehe das Lehrbuch Erklärung des Verhaltens der Koeffizienten nicht.λ=0λ

  2. Warum heißt der Begriff RIDGE-Regression, um das Verständnis des Begriffs zu erleichtern, der hinter einem bestimmten Begriff steht? (Warum Grat?) Und was könnte an der üblichen / allgemeinen Regression, dass ein neues Konzept namens Gratregression eingeführt werden muss, falsch sein?

Ihre Einsichten wären großartig.

cgo
quelle

Antworten:

89

Da Sie nach Einsichten fragen , gehe ich eher intuitiv als mathematisch vor:

  1. pyn+j=0xj,n+j=λxi,n+j=0ij(0λβj)2=λβj2RSS+λj=1pβj2

    λxλx0

    λβ

  2. Ich werde einen intuitiven Einblick geben, warum wir zuerst über Grate sprechen (was auch nahelegt, warum es benötigt wird), und dann ein wenig Geschichte angehen. Das erste ist aus meiner Antwort hier übernommen :

    β2logL

    Die Gratregression "repariert" den Grat - sie fügt eine Strafe hinzu, die den Grat in einen netten Höchstwert im Wahrscheinlichkeitsraum verwandelt, was äquivalent zu einer netten Vertiefung in dem Kriterium ist, das wir minimieren:

    Die Kante in LS wird in eine Spitze in der Kantenregression umgewandelt
    [ Klareres Bild ]

    Die eigentliche Geschichte hinter dem Namen ist etwas komplizierter. 1959 AE Hoerl [1] eingeführt ridge Analyse für Antwortoberfläche Methodologie und es sehr bald [2] wurde auf dem Umgang mit multicollinearity in Regression angepasst ( 'ridge regression'). Vgl. Zum Beispiel die Diskussion von RW Hoerl in [3], in der die Verwendung von Konturdiagrammen der Antwortfläche * durch Hoerl (AE not RW) bei der Identifizierung des Ortes beschrieben wird, an dem lokale Optima gefunden werden sollen (wo man den Weg nach oben nimmt) Grat'). Bei schlecht konditionierten Problemen tritt das Problem eines sehr langen Kamms auf, und Erkenntnisse und Methoden aus der Kammanalyse werden an das zugehörige Problem mit der Wahrscheinlichkeit / RSS für eine Regression angepasst, was zu einer Kammregression führt.

* Beispiele für Konturplots Antwortoberfläche (im Fall der quadratischen response) gesehen werden kann hier (Fig 3,9-3,12).

XTX

Weitere Informationen zur Notwendigkeit einer Kammregression finden Sie unter dem ersten Link unter Listenpunkt 2. oben.


Verweise:

[1]: Hoerl, AE (1959). Optimale Lösung vieler Variablengleichungen. Chemical Engineering Progress , 55 (11) 69-78.

[2]: Hoerl, AE (1962). Anwendungen der Kammanalyse auf Regressionsprobleme. Chemical Engineering Progress , 58 (3) 54-59.

[3] Hörl, RW (1985). Gratanalyse 25 Jahre später. American Statistician , 39 (3), 186-192

Glen_b
quelle
2
Das ist sehr hilfreich. Ja, als ich um Einsichten bat, suchte ich nach Intuition. Natürlich ist die Mathematik wichtig, aber ich suchte auch nach begrifflichen Erklärungen, weil es einige Bereiche gibt, in denen die Mathematik für mich unerreichbar war. Danke noch einmal.
cgo
Warum haben Sie in Aufzählungspunkt 1 das Wort "gewichtet"?
Amöbe sagt Reinstate Monica
1
Das ist eine gute Frage. Eine Gewichtung ist nur erforderlich, wenn die ursprüngliche Regression gewichtet wurde. Ich habe das Adjektiv entfernt. Es ist auch möglich, es als gewichtete Regression zu schreiben (wenn Sie bereits eine gewichtete Regression durchführen, ist dies möglicherweise etwas einfacher zu handhaben).
Glen_b
36
  1. λββ=0

(Update: Bitte lesen Sie die Antwort von Glen_b. Dies ist nicht der richtige historische Grund!)

  1. β^=(XTX+λI)1XTY.
    λI

n<p

β

ββN(0,σ2λIp)(Y|X,β)N(Xβ,σ2In)

π(β|y)π(β)f(y|β)

1(σ2/λ)p/2exp(λ2σ2βTβ)×1(σ2)n/2exp(12σ2||yXβ||2)

exp(λ2σ2βTβ12σ2||yXβ||2).

maxβRp exp(λ2σ2βTβ12σ2||yXβ||2)

maxβRp λ2σ2βTβ12σ2||yXβ||2
weil streng monoton ist und dies wiederum äquivalent zu log
minβRp||yXβ||2+λβTβ

das sollte ziemlich vertraut aussehen.

Wir sehen also, dass, wenn wir einen normalen Prior mit dem Mittelwert 0 und der Varianz auf unseren Vektor setzen, der Wert von der den posterioren maximiert, der Kammschätzer ist. Beachten Sie, dass hier eher als frequentistischer Parameter behandelt wird, da es keine Prioritäten gibt, diese jedoch nicht bekannt sind.σ2λββσ2

Bearbeiten: Sie haben nach dem Fall gefragt, in dem . Wir wissen, dass eine Hyperebene in durch genau Punkte definiert ist. Wenn wir eine lineare Regression ausführen und , interpolieren wir genau unsere Daten und erhalten . Dies ist eine Lösung, aber es ist eine schreckliche: Unsere Leistung bei zukünftigen Daten wird höchstwahrscheinlich miserabel sein. Nehmen wir nun an, : Es gibt keine eindeutige Hyperebene mehr, die durch diese Punkte definiert ist. Wir können eine Vielzahl von Hyperebenen mit jeweils 0 verbleibenden Quadratsummen anpassen.n<pRppn=p||yXβ^||2=0n<p

Ein sehr einfaches Beispiel: Angenommen, . Dann bekommen wir nur eine Linie zwischen diesen beiden Punkten. Angenommen, aber . Stellen Sie sich ein Flugzeug mit diesen beiden Punkten vor. Wir können diese Ebene drehen, ohne die Tatsache zu ändern, dass sich diese beiden Punkte in ihr befinden. Es gibt also unzählige Modelle, die alle einen perfekten Wert für unsere Zielfunktion aufweisen. Daher ist auch über das Problem der Überanpassung hinaus nicht klar, welches ausgewählt werden soll.n=p=2n=2p=3

Als letzter Kommentar (per @ gungs Vorschlag) wird das LASSO (unter Verwendung einer Strafe) häufig für hochdimensionale Probleme verwendet, da es automatisch eine Variablenauswahl durchführt (setzt einige ). Es stellt sich erfreulicherweise heraus, dass der LASSO dem Finden des posterioren Modus entspricht, wenn ein doppeltes Exponential (auch Laplace genannt) vor dem Vektor verwendet wird. Das LASSO hat auch einige Einschränkungen, wie beispielsweise bei sättigenden Prädiktoren und nicht notwendigerweise Gruppen korrelierter Prädiktoren in idealer Weise der Handhabung, so dass das elastische Netz (konvexe Kombination von und Strafen) gebracht werden kann , zu tragen.L1βj=0βnL1L2

jld
quelle
1
(+1) Ihre Antwort könnte verbessert werden, indem Sie den Zusammenhang zwischen Bayes'scher und Gratregression erläutern.
Setzen Sie Monica
1
Ich werde es jetzt tippen.
7.
4
OLS kann keine eindeutige Lösung finden, wenn da die Entwurfsmatrix nicht den vollen Rang hat. Dies ist eine sehr häufige Frage; Bitte durchsuchen Sie das Archiv nach einer Beschreibung, warum dies nicht funktioniert. n<p
Setzen Sie Monica
2
@cgo: Die Erklärung und der Suchvorschlag von user777 sind gut, aber der Vollständigkeit halber habe ich auch eine (hoffentlich) intuitive Erklärung hinzugefügt.
7.
5
+1, nette Antwort. Beachten Sie, dass in diesem Fall normalerweise LASSO verwendet wird und dass es in engem Zusammenhang mit RR steht.
gung - Reinstate Monica