Ich habe verstanden, wie die Gratregression die Koeffizienten geometrisch gegen Null schrumpft. Außerdem weiß ich, wie man das im speziellen "Orthonormalen Fall" beweist, aber ich bin verwirrt, wie das im allgemeinen Fall über "Spektrale Zerlegung" funktioniert.
20
Antworten:
Die Frage scheint nach einem Nachweis zu fragen, dass die Ridge Regression die Koeffizientenschätzungen unter Verwendung einer spektralen Zerlegung gegen Null schrumpft. Die spektrale Zerlegung kann als einfache Folge der Singular Value Decomposition (SVD) verstanden werden. Daher beginnt dieser Beitrag mit SVD. Es erklärt es in einfachen Worten und veranschaulicht es dann mit wichtigen Anwendungen. Anschließend wird die angeforderte (algebraische) Demonstration bereitgestellt. (Die Algebra ist natürlich identisch mit der geometrischen Demonstration; sie ist lediglich in einer anderen Sprache abgefasst.)
Die ursprüngliche Quelle dieser Antwort finden Sie in meinen Anmerkungen zum Regressionskurs . Diese Version korrigiert einige kleinere Fehler.
Was ist die SVD?
Jede Matrix mit kann geschrieben werden woX p ≤ n X = U D V 'n×p X p≤n
Kriterien (1) und (2) behaupten , dass sowohl und V sind orthonormal Matrices. Sie können durch die Bedingungen übersichtlich zusammengefasst werdenU V
Infolgedessen (dass eine Drehung darstellt) ist auch V V ' = 1 p . Dies wird in der folgenden Ableitung der Ridge-Regression verwendet.V VV′=1p
Was es für uns tut
Es kann Formeln vereinfachen. Dies funktioniert sowohl algebraisch als auch konzeptionell. Hier sind einige Beispiele.
Die normalen Gleichungen
Betrachten wir die Regressions wobei, wie üblich, die ε sind unabhängig und identisch verteilt gemäß einem Gesetz , das Null Erwartung und finite Varianz σ 2 . Die Lösung der kleinsten Quadrate über die Normalgleichungen ist β = ( X ' X ) - 1 X ' y . Das Anwenden der SVD und das Vereinfachen des resultierenden algebraischen Durcheinanders (was einfach ist) bietet einen schönen Einblick:y=Xβ+ε ε σ2
Der einzige Unterschied zwischen diesem und ist , dass die reziproken Werte der Elemente der D verwendet werden! In anderen Worten, der „Gleichung“ y = X β ist gelöst durch „Invertieren“ X : Diese pseudo-Inversion rückgängig macht die Rotationen U und V ' (nur durch sie zur Umsetzung) und löst die Multiplikation (dargestellt durch D ) getrennt in jeder Haupt Richtung.X′=VDU′ D y=Xβ X U V′ D
Für die Zukunft, bemerkt , dass „gedreht“ schätzt & beta Linearkombinationen von „gedreht“ -Antworten sind U ' y . Die Koeffizienten sind Inverse der (positiven) diagonalen Elemente von D , gleich d - 1 i i .V′β^ U′y D d−1ii
Kovarianz der Koeffizientenschätzungen
Recall , dass die Kovarianz der Schätzungen ist Unter Verwendung des SVD wird diese σ 2 ( V D 2 V ' ) - 1 = σ 2 V D - 2 V ' . Mit anderen Worten, die Kovarianz verhält sich wie die von k orthogonalen Variablen mit jeweils Varianzen d 2 i i
Die Hutmatrix
Eigenanalyse (spektrale Zerlegung)
SVD kann Kollinearitätsprobleme diagnostizieren und lösen.
Annäherung an die Regressoren
Ridge Regression
quelle