Angenommen , .
Wir wissen nicht , genau, nur ihre Korrelation mit jedem Prädiktor, .
Die gewöhnliche Lösung der kleinsten Quadrate (OLS) ist und es gibt kein Problem.
Angenommen, ist nahezu singulär (Multikollinearität), und Sie müssen den optimalen Kammparameter schätzen. Alle Methoden scheinen die genauen Werte von zu benötigen .
Gibt es eine alternative Methode, wenn nur bekannt ist?
Antworten:
Das ist eine interessante Frage. Überraschenderweise ist es möglich, unter bestimmten Voraussetzungen etwas zu tun, es besteht jedoch ein möglicher Informationsverlust über die Restvarianz. Es kommt darauf anX wie viel verloren geht.
Betrachten wir die folgende SingularwertzerlegungX=UDVt von X mit U an n×p Matrix mit orthonormalen Spalten, D eine Diagonalmatrix mit positiven Singularwerten d1≥d2≥...≥dp>0 in der Diagonale und V a p×p orthogonale Matrix. Dann sind die Spalten von U eine orthonormale Basis für den Spaltenraum von X und
Da der Grat Regressions Prädiktor für ein gegebenes berechnet werden als Y = X ( X T X + λ I ) - 1 X t Y = U D ( D 2 + λ I ) - 1 D U t Y = U D ( D 2 + λ I ) - 1 D Z sehen wir, dass die Koeffizienten für den Gratregressionsprädiktor in derλ
Durch eine Standardberechnung
We combine this with the (unbiased) estimator
Estimatingσ2 can be more problematic. It is possible to show that
For some details see Section 3.4.1 and Chapter 7 in ESL or perhaps even better Chapter 2 in GAM.
quelle
Defineβ as in the question and β(λ,K)=[(XTX)KK+λI]−1(XTY)K for various parameters λ and sets K of sample labels.
Then e(λ,K):=∥Xβ(λ,K)−Y∥2−∥Xβ−Y∥2 is computable since the unknown ∥Y∥2 drops out when expanding both norms.
This leads to the following algorithm:
quelle