Die Ridge-Regression schätzt die Parameter in einem linearen Modell \ mathbf y = \ mathbf X \ boldsymbol \ beta nach \ hat {\ boldsymbol \ beta} _ \ lambda = (\ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I) ^ {- 1} \ mathbf X ^ \ top \ mathbf y, wobei \ lambda ein Regularisierungsparameter ist. Es ist bekannt, dass es häufig eine bessere Leistung als die OLS-Regression (mit \ lambda = 0 ) erzielt, wenn es viele korrelierte Prädiktoren gibt.
Ein Existenzsatz für die Gratregression besagt, dass es immer einen Parameter so dass der mittlere Fehlerquadrat von genau kleiner ist als der mittlere Fehlerquadrat des OLS Schätzung . Mit anderen Worten, ein optimaler Wert von ist immer ungleich Null. Dies wurde anscheinend erstmals 1970 in Hoerl und Kennard nachgewiesen und wiederholt sich in vielen Vorlesungsskripten, die ich online finde (z. B. hier und hier ). Meine Frage bezieht sich auf die Annahmen dieses Theorems:
Gibt es irgendwelche Annahmen über die Kovarianzmatrix ?
Gibt es irgendwelche Annahmen über die Dimensionalität von ?
Insbesondere ist der Satz noch wahr, wenn Prädiktoren orthogonal sind (dh ist diagonal), oder sogar wenn ? Und ist es immer noch wahr, wenn es nur einen oder zwei Prädiktoren gibt (z. B. einen Prädiktor und einen Intercept)?
Wenn der Satz keine solchen Annahmen trifft und auch in diesen Fällen wahr bleibt, warum wird dann die Kammregression normalerweise nur für korrelierte Prädiktoren empfohlen und niemals (?) Für die einfache (dh nicht multiple) Regression?
Dies hängt mit meiner Frage über die einheitliche Sichtweise der Schrumpfung zusammen: In welcher Beziehung (falls vorhanden) befinden sich Steins Paradoxon, Gratregression und Zufallseffekte in gemischten Modellen? , aber keine Antworten dort klären diesen Punkt bis jetzt.
quelle
Antworten:
Die Antwort sowohl auf 1 als auch auf 2 lautet Nein, aber bei der Interpretation des Existenzsatzes ist Sorgfalt geboten.
Varianz des Gratschätzers
Sei die Kammschätzung unter Strafe und sei der wahre Parameter für das Modell . Sei die Eigenwerte von . Aus den Hoerl & Kennard-Gleichungen 4.2-4.5 ergibt sich das Risiko (in Bezug auf die erwartete Norm des Fehlers) kβY=Xβ+ϵβ∗^ k β Y.= Xβ+ ϵ X T X L 2λ1, … , Λp XTX
L2
( X T X+k I p ) -2= ( X T X+k I p ) -1 ( X T X+k I p ) -1. γ1 ^ β ∗ -βγ2
Angenommen, , dann ist Es sei sei die Ableitung des Risikos w / r / t . Da , schließen wir, dass es einige so dass . R ( k ) = p σ 2 + k 2 β T βXTX= Ichp R'(k)=2k(1+k)&bgr;T& bgr;-(p&sgr;2+k2&bgr;T& bgr;)
Die Autoren bemerken, dass Orthogonalität das Beste ist, auf das Sie in Bezug auf das Risiko bei hoffen können , und dass mit zunehmender Bedingungszahl von Ansätze .X T X lim k → 0 + R ' ( k ) - ∞k = 0 XTX limk → 0+R′( k ) - ∞
Kommentar
Hier scheint es ein Paradox zu geben, dass wir , wenn und konstant sind, nur den Mittelwert einer Folge von normalen ;, Variablen schätzen und die Vanille-unvoreingenommene Schätzung kennen ist in diesem Fall zulässig. Dies wird gelöst, indem bemerkt wird, dass die obige Überlegung lediglich vorsieht, dass ein Minimierungswert von für festes . Aber für jedes können wir das Risiko explodieren lassen, indem wir groß machen, so dass dieses Argument allein keine Zulässigkeit für die Kammschätzung zeigt.X ( β , & sgr; 2 ) k β T β k β T βp = 1 X ( β, σ2) k βTβ k βTβ
Warum wird die Kammregression normalerweise nur bei korrelierten Prädiktoren empfohlen?
Die Risikoableitung von H & K zeigt, dass wir das Risiko der Schätzung erheblich reduzieren können , wenn wir glauben, dass klein ist und wenn das Design nahezu singulär ist. Ich denke, die Gratregression wird nicht allgegenwärtig verwendet, da die OLS-Schätzung ein sicherer Standard ist und die Invarianz- und Unparteilichkeitseigenschaften attraktiv sind. Wenn es versagt, versagt es ehrlich - Ihre Kovarianzmatrix explodiert. Vielleicht gibt es auch einen philosophischen / inferentiellen Punkt: Wenn Ihr Entwurf nahezu singulär ist und Sie Beobachtungsdaten haben, ist die Interpretation von als Änderung des für Einheitenänderungen in verdächtig - die große Kovarianzmatrix ist a Symptom dafür. X T X β E Y XβTβ XTX β EY. X
Wenn Ihr Ziel jedoch nur die Vorhersage ist, gelten die inferentiellen Bedenken nicht mehr, und Sie haben ein starkes Argument für die Verwendung einer Art Schrumpfungsschätzer.
quelle