Unter welchen Bedingungen kann die Kammregression eine Verbesserung gegenüber der normalen Regression der kleinsten Quadrate bewirken?

16

Die Ridge-Regression schätzt die Parameter in einem linearen Modell \ mathbf y = \ mathbf X \ boldsymbol \ beta nach \ hat {\ boldsymbol \ beta} _ \ lambda = (\ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I) ^ {- 1} \ mathbf X ^ \ top \ mathbf y, wobei \ lambda ein Regularisierungsparameter ist. Es ist bekannt, dass es häufig eine bessere Leistung als die OLS-Regression (mit \ lambda = 0 ) erzielt, wenn es viele korrelierte Prädiktoren gibt.βy=Xβ

β^λ=(XX+λI)1Xy,
λλ=0

Ein Existenzsatz für die Gratregression besagt, dass es immer einen Parameter λ>0 so dass der mittlere Fehlerquadrat von β^λ genau kleiner ist als der mittlere Fehlerquadrat des OLS Schätzung β^OLS=β^0 . Mit anderen Worten, ein optimaler Wert von λ ist immer ungleich Null. Dies wurde anscheinend erstmals 1970 in Hoerl und Kennard nachgewiesen und wiederholt sich in vielen Vorlesungsskripten, die ich online finde (z. B. hier und hier ). Meine Frage bezieht sich auf die Annahmen dieses Theorems:

  1. Gibt es irgendwelche Annahmen über die Kovarianzmatrix XX ?

  2. Gibt es irgendwelche Annahmen über die Dimensionalität von X ?

Insbesondere ist der Satz noch wahr, wenn Prädiktoren orthogonal sind (dh XX ist diagonal), oder sogar wenn XX=I ? Und ist es immer noch wahr, wenn es nur einen oder zwei Prädiktoren gibt (z. B. einen Prädiktor und einen Intercept)?

Wenn der Satz keine solchen Annahmen trifft und auch in diesen Fällen wahr bleibt, warum wird dann die Kammregression normalerweise nur für korrelierte Prädiktoren empfohlen und niemals (?) Für die einfache (dh nicht multiple) Regression?


Dies hängt mit meiner Frage über die einheitliche Sichtweise der Schrumpfung zusammen: In welcher Beziehung (falls vorhanden) befinden sich Steins Paradoxon, Gratregression und Zufallseffekte in gemischten Modellen? , aber keine Antworten dort klären diesen Punkt bis jetzt.

Amöbe sagt Reinstate Monica
quelle
1
Mit Ausnahme der letzten Frage scheinen alle Fragen im Hoerl & Kennard-Papier direkt angesprochen worden zu sein, insbesondere im ersten Satz der Einleitung und im ersten Satz der Schlussfolgerungen. Die letzte Frage kann beantwortet werden, indem man feststellt, dass die Kovarianz zwischen einem konstanten Vektor und einem einzelnen Prädiktor immer Null ist, was es einem (in einer Standardmethode) ermöglicht, auf eine Matrix zu reduzieren . 1×1XX1×1
whuber
1
Danke, @whuber. Ich glaube, dass das Papier von Hoerl & Kennard meine Fragen beantwortet (zumindest die technischen) - man sollte in der Lage sein, den Beweis zu führen und die Annahmen zu überprüfen (ich habe es noch nicht getan). Aber ich bin nicht ganz überzeugt von den Sätzen, auf die Sie sich beziehen. In welcher Beziehung steht der erste Satz des Intro zu meiner Frage? Der erste Satz der Schlussfolgerungen legt nahe , dass das Theorem nicht anwendbar ist , wenn ein einheitliches Spektrum hat (z. B. gleich ). Ich bin mir aber nicht zu 100% sicher, da ich diese Annahme vor dem Beweis nicht explizit sehe. IXXI
Amöbe sagt Reinstate Monica
Schauen Sie, welche Arten von Fragen von Benutzern mit hohem Repräsentantenstatus (die normalerweise nur diese beantworten ) gestellt werden können (und auch für Ihre andere verknüpfte Frage, die mir hier gesendet hat: stats.stackexchange.com/questions/122062/… !
javadba

Antworten:

11

Die Antwort sowohl auf 1 als auch auf 2 lautet Nein, aber bei der Interpretation des Existenzsatzes ist Sorgfalt geboten.

Varianz des Gratschätzers

Sei die Kammschätzung unter Strafe und sei der wahre Parameter für das Modell . Sei die Eigenwerte von . Aus den Hoerl & Kennard-Gleichungen 4.2-4.5 ergibt sich das Risiko (in Bezug auf die erwartete Norm des Fehlers) kβY=Xβ+ϵβ^kβY.=Xβ+ϵX T X L 2λ1,,λpXTX
L2

( X T X+k I p ) -2= ( X T X+k I p ) -1 ( X T X+k I p ) -1. γ1 ^ β -βγ2

E([β^-β]T[β^-β])=σ2j=1pλj/(λj+k)2+k2βT(XTX+kichp)-2β=γ1(k)+γ2(k)=R(k)
soweit ich das beurteilen kann, Sie bemerken, dass die Varianz des inneren Produkts von interpretiert , während das innere Produkt des Bias ist.(XTX+kichp)-2=(XTX+kichp)-1(XTX+kichp)-1.γ1β^-βγ2

Angenommen, , dann ist Es sei sei die Ableitung des Risikos w / r / t . Da , schließen wir, dass es einige so dass . R ( k ) = p σ 2 + k 2 β T βXTX=ichpR'(k)=2k(1+k)&bgr;T& bgr;-(p&sgr;2+k2&bgr;T& bgr;)

R(k)=pσ2+k2βTβ(1+k)2.
klimk0+R'(k)=-2pσ2<0k*>0R(k*)<R(0)
R(k)=2k(1+k)βTβ-(pσ2+k2βTβ)(1+k)3
klimk0+R(k)=-2pσ2<0k>0R(k)<R(0)

Die Autoren bemerken, dass Orthogonalität das Beste ist, auf das Sie in Bezug auf das Risiko bei hoffen können , und dass mit zunehmender Bedingungszahl von Ansätze .X T X lim k 0 + R ' ( k ) - k=0XTXlimk0+R(k)-

Kommentar

Hier scheint es ein Paradox zu geben, dass wir , wenn und konstant sind, nur den Mittelwert einer Folge von normalen ;, Variablen schätzen und die Vanille-unvoreingenommene Schätzung kennen ist in diesem Fall zulässig. Dies wird gelöst, indem bemerkt wird, dass die obige Überlegung lediglich vorsieht, dass ein Minimierungswert von für festes . Aber für jedes können wir das Risiko explodieren lassen, indem wir groß machen, so dass dieses Argument allein keine Zulässigkeit für die Kammschätzung zeigt.X ( β , & sgr; 2 ) k β T β k β T βp=1X(β,σ2)kβTβkβTβ

Warum wird die Kammregression normalerweise nur bei korrelierten Prädiktoren empfohlen?

Die Risikoableitung von H & K zeigt, dass wir das Risiko der Schätzung erheblich reduzieren können , wenn wir glauben, dass klein ist und wenn das Design nahezu singulär ist. Ich denke, die Gratregression wird nicht allgegenwärtig verwendet, da die OLS-Schätzung ein sicherer Standard ist und die Invarianz- und Unparteilichkeitseigenschaften attraktiv sind. Wenn es versagt, versagt es ehrlich - Ihre Kovarianzmatrix explodiert. Vielleicht gibt es auch einen philosophischen / inferentiellen Punkt: Wenn Ihr Entwurf nahezu singulär ist und Sie Beobachtungsdaten haben, ist die Interpretation von als Änderung des für Einheitenänderungen in verdächtig - die große Kovarianzmatrix ist a Symptom dafür. X T X β E Y XβTβXTXβEY.X

Wenn Ihr Ziel jedoch nur die Vorhersage ist, gelten die inferentiellen Bedenken nicht mehr, und Sie haben ein starkes Argument für die Verwendung einer Art Schrumpfungsschätzer.

Andrew M
quelle
2
Wow, danke! Lassen Sie mich Ihr Verständnis des Abschnitts "Kommentar" überprüfen: Für jedes gegebene ist ein optimales ungleich Null, aber sein Wert ist für verschiedene Betas unterschiedlich, und kein festes kann für alle Betas schlagen , was bedeutet was für die Zulässigkeit benötigt wird. Richtig? Abgesehen davon, können Sie meine allgemeine Frage kommentieren: [Wenn der Satz keine solchen Annahmen macht, dann] warum wird die Kammregression normalerweise nur für korrelierte Prädiktoren empfohlen und niemals für einfache (nicht multiple) Regression? Liegt es daran, dass empirisch bekannt ist, dass der positive Effekt zu gering ist, um ihn zu stören? k k k = 0βkkk=0
Amöbe sagt Reinstate Monica
2
H & K geht konsequent davon aus, dass vollen Rang hat. Indem Sie angeben, dass die Antwort auf # 1 "Nein" lautet, behaupten Sie, dass ihre Ergebnisse weiterhin wahr sind, wenn dies nicht der Fall ist? XX
Whuber
3
@whuber: Von zentraler Bedeutung für die Ableitung des Risikos ist, dass die Kammschätzung , wobei die OLS-Schätzung ist und . Dies kann eindeutig nicht als solches gelten, wenn Rangmangel aufweist. Aber die OLS-Schätzung existiert nicht - daher ist vielleicht jede Schätzung mit endlichem Risiko (nimm groß genug und du erhältst , mit Risiko ) besser als ein Schätzer, der nicht existiert? Soweit die Risikoableitung noch gilt: Ich bin mir nicht sicher. Ein anderer Beweis wäre erforderlich. β Z=((XTX) - 1 +kIp)-1XTXk ^ β *0βTββ^=Zβ^β^Z=((XTX)-1+kichp)-1XTXkβ^0βTβ
Andrew M
3
@amoeba: ja, dein restatement scheint korrekt zu sein. Um den OLS-Schätzer zu beherrschen, benötigen wir eine Art adaptives Verfahren, bei dem eine Funktion der Daten ist. In Ihrem anderen Thread hatte Xi'an einen Kommentar zu adaptiven Kammschätzungen, so dass dies ein Ort sein könnte, an dem Sie nachsehen sollten. RE: Ridge-Schätzungen für orthogonale Konstruktionen - Ich habe einen weiteren Kommentar hinzugefügt, soweit dies aus den Nachweisen hervorgeht. λ
Andrew M