Die kleinste Winkelregression hält die Korrelationen monoton abnehmend und gebunden?

9

Ich versuche, ein Problem für die kleinste Winkelregression (LAR) zu lösen. Dies ist ein Problem 3.23 auf Seite 97 von Hastie et al., Elements of Statistical Learning, 2nd. ed. (5. Druck) .

Betrachten Sie ein Regressionsproblem mit allen Variablen und Antworten mit dem Mittelwert Null und der Standardabweichung Eins. Angenommen, jede Variable hat eine identische absolute Korrelation mit der Antwort:

1N|xj,y|=λ,j=1,...,p

Sei der Koeffizient der kleinsten Quadrate von auf und sei für . yXu(α)=αX β α[0,1]β^yXu(α)=αXβ^α[0,1]

Ich werde gebeten zu zeigen, dass und ich habe Probleme damit. Beachten Sie, dass dies im Grunde genommen bedeuten kann, dass die Korrelationen jedes mit den Residuen gleich groß bleiben, wenn wir in Richtung voranschreiten .x j u

1N|xj,yu(α)|=(1α)λ,j=1,...,p
xju

Ich weiß auch nicht, wie ich zeigen soll, dass die Korrelationen gleich sind:

λ(α)=(1α)(1α)2+α(2α)NRSSλ

Alle Hinweise wäre sehr dankbar!

Belmont
quelle
2
@Belmont, was ist ? Könnten Sie mehr Kontext zu Ihrem Problem bereitstellen? Ein Link zu einem Artikel mit Standardeigenschaften von LAR zum Beispiel würde viel helfen. u(α)
mpiktas
@Belmont, Dies scheint ein Problem von Hastie et al., Elements of Statistical Learning , 2nd zu sein. ed. Ist das Hausaufgaben? In diesem Fall können Sie dieses Tag hinzufügen.
Kardinal
@Belmont, nachdem @cardinal eine vollständige Antwort gegeben hat, können Sie angeben, was LAR wirklich ist, um später darauf zurückgreifen zu können? Nach der Antwort zu urteilen, ist dies eine Standardmanipulation von Produkten mit Regressionen der kleinsten Quadrate unter Berücksichtigung einiger anfänglicher Einschränkungen. Es sollte keinen besonderen Namen dafür ohne ernsthaften Grund geben.
mpiktas
1
@mpiktas, es handelt sich um einen stufenweisen Algorithmus. Jedes Mal, wenn eine Variable auf dem Regularisierungspfad in das Modell eintritt oder dieses verlässt, wächst oder schrumpft die Größe (dh Kardinalität / Dimension) von und es wird eine "neue" LS-Schätzung verwendet die aktuell "aktiven" Variablen. Im Fall des Lassos, bei dem es sich um ein konvexes Optimierungsproblem handelt, wird im Wesentlichen eine spezielle Struktur unter den KKT-Bedingungen ausgenutzt, um eine sehr effiziente Lösung zu erhalten. Es gibt auch Verallgemeinerungen, z. B. logistische Regression basierend auf IRLS und Heine-Borel (um die Konvergenz in endlicher Anzahl von Schritten zu beweisen)β
Kardinal
1
@Belmont -1, als ich kürzlich das Buch Hastie gekauft habe, kann ich bestätigen, dass dies eine Übung daraus ist. Ich gebe Ihnen also eine große -1, da Sie nicht einmal alle Definitionen angeben können. Ich spreche nicht einmal davon, die Referenz anzugeben.
mpiktas

Antworten:

21

Dies ist Problem 3.23 auf Seite 97 von Hastie et al., Elements of Statistical Learning , 2nd. ed. (5. Druck) .

Der Schlüssel zu diesem Problem ist ein gutes Verständnis der gewöhnlichen kleinsten Quadrate (dh der linearen Regression), insbesondere der Orthogonalität der angepassten Werte und der Residuen.

Orthogonalitäts-Lemma : Sei die n × p- Entwurfsmatrix, y der Antwortvektor und β die (wahren) Parameter. Unter der Annahme , X ist Voll Rang (die wir im ganzen Gebäude ), die OLS - Schätzungen von β sind β = ( X T X ) - 1 X T y . Die angepaßten Werte sind Y = X ( X T X ) - 1 X T y . dann Xn×pyβXββ^=(XTX)1XTyy^=X(XTX)1XTy. Das heißt, die angepassten Werte sindorthogonalzu den Residuen. Dies folgtdaXT(y - y )=XTy-XTX(XTX)-1XTy=XTy-XTy^,yy^=y^T(yy^)=0 .XT(yy^)=XTyXTX(XTX)1XTy=XTyXTy=0

Nun sei ein Spaltenvektor, so dass x j die j- te Spalte von X ist . Die angenommenen Bedingungen sind:xjxjjX

  • für jedesj,11Nxj,xj=1j,1Ny,y=1
  • wo1pein Vektor von Einsen der Länge bezeichnetp, und1Nxj,1p=1Ny,1p=01pp
  • für allej.1N|xj,y|=λj

Beachten Sie, dass insbesondere die letzte Anweisung des Orthogonalität Lemma identisch mit für alle j .xj,yy^=0j


Die Korrelationen sind gebunden

Nun . So, x j , y - u ( a ) = x j , ( 1 - α ) y + α y - α y= ( 1 - α ) x j , y + α u(α)=αXβ^=αy^ und der zweite Term auf der rechten Seite gleich Null von derOrthogonalität Lemmas, so 1

xj,yu(a)=xj,(1α)y+αyαy^=(1α)xj,y+αxj,yy^,
wie gewünscht. Der absolute Wert der Korrelationen sind nur ρ j(α)= 1
1N|xj,yu(α)|=(1α)λ,
ρ^j(α)=1N|xj,yu(α)|1Nxj,xj1Nyu(α),yu(α)=(1α)λ1Nyu(α),yu(α)

jxjy

αp


Explizite Form der (absoluten) Korrelation

yu(α),yu(α)=(1α)y+αyu(α),(1α)y+αyu(α).

u(α)=αy^

yu(α),yu(α)=(1α)2y,y+2α(1α)y,yy^+α2yy^,yy^.

Beachten Sie das

  • y,y=N
  • y,yy^=yy^,yy^+y^,yy^=yy^,yy^
  • yy^,yy^=RSS

Wenn Sie das alles zusammenfügen, werden Sie feststellen, dass wir bekommen

ρ^j(α)=(1α)λ(1α)2+α(2α)NRSS=(1α)λ(1α)2(1RSSN)+1NRSS

1RSSN=1N(y,y,yy^,yy^)0ρ^j(α)αρ^j(α)0α1


Epilog : Konzentrieren Sie sich hier auf die Ideen. Es gibt wirklich nur einen. Das Orthogonalitäts-Lemma erledigt fast die gesamte Arbeit für uns. Der Rest ist nur Algebra, Notation und die Fähigkeit, die letzten beiden zum Laufen zu bringen.

Kardinal
quelle
2
@ Kardinal, +1. Die Antwort ist um Größenordnungen besser als die Frage.
mpiktas
@cardinal, vielleicht möchten Sie den Link zu Amazon oder einer anderen Site ändern. Ich denke, dass das Verknüpfen mit dem vollständigen Buch einige urheberrechtliche Probleme aufwerfen kann.
mpiktas
3
@mpiktas, nein. Keine urheberrechtlichen Probleme. Das ist die offizielle Website für das Buch. Die Autoren erhielten von Springer die Erlaubnis, das PDF online frei verfügbar zu machen. (Siehe den entsprechenden Hinweis auf der Website.) Ich denke, sie haben die Idee von Stephen Boyd und seinem Text zur konvexen Optimierung erhalten . Hoffentlich wird ein solcher Trend in den nächsten Jahren an Fahrt gewinnen. Genießen!
Kardinal
@ Cardinal, ooh massiver Dank! Das ist mächtig großzügig von den Autoren.
mpiktas
@mpiktas, es ist mit Abstand das beliebteste Buch in der Springer-Reihe in Statistik. Auf einem iPad sieht es gut aus. Was mich erinnert --- Ich sollte auch Boyds Text darauf herunterladen. Prost.
Kardinal