Ich habe die Elemente des statistischen Lernens gelesen und konnte nicht verstehen, worum es in Abschnitt 3.7 "Schrumpfung und Auswahl mehrerer Ergebnisse" geht. Es geht um RRR (Reduced-Rank-Regression), und ich kann nur verstehen, dass es sich bei der Prämisse um ein verallgemeinertes multivariates lineares Modell handelt, bei dem die Koeffizienten unbekannt sind (und geschätzt werden sollen), aber bekanntermaßen nicht den vollen Rang haben. Das ist das einzige, was ich verstehe.
Der Rest der Mathematik ist mir ein Rätsel. Es hilft nicht einmal, dass die Autoren sagen, man kann zeigen und die Dinge als Übung belassen.
Kann jemand bitte helfen, zu erklären, was hier geschieht, intuitiv? Bespricht dieses Kapitel angeblich neue Methoden? oder was?
quelle
Antworten:
1. Was ist RRR (Reduced-Rank Regression)?
Betrachten Sie eine multivariate multiple lineare Regression, dh eine Regression mit unabhängigen Variablen und q abhängigen Variablen. Sei X und Y zentrierte Prädiktor- ( n × p ) und Antwortdatensätze ( n × q ). Dann kann die gewöhnliche Regression der kleinsten Quadrate (OLS) so formuliert werden, dass die folgende Kostenfunktion minimiert wird:p q X Y n×p n×q
Dabei ist eine Matrix von Regressionsgewichten. Ihre Lösung ist gegeben durch und es ist einfach zu sehen Sie, dass es äquivalent ist, separate OLS-Regressionen durchzuführen, eine für jede abhängige Variable. p × q B O L S = ( X ⊤ X ) - 1 X ⊤ Y , qB p×q
Eine Regression mit reduziertem Rang führt eine Rangbeschränkung für , dh sollte mit minimiert werden , wobei der maximal zulässige Rang von . L Rang ( B ) ≤ r r BB L rank(B)≤r r B
2. Wie erhalte ich die RRR-Lösung?
Es stellt sich heraus, dass RRR als Eigenvektorproblem gewertet werden kann. In der Tat können wir unter Verwendung der Tatsache, dass OLS im Wesentlichen eine orthogonale Projektion auf den Spaltenraum von , als umschreiben.Der erste Term hängt nicht von und der zweite Term kann durch SVD / PCA der angepassten Werte minimiert werden . L L = ‖ Y - X B O L S ‖ 2 + ‖ X B O L S - X B ‖ 2 . B Y = X B O L SX L
Insbesondere wenn zuerst Hauptachsen von , dann ist r Y B R R R = B O L S U R U ⊤ r .Ur r Y^
3. Wofür ist RRR gut?
Es kann zwei Gründe geben, RRR zu verwenden.
Erstens kann man es für Regularisierungszwecke verwenden. Ähnlich wie bei Ridge-Regression (RR), Lasso usw. führt RRR bei eine gewisse Strafe für "Schrumpfen" ein . Der optimale Rang kann durch Kreuzvalidierung ermittelt werden. Nach meiner Erfahrung ist RRR schneller als OLS, verliert jedoch tendenziell gegen RR. RRR + RR kann jedoch (geringfügig) eine bessere Leistung als RR allein erbringen. rB r
Zweitens kann man es als Methode zur Dimensionsreduktion / Datenexploration verwenden. Wenn wir eine Reihe von Prädiktorvariablen und eine Reihe von abhängigen Variablen haben, dann konstruiert RRR "latente Faktoren" im Prädiktorraum, die die Varianz von DVs am besten erklären. Man kann dann versuchen, diese latenten Faktoren zu interpretieren, sie aufzuzeichnen usw. Soweit ich weiß, wird dies routinemäßig in der Ökologie durchgeführt, wo RRR als Redundanzanalyse bezeichnet wird und ein Beispiel für das ist, was sie Ordnungsmethoden nennen ( siehe die Antwort von @ GavinSimpson hier) ).
4. Beziehung zu anderen Dimensionalitätsreduktionsmethoden
RRR ist eng mit anderen Dimensionalitätsreduktionsmethoden wie CCA und PLS verbunden. Ich habe es in meiner Antwort auf Was ist der Zusammenhang zwischen partiellen kleinsten Quadraten, reduzierter Rangregression und Hauptkomponentenregression?
Siehe dort für weitere Details.
In Torre, 2009, A Least-Squares Framework for Component Analysis, wird detailliert beschrieben, wie die meisten gängigen linearen multivariaten Methoden (z. B. PCA, CCA, LDA, - aber nicht PLS!) Als RRR angesehen werden können.
5. Warum ist dieser Abschnitt in Hastie et al. so verwirrend?
Hastie et al. Verwenden Sie den Begriff RRR, um sich auf etwas anderes zu beziehen! Anstelle der Verlustfunktion sie wie aus deren Formel 3.68 hervorgeht. Dies führt einen Whitening-Faktor in die Verlustfunktion ein, der im Wesentlichen die abhängigen Variablen aufhellt. Wenn Sie sich den Vergleich zwischen CCA und RRR oben ansehen, werden Sie feststellen, dass der Unterschied verschwindet , wenn weiß wird. Also, was Hastie et al. Call RRR ist eigentlich CCA in Verkleidung (und in der Tat, siehe deren 3,69).
Nichts davon wird in diesem Abschnitt richtig erklärt, daher die Verwirrung.
Weitere Informationen finden Sie in meiner Antwort auf das Tutorial "Freundlich" oder in der Einführung in die Regression mit reduziertem Rang .
quelle
Reduced Rank Regression ist ein Modell, bei dem es nicht nur ein einziges Y-Ergebnis gibt, sondern mehrere Y-Ergebnisse. Natürlich können Sie einfach für jede Antwort eine separate multivariate lineare Regression anpassen. Dies scheint jedoch ineffizient zu sein, wenn die funktionale Beziehung zwischen den Prädiktoren und jeder Antwort eindeutig ähnlich ist. Sehen Sie sich diese Kaggle-Übung an, wenn ich glaube, dass dies offensichtlich zutrifft.
https://www.kaggle.com/c/bike-sharing-demand/data
Es gibt verschiedene verwandte Techniken zur Lösung dieses Problems, die "Faktoren" oder "Komponenten" aus den X-Variablen bilden, die dann zur Vorhersage der Ys verwendet werden. Diese Dokumentationsseite von SAS hat mir geholfen, die Unterschiede zu klären. Bei der reduzierten Rangregression geht es anscheinend darum, Komponenten zu extrahieren, die die Variation zwischen den Antworten maximal berücksichtigen, im Gegensatz zu Partial Least Squares, bei denen Komponenten extrahiert werden, die die Variation zwischen den Antworten und den Prädiktoren maximal berücksichtigen.
https://support.sas.com/documentation/cdl/de/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm
quelle