Ich habe kürzlich Skillicorns Buch über Matrixzerlegungen gelesen und war ein bisschen enttäuscht, da es sich an ein junges Publikum richtete. Ich möchte (für mich und andere) eine kurze Bibliographie wesentlicher Arbeiten (Umfragen, aber auch bahnbrechende Arbeiten) zu Matrixzerlegungen zusammenstellen. Was ich in erster Linie im Auge habe, ist etwas über SVD / PCA (und robuste / spärliche Varianten) und NNMF, da diese bei weitem am häufigsten verwendet werden. Haben Sie alle eine Empfehlung / einen Vorschlag? Ich halte mich zurück, um die Antworten nicht zu voreingenommen zu machen. Ich würde bitten, jede Antwort auf 2-3 Papiere zu beschränken.
PS: Ich bezeichne diese beiden Zerlegungen als die in der Datenanalyse am häufigsten verwendeten . Natürlich sind QR, Cholesky, LU und Polar in der numerischen Analyse sehr wichtig. Das ist jedoch nicht der Schwerpunkt meiner Frage.
quelle
Lee und Seung beschreiben für NNMF einen iterativen Algorithmus, der sehr einfach zu implementieren ist. Tatsächlich geben sie zwei ähnliche Algorithmen an, einen zur Minimierung der Frobenius-Norm des Residuums und einen zur Minimierung der Kullback-Leibler-Divergenz der Approximation und der ursprünglichen Matrix.
quelle
Vielleicht findest du interessant
Die letzten beiden Links zeigen, wie spärliche Matrix-Faktorisierungen in Collaborative Filtering verwendet werden. Ich glaube jedoch, dass SGD-ähnliche Faktorisierungsalgorithmen an anderer Stelle nützlich sein können (zumindest sind sie extrem einfach zu codieren).
quelle
Witten, Tibshirani - Bestrafte Matrixzerlegung
http://www.biostat.washington.edu/~dwitten/Papers/pmd.pdf
http://cran.r-project.org/web/packages/PMA/index.html
Martinsson, Rokhlin, Szlam, Tygert - Randomisierte SVD
http://cims.nyu.edu/~tygert/software.html
http://cims.nyu.edu/~tygert/blanczos.pdf
quelle
Auf dem diesjährigen NIPS gab es einen kurzen Artikel über verteilte, sehr umfangreiche SVDs, die in einem Durchgang über eine Streaming-Eingangsmatrix arbeiten .
Das Papier ist eher umsetzungsorientiert, ordnet die Dinge jedoch in Bezug auf die tatsächlichen Uhrzeiten und alles andere in die richtige Perspektive ein. Die Tabelle am Anfang ist auch eine gute Übersicht.
quelle