Ich versuche, das, was ich bisher in der bestraften multivariaten Analyse verstanden habe, mit hochdimensionalen Datensätzen zusammenzufassen, und ich habe immer noch Schwierigkeiten, eine korrekte Definition von Soft-Thresholding vs. Lasso- Bestrafung (oder Bestrafung) zu erhalten.
Genauer gesagt habe ich die spärliche PLS-Regression verwendet, um die 2-Block-Datenstruktur einschließlich genomischer Daten ( Einzelnukleotidpolymorphismen , bei denen wir die Häufigkeit des Nebenallels im Bereich {0,1,2} als numerische Variable betrachten) und zu analysieren kontinuierliche Phänotypen (Scores zur Quantifizierung von Persönlichkeitsmerkmalen oder zerebraler Asymmetrie, auch als kontinuierliche Variablen behandelt). Die Idee war, die einflussreichsten Prädiktoren (hier die genetischen Variationen der DNA-Sequenz) zu isolieren, um interindividuelle phänotypische Variationen zu erklären.
Ich habe anfangs das mixOmics R-Paket (früher integrOmics
) verwendet, das eine bestrafte PLS- Regression und eine regulierte CCA enthält . Beim Betrachten des R-Codes haben wir festgestellt, dass die "Sparsity" in den Prädiktoren einfach durch Auswahl der Top- Variablen mit den höchsten Belastungen (in absoluten Werten) für die i- te Komponente i = 1 , ... , k (der Algorithmus ist ) induziert wird iterative und berechnete Variablenladungen auf k Komponenten, wobei der Prädiktorblock bei jeder Iteration entleert wird (siehe Sparse PLS: Variablenauswahl beim Integrieren von Omics-Daten für eine Übersicht). Im Gegenteil, dieDas von S. Keleş mitverfasste spls- Paket (siehe Sparse Partial Least Squares Regression für simultane Dimensionsreduktion und Variablenauswahl für eine formellere Beschreibung des von diesen Autoren verfolgten Ansatzes) implementiert die -Penalisierung für die variable Bestrafung.
Es ist mir nicht klar, ob es sozusagen eine strikte "Bijektion" zwischen iterativer Merkmalsauswahl auf der Basis von Soft-Thresholding und -Regularisierung gibt. Meine Frage lautet also: Gibt es einen mathematischen Zusammenhang zwischen den beiden?
Verweise
- Chun, H. und Kele S.s, S. (2010), Sparse Partial Least Squares zur gleichzeitigen Dimensionsreduktion und Variablenauswahl . Zeitschrift der Royal Statistical Society: Reihe B , 72 , 3–25.
- Le Cao, K.-A., Rossouw, D., Robert-Granie, C. und Besse, P. (2008), A Sparse PLS for Variable Selection bei der Integration von Omics-Daten . Statistische Anwendungen in der Genetik und Molekularbiologie , 7 , Artikel 35.
lars
R-Paket. Andere Methoden umfassen den Koordinatenabstieg (siehe JSS 2010 33 (1), bit.ly/bDNUFo ), und das Python-scikit.learn
Paket bietet beide Ansätze, bit.ly/bfhnZz .quelle