Ich habe einen Datensatz bestehend aus 15K markierten Proben (von 10 Gruppen). Ich möchte die Dimensionsreduktion in 2 Dimensionen anwenden, die die Kenntnis der Etiketten berücksichtigen.
Wenn ich "Standard" -Verfahren zur unbeaufsichtigten Dimensionsreduktion wie PCA verwende, scheint das Streudiagramm nichts mit den bekannten Beschriftungen zu tun zu haben.
Hat das, wonach ich suche, einen Namen? Ich möchte einige Referenzen von Lösungen lesen.
Antworten:
Die am weitesten verbreitete lineare Methode zur überwachten Dimensionsreduktion ist die lineare Diskriminanzanalyse (LDA). Es wurde entwickelt, um eine niedrig dimensionierte Projektion zu finden, die die Klassentrennung maximiert. Viele Informationen dazu finden Sie in unserem Diskriminanzanalyse- Tag und in jedem Lehrbuch zum maschinellen Lernen, wie z. B. den frei verfügbaren The Elements of Statistical Learning .
Hier ist ein Bild, das ich hier mit einer schnellen Google-Suche gefunden habe. Es zeigt eindimensionale PCA- und LDA-Projektionen, wenn der Datensatz zwei Klassen enthält (Ursprung von mir hinzugefügt):
Ein anderer Ansatz nennt sich Partial Least Squares (PLS). LDA kann so interpretiert werden, dass nach Projektionen gesucht wird, die die höchste Korrelation mit den Dummy-Variablen aufweisen, die Gruppenbezeichnungen codieren (in diesem Sinne kann LDA als Spezialfall der kanonischen Korrelationsanalyse (CCA) angesehen werden). Im Gegensatz dazu sucht PLS nach Projektionen mit der höchsten Kovarianz bei Gruppenbezeichnungen. Während LDA für zwei Gruppen nur eine Achse ergibt (wie im Bild oben), werden in PLS viele Achsen nach abnehmender Kovarianz geordnet. Beachten Sie, dass wenn mehr als zwei Gruppen im Datensatz vorhanden sind, es unterschiedliche "Geschmacksrichtungen" von PLS gibt, die zu etwas unterschiedlichen Ergebnissen führen.
Aktualisieren (2018)
Ich sollte Zeit finden, um diese Antwort zu erweitern. Dieser Thread scheint beliebt zu sein, aber meine ursprüngliche Antwort oben ist sehr kurz und nicht detailliert genug.
quelle