Wenn eine lineare Diskriminanzanalyse mit mehreren Klassen (oder ich lese manchmal auch eine Mehrfachdiskriminanzanalyse) zur Dimensionsreduktion (oder Transformation nach Dimensionsreduktion über PCA) verwendet wird, verstehe ich im Allgemeinen eine "Z-Score-Normalisierung" (oder Standardisierung) von Funktionen werden nicht benötigt, auch wenn sie in völlig unterschiedlichen Maßstäben gemessen werden, richtig? Da LDA einen ähnlichen Begriff wie der Mahalanobis-Abstand enthält, der bereits normalisierte euklidische Abstände impliziert?
Es wäre also nicht nur nicht notwendig, sondern die Ergebnisse nach einer LDA für standardisierte und nicht standardisierte Funktionen sollten genau gleich sein!?
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales
Nein, diese Aussage ist falsch. Das Problem der Standardisierung mit LDA ist das gleiche wie bei jeder multivariaten Methode. Zum Beispiel PCA. Mahalanobis Distanz hat nichts mit diesem Thema zu tun.The issue of standardization with LDA is the same as in any multivariate method
. Tatsächlich sollten sich die Ergebnisse bei LDA (im Gegensatz zu PCA zum Beispiel) nicht unterscheiden, unabhängig davon, ob Sie die Daten nur zentriert (LDA zentriert immer intern Variablen, um Diskriminanten zu extrahieren) oder z-standardisiert haben.Antworten:
Der Kredit für diese Antwort geht an @ttnphns, der alles in den obigen Kommentaren erklärt hat. Trotzdem möchte ich eine erweiterte Antwort geben.
Zu Ihrer Frage: Werden die LDA-Ergebnisse für standardisierte und nicht standardisierte Funktionen genau gleich sein? --- Die Antwort lautet Ja . Ich werde zuerst ein informelles Argument vorbringen und dann mit etwas Mathematik fortfahren.
Stellen Sie sich einen 2D-Datensatz vor, der als Streudiagramm auf einer Seite eines Ballons dargestellt ist (Original-Ballonbild von hier ):
Hier sind rote Punkte eine Klasse, grüne Punkte eine andere Klasse und die schwarze Linie die LDA-Klassengrenze. Das erneute Skalieren der oder Achse entspricht nun dem horizontalen oder vertikalen Strecken des Ballons. Es ist intuitiv klar, dass, obwohl sich die Steigung der schwarzen Linie nach einer solchen Dehnung ändert, die Klassen genau so trennbar sind wie zuvor und sich die relative Position der schwarzen Linie nicht ändert. Jede Testbeobachtung wird derselben Klasse wie vor dem Strecken zugeordnet. Man kann also sagen, dass Dehnen die Ergebnisse der LDA nicht beeinflusst.x y
Mathematisch findet LDA nun einen Satz von Diskriminanzachsen, indem Eigenvektoren von berechnet werden , wobei und innerhalb und zwischen Klassen liegen Streumatrizen. Entsprechend sind dies verallgemeinerte Eigenvektoren des verallgemeinerten Eigenwertproblems .W−1B W B Bv=λWv
Stellen Sie sich eine zentrierte Datenmatrix mit Variablen in Spalten und Datenpunkten in Zeilen vor, sodass die gesamte Streumatrix durch . Das Standardisieren der Daten läuft darauf hinaus, jede Spalte von um eine bestimmte Zahl zu skalieren , dh durch ersetzen , wobei ist eine Diagonalmatrix mit Skalierungskoeffizienten (Inversen der Standardabweichungen jeder Spalte) auf der Diagonale. Nach einer solchen Neuskalierung ändert sich die Streumatrix wie folgt: , und dieselbe Transformation wird mit durchgeführtX T=X⊤X X Xnew=XΛ Λ Tnew=ΛTΛ Wnew und .Bnew
Sei ein Eigenvektor des ursprünglichen Problems, dhWenn wir diese Gleichung links mit multiplizieren und vor auf beiden Seiten einfügen , erhalten wir dh was bedeutet, dassv
Die Diskriminanzachse (gegeben durch den Eigenvektor) ändert sich also, aber ihr Eigenwert, der zeigt, wie stark die Klassen getrennt sind, bleibt genau gleich. Darüber hinaus wird die Projektion auf dieser Achse, die ursprünglich von , jetzt von , dh es bleibt auch genau gleich (möglicherweise bis zu einem Skalierungsfaktor).Xv XΛ(Λ−1v)=Xv
quelle