Ich normalisierte meinen Datensatz und führte dann eine 3-Komponenten-PCA durch, um kleine erklärte Varianzverhältnisse ([0,50, 0,1, 0,05]) zu erhalten.
Wenn ich meinen Datensatz nicht normalisierte, sondern aufhellte und dann eine 3-Komponenten-PCA durchführte, erhielt ich hohe erklärte Varianzverhältnisse ([0,86, 0,06, 0,01]).
Da ich so viele Daten wie möglich in 3 Komponenten speichern möchte, sollte ich die Daten NICHT normalisieren? Nach meinem Verständnis sollten wir uns immer vor PCA normalisieren.
Durch Normalisieren: Mittelwert auf 0 setzen und Einheitsvarianz haben.
Antworten:
Hängt vom Ziel Ihrer Analyse ab. Einige gängige Praktiken, von denen einige in Whubers Link erwähnt werden:
Intuitives Beispiel:
Angenommen, Sie haben zwei Variablen: die Höhe eines Baumes und den Umfang desselben Baumes. Wir werden das Volumen in einen Faktor umrechnen: Ein Baum hat ein hohes Volumen, wenn sein Volumen größer als 20 Kubikfuß ist, und ansonsten ein niedriges Volumen. Wir werden den in R vorinstallierten Baumdatensatz verwenden.
Angenommen, die Höhe wurde tatsächlich in Meilen statt in Fuß gemessen.
Die erste Komponente erklärt fast 100% der Variabilität in den Daten. Die Ladungen:
Grafische Auswertung:
Wir sehen, dass Bäume mit hohem Volumen tendenziell einen hohen Baumumfang haben, aber die drei Höhen geben keine Auskunft über das Baumvolumen. Dies ist wahrscheinlich falsch und die Folge der beiden unterschiedlichen Maßeinheiten.
Wir könnten die gleichen Einheiten verwenden oder die Variablen standardisieren. Ich gehe davon aus, dass beide zu einem ausgewogeneren Bild der Variabilität führen werden. Natürlich kann man in diesem Fall argumentieren, dass die Variablen dieselbe Einheit haben, aber nicht standardisiert sein sollten, was ein gültiges Argument sein kann, wenn wir nicht zwei verschiedene Dinge messen. (Wenn wir das Gewicht des Baumes und den Umfang des Baumes messen würden, ist die Skala, auf der beide gemessen werden sollten, nicht mehr sehr klar. In diesem Fall haben wir ein klares Argument, um an den standardisierten Variablen zu arbeiten.)
Wir sehen jetzt, dass Bäume, die hoch sind und einen großen Umfang haben, ein hohes Volumen haben (linke untere Ecke), verglichen mit geringem Umfang und geringer Höhe für Bäume mit geringem Volumen (rechte obere Ecke). Das macht intuitiv Sinn.
Wenn man jedoch genau hinschaut, sieht man, dass der Kontrast zwischen hoher und niedriger Lautstärke in Umfangsrichtung und nicht in Höhenrichtung am stärksten ist. Mal sehen, was passiert, wenn wir standardisieren:
In der Tat erklärt der Umfang nun den Großteil des Unterschieds bei Bäumen mit hohem und niedrigem Volumen! (Die Länge des Pfeils im Biplot gibt Aufschluss über die Varianz in der ursprünglichen Variablen.) Selbst wenn die Werte auf derselben Skala gemessen werden, kann eine Standardisierung hilfreich sein. Wenn wir zum Beispiel die Länge verschiedener Baumarten vergleichen, kann es empfehlenswert sein, nicht zu standardisieren, da dies genau dasselbe Maß ist.
quelle