Warum verwenden Menschen PCA, wenn es so viele Probleme gibt?

(Dies ist eine weiche Frage.) Vor kurzem lerne ich die Hauptkomponentenanalyse und es scheint viele Probleme zu geben:

Sie müssen die Daten auf ungefähr den gleichen Maßstab umwandeln, bevor Sie PCA anwenden. Die Art und Weise, wie die Feature-Skalierung durchgeführt werden soll, ist jedoch nicht festgelegt. Standardisierung? Skalierung auf Längeneinheit? Log-Transformation? Box-Cox-Transformation? Ich glaube, dass sie alle irgendwie funktionieren, aber sie beantworten unterschiedliche Fragen, und es ist nicht trivial, die Transformation bei einem Problem herauszufinden.
Um eine PCA durchzuführen, müssen Eigenwerte und Eigenvektoren berechnet werden, aber die Vorzeichen der Eigenvektoren sind unbestimmt. Auf den ersten Blick könnte SVD eine gute Lösung sein, da es über verschiedene Implementierungen hinweg das gleiche Ergebnis liefert. Nach meinem Verständnis ist das Ergebnis der SVD jedoch nur eine willkürliche, aber reproduzierbare Wahl der Eigenvektoren.
Hauptkomponenten sind lineare Kombinationen von Variablen, aber sind sie sinnvoll? Ich meine, man kann die Körpertemperatur eines Affen nicht auf das Zehnfache seiner Schwanzlänge addieren, weil sie aus verschiedenen Einheiten bestehen. (Apropos Einheit, welches Einheitensystem Sie verwenden sollten, ist ein weiterer Aspekt meines ersten Punktes)
Sollten Sie beim Versuch, die Hauptkomponenten zu interpretieren, die Belastung (Koeffizient) der ten Hauptkomponente auf das te Element oder deren Korrelation ? Rencher (1992) empfiehlt, nur die Koeffizienten zu betrachten, aber meines Wissens besteht in dieser Frage kein Konsens. $i$ $y_i$ $j$ $X_j$ $\text{corr}(y_i, X_j)$

Zusammenfassend ist PCA eine statistische (oder wohl mathematische) Methode, die für mich ziemlich unreif erscheint, da sie während des gesamten Prozesses zahlreiche Subjektivitäten und Verzerrungen mit sich bringt. Dennoch bleibt es eine der am weitesten verbreiteten multivariaten Analysemethoden. Warum ist es? Wie überwinden die Menschen die Probleme, die ich aufgeworfen habe? Sind sie sich ihrer überhaupt bewusst?

Verweise:

Rencher, AC „Interpretation kanonischer Diskriminanzfunktionen, kanonischer Variablen und Hauptkomponenten.“ The American Statistician, 46 (1992), 217–225.

self-study pca multivariate-analysis interpretation reproducible-research Nalzok
quelle

PCA ist ziemlich ausgereift, aber Ihr Problem Nr. 1 ist äußerst wichtig. Sie können sich mit den anderen Problemen befassen, z. B. mit einer einfachen linearen Regression, um die PCs in Bezug auf Rohvariablen neu zu definieren. Es gibt auch verschiedene Möglichkeiten, PCs für Beschreibungs- / Dekodierungszwecke zu approximieren. Auf einige davon gehe ich in meinem Buch mit Regressionsmodellierungsstrategien und in den Kursnotizen ein .

Frank Harrell

Problem 2: Warum verwenden Menschen Quadratwurzeln, wenn sie so viele Probleme haben? Wenn Sie die Quadratwurzel von 4 nehmen, kann es 2 sein, aber es kann auch -2 sein. Auf den ersten Blick könnte ein positiver Wert eine gute Lösung sein, aber es ist lediglich eine willkürliche, aber reproduzierbare Vorzeichenwahl. Quadratwurzeln sehen für mich ziemlich unreif aus.

Amöbe

@amoeba Im Zusammenhang mit PCA kann Problem Nr. 2 IMO viel schwerwiegender sein. Wenn Sie nur die erste Hauptkomponente verwenden, gibt es wie bei der Quadratwurzel zwei mögliche Ergebnisse (+, -). Wenn Sie jedoch Hauptkomponenten berücksichtigen , haben Sie unbestimmte Vorzeichen, was zu unterschiedlichen Ergebnissen führt. Für gibt es +++, ++ -, + - +, + -, .- ++, - + -, - +, ---, was schon viel ist!

p

$p$

p

$p$

2^{p}

$2^p$

p = 3

$p = 3$

Nalzok

"Zeichen-Willkür" ist lediglich ein Artefakt der Darstellung der PCA-Ergebnisse. Es gibt keine Beliebigkeit für die PCA selbst: Die Eigenräume, mit denen sie arbeitet, sind perfekt definiert. Die Punkte (1) und (3) sind Vorteile von PCA, da sie es ermöglichen, das Fachwissen und die Ziele der Analyse angemessen zu nutzen. Wenn man dies als "unreif" bezeichnet, verfehlt man eher den gesamten Punkt der statistischen Analyse, IMHO, der darin besteht, echte Probleme auf kreative und prinzipielle Weise zu lösen (im Gegensatz zum Ablegen von Daten in Black Boxes).

whuber

Was ich hier noch nicht erwähnt sehe, ist, dass viele PCA genauso verwenden, wie Sie ein Histogramm, ein Dichtediagramm oder ein Streudiagramm verwenden würden: Ein Mittel, um Daten schnell zu überprüfen, anstatt eine endgültige Lösung für ein Problem. PCA ist für diesen Zweck nützlich, da die Anzahl der Dimensionen zunimmt, ist aber natürlich informativer, wenn bei der Auswahl, ob und wie skaliert werden soll, sorgfältig vorgegangen wird.

Frans Rodenburg

"Zeichen-Willkür" ist lediglich ein Artefakt der Darstellung der PCA-Ergebnisse. Es gibt keine Beliebigkeit für die PCA selbst: Die Eigenräume, mit denen sie arbeitet, sind perfekt definiert. Die Punkte (1) und (3) sind Vorteile von PCA, da sie es ermöglichen, das Fachwissen und die Ziele der Analyse angemessen zu nutzen. Wenn man dies als "unreif" bezeichnet, verfehlt man eher den gesamten Punkt der statistischen Analyse, IMHO, der darin besteht, echte Probleme auf kreative und prinzipielle Weise zu lösen (im Gegensatz zum Ablegen von Daten in Black Boxes).

- whuber

Was ich hier noch nicht erwähnt sehe, ist, dass viele PCA genauso verwenden, wie Sie ein Histogramm, ein Dichtediagramm oder ein Streudiagramm verwenden würden: Ein Mittel, um Daten schnell zu überprüfen, anstatt eine endgültige Lösung für ein Problem. PCA ist für diesen Zweck nützlich, da die Anzahl der Dimensionen zunimmt, ist aber natürlich informativer, wenn bei der Auswahl, ob und wie skaliert werden soll, sorgfältig vorgegangen wird.

- Frans Rodenburg

mkt - Monica wieder einsetzen
quelle

Ich habe diese Kommentare als Antwort auf ein Community-Wiki kopiert, da sie mehr oder weniger Antworten auf diese Frage sind. Wir haben eine dramatische Lücke zwischen Antworten und Fragen. Zumindest ein Teil des Problems besteht darin, dass einige Fragen in Kommentaren beantwortet werden: Wenn Kommentare, die die Frage beantworteten, stattdessen Antworten wären, hätten wir weniger unbeantwortete Fragen.

mkt - Monica am

+1. Sie müssen solche Antworten übrigens nicht CW geben; aber es ist natürlich in Ordnung, wenn Sie es vorziehen.

Amöbe

@amoeba Danke, ich würde mich im Allgemeinen wohler fühlen, wenn ich einen originellen Beitrag hinzufügen würde. Aber ich werde es mir merken.

mkt - Stellen Sie Monica

Warum verwenden Menschen PCA, wenn es so viele Probleme gibt?

Antworten: