Verwirrt über die visuelle Erklärung von Eigenvektoren: Wie können visuell unterschiedliche Datensätze dieselben Eigenvektoren haben?

10

Viele Statistiklehrbücher bieten eine intuitive Illustration der Eigenvektoren einer Kovarianzmatrix:

Geben Sie hier die Bildbeschreibung ein

Die Vektoren u und z bilden die Eigenvektoren (also Eigenachsen). Das macht Sinn. Was mich jedoch verwirrt, ist, dass wir Eigenvektoren aus der Korrelationsmatrix extrahieren , nicht die Rohdaten. Darüber hinaus können sehr unterschiedliche Rohdatensätze identische Korrelationsmatrizen aufweisen. Zum Beispiel haben beide die folgenden Korrelationsmatrizen von:

[10.970.971]

Eigenvektoren

Als solche haben sie Eigenvektoren, die in die gleiche Richtung zeigen:

[.71.71.71.71]

Wenn Sie jedoch dieselbe visuelle Interpretation anwenden würden, in welche Richtungen sich die Eigenvektoren in den Rohdaten befinden, würden Sie Vektoren erhalten, die in verschiedene Richtungen zeigen.

Kann mir bitte jemand sagen, wo ich falsch gelaufen bin?

Zweite Änderung : Wenn ich so mutig sein darf, konnte ich mit den hervorragenden Antworten unten die Verwirrung verstehen und illustrieren.

  1. Die visuelle Erklärung stimmt mit der Tatsache überein, dass die aus der Kovarianzmatrix extrahierten Eigenvektoren unterschiedlich sind.

    Kovarianzen und Eigenvektoren (rot):

    [1111][.7.72.72.7]

    Kovarianzen und Eigenvektoren (blau):

    [.25.5.51][.43.9.9.43]
  2. Korrelationsmatrizen spiegeln die Kovarianzmatrizen der standardisierten Variablen wider. Die visuelle Überprüfung der standardisierten Variablen zeigt, warum in meinem Beispiel identische Eigenvektoren extrahiert werden:

Geben Sie hier die Bildbeschreibung ein

Sue Doh Nimh
quelle
3
Wenn Sie die Korrelation bewerten möchten, müssen Sie Ihre Streudiagramme mit Skalen zeichnen, in denen die Standardabweichungen der Komponenten gleich sind. Dies ist bei keinem Ihrer Bilder der Fall (außer vielleicht bei den roten Punkten im zweiten). Dies kann ein Grund sein, warum Sie dies verwirrend finden.
whuber
3
Ich weiß es zu schätzen, dass Sie Ihre Frage illustriert haben. Das hilft den Leuten, es zu verstehen und erhöht den Wert des Threads als zukünftige Referenz. Beachten Sie jedoch, dass ~ 10% der Männer rot-grün farbenblind sind. Mit 2 Farben können Rot und Blau sicherer sein.
Gung - Reinstate Monica
Vielen Dank, ich habe die Farben korrigiert, wie Sie vorgeschlagen haben
Sue Doh Nimh
2
Kein Problem, @SueDohNimh. Vielen Dank, dass Sie es für alle verständlich gemacht haben. In einem anderen Sinne würde ich das [PCA]Tag behalten . Wenn Sie die Frage neu fokussieren oder eine neue (verwandte) Frage stellen und einen Link zu dieser Frage erstellen möchten, scheint dies in Ordnung zu sein, aber ich denke, diese Frage ist PCA-ish genug, um das Tag zu verdienen.
Gung - Reinstate Monica
Gute Arbeit, @SueDohNimh. Sie können dies auch als Antwort auf Ihre eigene Frage anstelle einer Bearbeitung hinzufügen, wenn Sie möchten.
Gung - Reinstate Monica

Antworten:

9

Sie müssen keine PCA über die Korrelationsmatrix durchführen. Sie können auch die Kovarianzmatrix zerlegen. Beachten Sie, dass diese normalerweise unterschiedliche Lösungen ergeben. (Weitere Informationen hierzu finden Sie unter: PCA zu Korrelation oder Kovarianz? )

Covxy/SDxSDy

Wenn Sie mit diesen Gruppen PCA unter Verwendung der Kovarianzmatrizen durchführen, erhalten Sie ein anderes Ergebnis als bei Verwendung der Korrelationsmatrizen.

gung - Monica wieder einsetzen
quelle
2
(1,1)(1,1)
1
+1 zu dem, was @whuber geschrieben hat, aber beachten Sie, dass die entsprechenden Eigenwerte vom Korrelationswert abhängen.
Amöbe sagt Reinstate Monica
Dies ist wahr, aber die Eigenvektoren der Cov-Matrix können basierend auf der Korrelation variieren.
Gung - Reinstate Monica
1
Hallo Leute, vielen Dank. Mir war bewusst, dass unterschiedliche Eigenvektoren durch die Verwendung der Kovarianzmatrizen entstehen. Dies war ein weiterer Grund zur Besorgnis, da ich mir Sorgen machte, dass ich durch die Verwendung von Korrelationsmatrizen die verwendeten Informationen reduzierte und daher weniger genau war. Wäre es sinnvoll, aus Ihren Antworten zu schließen, dass die bereitgestellte visuelle Interpretation nur für Eigenvektoren der Kovarianzmatrix der Rohdaten und nicht für die Korrekturmatrix wirklich anwendbar ist?
Sue Doh Nimh
1
Nicht wirklich, @SueDohNimh. Sie können die visuelle Interpretation verwenden. Standardisieren Sie zuerst Ihre Variablen, wenn Sie die Korrelationsmatrix verwenden möchten.
Gung - Reinstate Monica