Wie erklärt die Faktoranalyse die Kovarianz, während die PCA die Varianz erklärt?

37

Hier ist ein Zitat aus Bishops Buch "Mustererkennung und maschinelles Lernen", Abschnitt 12.2.4 "Faktorenanalyse":

Bildbeschreibung hier eingeben

Gemäß dem markierten Teil, Faktoranalyse erfasst die Kovarianz zwischen den Variablen in der Matrix W . Ich frage mich , WIE ?

So verstehe ich es. Angenommen, x ist die beobachtete p dimensionale Variable, W ist die Faktorladematrix und z ist der Faktorbewertungsvektor. Dann haben wir

x=μ+Wz+ϵ,
das heißt
(x1xp)=(μ1μp)+(||w1wm||)(z1zm)+ϵ,
und jede Spalte inWist ein Faktor Belastungsvektor
wi=(wi1wip).
Hier wie ich schrieb,WhatmSpalten etwas bedeutenes gibtmFaktoren in Betracht.

Nun, hier ist der Punkt, gemäß dem hervorgehobenen Teil, ich denke, die Belastungen in jeder Spalte, wi die Kovarianz in den beobachteten Daten erkläre, nicht wahr?

Betrachten wir zum Beispiel den ersten Ladevektor für 1 i , j , k p , wenn w 1 i = 10 , w 1 j = 11 und w 1 k = 0,1 , dann würde ich sagen x i und x j sind stark korreliert, wohingegen x k nicht mit ihnen korreliert zu sein scheint , habe ich recht?w11i,j,kpw1i=10w1j=11w1k=0.1xixjxk

Und wenn so die Faktorenanalyse die Kovarianz zwischen beobachteten Merkmalen erklärt, würde ich sagen, dass PCA auch die Kovarianz erklärt, oder?

Avocado
quelle
1
Da sich die Darstellung von @ ttnphns auf die Darstellung des Themenbereichs bezieht , finden Sie hier ein Tutorial über den variablen Raum und den Themenbereich: Übrigens, ich wusste vorher nichts über den Themenbereich , jetzt verstehe ich ihn und hier ist ein Tutorial dazu: amstat.org/ publications / jse / v10n1 / yu / biplot.html . ;-)
Avocado
1
Ich möchte auch erwähnen, dass der Ladungsplot, der die Ladungen zeigt, tatsächlich ein Subjektraum ist. Das Anzeigen von Variablen- und Themenräumen in einem ist ein Biplot. Einige Bilder, die dies demonstrieren stats.stackexchange.com/a/50610/3277 .
TTNPHNS
Hier ist eine Frage zu den Begriffen "Common Varianz" und "Shared Varianz": stats.stackexchange.com/q/208175/3277 .
TTNPHNS

Antworten:

45

Die Unterscheidung zwischen Hauptkomponentenanalyse und Faktoranalyse wird in zahlreichen Lehrbüchern und Artikeln zu multivariaten Techniken erörtert. Möglicherweise finden Sie auf dieser Website auch den vollständigen und einen neueren Thread sowie ungerade Antworten.

Ich werde es nicht detailliert machen. Ich habe bereits eine kurze und eine längere Antwort gegeben und möchte sie jetzt mit ein paar Bildern verdeutlichen.

Grafische Darstellung

Das Bild unten erklärt PCA . (Dies wurde von hier ausgeliehen, wo PCA mit linearer Regression und kanonischen Korrelationen verglichen wird. Das Bild ist die Vektordarstellung von Variablen im Subjektraum. Um zu verstehen, was es ist, sollten Sie den zweiten Absatz dort lesen.)

Bildbeschreibung hier eingeben

PCA - Konfiguration auf diesem Bild wurde beschrieben dort . Ich werde die wichtigsten Dinge wiederholen. Die Hauptkomponenten P1 und P2 liegen in demselben Raum, der von den Variablen X1 und X2 , "Ebene X", aufgespannt wird. Die quadratische Länge jedes der vier Vektoren ist seine Varianz. Die Kovarianz zwischen X1 und X2 ist cov12=|X1||X2|r , wo r entspricht dem Cosinus des Winkels zwischen ihren Vektoren.

a

P1P2a112+a212=|P1|2P1


X1X2

FP1

P1

Bildbeschreibung hier eingeben

F

P1F

aa12+a22=|F|2F

FFX1FX2X1FU1X2FU2U1U2FUU1X1U2X2X1X2FX1X2cov12>0cov12a

u2 a2F-dimensional, wobei Kommunalitäten die Projektionen von Variablen auf den Raum und Ladungen die Projektionen von Variablen sowie die Projektionen dieser Projektionen auf die Faktoren sind, die den Raum überspannen. Die in der Faktorenanalyse erläuterte Varianz ist die Varianz innerhalb des Raums der gemeinsamen Faktoren, die sich von dem Raum der Variablen unterscheidet, in dem Komponenten die Varianz erklären. Der Raum der Variablen befindet sich im Bauch des kombinierten Raums: m gemeinsame + p eindeutige Faktoren.

Bildbeschreibung hier eingeben

X1X2X3F1F2X1C1U1X1X1X2X31

cov12a1a2individuelle Kovarianzen mittels Ladungen. Im PCA-Modell ist dies nicht der Fall, da PCA nicht zerlegte, gemischte kollineare + orthogonale native Varianz erklärt. Sowohl starke Komponenten, die Sie behalten, als auch nachfolgende, die Sie fallen lassen, sind Fusionen von (A) und (B) Teilen. daher kann PCA durch seine Beladung nur blind und grob Kovarianzen abhören.


Kontrastliste PCA vs FA

  • PCA: arbeitet im Raum der Variablen. FA: Durchsucht den Raum der Variablen.
  • PCA: Nimmt die Variabilität so an, wie sie ist. FA: Segmentiert die Variabilität in gemeinsame und eindeutige Teile.
  • PCA: erklärt die nicht segmentierte Varianz, dh die Spur der Kovarianzmatrix. FA: erklärt nur die allgemeine Varianz, erklärt daher (stellt durch Laden wieder her) Korrelationen / Kovarianzen, nicht diagonale Elemente der Matrix. (PCA erklärt off-diagonale Elemente zu - aber nebenbei, offhand Weise - einfach , weil Abweichungen in Form von Kovarianzen gemeinsam genutzt werden.)
  • PCA: Komponenten sind theoretisch lineare Funktionen von Variablen, Variablen sind theoretisch lineare Funktionen von Komponenten. FA: Variablen sind nur theoretisch lineare Funktionen von Faktoren.
  • PCA: empirische Zusammenfassungsmethode; es behält m Komponenten. FA: theoretische Modellierungsmethode ; es passt eine feste Anzahl m Faktoren an die Daten an; FA kann getestet werden (Confirmatory FA).
  • PCA: ist das einfachste metrische MDS , das darauf abzielt, die Dimensionalität zu reduzieren und gleichzeitig die Abstände zwischen Datenpunkten so weit wie möglich zu erhalten. FA: Faktoren sind wesentliche latente Merkmale hinter Variablen, die sie korrelieren lassen. Die Analyse zielt darauf ab, Daten nur auf diese Essenzen zu reduzieren.
  • PCA: Rotation / Interpretation von Komponenten - manchmal (PCA ist als Latent-Traits-Modell nicht realistisch genug). FA: Rotation / Interpretation von Faktoren - routinemäßig.
  • PCA: Nur Datenreduktionsmethode. FA: auch eine Methode, um Cluster kohärenter Variablen zu finden (weil Variablen nicht über einen Faktor hinaus korrelieren können).
  • PCA: Ladungen und Scores sind unabhängig von der Anzahl m der "extrahierten" Komponenten. FA: Ladungen und Punktzahlen hängen von der Anzahl m der "extrahierten" Faktoren ab.
  • PCA: Komponentenbewertungen sind genaue Komponentenwerte. FA: Faktorwerte sind Näherungswerte für wahre Faktorwerte, und es gibt verschiedene Berechnungsmethoden . Faktor-Scores liegen im Raum der Variablen (wie Komponenten), während wahre Faktoren (wie sie durch Faktor-Ladungen verkörpert werden) dies nicht tun.
  • PCA: normalerweise keine Annahmen. FA: Annahme schwacher Teilkorrelationen; manchmal multivariate Normalitätsannahme; Einige Datensätze können für die Analyse "schlecht" sein, sofern sie nicht transformiert sind.
  • PCA: nicht-iterativer Algorithmus; immer erfolgreich. FA: iterativer Algorithmus (typisch); manchmal Nichtkonvergenzproblem; Singularität kann ein Problem sein.

1 X2X3U1X1X1X2X3U1X1X2UU

Ähnlich wie bei der Regression sind die Koeffizienten auf den Prädiktoren die Koordinaten sowohl der abhängigen Variablen als auch der Prädiktion ( siehe Bild unter "Multiple Regression" und auch hier ) in FABelastungen sind die Koordinaten der Faktoren, sowohl der beobachteten Variablen als auch ihrer latenten Teile - der Kommunalitäten. Und genau wie bei der Regression diese Tatsache nicht dazu geführt hat, dass die Abhängigen und die Prädiktoren Unterräume voneinander sind. Ein Faktor ist einer Variablen in einem ganz ähnlichen Sinne "fremd", wie ein Prädiktor einer abhängigen Antwort "fremd" ist. In PCA ist es jedoch anders: Hauptkomponenten werden aus den beobachteten Variablen abgeleitet und auf ihren Raum beschränkt.

Also noch einmal zu wiederholen: m gemeinsame Faktoren von FA sind kein Unterraum der p Eingangsvariablen. Im Gegenteil: Die Variablen bilden einen Unterraum im Vereinigungshyperspace m + p ( m gemeinsame Faktoren + p eindeutige Faktoren). Wenn aus dieser Perspektive gesehen (dh mit den einzigartigen Faktoren zu angezogen) wird deutlich , dass klassischer FA kein Dimensionalität ist Schrumpfung Technik, wie klassische PCA, sondern ist eine Dimensionalität Expansionstechnik. Wir konzentrieren uns jedoch nur auf einen kleinen ( m- dimensionalen gemeinsamen) Teil dieses Aufblähens, da dieser Teil nur die Zusammenhänge erklärt.

ttnphns
quelle
Danke und schöne Handlung. Ihre Antwort ( stats.stackexchange.com/a/94104/30540 ) hilft sehr.
Avocado
2
(+11) Tolle Antwort und schöne Illustrationen! (Ich muss noch zwei Tage warten, bevor ich das Kopfgeld
anbiete
@chl, ich bin so gerührt.
TTNPHNS
@ttnphns: Der "Subjektraum" (Ihre Ebene X) ist ein Raum mit so vielen Koordinaten, wie Datenpunkte im Datensatz vorhanden sind, oder? Wenn also ein Datensatz (mit zwei Variablen X1 und X2) 100 Datenpunkte hat, ist Ihre Ebene X 100-dimensional? Aber wie kann dann der Faktor F außerhalb davon liegen? Sollten nicht alle 100 Datenpunkte Werte entlang des Faktors haben? Und da es keine anderen Datenpunkte gibt, scheint es, dass der Faktor F im selben 100-dimensionalen "Subjektraum" liegen muss, dh in der Ebene X? Was vermisse ich?
Amöbe sagt Reinstate Monica
1
@amoeba, deine Frage ist legitim und ja, dir fehlt etwas. Siehe Absatz 1: stats.stackexchange.com/a/51471/3277 . Redundante Dimensionen werden gelöscht. Der Objektraum hat so viele tatsächliche, nicht redundante Dimensionen wie der entsprechende variable Raum. Also ist "Raum X" eben. Wenn wir +1 Dimension hinzufügen (um F abzudecken), ist die gesamte Konfiguration singulär und unlösbar. F erstreckt sich immer aus dem variablen Raum heraus.
TTNPHNS
10

"Erklärung der Kovarianz" vs. Erklärung der Varianz

Bischof bedeutet eigentlich eine sehr einfache Sache. Nach dem Faktoranalysemodell (Gl. 12.64) ist die Kovarianzmatrix von wird sein (Gleichung 12.65)Dies ist im Wesentlichen das, was die Faktorenanalyse tut : Sie findet eine Matrix von Ladungen und eine diagonale Matrix von Eindeutigkeiten, so dass die tatsächlich beobachtete Kovarianzmatrix so gut wie möglich durch : approximiert wirdBeachten Sie, dass diagonale Elemente von

p(x|z)=N(x|Wz+μ,Ψ)
x
C=WW+Ψ.
ΣC
ΣWW+Ψ.
C ist genau gleich den diagonalen Elementen von da wir die diagonale Matrix immer so wählen können, dass der Rekonstruktionsfehler auf der Diagonale Null ist. Die eigentliche Herausforderung besteht dann darin, Ladungen zu finden , die sich gut dem nicht diagonalen Teil von annähern .ΣΨWΣ

Der nicht diagonale Teil von besteht aus Kovarianzen zwischen Variablen; daher die Behauptung von Bischof, dass Faktorladungen die Kovarianzen einfangen. Das wichtige Bit ist hierbei, dass Faktorladungen nicht kümmern gar über einzelne Abweichungen (diagonal von ).ΣΣ

Im Gegensatz dazu sind PCA-Ladungen Eigenvektoren der Kovarianzmatrix die durch Quadratwurzeln ihrer Eigenwerte vergrößert werden. Wenn nur Hauptkomponenten ausgewählt werden, dann was bedeutet, dass PCA-Ladungen versuchen, die gesamte Kovarianzmatrix zu reproduzieren (und nicht nur sein nicht diagonaler Teil als FA). Dies ist der Hauptunterschied zwischen PCA und FA.W~Σm<k

ΣW~W~,

Weitere Kommentare

Ich mag die Zeichnungen in @ ttnphns 'Antwort (+1), aber ich möchte betonen, dass sie sich mit einer ganz besonderen Situation zweier Variablen befassen. Wenn nur zwei Variablen in Betracht gezogen werden, ist die Kovarianzmatrix , hat nur ein Element außerhalb der Diagonale und daher ist immer ein Faktor ausreichend, um sie zu 100% zu reproduzieren (während PCA zwei Komponenten benötigt). Wenn es jedoch viele Variablen gibt (z. B. ein Dutzend oder mehr), können weder PCA noch FA mit einer geringen Anzahl von Komponenten die Kovarianzmatrix vollständig reproduzieren. Darüber hinaus werden sie in der Regel (wenn auch nicht unbedingt!) ähnliche Ergebnisse liefern. Siehe meine Antwort hier für einige Simulationen, die diese Behauptung stützen, und für weitere Erklärungen:2×2

Obwohl die Zeichnungen von @ ttnphns den Eindruck erwecken können, dass PCA und FA sehr unterschiedlich sind, bin ich der Meinung, dass dies nicht der Fall ist, außer bei sehr wenigen Variablen oder in einigen anderen speziellen Situationen.

Siehe auch:

Endlich:

Betrachten wir zum Beispiel den ersten für , wenn , und ist Ich würde sagen, und sind stark korreliert, während nicht mit ihnen korreliert zu sein scheint. Habe ich recht? 1 i , j , k p w 1 i = 10 w 1 j = 11 w 1 k = 0,1 x i x j x kw11i,j,kpw1i=10w1j=11w1k=0.1xixjxk

Dies ist nicht unbedingt richtig. Ja, in diesem Beispiel sind und wahrscheinlich korreliert, aber Sie vergessen andere Faktoren. Vielleicht hat der des zweiten Faktors große Werte für und ; Dies würde bedeuten, dass sie wahrscheinlich auch gut korreliert sind. Sie müssen alle Faktoren berücksichtigen, um solche Schlussfolgerungen ziehen zu können.x j w 2 x i x kxixjw2xixk

Amöbe sagt Reinstate Monica
quelle
Wenn ich Ihre algebraische Sachkenntnis anerkenne und Ihre Antwort mit Sicherheit begrüße, wäre ich dennoch nicht so scharfsinnig, die vorherige geometrische Antwort von jemandem (in diesem Fall meine) als "möglicherweise irreführend" zu bezeichnen. Worte so hugely differentgehören dir, nicht mir. Zweitens it is in fact not the case, except with very few variablesist es selbst eine Offenbarung, die tiefer geprüft werden muss als Sie es einmal getan haben.
TTNPHNS
Hallo @ttnphns, danke für den Kommentar. Ich habe absolut nichts gegen geometrische Antworten, und in der Tat bevorzuge ich sie, wenn möglich! Ich mag ehrlich Ihre Antwort sehr und es hat meine +1. Aber ich glaube , dass man bedenkt nur einen Fall mit zwei Variablen macht PCA-vs-FA Unterschiede scheinen stärker als sie es sonst sind und dass dies kann sein , möglicherweise (!) Irreführend. Sie haben jedoch Recht, dass ich solche Wörter in meiner Antwort nicht hätte verwenden sollen. Ich entschuldige mich und habe es gerade bearbeitet. Nur um ganz klar zu sein: Jede Feindseligkeit (wenn Sie welche fühlten!) War rein unbeabsichtigt.
Amöbe sagt Reinstate Monica
@amoeba Warum sagen manche Leute, dass FA Kovarianz und PCA Varianz bewahrt? Aus Ihrem Beitrag geht hervor, dass FA zwar Kovarianz bewahrt, PA jedoch versucht, Varianz und Kovarianz zu bewahren . Zu sagen, dass PCA die Varianz bewahrt, ergibt sich aus seiner objektiven Funktion und nicht aus den Erklärungen in Ihrem Beitrag?
user_anon