PCA von nicht-Gaußschen Daten

20

Ich habe ein paar kurze Fragen zu PCA:

  • Geht die PCA davon aus, dass der Datensatz Gaußsch ist?
  • Was passiert, wenn ich eine PCA auf inhärent nichtlineare Daten anwende?

Bei einem gegebenen Datensatz besteht der Prozess darin, zunächst die Mittelwerte zu normalisieren, die Varianz auf 1 zu setzen, eine SVD zu nehmen, den Rang zu verringern und den Datensatz schließlich dem neuen Raum mit dem reduzierten Rang zuzuordnen. Im neuen Raum entspricht jede Dimension einer "Richtung" maximaler Varianz.

  • Aber ist die Korrelation dieses Datensatzes im neuen Raum immer Null, oder gilt das nur für Daten, die von Natur aus Gauß'sch sind?

Angenommen, ich habe zwei Datensätze, "A" und "B", wobei "A" zufällig ausgewählten Punkten aus einer Gaußschen Verteilung entspricht, während "B" zufällig ausgewählten Punkten aus einer anderen Verteilung entspricht (z. B. Poisson).

  • Wie vergleicht sich die PCA (A) mit der PCA (B)?
  • Wie kann ich durch Betrachten der Punkte im neuen Raum feststellen, dass die PCA (A) Punkten entspricht, die von einem Gaußschen abgetastet wurden, während die PCA (B) Punkten entsprechen, die von einem Poisson abgetastet wurden?
  • Entspricht die Korrelation der Punkte in "A" 0?
  • Ist die Punktkorrelation in "B" auch 0?
  • Noch wichtiger ist, stelle ich die "richtige" Frage?
  • Soll ich mir die Korrelation ansehen, oder gibt es eine andere Metrik, die ich berücksichtigen sollte?
Vishal
quelle
2
Siehe den Anhang zu den PCA-Annahmen in diesem Dokument .
Angenommen, normal

Antworten:

17

Sie haben hier bereits einige gute Antworten (+1 für beide @ Cam.Davidson.Pilon & @MichaelChernick). Lassen Sie mich einige Punkte hervorheben, die mir helfen, über dieses Problem nachzudenken.

Erstens arbeitet PCA über die Korrelationsmatrix. Daher scheint mir die wichtige Frage zu sein, ob es sinnvoll ist, eine Korrelationsmatrix zu verwenden, um Sie beim Nachdenken über Ihre Daten zu unterstützen. Beispielsweise bewertet die Pearson-Produkt-Moment-Korrelation die lineare Beziehung zwischen zwei Variablen. Wenn Ihre Variablen miteinander in Beziehung stehen, jedoch nicht linear, ist die Korrelation keine ideale Metrik, um die Stärke der Beziehung zu indizieren. ( Hier ist eine nette Diskussion zum Lebenslauf über Korrelation und nicht normale Daten.)

Zweitens denke ich, dass der einfachste Weg zu verstehen, was mit PCA vor sich geht, darin besteht, dass Sie einfach Ihre Achsen drehen. Natürlich können Sie mehr tun, und PCA wird leider mit der Faktorenanalyse verwechselt (die definitiv mehr beinhaltet). Trotzdem kann man sich einfaches altes PCA ohne Schnickschnack wie folgt vorstellen:

  • Auf einem Millimeterpapier sind einige Punkte in zwei Dimensionen aufgetragen.
  • Sie haben eine Transparenz mit orthogonalen Achsen und eine Lochblende im Ursprung.
  • Sie zentrieren den Ursprung der Transparenz (dh die Lochblende) über und stecken die Spitze Ihres Bleistifts durch die Lochblende, um sie an Ort und Stelle zu halten. (x¯,y¯)
  • Anschließend drehen Sie die Transparenz, bis die Punkte (bei Indexierung gemäß den Achsen der Transparenz anstelle der ursprünglichen) nicht mehr korreliert sind.

Dies ist keine perfekte Metapher für PCA (z. B. haben wir die Varianzen nicht auf 1 skaliert). Aber gibt den Menschen die Grundidee. Der Punkt ist jetzt, dieses Bild zu verwenden, um darüber nachzudenken, wie das Ergebnis aussieht, wenn die Daten nicht von Anfang an Gaußsch sind. Das hilft Ihnen bei der Entscheidung, ob sich dieser Prozess gelohnt hat. Hoffentlich hilft das.

gung - Wiedereinsetzung von Monica
quelle
2
+1 (vor langer Zeit). Ich denke, dies ist die beste Antwort in diesem Thread. Ich hoffe, es wird eine weitere positive Bewertung erhalten, um auch die positivste Bewertung zu erhalten. Ich mag es, wie Sie PCA mit Transparenz erklären, das ist schön.
Amöbe sagt Reinstate Monica
Übrigens hat Ihre Antwort meine jüngste Antwort in unserem riesigen PCA-Thread für Laien inspiriert : Ich habe diese animierten Gifs unter Berücksichtigung Ihrer Transparenzanalogie erstellt.
Amöbe sagt Reinstate Monica
Das ist eine großartige Antwort, @amoeba. Es ist viel besser als das.
gung - Wiedereinsetzung von Monica
13

Ich kann eine Teillösung geben und eine Antwort für Sie zeigen zweiter Absatzw1w2Xw1Xw2X

Cov(Xw1,Xw2)=E[(Xw1)T(Xw2)]E[Xw1]TE[Xw2]
wiX
w1TE[XTX]w2=Var(X)w1Tw2=0
wiVar(X)

XXwXXw

α

Cam.Davidson.Pilon
quelle
7

In PCA wird keine Linearität oder Normalität angenommen. Die Idee besteht lediglich darin, die Variation in einem p-dimensionalen Datensatz in orthogonale Komponenten zu zerlegen, die entsprechend der erklärten Varianzmenge geordnet sind.

Michael R. Chernick
quelle
2
Richtig, aber "Zerlegen der Variation in einem p-dimensionalen Dataset in orthogonale Komponenten" ist nicht sehr nützlich, wenn es nichtlineare Abhängigkeiten zwischen den Variablen gibt, da die Orthogonalisierung normalerweise durchgeführt wurde, damit Sie argumentieren können, dass die Dimensionen nicht miteinander zusammenhängen (d. H auch auf den Gaußschen Teil der Frage bezogen). Wenn Sie PCA durchführen und die Ergebnisse auf die übliche Weise interpretieren möchten, wird davon ausgegangen, dass sich die Daten in einem linearen Unterraum mit niedrigeren Dimensionen befinden .
Makro
2
@Macro Nicht genau. Ich würde sagen, dass die zugrunde liegende Annahme ist, dass sich zumindest der größte Teil der Variabilität und damit des Musters der Daten in einem niedrigeren dimensionalen Raum konzentriert. Ich kann eine Parabel in einem zweidimensionalen Raum mit orthogonalen Komponenten sehr gut betrachten. Ich denke, nichtlineare Formen können in zwei oder drei Dimensionen betrachtet werden. Wenn die Daten aus einer multivariaten Gaußschen Verteilung stammen, sollten die Punkte in einigen Subräumen wie eine ellipsoidale Wolke aussehen. Die Distribution muss nicht wie ein Ellipsoid aussehen, damit ihre Ansicht im Unterraum der hohen PCs interessant ist.
Michael R. Chernick
4
Ich würde das etwas einschränken. Es gibt keine Normalitätsannahme bei klassischem PCA oder PCA durch SVD. EM-Algorithmen zur Berechnung von PCA mit fehlenden Daten setzen jedoch Normalität und Linearität voraus.
John
Während die klassische Straße zur PCA keine Annahmen erfordert, gibt es eine andere Straße zu ihrer Lösung, die dies tut: probabilistische PCA mit 0 Messrauschen.
Bayerj
3

Lesen Sie Seite 7 hier:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

Sie stellen fest, dass PCA davon ausgeht, dass die Verteilung dessen, was wir erklären, durch einen Mittelwert (von Null) und Varianz allein beschrieben werden kann, von der sie sagen, dass sie nur die Normalverteilung sein kann.

(Grundsätzlich zusätzlich zu Cams Antwort, aber ich habe nicht genug Ruf, um einen Kommentar abzugeben:)

user3264325
quelle
1
Der Link, den Sie zu Shlens 'Tutorial angegeben haben, bezieht sich auf Version 1 des Tutorials, aber Version 3.02 (die endgültige Version?) Ist jetzt verfügbar, und dieser spezielle Punkt wurde entfernt. Auch diese Frage stellte genau das.
Oren Milman
0

Soweit ich weiß, geht PCA nicht von einer Normalität der Daten aus. Wenn es jedoch normalverteilt ist (im Allgemeinen symmetrisch verteilt), ist das Ergebnis robuster. Wie andere Leute sagen, ist der Schlüssel, dass PCA auf der Pearson-Korrelationskoeffizientenmatrix basiert, deren Schätzung von Ausreißern und verzerrter Verteilung beeinflusst wird. Bei einigen Analysen wie statistischen Tests oder p-Werten sollten Sie sich mehr darum kümmern, ob die Normalität erfüllt ist. In anderen Anwendungen wie der explorativen Analyse können Sie sie jedoch nur verwenden, wenn Sie Interpretationen vornehmen.

KarlHuang
quelle
-1

Einverstanden mit anderen, die besagten, dass Daten "normal" verteilt werden sollten. Jede Verteilung überlappt sich mit einer Normalverteilung, wenn Sie sie transformieren. Wenn Ihre Verteilung nicht normal ist, sind die Ergebnisse, die Sie erhalten, schlechter als in dem Fall, in dem es normal ist, wie hier von einigen angegeben ...

  • Sie können Ihre Distribution bei Bedarf umgestalten.
  • Sie können sich für den PCA entscheiden und stattdessen die unabhängige Komponentenanalyse (Independent Component Analysis, ICA) verwenden.

Wenn Sie die Referenz in der ersten Antwort lesen, heißt es im Anhang, dass es sich bei der Annahme um eine Normalverteilung handelt.

Asche
quelle