Ich habe ein paar kurze Fragen zu PCA:
- Geht die PCA davon aus, dass der Datensatz Gaußsch ist?
- Was passiert, wenn ich eine PCA auf inhärent nichtlineare Daten anwende?
Bei einem gegebenen Datensatz besteht der Prozess darin, zunächst die Mittelwerte zu normalisieren, die Varianz auf 1 zu setzen, eine SVD zu nehmen, den Rang zu verringern und den Datensatz schließlich dem neuen Raum mit dem reduzierten Rang zuzuordnen. Im neuen Raum entspricht jede Dimension einer "Richtung" maximaler Varianz.
- Aber ist die Korrelation dieses Datensatzes im neuen Raum immer Null, oder gilt das nur für Daten, die von Natur aus Gauß'sch sind?
Angenommen, ich habe zwei Datensätze, "A" und "B", wobei "A" zufällig ausgewählten Punkten aus einer Gaußschen Verteilung entspricht, während "B" zufällig ausgewählten Punkten aus einer anderen Verteilung entspricht (z. B. Poisson).
- Wie vergleicht sich die PCA (A) mit der PCA (B)?
- Wie kann ich durch Betrachten der Punkte im neuen Raum feststellen, dass die PCA (A) Punkten entspricht, die von einem Gaußschen abgetastet wurden, während die PCA (B) Punkten entsprechen, die von einem Poisson abgetastet wurden?
- Entspricht die Korrelation der Punkte in "A" 0?
- Ist die Punktkorrelation in "B" auch 0?
- Noch wichtiger ist, stelle ich die "richtige" Frage?
- Soll ich mir die Korrelation ansehen, oder gibt es eine andere Metrik, die ich berücksichtigen sollte?
Antworten:
Sie haben hier bereits einige gute Antworten (+1 für beide @ Cam.Davidson.Pilon & @MichaelChernick). Lassen Sie mich einige Punkte hervorheben, die mir helfen, über dieses Problem nachzudenken.
Erstens arbeitet PCA über die Korrelationsmatrix. Daher scheint mir die wichtige Frage zu sein, ob es sinnvoll ist, eine Korrelationsmatrix zu verwenden, um Sie beim Nachdenken über Ihre Daten zu unterstützen. Beispielsweise bewertet die Pearson-Produkt-Moment-Korrelation die lineare Beziehung zwischen zwei Variablen. Wenn Ihre Variablen miteinander in Beziehung stehen, jedoch nicht linear, ist die Korrelation keine ideale Metrik, um die Stärke der Beziehung zu indizieren. ( Hier ist eine nette Diskussion zum Lebenslauf über Korrelation und nicht normale Daten.)
Zweitens denke ich, dass der einfachste Weg zu verstehen, was mit PCA vor sich geht, darin besteht, dass Sie einfach Ihre Achsen drehen. Natürlich können Sie mehr tun, und PCA wird leider mit der Faktorenanalyse verwechselt (die definitiv mehr beinhaltet). Trotzdem kann man sich einfaches altes PCA ohne Schnickschnack wie folgt vorstellen:
Dies ist keine perfekte Metapher für PCA (z. B. haben wir die Varianzen nicht auf 1 skaliert). Aber gibt den Menschen die Grundidee. Der Punkt ist jetzt, dieses Bild zu verwenden, um darüber nachzudenken, wie das Ergebnis aussieht, wenn die Daten nicht von Anfang an Gaußsch sind. Das hilft Ihnen bei der Entscheidung, ob sich dieser Prozess gelohnt hat. Hoffentlich hilft das.
quelle
Ich kann eine Teillösung geben und eine Antwort für Sie zeigenw1 w2 Xw1 Xw2 X
zweiter Absatzquelle
In PCA wird keine Linearität oder Normalität angenommen. Die Idee besteht lediglich darin, die Variation in einem p-dimensionalen Datensatz in orthogonale Komponenten zu zerlegen, die entsprechend der erklärten Varianzmenge geordnet sind.
quelle
Lesen Sie Seite 7 hier:
http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
Sie stellen fest, dass PCA davon ausgeht, dass die Verteilung dessen, was wir erklären, durch einen Mittelwert (von Null) und Varianz allein beschrieben werden kann, von der sie sagen, dass sie nur die Normalverteilung sein kann.
(Grundsätzlich zusätzlich zu Cams Antwort, aber ich habe nicht genug Ruf, um einen Kommentar abzugeben:)
quelle
Soweit ich weiß, geht PCA nicht von einer Normalität der Daten aus. Wenn es jedoch normalverteilt ist (im Allgemeinen symmetrisch verteilt), ist das Ergebnis robuster. Wie andere Leute sagen, ist der Schlüssel, dass PCA auf der Pearson-Korrelationskoeffizientenmatrix basiert, deren Schätzung von Ausreißern und verzerrter Verteilung beeinflusst wird. Bei einigen Analysen wie statistischen Tests oder p-Werten sollten Sie sich mehr darum kümmern, ob die Normalität erfüllt ist. In anderen Anwendungen wie der explorativen Analyse können Sie sie jedoch nur verwenden, wenn Sie Interpretationen vornehmen.
quelle
Einverstanden mit anderen, die besagten, dass Daten "normal" verteilt werden sollten. Jede Verteilung überlappt sich mit einer Normalverteilung, wenn Sie sie transformieren. Wenn Ihre Verteilung nicht normal ist, sind die Ergebnisse, die Sie erhalten, schlechter als in dem Fall, in dem es normal ist, wie hier von einigen angegeben ...
Wenn Sie die Referenz in der ersten Antwort lesen, heißt es im Anhang, dass es sich bei der Annahme um eine Normalverteilung handelt.
quelle