Ich nehme Dummy-Daten der Temperatur im Vergleich zu Eisverkäufen und kategorisiere sie mit K-Mitteln (n Cluster = 2), um 2 Kategorien zu unterscheiden (total Dummy).
Jetzt mache ich eine Hauptkomponentenanalyse dieser Daten und mein Ziel ist es zu verstehen, was ich sehe. Ich weiß, dass das PCA-Ziel darin besteht, die Dimensionalität zu reduzieren (offensichtlich nicht in diesem Fall) und die Varianz der Elemente zu zeigen. Aber wie liest du das PCA-Diagramm unten, dh was ist die Geschichte, die du über die Temperatur im Vergleich zum Eis im PCA-Diagramm erzählen kannst ? Was bedeuten der 1. (X) und 2. (Y) PC?
Antworten:
Dies wird oft angenommen, aber tatsächlich ist PCA nur eine Darstellung Ihrer Daten auf orthogonaler Basis. Diese Basis hat immer noch die gleiche Dimension wie Ihre Originaldaten. Nichts ist verloren ... noch nicht. Der Teil zur Reduzierung der Dimensionalität liegt ganz bei Ihnen. PCA stellt sicher, dass die oberen Dimensionen Ihrer neuen Projektion die besten Dimensionen sind, als die Ihre Daten möglicherweise dargestellt werden könnten. Was bedeutet am besten? Hier kommt die erklärte Varianz ins Spiel.kk k
Da wäre ich mir nicht so sicher! In Ihrem zweiten Diagramm sieht es so aus, als könnten viele Informationen aus Ihren Daten auf eine horizontale Linie projiziert werden. Das ist 1 Dimension anstelle der ursprünglichen Handlung, die in 2 Dimensionen war! Natürlich verlieren Sie einige Informationen, weil Sie die Y-Achse entfernen, aber ob dieser Informationsverlust für Sie akzeptabel ist, ist Ihr Anruf.
Es gibt eine Menge Fragen zu PCA auf der Website. Ich empfehle Ihnen daher, diese hier , hier , hier oder hier zu prüfen . Wenn Sie danach weitere Fragen haben, posten Sie diese bitte und ich helfe Ihnen gerne weiter.
Als Ihre eigentliche Frage:
Da die neuen Koordinatenachsen eine lineare Kombination der ursprünglichen Koordinaten sind, dann ... im Grunde nichts! PCA gibt Ihnen eine Antwort wie (Zahlen erfunden):
Ist das nützlich für dich? Vielleicht. Aber ich würde nicht raten :)
Bearbeitet
Ich werde diese Ressource hinzufügen , die ich für hilfreich halte, da interaktive Diagramme cool sind.
Erneut bearbeitet
Um zu klären, was am besten bedeutet:k
PCA versucht, die Dimensionen zu finden, die die höchste Varianz ergeben, wenn die Daten auf sie projiziert werden. Angenommen, Ihre Daten haben Dimensionen, erklären die ersten PCs mehr Varianz in Ihren Daten als alle anderen Dimensionen. Das meine ich mit best . Ob das für Sie nützlich ist oder nicht, ist eine andere Sache.k k kn > k k k k
quelle
Zu der guten Antwort von Ilan Mann möchte ich hinzufügen, dass es eine recht einfache Interpretation Ihrer Hauptkomponenten gibt, obwohl sie in diesem einfachen 2D-Fall nicht viel zu dem beiträgt, was wir hätten interpretieren können, wenn wir nur das Streudiagramm betrachtet hätten.
Der erste PC ist eine gewichtete Summe (dh eine lineare Kombination, bei der beide Koeffizienten positiv sind) aus Temperatur und Eiscremeverbrauch. Auf der rechten Seite haben Sie heiße Tage, an denen viel Eis verkauft wird, und auf der linken Seite haben Sie kältere Tage, an denen weniger Eis verkauft wird. Dieser PC erklärt den größten Teil Ihrer Varianz und die Gruppen, die Sie erhalten haben, stimmen mit diesen beiden Seiten überein.
Der zweite PC misst, wie sich Temperatur und Eisverbrauch von der engen linearen Beziehung entfernen, die vom ersten PC unterstrichen wird. Im oberen Teil der Grafik haben wir Tage mit mehr verkauftem Eis im Vergleich zu anderen Tagen mit der gleichen Temperatur und im unteren Teil Tage mit weniger verkauftem Eis als erwartet je nach Temperatur. Dieser PC erklärt nur einen kleinen Teil der Varianz.
Das heißt, wir können eine Geschichte aus Hauptkomponenten erzählen, obwohl es mit nur zwei Variablen dieselbe Geschichte ist, die wir ohne PCA hätten bemerken können. Mit mehr Variablen wird PCA nützlicher, weil es Geschichten erzählt, die sonst schwerer zu bemerken wären.
quelle