Sternkoordinaten vs. Hauptkomponentenanalyse

8

Ich bereite gerade eine Präsentation für einen Universitätskurs in "Visual Data Analysis" vor. Und eines meiner Themen ist die Visualisierung "Star Coordinate". Sternkoordinaten

Da Sternkoordinaten eine Transformation hochdimensionaler Daten durchführen und die bekannte PCA-Technik dies auch tut, frage ich mich, ob PCA durch Sternkoordinaten nachgeahmt werden kann. Ich denke daran, die Koordinatenachsen so neu anzuordnen, dass sie eine lineare Kombination der ursprünglichen Variablen darstellen. Das ist aber nur eine Idee. Kann jemand dies bestätigen oder widerlegen?

VisioGuy
quelle
Der Link ist interessant, danke (+1). Ihre Idee dazu ist irgendwie mimic PCA by Star Coordinatesviel zu vage, um ein echtes Problem darzustellen (also könnte eine Frage gestellt werden). Man könnte Ihnen raten , es zuerst zu versuchen und dann - wenn Sie Probleme oder Zweifel haben - eine Frage zu stellen.
ttnphns
2
Um die akzeptierte Antwort zu ergänzen, können Sie Star Coordinates hier ausprobieren : star-coordinates.com Diese Implementierung gibt Ihnen möglicherweise eine Vorstellung von möglichen Vorgängen. Haftungsausschluss: Ich bin der Schöpfer dieser Website. Als ich diese Art der Visualisierung für mich selbst verstehen wollte, konnte ich keine Online-Implementierung dafür finden.
Kadrian

Antworten:

9

PCA und "Sternkoordinaten" machen verschiedene Dinge. Da Sternkoordinaten alle Werte standardisieren, würde ein fairer Vergleich PCA auf eine Korrelationsmatrix (anstelle der Kovarianzmatrix) anwenden, was eine weitere Möglichkeit zur Standardisierung der Werte darstellt.

  • PCA identifiziert ein Koordinatensystem, das an die Form der Daten angepasst ist, während Sternkoordinaten auf den ursprünglich in den Daten angegebenen Koordinaten basieren.

    Dies macht PCA weitaus flexibler, um Beziehungen zwischen den Daten aufzudecken. "Sternkoordinaten" sind dagegen nicht viel mehr als eine 2D-Grafik univariater Informationen.

  • PCA (wenn auf einer Korrelationsmatrix durchgeführt) verwendet die Datenmittel für den Ursprung und ihre Standardabweichungen für Skalen. Sternkoordinaten verwenden die Datenminima für den Ursprung und ihre Bereiche für Skalen.

    Die Minima und Bereiche reagieren weitaus empfindlicher auf abgelegene Daten als Standardabweichungen, sodass Sternkoordinaten für die allgemeine Datenexploration weniger geeignet sind.

Als solches hat jedes seine Stärken - obwohl die besonderen Stärken der Sternkoordinaten im Verhältnis zu PCA schwer zu ergründen sind.

Betrachten Sie als Beispiel diese beiden 3D-Datensätze. Jedes besteht aus 300 Punkten und in jedem hat die Punktwolke eine sehr flache elliptische "Pfannkuchen" -Form. (Die Singularwerte jeder Korrelationsmatrix liegen nahe bei .) Die obere Reihe der Abbildung zeigt die Korrelationsmatrizen, die zweite Reihe zeigt eine Ansicht der Punktwolken in Pseudo-3D (ungefähr ausgerichtet) um die zwei größten Hauptkomponenten zu erfassen), und die untere Reihe ist das "Sternkoordinaten" -Bild derselben Punkte.{2,1,.01}

Zahl

Aufgrund der unterschiedlichen Ausrichtung dieser Punktwolken relativ zu den ursprünglichen Koordinatenachsen sind die Sternkoordinatendiagramme völlig unterschiedlich. Dies ist charakteristisch: Sternkoordinaten geben (sehr begrenzte) Informationen über die ursprünglichen Koordinaten, während PCA Beziehungen zwischen den Koordinaten aufdeckt.

Sie können auch sehen, dass Sternkoordinaten eine Art "zufällige" Projektion sind: Manchmal erfassen sie große Hauptkomponenten der Daten, wie in der linken Version, und manchmal erfassen sie große und kleine Komponenten (wie in der rechten Hand). und zu anderen Zeiten (nicht dargestellt) erfassen sie nur kleine Komponenten (und alle Punkte sind dicht am Ursprung gruppiert und enthüllen fast nichts).

whuber
quelle