Ich habe eine Reihe von Datenpunkten in einem N-dimensionalen Raum. Außerdem habe ich in diesem N-dimensionalen Raum einen Schwerpunkt. Gibt es Ansätze, mit denen ich diese Datenpunkte in einen zweidimensionalen Raum projizieren kann, während ihre relativen Entfernungsinformationen im ursprünglichen Raum bleiben? Ist PCA die richtige?
data-visualization
pca
multidimensional-scaling
Bit-Frage
quelle
quelle
Antworten:
Ein allgemeiner Rahmen, der Ihr Problem angeht, heißt Dimensionsreduktion. Sie möchten Daten von N Dimensionen auf 2 Dimensionen projizieren und dabei die "wesentlichen Informationen" in Ihren Daten beibehalten. Die am besten geeignete Methode hängt von der Verteilung Ihrer Daten ab, dh von der N-dimensionalen Mannigfaltigkeit. PCA passt eine Ebene nach dem Kriterium der kleinsten Quadrate an. Dies wird wahrscheinlich schlecht für das Beispiel "Schweizer Rolle" funktionieren: Schweizer Rolle .
Zu den moderneren Methoden gehören Kernel PCA, LLE, Diffusionskarten und spärliche Wörterbuchdarstellungen. In Bezug auf die Entfernungserhaltung können einige Methoden nichteuklidische Entfernungen beibehalten.
quelle
Wie in der vorherigen Antwort erwähnt, gibt es eine Reihe von Methoden zur Dimensionsreduktion. Wichtig ist, was Sie darstellen möchten. Interessieren Sie sich für euklidische Abstandsmaße? Oder eine Ähnlichkeitsmetrik zwischen Stichproben?
Für erstere kann PCA angemessen sein. Es wird üblicherweise bei kontinuierlichen Messungen wie Messungen von Proben (Tiere, Pflanzen usw.) verwendet. Ich würde jedoch auch auf die moderneren Erwähnungen in der früheren Antwort eingehen.
Für letztere, bei denen Sie möglicherweise versuchen, die Ähnlichkeit mithilfe einer nichteuklidischen Abstandsmetrik zu vergleichen, gibt es einige gute Methoden, wie z. B. die Ordination von Hauptkomponenten (PCoA) und die nichtmetrische mehrdimensionale Skalierung (NMDS). Ein Beispiel dafür, wann Sie diese verwenden könnten, ist der Vergleich der ökologischen Gemeinschaften zwischen verschiedenen Gebieten, und Sie haben eine Anzahl verschiedener Arten von Organismen gefunden. Ihre Daten sind also "Zähldaten". Es gibt eine Reihe von Ähnlichkeitsmetriken wie Jaccard, Sorensen, Bray-Curtis, mit denen Sie effektiv abschätzen können, wie ähnlich die Standorte in ihrer Zusammensetzung der Organismen sind. Mit PCoA und NMDS können Sie die Proben (Standorte) grundsätzlich so darstellen, dass sie die ökologische Entfernung (Ähnlichkeit) darstellen, und Sie haben auf jeder Achse eine Bewertung für den Standort.
Es gibt viele gute Bücher und andere Ressourcen für multivariate Analysen. Suchen Sie bei Google nach "Ordination". Außerdem gibt es ein R-Paket namens "vegan", das wirklich gut ist, um einen Großteil dieser Arbeit tatsächlich auszuführen.
quelle
Ihr Problem klingt wie eine Lehrbuchanwendung für die mehrdimensionale Skalierung . Eine gute Einführung finden Sie hier: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm
Natürlich können Sie PCA ausprobieren. PCA hat jedoch nicht die Absicht, die relativen Entfernungsinformationen im ursprünglichen Raum zu belassen.
quelle