Ich habe viele parallele Koordinaten gelesen und gesehen. Kann jemand die folgenden Fragen beantworten:
- Was sind Parallelkoordinaten-Diagramme (PCP) in einfachen Worten, die ein Laie verstehen kann?
- Eine mathematische Erklärung mit einer gewissen Intuition, wenn möglich
- Wann ist PCP nützlich und wann kann man es verwenden?
- Wann ist PCP nicht sinnvoll und wann sollte es vermieden werden?
- Mögliche Vor- und Nachteile von PCP
r
data-visualization
suncoolsu
quelle
quelle
Antworten:
Es scheint mir, dass die Hauptfunktion von PCP darin besteht, homogene Gruppen von Individuen oder umgekehrt (im dualen Raum, analog zu PCA) spezifische Assoziationsmuster für verschiedene Variablen hervorzuheben. Es wird eine effektive grafische Zusammenfassung eines multivariaten Datensatzes erstellt, wenn nicht zu viele Variablen vorhanden sind. Variablen werden automatisch auf einen festen Bereich skaliert (normalerweise 0–1), der dem Arbeiten mit standardisierten Variablen entspricht (um den Einfluss einer Variablen auf die anderen aufgrund von Skalierungsproblemen zu verhindern), aber für sehr hochdimensionale Datensätze (# Bei Variablen> 10) müssen Sie sich unbedingt andere Anzeigen ansehen, z. B. Fluktuationsdiagramm oder Heatmap, wie sie in Microarray-Studien verwendet werden.
Es hilft bei der Beantwortung von Fragen wie:
In der folgenden Darstellung der Irisdaten ist deutlich zu sehen, dass Arten (hier in verschiedenen Farben dargestellt) sehr unterschiedliche Profile aufweisen, wenn man die Länge und Breite der Blütenblätter betrachtet, oder dass Iris setosa (blau) in Bezug auf ihre Blütenblattlänge homogener ist ( dh ihre Varianz ist geringer).
Sie können es sogar als Backend für Klassifizierungs- oder Dimensionsreduktionstechniken wie PCA verwenden. In den meisten Fällen möchten Sie bei der Durchführung einer PCA nicht nur den Funktionsbereich reduzieren, sondern auch Gruppen von Personen hervorheben (z. B. gibt es Personen, die bei einer Kombination der Variablen systematisch eine höhere Punktzahl erzielen). In der Regel führt dies dazu, dass die Faktorwerte hierarchisch gruppiert werden und die resultierende Clustermitgliedschaft im Fakultätsraum hervorgehoben wird (siehe FactoClass R-Paket).
Es wird auch in Clustergrammen ( Visualisierung nichthierarchischer und hierarchischer Clusteranalysen ) verwendet, die untersuchen sollen, wie sich die Clusterzuordnung bei Erhöhung der Clusteranzahl entwickelt (siehe auch Welche Stoppkriterien für agglomeratives hierarchisches Clustering werden in der Praxis verwendet? ).
Solche Anzeigen sind auch nützlich, wenn sie mit üblichen Streudiagrammen verknüpft sind (die konstruktionsbedingt auf 2D-Beziehungen beschränkt sind), dies als Bürsten bezeichnet werden und im Datenvisualisierungssystem GGobi oder in der Mondrian- Software verfügbar sind .
quelle
In Bezug auf die Fragen 3, 4 und 5 empfehle ich Ihnen, sich diese Arbeit anzusehen
Wahrnehmung von Mustern in Parallelkoordinaten: Bestimmung von Schwellenwerten zur Identifizierung von Beziehungen durch: Jimmy Johansson, Camilla Forsell, Mats Lind, Matthew Cooper Information Visualization, Vol. 3, No. 7, No. 2. (2008), S. 152-162.
Zusammenfassend lässt sich sagen, dass Menschen die Richtung der Steigung der Beziehung zwischen den einzelnen Knoten gut identifizieren können, aber nicht so gut die Stärke der Beziehung oder den Grad der Steigung. Sie geben vorgeschlagene Geräuschpegel an, in denen die Menschen die Beziehung in dem Artikel noch entziffern können. Leider geht der Artikel nicht darauf ein, Untergruppen anhand von Farben zu identifizieren, wie chl zeigt.
quelle
Bitte besuchen Sie http://www.cs.tau.ac.il/~aiisreal/ und schauen Sie sich auch das neue Buch an
Parallele Koordinaten - In diesem Buch geht es um Visualisierung, bei der die fantastische Erkennung menschlicher Muster systematisch in den Problemlösungsprozess einbezogen wird ... www.springer.com/math/cse/book/978-0-387-21507-5.
In Ch. In 10 gibt es viele reale Beispiele mit multivariaten Daten, die zeigen, wie parallele Koordinaten (abgekürzt || -cs) verwendet werden können. Es lohnt sich auch, etwas Mathematik zu lernen, um multivariate / mehrdimensionale Beziehungen (Oberflächen) und nicht nur Punktmengen zu visualisieren und damit zu arbeiten. Es macht Spaß, die Analoga bekannter Objekte in vielen Dimensionen zu sehen und damit zu arbeiten, z. B. Möbiusstreifen, konvexe Mengen und mehr.
Kurz gesagt, || -cs ist ein mehrdimensionales Koordinatensystem, bei dem die Achsen parallel zueinander sind, sodass viele Achsen sichtbar sind. Die Methode wurde auf Konfliktlösungsalgorithmen in den Bereichen Flugsicherung, Computer Vision, Prozesskontrolle und Entscheidungsunterstützung angewendet.
quelle