Eine einfache Erklärung für die Darstellung der parallelen Koordinaten

13

Ich habe viele parallele Koordinaten gelesen und gesehen. Kann jemand die folgenden Fragen beantworten:

  1. Was sind Parallelkoordinaten-Diagramme (PCP) in einfachen Worten, die ein Laie verstehen kann?
  2. Eine mathematische Erklärung mit einer gewissen Intuition, wenn möglich
  3. Wann ist PCP nützlich und wann kann man es verwenden?
  4. Wann ist PCP nicht sinnvoll und wann sollte es vermieden werden?
  5. Mögliche Vor- und Nachteile von PCP
suncoolsu
quelle
Tolles Thema - Sie werden viele +1 für diese Frage bekommen ...
Tal Galili
1
@Tal .. danke :-) Aber ich wollte mehr wissen und evtl. den Wiki-Artikel erweitern, der nicht zu informativ ist.
Suncoolsu
Großartiger Anreiz :)
Tal Galili

Antworten:

6

Es scheint mir, dass die Hauptfunktion von PCP darin besteht, homogene Gruppen von Individuen oder umgekehrt (im dualen Raum, analog zu PCA) spezifische Assoziationsmuster für verschiedene Variablen hervorzuheben. Es wird eine effektive grafische Zusammenfassung eines multivariaten Datensatzes erstellt, wenn nicht zu viele Variablen vorhanden sind. Variablen werden automatisch auf einen festen Bereich skaliert (normalerweise 0–1), der dem Arbeiten mit standardisierten Variablen entspricht (um den Einfluss einer Variablen auf die anderen aufgrund von Skalierungsproblemen zu verhindern), aber für sehr hochdimensionale Datensätze (# Bei Variablen> 10) müssen Sie sich unbedingt andere Anzeigen ansehen, z. B. Fluktuationsdiagramm oder Heatmap, wie sie in Microarray-Studien verwendet werden.

Es hilft bei der Beantwortung von Fragen wie:

  • Gibt es ein konsistentes Muster von Einzelbewertungen, das durch eine bestimmte Klassenzugehörigkeit erklärt werden kann (z. B. geschlechtsspezifische Unterschiede)?
  • Gibt es eine systematische Kovariation zwischen den bei zwei oder mehr Variablen beobachteten Bewertungen (z. B. niedrige bei Variablen beobachtete Bewertungen)? X1 ist immer mit Highscores verbunden X2)?

In der folgenden Darstellung der Irisdaten ist deutlich zu sehen, dass Arten (hier in verschiedenen Farben dargestellt) sehr unterschiedliche Profile aufweisen, wenn man die Länge und Breite der Blütenblätter betrachtet, oder dass Iris setosa (blau) in Bezug auf ihre Blütenblattlänge homogener ist ( dh ihre Varianz ist geringer).

Alt-Text

Sie können es sogar als Backend für Klassifizierungs- oder Dimensionsreduktionstechniken wie PCA verwenden. In den meisten Fällen möchten Sie bei der Durchführung einer PCA nicht nur den Funktionsbereich reduzieren, sondern auch Gruppen von Personen hervorheben (z. B. gibt es Personen, die bei einer Kombination der Variablen systematisch eine höhere Punktzahl erzielen). In der Regel führt dies dazu, dass die Faktorwerte hierarchisch gruppiert werden und die resultierende Clustermitgliedschaft im Fakultätsraum hervorgehoben wird (siehe FactoClass R-Paket).

Es wird auch in Clustergrammen ( Visualisierung nichthierarchischer und hierarchischer Clusteranalysen ) verwendet, die untersuchen sollen, wie sich die Clusterzuordnung bei Erhöhung der Clusteranzahl entwickelt (siehe auch Welche Stoppkriterien für agglomeratives hierarchisches Clustering werden in der Praxis verwendet? ).

Solche Anzeigen sind auch nützlich, wenn sie mit üblichen Streudiagrammen verknüpft sind (die konstruktionsbedingt auf 2D-Beziehungen beschränkt sind), dies als Bürsten bezeichnet werden und im Datenvisualisierungssystem GGobi oder in der Mondrian- Software verfügbar sind .

chl
quelle
4

In Bezug auf die Fragen 3, 4 und 5 empfehle ich Ihnen, sich diese Arbeit anzusehen

Wahrnehmung von Mustern in Parallelkoordinaten: Bestimmung von Schwellenwerten zur Identifizierung von Beziehungen durch: Jimmy Johansson, Camilla Forsell, Mats Lind, Matthew Cooper Information Visualization, Vol. 3, No. 7, No. 2. (2008), S. 152-162.

Zusammenfassend lässt sich sagen, dass Menschen die Richtung der Steigung der Beziehung zwischen den einzelnen Knoten gut identifizieren können, aber nicht so gut die Stärke der Beziehung oder den Grad der Steigung. Sie geben vorgeschlagene Geräuschpegel an, in denen die Menschen die Beziehung in dem Artikel noch entziffern können. Leider geht der Artikel nicht darauf ein, Untergruppen anhand von Farben zu identifizieren, wie chl zeigt.

Andy W
quelle
4

Bitte besuchen Sie http://www.cs.tau.ac.il/~aiisreal/ und schauen Sie sich auch das neue Buch an

Parallele Koordinaten - In diesem Buch geht es um Visualisierung, bei der die fantastische Erkennung menschlicher Muster systematisch in den Problemlösungsprozess einbezogen wird ... www.springer.com/math/cse/book/978-0-387-21507-5.

In Ch. In 10 gibt es viele reale Beispiele mit multivariaten Daten, die zeigen, wie parallele Koordinaten (abgekürzt || -cs) verwendet werden können. Es lohnt sich auch, etwas Mathematik zu lernen, um multivariate / mehrdimensionale Beziehungen (Oberflächen) und nicht nur Punktmengen zu visualisieren und damit zu arbeiten. Es macht Spaß, die Analoga bekannter Objekte in vielen Dimensionen zu sehen und damit zu arbeiten, z. B. Möbiusstreifen, konvexe Mengen und mehr.

Kurz gesagt, || -cs ist ein mehrdimensionales Koordinatensystem, bei dem die Achsen parallel zueinander sind, sodass viele Achsen sichtbar sind. Die Methode wurde auf Konfliktlösungsalgorithmen in den Bereichen Flugsicherung, Computer Vision, Prozesskontrolle und Entscheidungsunterstützung angewendet.

user1366
quelle