Ich habe eine große Menge von Länderdaten, die überfüllt sind (wie Sie unten sehen können), aber ich brauche die Beschriftungen und die Ausreißer - ich habe auch viele Grafiken, daher wäre es mühsam, das Fenster zurückzusetzen und einen falschen Datenpunkt hinzuzufügen für die Ausreißer.
Gibt es eine gute Alternative zu einem Streudiagramm, die in einer solchen Situation besser sein könnte? Ich würde wirklich gerne eine Karte machen, aber ich brauche beide Teile des bestellten Paares.
data-visualization
arebearit
quelle
quelle
Antworten:
In dieser Handlung, die ich vor einigen Monaten gemacht habe, werden einige Techniken demonstriert .
Beschriften Sie nur die "interessanten" Punkte und verlassen Sie sich auf ein Hover-Etikett, um andere Punkte bei Bedarf zu identifizieren. Dies erfordert menschliches Eingreifen, um erfolgreich zu sein, obwohl Software Heuristiken nahe kommen kann, z. B. nur Beschriftungen anzeigen, wenn sie ohne Überlappung angezeigt werden können.
Transformieren Sie die Skala, z. B. mit Protokollen oder Quantilen. Die Vorsicht hierbei ist, dass die Skala nicht mehr direkt mit unserer Wahrnehmung übereinstimmt. Der Betrachter muss die Transformation im Auge behalten.
Andere Optionen:
Verwenden Sie Gitter oder kleine Vielfache . Zeigen Sie also eine Reihe von Diagrammen mit jeweils einer Teilmenge der Punkte an, z. B. ein Diagramm für jede Region für Ihre Länderdaten.
Verwenden Sie verknüpfte Diagramme mit einer Variablen, z. B. Balken oder Punktdiagramme, sodass sich die Beschriftung in der Achse befindet. Es ist hilfreich, wenn Sie nach beiden Variablen interaktiv sortieren können.
quelle
Wenn Sie eine Alternative zu einem Streudiagramm wünschen, funktioniert möglicherweise ein Diagramm mit parallelen Koordinaten , insbesondere wenn Sie versuchen, die Beziehung zwischen vielen Variablen darzustellen. Sie haben "viele Diagramme", und ein Diagramm mit parallelen Koordinaten kann dies möglicherweise auf eins reduzieren! Hier ist ein Beispiel für den berühmten Iris-Datensatz aus Wikipedia ( Bildnachweis ):
Die Darstellung zeigt sehr deutlich Unterschiede zwischen den Arten. Sie können stattdessen nach geografischer Region oder Entwicklungsstufe färben. Wir können sehen, wie schwierig es ist, die drei Arten anhand der Kelchblattbreite zu unterscheiden, aber ihre Blütenblattlängen sind stärker voneinander getrennt. Nach einer gewissen mentalen Anpassung (unsere Augen können zu trainiert sein, um nach einer "Steigung" zu suchen) besteht offensichtlich eine positive Korrelation zwischen Blütenblattbreite und Blütenblattlänge, da höhere Blütenblattbreiten mit höheren Blütenblattlängen verbunden sind. Blumen am einen oben auf der Skala stehen für den anderen eher am oberen Rand der Skala - dies äußert sich in ungefähr parallelen Linien zwischen den Achsen. Andererseits besteht eine negative Korrelation zwischen Kelchblattbreite und Kelchblattlänge,
Das Bild erfasst einen Großteil der in einer ganzen Matrix von Streudiagrammen verfügbaren Informationen ( Bildnachweis ):
Positiv zu vermerken ist, dass das Diagramm der parallelen Achse es uns ermöglicht, einem Individuum über alle Messgrößen hinweg zu folgen: Wenn wir zwei interessante Punkte auf zwei separaten Streudiagrammen, insbesondere Ausreißern, sehen, ist möglicherweise nicht ersichtlich, ob sie dasselbe Individuum darstellen, sondern auf In einem parallelen Achsendiagramm können wir einfach "dem Faden folgen". Auf der anderen Seite werden durch das Wegwerfen all dieser Streudiagramme Informationen über multivariate Beziehungen weggeworfen. Am offensichtlichsten ist, dass wir einige Details der Clusterbildung nicht so deutlich sehen können (obwohl Anmerkung Nick Cox parallele Koordinatendiagramme empfiehlt, um zu untersuchen, wie "tiefes" Clustering durch die Variablen geht) und die Möglichkeiten für eine lineare Unterscheidung vollständig verdeckt sind. Es kann auch schwierig werden, Korrelationen zwischen Achsen zu erkennen, die im Diagramm der parallelen Koordinaten weit voneinander entfernt sind.
Wenn Sie die Möglichkeit der Interaktivität habenAnstelle einer statischen Visualisierung bieten parallele Koordinatendiagramme einige Optionen, um dies zu umgehen. Beispielsweise kann ein Benutzer die Reihenfolge der Achsen ändern und Variablen nebeneinander platzieren, um die interessierende Beziehung klarer zu sehen. Da sich positive und negative Korrelation in einem Diagramm mit parallelen Koordinaten so unterschiedlich verhalten, ist es hilfreich, eine Achse umdrehen zu können (wenn Sie die Richtung einer Achse umkehren, die eine negative Korrelation mit einer benachbarten Achse aufweist, werden die Linien zwischen ihnen "entwirrt"). ). Selbst in einem statischen Diagramm ist es am effektivsten, Achsen umzukehren, um so viele positive Korrelationen wie möglich zu erzeugen, und Achsen zu ordnen, um aufeinanderfolgende Korrelationen so stark wie möglich zu machen, da es schwierig ist, einem Strang durch ein Gewirr zu folgen (siehe Nick Cox zu) dieser Punkt).
Die vielleicht wichtigste interaktive Funktion ist das Bürsten und Verknüpfen : Der Benutzer kann beispielsweise das obere Quartil von Personen anhand einer Variablen auswählen, und ihre Linien werden während des gesamten Diagramms automatisch hervorgehoben. Wenn auf einer anderen Achse Punkte hervorgehoben werden, die meistens oben liegen, deutet dies auf eine positive Korrelation hin (wir sollten jedoch überprüfen, ob das untere Quartil mit Punkten am unteren Rand der zweiten Variablen verknüpft ist). Wenn Punkte, die sich hauptsächlich am unteren Rand befinden, hervorgehoben sind, deutet dies auf eine negative Korrelation hin. Wenn eine Auswahl von Punkten hervorgehoben wird, die zufällig über die gesamte Achse verteilt sind, deutet dies auf eine geringe Korrelation hin.
Angesichts der Anzahl der Länder, die Sie einbeziehen, scheint es schwierig zu sein, sie alle auf einem Grundstück zu kennzeichnen, es sei denn, Sie haben ungewöhnlich großzügige Platzbeschränkungen. Möglicherweise müssen Sie sich damit zufrieden geben, nur die wichtigsten einzelnen Länder hervorzuheben. Bei einer interaktiven Visualisierung können Hover-Beschriftungen Unordnung vermeiden (wie @xan hervorhebt), und Sie können Benutzern möglicherweise erlauben, alle Länder in einer bestimmten Region (oder einer anderen Gruppierung) hervorzuheben, in denen ihre Beschriftungen möglicherweise automatisch angezeigt werden.
Wenn Sie nur eine begrenzte Anzahl von Beschriftungen verwenden, können Sie diese möglicherweise auf den Achsen selbst platzieren. Wenn Sie sich Edward Tuftes Die visuelle Darstellung quantitativer Informationen , Kapitel 7: Multifunktionale grafische Elemente, ansehen, werden Sie feststellen, dass dies Tuftes Vorschlag für eine sogenannte "Tabellengrafik" für staatliche Steuereinnahmen sehr ähnlich ist ( dies ist möglicherweise vertrauter) Sie als "Slopegraph"). Jede Achse wird zu einer Art Rangliste, was eine nette Funktion ist. (Es gibt einige Unterschiede zwischen den Ansätzen, insbesondere da Tuftes Beispieltabellengrafik auf jeder Achse dieselben Einheiten und Maßstäbe verwendete, anstatt die Daten so zu normalisieren, dass sie passen, und da seine "Achsen" einen früheren und späteren Zeitraum darstellten, die Steigungen hatten eine zusätzliche Interpretation als Wachstumsrate. Diese Interpretationen gelten im Allgemeinen nicht für ein Diagramm mit parallelen Koordinaten, aber die Idee einer Ranglistentabelle auf jeder Achse tut dies.)
Links und Referenzen
quelle