Wie viele Variablen kann ich grafisch darstellen, bevor die Übersichtlichkeit verloren geht?

14

Mal sehen , ob ich dieses erklären kann grafische Wirtschaft Frage , die ich richtig haben. Ich bin neu auf dem Gebiet und es ist erwähnenswert, dass dies reine Neugier ist, und meine Beispiele sind - wie Sie gleich sehen werden - vollständig erfunden.

Wie viele Variablen kann ich grafisch darstellen, bevor mein Diagramm die Kommunikationsqualität verliert? Angenommen, mein Publikum besteht zum Beispiel aus Sonntagszeitungslesern.

Angenommen, ich habe dieses Set: Gewicht (x) / Alter (y) und zwei Personen: Jane, 10 Jahre, 30 kg; und Joe, 20 Jahre alt, 60 kg. Die grafische Darstellung könnte etwa so aussehen:

Bildbeschreibung hier eingeben Bildbeschreibung hier eingeben

Jetzt weiß ich, dass ich mit der Größe der Kreise eine weitere Variable hinzufügen kann. Wenn ich also eine Darstellung hinzufügen möchte, wie viele Burger Jane und Joe pro Woche essen (10 bzw. 20), könnte ich Folgendes haben:

Bildbeschreibung hier eingeben Bildbeschreibung hier eingeben

Und ich kann sogar Form oder Farbe + Größe verwenden, um eine vierte Variable hinzuzufügen, zum Beispiel, wenn sie mehr Cheeseburger als Rindfleischburger essen (Einschränkung hier ist, dass die Art von Burger ein Boolescher ist, mit nur zwei möglichen Werten), aber trotzdem:

Bildbeschreibung hier eingeben Bildbeschreibung hier eingeben

Und hier, wo ich denke, wird es langsam unordentlich. Das Hinzufügen von Formen zur Combo, um eine fünfte Variable darzustellen, würde das Verständnis des Graphen gefährden. Wenn ich mir die Grafik anschaue, verarbeitet mein (bestimmtes) Gehirn nur 2 oder 3 Variablen, nicht mehr. Essen sie zum Beispiel Combo oder nur Burger ?:

Bildbeschreibung hier eingeben Bildbeschreibung hier eingeben

Ich dachte an eine dritte Dimension, aber das würde einfach schrecklich aussehen. Ich denke möglicherweise völlig falsch darüber nach, und es besteht die Möglichkeit, dass mir hier etwas ganz Offensichtliches fehlt, das ich nicht erfassen kann (zum Beispiel, wenn der Versuch, mehr als 3 oder 4 Variablen darzustellen, als Übung einfach falsch ist), aber zurück zu meinen Fragen:

  • 4 (vielleicht 5 , wenn der Graph ist sehr wie mein einfach) eine angemessene Anzahl für maximale Variablen zur gleichen Zeit in einem Zweiachsendiagramm dargestellt?

  • Gibt es andere Diagrammtypen, die mehr Variablen zulassen, ohne an Klarheit zu verlieren?

  • Gibt es ein gutes Beispiel für ein erfolgreiches Diagramm, das eine große Anzahl von Variablen darstellt?

Yisela
quelle

Antworten:

14

Edit III: Ich habe ein unglaublich schönes Beispiel für eine multivariable quantitative Datenvisualisierung gefunden und musste es hinzufügen. Sie finden es unter der Überschrift "Edit III (Nobelpreisträger)".

Bearbeiten II: Es gab ein kleines Missverständnis und ich habe versucht zu klären, wie ich die beabsichtigte Verwendung der Daten interpretiere. Ich habe zwei Bilder ersetzt und einen Abschnitt hinzugefügt "Möchtest du Pommes damit?"


Grafiken zeigen Daten.

Edward Tufte:

Unordnung und Verwirrung sind Designfehler und keine Attribute von Informationen. Unordnung erfordert eine Designlösung, keine Inhaltsreduzierung. Sehr oft, je intensiver das Detail, desto klarer und verständlicher, denn Sinn und Argumentation sind unerbittlich KONTEXTUELL. Weniger ist langweilig.

Warum visualisieren wir Daten?

  • Werkzeuge zum Denken
  • Das Ergebnis intensiven Sehens zu zeigen
  • Ein Problem verstehen, eine Entscheidung treffen
  • Vergleiche zeigen, Kausalität zeigen
  • Gründe zur Annahme angeben

Wie?

  • zeige die Daten
  • den Betrachter dazu bringen, über die Substanz nachzudenken, anstatt über die Methodik, das Grafikdesign, die Technologie der Grafikproduktion oder etwas anderes
  • Vermeiden Sie es, das zu verfälschen, was die Daten zu sagen haben
  • Präsentiere viele Zahlen auf kleinem Raum
  • große Datenmengen kohärent machen
  • Ermutigen Sie das Auge, verschiedene Daten zu vergleichen
  • Die Daten werden auf verschiedenen Detailebenen angezeigt, von einer umfassenden Übersicht bis hin zur Feinstruktur.
  • einem einigermaßen klaren Zweck dienen: Beschreibung, Erforschung, Tabellierung oder Dekoration.
  • eng mit den statistischen und verbalen Beschreibungen eines Datensatzes verknüpft sein.

Einige Definitionen:

Daten:

wird allgemein als "in Datenbanken sortiertes Zeug" angesehen. Dies können natürlich Zahlen, Bilder, Töne, Videos usw. sein. Daten sind sammelbar, oft quantitativ. In seiner rohesten Form ist es schwer zu verdauen; nur Wände aus Ziffern. Wissen Sie; die Matrix . Im Allgemeinen haben wir keine massiven Datenbanken, die aus Nullen bestehen, für alle Dinge, die wir nicht haben, auch wenn die Dinge, die wir nicht haben, manchmal die informativsten sind . So sehen , was wir nicht haben, müssen wir visualisieren , was wir tun müssen.

Information:

können Sie aus Daten extrahieren . Indem wir Daten irgendwie anzeigen, können wir Informationen sammeln . Eines der Beispiele, die ich häufig verwende, ist, dass wenn ich Ihnen eine Liste der Länder der Welt gebe und Ihnen sage, dass zwei fehlen, es sehr unwahrscheinlich ist, dass Sie sie anhand dieser Liste finden. Wenn ich dies jedoch durch Färben aller Länder auf einer Karte anzeige, werden Sie sofort sehen, dass ich die Zentralafrikanische Republik und Neukaledonien weggelassen habe. Das heißt "Lärm reduzieren" und eine Geschichte so effektiv wie möglich erzählen.

Infografiken und Datenvisualisierungen:

Ich zögere, Ihre Beispielinfografiken zu nennen. Ich weiß, dass dies oft als Synonym für Datenvisualisierung, Informationsdesign oder Informationsarchitektur gesehen wird, aber ich bin anderer Meinung. Infografiken sind für mich eine Reihe von Grafiken, Diagrammen und Illustrationen , die möglicherweise eine Reihe von voreingenommenen Aussagen zum Lesen der Daten enthalten. Es ist weniger objektiv, eher dazu geneigt, Daten zu überspringen, die nicht im "Interesse" des Erstellers liegen: Sie werden zu einer Schlussfolgerung geführt, die jemand vordefiniert hat. Sie haben Unterhaltungswert und verwenden häufig Illustrationen, die den Daten einen gewissen Fokus entziehen. Das ist in Ordnung, aber ich denke, wir sollten ein wenig differenzieren.

Beispiele

Große Daten:

Denken Sie daran, dass Big Data nicht mit komplexen Daten identisch ist. Viele Daten können nur viele gleiche Daten sein, z. B. diese LinkedIn-Karte: Die Kerndaten sind dieselben, es gibt jedoch Filter (durch Markieren). Es gibt zwei Variablen: Geographie und eine Art Tag, mit dem Menschen in Berufe / Interessen / Beziehungen eingeteilt werden. Wahnsinnige Datenmenge; aber nur zwei Variablen.

Bildbeschreibung hier eingeben

Multivariable:

Hier ist ein Beispiel für eine multivariable Visualisierung von Daten. Dies ist Charles Minards Karte von 1869, die die Anzahl der Männer in Napoleons russischer Feldzugsarmee von 1812, ihre Bewegungen sowie die Temperatur auf dem Rückweg zeigt. Große Version hier. Bildbeschreibung hier eingeben

Es dauert ein wenig, bis der Code geknackt ist, aber wenn Sie das tun, ist es großartig. Die Variablen sind:

  • Größe der Armee (Anzahl der Lebenden / Toten)
  • geographische Lage
  • Richtung (Ost - West)
  • Temperatur
  • zeit (termine)
  • Kausalität (starb in Schlachten und an Kälte)

Das ist eine erstaunliche Menge an Informationen in einer einfachen, zweifarbigen Karte. Der geografische Teil ist stilisiert, um Platz für die anderen Variablen zu schaffen, aber wir haben keine Probleme, ihn zu finden.

Hier ist eine kniffligere. Dies ist viel einfacher zu lesen, wenn Sie mit grundlegenden evolutionären Visualisierungen, Cladogrammen, Phylogenics und Prinzipien der Biogeographie vertraut sind. Denken Sie daran, dass es für Menschen gemacht ist, die mit diesem Thema vertraut sind. Hier ist, was es zeigt: Ein phylogeographisches Bild von Giftfroschlinien aus Südamerika. Die Karten auf der linken Seite zeigen die wichtigsten biogeografischen Regionen im Zeitverlauf und das Bild auf der rechten Seite zeigt die Froschlinien im Kontext ihrer biogeografischen Herkunft. (Von Santos JC, Coloma LA, Summers K., Caldwell JP, Ree R. et al. [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], über Wikimedia Commons). Wenn Sie den Code "knacken", ist es wild, erstaunlich informativ.

Bildbeschreibung hier eingeben

Kleine Vielfache, Sparklines:

Ich kann das nicht genug betonen: Unterschätze niemals den Wert, Informationen zu wiederholen oder sie in separate identische Visualisierungen zu unterteilen. Solange es einigermaßen einfach ist, ein Diagramm mit einem anderen zu vergleichen, ist dies vollkommen in Ordnung. Wir sind Musterfindungsmaschinen. Dies wird oft als kleines Vielfaches bezeichnet. Wir haben nur wenige Probleme, diese Bilder schnell zu analysieren, und es ist oft sinnlos, alles in eine große Grafik zu packen, wenn zehn kleine noch besser funktionieren:

Bildbeschreibung hier eingeben

Noch einer:

Bildbeschreibung hier eingeben

Und eine, die andere, aber sich wiederholende Grafiken verwendet:

Bildbeschreibung hier eingeben

Sparklines sind ein Begriff, der von Edward Tufte geprägt und zu einer voll funktionsfähigen, vollständig anpassbaren Javascript-Bibliothek entwickelt wurde. Es handelt sich im Grunde genommen um winzige Diagramme, die als Teil des Textes und nicht als "externes" Objekt in Text eingefügt werden können. So sieht die Standardeinstellung aus: Bildbeschreibung hier eingeben

Edit III (Nobelpreisträger)

Ich musste nur diese Datenvisualisierung hinzufügen, die ich gefunden habe, sie ist einfach zu gut: Sie zeigt Nobelpreisträger. Welche Universität, welche Fakultät, welches Fach, welches Jahr, welches Alter, welche Heimatstädte, ob es geteilt wurde, welche Abschlussstufe. Wunderschöne Beweise. Dies sind alles quantifizierbare Daten. Mehr hier.

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben

Deine Daten

Alle Fragen, die sich bei Java stellen, sind äußerst wichtig.

Was Sie versuchen zu tun, ist ein visuelles Werkzeug zum Denken zu erstellen. Dazu müssen Sie die beste Qualität des Signal-Rausch-Verhältnisses extrahieren. Was Sie zu kämpfen haben, ist, wie Sie Daten mit unterschiedlichen Variablen zu Informationen korrelieren . Hier ist eine Frage: Was muss ungefähr richtig sein und was muss genau richtig sein? Was ist das Ziel?

Ich gehe davon aus, dass Sie die Daten ohne zu große Verzerrung anzeigen möchten: Sie möchten, dass der Leser Korrelationen selbst findet, wenn eine Korrelation besteht. Ihr Ziel ist es nicht, den Leuten zu sagen, dass Burger schlecht für sie sind oder dass Frauen weniger Burger essen als Männer, sondern dass sie es "sehen", wenn dies in den Daten enthalten ist (stellen Sie sich vor, diese drei Personen wären eine Familie. Das würde schwingen Sie unseren Blick auf die ganze Burger-Essen-Grafik ein bisschen).

Ihr Datensatz ist so klein, dass Sie ihn einfach in eine Tabelle einfügen können, und es wäre in Ordnung. Aber natürlich geht es hier um die allgemeine Idee:

Ein kleines Detail: Zeit (Alter) ist etwas, das wir von links nach rechts (Zeitachse) als horizontal ansehen. Wiegen Sie etwas, das auf dem Kopf steht, also ist es eine gute Idee, Ihr x - y zu wechseln.

1. Was sind die eindeutigen, festen Einheiten?

  • Namen

2. Was sind die Variablen (eh ..)?

  • Gewicht (kg)
  • Alter (Jahre)
  • Anzahl der Burger (Integer)
  • Art der Burger (ganze Zahl)

Hinweis: Ihre Daten bestehen ausschließlich aus Einheiten. Zählbar, quantifizierbar jeweils auf einer eigenen mentalen Skala. Kilo, Alter, Gewicht und Zahlen. Und in der Datenbanksprache sind ihre Namen die Schlüssel. Wenn Sie anfangen, Raum-Zeit-Visualisierungen zu machen, wird dies zu einem echten Kopfschmerz. Stellen Sie sich vor, Sie sollten Geburtsort, jetziges Zuhause usw. hinzufügen.

Die einzigen zwei hier, die eine Korrelation haben, sind die Anzahl der Burger und ob es sich um eine Kombination handelt oder nicht. Alle anderen Variablen sind unabhängig und nur eine ist fest (Name). Irgendwann werden bei großen Datenmengen sogar Namen uninteressant und durch demografische Daten, Alter, Geschlecht oder ähnliches ersetzt.

Mit diesem winzigen Datensatz könnten Sie alles in einem Diagramm darstellen, zum Beispiel so: Bildbeschreibung hier eingeben

Sie können auch die Achse und den Inhalt der Namensblase ändern:

Persönliche Anmerkung: Ich denke, das ist das bessere von beiden, weil das x und das y "physikalische" Eigenschaften eines Menschen enthalten. Die Variable in den Blasen ist hier die Anzahl der Burger.

Bildbeschreibung hier eingeben

Sie können zusätzlich zum Diagramm auch Kreisdiagramme hinzufügen oder sogar nur Kreisdiagramme verwenden. Persönlich hätte ich beides, wie über kleine Vielfache erwähnt: Bildbeschreibung hier eingeben

Willst du Pommes damit?

Meine Vermutung war, dass wir auch das Verhältnis von Burger zu Essen kennen wollten. Jede Mahlzeit enthält einen Burger. Nicht alle Mahlzeiten sind Combomeals.

  1. wollen wir nur wissen, ob jemand manchmal combomeals isst?
  2. oder wollen wir wissen, wie viele der burgergerichte auch combomeals sind?

Wenn 1., würde ein Boolescher Wert, der auf den Namen / Schlüssel / die ID angewendet wird, ausreichen.

Jane isst manchmal combomeals? Wahr falsch.

Wenn 2., könnten wir auf jede Mahlzeit einen Booleschen Wert anwenden :

1 Cheeseburger, combomeal = wahr

1 Cheeseburger, combomeal = wahr

1 Cheeseburger, combomeal = falsch

1 Cheeseburger, combomeal = falsch

1 Cheeseburger, combomeal = falsch

1 Cheeseburger, combomeal = falsch

1 Cheeseburger, combomeal = falsch

1 Beefburger, combomeal = wahr

1 Beefburger, combomeal = wahr

1 Beefburger, combomeal = falsch

Das ist sehr mühsam, daher können wir es folgendermaßen aufteilen:

Jane isst 10 Burger. Davon sind drei Combos ("willst du Pommes damit?").

Eines der Combomeals ist ein Beefburger-Menü.

Zwei der Combomeals sind Cheeseburger-Menü.

Der Rest sind Single-Burger. 5 Käse, zwei Rindfleisch.

Dieses Kreisdiagramm war ein Versuch, dies zu veranschaulichen. Ich habe in dieser Version die Tortenstücke zur Verdeutlichung aufbewahrt. Die Sache dabei ist, dass es kein Sprung wäre, große Datensätze und% anzuwenden: Bildbeschreibung hier eingeben

Aber ich denke, der beste Weg ist, umzudenken.

Eine andere Art, es zu betrachten, ist es, es wirklich sehr, sehr einfach zu machen. Hier ist es einfacher zu sehen, welche Altersgruppen, welche Gewichtsgruppen und alle Daten, die Sie nicht "haben" , uns mitteilen können. Die Daten, die Sie haben, sind nicht platzbezogen, sondern nur Einheiten (kg, Jahre, Zahlen + Schlüssel / ID / Name):

(Edit: Ei auf meinem Gesicht: Ich habe diese Bilder durch korrektere ersetzt, was "alle Mahlzeiten sind Burger, nicht alle Mahlzeiten sind Combo" anbelangt.)

Bildbeschreibung hier eingeben Dies wäre ziemlich einfach mit mehr Leuten zu erweitern:

Bildbeschreibung hier eingeben Oder, noch besser, wenn Sie die Altersgruppen 10, 20 und 30 vergleichen, können Sie eine recht einfach zu lesende statistische Visualisierung erstellen:

Bildbeschreibung hier eingeben

..Und nur um so klar wie möglich zu sein; Hier ist ein Beispiel für diese Denkweise. Diese Grafik zeigt die Überlebenden der Titanic, das Verhältnis von Besatzung, Klasse, Männern und Frauen. Bildbeschreibung hier eingeben

Es wird eine Menge anderer Lösungen geben, das sind nur ein paar Gedanken.

Ich könnte weiter und weiter machen, aber jetzt habe ich mich und wahrscheinlich alle anderen erschöpft.

Tools zum Spielen:

Gephi

Gapminder Sehen Sie diese phänomenale TED-Präsentation von Hans Rosling - lieben Sie diesen Kerl

Google Charts

Somvis

Raphaël

MIT Exhibit (früher Similie)

d3

Highcharts

Weitere Lektüre:

PJ Onori; Zur Verteidigung schwer

Edward Tufte: Wunderschöne Beweise

Edward Tufte: Sich Informationen vorstellen

Edward Tufte: Die visuelle Darstellung quantitativer Informationen

Visuelle Erklärungen: Bilder und Mengen, Beweise und Erzählungen

Male, Alan., 2007 Illustration einer theoretischen und kontextuellen Perspektive Lausanne, Schweiz; New York, NY: AVA Academia

Isles, C. & Roberts, R., 1997. Im sichtbaren Licht, Fotografie und Klassifizierung in Kunst, Wissenschaft und Alltag, Museum of Modern Art Oxford.

Card, SK, Mackinlay, J. & Shneiderman, B. Hrsg., 1999. Lesungen in Information Visualization: Mit Vision denken 1. Aufl., Morgan Kaufmann.

Grafton, A. & Rosenberg, D., 2010. Zeitkartografien: Eine Geschichte der Zeitachse, Princeton Architectural Press.

Lima, M., 2011. Visuelle Komplexität: Kartierung von Informationsmustern, Princeton Architectural Press.

Bounford, T., 2000. Digitale Diagramme: Wie statistische Informationen effektiv entworfen und dargestellt werden 0 ed., Watson-Guptill.

Steele, J. & Iliinsky, N. Hrsg., 2010. Schöne Visualisierung: Betrachten von Daten mit den Augen von Experten 1. Aufl., O'Reilly Media.

Gleick, J., 2011. Die Information: Eine Geschichte, eine Theorie, eine Flut, ein Pantheon

Benteh
quelle
Ich habe alles gelesen, aber es wird Wochen dauern, bis ich es aufgenommen habe. Du solltest ein Buch schreiben!
Joshua Frank
Wissen Sie für das Nobelpreis-Image, wie sie es geschafft haben? Diese fließenden Bänder sind einfach wunderschön.
Joshua Frank
Nein, ich weiß nicht, wie genau sie es geschafft hat, aber Giorgia Lupi hat sehr bald
benteh
Hey, gute Idee. Ich habe ihr gerade eine E-Mail geschickt.
Joshua Frank
2
Sie verdienen einen Novell-Preis für diese Antwort n_n
Rafael
5

Ich denke, es gibt ein paar zusätzliche Fragen, die Ihre Suche nach dem Schlüssel zur Darstellung von Daten für Ihr Publikum einschränken könnten. Ich denke an sie, als würde man den Lebenslauf auf einen bestimmten Job verkürzen, den man möchte.

  1. Warum erstellen Sie eine Infografik?
  2. Was ist das Nettoziel oder -ergebnis, das Ihr Publikum über Ihre Daten wissen soll?
  3. Was wissen Sie über Ihre Zielgruppe und in welcher Beziehung stehen sie zu den Daten? (Demografisches Alter, Geschlecht, Standort, Gewicht usw.)
  4. Was sind die wichtigsten und unwichtigsten Daten, die Sie anzeigen, und welche Unterschiede bestehen zwischen ihnen?
  5. In welchem ​​Medium / Kontext werden Ihre Daten angezeigt, um Ihr "Nettoziel" für die erstmalige Erstellung zu erreichen? Wird es beispielsweise eine digitale Darstellung von Daten oder physischen Daten sein (denken Sie an Gummibärchen in einem Glas, wenn Ihre Zielgruppe Kinder sind)? Wird es für ein Bürotreffen oder ein kommerzielles Unterfangen sein?
  6. Können die Daten in verschiedene Infografiken aufgeteilt werden, während die Integrität Ihres Ziels bei der Erstellung erhalten bleibt?

Ihre Daten und Ihr Ziel sollten die Bedingungen für das bestimmen, was Sie anzeigen und nicht anzeigen sollen. Wie wichtig wäre es beispielsweise, eine Grafik der Bestellungen bei McDonald's an einem Dienstag zwischen 13.00 und 15.00 Uhr anzuzeigen, wenn Sie nur den Vergleich der Bestellungen im Allgemeinen anzeigen möchten. Die Zeitvariable wird nicht benötigt, obwohl wir die Rohdaten dafür haben. Das war nicht unser Ziel.

Um Ihre Fragen gezielt zu beantworten. Ich persönlich (subjektiv) denke, wenn Sie mit 3'ish / 4-Variablen (Größe, Form, Farbe, Position) in einem einfachen Diagramm wie diesem überholt sind, wird der Leser (ich) gelangweilt / verloren und gelangweilt / verloren ist wahrscheinlich nicht der Grund, warum das Diagramm erstellt wurde. Sie können jedoch total lustig sein und das Publikum wirklich einbeziehen. Zum Beispiel, so etwas wie dies widersetzt, zu dieser . Ich schätze auch die Bedeutung des zweiten Beispiels nicht ein, denn es wäre eine wirklich effektive Infografik, wenn ich in einer Besprechung im Büro allgemeine Daten anzeigen würde. Dies geht zurück auf die Frage nach dem Medium und dem Kontext der Anzeige der Daten.

Wenn Sie nach Möglichkeiten suchen, Variablen in Daten anzuzeigen, empfehle ich die Untersuchung von Infografiken. Hier ist ein guter Auftakt aus dem Smashing Magazine zum Erstellen effektiver Infografiken. Denken Sie daran, dass ein Teil davon subjektiv sein kann und ist.

Javi
quelle
2

Dies ist eine ausgezeichnete Frage. Wirklich.

Genialer Gedankengang, auf dem zu sein.

Es sollte eine Diskussion darüber geben. Aber ich würde es etwas anders ausdrücken:

**

Wie viele Eigenschaften können wir mit modernen illustrativen Technologien und Designs in Beziehung setzen?

**

Die Antwort liegt in drei Aspekten der Produktion: Anzeige, Design und Art der Präsentation.

Anzeige ist eine physikalische Sache. Mit Einschränkungen hinsichtlich Größe, Auflösung und Farbraum.

Design ist unbegrenzt, aber der wirklich interessante Aspekt dieser Frage. Wie können wir moderne illustrative Technologien und unser Verständnis für Design und Kreativität nutzen, um so viel wie möglich zu zeigen.

Präsentationsmodi sind entweder statisch, dynamisch oder interaktiv. Jede mit ihren eigenen Stärken und Schwächen, kombiniert mit Medium, Typ und Größe des Displays.

Und wie Javi zu Recht betont, aber vielleicht nicht weit genug mit ... DAS IST ALLES SUBJEKTIV! Oder nicht.

Verwirrt
quelle