Normalerweise treffe ich meine eigenen Entscheidungen, wenn ich Handlungen vorbereite. Ich frage mich jedoch, ob es Best Practices für die Erstellung von Plots gibt.
Anmerkung: Robs Kommentar zu einer Antwort auf diese Frage ist hier sehr relevant.
data-visualization
references
user28
quelle
quelle
SO
: stackoverflow.com/questions/6973394/…Wir könnten den ganzen Tag hier bleiben, um bewährte Methoden zu beschreiben, aber Sie sollten zuerst Tufte lesen. Meine Hauptempfehlung:
Halte es einfach.
Häufig versuchen die Benutzer, ihre Diagramme mit Informationen aufzuladen. Aber Sie sollten wirklich nur eine Hauptidee haben, die Sie vermitteln möchten, und wenn jemand Ihre Nachricht fast sofort nicht erhält, sollten Sie überdenken, wie Sie sie präsentiert haben. Beginnen Sie also erst mit der Arbeit an Ihrem Diagramm, wenn die Nachricht selbst klar ist. Auch hier gilt Ockhams Rasiermesser.
quelle
Eine Faustregel, der ich nicht immer folge, die aber gelegentlich nützlich ist, ist zu berücksichtigen, dass es wahrscheinlich ist, dass Ihre Handlung irgendwann in der Zukunft sein wird
Sie müssen versuchen, Ihre Zeichnungen so deutlich zu machen, dass selbst wenn sie in Zukunft ungenau reproduziert werden, die Informationen, die die Zeichnung vermitteln soll, noch lesbar sind.
quelle
Neben einer klaren Botschaft versuche ich mich immer an die Handlung zu erinnern:
Ich habe meine Plotter-Software (matplotlib, ROOT oder root2matplotlib) so konfiguriert, dass das meiste davon standardmäßig funktioniert. Bevor ich das benutzte
gnuplot
, brauchte ich hier zusätzliche Pflege.quelle
Auf dem Gebiet der Physik gibt es die Regel, dass die gesamte Arbeit / der Bericht nur durch einen kurzen Blick auf die Diagramme verständlich sein sollte. Daher würde ich vor allem raten, dass sie selbsterklärend sein sollten.
Dies impliziert auch, dass Sie immer überprüfen müssen, ob Ihr Publikum mit einer Handlung vertraut ist. Ich hatte einmal einen großen Fehler gemacht, vorausgesetzt, jeder Wissenschaftler weiß, was Boxplots sind, und dann eine Stunde verschwendet, um es zu erklären.
quelle
Hier sind meine Richtlinien, basierend auf den häufigsten Fehlern, die ich sehe (zusätzlich zu allen anderen guten Punkten, die erwähnt wurden).
quelle
Schauen Sie sich die R-Grafikbibliothek ggplot2 an. Details finden Sie auf der Webseite http://had.co.nz/ggplot2/. Dieses Paket generiert sehr gute Standard-Plots, die den Tufte-Prinzipien, den Cleveland-Richtlinien und dem Ihaka-Farbpaket entsprechen.
quelle
Berücksichtigen Sie beim Plotten in Farbe, dass farbenblinde Personen möglicherweise Probleme haben, Elemente nur anhand der Farbe zu unterscheiden. Damit:
quelle
Das sind wunderbare Vorschläge. Wir haben viel Material unter http://biostat.mc.vanderbilt.edu/StatGraphCourse zusammengestellt . Eine Gruppe von Statistikern aus der Pharmaindustrie, dem akademischen Bereich und der FDA erstellt ebenfalls eine Ressource, die für klinische Studien und verwandte Forschung von großem Nutzen sein wird. Viel neues Material wird in einem Monat enthüllt, aber vieles ist bereits da - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph
Mein persönliches Lieblingsgrafikbuch ist Elements of Graphing Data von William Cleveland.
In Bezug auf Software ist es meiner Meinung nach schwer, die ggplot2- und Gitterpakete von R zu übertreffen. Stata unterstützt auch einige hervorragende Grafiken.
quelle
Es hängt auch davon ab, wo Sie Ihre Grundstücke veröffentlichen möchten. Sie ersparen sich viel Ärger, indem Sie den Leitfaden für Autoren konsultieren, bevor Sie Zeichnungen für ein Tagebuch anfertigen.
Speichern Sie die Diagramme auch in einem Format, das sich leicht ändern lässt, oder speichern Sie den Code, den Sie zum Erstellen der Diagramme verwendet haben. Möglicherweise müssen Sie Korrekturen vornehmen.
quelle
Verwenden Sie keine Dynamit-Diagramme: http://pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.html , verwenden Sie Violin-Diagramme oder ähnliches (Boxplots-Familie)
quelle
Die anderen Antworten sind zu formelhaft, um überzeugend zu sein. Lassen Sie mich eine allgemeinere Antwort geben. Ich habe eine Weile mit dieser Frage gekämpft. Ich biete diesen Prozess an:
Ich bin skeptisch gegenüber Pauschalforderungen wie "keep it simple" - was bedeutet das? Nun, es kommt auf das Publikum an. Einige Zuschauer werden den Tufte-Stil auffressen. Aber einige Zuschauer schätzen ab und zu ein wenig Chart-Junk. Manche Menschen langweilen sich in Streudiagrammen. Manche Leute mögen bunte Hintergründe. Ist es so falsch, sie ein wenig zu engagieren, selbst wenn Sie "ästhetische" Reinheit gefährden? Das liegt an Ihnen zu entscheiden.
Die Reaktion Ihres Publikums wird ein wichtiges, aber nicht das einzige Feedback sein. Wenn Sie einen Weg finden, ihr Verständnis vor und nach Ihrer Präsentation zu messen , werden Sie beginnen, die Auswirkungen zu verstehen, die Sie gemacht haben.
Die "richtige" Antwort hängt von diesen Fragen ab:
Welche Medien werden Sie verwenden?
Erstellen Sie statische oder interaktive Diagramme?
Versuchen Sie, eine vordefinierte Geschichte zu erzählen (Exposition) oder zum Experimentieren anzuregen (Exploration)?
Inwieweit möchten Sie, dass das Publikum seine eigenen Schlussfolgerungen zieht?
Inwieweit möchten Sie, dass das Publikum Ihrer Geschichte folgt und von ihr überzeugt wird?
Inwieweit möchten Sie, dass das Publikum Ihre Ergebnisse in Frage stellt?
Zusammengefasst entwerfen Ihre Materialien Ihre Nachricht, Publikum absichtlich gegeben und Einschränkungen.
quelle
Eine Sache, an die ich mich anscheinend erinnern kann, die Tufte erwähnt hat und die in den anderen Antworten nicht vorkommt, ist das Mapping. Das heißt, Position, Richtung, Größe usw. in Ihrem Diagramm repräsentieren die Realität . Was sich in der Grafik befindet, sollte sich in der realen Welt befinden. Was groß ist, sollte groß sein (bedenken Sie, dass Bereiche Bereiche und Volumenvolumina darstellen sollten. Versuchen Sie niemals, einen skalaren Wert durch einen Bereich darzustellen, es ist sehr vieldeutig!). Dies gilt auch für Farben, Formen usw., sofern diese relevant sind.
Ein interessantes Beispiel ist die Grafik "Rockserie" hier: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Während es technisch korrekt ist und eine "größere" Rocklänge eine höhere Position in der Grafik einnimmt, ist es tatsächlich ziemlich verwirrend, da die Rocklänge von oben beginnt und nach unten geht (im Gegensatz zu Menschen oder Bäumen, bei denen wir die Höhe von oben messen) Boden). Eine längere Rocklänge bedeutet also einen niedrigeren Wert:
Es gibt wie immer Schwierigkeiten. Zum Beispiel betrachten wir im Allgemeinen die Zeit, um vorwärts zu kommen, und zumindest im Westen lesen wir von links nach rechts, sodass unsere Zeitreihengraphen normalerweise auch von links nach rechts fließen, wenn die Zeit zunimmt. Was passiert also, wenn Sie etwas darstellen möchten, das im Laufe der Zeit am besten lateral dargestellt wird (z. B. Ost-West-Messungen von etwas)? In diesem Fall müssen Sie Kompromisse eingehen und entweder die Zeit nach oben oder unten abbilden (was wiederum von den kulturellen Wahrnehmungen abhängt, denke ich) oder Ihre laterale Variable nach oben / unten in Ihrem Diagramm abbilden.
quelle
Es hängt davon ab, wie die Handlungen besprochen werden.
Wenn ich beispielsweise Pläne für ein Gruppentreffen mit Anrufern von verschiedenen Standorten aus sende, ziehe ich es vor, diese in Powerpoint zusammenzustellen, anstatt in Excel, damit das Umblättern einfacher ist.
Bei technischen Einzelgesprächen stelle ich Excel-Daten zur Verfügung, damit der Kunde einen Plot beiseite schieben und die Rohdaten anzeigen kann. Oder ich kann p-Werte in Zellen neben Regressionskoeffizienten eingeben, z
Denken Sie daran: Grundstücke sind billig, insbesondere für eine Diashow oder für das Versenden per E-Mail an eine Gruppe. Ich möchte lieber 10 klare Diagramme erstellen, die wir durchblättern können, als 5 Diagramme, in denen ich versuche, verschiedene Kohorten (z. B. "Männer und Frauen") in dasselbe Diagramm einzufügen.
quelle
Ich würde hinzufügen, dass die Wahl der Darstellung die Art des statistischen Tests widerspiegeln sollte, der zur Analyse der Daten verwendet wird. Mit anderen Worten, alle Merkmale der Daten, die für die Analyse verwendet wurden, sollten visuell dargestellt werden. Sie würden also Mittelwerte und Standardfehler anzeigen, wenn Sie einen T-Test verwenden, aber Boxplots, wenn Sie einen Mann-Whitney-Test verwenden.
quelle