Die BBC hat weitere Daten zum Brexit-Referendum analysiert. Das erste Diagramm in ihrem Artikel fiel mir auf:
Es schien seltsam, die x-Achse bei 50% zu teilen. Sicherlich hätte dies auf den Median der Daten aufgeteilt werden sollen? (Oder der Mittelwert, wenn die Daten normal verteilt waren; aber wenn man darauf blinzelt, scheint das hier nicht der Fall zu sein.)
(Sie haben ihre Daten noch nicht veröffentlicht, aber ein kurzer Blick auf Google deutet darauf hin, dass die Absolventen ca. 25% der erwachsenen Bevölkerung ausmachen.
Aber das brachte mich dazu, darüber nachzudenken, wie ich dieses Diagramm so objektiv wie möglich zeichnen kann. Wäre es besser, die x-Achse linear zu halten und die beiden Kästchen rechts dreimal so breit zu haben? Oder behalten Sie die gleiche Größe der Felder bei und quetschen und strecken Sie die x-Achse, sodass jede N-Pixel-Spanne die gleiche Anzahl von Datenpunkten abdeckt? Oder etwas anderes?
quelle
Antworten:
Ich denke, diese FT-Version ähnlicher Daten dient als anständige Antwort darauf, wie die Daten fair dargestellt werden können.
Anstatt auf einer Skala von 0 bis 100 absolut zu sein, wird vergrößert, um sich auf die Änderung zu konzentrieren. Die Linien helfen dabei, das Muster zu überprüfen, das allein aufgrund der Überstriche nur an den Punkten schwer zu beurteilen ist. (Wie viele der 1070 Schutzzauber können Sie im Original erkennen?)
quelle
Ich stimme zu, dass das Färben der Quadranten rosa weitgehend kosmetisch ist, aber insgesamt sehe ich dies als eine klare informative Handlung. Die Nachricht ist sofort ersichtlich und nicht irreführend. Die BBC hat die tatsächlichen Datenpunkte aufgezeichnet. Sie haben die x- oder y-Achse nicht manipuliert. Die Anmerkung auf dem Plot ist korrekt und nicht überbewertet. Sie haben keine falschen Trendlinien oder andere unnötige Interpretationen hinzugefügt. Im Vergleich zu den meisten in den Medien präsentierten Datenzahlen ist diese Darstellung hervorragend - sie ist ein gutes Beispiel dafür, wie man die Daten für sich selbst sprechen lässt. Kurz gesagt, ich denke, Sie überdenken es. Ich bezweifle nicht, dass Sie einige Möglichkeiten finden können, um die Handlung zu verbessern, aber einfach ist normalerweise am besten.
quelle
Ich stimme zu, dass die Grafik in dem Sinne irreführend ist, dass sie angeblich zeigt, dass es keine Datenpunkte im Quadranten gibt, die kategorisch als hohe Urlaubsstimmen%, hohe% der Absolventen beschrieben werden. Was hoch und niedrig ist, wird relativ zu den Achsengrenzen, nicht zu den tatsächlichen Daten. Während es theoretisch möglich ist, eine Gemeinde mit einer Bevölkerung zu haben, die zu 100% studiert hat, gibt es eine solche Gemeinde nicht. Sie müssen keine Datenpunkte erfinden, um ein irreführendes Diagramm zu erstellen: Eine gebrochene Achse mit übertriebenen Änderungen ist ein Beispiel, das diesem nicht allzu unähnlich ist.
Eine objektivere Möglichkeit zur Visualisierung dieser Daten besteht darin, die Grenzwerte für die Streudiagrammachse auf max / min der Daten festzulegen und das Diagramm dann in Quadranten gleicher Fläche zu unterteilen.
Der Grund, warum ich mich für die gleiche Fläche von Quadranten entscheiden würde, ist, dass die Quadranten eine äquivalente lineare Beziehung zwischen Variablen aufweisen. Die kategorialen Beschreibungen der Quadranten "hoch" und "niedrig" werden als äquivalent behandelt, daher sollten auch die Bereiche gleich sein.
Wenn wir stattdessen Quadranten als eine andere Möglichkeit zur quantitativen Beschreibung von Daten verwenden möchten, können wir die Quadrantengrenzen auf den Durchschnitt jeder Variablen festlegen, wie in Datenvisualisierung mit R: 100-Beispielen gezeigt (zur Vorschau in Google Books verfügbar, S. 283,286).
Um einer Streudiagramm-Visualisierung eine weitere analytische Ebene hinzuzufügen, können Sie Farbe und Größe der Punkte verwenden. Zum Beispiel kann Farbe verwendet werden, um Universitätsstädte von den anderen zu trennen, die Wahlbeteiligung in einem Gefälle anzuzeigen oder die Ergebnisse der allgemeinen Wahlen für diese Bezirke hervorzuheben. Ich bin nicht sicher, ob die Größe bei so vielen Datenpunkten effektiv sein wird, aber Sie können möglicherweise verschiedene Bevölkerungsgruppen untersuchen, z. B. 65+, und wie sie in den Daten dargestellt werden.
Meines Erachtens gibt es auch zwei wichtige Vorbehalte, die bei der Betrachtung dieser Grafik zu beachten sind: Erstens, dass alle Absolventen gezählt werden, unabhängig davon, ob sie im Referendum abgestimmt haben oder nicht, und zweitens, dass es ansässige Absolventen mit EU-Pässen umfasst, die konnte im Referendum nicht abstimmen (vorausgesetzt, die Quelldaten basieren auf Volkszählungen).
quelle
Ich stimme zu, sehr irreführend. Ich würde den farbigen Hintergrund alle zusammen beseitigen.
Wenn Sie darauf bestehen, es zu färben, vielleicht ein Gradient, der der Bevölkerungsdichte entspricht? Dies bedeutet, dass die Hintergrundfarbe dunkler wird, wenn mehr Schutzzauber in die Kategorie "gebildet gegen Urlaub" fallen
Es gibt definitiv einen Trend, ich glaube nicht, dass irgendjemand dagegen argumentieren würde - vielleicht sollte sich der Autor an eine Trendlinie halten?
quelle