Wie sollte dieses BBC-Diagramm (Brexit-Korrelation zwischen Bildung und Ergebnissen) erstellt worden sein?

8

Die BBC hat weitere Daten zum Brexit-Referendum analysiert. Das erste Diagramm in ihrem Artikel fiel mir auf:

Geben Sie hier die Bildbeschreibung ein

Es schien seltsam, die x-Achse bei 50% zu teilen. Sicherlich hätte dies auf den Median der Daten aufgeteilt werden sollen? (Oder der Mittelwert, wenn die Daten normal verteilt waren; aber wenn man darauf blinzelt, scheint das hier nicht der Fall zu sein.)

(Sie haben ihre Daten noch nicht veröffentlicht, aber ein kurzer Blick auf Google deutet darauf hin, dass die Absolventen ca. 25% der erwachsenen Bevölkerung ausmachen.

Aber das brachte mich dazu, darüber nachzudenken, wie ich dieses Diagramm so objektiv wie möglich zeichnen kann. Wäre es besser, die x-Achse linear zu halten und die beiden Kästchen rechts dreimal so breit zu haben? Oder behalten Sie die gleiche Größe der Felder bei und quetschen und strecken Sie die x-Achse, sodass jede N-Pixel-Spanne die gleiche Anzahl von Datenpunkten abdeckt? Oder etwas anderes?

Darren Cook
quelle
5
Ich sehe hier kein wirkliches Problem. Verlassen> Bleiben ist für die Betrachtung des Ergebnisses von großer Bedeutung. Mehr Absolventen als nicht ist nachvollziehbar. Wenn für letzteres ein anderer Schwellenwert gewählt worden wäre, wären einige andere Leser möglicherweise verwirrt gewesen. Im Gegensatz zu einer Antwort liegt der Grund dafür, dass in einem Quadranten keine Datenpunkte angezeigt werden, darin, dass keine dorthin gehören. Was ist dort irreführend? Es ist fraglich, ob alle Schattierungen ablenken, aber es wird versucht, die Interpretation zu leiten.
Nick Cox
4
Beachten Sie, dass Streudiagramme im Datenjournalismus und verwandten Bereichen, wahrscheinlich zur enormen Überraschung von statistisch Gesinnten, allgemein als zu schwierig für das allgemeine Publikum angesehen werden!
Nick Cox
2
Diese Handlung ist im Allgemeinen gut gemacht, wie mehrere angemerkt haben. Die einzige wirkliche Kritik, die sofort auffällt, ist die Überzeichnung der Punkte in der Mitte: Das macht es schwierig, die Anzahl der Punkte dort zu bewerten, was die Darstellung etwas weniger nützlich macht, als es sein könnte.
whuber

Antworten:

3

Ich denke, diese FT-Version ähnlicher Daten dient als anständige Antwort darauf, wie die Daten fair dargestellt werden können.

Geben Sie hier die Bildbeschreibung ein

Anstatt auf einer Skala von 0 bis 100 absolut zu sein, wird vergrößert, um sich auf die Änderung zu konzentrieren. Die Linien helfen dabei, das Muster zu überprüfen, das allein aufgrund der Überstriche nur an den Punkten schwer zu beurteilen ist. (Wie viele der 1070 Schutzzauber können Sie im Original erkennen?)

xan
quelle
1
Vielen Dank. Ich mag diese Idee: Wenn die meisten Elemente in einem Teil des Diagramms etwas gemeinsam haben (geografisches Gebiet hier), markieren Sie alle Elemente mit dieser Funktion. (Die Trendlinien funktionieren auch in diesem Fall sehr gut.)
Darren Cook
10

Ich stimme zu, dass das Färben der Quadranten rosa weitgehend kosmetisch ist, aber insgesamt sehe ich dies als eine klare informative Handlung. Die Nachricht ist sofort ersichtlich und nicht irreführend. Die BBC hat die tatsächlichen Datenpunkte aufgezeichnet. Sie haben die x- oder y-Achse nicht manipuliert. Die Anmerkung auf dem Plot ist korrekt und nicht überbewertet. Sie haben keine falschen Trendlinien oder andere unnötige Interpretationen hinzugefügt. Im Vergleich zu den meisten in den Medien präsentierten Datenzahlen ist diese Darstellung hervorragend - sie ist ein gutes Beispiel dafür, wie man die Daten für sich selbst sprechen lässt. Kurz gesagt, ich denke, Sie überdenken es. Ich bezweifle nicht, dass Sie einige Möglichkeiten finden können, um die Handlung zu verbessern, aber einfach ist normalerweise am besten.

Gordon Smyth
quelle
4
+1 da stimme ich zu. Ich würde hinzufügen, dass die Aufteilung nach Median oder Mittelwert nicht willkürlicher ist als nach 50%. Es kommt nur darauf an, was genau Sie anzeigen möchten.
Tim
4

Ich stimme zu, dass die Grafik in dem Sinne irreführend ist, dass sie angeblich zeigt, dass es keine Datenpunkte im Quadranten gibt, die kategorisch als hohe Urlaubsstimmen%, hohe% der Absolventen beschrieben werden. Was hoch und niedrig ist, wird relativ zu den Achsengrenzen, nicht zu den tatsächlichen Daten. Während es theoretisch möglich ist, eine Gemeinde mit einer Bevölkerung zu haben, die zu 100% studiert hat, gibt es eine solche Gemeinde nicht. Sie müssen keine Datenpunkte erfinden, um ein irreführendes Diagramm zu erstellen: Eine gebrochene Achse mit übertriebenen Änderungen ist ein Beispiel, das diesem nicht allzu unähnlich ist.

Eine objektivere Möglichkeit zur Visualisierung dieser Daten besteht darin, die Grenzwerte für die Streudiagrammachse auf max / min der Daten festzulegen und das Diagramm dann in Quadranten gleicher Fläche zu unterteilen.

Der Grund, warum ich mich für die gleiche Fläche von Quadranten entscheiden würde, ist, dass die Quadranten eine äquivalente lineare Beziehung zwischen Variablen aufweisen. Die kategorialen Beschreibungen der Quadranten "hoch" und "niedrig" werden als äquivalent behandelt, daher sollten auch die Bereiche gleich sein.

Wenn wir stattdessen Quadranten als eine andere Möglichkeit zur quantitativen Beschreibung von Daten verwenden möchten, können wir die Quadrantengrenzen auf den Durchschnitt jeder Variablen festlegen, wie in Datenvisualisierung mit R: 100-Beispielen gezeigt (zur Vorschau in Google Books verfügbar, S. 283,286).

Um einer Streudiagramm-Visualisierung eine weitere analytische Ebene hinzuzufügen, können Sie Farbe und Größe der Punkte verwenden. Zum Beispiel kann Farbe verwendet werden, um Universitätsstädte von den anderen zu trennen, die Wahlbeteiligung in einem Gefälle anzuzeigen oder die Ergebnisse der allgemeinen Wahlen für diese Bezirke hervorzuheben. Ich bin nicht sicher, ob die Größe bei so vielen Datenpunkten effektiv sein wird, aber Sie können möglicherweise verschiedene Bevölkerungsgruppen untersuchen, z. B. 65+, und wie sie in den Daten dargestellt werden.

Meines Erachtens gibt es auch zwei wichtige Vorbehalte, die bei der Betrachtung dieser Grafik zu beachten sind: Erstens, dass alle Absolventen gezählt werden, unabhängig davon, ob sie im Referendum abgestimmt haben oder nicht, und zweitens, dass es ansässige Absolventen mit EU-Pässen umfasst, die konnte im Referendum nicht abstimmen (vorausgesetzt, die Quelldaten basieren auf Volkszählungen).

Gherka
quelle
Vielen Dank. Die Verwendung von Max und Min wäre hier nicht weit entfernt, aber mit einer langschwänzigen Verteilung oder einem nervigen Ausreißer (z. B. könnte man sich vorstellen, dass eine Universitätsstadt eine Gemeinde mit 80 +% hat) könnte sie immer noch verzerren. Würden Sie immer noch mit Min / Max und dann Quadranten mit gleichmäßiger Fläche fahren?
Darren Cook
Ich habe meine Antwort bearbeitet, um zu erklären, warum ich in diesem Fall gerade Bereiche verwenden würde. Wenn die Verteilung langwierig ist, wäre es wahrscheinlich nicht angebracht, Quadranten zu verwenden, um die Ergebnisse auf diese Weise zu kategorisieren.
Gherka
2

Ich stimme zu, sehr irreführend. Ich würde den farbigen Hintergrund alle zusammen beseitigen.

Wenn Sie darauf bestehen, es zu färben, vielleicht ein Gradient, der der Bevölkerungsdichte entspricht? Dies bedeutet, dass die Hintergrundfarbe dunkler wird, wenn mehr Schutzzauber in die Kategorie "gebildet gegen Urlaub" fallen

Es gibt definitiv einen Trend, ich glaube nicht, dass irgendjemand dagegen argumentieren würde - vielleicht sollte sich der Autor an eine Trendlinie halten?

Mohammad Athar
quelle
3
Ich stimme zu, dass eine Trendlinie (wahrscheinlich Kurve) eine natürliche Ergänzung für statistisch Gesinnte ist, aber dies ist eine Grafik in den Massenmedien.
Nick Cox