Ich arbeite an der Erstellung einer Website, auf der die Volkszählungsdaten für ein vom Benutzer ausgewähltes Polygon angezeigt werden und die Verteilung der verschiedenen Parameter grafisch dargestellt werden soll (ein Diagramm pro Parameter).
Die Daten haben normalerweise die folgenden Eigenschaften:
- Die Stichprobengröße ist in der Regel groß (etwa 10.000 Datenpunkte).
- Der Wertebereich ist in der Regel sehr groß (z. B. kann die Mindestbevölkerung weniger als 100 und die Höchstbevölkerung etwa 500.000 betragen).
- q1 liegt normalerweise in der Nähe des Minimums (etwa 200), während q2 und q3 innerhalb von 10.000 liegen
- Es sieht nicht nach einer Normalverteilung aus
Ich bin kein Statistiker und daher ist meine Beschreibung möglicherweise nicht genau klar.
Ich möchte diese Verteilung in einer Grafik darstellen, die von den Bürgern gesehen wird (der Laie, wenn Sie möchten).
Am liebsten hätte ich ein Histogramm verwendet, aber es ist aufgrund des großen Wertebereichs nicht möglich, weshalb das Herstellen von Behältern nicht wirklich einfach und unkompliziert ist.
Ausgehend von dem, was ich über Statistiken weiß, wird häufig ein Box-Plot verwendet, um diese Art von Daten anzuzeigen. Für einen Laien ist das Entschlüsseln des Box-Plots jedoch nicht einfach.
Welche Möglichkeiten habe ich, um diese Daten leicht verständlich darzustellen?
quelle
Antworten:
Ein Boxplot ist nicht so kompliziert. Schließlich müssen Sie nur die drei Quartile und die Min- und Max- Werte berechnen, die den Bereich definieren. Eine Feinheit entsteht, wenn wir die Whisker zeichnen wollen, und verschiedene Methoden wurden vorgeschlagen. Beispielsweise würden in einem Tukey-Boxplot Werte außerhalb des 1,5-fachen des Interquartils des ersten oder dritten Quartils als Ausreißer betrachtet und als einfache Punkte angezeigt. Siehe auch Methoden zur Darstellung statistischer Informationen: The Box Plot für einen guten Überblick , von Kristin Potter. Die R - Software implementiert eine etwas andere Regel, aber der Quellcode ist verfügbar, wenn Sie ihn studieren möchten (siehe
boxplot()
und)boxplot.stats()
funktionen). Es ist jedoch nicht sehr nützlich, wenn das Interesse besteht, Ausreißer aus einer sehr verzerrten Verteilung zu identifizieren (siehe jedoch Ein angepasster Boxplot für verzerrte Verteilungen von Hubert und Vandervieren, CSDA 2008 52 (12)).In Bezug auf die Online-Visualisierung würde ich einen Blick auf Protovis werfen, eine pluginfreie js-Toolbox für interaktive Web-Displays. Die Beispielseite zeigt in wenigen Zeilen sehr anschaulich, was damit erreicht werden kann.
quelle
Vielleicht möchten Sie auch einen Blick auf Bohnenplots werfen .
[ Quelle ]
Implementiert in R-Paket von Peter Kampstra.
quelle
Ich würde vorschlagen, dass Sie mit Histogrammen durchhalten. Sie sind viel umfassender verstanden als die Alternativen. Verwenden Sie eine logarithmische Skala, um den großen Wertebereich zu bewältigen. Hier ist ein Beispiel, das ich in ein paar Minuten in Stata erfunden habe:
Ich gebe zu, dass die numerischen Beschriftungen auf der x-Achse nicht ganz einfach oder automatisch waren, aber während Sie eine Website erstellen, sind Ihre Programmierkenntnisse auf dem neuesten Stand Herausforderung!
quelle
Hier ist ein Matlab-Funktion zum gleichzeitigen Zeichnen mehrerer Histogramme in 2D als Alternative zum Box-Plot. Siehe das Bild oben. Und hier ist noch einer
Der Dichtestreifen ist eine weitere Alternative zum Box-Plot. Es ist ein schattierter monochromer Streifen, dessen Dunkelheit an einem Punkt proportional zur Wahrscheinlichkeitsdichte der Menge an diesem Punkt ist. Dies ist eine R-Implementierung des Dichtestreifens
quelle
Wie wäre es mit Quantilen? Es ist dann nicht erforderlich, eine Grafik, sondern nur eine Tabelle darzustellen. Für die Dorfzählung denke ich, dass die Benutzer am meisten daran interessiert sein werden, wie viele Dörfer eine bestimmte Größe habenx % von allen Dörfern sind kleiner als die bestimmte Anzahl. Für Dezilex = 0 , 10 , 20 , . . . , 100 . Sie können diese Tabelle mit den Prozentsätzen auf einer x-Achse und den Dezilen auf der y-Achse grafisch darstellen.
quelle
Wenn Sie die allgemeine Bevölkerung ansprechen (dh eine nicht statistisch versierte Zielgruppe), sollten Sie sich eher auf die Aufmerksamkeit als auf die statistische Genauigkeit konzentrieren.
Vergessen Sie Boxplots, ganz zu schweigen von Geigenplots (ich persönlich finde sie sehr schwer zu lesen)! Würde man den durchschnittlichen Straßenmenschen fragen, was ein Quantil ist, würde man meistens ein Schweigen mit großen Augen bekommen ...
Sie sollten Barplots, Blasendiagramme und möglicherweise einige Kreisdiagramme (brrrr) verwenden. Vergessen Sie Fehlerbalken (obwohl ich SD gegebenenfalls irgendwo in den Text einfügen würde).
Verwenden Sie Farben, Formen, dicke Linien, 3D. Sie sollten jedes Diagramm einzigartig und sofort verständlich machen, auch ohne alle Legenden / Achsen usw. lesen zu müssen. Machen Sie einen intelligenten Gebrauch von Karten, indem Sie sie ausmalen.
Information ist schön ist eine sehr gute Ressource, um Ideen zu bekommen. Schauen Sie sich zum Beispiel diese Tabelle an: Koffein und Kalorien : Jeder kann es verstehen und es ist angenehm für das Auge.
Und natürlich schauen Sie sich Edward Tuftes Arbeit an.
quelle
Ich mag Geigenhandlungen lieber selbst, da dies eine Vorstellung von der Form der Verteilung gibt. Wenn es jedoch auf den großen Wertebereich ankommt, ist es möglicherweise am besten, das Protokoll der Daten und nicht die Rohwerte zu zeichnen. Dann müssen Sie die Boxgrößen für Histogramme usw. auswählen Erwähnen Sie keine Protokolle und markieren Sie die Achsen 10, 100, 1000, 10000, 100000, 1000000 usw.
quelle