Ich habe Schwierigkeiten, den richtigen Weg zur Visualisierung von Daten auszuwählen. Nehmen wir an, wir haben Buchhandlungen , die Bücher verkaufen , und jedes Buch hat mindestens eine Kategorie .
Wenn wir für eine Buchhandlung alle Kategorien von Büchern zählen, erhalten wir ein Histogramm, das die Anzahl der Bücher anzeigt, die in eine bestimmte Kategorie für diese Buchhandlung fallen.
Ich möchte das Verhalten des Buchladens visualisieren, ich möchte sehen, ob sie eine Kategorie gegenüber anderen Kategorien bevorzugen. Ich möchte nicht sehen, ob sie alle zusammen Sci-Fi bevorzugen, aber ich möchte sehen, ob sie jede Kategorie gleich behandeln oder nicht.
Ich habe ~ 1M Buchhandlungen.
Ich habe an 4 Methoden gedacht:
Probieren Sie die Daten aus und zeigen Sie nur die Histogramme von 500 Buchhandlungen. Zeigen Sie sie auf 5 separaten Seiten mit einem 10x10-Raster. Beispiel eines 4x4-Gitters:
Gleich wie # 1. Aber dieses Mal sortieren Sie die x-Achsenwerte nach ihrer Anzahl absteigend. Wenn es also eine Bevorzugung gibt, ist dies leicht zu erkennen.
Stellen Sie sich vor, Sie setzen die Histogramme in # 2 wie ein Deck zusammen und zeigen sie in 3D. Etwas wie das:
Anstatt die Farbe der dritten Achse zur Darstellung von Farben zu verwenden, verwenden Sie eine Heatmap (2D-Histogramm):
Wenn Buchhandlungen im Allgemeinen einige Kategorien anderen vorziehen, wird dies als schöner Verlauf von links nach rechts angezeigt.
Haben Sie andere Visualisierungsideen / -werkzeuge zur Darstellung mehrerer Histogramme?
quelle
Antworten:
Wie Sie herausgefunden haben, gibt es keine einfachen Antworten auf Ihre Frage!
Ich nehme an, dass Sie daran interessiert sind, seltsame oder andere Buchhandlungen zu finden? Wenn dies der Fall ist, können Sie Dinge wie PCA ausprobieren ( weitere Informationen finden Sie auf der Wikipedia- Cluster-Analyseseite ).
Betrachten Sie dieses Beispiel, um Ihnen eine Idee zu geben. Sie haben 26 Buchhandlungen (mit den Namen A, B, .. Z). Alle Buchhandlungen sind ähnlich, außer:
Ein Hauptkomponenten-Diagramm hebt diese Geschäfte zur weiteren Untersuchung hervor.
Hier ist ein Beispiel für einen R-Code:
Dies ergibt die folgende Darstellung:
PCA-Plot http://img265.imageshack.us/img265/7263/tmplx.jpg
Beachte das:
Andere Möglichkeiten
Sie können sich auch GGobi ansehen , ich habe es nie benutzt, aber es sieht interessant aus.
quelle
Ich würde etwas vorschlagen, das keinen definierten Namen hat (wahrscheinlich "Parallelplot") und so aussieht:
Grundsätzlich zeichnen Sie alle Zählungen für alle Buchhandlungen als Punkte über die auf der x-Achse aufgelisteten Kategorien und verbinden die Ergebnisse jeder Buchhandlung mit einer Linie. Dies kann jedoch für 1M-Zeilen zu verwirrend sein. Das Konzept stammt von GGobi, das bereits von csgillespie erwähnt wurde.
quelle