Ich suche nach vorhandenen Datensätzen, mit denen wir verschiedene von uns untersuchte Datavis-Techniken testen können.
Ich kenne mehrere Ressourcen wie die in R enthaltenen (versuchen plot(Orange)
oder sehen Sie hier ).
Aber ich möchte noch einen Schritt nach vorne machen:
- Welches sind die besten realen Datensätze zum Testen eines Visualisierungstools?
- Welche Datensätze haben Sie in wissenschaftlichen Arbeiten oder Lehrfolien zu Datavis verwendet?
- Welches ist das beste Beispiel aus der realen Welt, um die Vorteile der grafischen Darstellung aufzuzeigen?
data-visualization
dataset
teaching
Robermorales
quelle
quelle
Antworten:
Es gibt eine große Anzahl von Datenbanken im Internet. Je nach Thema können Sie verschiedene Quellen erhalten.
Im Themenbereich "Menschliche Entwicklung" finden Sie beispielsweise Datenquellen unter (http://hdrstats.undp.org/):
http://hdrstats.undp.org/en/tables/default.html
Für die Beobachtung des Klimawandels gibt es unter (http://www.ipcc-data.org/) ein Web mit hochauflösenden Klimadaten, zum Beispiel:
http://www.ipcc-data.org/obs/cru_ts2_1.html
Beide Beispiele enthalten reale Daten, die in veröffentlichten wissenschaftlichen Arbeiten verwendet werden, mit einer großen Datenmenge. Zeitbezogene und / oder räumliche Daten. Die Visualisierungsmöglichkeiten dieser Daten sind endlos.
quelle
Ich verwende gerne die Anscombe -Datensätze (auch in R verfügbar), um zu zeigen, wie wichtig das Plotten bei Regressionen ist. Wenn Sie nicht vertraut sind, erhalten Sie aus allen vier Datensätzen dieselbe Regressionslinie und Diagnose, obwohl die Sätze selbst alle sehr unterschiedlich aussehen. Sie können die folgenden Diagramme in Residuendiagramme umwandeln, um Probleme zu veranschaulichen, nach denen Sie nach Durchführung einer Regression in den Residuen suchen könnten.
quelle
Jeder große Tisch. Zum Beispiel Google-Bilder der "offiziellen Zensus-Tabelle". Sie werden Dinge wie das folgende sehen .
Schauen Sie sich auch Gelman et al. (2002) Lassen Sie uns üben, was wir predigen: Tabellen in Grafiken verwandeln. American Statistician 56: 121-130
quelle
William S. Cleveland hat zwei Bücher mit großartigen Verwendungsmöglichkeiten für Grafiken. Die Daten und der Code zum Erstellen der Grafiken in Visualizing Data befinden sich auf seiner Website
quelle
Möglicherweise kennen Sie diese bereits, aber hier sind sie trotzdem:
Der UCI Machine Learning Repository verfügt über viele öffentlich zugängliche Datensätze aus der realen Welt.
Die US-Regierung veröffentlicht viele ihrer Datensätze unter data.gov .
Wenn Sie knifflige Visualisierungsdaten wünschen, würde ich empfehlen, sich eine Klassifizierungsaufgabe anzusehen. Mir scheint, dass der Bag of Words auf dem UCI MLR einige nette Eigenschaften hat, aber ich könnte mich irren (schon eine Weile her, seit ich ihn benutzt habe).
quelle
Hier sind ein paar.
Sci2 Tool-Beispieldatensätze
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets
Beispieldatensätze, die im Lieferumfang von Sci2 Tool enthalten sind.
Tableau-Beispieldatensätze
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
Beispieldatensätze für den Einstieg in Tableau.
Fantastische öffentliche Datensätze
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Diese Liste öffentlicher Datenquellen wird aus Blogs, Antworten und Benutzerantworten gesammelt und aufgeräumt. Die meisten Datensätze sind kostenlos, einige nicht.
Dieser Thread ist ziemlich alt und hofft, dass diese Beule einige neue Beiträge bekommt!
quelle
Ich habe gerade eine Menge Datensätze hier bemerkt:
http://www.inside-r.org/howto/finding-data-internet
Sie wissen nicht, ob das von Nutzen ist?
Ich fürchte, ich unterrichte keine Visualisierung, daher kann ich Ihre spezifischen Fragen nicht kommentieren.
quelle