Datensätze für Beispiele zur Datenvisualisierung, Lehre und Forschung

9

Ich suche nach vorhandenen Datensätzen, mit denen wir verschiedene von uns untersuchte Datavis-Techniken testen können.

Ich kenne mehrere Ressourcen wie die in R enthaltenen (versuchen plot(Orange)oder sehen Sie hier ).

Aber ich möchte noch einen Schritt nach vorne machen:

  • Welches sind die besten realen Datensätze zum Testen eines Visualisierungstools?
  • Welche Datensätze haben Sie in wissenschaftlichen Arbeiten oder Lehrfolien zu Datavis verwendet?
  • Welches ist das beste Beispiel aus der realen Welt, um die Vorteile der grafischen Darstellung aufzuzeigen?
Robermorales
quelle
2
Viele gute Beispiele aus der Praxis
WSkid
1
Suchen Sie ausdrücklich nach kostenlosen Datensätzen?
Fomite
3
Die Visualisierung hängt (unter anderem) vom Kontext und der Zielgruppe ab, was darauf hindeutet, dass "best" in diesem Kontext nicht eindeutig ist. Sie erhalten möglicherweise fokussiertere und sachdienlichere Antworten, indem Sie angeben, welche "Techniken" Sie erforschen.
whuber
1
@whuber Techniken, über die Automatisierung der Visualisierung. Am besten erklären. Am besten als Benchmark.
Robermorales
@EpiGrad Ja, so kostenlos wie möglich.
Robermorales

Antworten:

5

Es gibt eine große Anzahl von Datenbanken im Internet. Je nach Thema können Sie verschiedene Quellen erhalten.

Im Themenbereich "Menschliche Entwicklung" finden Sie beispielsweise Datenquellen unter (http://hdrstats.undp.org/):

http://hdrstats.undp.org/en/tables/default.html

Für die Beobachtung des Klimawandels gibt es unter (http://www.ipcc-data.org/) ein Web mit hochauflösenden Klimadaten, zum Beispiel:

http://www.ipcc-data.org/obs/cru_ts2_1.html

Beide Beispiele enthalten reale Daten, die in veröffentlichten wissenschaftlichen Arbeiten verwendet werden, mit einer großen Datenmenge. Zeitbezogene und / oder räumliche Daten. Die Visualisierungsmöglichkeiten dieser Daten sind endlos.

Jose Zubcoff
quelle
Welcher der möglichen Datensätze aus diesen großartigen Quellen gefällt Ihnen am besten? danke
robermorales
1
Es kommt auf die Eignung für den "Geschmack" der Visualisierung an. Um beispielsweise Zeitreihen zu untersuchen / anzuzeigen, verfügt das IPCC-Web über genügend Daten und wird häufig verwendet (offensichtlich zur Analyse des Klimawandels). Um räumliche Daten anzuzeigen, enthält die Human Development-Website viele weltraumbezogene Daten sowie Daten zu Zeit.
Jose Zubcoff
Ihr erster Link ist defekt (DNS-Fehler).
HoraceT
Leider ist der erste Link unterbrochen (5 Jahre später), aber es gibt viele offene Daten: kaggle.com/datasets data.okfn.org/data data.gov data.europa.eu/euodp/en/data
Jose Zubcoff
9

Ich verwende gerne die Anscombe -Datensätze (auch in R verfügbar), um zu zeigen, wie wichtig das Plotten bei Regressionen ist. Wenn Sie nicht vertraut sind, erhalten Sie aus allen vier Datensätzen dieselbe Regressionslinie und Diagnose, obwohl die Sätze selbst alle sehr unterschiedlich aussehen. Sie können die folgenden Diagramme in Residuendiagramme umwandeln, um Probleme zu veranschaulichen, nach denen Sie nach Durchführung einer Regression in den Residuen suchen könnten.

Anscombe-Datensätze

Charlie
quelle
Ja, wir kannten diese Datensätze. Es ist ein guter Ausgangspunkt.
Robermorales
Das Hauptproblem ist, dass es sich nicht um einen realen Datensatz handelt.
Robermorales
3
@robermorales, fair genug, aber ich denke, dass das Sehen der "reinen" Version des Problems es einfacher macht, chaotischere, realistischere Visualisierungen / Probleme zu verstehen.
Charlie
4

William S. Cleveland hat zwei Bücher mit großartigen Verwendungsmöglichkeiten für Grafiken. Die Daten und der Code zum Erstellen der Grafiken in Visualizing Data befinden sich auf seiner Website

Peter Flom - Monica wieder einsetzen
quelle
Welchen Datensatz von Cleveland magst du mehr? danke
robermorales
1
@robertomorales Ich denke, sie sind alle für ihre Zwecke gut ausgewählt. Jeder, der sich für statistische Grafiken interessiert, sollte Cleveland sorgfältig studieren.
Peter Flom - Monica wieder einsetzen
1
Die Daten für die Visualisierung von Daten finden Sie unter lib.stat.cmu.edu/datasets/visualizing.data.zip. Ich kann sie nicht mehr auf Clevelands eigener Website finden.
Nick Cox
4

Möglicherweise kennen Sie diese bereits, aber hier sind sie trotzdem:

Der UCI Machine Learning Repository verfügt über viele öffentlich zugängliche Datensätze aus der realen Welt.

Die US-Regierung veröffentlicht viele ihrer Datensätze unter data.gov .

Wenn Sie knifflige Visualisierungsdaten wünschen, würde ich empfehlen, sich eine Klassifizierungsaufgabe anzusehen. Mir scheint, dass der Bag of Words auf dem UCI MLR einige nette Eigenschaften hat, aber ich könnte mich irren (schon eine Weile her, seit ich ihn benutzt habe).

John Doucette
quelle
Vielen Dank! Es gibt viel !
Robermorales
3

Hier sind ein paar.

Sci2 Tool-Beispieldatensätze
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets
Beispieldatensätze, die im Lieferumfang von Sci2 Tool enthalten sind.

Tableau-Beispieldatensätze
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
Beispieldatensätze für den Einstieg in Tableau.

Fantastische öffentliche Datensätze
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Diese Liste öffentlicher Datenquellen wird aus Blogs, Antworten und Benutzerantworten gesammelt und aufgeräumt. Die meisten Datensätze sind kostenlos, einige nicht.

Dieser Thread ist ziemlich alt und hofft, dass diese Beule einige neue Beiträge bekommt!

Mike Nutt
quelle