Auffinden frei verfügbarer Datenproben

98

Ich habe an einer neuen Methode zum Analysieren und Analysieren von Datensätzen gearbeitet, um Untergruppen einer Population zu identifizieren und zu isolieren, ohne vorher die Merkmale einer Untergruppe zu kennen. Während die Methode mit Stichproben künstlicher Daten (dh Datensätzen, die speziell zum Identifizieren und Trennen von Teilmengen der Bevölkerung erstellt wurden) gut genug funktioniert, möchte ich versuchen, sie mit Live-Daten zu testen.

Was ich suche, ist eine frei verfügbare (dh nicht vertrauliche, nicht geschützte) Datenquelle. Vorzugsweise eine, die bimodale oder multimodale Verteilungen enthält oder offensichtlich aus mehreren Teilmengen besteht, die mit herkömmlichen Mitteln nicht einfach auseinandergezogen werden können. Wo würde ich nach solchen Informationen suchen?

EAMann
quelle
4
Sie möchten vielleicht getthedata.org eine Frage-und-Antwort-Website zum Auffinden von Datensätzen
Jeromy Anglim

Antworten:

46

Die folgende Liste enthält viele Datensätze, die Sie interessieren könnten:

Mehper C. Palavuzlar
quelle
17

Die Weltbank bietet eine Menge interessanter Daten und war in letzter Zeit sehr aktiv bei der Entwicklung einer netten API dafür.

Außerdem verfügt commugrate project über eine interessante Liste.

Informationen zu gesundheitsbezogenen Daten in den USA finden Sie im Health Indicators Warehouse .

Daniel Lemires Blog verweist auf einige interessante Beispiele (hauptsächlich auf die DB-Forschung zugeschnitten), darunter die kanadische Volkszählung 1880 und synoptische Cloud-Berichte .

Und für den heutigen Tag (04.03.2012) stehen auch US-Volkszählungsdaten von 1940 zum Download zur Verfügung.

radek
quelle
2
Die Weltbank geht die Extrameile mit offenen Daten und Karten für Stata und R.
Fr.
13

Gapminder verfügt über eine Reihe von Datensätzen (430 auf den letzten Blick), die für Sie von Nutzen sein können oder nicht.

Amos
quelle
11

MLComp hat einige interessante Datensätze, und als Bonus wird Ihr Algorithmus gewertet, wenn Sie ihn hochladen.

Jilles de Wit
quelle
10

Ein guter Ort zum Nachschauen ist die Data and Story Library oder DASL der Carnegie Mellon University , die Datendateien enthält, die die Verwendung grundlegender Statistikmethoden veranschaulichen. Ein gutes Beispiel kann eine Lektion zu einer bestimmten Statistikmethode anschaulich und relevant machen Wir hoffen, dass DASL auch als Archiv für Datensätze aus der Statistikliteratur dienen wird. "

user211
quelle
9

Starten Sie R und geben Sie data(). Dadurch werden alle Datensätze im Suchpfad angezeigt. Viele zusätzliche Datensätze sind in Add-On-Paketen verfügbar. Zum Beispiel enthält das AERPaket einige interessante realistische sozialwissenschaftliche Datensätze .

Jeromy Anglim
quelle
5

Das Stack Exchange-Netzwerk verfügt nun über eine neue Website, Open Data (in der Beta-Version vom 5. März 2015), die sich mit Daten befasst. Es beschreibt sich als:

Open Data Stack Exchange ist eine Frage- und Antwortseite für Entwickler und Forscher, die sich für Open Data interessieren. Es wird von Ihnen als Teil des Stack Exchange-Netzwerks von Q & A-Sites erstellt und ausgeführt. Mit Ihrer Hilfe arbeiten wir zusammen, um eine Bibliothek mit detaillierten Antworten auf alle Fragen zu offenen Daten zu erstellen.

"Offene Daten" bezieht sich auf Datensätze, die "für jedermann frei verfügbar sind, um sie nach Belieben zu verwenden und erneut zu veröffentlichen, ohne Einschränkungen durch Urheberrechte, Patente oder andere Kontrollmechanismen" ( Wikipedia ). Die Site scheint jedoch für Anfragen nach geschlossenen Datensätzen zugänglich zu sein .

Gung
quelle
3

Hinzufügen eines Paares zur Liste:

Beide sind über eine REST-API verfügbar und haben kostenlose Testpläne.

Eugene Osovetsky
quelle
2

Datensätze aus dem Grundbuch A handbook of small data setsfinden Sie hier .

MYaseen208
quelle
2

Auf der Suche nach einem geeigneten Datensatz für meine Anforderungen bin ich gerade auf zwei Websites gestoßen, die für diese Diskussion relevant sind.

Datacite.org, das sich selbst beschreibt als ...

Wir sind eine internationale Organisation mit dem Ziel:

  • Erleichterung des Zugangs zu Forschungsdaten
  • die Akzeptanz von Forschungsdaten als legitime Beiträge in der wissenschaftlichen Aufzeichnung zu erhöhen und
  • Unterstützung der Datenarchivierung, damit die Ergebnisse überprüft und für zukünftige Studien verwendet werden können.

DataBib.org, das sich selbst beschreibt als ...

Databib ist ein Tool, mit dem Benutzer Online-Repositorys für Forschungsdaten identifizieren und finden können. Benutzer und Bibliographen erstellen und kuratieren Datensätze, die Datenrepositorys beschreiben, die Benutzer durchsuchen können.

Ich dachte, es lohnt sich, es hier für andere in die Liste aufzunehmen.

Finden Sie jetzt etwas in den Links, das meinen Bedürfnissen entspricht!

2 Umdrehungen
quelle
2

Ich kann quandl.com nur wärmstens empfehlen . Dies ist ein Traum für Datenprogrammierer. Es bietet eine sehr einfache API für den Zugriff auf über 10 Millionen verschiedene Daten. Sie suchen Bi-Modial oder multivariaten Daten, so würde ich vorschlagen , die verschiedenen Sätze von Bevölkerungsdaten zB Check - out dieser Weltbevölkerung Diagramm , das die Unterkomponente Länder und Gebiete enthält, die in die Gesamt gehen.

Brian Risk
quelle
1
Einige Quandl-Daten sind kostenlos, andere kosten $ $. Außerdem enthält mein API-Traum Zeitreihen-Nrs, -NCOLs und Online-Diagramme (ich möchte ein Pony).
Denis
1

Nutzung im Laufe der Zeit

Eine sehr große Excel-Tabelle zum Herunterladen mit Datenpunkten für alle Online-Aktivitäten mit demografischen Angaben der Benutzer im Zeitverlauf. Bitte lesen Sie die Tipps (unten), bevor Sie diese Tabelle herunterladen oder verwenden.

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx

Tal Galili
quelle