Öffentlich verfügbare Datensätze

167

Eines der häufigsten Probleme in der Datenwissenschaft ist das Sammeln von Daten aus verschiedenen Quellen in einem irgendwie bereinigten (halbstrukturierten) Format und das Kombinieren von Metriken aus verschiedenen Quellen, um eine Analyse auf höherer Ebene durchzuführen. Betrachtet man die Bemühungen der anderen Personen, insbesondere andere Fragen auf dieser Website, so scheint es, dass viele Personen in diesem Bereich sich etwas wiederholen. Das Analysieren von Tweets, Facebook-Posts, Wikipedia-Artikeln usw. ist beispielsweise Teil vieler Big-Data-Probleme.

Auf einige dieser Datensätze kann mit öffentlichen APIs zugegriffen werden, die von der Anbieterseite bereitgestellt werden. In der Regel fehlen jedoch einige wichtige Informationen oder Messdaten in diesen APIs, und alle müssen immer wieder dieselben Analysen durchführen. Zum Beispiel kann es in vielen Big-Data-Anwendungen nützlich sein, über ein Basiscluster von Twitter- / Facebook-Benutzern zu verfügen, obwohl das Clustering von Benutzern von verschiedenen Anwendungsfällen und der Auswahl von Funktionen abhängig sein kann. Dies wird weder von der API bereitgestellt noch ist es in unabhängigen Datensätzen öffentlich verfügbar .

Gibt es einen Index oder eine öffentlich zugängliche Hosting-Site für Datensätze, die wertvolle Datensätze enthält, die bei der Lösung anderer Big-Data-Probleme wiederverwendet werden können? Ich meine so etwas wie GitHub (oder eine Gruppe von Websites / öffentlichen Datensätzen oder zumindest eine umfassende Auflistung) für die Datenwissenschaft. Wenn nein, warum gibt es keine solche Plattform für Data Science? Der kommerzielle Wert von Daten, müssen Datensätze regelmäßig aktualisiert werden, ...? Können wir kein Open-Source-Modell für die gemeinsame Nutzung von Datensätzen haben, die für Datenwissenschaftler entwickelt wurden?

Amir Ali Akbari
quelle
18
Diese Frage könnte für die dedizierten opendata.SE angemessener sein . Das heißt, ich drücke die Daumen für dat , das anstrebt, ein "Git für Daten" zu werden.
18.
2
@ojdo Danke, ich habe noch nie von opendata.SE gehört. Auch diese interessante (und sehr ähnliche) Frage fand ich dort.
Amir Ali Akbari
Ich habe keine guten kostenlosen umfassenden Datensätze für typische Business Intelligence-Anwendungen gefunden. Das Microsoft Contoso BI-Demo-Dataset für den Einzelhandel vom offiziellen Microsoft Download Center- Download funktioniert mit einigen Microsoft-Produkten (siehe AndyGett für SharePoint und andere Unternehmenssoftware ), es werden jedoch keine einfachen SQL- oder CSV-Speicherauszüge oder Lizenzinformationen angezeigt .
Nealmcb
1
Haben Sie sich dem Open Data Stack Exchange angeschlossen? opendata.stackexchange.com
sss4r

Antworten:

88

Tatsächlich gibt es eine sehr vernünftige Liste öffentlich verfügbarer Datensätze, die von verschiedenen Unternehmen / Quellen unterstützt werden.

Einige von ihnen sind unten:

Nun zwei Überlegungen zu Ihrer Frage. Erstens in Bezug auf Richtlinien zur gemeinsamen Nutzung von Datenbanken. Aus persönlicher Erfahrung gibt es einige Datenbanken, die nicht öffentlich zugänglich gemacht werden können, weder für Datenschutzbestimmungen (wie für einige Informationen in sozialen Netzwerken) noch für Regierungsinformationen (wie Datenbanken des Gesundheitssystems).

Ein weiterer Punkt betrifft die Verwendung / Anwendung des Datensatzes. Obwohl einige Basen nach Bedarf der Anwendung aufbereitet werden können, wäre eine zweckmäßige Organisation der Datensätze sehr hilfreich. Die Taxonomie sollte eine Analyse sozialer Graphen, Itemset-Mining, Klassifizierung und viele andere mögliche Forschungsbereiche umfassen.

Rubens
quelle
64

Aktualisieren:

Kaggle.com , ein Zuhause für moderne Data-Science- und Machine-Learning- Fans :), hat ein eigenes Repository für die Datensätze eröffnet .


Neben den aufgeführten Quellen.

Einige soziale Netzwerk-Datensätze:

Bei Stats SE sind zahlreiche Quellen aufgeführt:

IharS
quelle
37

Es gibt viele offen verfügbare Datensätze, eine, die von vielen übersehen wird, ist data.gov . Wie bereits erwähnt, ist Freebase großartig, ebenso wie alle Beispiele, die von @Rubens gepostet wurden

MCP_infiltrator
quelle
35

Freebase ist eine kostenlose Community-gesteuerte Datenbank, die viele interessante Themen umfasst und etwa 2,5 Milliarden Fakten in maschinenlesbarem Format enthält. Es ist auch eine gute API, um Datenabfragen durchzuführen.

Hier ist eine weitere kompilierte Liste offener Datensätze: http://www.datapure.co/open-data-sets

Konstantin V. Salikhov
quelle
Freebase wird geschlossen und seine Datenbank wird bald auf Wikidata verschoben .
Cynddl
25

Insbesondere für Zeitreihendaten ist Quandl eine hervorragende Ressource - ein leicht durchsuchbares Verzeichnis von (meist) sauberen Zeitreihen.

Eines ihrer coolsten Features sind Open-Data-Aktienkurse - dh Finanzdaten, die im Wiki-Stil bearbeitet werden können und nicht durch Lizenzen belastet sind.

Azza-Bazoo
quelle
20

Enigma ist ein Repository für öffentlich verfügbare Datensätze. Der kostenlose Plan bietet eine Suche nach öffentlichen Daten mit 10.000 API-Aufrufen pro Monat. Es werden nicht alle öffentlichen Datenbanken aufgelistet, aber die Liste reicht für häufige Fälle aus.

Ich habe es für die akademische Forschung genutzt und viel Zeit gespart.


Eine weitere interessante Datenquelle ist das @ unitedstates-Projekt , das Daten und Tools zu deren Erfassung über die Vereinigten Staaten (Kongressmitglieder, geografische Formen…) enthält.

cynddl
quelle
18

Ich möchte auf die Open Data Census verweisen . Es ist eine Initiative der Open Knowledge Foundation, die auf Beiträgen von Open-Data-Befürwortern und Experten aus der ganzen Welt basiert.

Der Wert von Open Data Census beruht auf offenen, gemeinschaftsorientierten und systematischen Bemühungen, die Datenbank offener Datensätze weltweit auf Länderebene und in einigen Fällen, wie in den USA, auf Stadtebene zu erfassen und zu aktualisieren .

Es bietet auch die Möglichkeit, verschiedene Länder und Städte in ausgewählten Interessensgebieten miteinander zu vergleichen.

tomaskazemekas
quelle
18

Es gibt auch eine andere Ressource von The Guardian, die British Daily, auf ihrer Website. Die vom Guardian Datablog veröffentlichten Datensätze werden alle gehostet. Datensätze mit Bezug zu den Konten der Football Premier League Clubs, Angaben zur Inflation und zum BIP von Großbritannien, Grammy-Preisdaten usw. Die Datensätze sind verfügbar unter

Noch ein paar Ressourcen. Einige der Datensätze liegen im R-Format vor, oder es gibt R-Kommandos zum direkten Importieren von Daten nach R.

Binga
quelle
17

Benutzerdefinierte Google-Suche

Sie können die benutzerdefinierte Google-Suche für Datensätze verwenden:

Google Custom Search: Datensätze

Es enthält 230 Quellen und Metaquellen von Datensätzen, einschließlich aller in dieser Frage genannten. Sie können .gov und andere Websites von den Ergebnissen ausschließen, indem Sie der Suchzeile "-.gov" oder "-site.com" hinzufügen. Andere Google-Suchoperatoren funktionieren.

Zögern Sie nicht, mich zu kontaktieren, wenn Sie Ideen haben, welche Websites Sie hinzufügen möchten.

IOGDS

Der folgende Service kategorisiert mehr als 1.000.000 öffentliche Datensätze:

IOGDS: International Open Government Dataset Search

Anton Tarasenko
quelle
Was sind die Parameter für den von Ihnen angegebenen benutzerdefinierten Suchlink? Sucht es in einer Liste von Websites, Stichwörtern usw.?
Amir Ali Akbari
@AmirAliAkbari Durchsucht Quellen wie Data.gov, Quandl und andere wichtige Data Warehouses.
Anton Tarasenko
16

Späte Antwort, aber hier ist eine eklektische Liste von über 100 interessanten Datensätzen

Der Blog-Beitrag macht Spaß und ist einfach zu lesen (ich bin nicht Mitglied). Es lohnt sich zu scannen und ein paar von oben abzukratzen:

  • Letzte Worte jedes seit 1984 hingerichteten texanischen Insassen

  • 10.000 kommentierte Bilder von Katzen

  • 2,2 Millionen Schachpartien

philshem
quelle
15

Die britische Regierung stellt eine hervorragende Quelle für nicht personenbezogene Daten zur Verfügung, die in allen Regierungsabteilungen gesammelt werden: http://data.gov.uk

Federer
quelle
14

Ich bin neu in diesem Forum. Später auf diese Frage eingehen. Ich habe einen Katalog öffentlich zugänglicher Datenportale geführt (ich bin Mitbegründer von). Inzwischen gibt es weltweit über 1000 gelistete und abgedeckte Portale auf internationaler, bundesstaatlicher, bundesstaatlicher, kommunaler und akademischer Ebene.

http://www.opengeocode.org/opendata/

Andrew - OpenGeoCode
quelle
14

Ich bin überrascht, dass man dies nicht erwähnt hat, da es ziemlich offensichtlich erscheint: http://www.kaggle.com enthält ständig neue und sehr interessante Datensätze. Informationen werden als Aktivposten angesehen, daher möchten Unternehmen diese Daten häufig nicht freigeben (plus Datenschutzbedenken). Kaggle gibt Ihnen Daten und hofft, dass Sie damit geschäftliche Probleme lösen können.

RAM
quelle
14

Datensätze

Datensätze von awesome-datascience

chenrui333
quelle
1
Können Sie uns bitte einige Informationen zu beiden Datensätzen / Links geben? Dies wird in der Tat die Belastung derjenigen erleichtern, die nach bestimmten Arten von Datensätzen suchen. Schauen Sie sich andere Beiträge an, um zu sehen, welche Informationen Ihren Referenzen fehlen.
Rubens
11

Wie Sie bereits erwähnt haben, ist die API der schwierige Teil, nicht die Daten. Quandl scheint dieses Problem zu lösen, indem es über 10 Millionen öffentlich verfügbare Datensätze unter einer einfachen RESTful-API bereitstellt. Wenn das Programmieren nicht Ihre Stärke ist, gibt es ein kostenloses Tool, mit dem Sie Daten ganz einfach in Excel laden können. Außerdem, wenn Sie tun Programmierung genießen, gibt es mehrere nativen Bibliotheken in R, Python, Java und mehr .

Brian Risk
quelle
11

So fügen Sie einer möglicherweise nie endenden Liste hinzu:

Wie von Cyndd erwähnt, gibt es Wikidata ,

und für kuratiertes strukturiertes Wissen Wolfram Alpha .

image_doctor
quelle
9

Eine andere Datenquelle, die ich nicht aufgelistet sehen konnte, ist das GDELT-Projekt . Von der Website:

Das GDELT-Projekt überwacht die weltweiten Rundfunk-, Print- und Webnachrichten aus nahezu jedem Winkel eines jeden Landes in über 100 Sprachen und identifiziert die Menschen, Standorte, Organisationen, Zählungen, Themen, Quellen und Ereignisse, die unsere globale Gesellschaft jeden Tag in jeder Sekunde antreiben. Schaffung einer kostenlosen offenen Plattform für das Rechnen auf der ganzen Welt.

dvdnglnd
quelle
8

Dieser Subreddit listet viele bekannte Datensätze auf

Reddit Datasets

Zu diesem Subreddit gibt es viele Datensatzanforderungen, von denen einige beantwortet wurden.

Irgendein Typ
quelle
6

Ich habe dafür ein Github-Repo erstellt. Die Datensätze sind nicht groß, aber es handelt sich um minimale Beispiele, die zum Üben und Erforschen von Vorhersagemodelltechniken gedacht sind, die dann auf große Datensätze erweitert werden können.

Maschinelles Lernen Problem Bibel (MLPB)

Das Coole / Einzigartige an diesem Repo ist, dass jedes Problem mit Tags wie [Multi-Class], [Unsymmetrische Daten], [Regression] usw. versehen ist, was das Auffinden bestimmter Arten von Problemen / Datensätzen erleichtert.

Ben
quelle
6

Neben all diesen Datensätzen, wenn Sie an Daten in Bezug auf Indien interessiert sind. Die öffentlich offizielle Seite der indischen Regierung ist

Es bietet Datensätze aus verschiedenen Abteilungen der indischen Regierung, die sich gut für Big Data-Analysen und maschinelles Lernen eignen.

Gaurav
quelle
4

Yahoo hat gerade einen riesigen Datensatz für die Forschungsgemeinschaft veröffentlicht. Geniesse es!

Kasra Manshaei
quelle
4

Wenn wir nur das MASS-Paket in R laden, greifen wir auf mehrere Datenrahmen oder Datensätze zu.

install.packages ("MASS") erfordern ("MASS")

Dileep Balineni
quelle
3

3 Datensätze von https://www.jc-bingo.com/about

  • visitor-interested.csv Aggregierte Besucherinteressen, die basierend auf 1-wöchigen Webzugriffsprotokollen zusammengestellt wurden. Beinhaltet die IP-Adresse des Besuchers, die Zeichenfolge des Benutzeragenten, das Land des Besuchers, aufgerufene Seitensprachen und Themen. 19.926 Datensätze, 2.9 Mb.
  • user-agents.csv Benutzeragenten für echte Besucher, sortiert nach Beliebtheit. 4.826 Datensätze, 716 Kb.
  • bots.csv Roboter-IP-Adressen und User-Agent-Zeichenfolgen, die aus Webzugriffsprotokollen extrahiert wurden. 1.293 Datensätze, 122 Kb.
Yuri
quelle
3

Offensichtlich gibt es eine große Anzahl öffentlicher Datenbanken.

Eine, die noch nicht erwähnt wurde, ist von der FAO (Ernährungs- und Landwirtschaftsorganisation der Vereinten Nationen) erhältlich unter:

http://www.fao.org/faostat/

Es enthält Daten zur Lebensmittelproduktion für Länder weltweit.

Settempler
quelle