Eines der häufigsten Probleme in der Datenwissenschaft ist das Sammeln von Daten aus verschiedenen Quellen in einem irgendwie bereinigten (halbstrukturierten) Format und das Kombinieren von Metriken aus verschiedenen Quellen, um eine Analyse auf höherer Ebene durchzuführen. Betrachtet man die Bemühungen der anderen Personen, insbesondere andere Fragen auf dieser Website, so scheint es, dass viele Personen in diesem Bereich sich etwas wiederholen. Das Analysieren von Tweets, Facebook-Posts, Wikipedia-Artikeln usw. ist beispielsweise Teil vieler Big-Data-Probleme.
Auf einige dieser Datensätze kann mit öffentlichen APIs zugegriffen werden, die von der Anbieterseite bereitgestellt werden. In der Regel fehlen jedoch einige wichtige Informationen oder Messdaten in diesen APIs, und alle müssen immer wieder dieselben Analysen durchführen. Zum Beispiel kann es in vielen Big-Data-Anwendungen nützlich sein, über ein Basiscluster von Twitter- / Facebook-Benutzern zu verfügen, obwohl das Clustering von Benutzern von verschiedenen Anwendungsfällen und der Auswahl von Funktionen abhängig sein kann. Dies wird weder von der API bereitgestellt noch ist es in unabhängigen Datensätzen öffentlich verfügbar .
Gibt es einen Index oder eine öffentlich zugängliche Hosting-Site für Datensätze, die wertvolle Datensätze enthält, die bei der Lösung anderer Big-Data-Probleme wiederverwendet werden können? Ich meine so etwas wie GitHub (oder eine Gruppe von Websites / öffentlichen Datensätzen oder zumindest eine umfassende Auflistung) für die Datenwissenschaft. Wenn nein, warum gibt es keine solche Plattform für Data Science? Der kommerzielle Wert von Daten, müssen Datensätze regelmäßig aktualisiert werden, ...? Können wir kein Open-Source-Modell für die gemeinsame Nutzung von Datensätzen haben, die für Datenwissenschaftler entwickelt wurden?
quelle
Antworten:
Tatsächlich gibt es eine sehr vernünftige Liste öffentlich verfügbarer Datensätze, die von verschiedenen Unternehmen / Quellen unterstützt werden.
Einige von ihnen sind unten:
Nun zwei Überlegungen zu Ihrer Frage. Erstens in Bezug auf Richtlinien zur gemeinsamen Nutzung von Datenbanken. Aus persönlicher Erfahrung gibt es einige Datenbanken, die nicht öffentlich zugänglich gemacht werden können, weder für Datenschutzbestimmungen (wie für einige Informationen in sozialen Netzwerken) noch für Regierungsinformationen (wie Datenbanken des Gesundheitssystems).
Ein weiterer Punkt betrifft die Verwendung / Anwendung des Datensatzes. Obwohl einige Basen nach Bedarf der Anwendung aufbereitet werden können, wäre eine zweckmäßige Organisation der Datensätze sehr hilfreich. Die Taxonomie sollte eine Analyse sozialer Graphen, Itemset-Mining, Klassifizierung und viele andere mögliche Forschungsbereiche umfassen.
quelle
Aktualisieren:
Kaggle.com , ein Zuhause für moderne Data-Science- und Machine-Learning- Fans :), hat ein eigenes Repository für die Datensätze eröffnet .
Neben den aufgeführten Quellen.
Einige soziale Netzwerk-Datensätze:
Bei Stats SE sind zahlreiche Quellen aufgeführt:
quelle
Es gibt viele offen verfügbare Datensätze, eine, die von vielen übersehen wird, ist data.gov . Wie bereits erwähnt, ist Freebase großartig, ebenso wie alle Beispiele, die von @Rubens gepostet wurden
quelle
Freebase ist eine kostenlose Community-gesteuerte Datenbank, die viele interessante Themen umfasst und etwa 2,5 Milliarden Fakten in maschinenlesbarem Format enthält. Es ist auch eine gute API, um Datenabfragen durchzuführen.
Hier ist eine weitere kompilierte Liste offener Datensätze: http://www.datapure.co/open-data-sets
quelle
Die folgenden Links sind verfügbar
Öffentliche Datensätze
Öffentliche Google-Datensätze
Amazon Web Services
Daten im Internet finden
quelle
Insbesondere für Zeitreihendaten ist Quandl eine hervorragende Ressource - ein leicht durchsuchbares Verzeichnis von (meist) sauberen Zeitreihen.
Eines ihrer coolsten Features sind Open-Data-Aktienkurse - dh Finanzdaten, die im Wiki-Stil bearbeitet werden können und nicht durch Lizenzen belastet sind.
quelle
Enigma ist ein Repository für öffentlich verfügbare Datensätze. Der kostenlose Plan bietet eine Suche nach öffentlichen Daten mit 10.000 API-Aufrufen pro Monat. Es werden nicht alle öffentlichen Datenbanken aufgelistet, aber die Liste reicht für häufige Fälle aus.
Ich habe es für die akademische Forschung genutzt und viel Zeit gespart.
Eine weitere interessante Datenquelle ist das @ unitedstates-Projekt , das Daten und Tools zu deren Erfassung über die Vereinigten Staaten (Kongressmitglieder, geografische Formen…) enthält.
quelle
Ich möchte auf die Open Data Census verweisen . Es ist eine Initiative der Open Knowledge Foundation, die auf Beiträgen von Open-Data-Befürwortern und Experten aus der ganzen Welt basiert.
Der Wert von Open Data Census beruht auf offenen, gemeinschaftsorientierten und systematischen Bemühungen, die Datenbank offener Datensätze weltweit auf Länderebene und in einigen Fällen, wie in den USA, auf Stadtebene zu erfassen und zu aktualisieren .
Es bietet auch die Möglichkeit, verschiedene Länder und Städte in ausgewählten Interessensgebieten miteinander zu vergleichen.
quelle
Es gibt auch eine andere Ressource von The Guardian, die British Daily, auf ihrer Website. Die vom Guardian Datablog veröffentlichten Datensätze werden alle gehostet. Datensätze mit Bezug zu den Konten der Football Premier League Clubs, Angaben zur Inflation und zum BIP von Großbritannien, Grammy-Preisdaten usw. Die Datensätze sind verfügbar unter
Noch ein paar Ressourcen. Einige der Datensätze liegen im R-Format vor, oder es gibt R-Kommandos zum direkten Importieren von Daten nach R.
quelle
Benutzerdefinierte Google-Suche
Sie können die benutzerdefinierte Google-Suche für Datensätze verwenden:
Google Custom Search: Datensätze
Es enthält 230 Quellen und Metaquellen von Datensätzen, einschließlich aller in dieser Frage genannten. Sie können .gov und andere Websites von den Ergebnissen ausschließen, indem Sie der Suchzeile "-.gov" oder "-site.com" hinzufügen. Andere Google-Suchoperatoren funktionieren.
Zögern Sie nicht, mich zu kontaktieren, wenn Sie Ideen haben, welche Websites Sie hinzufügen möchten.
IOGDS
Der folgende Service kategorisiert mehr als 1.000.000 öffentliche Datensätze:
IOGDS: International Open Government Dataset Search
quelle
Späte Antwort, aber hier ist eine eklektische Liste von über 100 interessanten Datensätzen
Der Blog-Beitrag macht Spaß und ist einfach zu lesen (ich bin nicht Mitglied). Es lohnt sich zu scannen und ein paar von oben abzukratzen:
Letzte Worte jedes seit 1984 hingerichteten texanischen Insassen
10.000 kommentierte Bilder von Katzen
2,2 Millionen Schachpartien
quelle
Ich habe diesen Link in Data Science Central mit einer Liste kostenloser Datensätze gefunden: Große Datensätze sind kostenlos verfügbar
quelle
Wussten Sie schon über die PUMA Benchmarks und Dataset-Downloads Bescheid? https://sites.google.com/site/farazahmad/pumadatasets
Es beinhaltet Folgendes:
quelle
Die britische Regierung stellt eine hervorragende Quelle für nicht personenbezogene Daten zur Verfügung, die in allen Regierungsabteilungen gesammelt werden: http://data.gov.uk
quelle
Ich bin neu in diesem Forum. Später auf diese Frage eingehen. Ich habe einen Katalog öffentlich zugänglicher Datenportale geführt (ich bin Mitbegründer von). Inzwischen gibt es weltweit über 1000 gelistete und abgedeckte Portale auf internationaler, bundesstaatlicher, bundesstaatlicher, kommunaler und akademischer Ebene.
http://www.opengeocode.org/opendata/
quelle
Ich bin überrascht, dass man dies nicht erwähnt hat, da es ziemlich offensichtlich erscheint: http://www.kaggle.com enthält ständig neue und sehr interessante Datensätze. Informationen werden als Aktivposten angesehen, daher möchten Unternehmen diese Daten häufig nicht freigeben (plus Datenschutzbedenken). Kaggle gibt Ihnen Daten und hofft, dass Sie damit geschäftliche Probleme lösen können.
quelle
Datensätze
Datensätze von awesome-datascience
quelle
Wie Sie bereits erwähnt haben, ist die API der schwierige Teil, nicht die Daten. Quandl scheint dieses Problem zu lösen, indem es über 10 Millionen öffentlich verfügbare Datensätze unter einer einfachen RESTful-API bereitstellt. Wenn das Programmieren nicht Ihre Stärke ist, gibt es ein kostenloses Tool, mit dem Sie Daten ganz einfach in Excel laden können. Außerdem, wenn Sie tun Programmierung genießen, gibt es mehrere nativen Bibliotheken in R, Python, Java und mehr .
quelle
So fügen Sie einer möglicherweise nie endenden Liste hinzu:
Wie von Cyndd erwähnt, gibt es Wikidata ,
und für kuratiertes strukturiertes Wissen Wolfram Alpha .
quelle
Ich bin auf Github auf diese Sammlung gestoßen. Die Sammlung ist ebenfalls kategorisiert.
https://github.com/caesar0301/awesome-public-datasets
Und für den Teil betreffend
Sie können den Leek-Gruppenleitfaden auf den Datenaustausch verweisen
quelle
Auf data.gov sind nicht alle Regierungsdaten aufgeführt - Sunlight Foundation hat bereits im Februar eine Reihe von Tabellen zusammengestellt, in denen die verfügbaren Daten beschrieben werden.
quelle
Eine andere Datenquelle, die ich nicht aufgelistet sehen konnte, ist das GDELT-Projekt . Von der Website:
quelle
Dieser Subreddit listet viele bekannte Datensätze auf
Reddit Datasets
Zu diesem Subreddit gibt es viele Datensatzanforderungen, von denen einige beantwortet wurden.
quelle
Ich habe dafür ein Github-Repo erstellt. Die Datensätze sind nicht groß, aber es handelt sich um minimale Beispiele, die zum Üben und Erforschen von Vorhersagemodelltechniken gedacht sind, die dann auf große Datensätze erweitert werden können.
Maschinelles Lernen Problem Bibel (MLPB)
Das Coole / Einzigartige an diesem Repo ist, dass jedes Problem mit Tags wie [Multi-Class], [Unsymmetrische Daten], [Regression] usw. versehen ist, was das Auffinden bestimmter Arten von Problemen / Datensätzen erleichtert.
quelle
Eurostats http://ec.europa.eu/eurostat und die Europäische Zentralbank https://www.ecb.europa.eu/stats/html/index.en.html stellen eine Vielzahl von Datensätzen zur Verfügung, die ich häufig in meinem Internet verwende Arbeitsprojekte.
quelle
Neben all diesen Datensätzen, wenn Sie an Daten in Bezug auf Indien interessiert sind. Die öffentlich offizielle Seite der indischen Regierung ist
Es bietet Datensätze aus verschiedenen Abteilungen der indischen Regierung, die sich gut für Big Data-Analysen und maschinelles Lernen eignen.
quelle
Yahoo hat gerade einen riesigen Datensatz für die Forschungsgemeinschaft veröffentlicht. Geniesse es!
quelle
Wenn wir nur das MASS-Paket in R laden, greifen wir auf mehrere Datenrahmen oder Datensätze zu.
install.packages ("MASS") erfordern ("MASS")
quelle
3 Datensätze von https://www.jc-bingo.com/about
quelle
Offensichtlich gibt es eine große Anzahl öffentlicher Datenbanken.
Eine, die noch nicht erwähnt wurde, ist von der FAO (Ernährungs- und Landwirtschaftsorganisation der Vereinten Nationen) erhältlich unter:
http://www.fao.org/faostat/
Es enthält Daten zur Lebensmittelproduktion für Länder weltweit.
quelle