Ich habe an einer neuen Methode zum Analysieren und Analysieren von Datensätzen gearbeitet, um Untergruppen einer Population zu identifizieren und zu isolieren, ohne vorher die Merkmale einer Untergruppe zu kennen. Während die Methode mit Stichproben künstlicher Daten (dh Datensätzen, die speziell zum Identifizieren und Trennen von Teilmengen der Bevölkerung erstellt wurden) gut genug funktioniert, möchte ich versuchen, sie mit Live-Daten zu testen.
Was ich suche, ist eine frei verfügbare (dh nicht vertrauliche, nicht geschützte) Datenquelle. Vorzugsweise eine, die bimodale oder multimodale Verteilungen enthält oder offensichtlich aus mehreren Teilmengen besteht, die mit herkömmlichen Mitteln nicht einfach auseinandergezogen werden können. Wo würde ich nach solchen Informationen suchen?
quelle
Antworten:
Siehe auch das UCI Machine Learning Data Repository.
http://archive.ics.uci.edu/ml/
quelle
Die folgende Liste enthält viele Datensätze, die Sie interessieren könnten:
quelle
Siehe meine Antwort auf "Datasets für die Ausführung statistischer Analysen" in Bezug auf Datasets in R.
quelle
Die Weltbank bietet eine Menge interessanter Daten und war in letzter Zeit sehr aktiv bei der Entwicklung einer netten API dafür.
Außerdem verfügt commugrate project über eine interessante Liste.
Informationen zu gesundheitsbezogenen Daten in den USA finden Sie im Health Indicators Warehouse .
Daniel Lemires Blog verweist auf einige interessante Beispiele (hauptsächlich auf die DB-Forschung zugeschnitten), darunter die kanadische Volkszählung 1880 und synoptische Cloud-Berichte .
Und für den heutigen Tag (04.03.2012) stehen auch US-Volkszählungsdaten von 1940 zum Download zur Verfügung.
quelle
Gapminder verfügt über eine Reihe von Datensätzen (430 auf den letzten Blick), die für Sie von Nutzen sein können oder nicht.
quelle
MLComp hat einige interessante Datensätze, und als Bonus wird Ihr Algorithmus gewertet, wenn Sie ihn hochladen.
quelle
Ein guter Ort zum Nachschauen ist die Data and Story Library oder DASL der Carnegie Mellon University , die Datendateien enthält, die die Verwendung grundlegender Statistikmethoden veranschaulichen. Ein gutes Beispiel kann eine Lektion zu einer bestimmten Statistikmethode anschaulich und relevant machen Wir hoffen, dass DASL auch als Archiv für Datensätze aus der Statistikliteratur dienen wird. "
quelle
Starten Sie R und geben Sie
data()
. Dadurch werden alle Datensätze im Suchpfad angezeigt. Viele zusätzliche Datensätze sind in Add-On-Paketen verfügbar. Zum Beispiel enthält dasAER
Paket einige interessante realistische sozialwissenschaftliche Datensätze .quelle
NIST stellt ein Referenzdatensatzarchiv bereit .
quelle
http://www.reddit.com/r/datasets und auch http://www.reddit.com/r/opendata enthalten eine ständig wachsende Liste von Verweisen auf verschiedene Datensätze.
quelle
Das Stack Exchange-Netzwerk verfügt nun über eine neue Website, Open Data (in der Beta-Version vom 5. März 2015), die sich mit Daten befasst. Es beschreibt sich als:
"Offene Daten" bezieht sich auf Datensätze, die "für jedermann frei verfügbar sind, um sie nach Belieben zu verwenden und erneut zu veröffentlichen, ohne Einschränkungen durch Urheberrechte, Patente oder andere Kontrollmechanismen" ( Wikipedia ). Die Site scheint jedoch für Anfragen nach geschlossenen Datensätzen zugänglich zu sein .
quelle
Timetric bietet eine Webschnittstelle für Daten und eine Liste der öffentlich verfügbaren Datensätze, die sie verwenden
quelle
Hinzufügen eines Paares zur Liste:
Viele detaillierte Finanzdaten über börsennotierte Unternehmen aus vielen Jahrzehnten: http://www.mergent.com/servius
Umfassende Informationen zu mehr als 16 Millionen Unternehmen in den USA: http://compass.webservius.com
Beide sind über eine REST-API verfügbar und haben kostenlose Testpläne.
quelle
Hier ist eine andere Liste .
quelle
Dies ist wahrscheinlich die vollständigste Liste, die Sie finden werden: Einige im Web verfügbare Datensätze
quelle
Peter Skomoroch unterhält eine Liste mit Datensätzen unter http://www.datawrangling.com/some-datasets-available-on-the-web . Viele der bereitgestellten Links verweisen auf Bereiche, in denen Datensätze aufgelistet sind.
quelle
Datensätze aus dem Grundbuch
A handbook of small data sets
finden Sie hier .quelle
Auf der Suche nach einem geeigneten Datensatz für meine Anforderungen bin ich gerade auf zwei Websites gestoßen, die für diese Diskussion relevant sind.
Datacite.org, das sich selbst beschreibt als ...
DataBib.org, das sich selbst beschreibt als ...
Ich dachte, es lohnt sich, es hier für andere in die Liste aufzunehmen.
Finden Sie jetzt etwas in den Links, das meinen Bedürfnissen entspricht!
quelle
Ich kann quandl.com nur wärmstens empfehlen . Dies ist ein Traum für Datenprogrammierer. Es bietet eine sehr einfache API für den Zugriff auf über 10 Millionen verschiedene Daten. Sie suchen Bi-Modial oder multivariaten Daten, so würde ich vorschlagen , die verschiedenen Sätze von Bevölkerungsdaten zB Check - out dieser Weltbevölkerung Diagramm , das die Unterkomponente Länder und Gebiete enthält, die in die Gesamt gehen.
quelle
quelle
Nutzung im Laufe der Zeit
Eine sehr große Excel-Tabelle zum Herunterladen mit Datenpunkten für alle Online-Aktivitäten mit demografischen Angaben der Benutzer im Zeitverlauf. Bitte lesen Sie die Tipps (unten), bevor Sie diese Tabelle herunterladen oder verwenden.
http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx
quelle
http://www.ckan.net hat auch eine Reihe von Datensätzen.
http://www.biotorrents.net/browse.php fängt auch an, eine ziemlich große Menge von BIG-Datensätzen zu haben.
quelle
SODA POP bei Penn State;
http://sodapop.pop.psu.edu/
Einfaches Online-Datenarchiv für Populationsstudien.
quelle
Ich werde weitermachen und ein altes Thema aufgreifen, weil ich gerade diese Mutter-Lode gefunden habe:
http://vincentarelbundock.github.io/Rdatasets/
quelle
Singapur kündigt Open Data-Initiative an . Schauen Sie sich data.gov.sg an, ähnlich wie data.gov in den USA.
quelle