Ich bin neu im maschinellen Lernen und suche nach Datensätzen, mit denen ich die Unterschiede zwischen verschiedenen Algorithmen für maschinelles Lernen (Decision Trees, Boosting, SVM und Neuronale Netze) vergleichen und gegenüberstellen kann.
Wo finde ich solche Datensätze? Wonach sollte ich suchen, wenn ich einen Datensatz in Betracht ziehe?
Es wäre großartig, wenn Sie auf einige gute Datensätze verweisen und mir sagen könnten, was sie zu einem guten Datensatz macht.
machine-learning
dataset
Häschen
quelle
quelle
Antworten:
Die Datensätze auf den folgenden Seiten stehen kostenlos zur Verfügung. Diese Datensätze wurden verwendet, um den Schülern ML-Algorithmen beizubringen, da für die meisten Datensätze Beschreibungen vorliegen. Es wurde auch erwähnt, welche Art von Algorithmen anwendbar sind.
quelle
Kaggle verfügt über eine ganze Reihe von Datensätzen, mit denen Sie üben können.
(Ich bin überrascht, dass es bisher nicht erwähnt wurde!)
Es gibt zwei Dinge (unter anderem), die es zu einer unschätzbaren Ressource machen:
quelle
Zunächst würde ich empfehlen, mit den Beispieldaten zu beginnen, die mit der Software bereitgestellt werden. Die meisten Softwareverteilungen enthalten Beispieldaten, mit denen Sie sich mit dem Algorithmus vertraut machen können, ohne sich mit Datentypen zu befassen und die Daten in das richtige Format für den Algorithmus zu ringen. Selbst wenn Sie einen Algorithmus von Grund auf neu erstellen, können Sie mit dem Beispiel einer ähnlichen Implementierung beginnen und die Leistung vergleichen.
Zweitens würde ich empfehlen, mit synthetischen Datensätzen zu experimentieren, um ein Gefühl dafür zu bekommen, wie der Algorithmus funktioniert, wenn Sie wissen, wie die Daten generiert wurden und wie das Signal-Rausch-Verhältnis ist.
In R können Sie mit diesem Befehl alle Datensätze in den derzeit installierten Paketen auflisten:
Die mlbench des R-Pakets enthält reale Datensätze und kann synthetische Datensätze generieren , die für die Untersuchung der Algorithmusleistung nützlich sind.
Pythons Scikit-Learn enthält Beispieldaten und generiert auch einen synthetischen Datensatz / Spielzeugdatensatz.
SAS hat die Ausbildung Daten - Set zum Download zur Verfügung und die SPSS Beispieldaten werden mit der Software unter C: \ Programme \ IBM \ SPSS \ Statistics \ 22 \ Samples
Zuletzt würde ich mir Daten in freier Wildbahn ansehen. Ich würde die Leistung verschiedener Algorithmen und Optimierungsparameter an realen Datensätzen vergleichen. Dies erfordert normalerweise viel mehr Arbeit, da Sie selten Datasets mit Datentypen und Strukturen finden, die Sie direkt in Ihre Algorithmen einfügen können.
Für Daten in freier Wildbahn würde ich empfehlen:
reddits Datensatzarchiv
KDnugget's Liste
quelle
Der Iris- Datensatz ist zweifellos. Es ist auch in Basis R.
quelle
Meiner Meinung nach sollten Sie mit kleinen Datensätzen beginnen, die nicht zu viele Funktionen haben.
Ein Beispiel wäre der Iris-Datensatz (zur Klassifizierung). Es verfügt über 3 Klassen, 50 Stichproben für jede Klasse mit insgesamt 150 Datenpunkten. Eine hervorragende Ressource, mit der Sie diesen Datensatz erkunden können, ist diese Videoserie von Data School.
Ein weiterer zu überprüfender Datensatz ist der Wine Quality-Datensatz aus dem UCI -ML-Repository. Es hat 4898 Datenpunkte mit 12 Attributen.
quelle