Wo finde ich Datensätze, die zum Testen meiner eigenen Implementierungen für maschinelles Lernen nützlich sind? [geschlossen]

Ich versuche derzeit, einige Algorithmen für maschinelles Lernen selbst zu implementieren. Viele von ihnen haben die böse Eigenschaft, schwer zu debuggen zu sein. Einige Fehler führen nicht zum Absturz des Programms, sondern funktionieren nicht wie beabsichtigt und scheinen, da die Algorithmen nur schwächere Ergebnisse liefern.

Ich hätte gerne eine Möglichkeit, mein Vertrauen in die Implementierung zu stärken, zum Beispiel, wenn ich einige kleine Datensätze mit zusätzlichen Informationen hätte: "Algorithmen X haben für Y-Iterationen funktioniert und Ergebnisse Z für diesen Datensatz", das wäre wirklich hilfreich. Hat jemand von solchen Datensätzen gehört?

dataset sjm.majewski
quelle

Welche Nachforschungen haben Sie angestellt, um diese Frage zu untersuchen? Auf den ersten Blick würde man denken, dass die Literatur, die Sie verwenden, um diese Algorithmen zu finden, voller Beispieldatensätze ist.

whuber

Nun, ich kenne ML hauptsächlich aus Universitätskursen, Coursea, Vorlesungsvideos im Internet und einigen Artikeln, die ich zu bestimmten Themen gelesen habe. Ich weiß, dass es überall viele Beispieldatensätze gibt, aber ich suche einige mit Informationen darüber, wie verschiedene ML-Algorithmen auf ihnen ausgeführt wurden, damit ich meine eigenen Implementierungen validieren kann.

sjm.majewski

Vor kurzem gab es bei ICML ein gutes Papier über das Problem mit standardisierten Datensätzen - das Sie davon abhält, zu sehr über Probleme der realen Welt und die Unordnung, die Probleme der realen Welt mit sich bringen, nachzudenken. Als ich anfing, reale Daten zu verwenden, blühte meine Fähigkeit als Praktiker auf. Obwohl ich Sie nicht davon abhalten möchte, Dinge wie UCI als Sprungbrett oder Test zu verwenden, behalten Sie den Preis im Auge!

Patrick Caldon

Sie sollten angeben, welche Art von maschinellem Lernen Sie durchführen. Binäre Klassifizierungsdatensätze unterscheiden sich von Funktionsnäherungsdatensätzen (Regressionsdatensätzen).

Douglas Zare

stackoverflow.com/questions/3272806/…

Abhishek Gupta

Antworten:

Aus dem UC Irvine Machine Learning Repository :

Derzeit verwalten wir 223 Datensätze als Service für die Community des maschinellen Lernens. Sie können alle Datensätze über unsere durchsuchbare Oberfläche anzeigen. Unsere alte Website ist weiterhin verfügbar, für diejenigen, die das alte Format bevorzugen. ... Wenn Sie einen Datensatz spenden möchten, konsultieren Sie bitte unsere Spendenrichtlinie. ... Wir haben auch eine Spiegelseite für das Repository eingerichtet.

Der folgende MIAS-Datensatz wurde häufig verwendet und untersucht:

Beim Benchmarking eines Algorithmus wird empfohlen, eine Standardtestdatenbank (Datensatz) zu verwenden, damit die Forscher die Ergebnisse direkt vergleichen können. Die meisten Mammografiedatenbanken sind nicht öffentlich verfügbar. Die am leichtesten zugänglichen Datenbanken und daher die am häufigsten verwendeten Datenbanken sind die MIAS-Datenbank (Mammographic Image Analysis Society) und die Digital Database for Screening Mammography (DDSM). Außerdem gibt es derzeit nur wenige Projekte, die neue Mammographie-Bilddatenbanken entwickeln, sowie mehrere alte Projekte.

deepML
quelle

+1 Wenn Sie weiterhin weitere Quellen finden, können Sie diese Antwort gerne ergänzen.

whuber

Das von Bashar erwähnte UCI-Repository ist wahrscheinlich das größte, dennoch wollte ich ein paar kleinere Sammlungen hinzufügen, auf die ich gestoßen bin:

Datensätze aus der Mulan Java-Bibliothek
Datensätze aus dem Auton-Labor der School of Computer Science der Carnegie Mellon University
Datensätze, die in den Buchelementen des statistischen Lernens verwendet werden
Mehrere Datensätze aus KDD Cup-Wettbewerben
Datensätze am Institut für Statistik der Universität München

sebp
quelle