Ich versuche derzeit, einige Algorithmen für maschinelles Lernen selbst zu implementieren. Viele von ihnen haben die böse Eigenschaft, schwer zu debuggen zu sein. Einige Fehler führen nicht zum Absturz des Programms, sondern funktionieren nicht wie beabsichtigt und scheinen, da die Algorithmen nur schwächere Ergebnisse liefern.
Ich hätte gerne eine Möglichkeit, mein Vertrauen in die Implementierung zu stärken, zum Beispiel, wenn ich einige kleine Datensätze mit zusätzlichen Informationen hätte: "Algorithmen X haben für Y-Iterationen funktioniert und Ergebnisse Z für diesen Datensatz", das wäre wirklich hilfreich. Hat jemand von solchen Datensätzen gehört?
Antworten:
Aus dem UC Irvine Machine Learning Repository :
Der folgende MIAS-Datensatz wurde häufig verwendet und untersucht:
quelle
Das von Bashar erwähnte UCI-Repository ist wahrscheinlich das größte, dennoch wollte ich ein paar kleinere Sammlungen hinzufügen, auf die ich gestoßen bin:
quelle