Das Caret-Paket von R funktioniert mit 180 Modellen. Der Autor warnt davor, dass ein Teil des Pakets unlösbar langsam oder weniger genau sein kann als Modelle der ersten Wahl.
Der Autor ist nicht falsch. Ich habe versucht, Boruta- und evtree-Modelle zu trainieren und musste aufgeben, nachdem sie> 5 Stunden in einem Cluster gelaufen waren.
Der Autor verweist auf eine Reihe von Benchmarks für maschinelles Lernen , die jedoch nur die Leistung einer kleinen Anzahl von Algorithmen abdecken und verschiedene Implementierungen vergleichen.
Gibt es eine andere Ressource, an die ich mich wenden kann, um zu erfahren, welches der 180 Modelle einen Versuch wert ist und welches sehr ungenau oder unangemessen langsam sein wird?
machine-learning
r
Hack-R
quelle
quelle
Antworten:
Benchmarking von mlr (Standard) -Lernenden unter OpenML
Die gesamte Openml- Datenbank der ML-Ergebnisse.
Test von RStudio schlägt SVM vor.
Mlmastery schlägt LDA und Trial and Error vor .
Benötigen wir Hunderte von Klassifikatoren, um echte Klassifikationsprobleme zu lösen? von Fern ́andez-Delgado et al.
Die Arbeit kommt zu dem Schluss, dass der parallele Zufallswald (parRF_t) am besten folgt, gefolgt vom Zufallswald, LibSVM mit dem Gaußschen Kernel (svm), einer extremen Lernmaschine mit dem Gaußschen Kernel, dem C5.0-Entscheidungsbaum und dem mehrschichtigen Perzeptron (avNNet).
Wainer, Jacques (2016) Vergleich von 14 verschiedenen Familien von Klassifizierungsalgorithmen an 115 binären Datensätzen Basierend auf Fernandez-Delgado et al. (2014). "Wir haben gezeigt, dass zufällige Wälder, RBF-SVM und Gradientenverstärkungsmaschinen Klassifizierungsalgorithmen sind, die höchstwahrscheinlich zu höchster Genauigkeit führen."
Rich Caruana & Alexandru Niculescu-Mizil () Ein empirischer Vergleich von überwachten Lernalgorithmen (Klassifizierung) schließt mit Platt-kalibrierten Boosted Trees als am besten befolgter RF BagT Cal.SVM NN.
Viele andere Studien beinhalten Vergleiche der verwendeten Modelle. Einige Artikel bevorzugen SVM, andere SVM mit radialer Basis oder Polynomkern zur Klassifizierung. (vielleicht dasselbe)
Aufgrund meiner eigenen Regressionen bei generierten Daten empfehle ich Earth (MARS) Cubist SVMlinear.
In der Manisha-Arbeit werden zunächst Tests am UCI Machine Learning Repository durchgeführt, dann die Bodenfruchtbarkeit, die im Mittelpunkt der Arbeit steht. Die besten Modelle für UCI waren: "Elm-Kernel ist das neuronale ELM-Netzwerk, aber mit Gauß-Kernel", "SVR ist die Support-Vektor-Maschine für die Regression, wobei Gauß-Kernel die Lib-SVM-Bibliothek mit der C ++ - Schnittstelle verwendet", extraTrees und Cubist. Die Arbeit enthält großartige Beschreibungen der einzelnen Modelle und Links zu weiteren Veröffentlichungen: "extraTrees erzielte den besten RMSE für 7 von 10 Bodenproblemen". Papier ist auf jeden Fall eine Lektüre wert.
quelle