Wie Jimmy Lin und Chris Dyer im ersten Kapitel ihres Buches über datenintensives Text Mining mit MapReduce hervorheben , konvergiert die Leistung verschiedener Algorithmen bei großen Datenmengen so, dass Leistungsunterschiede praktisch verschwinden. Dies bedeutet, dass bei einem ausreichend großen Datensatz der Algorithmus, den Sie verwenden möchten, rechenintensiver ist. Nur bei kleineren Datenskalen sind die Leistungsunterschiede zwischen Algorithmen von Bedeutung.
Davon abgesehen sind ihr Buch (oben verlinkt) und Mining of Massive Datasets von Anand Rajaraman, Jure Leskovec und Jeffrey D. Ullman wahrscheinlich zwei Bücher, die Sie ebenfalls lesen sollten, insbesondere da sie sich direkt mit MapReduce befassen für Data Mining-Zwecke.
Wenn Sie Zugriff auf einen Hadoop-Cluster haben, würde ich Spark einen Blick darauf werfen. https://spark.apache.org/
quelle
Niemand hat das folgende Papier erwähnt - http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (Andrew Ng ist einer der Autoren)
Das Papier selbst ist für Mehrkernmaschinen gedacht, aber es geht im Wesentlichen darum, Probleme beim maschinellen Lernen neu zu formulieren, damit sie in das Muster der Kartenreduzierung passen und für einen Cluster von Computern verwendet werden können. (Um zu sehen, warum dies im Allgemeinen keine gute Idee ist, sollten Sie dieses Papier lesen - http://arxiv.org/pdf/1006.4990v1.pdf . Es hat einen guten Überblick).
quelle
Skalieren des maschinellen Lernens : Parallele und verteilte Ansätze ist ein großartiges Buch von John Langford et. al. Hier werden parallele Implementierungen von überwachten und unbeaufsichtigten Algorithmen erörtert. Es geht um MapReduce, Entscheidungsbaum-Ensembles, parallele K-Mittelwerte, parallele SVM, Glaubensausbreitung und AD-LDA.
https://www.amazon.com/Scaling-Machine-Learning-Distributed-Approaches/dp/0521192242
quelle