Ich habe in letzter Zeit mit großen Datenmengen gearbeitet und viele Artikel über Streaming-Methoden gefunden. Um ein paar zu nennen:
- Follow-the-Regularized-Leader und Mirror-Descent: Äquivalenzsätze und L1-Regularisierung ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- Gestreamtes Lernen: SVMs mit einem Durchgang ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- Pegasos: Primal Estimated sub-GrAdient SOlver für SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- oder hier: Kann SVM das Lernen eines Beispiels nach dem anderen streamen?
- Zufällige Wälder streamen ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
Ich konnte jedoch keine Dokumentation finden, wie sie miteinander verglichen werden. Jeder Artikel, den ich lese, scheint Experimente mit verschiedenen Datensätzen durchzuführen.
Ich weiß über Sofia-ml, Vowpal Wabbit Bescheid, aber sie scheinen sehr wenige Methoden zu implementieren, verglichen mit der riesigen Menge an existierenden Methoden!
Sind die weniger verbreiteten Algorithmen nicht performant genug? Gibt es ein Papier, in dem versucht wird, so viele Methoden wie möglich zu überprüfen?
machine-learning
references
large-data
online
RUser4512
quelle
quelle
Antworten:
Eine genaue Übersicht über mehrere Algorithmen, die dem von Ihnen verlinkten Delgado-Artikel ähneln, ist meines Wissens nicht verfügbar, es wurden jedoch Anstrengungen unternommen, um Ergebnisse für Algorithmenfamilien zu sammeln.
Hier sind einige Quellen, die ich nützlich finde (Haftungsausschluss: Ich veröffentliche in der Region, daher bin ich in meiner Auswahl wahrscheinlich voreingenommen):
Einige Software-Pakete:
Ich kann bei Bedarf weitere Informationen und Quellen hinzufügen. Wie andere gesagt haben, könnte das Feld eine umfassende Umfrage verwenden.
quelle