Ich habe mit logistischer Regression mit verschiedenen Batch-Optimierungsalgorithmen (konjugierter Gradient, Newton-Raphson und verschiedene Quasinewton-Methoden) herumgespielt. Eine Sache, die mir aufgefallen ist, ist, dass das Hinzufügen von mehr Daten zu einem Modell manchmal dazu führen kann, dass das Training des Modells viel weniger Zeit in Anspruch nimmt. Für jede Iteration müssen mehr Datenpunkte betrachtet werden. Die Gesamtzahl der erforderlichen Iterationen kann jedoch erheblich sinken, wenn weitere Daten hinzugefügt werden. Dies geschieht natürlich nur bei bestimmten Datensätzen, und irgendwann führt das Hinzufügen weiterer Daten dazu, dass die Optimierung langsamer wird.
Ist das ein gut untersuchtes Phänomen? Wo finde ich weitere Informationen darüber, warum / wann dies passieren könnte?
quelle
Antworten:
Bei weniger Datenmengen ist die falsche Korrelation zwischen Regressionseingaben häufig hoch, da Sie nur so viele Daten haben. Wenn Regressionsvariablen korreliert werden, ist die Wahrscheinlichkeitsfläche relativ flach, und es wird für einen Optimierer, insbesondere einen, der nicht das vollständige Hessische (z. B. Newton Raphson) verwendet, schwieriger, das Minimum zu finden.
Hier finden Sie einige schöne Grafiken und weitere Erklärungen dazu, wie verschiedene Algorithmen gegen Daten mit unterschiedlichen Korrelationsbeträgen arbeiten: http://fa.bianp.net/blog/2013/numerical-optimizers-for-logistic-regression/
quelle