Zwei Punkte:
- Dropout wird normalerweise auch mit Ensembles neuronaler Netze verglichen. Es scheint, dass es einige der Leistungsvorteile des Trainings und der Mittelung mehrerer neuronaler Netze hat.
- Dropout ist einfacher zu kalibrieren als Regularisierung. Es gibt nur einen Hyperparameter, nämlich die Abbrecherquote, und die Leute verwenden während des Trainings häufig 0,5 (und dann natürlich 1,0 bei der Bewertung :)), siehe z . B. dieses TensorFlow-Beispiel .
Jedenfalls bin ich ein wenig skeptisch gegenüber empirischen Studien über neuronale Netze. Es gibt einfach zu viele Hyperparameter, um sie fein abzustimmen, von der Topologie des Netzwerks über das Verfahren zur Optimierung des Gradientenabfalls bis hin zu Aktivierungsfunktionen und was auch immer Sie testen, wie die Regularisierung. Dann ist das Ganze stochastisch und normalerweise sind die Leistungssteigerungen so gering, dass Sie kaum statistische Tests auf Unterschiede durchführen können. Viele Autoren machen sich nicht einmal die Mühe, statistische Tests durchzuführen. Sie geben nur eine durchschnittliche Kreuzvalidierung an und erklären, dass jedes Modell mit dem höchsten Dezimalpunktgewinn der Gewinner ist.
Möglicherweise finden Sie eine Studie zur Förderung von Schulabbrechern, der nur eine andere Studie zur Förderung der Regularisierung widerspricht.
Ich denke, es läuft alles auf ästhetische Vorlieben hinaus. Dropout IMHO klingt biologisch plausibler als Regularisierung. Es scheint auch einfacher zu kalibrieren. Ich persönlich bevorzuge es, wenn ich ein Framework wie TensorFlow verwende. Wenn wir unser eigenes neuronales Netzwerk verwenden müssen, was wir häufig tun, werden wir die Regularisierung verwenden, da die Implementierung einfacher war.