Ich versuche die Geschichte des Gradientenabstiegs und des stochastischen Gradientenabstiegs zu verstehen . Gradientenabfallsaktualisierung wurde erfunden Cauchy in 1847. Méthode Générale pour la résolution des Systèmes d'GLEICHUNGEN simultanées . S. 536–538 Weitere Informationen finden Sie hier .
Seitdem haben sich Gradientenabstiegsmethoden weiterentwickelt und ich bin mit ihrer Geschichte nicht vertraut. Insbesondere interessiere ich mich für die Erfindung des stochastischen Gradientenabstiegs.
Eine Referenz, die in einer wissenschaftlichen Arbeit mehr als begrüßt werden kann.
Antworten:
Dem stochastischen Gradientenabstieg geht die stochastische Approximation voraus, wie sie zuerst von Robbins und Monro in ihrer Arbeit A Stochastic Approximation Method beschrieben wurde . Anschließend veröffentlichten Kiefer und Wolfowitz ihre Arbeit Stochastic Estimation of the Maximum of a Regression FunctionDies ist für Personen, die mit der ML-Variante der stochastischen Approximation (dh der stochastischen Gradientenabnahme) vertraut sind, besser erkennbar, wie Mark Stone in den Kommentaren ausgeführt hat. In den 60er Jahren gab es eine Menge Forschung in dieser Richtung - Dvoretzky, Powell, Blum veröffentlichten alle Ergebnisse, die wir heute für selbstverständlich halten. Es ist ein relativ kleiner Sprung, von der Robbins- und Monro-Methode zur Kiefer-Wolfowitz-Methode zu gelangen, und lediglich eine Umformulierung des Problems, um dann zum stochastischen Gradientenabstieg zu gelangen (für Regressionsprobleme). Die oben genannten Artikel werden häufig als Vorläufer des stochastischen Gradientenabstiegs angeführt, wie in diesem Übersichtsartikel von Nocedal, Bottou und Curtis erwähnt , der eine kurze historische Perspektive aus Sicht des maschinellen Lernens bietet.
Ich glaube, dass Kushner und Yin in ihrem Buch Stochastic Approximation and Recursive Algorithms and Applications vermuten, dass der Begriff bereits in den 40er Jahren in der Steuerungstheorie verwendet wurde, aber ich erinnere mich nicht, ob sie dafür ein Zitat hatten oder nicht anekdotisch, noch habe ich Zugriff auf ihr Buch, um dies zu bestätigen.
quelle
Sehen
Ich bin nicht sicher, ob SGD zuvor in der Optimierungsliteratur erfunden wurde - wahrscheinlich auch -, aber ich glaube, dass er hier eine Anwendung von SGD zum Trainieren eines Perzeptrons beschreibt.
Er nennt diese "zwei Arten der Verstärkung".
Er verweist auch auf ein Buch mit mehr über diese "zweiwertigen Systeme".
quelle