Wer hat die stochastische Gefällestufe erfunden?

36

Ich versuche die Geschichte des Gradientenabstiegs und des stochastischen Gradientenabstiegs zu verstehen . Gradientenabfallsaktualisierung wurde erfunden Cauchy in 1847. Méthode Générale pour la résolution des Systèmes d'GLEICHUNGEN simultanées . S. 536–538 Weitere Informationen finden Sie hier .

Seitdem haben sich Gradientenabstiegsmethoden weiterentwickelt und ich bin mit ihrer Geschichte nicht vertraut. Insbesondere interessiere ich mich für die Erfindung des stochastischen Gradientenabstiegs.

Eine Referenz, die in einer wissenschaftlichen Arbeit mehr als begrüßt werden kann.

DaL
quelle
3
Ich habe vor dem maschinellen Lernen von SGD erfahren, also muss es vor dieser ganzen Sache gewesen sein
Aksakal,
2
Na ja, Cauchy hat GD mit Sicherheit vor dem maschinellen Lernen erfunden, daher wundere ich mich nicht, dass SGC auch schon früher erfunden wurde.
14.
3
Stochastische Näherung nach Kiefer-Wolfowitz de.wikipedia.org/wiki/Stochastische_Näherung ist der meiste Weg dorthin, abgesehen davon, dass der Gradient nicht direkt "simuliert" wird.
Mark L. Stone
3
"Stochastic Gradient Descent" aus ML entspricht der "Stochastic Subgradient Method" aus der konvexen Optimierung. In den Jahren 1960-1970 wurde in der UdSSR in Moskau die Methode der Gradienten entdeckt. Vielleicht auch in den USA. Ich habe ein Video gesehen, in dem Boris Polyak (er ist Autor der Heavy-Ball-Methode) sagte, dass er (und alle Leute) 1970 anfangen, über Subgradienten-Methoden nachzudenken. ( Youtube.com/watch?v=2PcidcPxvyk&t=1963s ) ....
Bruziuz

Antworten:

27

Dem stochastischen Gradientenabstieg geht die stochastische Approximation voraus, wie sie zuerst von Robbins und Monro in ihrer Arbeit A Stochastic Approximation Method beschrieben wurde . Anschließend veröffentlichten Kiefer und Wolfowitz ihre Arbeit Stochastic Estimation of the Maximum of a Regression FunctionDies ist für Personen, die mit der ML-Variante der stochastischen Approximation (dh der stochastischen Gradientenabnahme) vertraut sind, besser erkennbar, wie Mark Stone in den Kommentaren ausgeführt hat. In den 60er Jahren gab es eine Menge Forschung in dieser Richtung - Dvoretzky, Powell, Blum veröffentlichten alle Ergebnisse, die wir heute für selbstverständlich halten. Es ist ein relativ kleiner Sprung, von der Robbins- und Monro-Methode zur Kiefer-Wolfowitz-Methode zu gelangen, und lediglich eine Umformulierung des Problems, um dann zum stochastischen Gradientenabstieg zu gelangen (für Regressionsprobleme). Die oben genannten Artikel werden häufig als Vorläufer des stochastischen Gradientenabstiegs angeführt, wie in diesem Übersichtsartikel von Nocedal, Bottou und Curtis erwähnt , der eine kurze historische Perspektive aus Sicht des maschinellen Lernens bietet.

Ich glaube, dass Kushner und Yin in ihrem Buch Stochastic Approximation and Recursive Algorithms and Applications vermuten, dass der Begriff bereits in den 40er Jahren in der Steuerungstheorie verwendet wurde, aber ich erinnere mich nicht, ob sie dafür ein Zitat hatten oder nicht anekdotisch, noch habe ich Zugriff auf ihr Buch, um dies zu bestätigen.

Herbert Robbins und Sutton Monro A Stochastic Approximationsmethode Die Annals of Mathematical Statistics, Vol. 22, No. 3. (Sep. 1951), S. 400-407.

J. Kiefer und J. Wolfowitz Stochastische Abschätzung des Maximums einer Regressionsfunktion Ann. Mathematik. Statist. Band 23, Nummer 3 (1952), 462-466

Leon Bottou und Frank E. Curtis und Jorge Nocedal Optimierungsmethoden für maschinelles Lernen in großem Maßstab , Technical Report, arXiv: 1606.04838

David Kozak
quelle
Können Sie genaue Referenzen angeben? Und für die Erfindung von SGD scheint es in den 40er Jahren zu sein, aber es ist nicht klar, von wem und wo?
19.
Es wird mit Sicherheit allgemein angenommen, dass es sich 1951 um Robbins und Monro mit stochastischen Approximationsalgorithmen handelt . Ich habe gehört, dass in den 40er Jahren in der Literatur zur Kontrolltheorie etwas Ähnliches aufgetaucht ist (wie ich bereits sagte, denke ich bei Kushner und Yin, aber ich habe das Buch nicht zur Hand), aber abgesehen von dieser einen Stelle scheinen alle Robbins und zu zitieren Monro, einschließlich des Patents von Nocedal et al. Referenz, die ich verlinkt habe.
David Kozak
Unser Hauptkandidat ist jetzt H. Robbins und S. Monro. Eine stochastische Approximationsmethode. The Annals of Mathematical Statistics, 22 (3): 400–407, 1951., geschrieben in Nocedal, Bottou und Curtis in pdfs.semanticscholar.org/34dd/…
DaL,
Ich nenne es also den Ursprung von SGD, aber in der Zusammenfassung (die heute eigentlich abstrakt ist) heißt es: "M (x) wird als monotone Funktion von x angenommen, ist aber dem Experimentator unbekannt, und es ist erwünscht, um die Lösung x = 0 der Gleichung M (x) = a zu finden, wobei a eine gegebene Konstante ist. Wenn M (x) unbekannt ist, kann man es nicht ableiten. Vielleicht ist es ein anderer alter Vorfahr?
20.
In gewissem Sinne einverstanden. Kiefer Wolfowitz nutzte die Analyse, um ein Papier zu erstellen, das in der Form, die wir heute sehen, besser erkennbar ist. Wie oben von Mark Stone erwähnt. Ihr Papier finden Sie hier: projecteuclid.org/download/pdf_1/euclid.aoms/1177729392 .
David Kozak
14

Sehen

Rosenblatt F. Das Perzeptron: Ein probabilistisches Modell für die Speicherung und Organisation von Informationen im Gehirn. Psychologische Überprüfung. 1958 Nov. 65 (6): 386.

Ich bin nicht sicher, ob SGD zuvor in der Optimierungsliteratur erfunden wurde - wahrscheinlich auch -, aber ich glaube, dass er hier eine Anwendung von SGD zum Trainieren eines Perzeptrons beschreibt.

Befindet sich das System in einem Zustand positiver Verstärkung, wird ein positiver AV zu den Werten aller aktiven A-Einheiten in den Quellensätzen der "Ein" -Reaktionen hinzugefügt, während ein negativer AV zu den aktiven Einheiten in der Quelle hinzugefügt wird - Sätze von "Aus" -Reaktionen.

Er nennt diese "zwei Arten der Verstärkung".

Er verweist auch auf ein Buch mit mehr über diese "zweiwertigen Systeme".

Rosenblatt F. Das Perzeptron: eine Theorie der statistischen Trennbarkeit in kognitiven Systemen (Teilprojekt). Cornell Aeronautical Laboratory; 1958.

user0
quelle
1
Einen guten Schritt voraus, danke! Ich finde die erste Referenz online hier citeseerx.ist.psu.edu/viewdoc/… Ich werde es durchgehen. Ich erwarte jedoch, den Algorithmus expliziter und formeller zu finden.
14.
3
+1 für die Anmerkung zur Optimierung. Da es im maschinellen Lernen verwendet wird, um Optimierungen durchzuführen, und da die Optimierung 40 oder 50 Jahre vor ML eine große Rolle spielte - und ungefähr zur gleichen Zeit auch Computer ins Spiel kamen -, scheint dies ein guter Vorsprung zu sein.
Wayne
Ich verstehe nicht, warum Sie sagen, dass dieses Zitat SGD beschreibt.
Amöbe sagt Reinstate Monica
@amoeba hoffentlich mache ich keinen Fehler, überflog nur das Papier, aber ich dachte, er beschrieb das Perceptron-Update, das nur SGD mit konstanter Lernrate ist.
Benutzer0
3
Korrekt. Ich sage nur, dass der stochastische Aspekt aus dem von Ihnen gewählten Zitat nicht ersichtlich ist. Ich meine, "stochastische" GD bedeutet einfach, dass Aktualisierungen jeweils für ein Trainingsmuster durchgeführt werden (anstatt den Gradienten mit allen verfügbaren Trainingsmustern zu berechnen). Der in en.wikipedia.org/wiki/Perceptron#Steps angegebene Algorithmus macht diesen "stochastischen" Aspekt in Schritt 2 sofort deutlich.
Amöbe sagt Reinstate Monica