Beziehen sich verbleibende Netzwerke auf die Erhöhung des Gradienten?

11

Kürzlich haben wir die Entstehung des verbleibenden neuronalen Netzes gesehen, bei dem jede Schicht aus einem Rechenmodul ci und einer Verknüpfungsverbindung besteht, die die Eingabe in die Schicht beibehält, wie die Ausgabe der i-ten Schicht zeigt:

yi+1=ci+yi
Das Netzwerk ermöglicht das Extrahieren von Restmerkmalen und ermöglicht eine tiefere Tiefe, während es gleichzeitig robuster gegenüber dem Problem des verschwindenden Gradienten ist und eine Leistung auf dem neuesten Stand der Technik erzielt.

Nachdem man sich mit Gradientenverstärkung befasst hat , einer sehr leistungsfähigen Ensemble-Technik in der Welt des maschinellen Lernens, die auch eine Form der Gradientenoptimierung für den Rest des Verlusts durchzuführen scheint, ist es schwierig, irgendeine Form von Ähnlichkeit nicht zu erkennen.

Ich weiß, dass sie ähnlich, aber nicht gleich sind - ein Hauptunterschied, den ich bemerkt habe, ist, dass die Gradientenverstärkung eine Optimierung des additiven Terms durchführt, während das verbleibende Netz das gesamte Netzwerk optimiert.

Ich habe nicht gesehen, dass He et al dies als Teil ihrer Motivation in ihrer Originalarbeit notierten . Ich habe mich gefragt, was Sie zu diesem Thema wissen, und Sie gebeten, interessante Ressourcen zu teilen, über die Sie verfügen.

Vielen Dank.

Rhadar
quelle

Antworten:

7

Möglicherweise ein neueres Papier, das versucht, mehr davon vom Langford- und Shapire-Team anzusprechen: Deep ResNet-Blöcke nacheinander mithilfe der Boosting-Theorie lernen

Teile von Interesse sind (siehe Abschnitt 3):

Der Hauptunterschied besteht darin, dass Boosten ein Ensemble geschätzter Hypothesen ist, während ResNet ein Ensemble geschätzter Merkmalsdarstellungen ist. t=0Tft(gt(x)) . Um dieses Problem zu lösen, führen wir über jedem Restblock einen linearen Hilfsklassifikator wt ein, um ein Hypothesenmodul zu erstellen . Formal ist ein Hypothesenmodul definiert als

ot(x):=wtTgt(x)R

...

(wobei) ot(x)=t=0t1wtTft(gt(x))

Das Papier geht viel detaillierter auf die Konstruktion des schwachen Modulklassifikators ht(x) und dessen Integration in den BoostResNet- Algorithmus ein.


Wenn Sie dieser Antwort etwas mehr Details hinzufügen, können alle Boosting-Algorithmen in irgendeiner Form von [1] geschrieben werden (S. 5, 180, 185 ...):

FT(x):=t=0Tαtht(x)

Wobei ht die schwache Hypothese tth , für eine Wahl von αt . Es ist zu beachten, dass unterschiedliche Boosting-Algorithmen auf unterschiedliche Weise αt und ht .

Zum Beispiel verwendet AdaBoost [1] (S. 5) ht um den gewichteten Fehler ϵt mit α t = 1 zu minimierenαt=12log1ϵtϵt

Andererseits wird in der Gradientenverstärkungseinstellung [1] (S. 190.) ht ausgewählt, das L(Ft1(x))ht maximiert , und αt>0 wird gewählt (als Lernrate) etc)

Wo wie in [2] unter Lemma 3.2 gezeigt wird, dass die Ausgabe von Tiefe T ResNet F(x) was äquivalent zu ist

F(x)t=0Tht(x)

Damit ist die Beziehung zwischen Boosting und Resnet abgeschlossen. In der Arbeit [2] wird vorgeschlagen, eine lineare Hilfsschicht hinzuzufügen, um sie in die Form FT(x):=t=0Tαtht(x) , was zu ihrem BoostResNet-Algorithmus und einigen Diskussionen darüber führt

[1] Robert E. Schapire und Yoav Freund. 2012. Boosting: Grundlagen und Algorithmen. Die MIT-Presse. S. 5, 180, 189
[2] Furong Huang, Jordan Ash, John Langford, Robert Schapire: Sequentielles Lernen von Deep ResNet-Blöcken mithilfe der Boosting-Theorie, ICML 2018

Chappers
quelle
4

Beantwortung meiner eigenen Frage: Ich habe ein bemerkenswertes Papier gefunden , das untersucht und beweist, dass Deep Residual Networks tatsächlich ein Ensemble flacher Netzwerke sind.

EINE ANDERE BEARBEITUNG, nachdem ich dieses Problem besser verstanden habe: Ich betrachte Resnets als einen Weg, um 'Feature Boosting' zu lernen. Die Restverbindung führt eine Verstärkung durch, jedoch nicht für das Objektiv, sondern tatsächlich für die Ausgangsmerkmale der nächsten Schicht. Sie sind also tatsächlich miteinander verbunden, aber es handelt sich nicht um eine klassische Gradientenverstärkung, sondern um eine "Gradientenmerkmalssteigerung".

rhadar
quelle