Ja, die Ableitung zweiter Ordnung von ReLU ist 0. Technisch gesehen sind weder noch bei , aber wir ignorieren das - in der Praxis ein genaues ist selten und nicht besonders aussagekräftig, daher ist dies kein Problem. Die Newton-Methode funktioniert bei der ReLU-Übertragungsfunktion nicht, da sie keine stationären Punkte aufweist. Bei den meisten anderen gängigen Übertragungsfunktionen funktioniert dies jedoch nicht sinnvoll - sie können für endliche Eingaben nicht minimiert oder maximiert werden.dydxd2ydx2x=0x=0
Wenn Sie mehrere ReLU-Funktionen mit Schichten von Matrixmultiplikationen in einer Struktur wie einem neuronalen Netzwerk kombinieren und eine Zielfunktion minimieren möchten, ist das Bild komplizierter. Diese Kombination hat stationäre Punkte. Sogar ein einzelnes ReLU-Neuron und ein mittleres quadratisches Fehlerobjektiv weisen ein ausreichend unterschiedliches Verhalten auf, so dass die Ableitung zweiter Ordnung des einzelnen Gewichts variiert und nicht garantiert 0 ist.
Nichtlinearitäten, wenn mehrere Schichten kombiniert werden, erzeugen eine interessantere Optimierungsoberfläche. Dies bedeutet auch, dass es schwieriger ist, nützliche partielle Ableitungen zweiter Ordnung (oder hessische Matrix ) zu berechnen , es geht nicht nur darum, Ableitungen zweiter Ordnung der Übertragungsfunktionen zu nehmen.
Die Tatsache, dass für die Übertragungsfunktion ist, macht einige Terme in der Matrix zu Null (für den Effekt zweiter Ordnung aus derselben Neuronenaktivierung), aber die Mehrheit der Terme im Hessischen sind von der Form wobei E die Zielsetzung und ist , sind verschiedene Parameter des neuronalen Netzes. Eine vollständig realisierte hessische Matrix hat Terme, wobei die Anzahl der Parameter ist - mit großen neuronalen Netzen mit mehr als 1 Million Parametern, selbst bei einem einfachen Berechnungsprozess, und viele Terme sind 0 (z. B. 2 Gewichte in derselben Schicht) ist möglicherweise nicht durchführbar.d2ydx2=0∂2E∂xi∂xjxixjN2N
Es gibt Techniken, um die Auswirkungen von Derivaten zweiter Ordnung abzuschätzen, die in einigen Optimierern für neuronale Netze verwendet werden. RMSProp kann beispielsweise als grobe Schätzung von Effekten zweiter Ordnung angesehen werden. Die "Hessisch-freien" Optimierer berechnen die Auswirkung dieser Matrix expliziter.