Ich bin neu im Deep Learning und versuche, die Ableitung der folgenden Funktion in Bezug auf die Matrix zu berechnen :
Unter Verwendung der Quotientenregel erhalte ich:
Ich glaube, ich mache etwas falsch, da die Softmax-Funktion üblicherweise als Aktivierungsfunktion beim Deep Learning verwendet wird (und daher nicht immer eine Ableitung von ). Ich habe ähnliche Fragen durchgesehen , aber sie scheinen diesen Teil der Berechnung zu beschönigen.
Ich würde mich über Hinweise in die richtige Richtung freuen.
Antworten:
Die letzte verborgene Ebene erzeugt Ausgabewerte, die einen Vektor . Die ausgegebene neuronale Schicht soll unter Kategorien mit einer SoftMax-Aktivierungsfunktion klassifizieren , die jeder der Kategorien bedingte Wahrscheinlichkeiten (gegeben ) zuweist . In jedem Knoten in der letzten (oder Ausgabe-) Ebene bestehen die voraktivierten Werte (Logit-Werte) aus den Skalarprodukten , wobei . Mit anderen Worten, jede Kategorie,x⃗ =x K=1,…,k x K w⊤jx wj∈{w1,w2,…,wk} k Es wird ein anderer Vektor von Gewichten darauf zeigen, der den Beitrag jedes Elements in der Ausgabe der vorherigen Ebene (einschließlich einer Vorspannung) bestimmt, eingekapselt in . Die Aktivierung dieser letzten Schicht erfolgt jedoch nicht elementweise (wie zum Beispiel mit einer Sigmoidfunktion in jedem Neuron), sondern durch die Anwendung einer SoftMax-Funktion, die einen Vektor in auf abbildet ein Vektor von Elementen in [0,1]. Hier ist eine erfundene NN zur Klassifizierung von Farben:x Rk K
Softmax definieren als
Wir wollen die partielle Ableitung in Bezug auf einen Vektor von Gewichten , aber wir können zuerst die Ableitung von in Bezug auf das Logit erhalten, dh :(wi) σ(j) zi=w⊤i⋅x
Vielen Dank und (+1) an Yuntai Kyong für den Hinweis, dass in der vorherigen Version des Beitrags ein vergessener Index vorhanden war und die Änderungen im Nenner des Softmax in der folgenden Kettenregel nicht berücksichtigt wurden ...
Nach der Kettenregel
Kombinieren Sie dieses Ergebnis mit der vorherigen Gleichung:
quelle
Ich habe ein anderes Ergebnis. Außerdem hängt von im Nenner des Softmax ab, sodass nicht sicher ist, ob Antonis Ergebnis korrekt ist.σ(j) wi
quelle