Ich versuche, mich durch den ersten Problemsatz des cs224d Online-Kurskurses in Stanford zu arbeiten, und ich habe einige Probleme mit Problem 3A: Wenn wir das Skip-Gramm-word2vec-Modell mit der Softmax-Vorhersagefunktion und der Cross-Entropy-Loss-Funktion verwenden, haben wir wollen die Gradienten in Bezug auf die vorhergesagten Wortvektoren berechnen. Also gegeben die Softmax-Funktion:
und Kreuzentropiefunktion:
wir müssen \ frac {\ partielle {CE}} {\ partielle {\ hat {r}}} berechnen
Meine Schritte sind wie folgt:
Jetzt ist ein heißer Vektor und i ist die richtige Klasse:
Ist das richtig oder könnte es weiter vereinfacht werden? Ich möchte versuchen, sicherzustellen, dass ich auf dem richtigen Weg bin, da die Problemlösungen nicht online veröffentlicht werden. Außerdem ist es wichtig, dass die schriftlichen Aufgaben korrekt sind, damit die Programmieraufgaben ordnungsgemäß ausgeführt werden können.
quelle
Antworten:
quelle