Als «activation-function» getaggte Fragen

17
Was ist die GELU-Aktivierung?

Ich habe BERT-Artikel durchgearbeitet, in dem GELU (Gaußsche Fehler- Lineareinheit ) verwendet wird, wobei die Gleichung wie folgt lautet: G EL U( x ) = x P( X≤ x ) = x Φ ( x ) .GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).das entspricht Könnten Sie die Gleichung vereinfachen und erklären,...

7
Kann das Problem des verschwindenden Gradienten gelöst werden, indem die Eingabe von tanh mit einem Koeffizienten multipliziert wird?

Nach meinem Verständnis tritt das Problem des verschwindenden Gradienten beim Training neuronaler Netze auf, wenn der Gradient jeder Aktivierungsfunktion kleiner als 1 ist, so dass das Produkt dieser Gradienten sehr klein wird, wenn Korrekturen durch viele Schichten zurückpropagiert werden. Ich...