Was ist die GELU-Aktivierung?
Ich habe BERT-Artikel durchgearbeitet, in dem GELU (Gaußsche Fehler- Lineareinheit ) verwendet wird, wobei die Gleichung wie folgt lautet: G EL U( x ) = x P( X≤ x ) = x Φ ( x ) .GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).das entspricht Könnten Sie die Gleichung vereinfachen und erklären,...