In der Literatur zum maschinellen Lernen wird häufig die Softmax-Funktion verwendet, um eine Wahrscheinlichkeitsverteilung darzustellen. Gibt es einen Grund dafür? Warum wird keine andere Funktion verwendet?
machine-learning
distributions
softmax
SHASHANK GUPTA
quelle
quelle
Softmax ist auch eine Verallgemeinerung der logistischen Sigmoidfunktion und trägt daher die Eigenschaften des Sigmoid wie die einfache Differenzierung und den Bereich 0-1. Die Ausgabe einer logistischen Sigmoidfunktion liegt ebenfalls zwischen 0 und 1 und ist daher natürlich eine geeignete Wahl zur Darstellung der Wahrscheinlichkeit. Sein Derivat wird auch in Bezug auf seine eigene Produktion exoriert. Wenn Ihre Funktion jedoch eine Vektorausgabe hat, müssen Sie die Softmax-Funktion verwenden, um die Wahrscheinlichkeitsverteilung über den Ausgabevektor zu erhalten. Es gibt einige andere Vorteile der Verwendung von Softmax, die Indie AI erwähnt hat, obwohl dies nicht unbedingt etwas mit der Universal Approximationstheorie zu tun hat, da Softmax keine Funktion ist, die nur für neuronale Netze verwendet wird.
Verweise
quelle