Warum wird der Softmax zur Darstellung einer Wahrscheinlichkeitsverteilung verwendet?

10

In der Literatur zum maschinellen Lernen wird häufig die Softmax-Funktion verwendet, um eine Wahrscheinlichkeitsverteilung darzustellen. Gibt es einen Grund dafür? Warum wird keine andere Funktion verwendet?

machine-learning distributions softmax SHASHANK GUPTA
quelle

7

Aus Sicht der Optimierung hat es einige schöne Eigenschaften in Bezug auf die Differenzierbarkeit. Für viele Probleme des maschinellen Lernens eignet es sich gut für die 1-of-N-Klassifizierung.

Aus einer Deep-Learning-Perspektive: Man könnte auch argumentieren, dass theoretisch die Verwendung eines Deep-Netzwerks mit einem Softmax-Klassifikator oben jede Wahrscheinlichkeitsfunktion der N-Klasse über den Merkmalsraum darstellen kann, da MLPs die Universal Approximation- Eigenschaft haben.

Indie AI
quelle

1

Der Hauptgrund für die Beliebtheit von Softmax sind die schönen Differenzierungseigenschaften, die bei der Einstellung für das gradientenbasierte Lernen hilfreich sind. Das war's, richtig?

SHASHANK GUPTA

Ja, meiner Meinung nach sowieso. Softmax ist einfach mit schönen Ableitungen und ist attraktiv für gradientenbasiertes Lernen. Stimmen Sie mit allem überein, was Sie gesagt haben.

Indie AI

Sie können Softmax als Wahrscheinlichkeitsmasse / Dichtefunktion der Funktion betrachten, die Sie optimieren möchten. Meiner Meinung nach ist Softmax nur eine bequeme Möglichkeit, eine Wahrscheinlichkeitsmassen- / Dichtefunktion zu modellieren.

Charles Chow

3

Softmax ist auch eine Verallgemeinerung der logistischen Sigmoidfunktion und trägt daher die Eigenschaften des Sigmoid wie die einfache Differenzierung und den Bereich 0-1. Die Ausgabe einer logistischen Sigmoidfunktion liegt ebenfalls zwischen 0 und 1 und ist daher natürlich eine geeignete Wahl zur Darstellung der Wahrscheinlichkeit. Sein Derivat wird auch in Bezug auf seine eigene Produktion exoriert. Wenn Ihre Funktion jedoch eine Vektorausgabe hat, müssen Sie die Softmax-Funktion verwenden, um die Wahrscheinlichkeitsverteilung über den Ausgabevektor zu erhalten. Es gibt einige andere Vorteile der Verwendung von Softmax, die Indie AI erwähnt hat, obwohl dies nicht unbedingt etwas mit der Universal Approximationstheorie zu tun hat, da Softmax keine Funktion ist, die nur für neuronale Netze verwendet wird.

Verweise

Logistische Funktion

Softmax-Funktion

Einfache Differenzierung bei Softmax

Einfache Differenzierung von Sigmoid

Amir
quelle

Warum wird der Softmax zur Darstellung einer Wahrscheinlichkeitsverteilung verwendet?

Antworten: