Die Softmax-Funktion, die üblicherweise in neuronalen Netzen verwendet wird, um reelle Zahlen in Wahrscheinlichkeiten umzuwandeln, ist dieselbe Funktion wie die Boltzmann-Verteilung, die Wahrscheinlichkeitsverteilung über Energien für ein Ensemble von Partikeln im thermischen Gleichgewicht bei einer gegebenen Temperatur T in der Thermodynamik.
Ich kann einige klare heuristische Gründe erkennen, warum dies praktisch ist:
- Unabhängig davon, ob die Eingabewerte negativ sind, gibt softmax positive Werte aus, die sich zu eins summieren.
- Es ist immer differenzierbar, was für die Backpropagation praktisch ist.
- Es hat einen 'Temperatur'-Parameter, der steuert, wie mild das Netzwerk gegenüber kleinen Werten sein soll (wenn T sehr groß ist, sind alle Ergebnisse gleich wahrscheinlich, wenn sehr klein ist, wird nur der Wert mit der größten Eingabe ausgewählt).
Wird die Boltzmann-Funktion aus praktischen Gründen nur als Softmax verwendet oder besteht eine tiefere Verbindung zur Thermodynamik / statistischen Physik?
Antworten:
Meines Wissens gibt es keinen tieferen Grund, abgesehen von der Tatsache, dass viele der Leute, die ANNs über das Perceptron-Stadium hinaus nahmen, Physiker waren.
Abgesehen von den genannten Vorteilen bietet diese spezielle Auswahl weitere Vorteile. Wie bereits erwähnt, verfügt es über einen einzelnen Parameter, der das Ausgabeverhalten bestimmt. Was wiederum optimiert oder selbst abgestimmt werden kann.
Kurz gesagt, es ist eine sehr praktische und bekannte Funktion, die eine Art "Regularisierung" erreicht, in dem Sinne, dass selbst die größten Eingabewerte eingeschränkt sind.
Natürlich gibt es viele andere mögliche Funktionen, die die gleichen Anforderungen erfüllen, aber sie sind in der Welt der Physik weniger bekannt. Und meistens sind sie schwerer zu bedienen.
quelle
Die Softmax-Funktion wird auch bei der Modellierung diskreter Auswahl verwendet. Sie entspricht dem Logit-Modell, wenn Sie davon ausgehen, dass jeder Klasse eine Dienstprogrammfunktion zugeordnet ist und die Dienstprogrammfunktion der Ausgabe des neuronalen Netzwerks + einem Fehlerterm nach dem Gumbel entspricht Verteilung entspricht die Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse der Softmax-Funktion mit dem neuronalen Netzwerk als Eingabe. Siehe: https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf
Es gibt Alternativen zum Logit-Modell, z. B. das Probit-Modell, bei dem angenommen wird, dass der Fehlerterm der Standardnormalverteilung folgt, was eine bessere Annahme ist. Die Wahrscheinlichkeit wäre jedoch unlösbar und rechenintensiv zu lösen, weshalb sie im neuronalen Netzwerk nicht häufig verwendet wird
quelle