Durch Anwenden der Softmax-Funktion auf einen Vektor werden "Wahrscheinlichkeiten" und Werte zwischen und .
Wir können aber auch jeden Wert durch die Summe der Vektoren dividieren, wodurch Wahrscheinlichkeiten und Werte zwischen und .
Ich habe die Antwort hier gelesen , aber es heißt, dass der Grund darin liegt, dass sie differenzierbar ist, obwohl beide Funktionen differenzierbar sind.
Antworten:
Die von Ihnen vorgeschlagene Funktion hat eine Singularität, wenn die Summe der Elemente Null ist.
Angenommen, Ihr Vektor ist[−1,13,23] . Dieser Vektor hat eine Summe von 0, daher ist keine Division definiert. Die Funktion ist hier nicht unterscheidbar.
Wenn eines oder mehrere der Elemente des Vektors negativ ist, die Summe jedoch ungleich Null ist, ist Ihr Ergebnis keine Wahrscheinlichkeit.
Angenommen, Ihr Vektor ist[−1,0,2] . Dies hat eine Summe von 1, so dass das Anwenden Ihrer Funktion zu [−1,0,2] ist kein Wahrscheinlichkeitsvektor, da sie negative Elemente und Elemente über 1 enthält.
Aus einer breiteren Sicht können wir die spezifische Form der Softmax-Funktion aus der Perspektive der Ausweitung der binären logistischen Regression auf den Fall von drei oder mehr kategorialen Ergebnissen motivieren.
Wenn Sie beispielsweise Absolutwerte oder Quadrate verwenden, wie in den Kommentaren vorgeschlagen, bedeutet dies, dass−x und x die gleiche vorhergesagte Wahrscheinlichkeit haben. Dies bedeutet, dass das Modell nicht identifiziert wird . Im Gegensatz dazu ist exp(x) für alle reellen x monoton und positiv , sodass das Softmax-Ergebnis (1) ein Wahrscheinlichkeitsvektor ist und (2) das multinomiale logistische Modell identifiziert wird.
quelle
Softmax besteht aus zwei Komponenten:
Transformiere die Komponenten zu e ^ x. Dies ermöglicht es dem neuronalen Netzwerk, mit logarithmischen Wahrscheinlichkeiten anstatt mit gewöhnlichen Wahrscheinlichkeiten zu arbeiten. Dies macht aus der gemeinsamen Operation der Multiplikation von Wahrscheinlichkeiten eine Addition, was für die auf linearer Algebra basierende Struktur neuronaler Netze weitaus natürlicher ist.
Normalisieren Sie ihre Summe auf 1, da dies die Gesamtwahrscheinlichkeit ist, die wir benötigen.
Eine wichtige Konsequenz davon ist, dass der Bayes-Satz für ein solches Netzwerk sehr natürlich ist, da es sich nur um die Multiplikation von Wahrscheinlichkeiten handelt, die durch den Nenner normalisiert werden.
Der einfache Fall eines einschichtigen Netzwerks mit Softmax-Aktivierung entspricht der logistischen Regression.
Der Spezialfall des Zweikomponenten-Softmax entspricht der Sigmoid-Aktivierung, die daher bei nur zwei Klassen beliebt ist. In der Klassifikation mit mehreren Klassen wird softmax verwendet, wenn sich die Klassen gegenseitig ausschließen, und komponentenweise wird sigmoid verwendet, wenn sie unabhängig sind.
quelle