Protokollwahrscheinlichkeiten in Bezug auf den Softmax-Klassifikator

9

In diesem https://cs231n.github.io/neural-networks-case-study/ wird erwähnt, warum "der Softmax-Klassifizierer jedes Element von ff so interpretiert, dass es die (nicht normalisierten) Protokollwahrscheinlichkeiten der drei Klassen enthält".

Ich verstehe, warum es nicht normalisiert ist, aber nicht, warum es protokolliert wird. Was bedeutet eine Log-Wahrscheinlichkeit?

Warum nicht einfach nicht normalisierte Wahrscheinlichkeiten sagen?

Abhishek Bhatia
quelle

Antworten:

9

Es gibt einen Unterschied zwischen Wahrscheinlichkeiten und Protokollwahrscheinlichkeiten. Wenn die Wahrscheinlichkeit eines Ereignisses 0,36787944117 beträgt, was zufällig , beträgt die Protokollwahrscheinlichkeit -1.1/e

Wenn Sie also eine Reihe nicht normalisierter Protokollwahrscheinlichkeiten erhalten und die ursprünglichen Wahrscheinlichkeiten wiederherstellen möchten, nehmen Sie zuerst den Exponenten aller Ihrer Zahlen, wodurch Sie nicht normalisierte Wahrscheinlichkeiten erhalten. Als nächstes normalisieren Sie sie wie gewohnt. Mathematisch ist das

pj=ezjiezi

Dabei ist die Wahrscheinlichkeit der ten Klasse und die Eingaben in den Softmax-Klassifikator. j z ipjjzi

Die offensichtliche Frage ist, warum man sich die Mühe macht, Exponenten zu machen. Warum nicht verwenden

pj=zjizi

stattdessen?

Ein Grund dafür ist, dass der Softmax gut mit dem Kreuzentropieverlust spielt, der , wobei die wahre Verteilung (die Bezeichnungen) ist. Intuitiv wird das Protokoll mit dem Exponenten abgebrochen, was für uns sehr hilfreich ist.qEq[logp]q

Es stellt sich heraus , dass , wenn Sie die Steigung der Quer Entropieverlust in Bezug auf die Eingaben in den Sichter nehmen , erhalten Sie p -1jz

p1j

wenn das Grundwahrheitslabel in der Klasse und der entsprechende One-Hot-Vektor ist. Dies ist ein sehr schöner Ausdruck und führt zu einer einfachen Interpretation und Optimierung.1 jj1j

Wenn Sie andererseits versuchen, nicht normalisierte Wahrscheinlichkeiten anstelle von nicht normalisierten Protokollwahrscheinlichkeiten zu verwenden, erhalten Sie den Gradienten

1izi1jT1z

Dieser Ausdruck ist in Bezug auf die Interpretierbarkeit viel weniger gut und Sie können auch potenzielle numerische Probleme erkennen, wenn nahe 0 liegt.z

Ein weiterer Grund für die Verwendung von Protokollwahrscheinlichkeiten ist die logistische Regression, die lediglich ein Sonderfall der Softmax-Klassifizierung ist. Die Form der Sigmoid-Funktion funktioniert gut, da die Wahrscheinlichkeit von Klassen intuitiv nicht linear mit den Eingaben variiert, wenn Sie sich über den Feature-Space bewegen. Die scharfe Biegung der Sigmoidfunktion, die die scharfe Grenze zwischen zwei Klassen betont, ist wirklich ein Ergebnis des Exponentialterms, den wir auf die Eingaben von Softmax anwenden.

Shimao
quelle
Wo ist das Protokoll im Ausdruck nicht normalisierter Protokollwahrscheinlichkeiten?
Abhishek Bhatia
1
Das Protokoll stammt aus der Tatsache, dass . Das Protokoll der Wahrscheinlichkeiten ist die Protokollwahrscheinlichkeit. Da ich in meinem Beitrag in die entgegengesetzte Richtung ging - Wahrscheinlichkeiten zu Wahrscheinlichkeiten protokollieren, habe ich exp anstelle von log verwendet. logpjzj
Shimao