W,b
y∼Cat(σ(Wx+b));σi(z)=expzi∑jexpzj.
bp(x,y|W,b)∝p(y|W,b,x)Wmit kleinen Werten nahe 0 und dass eine Bezeichnung in , also:
Addiert die Log-Wahrscheinlichkeiten für alle angenommenen unabhängigen Beispiele , eine gute Initialisierung für würde die ungefähre Gesamtwahrscheinlichkeit des Datenprotokolls minimieren:
Der Gradient des obigen wrt ist , mit
y[K]Wx≈0logp(y|W,b,x)=∑k=1K1y=klogσk(Wx+b)≈logσy(b)
{(xi,yi)}ni=1b∑i=1nlogσyi(b)=∑i=1nbyi−nlog∑k=1Kexpbk
bc−nσ(b)c∈NKder Zählvektor jeder Klasse. Die obige Funktion ist ebenfalls konkav,
siehe die Frage hier zu Smooth Max für einen Beweis.
Die beiden obigen Tatsachen implizieren, dass ein Maximum verfügbar ist, wenn . Dies legt wiederum nahe, dass eine brauchbare Initialisierung für den ten Term des Bias tatsächlich , der Anteil der markierten Beispiele im Trainingssatz (auch bekannt als Randstatistik). Möglicherweise sehen Sie, dass Sie eine beliebige Konstante hinzufügen und eine weitere wahrscheinlichkeitsmaximierende Verzerrung erzielen können. Ein großer Umfang würde jedoch das Lernen von . Die Beziehung zur logistischen Tendenz ist kein Zufall - in diesem Tutorial wird die Ähnlichkeit erörtert.σ(b)=c/nibiblogpiibW