Unter Verwendung der Notation von der Wikipedia-Seite ( https://en.wikipedia.org/wiki/Exponential_family ) ist eine Exponentialfamilie eine Familie von Wahrscheinlichkeitsverteilungen mit pmfs / pdfs, die als geschrieben werden können (wobei zu beachten ist, dass θ , x ein Vektor sein kann bewertet):
fθ( x ) = h ( x ) exp[ η( θ )T.t ( x ) - A ( θ ) ]
wobei
& η( θ ) = η die natürlichen Parameter sind,
t ( x ) sind die ausreichenden Statistiken, und
A ( θ ) ist der Protokollnormalisierer (manchmal als Protokollpartitionsfunktion bezeichnet). Der Grund
A ( θ ) wird das Protokoll normalizer genannt, da es im kontinuierlichen Fall , dass überprüft werden kann, für diese eine gültige pdf zu sein, müssen wir haben
A ( θ ) = log[ ∫h ( x ) exp[ η( θ )T.t ( x ) ] dx ] ,
und im diskreten Fall müssen wir
haben, damit dies eine gültige pmf ist
. A ( θ ) = log[ ∑xh ( x ) exp[ η( θ )T.t ( x ) ] ] .
In jedem Fall stellen wir fest, dass
∫h ( x ) exp[ η( θ )T.t ( x ) ] dx und
sind die Normalisierungskonstanten der Verteilungen, daher der Name Log Normalizer.
∑xh ( x ) exp[ η( θ )T.t ( x ) ]
Um nun die spezifische Beziehung zwischen der Softmax-Funktion und der dimensionalen kategorialen Verteilung zu sehen, müssen wir eine spezifische Parametrisierung der Verteilung verwenden. Es sei nämlich θ 1 , ⋯ , θ k - 1 so, dass 0 < θ 1 , ⋯ , θ k - 1 und ∑ k - 1 1 i = 1 θ i (wobei θ = ( θ 1 , ⋯ , θ k) seikθ1, ⋯ , θk - 10 < θ1, ⋯ , θk - 1, und definiereθk=1-∑ k -∑k - 1i = 1θich< 1θk= 1 - ∑k - 1i = 1θich ). Die pmf für diese Verteilung ist ( x = ( x 1 , ⋯ , x k ) sei ein heißer Vektor, dh x i = 1 und x j = 0 für i ≠ j ):
f θ ( x ) = k ∏ i =θ = ( θ1, ⋯ , θk)x = ( x1, ⋯ , xk)xich= 1xj= 0i ≠ j
Um dies als Exponentialfamilie zu schreiben, ist zu beachten, dassh(x)=1,η(θ)=(log[θ1/θk],⋯,log[θ k - 1 /θk],0),t(x)=(x1,⋯,x
fθ( x ) = ∏i = 1kθxichich.
h ( x ) = 1η( θ ) = ( log[ θ1/ θk] , ⋯ , log[ θk - 1/ θk] , 0 )und
A(θ)=-log[ θ k ], also:
f θ (x)=exp[(log[ θ 1 / θ k ],⋯,log[ θ k - 1 / θ k ],0 ) T ( x 1 ,⋯, x k )-(t ( x ) = ( x1, ⋯ , xk)A ( θ ) = - log[ θk]]fθ( x ) = exp[ ( log[ θ1/ θk] , ⋯ , log[ θk - 1/ θk] , 0 )T.( x1, ⋯ , xk) - ( - log[ θk] ) ] .
Schreiben wir nun suggestiv η( θich) = log[θich/.θk] = ηichθich= eηich∑kj = 1eηj
A ( η) = - log[ eηk∑kj = 1eηj] =-log[ 1∑kj = 1eηj] =log[ ∑j = 1keηj] .
ηich∂∂ηichA (η) = eηich∑kj = 1eηj,
∇ A ( η) = [ eη1∑kj = 1eηj, ⋯ , eηk∑kj = 1eηj] .