Was ist der Gradienten-Log-Normalisierer?

9

Im Wiki wird die Softmax-Funktion als Gradient-Log-Normalisierer der kategorialen Wahrscheinlichkeitsverteilung definiert . Eine teilweise Erklärung zum Log-Normalizer finden Sie hier , aber wofür steht der Gradient-Log-Normalizer ?

Taschuhka
quelle

Antworten:

5

Unter Verwendung der Notation von der Wikipedia-Seite ( https://en.wikipedia.org/wiki/Exponential_family ) ist eine Exponentialfamilie eine Familie von Wahrscheinlichkeitsverteilungen mit pmfs / pdfs, die als geschrieben werden können (wobei zu beachten ist, dass θ , x ein Vektor sein kann bewertet):

fθ(x)=h(x)exp[η(θ)T.t(x)- -EIN(θ)]]
wobei & η(θ)=η die natürlichen Parameter sind,t(x) sind die ausreichenden Statistiken, undEIN(θ) ist der Protokollnormalisierer (manchmal als Protokollpartitionsfunktion bezeichnet). Der GrundEIN(θ) wird das Protokoll normalizer genannt, da es im kontinuierlichen Fall , dass überprüft werden kann, für diese eine gültige pdf zu sein, müssen wir haben
EIN(θ)=Log[h(x)exp[η(θ)T.t(x)]]dx]],
und im diskreten Fall müssen wir haben, damit dies eine gültige pmf ist .
EIN(θ)=Log[xh(x)exp[η(θ)T.t(x)]]]].
In jedem Fall stellen wir fest, dass h(x)exp[η(θ)T.t(x)]]dx und sind die Normalisierungskonstanten der Verteilungen, daher der Name Log Normalizer.xh(x)exp[η(θ)T.t(x)]]

Um nun die spezifische Beziehung zwischen der Softmax-Funktion und der dimensionalen kategorialen Verteilung zu sehen, müssen wir eine spezifische Parametrisierung der Verteilung verwenden. Es sei nämlich θ 1 , , θ k - 1 so, dass 0 < θ 1 , , θ k - 1 und k - 1 1 i = 1 θ i (wobei θ = ( θ 1 , , θ k) seikθ1,,θk- -10<θ1,,θk- -1, und definiereθk=1- k -ich=1k- -1θich<1θk=1- -ich=1k- -1θich ). Die pmf für diese Verteilung ist ( x = ( x 1 , , x k ) sei ein heißer Vektor, dh x i = 1 und x j = 0 für i j ): f θ ( x ) = k i =θ=(θ1,,θk)x=(x1,,xk)xich=1xj=0ichj Um dies als Exponentialfamilie zu schreiben, ist zu beachten, dassh(x)=1,η(θ)=(log[θ1/θk],,log[θ k - 1 /θk],0),t(x)=(x1,,x

fθ(x)=ich=1kθichxich.
h(x)=1η(θ)=(Log[θ1/.θk]],,Log[θk- -1/.θk]],0)undA(θ)=-log[ θ k ], also: f θ (x)=exp[(log[ θ 1 / θ k ],,log[ θ k - 1 / θ k ],0 ) T ( x 1 ,, x k )-(t(x)=(x1,,xk)EIN(θ)=- -Log[θk]]
fθ(x)=exp[(Log[θ1/.θk]],,Log[θk- -1/.θk]],0)T.(x1,,xk)- -(- -Log[θk]])]].

Schreiben wir nun suggestiv η(θich)=Log[θich/.θk]]=ηichθich=eηichj=1keηj

EIN(η)=- -Log[eηkj=1keηj]]=- -Log[1j=1keηj]]=Log[j=1keηj]].
ηich
ηichEIN(η)=eηichj=1keηj,
EIN(η)=[eη1j=1keηj,,eηkj=1keηj]].
Aleshing
quelle
Beeindruckend!! Das war eine großartige Erklärung und hat absolut Sinn. Vielen Dank :)
Tashuhka
Ich habe lange nach dieser Ableitung gesucht! Ich frage mich, in welchem ​​Kontext mussten Sie dieses Wissen entwickeln? Hast du das als Teil eines Kurses oder Lehrbuchs gesehen? Ich fand im Internet immer wieder Hinweise auf diese Beziehung, aber niemand gab tatsächlich die Details an.
Zipzapboing
1
@zipzapboing Ich kannte diese Eigenschaft des Softmax erst, als ich die Frage von OP sah! Ich hatte jedoch einen Casella- und Berger-Level-Statistikkurs (in dem exponentielle Familien und einige ihrer anderen Eigenschaften vorgestellt werden) unter meinem Gürtel, der es mir ermöglichte zu wissen, dass der Nachweis der Eigenschaft mit der richtigen Parametrisierung nicht so schwierig wäre.
Aleshing