Erwarteter Wert einer Gaußschen Zufallsvariablen, die mit einer logistischen Funktion transformiert wurde

10

Sowohl die logistische Funktion als auch die Standardabweichung werden normalerweise als . Ich werde und s für die Standardabweichung verwenden.σσ(x)=1/(1+exp(x))s

Ich habe eine logistische Neuron mit einem zufälligen Eingang , dessen Mittelwert und Standardabweichung ich weiß. Ich hoffe, dass der Unterschied zum Mittelwert durch ein Gaußsches Rauschen gut angenähert werden kann. Nehmen wir also bei einem leichten Missbrauch der Notation an, dass sie . Was ist der erwartete Wert von ? Die Standardabweichung kann im Vergleich zu oder groß oder klein sein . Eine gute Näherung in geschlossener Form für den erwarteten Wert wäre fast so gut wie eine Lösung in geschlossener Form.μsσ(μ+N(0,s2))=σ(N(μ,s2))σ(N(μ,s2))sμ1

Ich glaube nicht, dass es eine geschlossene Lösung gibt. Dies kann als Faltung angesehen werden, und die charakteristische Funktion für die logistische Dichte ist bekannt ( ), aber ich bin mir nicht sicher, wie viel das hilft. Der inverse symbolische Rechner konnte die Dichte der Faltung der logistischen Verteilungsdichte und einer Standardnormalverteilung bei nicht erkennen , was darauf hindeutet, aber nicht beweist, dass es kein einfaches Elementarintegral gibt. Weitere Indizienbeweise: In einigen Veröffentlichungen zum Hinzufügen von Gaußschem Eingangsrauschen zu neuronalen Netzen mit logistischen Neuronen gaben die Veröffentlichungen auch keine Ausdrücke in geschlossener Form.πt csch πt0

Diese Frage stellte sich beim Versuch, den Fehler in der mittleren Feldnäherung in Boltzman-Maschinen zu verstehen.

Douglas Zare
quelle

Antworten:

5

Folgendes habe ich letztendlich verwendet:

Schreibe wobei . Wir können eine Taylor-Reihenerweiterung verwenden.σ(N(μ,s2))=σ(μ+X)XN(0,s2)

σ(μ+X)=σ(μ)+Xσ(μ)+X22σ(μ)+...+Xnn!σ(n)(μ)+...

E[σ(μ+X)]=E[σ(μ)]+E[Xσ(μ)]+E[X22σ(μ)]+...=σ(μ)+0+s22σ(μ)+0+3s424σ(4)(μ)+...+s2k2kk!σ(2k)(μ)...

Es gibt Konvergenzprobleme. Die logistische Funktion hat einen Pol mit , also bei , ungerade. Divergenz ist nicht dasselbe wie das nutzlose Präfix, aber diese Seriennäherung kann unzuverlässig sein, wenn signifikant ist.exp(x)=1x=kπikP(|X|>μ2+π2)

Da , können wir Ableitungen von als Polynome in schreiben . Zum Beispiel und . Die Koeffizienten beziehen sich auf OEIS A028246 .σ(x)=σ(x)(1σ(x))σ(x)σ(x)σ=σ3σ2+2σ3σ=σ7σ2+12σ36σ4

Douglas Zare
quelle
4

Was Sie hier haben, ist eine Zufallsvariable, die einer logit-normalen (oder logistisch-normalen) Verteilung folgt (siehe Wikipedia ), . Die Momente der logit-Normalverteilung haben keine analytischen Lösungen.logit[x]N(μ,s2)

Aber natürlich kann man sie durch numerische Integration erhalten. Wenn Sie R verwenden, gibt es das logitnorm- Paket, das alles enthält , was Sie benötigen. Ein Beispiel:

install.packages("logitnorm")
library(logitnorm)
momentsLogitnorm(mu=1, sigma=2)

Dies ergibt:

> momentsLogitnorm(mu=1, sigma=2)
      mean        var 
0.64772644 0.08767866

Es gibt also sogar eine Komfortfunktion, mit der Sie direkt den Mittelwert und die Varianz ermitteln können.

Wolfgang
quelle