Motivierende Sigmoid-Ausgabeeinheiten in neuronalen Netzen, beginnend mit nicht normalisierten logarithmischen Wahrscheinlichkeiten, linear in

12

Hintergrund: Ich studiere Kapitel 6 von Deep Learning von Ian Goodfellow und Yoshua Bengio und Aaron Courville. In Abschnitt 6.2.2.2 (Seiten 182 von 183, die hier eingesehen werden können ) wird die Verwendung von Sigmoid zur Ausgabe von P(y=1|x) motiviert.

Um einen Teil des Materials zusammenzufassen, lassen sie

z=wTh+b
ein Ausgangsneuron sein, bevor eine Aktivierung angewendet wird, wobei die Ausgabe der vorherigen verborgenen Schicht ist, ein Vektor von Gewichten ist und eine skalare Vorspannung ist. Der Eingabevektor wird mit (wovon eine Funktion ist) und der Ausgabewert wird mit wobei die Sigmoidfunktion ist. Das Buch möchte eine Wahrscheinlichkeitsverteilung über mit dem Wert . Aus dem zweiten Absatz von Seite 183:w b x h y = ϕ ( z ) ϕ y zhwbxhy=ϕ(z)ϕyz

Wir lassen die Abhängigkeit von für den Moment weg, um zu diskutieren, wie eine Wahrscheinlichkeitsverteilung über Verwendung des Wertes . Das Sigmoid kann motiviert werden, indem eine nicht normalisierte Wahrscheinlichkeitsverteilung konstruiert wird , die nicht 1 ergibt. Wir können dann durch eine geeignete Konstante dividieren, um eine gültige Wahrscheinlichkeitsverteilung zu erhalten. Wenn wir mit der Annahme beginnen, dass die nicht normalisierten logarithmischen Wahrscheinlichkeiten in und linear sind , können wir potenzieren, um die nicht normalisierten Wahrscheinlichkeiten zu erhalten. Wir normalisieren dann, um zu sehen, dass dies eine Bernoulli-Verteilung ergibt, die durch eine Sigmoidtransformation von z gesteuert wird: y z ˜ P ( y ) y z log ˜ P ( y )xyzP~(y)yz

logP~(y)=yzP~(y)=exp(yz)P(y)=exp(yz)y=01exp(yz)P(y)=ϕ((2y1)z)

Fragen: Ich bin verwirrt über zwei Dinge, insbesondere das erste:

  1. Woher kommt die ursprüngliche Annahme? Warum ist die nicht normalisierte logarithmische Wahrscheinlichkeit in und linear ? Kann mir jemand sagen, wie die Autoren mit angefangen haben?z log ˜ P ( y ) = y zyzlogP~(y)=yz ?
  2. Wie folgt die letzte Zeile?
HBeel
quelle

Antworten:

8

Es gibt zwei mögliche Ergebnisse für . Dies ist sehr wichtig, da diese Eigenschaft die Bedeutung der Multiplikation ändert. Es gibt zwei mögliche Fälle:y{0,1}

logP~(y=1)=zlogP~(y=0)=0

Darüber hinaus ist zu beachten, dass die nicht normalisierte logarithmische Wahrscheinlichkeit für konstant ist. Diese Eigenschaft ergibt sich aus der Hauptannahme. Durch Anwenden einer deterministischen Funktion auf den konstanten Wert wird eine konstante Ausgabe erzeugt. Diese Eigenschaft vereinfacht die endgültige Formel, wenn wir eine Normalisierung über alle möglichen Wahrscheinlichkeiten durchführen, da wir nur die nicht normalisierte Wahrscheinlichkeit für y = 1 kennen müssen und für y = 0 immer konstant ist. Und da die Ausgabe aus dem Netzwerk mit nicht normalisierter logarithmischer Wahrscheinlichkeit erfolgt, benötigen wir nur eine Ausgabe, da eine andere als konstant angenommen wird.y=0y=1y=0

Als nächstes wenden wir eine Exponentiation auf die nicht normalisierte Logarithmuswahrscheinlichkeit an, um eine nicht normalisierte Wahrscheinlichkeit zu erhalten.

P~(y=1)=ezP~(y=0)=e0=1

Als nächstes normalisieren wir einfach die Wahrscheinlichkeiten und teilen jede nicht normalisierte Wahrscheinlichkeit durch die Summe aller möglichen nicht normalisierten Wahrscheinlichkeiten.

P(y=1)=ez1+ezP(y=0)=11+ez

Wir interessieren uns nur für , denn das bedeutet die Wahrscheinlichkeit aus der Sigmoidfunktion. Die erhaltene Funktion sieht auf den ersten Blick nicht wie Sigmoid aus, ist aber gleich und leicht zu zeigen.P(y=1)

P(y=1)=ex1+ex=1ex+1ex=11+1ex=11+ex

Die letzte Aussage kann zunächst verwirrend sein, aber es ist nur ein Weg zu zeigen, dass diese endgültige Wahrscheinlichkeitsfunktion ein Sigmoid ist. Der Wert konvertiert 0 zu - 1 und 1 zu 1 (oder wir können sagen, dass dies unverändert wäre).(2y1)0111

P(y)=σ((2y1)z)={σ(z)=11+ez=ez1+ezwhen y=1σ(z)=11+e(z)=11+ezwhen y=0

Wie wir sehen können, ist es nur der Weg, die Beziehung zwischen und P ( y ) zu zeigen.σP(y)

itdxer
quelle
"Außerdem ist es wichtig zu beachten, dass die nicht normalisierte logarithmische Wahrscheinlichkeit für konstant ist. Diese Eigenschaft leitet sich aus der Hauptannahme ab." Die Annahme ist, dass wir bereits entschieden haben, dass y = 1 ? y=0y=1
HBeel
Ich denke, meine Verwirrung kam von der Tatsache, dass das Sigmoid die Wahrscheinlichkeit des Modells von angibt, unabhängig von der tatsächlichen Bezeichnung. Vielen Dank! y=1
HBeel
Nicht mittlere dick , hier zu sein , aber wie ist linear in y und z . Ich würde etwas von der Form a y + b z + c erwarten . Mir ist klar, dass das Anmelden am Produkt y z eine Summe ergeben würde, die mich näher an die Linearität bringen würde, aber das scheint nicht direkt von dem zu sein, was der Autor angegeben hat. y×zyzay+bz+clogyz
Zebullon
Ich verstehe, das ist eigentlich eine interessante Frage. Ich habe diese Aussage nicht beachtet, als ich die Frage zum ersten Mal las. Jetzt sieht es auch für mich seltsam aus. Ein Problem ist, dass y eine binäre Variable ist und ich nicht sicher bin, wie ich die Eigenschaften der linearen Funktion unter diesen Umständen überprüfen soll. Ich denke, es wird Sinn machen, wenn Sie separate Fragen stellen. Vielleicht kann Ihnen jemand erklären, warum es so geschrieben wurde.
itdxer
2

Ich finde es auch schwierig, diesem Fragment des Buches zu folgen, und die obige Antwort von itdxer verdient einige Zeit, um sie auch für jemanden zu verstehen, der mit Wahrscheinlichkeiten und mathematischem Denken nicht richtig fließend ist. Ich habe es jedoch geschafft, indem ich die Antwort rückwärts gelesen habe, also beginne mit dem Sigmoid von z

P(y=1)=ez1+ez=11+ez

und versuchen, zurück zu folgen.

logP~(y)=yz

Dann macht es Sinn, warum sie die Erklärung mit yz begonnen haben - es ist beabsichtigt, genau wie das Finale

σ((2y1)z)

konstruktionsbedingt erlaubt es, -1 für y = 0 und 1 für y = 1 zu erhalten, was die einzig möglichen Werte von y unter den Bernoulli sind.

Jakub Jurek
quelle
0

Hier ist eine formellere Formulierung, die diejenigen mit einem messungstheoretischen Hintergrund anspricht.

Let Y be a Bernoulli r.v. and let PY denote the pushforward measure, i.e for y{0,1}, PY(y)=P(Y=y) and let P~Y denote its unnormalized counterpart.

We have the following chain of implications:

logP~Y(y)=yzP~Y(y)=exp(yz)PY(y)=eyze0z+e1z=eyz1+ezPY(y)=yez1+ez+(1y)11+ezPY(y)=yσ(z)+(1y)σ(z)PY(y)=σ((2y1)z)

The last equality is a smart way of mapping {0,1} to {1,1}

Gabriel Romon
quelle