Hintergrund: Ich studiere Kapitel 6 von Deep Learning von Ian Goodfellow und Yoshua Bengio und Aaron Courville. In Abschnitt 6.2.2.2 (Seiten 182 von 183, die hier eingesehen werden können ) wird die Verwendung von Sigmoid zur Ausgabe von motiviert.
Um einen Teil des Materials zusammenzufassen, lassen sie
Wir lassen die Abhängigkeit von für den Moment weg, um zu diskutieren, wie eine Wahrscheinlichkeitsverteilung über Verwendung des Wertes . Das Sigmoid kann motiviert werden, indem eine nicht normalisierte Wahrscheinlichkeitsverteilung konstruiert wird , die nicht 1 ergibt. Wir können dann durch eine geeignete Konstante dividieren, um eine gültige Wahrscheinlichkeitsverteilung zu erhalten. Wenn wir mit der Annahme beginnen, dass die nicht normalisierten logarithmischen Wahrscheinlichkeiten in und linear sind , können wir potenzieren, um die nicht normalisierten Wahrscheinlichkeiten zu erhalten. Wir normalisieren dann, um zu sehen, dass dies eine Bernoulli-Verteilung ergibt, die durch eine Sigmoidtransformation von z gesteuert wird: y z ˜ P ( y ) y z log ˜ P ( y )
Fragen: Ich bin verwirrt über zwei Dinge, insbesondere das erste:
- Woher kommt die ursprüngliche Annahme? Warum ist die nicht normalisierte logarithmische Wahrscheinlichkeit in und linear ? Kann mir jemand sagen, wie die Autoren mit angefangen haben?z log ˜ P ( y ) = y z ?
- Wie folgt die letzte Zeile?
Ich finde es auch schwierig, diesem Fragment des Buches zu folgen, und die obige Antwort von itdxer verdient einige Zeit, um sie auch für jemanden zu verstehen, der mit Wahrscheinlichkeiten und mathematischem Denken nicht richtig fließend ist. Ich habe es jedoch geschafft, indem ich die Antwort rückwärts gelesen habe, also beginne mit dem Sigmoid von z
und versuchen, zurück zu folgen.
Dann macht es Sinn, warum sie die Erklärung mit yz begonnen haben - es ist beabsichtigt, genau wie das Finale
konstruktionsbedingt erlaubt es, -1 für y = 0 und 1 für y = 1 zu erhalten, was die einzig möglichen Werte von y unter den Bernoulli sind.
quelle
Hier ist eine formellere Formulierung, die diejenigen mit einem messungstheoretischen Hintergrund anspricht.
LetY be a Bernoulli r.v. and let PY denote the pushforward measure, i.e for y∈{0,1} , PY(y)=P(Y=y) and let P~Y denote its unnormalized counterpart.
We have the following chain of implications:
The last equality is a smart way of mapping{0,1} to {−1,1}
quelle