In dem Artikel Deep Learning und das Prinzip des Informationsengpasses geben die Autoren in Abschnitt II A) Folgendes an:
Einzelne Neuronen klassifizieren nur linear trennbare Eingaben, da sie nur Hyperebenen in ihrem Eingaberaum implementieren können . Hyperebenen können Daten optimal klassifizieren, wenn die Eingaben bedingt unabhängig sind.
Um dies zu zeigen, leiten sie Folgendes ab. Mit dem Bayes-Theorem erhalten sie:
(1)
Wobei die Eingabe ist, die Klasse ist und die vorhergesagte Klasse ist (ich nehme an, nicht definiert). Weiter heißt es:
(2)
Wobei die Eingabedimension ist und ich nicht sicher bin (wieder sind beide undefiniert). Betrachtet man ein Sigmoidalneuron, so erhalten wir mit der Sigmoidaktivierungsfunktion und der Voraktivierung nach dem Einfügen von (2) in (1) die optimalen Gewichtswerte und , wenn die Eingabewerte .
Nun zu meinen Fragen. Ich verstehe, wie das Einfügen von (2) in (1) zu den optimalen Gewichts- und Eingabewerten . Was ich jedoch nicht verstehe, ist folgendes:
- Wie wird (1) unter Verwendung des Bayes-Theorems abgeleitet?
- Wie wird (2) abgeleitet? Was ist ? Was bedeutet das? Ich nehme an, es hat etwas mit bedingter Unabhängigkeit zu tun
- Selbst wenn die Dimensionen von x bedingt unabhängig sind, wie kann man sagen, dass es gleich seiner skalierten Wahrscheinlichkeit ist? (dh wie können Sie ?)
EDIT: Die Variable ist eine binäre Klassenvariable. Daraus gehe ich davon aus, dass die "andere" Klasse ist. Dies würde Frage 1 lösen. Stimmen Sie zu?
Antworten:
Entschuldigen Sie die fehlenden Details in unserem kurzen Artikel, aber diese Beziehungen und Zusammenhänge zwischen dem Likelihood Ratio-Test und sigmoidalen Neuronen sind sicherlich nicht neu und können in Lehrbüchern gefunden werden (z. B. Bishop 2006). In unserer Arbeit ist 'N' die Eingabedimension und 'n' die Größe der Teststichprobe (die tatsächlich in das Eingangs-SNR übersetzt wird, unter der Annahme, dass das SNR wie sqrt (n) wächst). Die Verbindung zur Sigmoidalfunktion erfolgt nach der Bayes-Regel als posteriorer Klasse. Nichts im Rest des Papiers und in unserem neueren und wichtigeren Papier von 2017 hängt tatsächlich davon ab.
Naftali Tishby
quelle
Für 1
Da binär ist, wird dies:yi
und von dort ist es nur die Eigenschaft des Logarithmus, zur endgültigen Form zu gelangen (sollte zu diesem Zeitpunkt ausreichend klar sein, lassen Sie es mich wissen, wenn nicht).
quelle
Dies ist ein Modellaufbau, bei dem die Autoren eine spezielle Form des Bayes-Theorems verwenden, die angewendet wird, wenn Sie eine interessierende binäre Variable haben. Sie leiten diese spezielle Form des Bayes-Theorems zuerst als Gleichung (1) ab und zeigen dann, dass die Bedingung in Gleichung (2) sie zu der für ihr Netzwerk angegebenen linearen Form führt. Es ist wichtig zu beachten, dass die letztere Gleichung nicht von früheren Bedingungen abgeleitet ist - sondern eine Bedingung für die lineare Form, die sie für ihr Netzwerk verwenden.
Ableiten der ersten Gleichung: Gleichung (1) in der Arbeit ist nur eine Form des Bayes-Theorems, das die bedingte Wahrscheinlichkeit des Interesses in Bezug auf die logistische Standardfunktion (Sigmoid) umrahmt, die mit Funktionen der Wahrscheinlichkeit und des Vorgängers arbeitet. Wenn und die beiden binären Ergebnisse der Zufallsvariablen sind und der Bayes-Satz angewendet wird, ergibt sich:y y′ Y
Verwendung von Gleichung (2) als Bedingung für die Lienarform des Netzwerks: Wie oben angegeben, wird diese Gleichung nicht aus früheren Ergebnissen abgeleitet. Vielmehr ist es eine ausreichende Bedingung , die zu der linearen Form führt, die die Autoren in ihrem Modell verwenden - dh die Autoren sagen, dass, wenn diese Gleichung gilt, bestimmte nachfolgende Ergebnisse folgen. Wenn der Eingabevektor die Länge , wenn Gleichung (2) gilt, ergibt sich aus den Logarithmen beider Seiten:x=(x1,...,xN) N
Unter dieser Bedingung erhalten wir daher die hintere Form:
Dies ist die Form, die die Autoren in ihrem Netzwerk verwenden. Dies ist die Modellform, die von den Autoren im Hintergrundabschnitt vor der Angabe der Gleichungen (1) - (2) postuliert wurde. Das Papier definiert nicht, dass in diesem Modellaufbau enthalten ist, aber wie Sie hervorheben, besagt die Antwort von Prof. Tishby, dass dies die Größe der Teststichprobe ist. In Bezug auf Ihre dritte Frage, scheint es , dass das Erfordernis der Gleichung (2) bedeutet , dass die Werte in sind nicht bedingt unabhängig gegeben .n x yy
quelle