Hyperebenen klassifizieren Daten optimal, wenn Eingaben bedingt unabhängig sind

9

In dem Artikel Deep Learning und das Prinzip des Informationsengpasses geben die Autoren in Abschnitt II A) Folgendes an:

Einzelne Neuronen klassifizieren nur linear trennbare Eingaben, da sie nur Hyperebenen in ihrem Eingaberaum implementieren können . Hyperebenen können Daten optimal klassifizieren, wenn die Eingaben bedingt unabhängig sind. $u = wh+b$

Um dies zu zeigen, leiten sie Folgendes ab. Mit dem Bayes-Theorem erhalten sie:

$p(y|x) = \frac{1}{1 + exp(-log\frac{p(x|y)}{p(x|y')} -log\frac{p(y)}{p(y')})}$ (1)

Wobei die Eingabe ist, die Klasse ist und die vorhergesagte Klasse ist (ich nehme an, nicht definiert). Weiter heißt es: $x$ $y$ $y'$ $y'$

$\frac{p(x|y)}{p(x|y')} = \prod^N_{j=1}[\frac{p(x_j|y)}{p(x_j|y')}]^{np(x_j)}$ (2)

Wobei die Eingabedimension ist und ich nicht sicher bin (wieder sind beide undefiniert). Betrachtet man ein Sigmoidalneuron, so erhalten wir mit der Sigmoidaktivierungsfunktion und der Voraktivierung nach dem Einfügen von (2) in (1) die optimalen Gewichtswerte und , wenn die Eingabewerte . $N$ $n$ $\sigma(u) = \frac{1}{1+exp(-u)}$ $u$ $w_j = log\frac{p(x_j|y)}{p(x_j|y')}$ $b=log\frac{p(y)}{p(y')}$ $h_j=np(x_j)$

Nun zu meinen Fragen. Ich verstehe, wie das Einfügen von (2) in (1) zu den optimalen Gewichts- und Eingabewerten . Was ich jedoch nicht verstehe, ist folgendes: $w,b,h$

Wie wird (1) unter Verwendung des Bayes-Theorems abgeleitet?
Wie wird (2) abgeleitet? Was ist ? Was bedeutet das? Ich nehme an, es hat etwas mit bedingter Unabhängigkeit zu tun $n$
Selbst wenn die Dimensionen von x bedingt unabhängig sind, wie kann man sagen, dass es gleich seiner skalierten Wahrscheinlichkeit ist? (dh wie können Sie ?) $h_j=np(x_j)$

EDIT: Die Variable ist eine binäre Klassenvariable. Daraus gehe ich davon aus, dass die "andere" Klasse ist. Dies würde Frage 1 lösen. Stimmen Sie zu? $y$ $y'$

bayesian neural-networks information-theory spurra
quelle

Ich habe Schwierigkeiten zu verstehen, woher Gleichung 2 kommt, trotz der Hinweise in der Antwort des Autors des Papiers (Prof. Tishby). Ich verstehe den Teil, der sich aus der Annahme der bedingten Unabhängigkeit ergibt. Ich bin mir jedoch nicht sicher über den Exponenten - warum ist er dort?

n p (x_{j})

$n p(x_j)$

IcannotFixThis

5

Entschuldigen Sie die fehlenden Details in unserem kurzen Artikel, aber diese Beziehungen und Zusammenhänge zwischen dem Likelihood Ratio-Test und sigmoidalen Neuronen sind sicherlich nicht neu und können in Lehrbüchern gefunden werden (z. B. Bishop 2006). In unserer Arbeit ist 'N' die Eingabedimension und 'n' die Größe der Teststichprobe (die tatsächlich in das Eingangs-SNR übersetzt wird, unter der Annahme, dass das SNR wie sqrt (n) wächst). Die Verbindung zur Sigmoidalfunktion erfolgt nach der Bayes-Regel als posteriorer Klasse. Nichts im Rest des Papiers und in unserem neueren und wichtigeren Papier von 2017 hängt tatsächlich davon ab.

Naftali Tishby

Naftali Tishby
quelle

2

Vielen Dank, dass Sie dies hier klargestellt haben. In dieser Community ist es üblich, vollständige Zitate zu schreiben, damit interessierte Leser die Quellen suchen können. Könnten Sie dies bitte für Bishop (2006) tun?

mkt - Reinstate Monica

4

Für 1

$P(y \mid x) = \frac{P(y, x)}{P(x)}$

$= \frac{P(y,x)}{\sum_{i}P(y_{i},x)}$

Da binär ist, wird dies: $y_{i}$

$= \frac{P(y,x)}{P(y,x)+P(y',x)}$

$= \frac{1}{1+\frac{P(y',x)}{P(y,x)}}$

$= \frac{1}{1+exp[-log \ \frac{P(y,x)}{P(y',x)}]}$

und von dort ist es nur die Eigenschaft des Logarithmus, zur endgültigen Form zu gelangen (sollte zu diesem Zeitpunkt ausreichend klar sein, lassen Sie es mich wissen, wenn nicht).

Chris Ormandy
quelle

4

Dies ist ein Modellaufbau, bei dem die Autoren eine spezielle Form des Bayes-Theorems verwenden, die angewendet wird, wenn Sie eine interessierende binäre Variable haben. Sie leiten diese spezielle Form des Bayes-Theorems zuerst als Gleichung (1) ab und zeigen dann, dass die Bedingung in Gleichung (2) sie zu der für ihr Netzwerk angegebenen linearen Form führt. Es ist wichtig zu beachten, dass die letztere Gleichung nicht von früheren Bedingungen abgeleitet ist - sondern eine Bedingung für die lineare Form, die sie für ihr Netzwerk verwenden.

Ableiten der ersten Gleichung: Gleichung (1) in der Arbeit ist nur eine Form des Bayes-Theorems, das die bedingte Wahrscheinlichkeit des Interesses in Bezug auf die logistische Standardfunktion (Sigmoid) umrahmt, die mit Funktionen der Wahrscheinlichkeit und des Vorgängers arbeitet. Wenn und die beiden binären Ergebnisse der Zufallsvariablen sind und der Bayes-Satz angewendet wird, ergibt sich: $y$ $y'$ $Y$

\begin{aligned} p (y | x) = \frac{p (y, x)}{p (x)} & = \frac{p (x | y) p (y)}{p (x | y) p (y) + p (x | y^{'}) p (y^{'})} \\ = \frac{1}{1 + p (x | y^{'}) p (y^{'}) / p (x | y) p (y)} \\ = \frac{1}{1 + \exp (\log (\frac{p (x | y^{'}) p (y^{'})}{p (x | y) p (y)}))} \\ = \frac{1}{1 + \exp (- \log \frac{p (x | y)}{p (x | y^{'})} - \log \frac{p (y)}{p (y^{'})})} \\ = logistic (\log \frac{p (x | y)}{p (x | y^{'})} + \log \frac{p (y)}{p (y^{'})}) . \end{aligned}

$\begin{equation} \begin{aligned} p(y|\mathbf{x}) = \frac{p(y,\mathbf{x})}{p(\mathbf{x})} &= \frac{p(\mathbf{x}|y) p(y)}{p(\mathbf{x}|y) p(y)+p(\mathbf{x}|y') p(y')} \\[6pt] &= \frac{1}{1+ p(\mathbf{x}|y') p(y')/p(\mathbf{x}|y) p(y)} \\[6pt] &= \frac{1}{1+ \exp \Big( \log \Big( \tfrac{p(\mathbf{x}|y') p(y')}{p(\mathbf{x}|y) p(y)} \Big) \Big)} \\[6pt] &= \frac{1}{1+ \exp \Big( - \log \tfrac{p(\mathbf{x}|y)}{p(\mathbf{x}|y')} - \log \tfrac{p(y)}{p(y')} \Big)} \\[6pt] &= \text{logistic} \Bigg( \log \frac{p(\mathbf{x}|y)}{p(\mathbf{x}|y')} + \log \frac{p(y)}{p(y')} \Bigg). \\[6pt] \end{aligned} \end{equation}$

Verwendung von Gleichung (2) als Bedingung für die Lienarform des Netzwerks: Wie oben angegeben, wird diese Gleichung nicht aus früheren Ergebnissen abgeleitet. Vielmehr ist es eine ausreichende Bedingung , die zu der linearen Form führt, die die Autoren in ihrem Modell verwenden - dh die Autoren sagen, dass, wenn diese Gleichung gilt, bestimmte nachfolgende Ergebnisse folgen. Wenn der Eingabevektor die Länge , wenn Gleichung (2) gilt, ergibt sich aus den Logarithmen beider Seiten: $\mathbf{x} = (x_1,...,x_N)$ $N$

\begin{aligned} \log \frac{p (x | y)}{p (x | y^{'})} & = \log \prod_{i = 1}^{N} [\frac{p (x_{i} | y)}{p (x_{i} | y^{'})}]^{n p (x_{i})} \\ = \sum_{i = 1}^{N} n p (x_{i}) \log [\frac{p (x_{i} | y)}{p (x_{i} | y^{'})}] \\ = \sum_{i = 1}^{N} h_{i} w_{i} . \end{aligned}

$\begin{equation} \begin{aligned} \log \frac{p(\mathbf{x}|y)}{p(\mathbf{x}|y')} &= \log \prod_{i=1}^N \Big[ \frac{p(x_i|y)}{p(x_i|y')} \Big]^{n p (x_i)} \\[6pt] &= \sum_{i=1}^N n p (x_i) \log \Big[ \frac{p(x_i|y)}{p(x_i|y')} \Big] \\[6pt] &= \sum_{i=1}^N h_i w_i. \\[6pt] \end{aligned} \end{equation}$

Unter dieser Bedingung erhalten wir daher die hintere Form:

\begin{aligned} p (y | x) & = logistic (\log \frac{p (x | y)}{p (x | y^{'})} + \log \frac{p (y)}{p (y^{'})}) \\ = logistic (\sum_{i = 1}^{N} h_{i} w_{i} + b), \end{aligned}

$\begin{equation} \begin{aligned} p(y|\mathbf{x}) &= \text{logistic} \Bigg( \log \frac{p(\mathbf{x}|y)}{p(\mathbf{x}|y')} + \log \frac{p(y)}{p(y')} \Bigg) \\[6pt] &= \text{logistic} \Bigg( \sum_{i=1}^N h_i w_i + b \Bigg), \\[6pt] \end{aligned} \end{equation}$

Dies ist die Form, die die Autoren in ihrem Netzwerk verwenden. Dies ist die Modellform, die von den Autoren im Hintergrundabschnitt vor der Angabe der Gleichungen (1) - (2) postuliert wurde. Das Papier definiert nicht, dass in diesem Modellaufbau enthalten ist, aber wie Sie hervorheben, besagt die Antwort von Prof. Tishby, dass dies die Größe der Teststichprobe ist. In Bezug auf Ihre dritte Frage, scheint es , dass das Erfordernis der Gleichung (2) bedeutet , dass die Werte in sind nicht bedingt unabhängig gegeben . $n$ $\mathbf{x}$ $y$

Ben - Monica wieder einsetzen
quelle

Prof. Tishby (Autor) sagt in seiner eigenen Antwort, dass die Größe der Teststichprobe ist. Aus diesem Grund hatte ich das Gefühl, dass Gleichung (2) eine viel umfassendere Interpretation hat als nur eine willkürliche Bedingung für die lineare Form des Netzwerks.

n

$n$

IcannotFixThis

Vielen Dank - Ich habe meine Antwort bearbeitet, um diese zusätzlichen Informationen wiederzugeben.

Ben - Reinstate Monica

Hyperebenen klassifizieren Daten optimal, wenn Eingaben bedingt unabhängig sind - warum?

Antworten: