Warum latente Gaußsche Variable (Rauschen) für GAN?

Warum wählen Leute oft die Eingabe in ein GAN (z) als Samples aus einem Gaußschen?

Im Allgemeinen aus zwei Gründen: (1) mathematische Einfachheit, (2) in der Praxis gut genug funktionieren. Wie wir jedoch erklären, könnte unter zusätzlichen Annahmen die Wahl von Gauß besser gerechtfertigt sein.

Vergleiche mit gleichmäßiger Verteilung . Die Gaußsche Verteilung ist nicht so einfach wie die Gleichverteilung, aber auch nicht so weit entfernt. Es fügt der Einheitlichkeit die Annahme "Konzentration um den Mittelwert" hinzu, was uns die Vorteile der Parameterregulierung bei praktischen Problemen bietet .

Das am wenigsten bekannte . Die Verwendung von Gauß ist am besten für kontinuierliche Größen gerechtfertigt, die uns am wenigsten bekannt sind, z. B. Rauschen oder latenter Faktor . "Das am wenigsten bekannte" könnte als " Verteilung, die die Entropie für eine gegebene Varianz maximiert " formalisiert werden . Die Antwort auf diese Optimierung lautet für einen beliebigen Mittelwert . In diesem Sinne ist Gauß die beste Wahl , wenn wir davon ausgehen, dass eine Menge uns am wenigsten bekannt ist. Wenn wir mehr Wissen über diese Menge erwerben, können wir natürlich besser als die "am wenigsten bekannte" Annahme sein, wie in den folgenden Beispielen veranschaulicht wird. $\epsilon$ $z$ $N(\mu, \sigma^2)$ $\mu$

Zentraler Grenzwertsatz . Eine weitere häufig verwendete Rechtfertigung ist, dass CLT die Wahl von Gauß rechtfertigt , da viele Beobachtungen das Ergebnis (Durchschnitt) einer großen Anzahl von [fast] unabhängigen Prozessen sind . Dies ist keine gute Rechtfertigung, da es auch viele reale Phänomene gibt, die der Normalität nicht gehorchen (z. B. Potenzgesetzverteilung ), und da die Variable uns am wenigsten bekannt ist, können wir nicht entscheiden, welche dieser realen Analogien es sind bevorzugter.

Dies wäre die Antwort auf "Warum nehmen wir ein Gaußsches Rauschen in der probabilistischen Regression oder im Kalman-Filter an ?" zu.

Gibt es damit auch mögliche Probleme?

Ja. Wenn wir Gauß annehmen, vereinfachen wir. Wenn unsere Vereinfachung nicht gerechtfertigt ist, wird unser Modell unterdurchschnittlich abschneiden. An dieser Stelle sollten wir nach einer alternativen Annahme suchen. In der Praxis könnten wir, wenn wir eine neue Annahme über die am wenigsten bekannte Größe treffen (basierend auf erworbenem Wissen oder Spekulation), diese Annahme extrahieren und eine neue Gaußsche Annahme einführen , anstatt die Gaußsche Annahme zu ändern. Hier sind zwei Beispiele:

Beispiel in Regression (Rauschen) . Angenommen, wir haben keine Kenntnis über Beobachtung (die am wenigsten bekannte), also nehmen wir . Nach dem Anpassen des Modells können wir beobachten, dass die geschätzte Varianz hoch ist. Nach einigen Untersuchungen können wir annehmen, dass eine lineare Funktion von Messung , daher extrahieren wir diese Annahme als , wobei ist das neue "das am wenigsten bekannte". Später können wir herausfinden, dass unsere Linearitätsannahme ebenfalls schwach ist, da nach dem Anpassen des Modells das beobachtete $A$ $A \sim N(\mu, \sigma^2)$ $\hat{\sigma}^2$ $A$ $B$ $A = \color{blue}{b_1B +c} + \epsilon_1$ $\epsilon_1 \sim N(0, \sigma_1^2)$ $\hat{\epsilon}_1 = A - \hat{b}_1B -\hat{c}$ hat auch ein hohes . Dann können wir eine neue Annahme extrahieren, da , wobei das neue "am wenigsten bekannte" ist ", und so weiter. $\hat{\sigma}_1^2$ $A = b_1B + \color{blue}{b_2B^2} + c + \epsilon_2$ $\epsilon_2 \sim N(0, \sigma_2^2)$
Beispiel in GAN (latenter Faktor) . Wenn wir unrealistische Ausgaben von GAN (Wissen) sehen, können wir zwischen und der Ausgabe hinzufügen (Annahme extrahieren), in der Hoffnung, dass das neue Netzwerk (oder die neue Funktion) mit dem neuen funktioniert würde zu realistischeren Ausgaben führen und so weiter. $\color{blue}{\text{more layers}}$ $z$ $z_2 \sim N(0, \sigma_2^2)$

Esmailian
quelle

Warum latente Gaußsche Variable (Rauschen) für GAN?

Antworten: