Überschreiten Deep-Learning-Modelle die erforderliche Kapazität für die geschätzten Entropien ihrer Datensätze?

7

Diese Frage mag etwas seltsam erscheinen. Ich machte einige Selbststudien zur Informationstheorie und beschloss, weitere formale Untersuchungen zum Deep Learning durchzuführen. Bitte nehmen Sie mit, wenn ich versuche zu erklären. Ich nahm eine große "Trainings" -Untergruppe von MNIST als mein Meerschweinchen.

1) Konvertierte jedes Bild in MNIST in "Schwarzweiß" (Pixelwerte nur 0 oder 1)

2) Über alle Datenbilder summiert, um ein Histogramm über den Pixeln zu erstellen - Ich habe gezählt, wie oft jedes Pixel einen 1-Wert im Datensatz erhält

3) Normalisiertes Histogramm, um eine Schätzung der "wahren" Wahrscheinlichkeitsverteilung zu erhalten

4) Daraus ergab sich die folgende Wahrscheinlichkeitsverteilung (dargestellt als Heatmap mit Matplotlib):

[Wahrscheinlichkeitsverteilung für einen MNIST-Trainingssatz [1]

5) Jetzt habe ich die Entropie berechnet und erhalten: 191 Bits

6) Laut David MacKay in seinem Buch "Informationstheorie" könnten wir ein neuronales Netzwerk als verrauschten Kanal interpretieren und jedes Neuron mit einer 2-Bit-Kapazität betrachten. Obwohl er erklärt, diese Idee mit Sorgfalt zu verwenden. Kapitel 40 seines Buches http://www.inference.org.uk/itila/book.html )

7) Als grobe Schätzung (und mit Vorsicht) könnten wir sagen, wir würden ein neuronales Netzwerk von 95 Neuronen benötigen, um die Kennzeichnung dieses MNIST-Trainingssatzes (190/2) codieren zu können. 8) Jetzt können wir bekommen zu meiner Frage:

Sollte sich ein neuronales Netzwerk, das in der Lage ist, die Markierung zu lernen, nicht mindestens im Ballpark von 95 Neuronen befinden, selbst wenn dies eine sehr "Back-of-the-Envelope" -Berechnung ist? Warum brauchen wir zum Beispiel ein neuronales Netzwerk mit 21840 Parametern, um eine Genauigkeit von 99% zu erreichen? (unter Berücksichtigung des Beispiels von PyTorch für MNIST: https://github.com/pytorch/examples/blob/master/mnist/main.py )

Paulo A. Ferreira
quelle

Antworten:

5

Derzeit wird davon ausgegangen, dass es einfacher ist, ein überparametrisiertes neuronales Netzwerk anzupassen, da die lokalen Extrema unterschiedliche Ausdrucksformen derselben Sache darstellen, während Sie sich in einem minimalen neuronalen Netzwerk Sorgen machen müssen, um zum globalen Extremum zu gelangen:

Der subtile Grund dafür ist, dass kleinere Netzwerke mit lokalen Methoden wie Gradient Descent schwerer zu trainieren sind: Es ist klar, dass ihre Verlustfunktionen relativ wenige lokale Minima haben, aber es stellt sich heraus, dass viele dieser Minima leichter zu konvergieren sind, und das Sie sind schlecht (dh mit hohem Verlust). Umgekehrt enthalten größere neuronale Netze wesentlich mehr lokale Minima, aber diese Minima erweisen sich hinsichtlich ihres tatsächlichen Verlusts als viel besser. Da neuronale Netze nicht konvex sind, ist es schwierig, diese Eigenschaften mathematisch zu untersuchen. Es wurden jedoch einige Versuche unternommen, diese objektiven Funktionen zu verstehen, z. B. in einem kürzlich erschienenen Artikel The Loss Surfaces of Multilayer Networks. In der Praxis, Wenn Sie ein kleines Netzwerk trainieren, kann der endgültige Verlust eine große Varianz aufweisen. In einigen Fällen haben Sie Glück und konvergieren an einem guten Ort, in einigen Fällen jedoch in einem der schlechten Minima. Wenn Sie dagegen ein großes Netzwerk trainieren, werden Sie viele verschiedene Lösungen finden, aber die Varianz des endgültig erzielten Verlusts ist viel geringer. Mit anderen Worten, alle Lösungen sind ungefähr gleich gut und beruhen weniger auf dem Glück der zufälligen Initialisierung.

CS231n Faltungsneurale Netze zur visuellen Erkennung

Emre
quelle
Danke für deine Antwort, Emre. Kennen Sie eine Studie, die die Entropie von Datensätzen mit dem erforderlichen Netzwerk in Verbindung bringt, um eine bestimmte Genauigkeit zu erreichen? Ich stelle mir hier ein Diagramm vor, in dem X die Entropie eines Datensatzes und Y die Größe des bisher gefundenen minimalen Netzwerks in Bit ist, das eine Genauigkeit von 99% erreicht.
Paulo A. Ferreira
1
Nicht genau, aber Tishbys Methode des Informationsengpasses und Folgemaßnahmen wie On the Information Bottleneck Theory of Deep Learning kommen sich ziemlich nahe und sind ziemlich interessant. Es gibt auch zahlreiche Artikel über die Komprimierung neuronaler Netze, aber die, die ich mir vorstellen kann, sind eher empirisch als theoretisch wie die oben genannten.
Emre