Im grundlegenden maschinellen Lernen lernen wir die folgenden "Faustregeln":
a) Die Größe Ihrer Daten sollte mindestens das 10-fache der Größe der VC-Dimension Ihres Hypothesensatzes betragen.
b) Ein neuronales Netz mit N Anschlüssen hat eine VC-Dimension von ungefähr N.
Wenn also ein Deep Learning-neuronales Netzwerk Millionen von Einheiten umfasst, sollten wir dann beispielsweise Milliarden von Datenpunkten haben? Können Sie bitte etwas Licht ins Dunkel bringen?
Antworten:
Die Faustregel, von der Sie sprechen, kann nicht auf ein neuronales Netzwerk angewendet werden.
Ein neuronales Netzwerk hat einige grundlegende Parameter, dh seine Gewichte und Vorurteile. Die Anzahl der Gewichte hängt von der Anzahl der Verbindungen zwischen den Netzwerkschichten ab, und die Anzahl der Verzerrungen hängt von der Anzahl der Neuronen ab.
Die Größe der erforderlichen Daten hängt in hohem Maße von folgenden Faktoren ab:
Vor diesem Hintergrund ist die Überprüfung, ob der Validierungsfehler in der Nähe des Trainingsfehlers liegt, die richtige und sichere Methode, um festzustellen, ob das Modell überpasst. Wenn ja, funktioniert das Modell einwandfrei. Wenn nein, ist das Modell höchstwahrscheinlich überangepasst. Dies bedeutet, dass Sie die Größe Ihres Modells reduzieren oder Regularisierungstechniken einführen müssen.
quelle