Minimale Trainingsgröße für einfaches neuronales Netz

7

Es gibt eine alte Faustregel für multivariate Statistiken, die mindestens 10 Fälle für jede unabhängige Variable empfiehlt. Aber hier gibt es oft einen Parameter, der für jede Variable passt.

Warum ich frage: Ich arbeite an einem Lehrbuchbeispiel, das 500 Trainingsfälle (von 25000 im Datensatz) mit 15 Prädiktorvariablen und einer verborgenen Ebene mit 8 versteckten Knoten verwendet. Wir schätzen also 153 Gewichte. Von den 500 Fällen gibt es 129 Einsen und die restlichen Nullen. Es sind also mehr Gewichte als positive Fälle vorherzusagen. Das scheint falsch zu sein. Das resultierende Modell passt zu gut (aber die Validierung wird in diesem Lehrbuchproblem nicht behandelt).

Also, was ist ein Leitfaden für das Minimum? 10 mal Eingangsvariablen? 10 mal zu schätzende Parameter? Etwas anderes?


Es gibt verwandte Antworten, aber sie scheinen sich eher auf wünschenswerte Stichprobengrößen als auf das Minimum zu beziehen, z. B. Wie erhält man die für das Training neuronaler Netze erforderliche Datensatzgröße?

Kompromiss zwischen Stapelgröße und Anzahl der Iterationen zum Trainieren eines neuronalen Netzwerks

oder unbeantwortet bleiben Mindestgröße der für einen Klassifikator erforderlichen Trainingsstichprobengröße

Aber natürlich habe ich vielleicht eine gute vorherige Antwort verpasst.

Mike Kruger
quelle
1
Dies ist eine interessante Frage, die einige Monate alt ist. Wenn Sie klare Antworten auf Ihre Frage gefunden haben, sollten Sie Ihre Frage beantworten.
NULL
Eine emprische Schätzung für die minimale Anzahl von Eingabestichproben unter NN-Forschern ist, dass wir mindestens number of parameters squaredStichproben benötigen würden
NULL
Ich habe noch keine klare Antwort gefunden.
Radfahrer

Antworten:

4

Dies ist im Allgemeinen nicht zu beantworten. Wenn Sie an einem Problem mit stark prädiktiven Funktionen arbeiten, ist Ihre Aufgabe einfacher - kleinere Stichprobengrößen schätzen ein hochleistungsfähiges Modell. Ein Problem mit nur schwach relevanten Merkmalen wird jedoch Schwierigkeiten haben, ein Signal zu finden.

Im Extremfall , wenn alle Ihre Funktionen reines Rauschen sind, lässt sich kein Netzwerk gut verallgemeinern, selbst wenn Sie über beliebig große Datenmengen verfügen.

Eine clevere Regularisierung und Funktionsauswahl kann helfen. Wenn durch die Regularisierung und Funktionsauswahl die Anzahl der Parameter geändert werden kann, die Sie zum Schätzen eines Netzwerks mit einem bestimmten Leistungsniveau benötigen, ist diese Frage noch komplizierter als eine einfache Richtlinie.

Sycorax sagt Reinstate Monica
quelle
1

Also, was ist ein Leitfaden für das Minimum? 10 mal Eingangsvariablen? 10 mal zu schätzende Parameter?

Ich habe klassische statistische Ratschläge gelesen, um die Anzahl der Proben mindestens zehnmal höher als die Anzahl der Parameter zu verwenden. Das ist natürlich vage. Wenn das Problem zu laut ist, können Sie 100-mal mehr oder 1000-mal mehr verlangen.

Wie von @Sycorax erwähnt, gibt es keine eindeutige Antwort, aber Sie können zumindest bedenken, dass die Anzahl der Stichproben gleich der Anzahl der Parameter das Zeichnen einer Hyperebene (in Ihrem Fall) ermöglicht, die Ihre Klassen perfekt unterteilt.

Schauen Sie sich das Vapnik-Chervonenkis-Dimensionskonzept an, mit dessen Hilfe das Problem formeller formuliert werden kann: VC-Dimension

Alexey Burnakov
quelle