Wenn das Entfernen einiger Neuronen zu einem leistungsfähigeren Modell führt, warum nicht zunächst ein einfacheres neuronales Netzwerk mit weniger Schichten und weniger Neuronen verwenden? Warum am Anfang ein größeres, komplizierteres Modell bauen und Teile davon später