Diese Art von Fragen mag problemabhängig sein, aber ich habe versucht, eine Untersuchung zu finden, die sich mit der Frage befasst, ob die Anzahl der versteckten Schichten und ihre Größe (Anzahl der Neuronen in jeder Schicht) wirklich eine Rolle spielen oder nicht.
Meine Frage ist also, ist es wirklich wichtig, wenn wir zum Beispiel eine große versteckte Schicht von 1000 Neuronen haben, gegenüber 10 versteckten Schichten mit jeweils 100 Neuronen?
quelle
Es gibt so viele Aspekte.
1. Training: Das Training tiefer Netze ist aufgrund des verschwindenden (rückwärts explodierenden) Gradientenproblems eine schwierige Aufgabe . Der Bau eines 10x100-Neuronalnetzes wird daher nicht empfohlen.
2. Geschulte Netzwerkleistung:
Tiefere Netze sind also "schlauer", aber eine 10x100-Netzstruktur ist eine gute Wahl.
quelle
Wenn das zu lösende Problem linear trennbar ist, kann eine Schicht von 1000 Neuronen mit jeweils 100 Neuronen besser funktionieren als 10 Schichten. Wenn das Problem nicht linear und nicht konvex ist, benötigen Sie tiefe neuronale Netze.
quelle
Die Ausgabe der ersten ausgeblendeten Ebene wird mit einer Gewichtung multipliziert, von einer Aktivierungsfunktion in der nächsten Ebene verarbeitet und so weiter. Einschichtige neuronale Netze sind für einfache Aufgaben sehr begrenzt, tiefere NN können eine weitaus bessere Leistung erbringen als eine einzelne Schicht.
Verwenden Sie jedoch nicht mehr als eine Ebene, wenn Ihre Anwendung nicht sehr komplex ist. Zusammenfassend bedeutet die 100-Neuronen-Schicht kein besseres neuronales Netzwerk als 10 Schichten x 10 Neuronen, aber 10 Schichten sind nur dann imaginär, wenn Sie tiefgreifendes Lernen betreiben. Beginnen Sie mit 10 Neuronen in der ausgeblendeten Ebene und versuchen Sie, Ebenen oder mehrere Neuronen zur gleichen Ebene hinzuzufügen, um den Unterschied zu erkennen. Lernen mit mehr Schichten wird einfacher, aber es wird mehr Schulungszeit benötigt.
quelle