Als Einführungstext zu allen von Ihnen genannten Themen würde ich das Deep-Learning-Buch empfehlen . Es bietet einen umfassenden Überblick über das Gebiet. Es erklärt die Rolle, die jeder dieser Parameter spielt.
Meiner Meinung nach ist es sehr hilfreich, einige der beliebtesten Architekturen (resnet, inception, alex-net) zu lesen und die Schlüsselideen zu extrahieren, die zu den Entwurfsentscheidungen führen. Nach dem Lesen des oben genannten Buches.
Im Lehrplan der Vorlesungen, auf die Sie sich beziehen, wird ausführlich erklärt, wie die Faltungsschicht eine große Anzahl von Parametern (Gewichte, Verzerrungen) und Neuronen hinzufügt. Sobald diese Ebene trainiert ist, kann sie Bedeutungsmuster aus dem Bild extrahieren. Für untere Schichten sehen diese Filter wie Kantenextraktoren aus. Für höhere Schichten werden diese primitiven Formen kombiniert, um komplexere Formen zu beschreiben. Diese Filter beinhalten eine große Anzahl von Parametern und ein großes Problem beim Entwurf tiefer Netzwerke, wie komplexe Formen beschrieben und dennoch die Anzahl von Parametern reduziert werden können.
Da benachbarte Pixel stark korreliert sind (insbesondere in den untersten Schichten), ist es sinnvoll, die Größe der Ausgabe durch Unterabtastung (Pooling) der Filterantwort zu reduzieren. Je weiter zwei Pixel voneinander entfernt sind, desto weniger korreliert. Daher führt ein großer Schritt in der Pooling-Schicht zu einem hohen Informationsverlust. Grob gesagt. Ein Schritt von 2 und eine Kernelgröße von 2x2 für die Pooling-Schicht sind eine häufige Wahl.
Ein ausgefeilterer Ansatz ist das Inception-Netzwerk ( mit Faltungen tiefer gehen ), bei dem die Idee darin besteht, die Sparsamkeit zu erhöhen, aber dennoch eine höhere Genauigkeit zu erzielen, indem die Anzahl der Parameter in einer Faltungsschicht gegen ein Inception-Modul gegen tiefere Netzwerke ausgetauscht wird.
Ein schönes Papier, das strukturiert und systematisch Hinweise auf aktuelle Architekturen und die Rolle einiger Entwurfsdimensionen gibt, ist SqueezeNet: Genauigkeit auf AlexNet-Ebene mit 50x weniger Parametern und einer Modellgröße von <0,5 MB . Es baut auf Ideen auf, die in den zuvor genannten Modellen eingeführt wurden.