Ich versuche den Faltungsteil von neuronalen Faltungsnetzen zu verstehen. Betrachten Sie die folgende Abbildung:
Ich habe keine Probleme, die erste Faltungsschicht zu verstehen, in der wir 4 verschiedene Kernel (mit der Größe ) haben, die wir mit dem Eingabebild falten, um 4 Merkmalskarten zu erhalten.
Was ich nicht verstehe, ist die nächste Faltungsschicht, in der wir von 4 Feature-Maps zu 6 Feature-Maps wechseln. Ich nehme an, wir haben 6 Kernel in diesem Layer (was folglich 6 Ausgabe-Feature-Maps ergibt), aber wie funktionieren diese Kernel auf den 4 in C1 gezeigten Feature-Maps? Sind die Kernel dreidimensional oder zweidimensional und werden sie auf den vier Eingabe-Feature-Maps repliziert?
Antworten:
Die Kernel sind dreidimensional, wobei Breite und Höhe gewählt werden können, während die Tiefe der Anzahl der Karten in der Eingabeebene entspricht - im Allgemeinen.
Sie sind sicherlich nicht zweidimensional und werden auf den Eingabe-Feature-Maps an derselben 2D-Position repliziert! Das würde bedeuten, dass ein Kernel nicht in der Lage wäre, zwischen seinen Eingabe-Features an einem bestimmten Ort zu unterscheiden, da er auf den Eingabe-Feature-Maps ein und dasselbe Gewicht verwenden würde!
quelle
Es gibt nicht unbedingt eine Eins-zu-Eins-Entsprechung zwischen Layern und Kerneln. Das hängt von der jeweiligen Architektur ab. Die Abbildung, die Sie gepostet haben, deutet darauf hin, dass Sie in den S2-Layern 6 Feature-Maps haben, die jeweils alle Feature-Maps der vorherigen Layer kombinieren, dh verschiedene mögliche Kombinationen der Features.
Ohne weitere Referenzen kann ich nicht viel mehr sagen. Siehe zum Beispiel dieses Papier
quelle
Tabelle 1 und Abschnitt 2a von Yann LeCuns "Gradient Based Learning Applied to Document Recognition" erklären dies gut: http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf Nicht alle Regionen der 5x5-Faltung sind betroffen wird zur Erzeugung der 2. Faltungsschicht verwendet.
quelle
Dieser Artikel kann hilfreich sein: Verständnis der Faltung in Deep Learning von Tim Dettmers vom 26. März
Es beantwortet die Frage nicht wirklich, da es nur die erste Faltungsschicht erklärt, sondern eine gute Erklärung der grundlegenden Intuition über die Faltung in CNNs enthält. Es beschreibt auch eine tiefere mathematische Definition der Faltung. Ich denke, es hängt mit dem Fragethema zusammen.
quelle