Wie werden Kernel auf Feature-Maps angewendet, um andere Feature-Maps zu erstellen?

44

Ich versuche den Faltungsteil von neuronalen Faltungsnetzen zu verstehen. Betrachten Sie die folgende Abbildung:

Bildbeschreibung hier eingeben

Ich habe keine Probleme, die erste Faltungsschicht zu verstehen, in der wir 4 verschiedene Kernel (mit der Größe ) haben, die wir mit dem Eingabebild falten, um 4 Merkmalskarten zu erhalten.k×k

Was ich nicht verstehe, ist die nächste Faltungsschicht, in der wir von 4 Feature-Maps zu 6 Feature-Maps wechseln. Ich nehme an, wir haben 6 Kernel in diesem Layer (was folglich 6 Ausgabe-Feature-Maps ergibt), aber wie funktionieren diese Kernel auf den 4 in C1 gezeigten Feature-Maps? Sind die Kernel dreidimensional oder zweidimensional und werden sie auf den vier Eingabe-Feature-Maps repliziert?

utdiscant
quelle
1
Ich stecke am selben Ort fest. Leider erklärt Yann Lecuns Artikel das auch nicht - ich habe in den letzten Tagen mehrere PDFs und Videos durchgesehen und jeder scheint diesen Teil zu überspringen. Yann Lecuns Artikel spricht tatsächlich von 6 bis 16 Feature-Maps mit einer Mapping-Tabelle in Layer 2. Die erste Ausgabe-Feature-Map wird von 0,1,2 Eingabe-Feature-Maps eingegeben. Aber diese Ausgabe-Feature-Map ist 10 mal 10, die 3 Eingabe-Feature-Maps sind 14 mal 14. Wie hat das funktioniert? Hast du verstanden, was los ist? Ist es ein 3-D-Kernel? oder werden die ausgaben vom location * kernel gemittelt (convolution)?
Run2

Antworten:

18

Die Kernel sind dreidimensional, wobei Breite und Höhe gewählt werden können, während die Tiefe der Anzahl der Karten in der Eingabeebene entspricht - im Allgemeinen.

Sie sind sicherlich nicht zweidimensional und werden auf den Eingabe-Feature-Maps an derselben 2D-Position repliziert! Das würde bedeuten, dass ein Kernel nicht in der Lage wäre, zwischen seinen Eingabe-Features an einem bestimmten Ort zu unterscheiden, da er auf den Eingabe-Feature-Maps ein und dasselbe Gewicht verwenden würde!

Angelorf
quelle
5

Es gibt nicht unbedingt eine Eins-zu-Eins-Entsprechung zwischen Layern und Kerneln. Das hängt von der jeweiligen Architektur ab. Die Abbildung, die Sie gepostet haben, deutet darauf hin, dass Sie in den S2-Layern 6 Feature-Maps haben, die jeweils alle Feature-Maps der vorherigen Layer kombinieren, dh verschiedene mögliche Kombinationen der Features.

Ohne weitere Referenzen kann ich nicht viel mehr sagen. Siehe zum Beispiel dieses Papier

jpmuc
quelle
Ich betrachte insbesondere LeNet-5 und verwende diese deeplearning.net/tutorial/lenet.html als meine Referenz. Es scheint von dieser Seite, dass die Kerne dreidimensional sind, aber es ist mir nicht 100% klar.
utdiscant
2
Sie müssen dieses Dokument dann lesen ( yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf ). Auf Seite 8 wird beschrieben, wie die verschiedenen Ebenen verbunden sind. Wie bereits erwähnt, werden in jeder Ebene mehrere Features der vorherigen Ebene an derselben Position kombiniert.
jpmuc
2
Der Link ist tot.
jul
2

Tabelle 1 und Abschnitt 2a von Yann LeCuns "Gradient Based Learning Applied to Document Recognition" erklären dies gut: http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf Nicht alle Regionen der 5x5-Faltung sind betroffen wird zur Erzeugung der 2. Faltungsschicht verwendet.

Travis Desell
quelle
0

Dieser Artikel kann hilfreich sein: Verständnis der Faltung in Deep Learning von Tim Dettmers vom 26. März

Es beantwortet die Frage nicht wirklich, da es nur die erste Faltungsschicht erklärt, sondern eine gute Erklärung der grundlegenden Intuition über die Faltung in CNNs enthält. Es beschreibt auch eine tiefere mathematische Definition der Faltung. Ich denke, es hängt mit dem Fragethema zusammen.

Anatoly Vasilyev
quelle
1
Willkommen auf der Seite. Wir versuchen, ein permanentes Repository mit hochwertigen statistischen Informationen in Form von Fragen und Antworten aufzubauen. Aus diesem Grund sind wir aufgrund von Linkrot vorsichtig, wenn nur Links beantwortet werden. Kannst du ein vollständiges Zitat und eine Zusammenfassung der Informationen unter dem Link posten, falls sie tot sind?
gung - Wiedereinsetzung von Monica
@gung, danke für den Hinweis, sorry für das Missverständnis der Konzepte. Die Situation ist: Dieser Artikel beantwortet die Frage nicht wirklich, aber als ich nach grundlegender Intuition über CNNs suchte, fand ich diese Frage und ich hoffte, mit diesem Artikel jemandem zu helfen, der auch nach grundlegender Intuition sucht und diese Frage hat. Ok, besser, es zu löschen, ja? Danke.
Anatoly Vasilyev
Ich denke, es wäre in Ordnung zu sagen, "dieser Artikel kann als Denkanstoß dienen, aber die Frage nicht vollständig beantworten", oder so ähnlich. Hier kann es durchaus einen Wert geben. Geben Sie einfach ein vollständiges Zitat und eine Zusammenfassung der enthaltenen Informationen, falls der Link nicht mehr funktioniert.
gung - Wiedereinsetzung von Monica
Vielen Dank für die zusätzlichen Informationen. Können Sie eine vollständige Zitierweise für das Papier (Autor, Jahr, Titel, Zeitschrift usw.) und eine Zusammenfassung seines Inhalts bereitstellen?
gung - Reinstate Monica
@gung ja natürlich. Aber anscheinend ist dieser Artikel nur in diesem Blog, sodass ich keine weiteren nützlichen Informationen dazu finden konnte. Vielen Dank für die Klärung meiner Sichtweise
Anatoly Vasilyev