Wir definieren eine Engpassarchitektur als den Typ, der im ResNet-Artikel zu finden ist, in dem [zwei 3x3-Conv-Ebenen] durch [eine 1x1- Conv-Ebene , eine 3x3-Conv-Ebene und eine weitere 1x1-Conv-Ebene] ersetzt werden.
Ich verstehe, dass die 1x1-Conv-Ebenen als eine Form der Dimensionsreduktion (und Wiederherstellung) verwendet werden, die in einem anderen Beitrag erläutert wird . Ich bin mir jedoch nicht sicher, warum diese Struktur so effektiv ist wie das ursprüngliche Layout.
Einige gute Erklärungen könnten beinhalten: Welche Schrittlänge wird in welchen Schichten verwendet? Was sind beispielhafte Eingangs- und Ausgangsabmessungen für jedes Modul? Wie werden die 56x56-Funktionskarten in der obigen Abbildung dargestellt? Beziehen sich die 64-d auf die Anzahl der Filter, warum unterscheidet sich dies von den 256-d-Filtern? Wie viele Gewichte oder FLOPs werden auf jeder Schicht verwendet?
Jede Diskussion wird sehr geschätzt!
quelle
Antworten:
Die Engpassarchitektur wird aus rechentechnischen Gründen in sehr tiefen Netzwerken verwendet.
Um Ihre Fragen zu beantworten:
56x56-Feature-Maps sind im obigen Bild nicht dargestellt. Dieser Block stammt aus einem ResNet mit der Eingangsgröße 224x224. 56x56 ist die heruntergerechnete Version der Eingabe auf einer Zwischenebene.
64-d bezieht sich auf die Anzahl der Feature-Maps (Filter). Die Engpassarchitektur hat 256-d, einfach weil sie für ein viel tieferes Netzwerk gedacht ist, das möglicherweise Bilder mit höherer Auflösung als Eingabe verwendet und daher mehr Feature-Maps erfordert.
In dieser Abbildung sind die Parameter der einzelnen Engpassschichten in ResNet 50 aufgeführt.
quelle
Ich denke wirklich, dass der zweite Punkt in Newsteins Antwort irreführend ist.
Das
64-d
oder256-d
sollte sich auf die Anzahl der Kanäle der Eingabe-Feature-Map beziehen - nicht auf die Anzahl der Eingabe-Feature-Maps.Betrachten Sie den "Engpass" -Block (rechts in der Abbildung) in der Frage des OP als Beispiel:
256-d
bedeutet, dass wir eine einzelne Eingabe-Feature-Map mit Bemaßung habenn x n x 256
. Das1x1, 64
in der Abbildung bedeutet64
Filter , jeder ist1x1
und hat256
Kanäle (1x1x256
).1x1x256
) mit einer Eingabe-Feature-Map (n x n x 256
) einen x n
Ausgabe ergibt .64
Filter, daher ist durch Stapeln der Ausgaben die Ausgabe-Feature-Map-Dimensionn x n x 64
.Bearbeitet:
quelle