Was ist die Definition einer "Feature Map" (auch "Aktivierungskarte" genannt) in einem neuronalen Faltungsnetzwerk?

31

 Intro Hintergrund

In einem neuronalen Faltungsnetz haben wir normalerweise eine allgemeine Struktur / einen Fluss, der so aussieht:

  1. Eingabebild (dh ein 2D-Vektor x)

(Die erste Faltungsschicht (Conv1) beginnt hier ...)

  1. Falten Sie eine Reihe von Filtern ( w1) entlang des 2D-Bildes (dh führen Sie die z1 = w1*x + b1Skalarproduktmultiplikationen durch), wobei z13D und b1Bias verwendet werden.
  2. gilt eine Aktivierungsfunktion (zB relu) , um z1nichtlineare (z a1 = ReLu(z1)), wobei a1ist 3D.

(Die 2. Faltungsebene (Conv2) beginnt hier ...)

  1. falten Sie eine Reihe von Filtern entlang der neu berechneten Aktivierungen (dh führen Sie die z2 = w2*a1 + b2Punktproduktmultiplikationen durch), wobei z23D und und b2Vorspannungen sind.
  2. gilt eine Aktivierungsfunktion (zB relu) , um z2nichtlineare (z a2 = ReLu(z2)), wobei a2ist 3D.

 Die Frage

Die Definition des Begriffs "Merkmalskarte" scheint von Literatur zu Literatur zu variieren. Konkret:

  • Für die erste Faltungsschicht, bedeutet „Feature Map“ entspricht den Eingangsvektor x, oder das Ausgangspunktprodukt z1oder die Ausgangsaktivierungen a1oder den „Prozess“ Umwandlung xzu a1, oder etwas anderes?
  • In ähnlicher Weise für die zweite Faltungsschicht, bedeutet „Feature Map“ entspricht den Eingangsaktivierung a1oder das Ausgangspunktprodukt z2oder die Ausgangsaktivierung a2oder den „Prozess“ Umwandlung a1zu a2, oder etwas anderes?

Darüber hinaus ist es wahr , dass der Begriff „Merkmalskarte“ ist genau das gleiche wie „Aktivierungskarte“? (Oder meinen sie eigentlich zwei verschiedene Dinge?)

 Zusätzliche Referenzen:

Schnipsel aus neuronalen Netzen und Deep Learning - Kapitel 6 :

* Die Nomenklatur wird hier lose verwendet. Insbesondere meine ich mit "Merkmalskarte" nicht die von der Faltungsschicht berechnete Funktion, sondern die Aktivierung der verborgenen Neuronen, die von der Schicht ausgegeben werden. Diese Art des milden Missbrauchs der Nomenklatur ist in der Forschungsliteratur weit verbreitet.


Auszüge aus der Visualisierung und dem Verständnis von Faltungsnetzwerken von Matt Zeiler :

In diesem Artikel stellen wir eine Visualisierungstechnik vor, die die Eingangsreize aufzeigt, die einzelne Feature-Maps auf einer beliebigen Ebene im Modell anregen. [...] Unser Ansatz liefert dagegen eine nicht parametrische Ansicht der Invarianz und zeigt, welche Muster aus dem Trainingssatz die Feature-Map aktivieren. [...] eine lokale Kontrastoperation, die die Antworten über Feature-Maps hinweg normalisiert. [...] Um eine bestimmte Convnet-Aktivierung zu untersuchen, setzen wir alle anderen Aktivierungen in der Ebene auf Null und übergeben die Feature-Maps als Eingabe an die angehängte Deconvnet-Ebene. [...] Das Convnet verwendet relu-Nichtlinearitäten, die die Feature-Maps korrigieren und so sicherstellen, dass die Feature-Maps immer positiv sind. [...] Das Convnet verwendet gelernte Filter, um die Feature-Maps aus der vorherigen Ebene zu falten. [...] Abb. 6, Bei diesen Visualisierungen handelt es sich um genaue Darstellungen des Eingabemusters, das die angegebene Feature-Map im Modell stimuliert. [...]

Anmerkungen: Führt auch die Begriffe "Merkmalskarte" und "korrigierte Merkmalskarte" in Abb. 1 ein.


Ausschnitte aus dem Stanford CS231n-Kapitel auf CNN :

[...] Eine gefährliche Falle, die bei dieser Visualisierung leicht erkannt werden kann, ist, dass einige Aktivierungskarten für viele verschiedene Eingaben alle Null sein können, was auf tote Filter hinweisen kann und ein Symptom für hohe Lernraten sein kann. [...] Typisch aussehende Aktivierungen auf der ersten CONV-Ebene (links) und der 5. CONV-Ebene (rechts) eines trainierten AlexNet, die ein Bild einer Katze betrachten. Jedes Feld zeigt eine Aktivierungskarte, die einem Filter entspricht. Beachten Sie, dass die Aktivierungen spärlich (die meisten Werte sind Null, in dieser schwarz dargestellten Visualisierung) und meist lokal sind.


Schnipsel aus A-Beginner's-Guide-To-Understanding-Convolutional-Neural-Networks

[...] Jede eindeutige Stelle auf dem Eingabevolumen erzeugt eine Nummer. Nachdem Sie den Filter über alle Orte geschoben haben, werden Sie feststellen, dass Sie nur noch ein 28 x 28 x 1-Array von Zahlen übrig haben, das wir Aktivierungskarte oder Feature-Karte nennen.

Atlas7
quelle

Antworten:

27

Eine Feature-Map oder Aktivierungs-Map ist die Ausgabeaktivierung für einen bestimmten Filter (in Ihrem Fall a1) und die Definition ist unabhängig von der Ebene, auf der Sie sich befinden, dieselbe.

Funktionskarte und Aktivierungskarte bedeuten genau dasselbe. Es wird Aktivierungskarte genannt, da es sich um eine Zuordnung handelt, die der Aktivierung verschiedener Teile des Bildes entspricht, und auch um eine Feature-Karte, da es sich auch um eine Zuordnung handelt, in der eine bestimmte Art von Feature im Bild gefunden wird. Eine hohe Aktivierung bedeutet, dass eine bestimmte Funktion gefunden wurde.

Eine "korrigierte Feature-Map" ist nur eine Feature-Map, die mit Relu erstellt wurde. Möglicherweise wird der Begriff "Feature-Map" für das Ergebnis der Punktprodukte (z1) verwendet, da dies auch wirklich eine Karte ist, in der bestimmte Features im Bild enthalten sind, was jedoch nicht häufig vorkommt.

Frobot
quelle
1
Danke für die Eingabe. Ihre Antwort ausrichtet mit meinem Verständnis (dh Aktivierungskarten sind a1, a2usw.). In Conv2 würde ich a1die Eingabe-Aktivierungs-Map und a2die Ausgabe-Aktivierungs-Map aufrufen . In Conv1 habe ich xdas Eingabebild und a1die Ausgabeaktivierungskarte.
Atlas7
4

Bevor Sie darüber sprechen, was Feature-Map bedeutet, definieren Sie einfach den Begriff des Feature-Vektors.

Merkmalsvektor ist eine vektorielle Darstellung von Objekten. Zum Beispiel kann ein Auto durch [Anzahl der Räder, Tür] dargestellt werden. Fenster, Alter usw.].

Die Merkmalskarte ist eine Funktion, die Merkmalsvektoren in einem Raum aufnimmt und in Merkmalsvektoren in einem anderen transformiert. Beispielsweise kann ein gegebener Merkmalsvektor [Volumen, Gewicht, Höhe, Breite] [1, Volumen / Gewicht, Höhe * Breite] oder [Höhe * Breite] oder sogar nur [Volumen] zurückgeben.

HISI
quelle