Nicht quadratische Bilder zur Bildklassifizierung

9

Ich habe einen Datensatz mit breiten Bildern: 1760x128. Ich habe Tutorials und Bücher gelesen, und die meisten von ihnen geben an, dass Eingabebilder quadratisch sein sollten. Wenn nicht, werden sie in quadratisch umgewandelt, um in bereits trainierten (auf quadratischen Bildern) cnns trainiert zu werden. Gibt es eine Möglichkeit, cnn für nicht quadratische Bilder zu trainieren, oder sollte ich nach einer anderen Option als Auffüllung suchen?

conv-neural-network Voila
quelle

4

Je nach Klassifikator gibt es verschiedene Möglichkeiten, das Problem zu lösen. Das Schieben von Windows ist die Methode, mit der ich am besten vertraut bin. Diese wird für die neuronalen Netzwerkmethoden verwendet. Bei dieser Methode wird ein kleines Teilbild aufgenommen und mit einigen Überlappungen auf und ab verschoben. Einige Probleme umfassen das Finden der optimalen Verschiebungsparameter und Probleme mit mehreren Skalen.

Die endgültige Erkennung wird normalerweise dadurch bestimmt, wie sicher der Klassifizierer ist, dass jedes der Teilbilder zu dieser Klasse gehört: zum Beispiel Mehrheitsentscheidung, Gesamtwahrscheinlichkeit oder Gesamtentfernung von der Entscheidungsgrenze. Ich habe unten einige Materialien aufgelistet, die erste ist für die HOG-Klassifikatormethode, aber die Konzepte sind dieselben.

Joseph Santarcangelo
quelle

2

Dies sollte überhaupt keine Probleme verursachen, wenn Sie ein CNN verwenden. Ich habe ein CNN zum Erkennen von Gesichtern erstellt. Da Gesichter normalerweise etwa 70% so breit wie hoch sind, habe ich Trainingsbilder mit einer Größe von 80 x 100 Pixel verwendet (eine kleine zusätzliche Breite, falls der Kopf in einem Winkel steht). Ihre Filter sollten jedoch immer noch Quadrate sein.

Alles, was sich ändert, ist, dass Sie jetzt eine Breite und eine Höhe für Ihre Aktivierungs- / Poolkarten verfolgen müssen, anstatt nur einen Wert, der Ihnen die Größe angibt. Zum Beispiel -

Eingabebild von 80 x 100 Anwenden von 5 x 5 Faltungsfilter ergibt eine Karte der Aktivierungen bei 76 x 96 Anwenden von 2 x 2 Pooling ergibt eine Karte der gepoolten Aktivierungen bei 38 x 48

Frobot
quelle

Nicht quadratische Bilder zur Bildklassifizierung

Antworten: