Grund für quadratische Bilder beim tiefen Lernen

Antworten:

9

Es sind keine spezifischen Pixelabmessungen erforderlich, damit Faltungs-Neuronale Netze normal funktionieren. Es ist wahrscheinlich, dass die Werte aus pragmatischen Gründen ausgewählt wurden - beispielsweise aufgrund eines Kompromisses zwischen der Verwendung von Bilddetails und der Anzahl der Parameter und der erforderlichen Größe des Trainingssatzes.

Wenn Quelldaten eine Reihe unterschiedlicher Seitenverhältnisse aufweisen, z. B. Hochformat oder Querformat, wobei sich das Zielobjekt normalerweise in der Mitte befindet, kann es ein vernünftiger Kompromiss sein, einen quadratischen Ausschnitt aus der Mitte zu nehmen.

Wenn Sie die Größe des Eingabebilds erhöhen, erhöhen Sie auch das Rauschen und die Varianz, mit denen das Netzwerk umgehen muss, um diese Eingabe zu verarbeiten. Das könnte mehr Schichten bedeuten - sowohl Faltungs- als auch Pooling. Es könnte auch bedeuten, dass Sie mehr Trainingsbeispiele benötigen, und natürlich wird jedes Trainingsbeispiel größer. Zusammen erhöhen diese die Rechenressourcen, die Sie für die Durchführung der Schulung benötigen. Wenn Sie diese Anforderung jedoch überwinden können, erhalten Sie möglicherweise ein genaueres Modell für jede Aufgabe, bei der die zusätzlichen Pixel einen Unterschied machen könnten.

Eine mögliche Faustregel für die Frage, ob Sie eine höhere Auflösung wünschen, ist, wenn ein menschlicher Experte für das Ziel Ihres Netzwerks die zusätzliche Auflösung nutzen und bei der Aufgabe eine bessere Leistung erbringen könnte. Dies kann bei Regressionssystemen der Fall sein, bei denen das Netzwerk einige numerische Größen aus dem Bild ableitet - z. B. zur Gesichtserkennung, um biometrische Daten wie den Abstand zwischen Gesichtsmerkmalen zu extrahieren. Dies kann auch für Bildverarbeitungsaufgaben wie die automatisierte Maskierung wünschenswert sein. Die Ergebnisse auf dem neuesten Stand der Technik für diese Aufgaben sind möglicherweise immer noch niedriger als die kommerziellen Bilder, auf die wir sie in der Praxis anwenden möchten.

Neil Slater
quelle