Ich stehe vor dem Problem, Bilder mit unterschiedlichen Dimensionen als Eingaben in eine Segmentierungsaufgabe zu haben. Beachten Sie, dass die Bilder nicht einmal das gleiche Seitenverhältnis haben.
Ein allgemeiner Ansatz, den ich im Allgemeinen beim Deep Learning gefunden habe, ist das Zuschneiden der Bilder, wie dies auch hier vorgeschlagen wird . In meinem Fall kann ich das Bild jedoch nicht zuschneiden und seine Mitte oder ähnliches beibehalten, da ich bei der Segmentierung möchte, dass die Ausgabe die gleichen Abmessungen wie die Eingabe hat.
In diesem Dokument wird vorgeschlagen, dass bei einer Segmentierungsaufgabe dasselbe Bild mehrmals in einem anderen Maßstab in das Netzwerk eingespeist und dann die Ergebnisse aggregiert werden können. Wenn ich diesen Ansatz richtig verstehe, würde er nur funktionieren, wenn alle Eingabebilder das gleiche Seitenverhältnis haben. Bitte korrigieren Sie mich, wenn ich falsch liege.
Eine andere Alternative wäre, jedes Bild auf feste Abmessungen zu ändern. Ich denke, dies wurde auch durch die Antwort auf diese Frage vorgeschlagen. Es ist jedoch nicht festgelegt, auf welche Weise die Größe von Bildern geändert wird.
Ich habe überlegt, die maximale Breite und Höhe des Datensatzes zu verwenden und alle Bilder auf diese feste Größe zu ändern, um Informationsverlust zu vermeiden. Ich glaube jedoch, dass unser Netzwerk möglicherweise Probleme mit verzerrten Bildern hat, da die Kanten in einem Bild möglicherweise nicht klar sind. Was ist möglicherweise der beste Weg, um die Größe Ihrer Bilder zu ändern, bevor Sie sie dem Netzwerk zuführen?
Gibt es eine andere Option, die mir nicht bekannt ist, um das Problem zu lösen, Bilder mit unterschiedlichen Dimensionen zu haben?
Welcher dieser Ansätze ist Ihrer Meinung nach der beste, wenn man den Rechenaufwand, aber auch den möglichen Leistungsverlust des Netzwerks berücksichtigt?
Ich würde mich freuen, wenn die Antworten auf meine Fragen einen Link zu einer Quelle enthalten, falls es eine gibt. Vielen Dank.
Ich denke, dieses Papier wird nützliche Erkenntnisse für Sie haben.
quelle
Wenn Sie eine Segmentierung durchführen möchten, können Sie U-Net verwenden. Es sind keine vollständig verbundenen Einheiten vorhanden. Daher spielt die Größe der Eingabe keine Rolle.
quelle
Ich denke, Sie können die Pixelgröße Ihres Bildes ändern und RGB für den nächsten Schritt in Binär oder Ganzzahl konvertieren
quelle
Versuchen Sie, die Größe des Bilds mithilfe der Interpolationstechnik für den nächsten Nachbarn auf die Eingabedimensionen Ihrer neuronalen Netzwerkarchitektur zu ändern (wobei es in einer Standard-2D-U-Netz-Architektur auf etwa 128 * 128 festgelegt bleibt) . Dies liegt daran, dass wenn Sie die Größe Ihres Bildes mithilfe einer anderen Interpolation ändern, dies zu Manipulationen an den Grundwahrheitsbezeichnungen führen kann. Dies ist insbesondere bei der Segmentierung ein Problem. Sie werden nicht mit einem solchen Problem konfrontiert sein, wenn es um die Klassifizierung geht.
Versuche Folgendes:
quelle