Ich versuche zu verstehen, wie und warum die Fourier-Transformation in der Bildverarbeitung / Computer Vision verwendet wird. Unten ist, was ich bisher gesammelt habe. Wäre mein Verständnis davon richtig? Wenn nicht, könnte es mir jemand in einfachem Englisch erklären? Oder hat jemand etwas hinzuzufügen? Könnte jemand die "diskrete Fourier-Transformation" erklären?
Die Fourier-Transformation zerlegt ein Bild in seine Sinus- und Cosinus-Komponenten. Einfach ausgedrückt sind Sinus und Cosinus Wellen, die bei einem Minimum bzw. Maximum beginnen. In der realen Welt können wir nicht sagen, ob eine Welle, die wir beobachten, an einem maximalen oder minimalen Punkt begonnen hat, und daher können wir nicht wirklich zwischen beiden unterscheiden. Daher werden Sinus und Cosinus einfach als Sinuskurven bezeichnet.
Wenn wir die FT auf ein Bild anwenden, transformieren wir es aus seiner räumlichen Domäne in eine "Frequenzdomäne", die im Wesentlichen das Bild ist, das in Bezug auf seine Variation in Farbe und Helligkeit über die Zeit dargestellt wird (nun, nicht Zeit, sondern Raum. Das ist, über eine Anzahl von Pixeln).
EDIT: Warum sollte ich die Fourier-Transformation verwenden? Und was sind seine Vorteile gegenüber anderen Methoden? Eine Anwendung in der Literatur ist beispielsweise die Formerkennung oder Rauschunterdrückung. Wie kann man grundsätzlich die Formerkennung mit der FT durchführen?
Antworten:
Auf konzeptioneller Ebene sagt Ihnen die Fourier-Transformation, was im Bild in Bezug auf die Frequenzen dieser Sinuskurven geschieht. Wenn Sie beispielsweise ein Bild einer einfachen Wand haben, ändern sich die Werte der Pixel nur sehr wenig, wenn Sie von links nach rechts oder von oben nach unten gehen. Im Frequenzbereich bedeutet dies, dass Ihr Bild niedrige Frequenzen, aber keine hohen Frequenzen enthält.
Wenn Sie dagegen ein Bild von einem Lattenzaun haben, ändern sich die Werte der Pixel ständig, wenn Sie von links nach rechts gehen. Im Fourier-Bereich haben Sie also hohe Frequenzen in X-Richtung, aber nicht in Y-Richtung.
Wenn Sie ein Bild von einem Schachbrett haben, ändern sich die Pixelwerte stark in beide Richtungen. Somit hat die Fourier-Transformation des Bildes sowohl in X als auch in Y hohe Frequenzen.
Da die Fourier-Transformation Ihnen sagt, was in Ihrem Bild geschieht, ist es häufig zweckmäßig, Bildverarbeitungsvorgänge dahingehend zu beschreiben, wie sie sich auf die im Bild enthaltenen Frequenzen auswirken. Wenn Sie beispielsweise hohe Frequenzen eliminieren, wird das Bild unscharf. Wenn Sie niedrige Frequenzen eliminieren, erhalten Sie Kanten. Durch die Verbesserung hoher Frequenzen bei gleichbleibenden niedrigen Frequenzen wird das Bild schärfer.
FFT wird häufig in der Bildverarbeitung und in der Bildverarbeitung eingesetzt. Beispielsweise kann die Faltung, eine grundlegende Bildverarbeitungsoperation, unter Verwendung der FFT viel schneller durchgeführt werden. Das Wiener-Filter, das zum Entgraten von Bildern verwendet wird, wird in Thermos der Fourier-Transformation definiert. Aber was noch wichtiger ist, selbst wenn die Fourier-Transformation nicht direkt verwendet wird, bietet sie einen sehr nützlichen Rahmen für Überlegungen zu den Bildverarbeitungsoperationen.
Steve Eddins, einer der Autoren von "Digital Image Processing with MATLAB", hat eine ganze Reihe von Blog-Posts über die Fourier-Transformation und ihre Verwendung in der Bildverarbeitung veröffentlicht.
quelle