Dies ist der mathematische Ausdruck für die Harris-Eckenerkennung:
Aber ich habe folgende Zweifel:
- Was ist die physikalische Bedeutung von und ? Viele Referenzen sagen , es ist der Betrag, um den der Fenster verschoben. Wie weit ist das Fenster verschoben? Ein Pixel oder zwei Pixel?
- Wird die Summe über die Pixelpositionen vom Fenster abgedeckt?
- Angenommen, einfach , ist die Intensität des einzelnen Pixels bei oder die Summe der Intensitäten innerhalb des Fensters mit der Mitte bei ?
- Laut Wiki wird gesagt, das Bild sei 2D, mit I bezeichnet, und dann wird gebeten, einen Bildausschnitt über der Fläche . Dann wird die Notation
Ich finde es verwirrend, die mathematische Erklärung zu verstehen. Hat jemand eine Idee?
image-processing
opencv
linear-algebra
rotierendes_Bild
quelle
quelle
Antworten:
Die Bedeutung dieser Formel ist sehr einfach. Stellen Sie sich vor, Sie nehmen zwei gleich große kleine Bereiche eines Bildes auf, den blauen und den roten:
Die Fensterfunktion ist außerhalb des roten Rechtecks gleich 0 (der Einfachheit halber können wir annehmen, dass das Fenster innerhalb des roten Rechtecks einfach konstant ist). Die Fensterfunktion wählt also die Pixel aus, die Sie betrachten möchten, und weist jedem Pixel eine relative Gewichtung zu. (Am gebräuchlichsten ist das Gaußsche Fenster, da es rotationssymmetrisch ist, die Pixel in der Nähe der Fenstermitte effizient berechnet und hervorhebt.) Das blaue Rechteck wird um (u, v) verschoben.
Als nächstes berechnen Sie die Summe der quadrierten Differenz zwischen den rot und blau markierten Bildteilen, dh Sie subtrahieren sie pixelweise, quadrieren die Differenz und addieren das Ergebnis (der Einfachheit halber wird angenommen, dass das Fenster in dem von uns betrachteten Bereich = 1 ist beim). Dies gibt Ihnen eine Nummer für jedes mögliche (u, v) -> E (u, v).
Mal sehen, was passiert, wenn wir das für verschiedene Werte von u / v berechnen:
Behalte zuerst v = 0:
Dies sollte nicht überraschen: Der Unterschied zwischen den Bildteilen ist am geringsten, wenn der Versatz (u, v) zwischen ihnen 0 beträgt. Wenn Sie den Abstand zwischen den beiden Feldern vergrößern, erhöht sich auch die Summe der quadratischen Unterschiede.
Halte u = 0:
Das Diagramm sieht ähnlich aus, aber die Summe der quadratischen Unterschiede zwischen den beiden Bildteilen ist viel kleiner, wenn Sie das blaue Rechteck in Richtung der Kante verschieben.
Eine vollständige Darstellung von E (u, v) sieht folgendermaßen aus:
Die Handlung sieht ein bisschen aus wie eine "Schlucht": Es gibt nur einen kleinen Unterschied, wenn Sie das Bild in Richtung der Schlucht verschieben. Das liegt daran, dass dieser Bildausschnitt eine dominante (vertikale) Ausrichtung hat.
Wir können dasselbe für einen anderen Image-Patch tun:
Hier sieht die Darstellung von E (u, v) anders aus:
Egal auf welche Weise Sie das Patch verschieben, es sieht immer anders aus.
Die Form der Funktion E (u, v) sagt also etwas über das Bildfeld aus
Normalerweise berechnen Sie E (u, v) überhaupt nicht. Sie interessieren sich nur für die Form in der Nähe von (u, v) = (0,0). Sie wollen also nur die Taylor-Expansion von E (u, v) in der Nähe von (0,0), die die "Form" davon vollständig beschreibt.
Mathematisch gesehen ist es eleganter, die Summe über alle Pixel laufen zu lassen. In der Praxis gibt es keinen Grund, Pixel zu summieren, bei denen das Fenster 0 ist.
quelle