Was ist die Geschichte hinter der Geschichte über den SIFT-Deskriptor?

9

Das Folgende stammt aus dem Artikel von Lowe 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).

Ein naheliegender Ansatz wäre, die lokalen Bildintensitäten um den Schlüsselpunkt im geeigneten Maßstab abzutasten und diese unter Verwendung eines normalisierten Korrelationsmaßes abzugleichen. Die einfache Korrelation von Bildfeldern reagiert jedoch sehr empfindlich auf Änderungen, die zu einer Fehlregistrierung von Proben führen, wie z. B. eine Änderung des Fein- oder 3D-Blickwinkels oder nicht starre Verformungen. Ein besserer Ansatz wurde von Edelman, Intrator und Poggio (1997) demonstriert. Ihre vorgeschlagene Darstellung basierte auf einem Modell des biologischen Sehens, insbesondere komplexer Neuronen im primären visuellen Kortex.Diese komplexen Neuronen reagieren auf einen Gradienten mit einer bestimmten Orientierung und räumlichen Frequenz, aber der Ort des Gradienten auf der Netzhaut kann sich über ein kleines Empfangsfeld verschieben, anstatt genau lokalisiert zu sein. Edelman et al. Es wurde die Hypothese aufgestellt, dass die Funktion dieser komplexen Neuronen darin bestand, 3D-Objekte aus verschiedenen Blickwinkeln abzugleichen und zu erkennen.

Ich versuche, den SIFT-Deskriptor zu verstehen. Ich verstehe die vorherige Stufe (Schlüsselpunktdetektor).

Ich weiß nicht, warum es so implementiert wird. Ich möchte die Geschichte hinter der Geschichte wissen.

jakeoung
quelle

Antworten:

1

64×64

64×6416×16

Für jedes Patch berechnen wir die Gradienten und finden dann die dominante Richtung der Gradienten (die einige Details enthält). Nehmen wir dann die dominante Richtung als Referenzrichtung, teilen wir den 360-Grad- bis 8-Winkel-Bereich mit jeweils 45 Grad und summieren dann über die Größe jedes Gradienten, der in jedem Winkelbereich liegt.

Wir könnten dies als Verteilung oder 8-Bin-Histogramm der Gradientenrichtung betrachten (wenn man bedenkt, dass starke Gradienten mehr Informationen haben, müssen wir sie bei der Berechnung der Verteilung mit höherem Gewicht verwenden, damit wir ihre Größe als ihr Gewicht verwenden, was zu einer Summe über ihre Größe führt). Dann werden wir diese Histogramme normalisieren.

Am Ende jedes Patches haben wir ein 8-Bin-Histogramm und 16 Patches, was zu einem 128-Nummern-Deskriptor führt.

Durch das Finden der dominanten Richtung wird unser Deskriptor auch rotationsinvariant. Durch die Verwendung von Gradienten wird unser Deskriptor in Bezug auf die Grundlinienbeleuchtung unveränderlich, und durch die Normalisierung der erhaltenen Histogramme wird unser Deskriptor gegenüber dem Bildkontrast unveränderlich.

Mohammad M.
quelle