Ich werde hier als Beispiel den Algorithmus für die skalierungsinvariante Feature-Transformation verwenden. SIFT erstellt einen Skalierungsraum basierend auf der skalierten Gaußschen Filterung eines Bildes und berechnet dann die Differenz der Gaußschen, um potenzielle Interessenpunkte zu erkennen. Diese Punkte werden als lokale Minima und Maxima über die Differenz der Gaußschen definiert.
Es wird behauptet, dass dieser Ansatz skalierungsinvariant ist (unter anderem rätselhafte Invarianzen). Warum ist das? Mir ist nicht klar, warum das so ist.
Antworten:
Der Begriff "skaleninvariant" bedeutet hier folgendes. Angenommen, Sie haben Bild I und an einer bestimmten Stelle (x, y) und auf einer bestimmten Skalierungsebene s ein Merkmal (oder einen Interessenpunkt) f erkannt . Angenommen, Sie haben ein Bild I ' , das eine skalierte Version von I ist (z. B. heruntergerechnet). Wenn Ihr Merkmaldetektor skalierungsinvariant ist, sollten Sie in der Lage sein, das entsprechende Merkmal f ' in I' an der entsprechenden Stelle (x ', y') und den entsprechenden Maßstäben s 'zu erkennen , wobei (x, y, s) und (x ', y', s ') sind durch die entsprechende Skalierungstransformation verbunden.
Mit anderen Worten, wenn Ihr skalierungsinvarianter Detektor einen Merkmalspunkt erkannt hat, der dem Gesicht einer anderen Person entspricht, und Sie dann mit Ihrer Kamera dieselbe Szene vergrößern oder verkleinern, sollten Sie dennoch einen Merkmalspunkt auf diesem Gesicht erkennen.
Natürlich möchten Sie auch einen "Feature-Deskriptor", mit dem Sie die beiden Features abgleichen können. Genau das bietet Ihnen SIFT.
Es besteht also die Gefahr, dass Sie weiter verwirrt werden. Hier gibt es zwei Dinge, die skalierungsinvariant sind. Einer davon ist der DoG-Interessenpunktdetektor, der skalierungsunabhängig ist, da er eine bestimmte Art von Bildmerkmalen (Blobs) unabhängig von ihrer Skalierung erkennt. Mit anderen Worten, der DoG-Detektor erkennt Blobs jeder Größe. Die andere skaleninvariante Sache ist der Merkmaldeskriptor, ein Histogramm der Gradientenorientierung, das trotz einer Änderung des Maßstabs für dasselbe Bildmerkmal mehr oder weniger ähnlich bleibt.
Übrigens wird hier die Differenz der Gaußschen als eine Annäherung an das Laplace-von-Gaußschen-Filter verwendet.
quelle
Der Unterschied der Gaußschen ist nicht skalinvariant. SIFT-Skalierung (in begrenztem Maße) invariant, da nach DoG-Extrema über den Skalenraum gesucht wird - das heißt, Skalierung mit DoG-Extrema wird sowohl räumlich als auch relativ zu benachbarten Skalen gefunden. Da die Ausgabe-DoG für diese feste Skala erhalten wird (die keine Funktion der Eingabeskala ist), ist das Ergebnis skalierungsunabhängig, dh skalierungsinvariant.
quelle