Ich habe Probleme, den Unterschied zwischen der Äquivariante zur Übersetzung und der Invariante zur Übersetzung zu verstehen .
In dem Buch Deep Learning . MIT Press, 2016 (I. Goodfellow, A. Courville und Y. Bengio), findet man in den Faltungsnetzwerken:
- [...] die besondere Form der Parameterfreigabe bewirkt, dass die Ebene eine Eigenschaft hat, die als Äquivarianz zur Übersetzung bezeichnet wird
- [...] Pooling hilft dabei, die Darstellung für kleine Übersetzungen der Eingabe ungefähr unveränderlich zu machen
Gibt es einen Unterschied zwischen ihnen oder werden die Begriffe synonym verwendet?
Antworten:
Äquivarianz und Invarianz werden manchmal synonym verwendet. Wie von @ Xi'an hervorgehoben , können Sie in der statistischen Literatur Verwendungen finden, zum Beispiel in Bezug auf die Begriffe des invarianten Schätzers und insbesondere des Pitman-Schätzers .
Ich möchte jedoch erwähnen , dass es besser wäre , wenn beide Begriffe voneinander getrennt halten , als Präfix „ Ein- “ in invariant privative wird ( „keine Abweichung“ überhaupt bedeutet), während „ Gleichge- “ in äquivariante auf „Variierung verweist in einem ähnlichen oder gleichwertigen Verhältnis ". Mit anderen Worten, einer bewegt sich nicht, der andere tut es .
Gehen wir von einfachen Bildmerkmalen aus und nehmen wir an, dass BildI ein eindeutiges Maximum m an der Position der räumlichen Pixel (xm,ym) , das hier das Hauptklassifizierungsmerkmal ist. Mit anderen Worten: Ein Bild und alle seine Übersetzungen sind "gleich" . Eine interessante Eigenschaft von Klassifizierern ist ihre Fähigkeit, einige verzerrte Versionen I′ von I dieselbe Weise zu klassifizieren , beispielsweise Übersetzungen durch alle Vektoren (u,v) .
Der Maximalwertm′ von I′ ist invariant : m′=m : der Wert ist der gleiche. Während sein Ort bei (x′m,y′m)=(xm−u,ym−v) ist und äquivariant ist , was bedeutet, dass er mit der Verzerrung "gleich" variiert .
Die genauen Formulierungen in der Mathematik für Äquivarianz hängen von den Objekten und Transformationen ab, die man betrachtet. Ich bevorzuge hier den Begriff, der in der Praxis am häufigsten verwendet wird (und ich kann die Schuld von einem theoretischen Standpunkt bekommen).
Hier können Übersetzungen (oder eine allgemeinere Aktion) mit der Struktur einer GruppeG , wobei g ein spezifischer Übersetzungsoperator ist. Eine Funktion oder ein Merkmal f invariant unter G , wenn für alle Bilder in einer Klasse und für jeden g ,
f(g(I))=f(I).
Es wird äquivariant, wenn es eine andere mathematische Struktur oder Aktion (häufig eine Gruppe)G′ , die die Transformationen in G auf sinnvolle Weise widerspiegelt . Mit anderen Worten, so dass Sie für jedes g ein eindeutiges g′∈G′ so dass
In dem obigen Beispiel für die Translationsgruppe sindg und g′ gleich (und daher ist G′=G ): Eine ganzzahlige Translation des Bildes spiegelt genau die gleiche Translation des Maximalorts wider.
Eine andere gebräuchliche Definition ist:
Ich habe jedoch möglicherweise unterschiedlicheG und G′ da f(I) und g(I) manchmal nicht in derselben Domäne liegen. Dies geschieht beispielsweise in multivariaten Statistiken (siehe z. B. Äquivarianz- und Invarianzeigenschaften von multivariaten Quantilen und verwandten Funktionen sowie die Rolle der Standardisierung ). Aber hier erlaubt die Eindeutigkeit der Abbildung zwischen g und g′ , zur ursprünglichen Transformation g .
Oft wird der Begriff Invarianz verwendet, weil das Äquivarianzkonzept unbekannt ist oder jeder andere Invarianz verwendet und Äquivarianz pedantischer erscheint.
Für die Aufzeichnung werden andere verwandte Begriffe (insbesondere in Mathematik und Physik) als Kovarianz , Kontravarianz , differentielle Invarianz bezeichnet .
Darüber hinaus war die Übersetzungsinvarianz, zumindest annähernd oder in Umschlägen, eine Suche nach mehreren Signal- und Bildverarbeitungswerkzeugen. Insbesondere wurden in den letzten 25 Jahren Transformationen mit mehreren Raten (Filterbänke) und mehreren Maßstäben (Wavelets oder Pyramiden) entworfen, zum Beispiel unter dem Deckmantel von verschiebungsinvarianten, zyklusspinnenden, stationären, komplexen Doppelbäumen Wavelet-Transformationen (für eine Übersicht über 2D-Wavelets: Ein Panorama auf mehrskaligen geometrischen Darstellungen ). Die Wavelets können einige diskrete Skalenvariationen absorbieren. Alle diese (ungefähren) Invarianzen gehen oft mit dem Preis der Redundanz der Anzahl transformierter Koeffizienten einher. Es ist jedoch wahrscheinlicher, dass sie verschiebungsinvariante oder verschiebungsäquivariante Merkmale liefern.
quelle
Die Begriffe sind unterschiedlich:
Äquivariant zur Übersetzung bedeutet, dass eine Übersetzung von Eingabe-Features zu einer äquivalenten Übersetzung von Ausgaben führt. Wenn also Ihr Muster 0,3,2,0,0 am Eingang zu 0,1,0,0 am Ausgang führt, kann das Muster 0,0,3,2,0 zu 0,0,1 führen. 0
Unveränderlich gegenüber der Übersetzung bedeutet, dass eine Übersetzung von Eingabe-Features die Ausgaben überhaupt nicht verändert. Wenn also Ihr Muster 0,3,2,0,0 am Eingang zu 0,1,0 am Ausgang führt, würde das Muster 0,0,3,2,0 ebenfalls zu 0,1,0 führen
Damit Feature-Maps in Faltungsnetzwerken nützlich sind, benötigen sie in der Regel beide Eigenschaften in einem gewissen Gleichgewicht. Die Äquivarianz ermöglicht es dem Netzwerk, die Erkennung von Kanten, Texturen und Formen an verschiedenen Orten zu verallgemeinern. Durch die Invarianz spielt die genaue Lokalisierung der erkannten Merkmale eine geringere Rolle. Dies sind zwei sich ergänzende Verallgemeinerungsarten für viele Bildverarbeitungsaufgaben.
quelle
Füge nur meine 2 Cent hinzu
In Bezug auf eine Bildklassifizierungsaufgabe, die mit einer typischen CNN-Architektur gelöst wurde, die aus einem Backend (Convolutions + NL + möglicherweise Spatial Pooling), das Repräsentationslernen ausführt, und einem Frontend (z. B. Fully Connected Layers, MLP) besteht, das die spezifische Aufgabe löst, in diesem Fall Bild Klassifizierung ist die Idee, eine Funktion zu bauenf: Ich→ L in der Lage, von der Spatial Domain zu kartieren ich (Eingabebild) in die semantische Domäne L (Label Set) in einem 2-Schritt-Prozess, der ist
und es wird unter Verwendung der folgenden Eigenschaften durchgeführt
Je näher an der Eingabeebene, desto näher an der rein räumlichen Domäneich und umso wichtiger die räumliche Äquivarianzeigenschaft, die es ermöglicht, räumlich äquivariante hierarchische (zunehmend) semantische Repräsentationen zu erstellen
Je näher am Frontend, desto näher an der latenten, rein semantischen DomäneL und je wichtiger es ist, dass die räumliche Invarianz als spezifische Bedeutung des Bildes unabhängig von den räumlichen Positionen der Merkmale ist
Durch die Verwendung vollständig verbundener Ebenen im Frontend wird der Klassifizierer abhängig von der Backend-Struktur in gewissem Maße empfindlich gegenüber der Feature-Position: Je tiefer die Ebene ist und je mehr der Übersetzungsinvarianten-Operator (Pooling) verwendet wird
In Quantifying Translation-Invariance in Convolutional Neural Networks wurde gezeigt, dass es zur Verbesserung der CNN Classifier Translation Invariance effektiver ist, auf den Datensatz Bias (Data Augmentation) einzuwirken, anstatt auf den induktiven Bias (Architektur, Tiefe, Pooling, ...) einzuwirken )
quelle