Im Falle von CNN werden Filter auf kleine Flecken eines Bildes an jeder möglichen Stelle angewendet (was sie auch translatorisch unveränderlich macht).
Die verborgenen Ebenen des Autoencoders erhalten das gesamte Bild (Ausgabe der vorherigen Ebene) als Eingabe, was für Bilder keine gute Idee ist: Normalerweise korrelieren nur räumlich lokale Merkmale, während entfernte weniger korreliert sind. Diese versteckten Neuronen sind auch nicht translatorisch invariant.
Somit sind CNNs wie übliche ANNs mit einer speziellen Art der Regularisierung, bei der die meisten Gewichte auf Null gesetzt werden, um die Lokalität zu nutzen.