Meiner Meinung nach hat Max & Mean Pooling nichts mit der Art der Features zu tun, sondern mit der Übersetzungsinvarianz.
Stellen Sie sich vor, Sie lernen, ein 'A' gegen 'B' zu erkennen (keine Variation der Pixel von A und B). Zuerst an einer festen Position im Bild. Dies kann durch eine logistische Regression (1 Neuron) erfolgen: Die Gewichte sind letztendlich eine Vorlage für die Differenz A - B.
Was passiert nun, wenn Sie trainieren, um an verschiedenen Stellen im Bild zu erkennen? Sie können dies nicht mit logistischer Regression tun, indem Sie über das Bild streichen (dh eine Faltungsschicht mit einem Filter approximieren) und alle Sweeps des Bildes A oder B entsprechend kennzeichnen, da das Lernen aus den verschiedenen Positionen stört - effektiv versuchen Sie, den Durchschnitt zu lernen von AB als A / B werden über Ihren Filter geleitet - aber dies ist nur eine Unschärfe.
Mit maximalem Pooling wird das Lernen nur am Ort der maximalen Aktivierung durchgeführt (die hoffentlich auf dem Buchstaben zentriert ist). Ich bin mir nicht so sicher, was das mittlere Pooling angeht - ich würde mir vorstellen, dass mehr Lernen (dh Gewichtsanpassung) am maximalen Aktivierungsort durchgeführt wird und das Verwischen vermieden wird ...
Ich würde Sie ermutigen, einfach ein so einfaches Netzwerk mit 2 Klassen und 1 Filter für die Faltungsschicht zu implementieren, dann Max / Mean-Pooling und 1 Ausgabeknoten und die Gewichte / Leistung zu überprüfen.