Ich versuche also, Bilder von Menschen mit Faltungsnetzen zu trainieren. Ich habe die Papiere ( Paper1 und Paper2 ) und diesen Stackoverflow-Link gelesen , bin mir jedoch nicht sicher, ob ich die Struktur der Netze verstehe (in den Papieren ist dies nicht genau definiert).
Fragen:
Ich kann meine Eingabe gefolgt von einer Rauschebene gefolgt von einer Konvektionsebene, gefolgt von einer Poolebene - danach - dekoole ich, bevor ich meine Ausgabe gebe (was dasselbe ist wie mein Eingabebild)?
Angenommen, ich habe mehrere (135.240) Bilder. Wenn ich 32 (12,21) Kernel verwende, gefolgt von (2,2) Pooling, erhalte ich 32 (62, 110) Feature-Maps. Muss ich jetzt den Pool aufheben, um 32 (124, 220) Feature-Maps zu erhalten und sie dann zu reduzieren? bevor ich meine (135,240) Ausgabeebene gebe?
Wenn ich mehrere solcher Conv-Pool-Layer habe, sollte ich sie nacheinander trainieren - wie bei gestapelten denoisierten Autoencodern? Oder - kann ich so etwas wie Input-Conv-Pool-Conv-Pool-Conv-Pool-Output haben (Output ist dasselbe wie Input)? Wie soll in diesem Fall das Pooling, Depooling verwaltet werden? Soll ich den Pool nur in der letzten Poolebene vor der Ausgabe entfernen? Und noch einmal - was sollte der Größenänderungsfaktor für diese Aufhebung des Pools sein? Ist die Absicht, die Feature-Maps wieder an die Form der Eingabe anzupassen?
Sollte ich nach jeder Conv-Pool-Depool-Schicht Rauschschichten einfügen?
Und dann bei der Feinabstimmung - soll ich nur die Entpoolungsschichten entfernen und den Rest gleich lassen. Oder sollte ich sowohl die Rauschschichten als auch die De-Pooling-Schichten entfernen?
Kann mir jemand auf eine URL / ein Dokument verweisen, in dem die Architektur eines solchen gestapelten Faltungs-Auto-Encoders für das Pre-Training von Bildern detailliert beschrieben ist?
Ich habe auch nach einem vollständig erklärten Modell von gestapelten Faltungs-Autoencodern gesucht.
Ich bin auf drei verschiedene Architekturen gestoßen. Ich studiere sie immer noch und dachte, dass sie anderen helfen könnten, die sich ebenfalls mit CAEs befassen. Alle weiteren Verweise auf Dokumente oder Implementierungen würden sehr helfen.
Die Schichten von (Convolve) __ x_times -> (Deconvolve) __ x_times,
und erhalten die gleiche Größe wie die Eingabe.
quelle
ASK QUESTION
Feld oben auf der Seite und stellen Sie sie dort. Wir können Ihnen dann richtig helfen. Da Sie neu hier sind, möchten Sie vielleicht an unserer Tour teilnehmen , die Informationen für neue Benutzer enthält.Ich denke nicht, dass die schichtweise Trainingsmethode richtig ist. Zum Beispiel ist die Architektur des Faltungsautocodierers:
input-> conv-> max_poo-> de_max_pool-> de_conv-> output.
Dies ist ein Auto-Encoder und sollte mit der gesamten Architektur trainiert werden. Darüber hinaus gibt es kein strenges Kriterium, ob ein Faltungsautocodierer einen Pool und einen un_pool benötigt. Normalerweise ein Pool, aber ohne un_pool. Hier ist ein experimenteller Vergleich mit dem Fehlen von pool und un_pool.
https://arxiv.org/pdf/1701.04949.pdf
quelle