Wie werden mit CNN extrahierte Features an RNN übergeben?

Ich habe Wortbilder wie folgt: Nehmen wir an, es ist ein 256x64Bild. Mein Ziel ist es, den Text aus dem Bild zu extrahieren, 73791096754314441539wie es eine OCR im Grunde tut. Ich versuche ein Modell zu bauen, das Wörter aus Bildern erkennen kann. Wenn ich ein Wort sage, kann es eines der folgenden...