Der Titel sagt schon alles - wie viele trainierbare Parameter gibt es in einer GRU-Schicht? Diese Art von Frage taucht häufig auf, wenn versucht wird, Modelle verschiedener RNN-Schichttypen, wie z. B. LSTM-Einheiten (Long Short Term Memory), mit GRU hinsichtlich der Leistung pro Parameter zu vergleichen. Da eine größere Anzahl trainierbarer Parameter im Allgemeinen die Lernfähigkeit des Netzwerks erhöht, ist der Vergleich alternativer Modelle auf Parameterbasis ein Vergleich der relativen Wirksamkeit von GRUs und LSTMs von Apfel zu Apfel.
quelle