RNN lernt Sinuswellen mit unterschiedlichen Frequenzen

Zum Aufwärmen mit wiederkehrenden neuronalen Netzen versuche ich, eine Sinuswelle von einer anderen Sinuswelle einer anderen Frequenz vorherzusagen.

Mein Modell ist eine einfache RNN, deren Vorwärtsdurchlauf wie folgt ausgedrückt werden kann:

wobeidie Sigmoïd-Funktion ist.

\begin{aligned} r_{t} & = σ (W_{i n} \cdot x_{t} + W_{r e c} \cdot r_{t - 1})) \\ z_{t} & = W_{o u t} \cdot r_{t} \end{aligned}

$\begin{aligned} r_t &= \sigma(W_{in} \cdot x_t + W_{rec} \cdot r_{t-1}))\\ z_t &= W_{out} \cdot r_t \end{aligned}$

σ

$\sigma$

Wenn sowohl der Eingang als auch der erwartete Ausgang zwei Sinuswellen derselben Frequenz sind, jedoch mit (möglicherweise) einer Phasenverschiebung, kann das Modell ordnungsgemäß zu einer vernünftigen Näherung konvergieren .

Im folgenden Fall konvergiert das Modell jedoch zu einem lokalen Minimum und sagt die ganze Zeit Null voraus:

Eingabe: $x = sin(t)$
erwartete Ausgabe: $y = sin(\frac{t}{2})$

Das Netzwerk sagt Folgendes voraus, wenn nach 10 Trainingsepochen die vollständige Eingabesequenz mit Mini-Batches der Größe 16, einer Lernrate von 0,01, einer Sequenzlänge von 16 und versteckten Schichten der Größe 32 angegeben wird:

Was mich zu der Annahme führt, dass das Netzwerk nicht in der Lage ist, durch die Zeit zu lernen, und sich nur auf die aktuellen Eingaben stützt, um seine Vorhersage zu treffen.

Ich habe versucht, die Lernrate, die Sequenzlänge und die Größe der verborgenen Ebenen ohne großen Erfolg abzustimmen.

Ich habe genau das gleiche Problem mit einem LSTM. Ich möchte nicht glauben, dass diese Architekturen so fehlerhaft sind, irgendwelche Hinweise darauf, was ich falsch mache?

Ich verwende ein RNN- Paket für Torch, der Code befindet sich in einem Gist .

regression time-series neural-networks deep-learning rnn Simon
quelle

$\sin(t)$ $2\pi$ $\sin(t) = \sin(t+2\pi)$

$\sin(t/2)$ $4\pi$ $\sin(t/2) = -\sin(t+2\pi)$

Daher haben Sie in Ihrem Datensatz Paare identischer Eingaben mit entgegengesetzten Ausgaben. In Bezug auf den mittleren quadratischen Fehler bedeutet dies, dass die optimale Lösung eine Nullfunktion ist.

Dies sind zwei Abschnitte Ihres Diagramms, in denen Sie identische Eingaben, aber entgegengesetzte Ziele sehen können

ChenM
quelle

Um diese Antwort näher zu erläutern, bestand das Problem darin, dass dieselbe Feedback-Initialisierung für verschiedene Eingaben verwendet wurde. Ich habe dies gelöst, indem ich (zufällig) mehr vorwärts als rückwärts gemacht habe, um die vollständige Sequenz zu lernen.

Simon

RNN lernt Sinuswellen mit unterschiedlichen Frequenzen

Antworten: