Ein Echo State Network ist eine Instanz des allgemeineren Konzepts von Reservoir Computing . Die Grundidee des ESN besteht darin, die Vorteile eines RNN zu nutzen (eine Folge von Eingaben zu verarbeiten, die voneinander abhängig sind, dh Zeitabhängigkeiten wie ein Signal), jedoch ohne die Probleme, ein traditionelles RNN wie das Problem des verschwindenden Gradienten zu trainieren .
ESNs erreichen dies, indem sie über ein relativ großes Reservoir von spärlich verbundenen Neuronen verfügen, die eine Sigmoid-Transfer-Funktion verwenden (im Verhältnis zur Eingangsgröße etwa 100-1000 Einheiten). Die Anschlüsse im Reservoir werden einmal vergeben und sind völlig zufällig; Die Behältergewichte werden nicht trainiert. Eingangsneuronen sind mit dem Reservoir verbunden und speisen die Eingangsaktivierungen in das Reservoir ein - auch diesen werden ungeübte Zufallsgewichte zugewiesen. Die einzigen trainierten Gewichte sind die Ausgangsgewichte, die das Reservoir mit den Ausgangsneuronen verbinden.
Während des Trainings werden die Eingaben dem Reservoir zugeführt und eine Lehrerausgabe wird an die Ausgabeeinheiten angelegt. Die Reservoirzustände werden über die Zeit erfasst und gespeichert. Sobald alle Trainingseingaben angewendet wurden, kann eine einfache Anwendung der linearen Regression zwischen den erfassten Reservoirzuständen und den Zielausgaben verwendet werden. Diese Ausgabegewichte können dann in das vorhandene Netzwerk integriert und für neuartige Eingaben verwendet werden.
Die Idee ist, dass die spärlichen zufälligen Verbindungen im Reservoir es früheren Zuständen ermöglichen, auch nach ihrem Durchgang "Echo" zu erzeugen, sodass die Dynamik im Reservoir einsetzt, wenn das Netzwerk eine neuartige Eingabe empfängt, die etwas ähnelt, auf das es trainiert hat Folgen Sie dem Aktivierungsverlauf, der für die Eingabe geeignet ist, und stellen Sie auf diese Weise ein passendes Signal für das Training bereit. Wenn es gut trainiert ist, kann es anhand der sinnvollen Aktivierungsverläufe verallgemeinern, was es bereits gesehen hat gegeben das Eingangssignal, das den Vorratsbehälter antreibt.
Der Vorteil dieses Ansatzes liegt in der unglaublich einfachen Trainingsprozedur, da die meisten Gewichte nur einmal und zufällig vergeben werden. Sie sind jedoch in der Lage, komplexe Dynamiken über die Zeit zu erfassen und Eigenschaften dynamischer Systeme zu modellieren. Die mit Abstand hilfreichsten Artikel, die ich zu ESN gefunden habe, sind:
Beide haben leicht verständliche Erklärungen, die mit dem Formalismus einhergehen, und hervorragende Ratschläge für die Erstellung einer Implementierung mit Anleitungen für die Auswahl geeigneter Parameterwerte.
UPDATE: Das Deep Learning-Buch von Goodfellow, Bengio und Courville enthält eine etwas detailliertere, aber immer noch nette Diskussion auf hoher Ebene über Echo State Networks. In Abschnitt 10.7 werden das Problem des verschwindenden (und explodierenden) Gradienten und die Schwierigkeiten beim Erlernen langfristiger Abhängigkeiten erörtert. Abschnitt 10.8 befasst sich mit Echo State Networks. Im Einzelnen wird erläutert, warum die Auswahl von Reservoirgewichten mit einem geeigneten Spektralradius von entscheidender Bedeutung ist. Zusammen mit den nichtlinearen Aktivierungseinheiten fördert dies die Stabilität und sorgt gleichzeitig für die Weitergabe von Informationen über die Zeit.