Ich habe mehr als ein Jahr lang über das Paradigma der extremen Lernmaschine (Extreme Learning Machine, ELM) nachgedacht, es implementiert und verwendet. Je länger ich es tue, desto mehr bezweifle ich, dass es wirklich eine gute Sache ist. Meine Meinung scheint jedoch im Gegensatz zur wissenschaftlichen Gemeinschaft zu stehen, wo es - wenn man Zitate und neue Veröffentlichungen als Maß verwendet - ein heißes Thema zu sein scheint.
Das ELM wurde von Huang et. al. Die zugrunde liegende Idee ist ziemlich einfach: Beginnen Sie mit einem 2-schichtigen künstlichen neuronalen Netzwerk und ordnen Sie die Koeffizienten in der ersten Schicht zufällig zu. Damit transformiert man das nichtlineare Optimierungsproblem, das üblicherweise über Backpropagation behandelt wird, in ein einfaches lineares Regressionsproblem. Genauer gesagt, für ist das Modell
Nun werden nur die angepasst (um den quadratischen Fehlerverlust zu minimieren), während die zufällig ausgewählt werden. Als Ausgleich für den Verlust an Freiheitsgraden wird üblicherweise vorgeschlagen, eine größere Anzahl versteckter Knoten (dh freie Parameter ) zu verwenden.v i k w i
Aus einer anderen Perspektive (nicht die, in der Regel in der Literatur gefördert werden , die ich aus der neuronalen Netz Seite kommt), das gesamte Verfahren ist einfach lineare Regression, sondern ein , wo Sie Ihre Basisfunktionen wählen zufällig, zum Beispiel
(Für die Zufallsfunktionen sind neben dem Sigmoid viele andere Optionen möglich. Beispielsweise wurde dasselbe Prinzip auch für radiale Basisfunktionen angewendet.)
Unter diesem Gesichtspunkt wird die gesamte Methode fast zu simpel, und dies ist auch der Punkt, an dem ich anfange zu bezweifeln, dass die Methode wirklich gut ist (... obwohl das wissenschaftliche Marketing dies sicherlich ist). Also, hier sind meine Fragen:
Die Idee, den Eingaberaum mit zufälligen Basisfunktionen zu rastern, ist meiner Meinung nach gut für niedrige Dimensionen. In großen Dimensionen denke ich, ist es einfach nicht möglich, eine gute Auswahl durch Zufallsauswahl mit einer angemessenen Anzahl von Basisfunktionen zu finden. Verschlechtert sich das ELM daher in hohen Dimensionen (aufgrund des Fluchs der Dimensionalität)?
Kennen Sie experimentelle Ergebnisse, die diese Meinung stützen / widersprechen? In dem verlinkten Artikel gibt es nur einen 27-dimensionalen Regressionsdatensatz (PYRIM), in dem die Methode ähnlich wie SVMs abläuft (wobei ich mir einen Vergleich mit einem Backpropagation-ANN eher wünschen würde).
Generell möchte ich hier Ihre Anmerkungen zur ELM-Methode machen.
quelle
Antworten:
Ihre Intuition über die Verwendung von ELM für hochdimensionale Probleme ist richtig. Ich habe einige Ergebnisse dazu, die ich für die Veröffentlichung vorbereite. Bei vielen praktischen Problemen sind die Daten nicht sehr nichtlinear, und das ELM funktioniert recht gut. Es wird jedoch immer Datensätze geben, bei denen der Fluch der Dimensionalität bedeutet, dass die Chance, eine gute Basisfunktion mit Krümmung zu finden, genau dort besteht, wo Sie sie benötigen klein, auch mit vielen Basisvektoren.
Ich persönlich würde so etwas wie eine Vektormaschine zur Unterstützung kleinster Quadrate (oder ein radiales Basisfunktionsnetzwerk) verwenden und versuchen, die Basisvektoren aus denen im Trainingssatz auf gierige Weise auszuwählen (siehe z. B. meine Arbeit , aber es gab andere / bessere) Ansätze, die etwa zeitgleich veröffentlicht wurden, zB im sehr guten Buch von Scholkopf und Smola zum Thema "Lernen mit Kernen"). Ich denke, es ist besser, eine ungefähre Lösung für das genaue Problem zu berechnen, als eine genaue Lösung für ein ungefähres Problem, und Kernel-Maschinen haben eine bessere theoretische Grundlage (für einen festen Kernel; o).
quelle
Das ELM "lernt" aus den Daten, indem es die Ausgangsgewichte analytisch auflöst. Je größer die Daten sind, die in das Netzwerk eingespeist werden, desto bessere Ergebnisse werden erzielt. Dies erfordert jedoch auch mehr versteckte Knoten. Wenn das ELM mit wenig oder gar keinem Fehler trainiert wird, wenn ein neuer Satz von Eingaben gegeben wird, kann es nicht die richtige Ausgabe erzeugen.
Der Hauptvorteil von ELM gegenüber einem herkömmlichen neuronalen Netz wie einer solchen Rückübertragung ist seine schnelle Trainingszeit. Die meiste Rechenzeit wird für das Lösen des Ausgangsschichtgewichts aufgewendet, wie in Huang-Papier erwähnt.
quelle