Verringern sich die Mängel neuronaler Netze?

8

Nachdem ich ungefähr ein halbes Jahr lang mit neuronalen Netzen gearbeitet habe, habe ich aus erster Hand erfahren, was oft als ihre Hauptnachteile bezeichnet wird, dh Überanpassung und Festhalten an lokalen Minima. Durch Hyperparameteroptimierung und einige neu erfundene Ansätze wurden diese jedoch für meine Szenarien überwunden. Aus meinen eigenen Experimenten:

  • Dropout scheint eine sehr gute Regularisierungsmethode zu sein (auch ein Pseudo-Ensembler?),
  • Die Chargennormalisierung erleichtert das Training und hält die Signalstärke über viele Ebenen hinweg konstant.
  • Adadelta erreicht durchweg sehr gute Optima

Ich habe neben meinen Experimenten mit neuronalen Netzen mit der Implementierung von SVM durch SciKit-Learns experimentiert, finde aber die Leistung im Vergleich sehr schlecht, selbst nachdem ich nach Hyperparametern gesucht habe. Mir ist klar, dass es unzählige andere Methoden gibt und dass SVMs als Unterklasse von NNs betrachtet werden können, aber immer noch.

Also zu meiner Frage:

Haben sich all die neueren Methoden, die für neuronale Netze erforscht wurden, langsam - oder werden sie - anderen Methoden "überlegen" gemacht? Neuronale Netze haben ihre Nachteile, wie auch andere, aber wurden diese Nachteile mit all den neuen Methoden zu einem Zustand der Bedeutungslosigkeit gemildert?

Mir ist klar, dass in Bezug auf die Modellkomplexität oft "weniger mehr ist", aber auch das kann für neuronale Netze entworfen werden. Die Idee "kein kostenloses Mittagessen" verbietet uns anzunehmen, dass ein Ansatz immer überlegen sein wird. Es ist nur so, dass meine eigenen Experimente - zusammen mit unzähligen Artikeln über großartige Leistungen verschiedener NNs - darauf hindeuten, dass es zumindest ein sehr billiges Mittagessen geben könnte.

Alexander C. Harrington
quelle
Husten kein kostenloses Mittagessen Theorem Husten
yters

Antworten:

5

Neuronale Netze haben auch andere Mängel.

  1. Das Trainieren eines neuronalen Netzwerks dauert viel länger und viel mehr Ressourcen als ein zufälliger Wald. Wenn Sie also schnelles Training benötigen oder ohnehin nur über begrenzte Ressourcen verfügen, sollten Sie sich wahrscheinlich nicht zuerst die neuronalen Netze ansehen. Die Bewertung eines trainierten tiefen NN kann auch viel teurer sein als konkurrierende Techniken.
  2. Der Aufwand für das Erlernen des Architekturens und Trainierens eines NN ist immer noch viel höher als bei konkurrierenden Methoden wie einer SVM. Leute, die gerade erst mit Data Science anfangen, sollten wahrscheinlich andere Techniken anwenden, um die Nuancen der Datenanpassung kennenzulernen, bevor sie sich auf neuronale Netze einlassen. Und obwohl einfache NNs mit nur einem oder zwei Hyperparametern häufig in vielen Data Science-Bibliotheken verfügbar sind, sind sie nicht besser als andere Techniken, also nur eine weitere ML-Black-Box-Technik.
  3. Obwohl wir große Fortschritte beim Verständnis der Magie neuronaler Netze erzielt haben, sind sie immer noch weniger zugänglich und sezierbar als die meisten konkurrierenden Methoden. Während NNs das Problem möglicherweise lösen, geben sie Ihnen möglicherweise nicht so viele Einblicke wie andere Techniken.

Ich freue mich darauf, was andere Leute hier zu sagen haben.

Mike Wise
quelle
Gute Punkte, obwohl einige der Leistungsprobleme durch GPUs gemildert werden können, denke ich. Darüber hinaus kann ich Keras wärmstens empfehlen, da es eine sehr einfache Komposition grundlegender MLPs ermöglicht. Obwohl es, wie Sie sagen, bei Verwendung einer Bibliothek auf sehr hoher Ebene wie SciKit Learn schwierig ist, eine gute Leistung zu erzielen, da die Hyperparameter etwas zu oberflächlich sind und einige der neueren Methoden nicht bieten.
Alexander C. Harrington
Ja, aber selbst mit einer großen Anzahl von GPUs sind sie immer noch viel langsamer als konkurrierende Techniken. DNN-Schulungen sind sehr umfangreich. Ich arbeite an Projekten in einem sehr großen Technologieunternehmen, in denen routinemäßig über Tage der Schulung von DNNs in sehr großen GPU-Clustern gesprochen wird, die sich ausschließlich diesen Aufgaben widmen. Sie sehen diese Art der Berechnung nicht für zufällige forstbasierte Algorithmen AFAIK.
Mike Wise
Aha. Aber ich denke, dies ist im Austausch für eine weit überlegene Leistung von DNNs? Oder vielleicht die Marge, die den Unterschied macht?
Alexander C. Harrington
Nun, wir wissen, dass DNNs möglicherweise zur Intelligenz auf menschlicher Ebene fähig sind :) - obwohl wir noch nicht genau wissen, wie. Konkret wissen wir heute, dass sie uns die besten Ergebnisse für Aufgaben wie komplexe Bilderkennung, Dekodierung von Ton, Absichtsschluss in einem Gespräch und einige andere liefern.
Mike Wise
3

Nur um das zu ergänzen, was in der brillanten Antwort von @ MikeWise gesagt wurde:

  • Wenn alle Dinge gleich sind, haben Deep-Learning-Modelle im Vergleich zu anderen Algorithmen mit zunehmender Größe des Datensatzes im Allgemeinen den höchsten Rang:

    warum tiefes Lernen

  • Wie alles läuft alles auf den vorliegenden Datensatz hinaus. Neuronale Netze sind in anderen Datensätzen gut, aber gleichzeitig sind sie in anderen Datensätzen schlecht. Wenn es um unstrukturierte Probleme geht (z. B. Bild, Text, Ton ), scheinen derzeit neuronale Netze der beste Algorithmus zu sein. Wenn es jedoch um strukturierte Daten geht, zeigt ein schneller Scan der Art von Algorithmus, mit dem Online-Wettbewerbe im Bereich Data Science gewonnen werden , dass die sogenannten Algorithmen für maschinelles Lernen wie XGboost an oberster Stelle stehen.

  • Bei anderen Modellen spielt das Feature-Engineering eine große Rolle für die Effizienz des Algorithmus. Feature Engineering ist im Allgemeinen eine schwierige Sache, um es richtig zu machen. Deep-Learning-Algorithmen erfordern im Vergleich zu anderen Algorithmen nicht so viel Feature-Engineering (wenn überhaupt), sondern lernen Features selbst .

  • Wenn die Google-Leute sagen, dass sie kein tiefes Lernen gesehen haben, wer soll dann die Möglichkeit ausschließen, dass ein sogenannter Algorithmus für maschinelles Lernen herauskommt und die Welt im Sturm erobert?

  • Hier ist eine Umfrage darüber, was Datenwissenschaftler gesagt haben, als sie gefragt wurden: Ob Deep Learning dem Hype in der realen Anwendung entspricht? .

  • Selbst einige der beliebten Deep-Learning-Anwendungen wie Googles AlphaGo sind nicht zu 100% Deep-Learning , sondern zum Teil Deep-Learning, zum Teil gutes altes "maschinelles Lernen". Mein 2 Cent ist, vielleicht sollten wir andere Algorithmen für maschinelles Lernen noch nicht ausschließen.

Tshilidzi Mudau
quelle
1
Alles gute Punkte. Netter Post.
Mike Wise