Gibt es ein Supervised-Learning-Problem, bei dem (tiefe) neuronale Netze offensichtlich keine anderen Methoden übertreffen konnten?

33

Ich habe gesehen, dass die Leute SVM und Kernel sehr genau unter die Lupe genommen haben und als Einsteiger in das maschinelle Lernen ziemlich interessant aussehen. Aber wenn wir erwarten, dass wir in Bezug auf (tiefes) neuronales Netzwerk fast immer eine überdurchschnittliche Lösung finden, was bedeutet es dann, in dieser Ära andere Methoden auszuprobieren?

Hier ist meine Einschränkung zu diesem Thema.

  1. Wir denken nur an Supervised-Learnings; Regression und Klassifikation.
  2. Die Lesbarkeit des Ergebnisses wird nicht gewertet. Es zählt nur die Genauigkeit des Supervised-Learning-Problems.
  3. Rechenaufwand wird nicht berücksichtigt.
  4. Ich sage nicht, dass andere Methoden nutzlos sind.
Robin
quelle
3
Gibt es Einschränkungen in Bezug auf die Menge der verfügbaren Trainingsdaten?
Jake Westfall
1
Ich habe es nicht geschafft, aber ich gehe davon aus, dass Sie ein neuronales Netzwerk nur schwer trainieren können, um z. B. eine Singulärwertzerlegung auf einer nicht trivial großen Matrix durchzuführen (z. B. Rang> 10).
Mehrdad
1
Google Übersetzer verwendet jetzt neuronale Netze und erzeugt jetzt merkwürdigere Fehler für einen brasilianischen Städtenamen, bei dem eine wörtliche Verwendung eines Wörterbuchs viel besser gewesen wäre
Henry,
Ich habe noch nie von Deep Learning für die Verwendung der Matrixergänzung gehört (obwohl die Verwendung der Matrixergänzung vor dem Deep Learning gängige Praxis ist). Sie könnten argumentieren, dass dies ein Problem mit den Rechenkosten sein könnte, aber es ist auch erwähnenswert, dass ich nicht weiß, ob alle Computer auf der Welt eine Vervollständigung der Deep-Learning-Matrix beispielsweise mit dem Netflix-Problem durchführen können.
Cliff AB
@CliffAB: (Zunge auf halber Wange ...) Es ist wahrscheinlich erwähnenswert, dass sie nicht in der Lage sein könnten, aber ich bin nicht sicher, ob Sie nicht wissen, ob sie dazu in der Lage sind;)
Mehrdad

Antworten:

31

Hier sind ein theoretischer und zwei praktische Gründe, warum jemand einen Nicht-DNN-Ansatz rational bevorzugen könnte.

  1. Das No-Free-Lunch-Theorem von Wolpert und Macready besagt

    Wir haben die NFL-Theoreme der zugehörigen Ergebnisse genannt, weil sie zeigen, dass sich ein Algorithmus, der bei einer bestimmten Klasse von Problemen eine gute Leistung erbringt, zwangsläufig mit einer verringerten Leistung bei allen verbleibenden Problemen bezahlt macht.

    Mit anderen Worten, kein einziger Algorithmus regiert sie alle. du musst benchmarken.

    Die offensichtliche Widerlegung hier ist , dass Sie in der Regel nicht um kümmern sich alle möglichen Probleme und tiefe Lernen scheint auf mehrere Klassen von Problemen gut zu arbeiten , dass die Menschen tun , kümmern uns um (zB Objekterkennung), und so ist es eine vernünftige erste / einzige Wahl für andere Anwendungen in diesen Domänen.

  2. Viele dieser sehr tiefen Netzwerke erfordern Tonnen von Daten sowie Tonnen von Berechnungen, um zu passen. Wenn Sie 500 Beispiele haben (sagen wir mal), wird ein Netzwerk mit zwanzig Schichten nie gut lernen, während es möglich sein könnte, ein viel einfacheres Modell anzupassen. Es gibt überraschend viele Probleme, bei denen es nicht möglich ist, eine Menge Daten zu sammeln. Auf der anderen Seite könnte man lernen, ein verwandtes Problem zu lösen (wenn mehr Daten verfügbar sind) und es mit etwas wie Transferlernen an die spezifische Aufgabe mit geringer Datenverfügbarkeit anpassen.

  3. Tiefe neuronale Netze können auch ungewöhnliche Fehlermodi aufweisen. Es gibt einige Veröffentlichungen, die zeigen, dass kaum vom Menschen wahrnehmbare Änderungen dazu führen können, dass ein Netzwerk ein Bild nicht mehr richtig klassifiziert , sondern falsch klassifiziert. (Siehe hier und das Begleitpapier von Szegedy et al.) Andere Ansätze robuster sein kann gegen diese: Es gibt Poisoning - Angriffe gegen SVM (zB diese von Biggio, Nelson und Laskov), aber die bei Zug passieren, anstatt Test Zeit. Im gegenteiligen Extrem sind Leistungsgrenzen für den Algorithmus für den nächsten Nachbarn bekannt (aber nicht großartig). In einigen Situationen sind Sie möglicherweise zufriedener mit einer geringeren Gesamtleistung und einem geringeren Katastrophenrisiko.

Matt Krause
quelle
Ich habe allem zugestimmt, was du sagst. Das Problem betrifft jedoch "ignorierte Rechenprobleme". Das heißt, das OP geht davon aus, dass Sie unendlich viele Samples und Rechenressourcen haben.
SmallChess
17
Unendliche Berechnung! = Unendliche Proben. Ich habe zum Beispiel Zugriff auf einen erstaunlich großen Cluster zur Datenverarbeitung. Die Laborexperimente, die wir durchführen, um einige dieser Daten tatsächlich zu erfassen, sind jedoch schwierig, langsam und zeitaufwendig (in der Größenordnung von Stunden bis Tagen für einen einzelnen Datenpunkt), und all die Berechnungen auf der Welt helfen dem nicht weiter .
Matt Krause
2
SVMs mit einem bestimmten Feature-Extraktor sind wahrscheinlich genauso anfällig für konträre Eingaben wie CNNs - es ist nur schwieriger, sie zu finden, da die Gradienten der Feature-Extraktionsebenen nicht leicht verfügbar sind.
Dougal
1
Ein aktuelles und interessantes Beispiel aus der Praxis für das Problem, das @MattKrause gibt, und ein Versuch, es mithilfe von Transferlernen zu umgehen, wird in Sim-to-Real-
Roboterlernen
@Dougal, ich frage mich auch, ob es wichtig ist, dass die DNN-Feature-Extraktoren gelernt werden, während die SVM-Features (normalerweise) handgemacht sind und Funktionen entsprechen, die Menschen bemerken. Ein Teil dessen, was das Panda-Beispiel so heimtückisch macht, ist der nicht wahrnehmbare Unterschied zwischen dem gegnerischen und dem regulären Beispiel.
Matt Krause
24

Irgendwo auf dieser Wiedergabeliste der Vorträge von Geoff Hinton (aus seinem Coursera-Kurs über neuronale Netze) gibt es einen Abschnitt, in dem er über zwei Klassen von Problemen spricht:

  1. Probleme, bei denen Lärm die Haupteigenschaft ist,
  2. Probleme, bei denen das Signal das Hauptmerkmal ist.

Ich erinnere mich an die Erklärung, dass in diesem letzteren Raum zwar neuronale Netze gedeihen, traditionelle statistische Methoden jedoch häufig besser für die ersteren geeignet sind. Die Analyse hochauflösender digitaler Fotografien von tatsächlichen Dingen in der Welt, einem Ort, an dem sich tiefe Faltungsnetze auszeichnen, macht letztere eindeutig aus.

Wenn andererseits Lärm das dominierende Merkmal ist, z. B. in einer medizinischen Fallkontrollstudie mit 50 Fällen und 50 Kontrollen, sind herkömmliche statistische Methoden möglicherweise besser für das Problem geeignet.

Wenn jemand das Video findet, kommentiere es bitte und ich aktualisiere es.

Ben Ogorek
quelle
Hervorragende Antwort. Genau deshalb wenden wir uns an vertieftes Lernen für Dinge, die wir bereits tun können (z. B. Bilder erkennen und Text schreiben), wenden uns aber möglicherweise an andere Modelle für Dinge, die möglicherweise intuitiv schwierig sind.
Mustafa S Eisa
Ich persönlich nehme diese Antwort in meinem größten Interesse. Vielen Dank für die Antwort.
Robin
13

Zwei linear perfektionierte korrelierte Variablen. Kann ein Tiefennetzwerk mit 1 Million versteckten Schichten und 2 Billionen Neutronen eine einfache lineare Regression schlagen?

BEARBEITET

Nach meiner Erfahrung ist die Probensammlung teurer als die Berechnung. Ich meine, wir können einfach einige Amazon-Instanzen anheuern, Deep Learning-Schulungen durchführen und einige Tage später zurückkehren. Die Kosten in meinem Bereich betragen ca. 200 USD. Die Kosten sind minimal. Meine Kollegen verdienen mehr als das an einem Tag.

Das Sammeln von Proben erfordert im Allgemeinen Domänenkenntnisse und spezielle Ausrüstungen. Deep Learning eignet sich nur für Probleme mit billigen und leicht zugänglichen Datenbeständen wie der Verarbeitung natürlicher Sprache, der Bildverarbeitung und allem, was Sie aus dem Internet entfernen können.

Kleinschach
quelle
1
Natürlich wird jede MLE-Methode Deep Learning unter der Bedingung übertreffen, dass das generierende Modell die Annahmen der MLE erfüllt . Dies geschieht jedoch niemals bei realen Daten oder zumindest bei interessanten Problemen (dh wenn das Ergebnis des Münzwurfs nicht vorhergesagt wird). Ich denke also, dass das OP nach Beispielen fragt, die reale Fragen von Interesse mit realen Daten beinhalten.
Cliff AB
Das ist eine sehr schöne Antwort. Sie haben eine sehr intuitive und realistische Sichtweise geboten. Ich danke dir sehr.
Robin