Ich habe gesehen, dass die Leute SVM und Kernel sehr genau unter die Lupe genommen haben und als Einsteiger in das maschinelle Lernen ziemlich interessant aussehen. Aber wenn wir erwarten, dass wir in Bezug auf (tiefes) neuronales Netzwerk fast immer eine überdurchschnittliche Lösung finden, was bedeutet es dann, in dieser Ära andere Methoden auszuprobieren?
Hier ist meine Einschränkung zu diesem Thema.
- Wir denken nur an Supervised-Learnings; Regression und Klassifikation.
- Die Lesbarkeit des Ergebnisses wird nicht gewertet. Es zählt nur die Genauigkeit des Supervised-Learning-Problems.
- Rechenaufwand wird nicht berücksichtigt.
- Ich sage nicht, dass andere Methoden nutzlos sind.
Antworten:
Hier sind ein theoretischer und zwei praktische Gründe, warum jemand einen Nicht-DNN-Ansatz rational bevorzugen könnte.
Das No-Free-Lunch-Theorem von Wolpert und Macready besagt
Mit anderen Worten, kein einziger Algorithmus regiert sie alle. du musst benchmarken.
Die offensichtliche Widerlegung hier ist , dass Sie in der Regel nicht um kümmern sich alle möglichen Probleme und tiefe Lernen scheint auf mehrere Klassen von Problemen gut zu arbeiten , dass die Menschen tun , kümmern uns um (zB Objekterkennung), und so ist es eine vernünftige erste / einzige Wahl für andere Anwendungen in diesen Domänen.
Viele dieser sehr tiefen Netzwerke erfordern Tonnen von Daten sowie Tonnen von Berechnungen, um zu passen. Wenn Sie 500 Beispiele haben (sagen wir mal), wird ein Netzwerk mit zwanzig Schichten nie gut lernen, während es möglich sein könnte, ein viel einfacheres Modell anzupassen. Es gibt überraschend viele Probleme, bei denen es nicht möglich ist, eine Menge Daten zu sammeln. Auf der anderen Seite könnte man lernen, ein verwandtes Problem zu lösen (wenn mehr Daten verfügbar sind) und es mit etwas wie Transferlernen an die spezifische Aufgabe mit geringer Datenverfügbarkeit anpassen.
Tiefe neuronale Netze können auch ungewöhnliche Fehlermodi aufweisen. Es gibt einige Veröffentlichungen, die zeigen, dass kaum vom Menschen wahrnehmbare Änderungen dazu führen können, dass ein Netzwerk ein Bild nicht mehr richtig klassifiziert , sondern falsch klassifiziert. (Siehe hier und das Begleitpapier von Szegedy et al.) Andere Ansätze robuster sein kann gegen diese: Es gibt Poisoning - Angriffe gegen SVM (zB diese von Biggio, Nelson und Laskov), aber die bei Zug passieren, anstatt Test Zeit. Im gegenteiligen Extrem sind Leistungsgrenzen für den Algorithmus für den nächsten Nachbarn bekannt (aber nicht großartig). In einigen Situationen sind Sie möglicherweise zufriedener mit einer geringeren Gesamtleistung und einem geringeren Katastrophenrisiko.
quelle
Irgendwo auf dieser Wiedergabeliste der Vorträge von Geoff Hinton (aus seinem Coursera-Kurs über neuronale Netze) gibt es einen Abschnitt, in dem er über zwei Klassen von Problemen spricht:
Ich erinnere mich an die Erklärung, dass in diesem letzteren Raum zwar neuronale Netze gedeihen, traditionelle statistische Methoden jedoch häufig besser für die ersteren geeignet sind. Die Analyse hochauflösender digitaler Fotografien von tatsächlichen Dingen in der Welt, einem Ort, an dem sich tiefe Faltungsnetze auszeichnen, macht letztere eindeutig aus.
Wenn andererseits Lärm das dominierende Merkmal ist, z. B. in einer medizinischen Fallkontrollstudie mit 50 Fällen und 50 Kontrollen, sind herkömmliche statistische Methoden möglicherweise besser für das Problem geeignet.
Wenn jemand das Video findet, kommentiere es bitte und ich aktualisiere es.
quelle
Zwei linear perfektionierte korrelierte Variablen. Kann ein Tiefennetzwerk mit 1 Million versteckten Schichten und 2 Billionen Neutronen eine einfache lineare Regression schlagen?
BEARBEITET
Nach meiner Erfahrung ist die Probensammlung teurer als die Berechnung. Ich meine, wir können einfach einige Amazon-Instanzen anheuern, Deep Learning-Schulungen durchführen und einige Tage später zurückkehren. Die Kosten in meinem Bereich betragen ca. 200 USD. Die Kosten sind minimal. Meine Kollegen verdienen mehr als das an einem Tag.
Das Sammeln von Proben erfordert im Allgemeinen Domänenkenntnisse und spezielle Ausrüstungen. Deep Learning eignet sich nur für Probleme mit billigen und leicht zugänglichen Datenbeständen wie der Verarbeitung natürlicher Sprache, der Bildverarbeitung und allem, was Sie aus dem Internet entfernen können.
quelle