Warum nicht einfach die neuronalen Netze entleeren und tiefes Lernen? [geschlossen]

25

Grundlegendes Problem mit Deep Learning und neuronalen Netzen im Allgemeinen.

  1. Die Lösungen, die zu den Trainingsdaten passen, sind unendlich. Wir haben keine präzise mathematische Gleichung, die nur von einer einzigen erfüllt wird und die wir am besten verallgemeinern können. Einfach gesagt, wir wissen nicht, welche Verallgemeinerungen am besten sind.

  2. Das Optimieren von Gewichten ist kein konvexes Problem, daher wissen wir nie, dass wir am Ende ein globales oder lokales Minimum haben.

Warum also nicht einfach die neuronalen Netze auslagern und stattdessen nach einem besseren ML-Modell suchen? Etwas, das wir verstehen und das mit einer Reihe mathematischer Gleichungen übereinstimmt? Linear und SVM haben diese mathematischen Nachteile nicht und stimmen voll und ganz mit einem Satz mathematischer Gleichungen überein. Warum nicht einfach auf der gleichen Linie denken (aber nicht linear sein müssen) und ein neues ML-Modell entwickeln, das besser ist als Linear und SVM sowie neuronale Netze und Deep Learning?

Rajesh Dachiraju
quelle
37
Wenn Sie es finden, werden die Leute.
Matthew Drury
23
"Warum nicht mit ... kommen?" Sie werden nicht glauben, wie viele Forscher genau das versuchen! Bisher haben sie einfach noch keinen Erfolg gehabt.
Kilian Foth
31
"Alle Modelle sind falsch, aber einige sind nützlich" und nns sind sicherlich nützlich.
Josh
15
@ RajeshDachiraju - es ist eine alte Redewendung, aber ich war vielleicht ein bisschen vage. Sie haben gefragt, warum Sie NNs nicht wegwerfen, weil sie nicht perfekt sind. Meine Antwort ist, dass sie nicht perfekt sind, aber sie sind nützlich. Die Leute benutzen sie, um Autos zu fahren, Fremdsprachen zu übersetzen, Videos zu markieren, Wale zu schützen und sogar, um diese verrückten Snapchat-Filter mit Eselsohren auf Ihre Fotos anzuwenden! zB funktionieren sie, also benutzen wir sie weiter :)
Josh
13
Sie wissen auch, was falsch ist: Newtonsche Mechanik. Quantenmechanik. Relativität. Die ganze Physik ist falsch (es gibt kein einziges Modell, das alles beschreibt, alle haben ihre Fehler). Die Chemie ist bei so vielen Dingen völlig falsch (die Beschreibung eines Atoms ist immer nur eine gute Annäherung, aber niemals exakt). Das einzig wahre auf der Welt ist Mathe. Reine Mathematik. Alles andere kommt der richtigen Antwort sehr nahe. Sollen wir den Rest wegwerfen? (Ausgehend von Ihrem Computer, der mit falschen Gesetzen gebaut wurde?). Nein. Nochmals: Alle Modelle sind falsch, aber einige sind nützlich.
Mayou36

Antworten:

48
  1. Es ist ein Problem, nicht zu wissen, welche Lösung am besten verallgemeinert, aber es sollte uns nicht davon abhalten, eine gute Lösung anderweitig zu verwenden. Die Menschen selbst wissen oft nicht, was am besten verallgemeinert werden kann (z. B. wenn man konkurrierende Theorien der Physik betrachtet), aber das bereitet uns nicht allzu viele Probleme.

  2. Es hat sich gezeigt, dass es äußerst selten vorkommt, dass das Training aufgrund lokaler Mindestanforderungen fehlschlägt. Die meisten lokalen Minima in einem tiefen neuronalen Netzwerk haben einen ähnlichen Wert wie das globale Minimum, daher ist dies kein Problem. Quelle

Die allgemeinere Antwort lautet jedoch, dass Sie den ganzen Tag über Nichtkonvexität und Modellauswahl sprechen können und die Leute neuronale Netze weiterhin verwenden, nur weil sie besser funktionieren als alles andere (zumindest bei Dingen wie der Bildklassifizierung).

Natürlich gibt es auch Leute, die argumentieren, wir sollten uns nicht zu sehr auf CNNs konzentrieren, so wie die Community sich vor einigen Jahrzehnten auf SVMs konzentriert hat, und stattdessen weiter nach der nächsten großen Sache suchen. Insbesondere erinnere ich mich, dass Hinton die Wirksamkeit von CNNs als etwas bedauert hat, das die Forschung behindern könnte. verwandter Beitrag

shimao
quelle
1
Besonders gut gefällt mir der letzte Absatz.
Rajesh Dachiraju
10
Haben Sie ein Zitat für Punkt 2?
DrMcCleod
@ DrMcCleod: Punkt 2 sieht für mich eher nach Jingoismus aus. Nur im leichteren Sinne.
Rajesh Dachiraju
6
@DrMcCleod Es gibt eine Menge Arbeit, die darauf hindeutet, dass lokale Minima den globalen Minima sehr nahe kommen und dass Sattelpunkte stattdessen das Problem sind. In diesem Artikel werden Sattelpunkte erörtert, und in diesem Artikel wird erläutert, warum lokale Minima nicht unbedingt schlecht sind.
jld
1
Ich würde wohl nur ein Theater bevorzugen. Aber nehmen wir an, ich weiß, dass ich fast so viel Spaß an jedem Film haben werde wie an dem Film, den ich wirklich sehen möchte. Dann werde ich nicht enttäuscht sein, wenn es 10 Theater gibt, und ich muss eines nach dem Zufallsprinzip auswählen, weil ich weiß, dass jedes Theater und jeder Film mich zufrieden stellen wird.
Shimao
14

Wie die Kommentare zu Ihrer Frage zeigen, arbeiten viele Menschen daran, etwas Besseres zu finden. Ich möchte diese Frage jedoch beantworten, indem ich den Kommentar von @josh erweitere


Alle Modelle sind falsch, aber einige sind nützlich (Wiki)

Die obige Aussage ist eine allgemeine Wahrheit, die verwendet wird, um die Natur statistischer Modelle zu beschreiben. Anhand der verfügbaren Daten können wir Modelle erstellen, mit denen wir nützliche Dinge tun können, z. B. einen prognostizierten Wert approximieren.

Nehmen Sie zum Beispiel lineare Regression

Unter Verwendung einer Reihe von Beobachtungen können wir ein Modell anpassen, um einen ungefähren Wert für eine abhängige Variable zu erhalten, wenn alle Werte für die unabhängige (n) Variable (n) gegeben sind.

Burnham, KP; Anderson, DR (2002), Modellauswahl und Multimodell> Inferenz: Ein praktischer informationstheoretischer Ansatz (2. Aufl.):

"Ein Modell ist eine Vereinfachung oder Annäherung an die Realität und wird daher nicht die gesamte Realität widerspiegeln." von sehr nützlich bis nützlich, von etwas nützlich bis letztendlich im Wesentlichen nutzlos eingestuft werden. "

Abweichungen von unserem Modell (wie im Bild oben zu sehen) erscheinen zufällig, einige Beobachtungen liegen unterhalb der Linie und einige oberhalb, aber unsere Regressionslinie zeigt eine allgemeine Korrelation. Während Abweichungen in unserem Modell zufällig erscheinen, spielen in realistischen Szenarien andere Faktoren eine Rolle, die diese Abweichung verursachen. Stellen Sie sich zum Beispiel vor, Sie beobachten Autos, wie sie durch eine Kreuzung fahren, an der sie entweder nach links oder rechts abbiegen müssen, um fortzufahren. Die Autos biegen in keinem bestimmten Muster ab. Während wir sagen können, dass die Richtung, in die die Autos abbiegen, völlig zufällig ist, erreicht jeder Fahrer die Kreuzung und trifft an diesem Punkt eine zufällige Entscheidung, in welche Richtung er abbiegen soll? In Wirklichkeit steuern sie wahrscheinlich aus einem bestimmten Grund an einen bestimmten Ort, und ohne zu versuchen, jedes Auto anzuhalten, um sie nach ihrer Begründung zu fragen, können wir ihre Handlungen nur als zufällig bezeichnen.

Wo wir in der Lage sind, ein Modell mit minimaler Abweichung anzupassen, wie sicher können wir dann sein, dass eine unbekannte, unbemerkte oder nicht messbare Variable unser Modell irgendwann nicht mehr wirft? Löst der Flügelschlag eines Schmetterlings in Brasilien einen Tornado in Texas aus?

Das Problem bei der Verwendung der von Ihnen erwähnten linearen und SVN-Modelle besteht darin, dass wir unsere Variablen manuell beobachten müssen und wie sie sich gegenseitig beeinflussen. Wir müssen dann entscheiden, welche Variablen wichtig sind, und einen aufgabenspezifischen Algorithmus schreiben. Dies kann einfach sein, wenn wir nur ein paar Variablen haben, aber was ist, wenn wir Tausende hatten? Was wäre, wenn wir ein verallgemeinertes Bilderkennungsmodell erstellen wollten, könnte dies mit diesem Ansatz realistisch erreicht werden?

Deep Learning und künstliche neuronale Netze (ANNs) können uns dabei helfen, nützliche Modelle für große Datenmengen mit einer großen Anzahl von Variablen (z. B. Bildbibliotheken) zu erstellen. Wie Sie bereits erwähnt haben, gibt es eine unverständliche Anzahl von Lösungen, die mit ANNs in die Daten passen könnten. Unterscheidet sich diese Anzahl jedoch wirklich von der Anzahl der Lösungen, die wir selbst durch Ausprobieren entwickeln müssten?

Die Anwendung von ANNs erledigt einen Großteil der Arbeit für uns. Wir können unsere Eingaben und gewünschten Ausgaben spezifizieren (und sie später optimieren, um Verbesserungen vorzunehmen) und es der ANN überlassen, die Lösung zu finden. Aus diesem Grund werden ANNs oft als "Black Boxes" bezeichnet . Ausgehend von einer bestimmten Eingabe geben sie eine Annäherung aus, jedoch enthalten diese Annäherungen (im Allgemeinen) keine Details darüber, wie sie angenähert wurden.

Es kommt also wirklich darauf an, welches Problem Sie lösen möchten, da das Problem bestimmt, welcher Modellansatz sinnvoller ist. Modelle sind nicht absolut genau und daher gibt es immer ein Element, bei dem man sich irrt. Je genauer Ihre Ergebnisse sind, desto nützlicher sind sie. Je nach Problem kann es sogar nützlicher sein, detailliertere Ergebnisse zu erhalten, als eine höhere Genauigkeit zu erzielen.

Wenn Sie beispielsweise einen Personenkredit-Score berechnen, können Sie mithilfe von Regression und SVMs Berechnungen durchführen, die besser untersucht werden können. Es ist sehr nützlich, das Modell direkt zu optimieren und den Kunden zu erklären, welche Auswirkungen separate unabhängige Variablen auf ihre Gesamtpunktzahl haben. Eine ANN kann bei der Verarbeitung größerer Mengen von Variablen helfen, um eine genauere Bewertung zu erzielen. Wäre diese Genauigkeit jedoch nützlicher?

Ätzend
quelle
6
Sie machen einige gute Punkte, aber die Tatsache, dass "in vielen Fällen unsere Beobachtungen und Vorhersagen nicht genau auf der richtigen Linie liegen", ist keine zutreffende Demonstration des Slogans "Alle Modelle sind falsch". In der linearen Regression modellieren wir E (Y | X) und Punkte, die nicht genau auf der Linie liegen, zeigen keinen Mangel in unserem Modell. Zufälligkeit wird vorausbestimmt und erwartet; Das Modell ist nicht "falsch", wenn wir Abweichungen von der angepassten Linie beobachten.
Klumbard
@klumbard Danke für den Kommentar. Ich habe meine Antwort mit mehr Details aktualisiert, was meine Argumentation dahinter erklärt, indem ich dies als Beispiel benutze. Ich habe in meiner Antwort einen philosophischeren Ansatz gewählt und eher allgemein als spezifisch gesprochen. Dies ist mein erster Beitrag in dieser Community, also entschuldige mich, wenn dies nicht der richtige Ort ist. Sie scheinen über die Einzelheiten Bescheid zu wissen. Können Sie Ihren Kommentar etwas näher erläutern? Die Frage, die ich habe, ist, wo Abweichungen keine Mängel aufzeigen, ist ein Regressionsmodell mit einem R-Quadrat von 0,01 auch nicht "falsch"?
Carrosive
2
Mein einziges Problem bei Ihrem Beitrag ist die Art und Weise, wie Sie sagen: "... da unsere Beobachtungen und Vorhersagen in vielen Fällen nicht genau auf der angepassten Linie liegen. Dies ist eine Art und Weise, in der unser Modell häufig" falsch "ist ..." . Ich sage nur, dass die Spezifikation des Modells einen Fehlerterm enthält, und dass die beobachteten Daten (allein) nicht auf die angepasste Linie fallen, bedeutet nicht, dass das Modell "falsch" ist. Dies mag wie eine subtile semantische Unterscheidung erscheinen, aber ich denke, es ist wichtig
klumbard
1
Der hervorstechende Punkt, den Sie ansprechen, ist, dass alle Modelle falsch sind, weil die variable Verzerrung weggelassen wurde und die funktionale Form falsch spezifiziert wurde. Jedes Mal, wenn Sie ein Regressionsmodell aufschreiben und Rückschlüsse auf die Schätzungen ziehen, gehen Sie davon aus, dass Sie das Modell korrekt angegeben haben, was niemals der Fall ist.
Klumbard
1
@klumbard Oh, ich kann sehen, woher du kommst. Obwohl das Modell Schätzungen liefert, die wahrscheinlich nicht vollständig genau sind, können wir den Fehlerausdruck messen, um festzustellen, um wie viel die tatsächlichen Werte von den Schätzungen abweichen können, und daher wäre es falsch zu sagen, dass das Modell von Natur aus falsch ist. Ich werde diesen Teil aus meiner Antwort herausnehmen. Ich denke, mein Punkt wird in dem Teil, den ich danach hinzugefügt habe, besser erklärt. Vielen Dank für die Erklärung :)
Carrosive
8

Das globale Minimum kann genauso gut nutzlos sein, also ist es uns egal, ob wir es finden oder nicht. Der Grund ist, dass für tiefe NetzwerkeNicht nur die Zeit zum Auffinden wird mit zunehmender Netzwerkgröße exponentiell länger, sondern auch das globale Minimum entspricht häufig einer Überanpassung des Trainingssatzes. Dadurch würde die Verallgemeinerungsfähigkeit des DNN (die uns wirklich am Herzen liegt) leiden. Außerdem bevorzugen wir oft flachere Minima, die einem höheren Wert der Verlustfunktion entsprechen, als schärfere Minima, die einem niedrigeren Wert der Verlustfunktion entsprechen, da die zweite sehr schlecht mit Unsicherheiten in den Eingaben umgehen wird. Dies wird mit der Entwicklung des Bayesian Deep Learning immer deutlicher. Robuste Optimierung schlägt deterministische Optimierung sehr oft, wenn sie auf Probleme der realen Welt angewendet wird, bei denen Unsicherheit wichtig ist.

Schließlich ist es eine Tatsache, dass DNNs Methoden wie XGBoost bei der Bildklassifizierung und NLP in den Hintern treten. Ein Unternehmen, das mit der Image-Klassifizierung Gewinne erzielen muss, wählt sie korrekt als Modelle aus, die in der Produktion eingesetzt werden sollen ( und investiert einen erheblichen Betrag in Feature-Engineering, Daten-Pipeline usw., aber ich schweife ab). Dies bedeutet nicht, dass sie die gesamte ML-Umgebung dominieren: Beispielsweise schneiden sie bei strukturierten Daten schlechter ab als XGBoost (siehe die letzten Gewinner von Kaggle-Wettbewerben), und sie scheinen sich bei der Zeitreihenmodellierung noch nicht so gut zu behaupten wie Partikelfilter. Einige sehr neue Innovationen bei RNNs können diese Situation jedoch ändern.

DeltaIV
quelle
2
"Ja wirklich?" Eine Gegenstimme? Das ist ein bisschen unangebracht. Es ist eine vernünftige Antwort (+1).
usεr11852 sagt Reinstate Monic
5
@ RajeshDachiraju, da Sie anscheinend versuchen, abzuleiten, was mir bewusst wäre oder nicht, wären Sie wahrscheinlich daran interessiert zu erfahren, dass Menschen mit einem wesentlich besseren Verständnis für neuronale Netze und nicht konvexer Optimierung, über die Sie scheinbar routinemäßig sprechen ein einzelnes globales Minimum für neuronale Netze. Unter den vielen Papieren, die diese Terminologie verwenden, können Sie versuchen, diese zu lesen und herauszufinden, wo Sie sich irren.
DeltaIV
2
@ RajeshDachiraju: Vielen Dank für die Erklärung Ihrer Argumentation, viele Leute würden sich einfach nicht darum kümmern. Abgesehen davon denke ich, dass Ihre Argumentation dafür fehlerhaft ist und darauf zurückzuführen ist, dass Sie eine ganz bestimmte Phrase falsch interpretiert haben. Ich stimme DeltaIV zu, dass diese Standardterminologie.
usεr11852 sagt Reinstate Monic
1
@ DeltaIV: Mein Punkt ist, dass es mehrere Gewichtsvektoren geben könnte, die keinen Verlust an Trainingsdaten haben (natürlich Architektur konstant halten). Der ganze Sinn des Trainings ist es, den Gewichtsvektor zu erhalten, wenn nicht? Also stimme ich dir nicht zu. Einer dieser Gewichtsvektoren ist äußerst nützlich. Aber ich bitte Sie, sich damit einverstanden zu erklären, dass Sie dieser Konversation nicht zustimmen und sie hier beenden möchten. Grüße Rajesh
Rajesh Dachiraju
1
@RajeshDachiraju Ja, es kann sein, dass sie alle gleichermaßen nutzlos / uninteressant sind, weil sie einer Überanpassung des Trainingssatzes mit sehr geringen Verallgemeinerungskraft entsprechen, wenn überhaupt. Ich schlage wirklich vor, dass Sie den Artikel lesen, auf den ich bereits verwiesen habe, was sehr gut erklärt, warum es uns bei der Verwendung von NN wirklich egal ist, wie hoch der globale Mindestwert für die Trainingsmenge der Verlustfunktion ist. Auch einiges Material zur Verhinderung einer Überanpassung in NNs kann nützlich sein.
DeltaIV
7

Ich denke, der beste Weg, um über diese Frage nachzudenken, ist der Wettbewerb auf dem Markt. Wenn Sie Deep Learning aufgeben und Ihre Konkurrenten es verwenden UND es zufällig besser funktioniert als das, was Sie verwendet haben, werden Sie auf dem Markt geschlagen.

Ich denke, das ist es, was zum Teil heute passiert, dh Deep Learning scheint bei den vielen Problemen auf dem Markt besser zu funktionieren als alles andere. Beispielsweise sind Online- Sprachübersetzer, die Deep Learning verwenden, besser als die zuvor verwendeten rein sprachlichen Ansätze. Noch vor ein paar Jahren war dies nicht der Fall, aber Fortschritte beim Deep Learning brachten diejenigen, die es gewohnt waren, in die Führungspositionen auf dem Markt.

Ich wiederhole immer wieder "den Markt", denn das ist es, was den gegenwärtigen Anstieg des tiefen Lernens antreibt. In dem Moment, in dem das Geschäft etwas Nützliches findet, wird sich etwas ausbreiten. Es ist nicht so , dass wir , das Komitee, entschieden hätten, dass Deep Learning populär sein sollte. Es ist Geschäft und Wettbewerb.

Der zweite Teil ist, dass es neben dem tatsächlichen Erfolg von ML auch Angst gibt, das Boot zu verpassen. Viele Unternehmen sind paranoid, dass sie als Unternehmen scheitern, wenn sie die KI verpassen. Diese Befürchtung wird von all diesen Beratungsunternehmen, Gartners usw. genährt , die den CEOs zuflüstern, dass sie KI machen oder morgen sterben müssen.

Niemand zwingt Unternehmen, Deep Learning anzuwenden. IT und F & E freuen sich über ein neues Spielzeug. Academia jubelt, also wird diese Party so lange dauern, bis die Musik aufhört, dh bis das tiefe Lernen aufhört zu liefern. In der Zwischenzeit können Sie es ablegen und eine bessere Lösung finden.

Aksakal
quelle
Was ist mit der akademischen Forschungsförderung? Können Sie bitte etwas Licht ins Dunkel bringen?
Rajesh Dachiraju
2
Ein Großteil der Mittel kommt aus der Industrie. Die Professoren, die das meiste Geld von der Industrie bekommen, sind diejenigen, die den größten Einfluss auf die Wissenschaft ausüben. Die Universitäten nehmen den Firmen einen riesigen Teil ihres Geldes ab und lieben diese Professoren. Wenn Sie diesen NYT-Artikel lesen , können Sie sich einen Eindruck von der Raserei in Wissenschaft und Industrie
verschaffen
Sehr guter Bezug zum Markt (+1): Ich habe dasselbe gesagt ("Ein Unternehmen, das mit der Klassifizierung von Bildern Gewinne erzielen muss, wählt sie korrekt als Modelle aus, die in der Produktion eingesetzt werden sollen"). Allerdings würde ich der Paranoia nicht zustimmen. Es ist eine Tatsache (keine Paranoia), dass Waymo bereit ist, Tesla, Audi und einen anderen Autohersteller zu schlagen, an dessen Namen ich mich jetzt nicht mehr erinnern kann, und dies ist zum großen Teil auf die enormen Investitionen von Google in Deep Learning zurückzuführen. Audi hätte definitiv SIFT und SURF (gut getestete
Bildverarbeitungstechnologien,
... wollte. Die Überlegenheit von DL in Bezug auf SIFT, SURF und andere geometriebasierte Methoden bei der Bildklassifizierung wird durch fünf Jahre solide akademische und industrielle Forschung bestätigt. Es ist definitiv kein Allheilmittel (siehe IBM Watsons Fehler), und es gibt einige Hype, aber es gibt auch harte, kalte Fakten.
DeltaIV
2
@ DeltaIV ML funktioniert definitiv in einigen Anwendungen, aber ich denke, dass die heutige weit verbreitete Akzeptanz in hohem Maße auf Paranoia und Hype zurückzuführen ist. Ob es funktioniert oder nicht, CTOs werden es einfach versuchen. Ich habe Freunde, die noch vor einem Jahr keine Ahnung hatten, wovon ich sprach. Jetzt sagen sie, dass AI die Zukunft ist, sie werden mit Implementierungen beginnen usw.
Aksakal,
4

Es gibt ausgezeichnete Antworten, die sich hauptsächlich auf die Nützlichkeit von DL und ANN beziehen. Aber ich möchte das OP auf grundlegendere Weise beanstanden, da die Frage die mathematische Inkonsistenz neuronaler Netze bereits als selbstverständlich ansieht.

Zuallererst gibt es eine mathematische Theorie hinter (den meisten Modellen von) neuronalen Netzen. Sie könnten auch argumentieren, dass die lineare Regression nicht verallgemeinert wird, es sei denn, das zugrunde liegende Modell ist ... nun, linear. In neuronalen Algorithmen wird ein Modell angenommen (auch wenn nicht explizit) und der Anpassungsfehler berechnet. Die Tatsache, dass Algorithmen mit verschiedenen Heuristiken modifiziert werden, macht die ursprüngliche mathematische Unterstützung nicht ungültig. Übrigens ist die lokale Optimierung auch eine mathematisch konsistente, geschweige denn nützliche Theorie.

Wenn neuronale Netze nur eine Klasse von Methoden innerhalb der gesamten Toolbox von Wissenschaftlern darstellen, welche Linie unterscheidet neuronale Netze von den übrigen Techniken? Tatsächlich galten SVMs früher als eine Klasse von NNs und erscheinen immer noch in denselben Büchern. Andererseits könnten NNs als (nichtlineare) Regressionstechnik angesehen werden, möglicherweise mit einer gewissen Vereinfachung. Ich stimme dem OP zu, dass wir nach besseren, fundierten und effizienten Algorithmen suchen müssen, unabhängig davon, ob Sie sie als NNs bezeichnen oder nicht.

Miguel
quelle
Das Problem mit der Inkonsistenz ist, dass man keine einfachen Fragen stellen kann wie: Wann sollte man aufhören zu trainieren und aufgeben? Viele Gerüchte wie "Dropot", "Weight Decay", "ReLu" und verschiedene Aktivierungen, Batch-Normalisierung, maximales Pooling, Softmax, frühzeitiges Stoppen, verschiedene Lernraten-Zeitpläne und alle Permutationen und Kombinationen davon lassen den Designer immer im Zweifel bleiben ob man irgendwann aufgibt oder nicht.
Rajesh Dachiraju
1
@RajeshDachiraju Dasselbe gilt für Strafkoeffizienten in Algorithmen zur Optimierung äußerer Punkte oder für die Schrittgröße in Runge-Kutta-Methoden. Das Wort "inkonsistent" hat in der Wissenschaft eine genaue Bedeutung, die hier nicht gilt.
Miguel
0

Ich vermute, für ein Problem interessieren wir uns weniger für die mathematische Genauigkeit und Einfachheit, aber mehr für die Nützlichkeit. Der aktuelle Status ist, dass ein neuronales Netzwerk bestimmte Aufgaben wie die Mustererkennung in der Bildverarbeitung besser ausführen kann.

Lily Long
quelle
0

In dieser Frage steckt viel. Gehen wir nacheinander durch, was Sie geschrieben haben.

Die Lösungen, die zu den Trainingsdaten passen, sind unendlich. Wir haben keine präzise mathematische Gleichung, die nur von einer einzigen erfüllt wird und die wir am besten verallgemeinern können.

Die Tatsache, dass es unendlich viele Lösungen gibt, ist darauf zurückzuführen, dass das Lernproblem ein schlecht gestelltes Problem ist. Es kann also kein einziges geben, das am besten verallgemeinert. Außerdem kann, unabhängig davon, welche Methode wir verwenden, kein Theorem für kostenloses Mittagessen garantieren, dass es bei allen Lernproblemen die beste ist.

Einfach gesagt, wir wissen nicht, welche Verallgemeinerungen am besten sind.

Diese Aussage ist nicht wirklich wahr. Es gibt Theoreme zur empirischen Risikominimierung von Vapnik & Chervonenkis, die die Anzahl der Stichproben, die VC-Dimension der Lernmethode und den Generalisierungsfehler verbinden. Beachten Sie, dass dies nur für einen bestimmten Datensatz gilt. Ausgehend von einem Datensatz und einem Lernverfahren kennen wir also die Grenzen der Verallgemeinerung. Es ist zu beachten, dass es für verschiedene Datensätze keine einzige beste Lernprozedur gibt und diese nicht sein kann, da es keinen Satz für kostenloses Mittagessen gibt.

Das Optimieren von Gewichten ist kein konvexes Problem, daher wissen wir nie, dass wir am Ende ein globales oder lokales Minimum haben. Warum also nicht einfach die neuronalen Netze auslagern und stattdessen nach einem besseren ML-Modell suchen?

Hier gibt es einige Dinge, die Sie beachten müssen. Das Optimieren eines nicht konvexen Problems ist nicht so einfach wie eines konvexen. das ist wahr. Die Klasse der konvexen Lernmethoden ist jedoch begrenzt (lineare Regression, SVM), und in der Praxis schneiden sie bei einer Vielzahl von Problemen schlechter ab als die Klasse der nichtkonvexen (Boosting, CNN). Der entscheidende Teil ist also, dass in der Praxis neuronale Netze am besten funktionieren. Obwohl es eine Reihe sehr wichtiger Elemente gibt, die dafür sorgen, dass neuronale Netze gut funktionieren:

  1. Sie können aufgrund des stochastischen Gradientenabfalls auf sehr große Datensätze angewendet werden.
  2. Im Gegensatz zu SVMs hängt der Rückschluss auf tiefe Netze nicht vom Datensatz ab. Dies macht neuronale Netze zur Testzeit effizient.
  3. Mit neuronalen Netzen ist es möglich, die Lernkapazität (Anzahl der Parameter) direkt zu steuern, indem einfach mehr Schichten hinzugefügt oder diese vergrößert werden. Dies ist von entscheidender Bedeutung, da Sie für verschiedene Datensätze möglicherweise größere oder kleinere Modelle benötigen.

Etwas, das wir verstehen und das mit einer Reihe mathematischer Gleichungen übereinstimmt? Linear und SVM haben diese mathematischen Nachteile nicht und stimmen voll und ganz mit einem Satz mathematischer Gleichungen überein. Warum nicht einfach auf der gleichen Linie denken (aber nicht linear sein müssen) und ein neues ML-Modell entwickeln, das besser ist als Linear und SVM sowie neuronale Netze und Deep Learning?

Sich mit Dingen zu befassen, die funktionieren, weil man sie nicht versteht, ist keine gute Forschungsrichtung. Das Bemühen, sie zu verstehen, ist andererseits eine gute Forschungsrichtung. Ich bin auch anderer Meinung, dass neuronale Netze nicht mit mathematischen Gleichungen vereinbar sind. Sie sind ziemlich konsequent. Wir wissen, wie wir sie optimieren und Rückschlüsse ziehen können.

Gnattuha
quelle
-2

Wie wäre es mit einer experimentellen Betrachtung neuronaler Netze? Nur weil wir sie erstellt haben, heißt das noch lange nicht, dass wir sie intuitiv verstehen müssen. Oder dass wir nicht mit ihnen spielen dürfen, um besser zu verstehen, was sie tun.

Hier sind ein paar Gedanken, die ich über sie habe:

  • Struktur: Sie sind Hierarchien. Sie sind wie Bäume, die Eingaben gemeinsam nutzen. Die Wurzeln sind die Eingaben und die Blätter sind die Ausgabeebene. Je näher die Ebene an den Ausgaben ist, desto relevanter ist sie für sie, desto mehr Abstraktion enthält sie (es geht mehr um das Bild als um die Pixel).
  • Funktionalität: Sie "spielen" mit Daten, der Modus Operandi ist es, mit Beziehungen in Neuronen (Gewichten) zu experimentieren, bis die Dinge "klicken" (die Fehlergrenze ist akzeptabel).

Dies steht im Einklang mit unserer Denkweise. Es stimmt sogar mit der Funktionsweise der wissenschaftlichen Methode überein. Indem wir also neuronale Netze knacken, lösen wir möglicherweise auch die allgemeine Frage, was Wissen darstellt.

ROBERTO EDWINS
quelle
-3

Vergessen Sie nicht, dass es ein weites Forschungsgebiet gibt, das LMs, GLM und Mehrebenenmodelle verwendet. In letzter Zeit sind Bayes'sche Techniken und das Hamilton'sche Monte Carlo (die STAN-Community ist wirklich an vorderster Front dabei) erwachsen geworden und es gibt eine Reihe von Problemen, die von STAN sehr einfach gelöst werden und die keine NNs oder tiefen Netze wirklich benötigen. Die sozialwissenschaftliche Forschung und die Mikroökonomie sind zwei (große) Beispiele für solche Bereiche, die Stan schnell einführen.

Stan-Modelle sind sehr "lesbar". Die Koeffizienten haben tatsächlich eine posteriore Verteilungsinterpretation, ebenso wie die Vorhersagen. Die Prioren sind Teil des Datenerzeugungsprozesses und müssen nicht konjugiert sein, um performant zu sein (wie Gibbs). Das Modell, das in Stan passt, ist ein Vergnügen, es stimmt die lästigen MCMC-Parameter automatisch ziemlich gut ab und warnt Sie, wenn die Erkundung mit wirklich schönen Visualisierungen feststeckt.

Wenn du es noch nicht ausprobiert hast, sieh dir hier tolle Stan-Demos an .

Letztendlich denke ich, dass die Leute nicht so viel über dieses Zeug reden, weil die Forschung auf diesem Gebiet und die Probleme nicht so "sexy" / "cool" sind wie bei NNs.

Sid
quelle
-5

Was passiert normalerweise, wenn es keine mathematische Konsistenz gibt (zumindest in diesem Fall von neuronalen Netzen) ... wenn es nicht die gewünschten Ergebnisse liefert, kommt Ihr Chef zurück und sagt ... Hey, warum nicht? Versuchen Sie, auszusteigen (welche Gewichte, welche Schicht, wie viele Kopfschmerzen haben Sie, da es keine mathematische Methode gibt, dies zu bestimmen). Nachdem Sie also versucht haben, eine geringfügige Verbesserung zu erzielen, aber nicht die gewünschte, kommt Ihr Chef zurück und sagt, warum nicht versuchen, Gewicht zu verlieren (welcher Faktor?)? und später, warum versuchst du es nicht mit ReLU oder einer anderen Aktivierung auf einigen Ebenen und trotzdem nicht, warum versuchst du es nicht mit 'max pooling'? Immer noch nicht, warum nicht versuchen, Batch-Normalisierung, immer noch nicht oder zumindest Konvergenz, aber nicht gewünschtes Ergebnis, Oh, Sie sind in einem lokalen Minimum, versuchen Sie andere Lernrate Zeitplan, nur die Netzwerkarchitektur ändern? und wiederhole alles in verschiedenen kombinationen! Halten Sie es in einer Schleife, bis Sie erfolgreich sind!

Wenn Sie andererseits nach der Konvergenz eine konsistente SVM versuchen, ist der von uns verwendete lineare Kernel nicht gut genug, wenn das Ergebnis nicht gut ist, da die Daten möglicherweise nicht linear sind. Verwenden Sie einen anders geformten Kernel, und versuchen Sie es ein anders geformter Kernel, wenn Sie eine Ahnung haben, wenn immer noch nicht, lassen Sie es einfach, es ist eine Einschränkung von SVM.

Was ich sage ist, dass die neuronalen Netze so inkonsistent sind, dass es nicht einmal falsch ist! Es akzeptiert niemals seine Niederlage! Der Ingenieur / Designer übernimmt die Last, falls es nicht wie gewünscht funktioniert.

Rajesh Dachiraju
quelle
3
Dies scheint mir keine Antwort auf Ihre eigene Frage zu enthalten. Glaubst du, du könntest es so bearbeiten, dass es weniger wie ein Rant klingt, und klarstellen, auf welche Weise dies erklärt, warum neuronale Netze und Deep Learning nützlicher sind als ein ML-Modell (was deine ursprüngliche Frage zu sein scheint)?
Silberfischchen
1
Sein Punkt ist, dass wir mit SVM wissen, wann wir es so gut wie möglich gemacht haben, aber mit NNs können wir es nicht wissen. In Anbetracht der Leichtigkeit, mit der sich DL täuschen lässt, sagen uns selbst Metriken wie Fehler nicht, wie gut das Modell wirklich abschneidet.
yters
1
@Yters, ja, aber Silverfishs Kommentar war, dass dies keine Antwort auf die Frage ist, warum DL nicht gelöscht wird. Es ist näher an einer Neuformulierung der Frage. Ich würde vorschlagen, es mit der Frage zu verschmelzen.
P.Windridge