Ich habe mich gefragt, warum es so wichtig ist, prinzipielles / theoretisches maschinelles Lernen zu haben. Aus einer persönlichen Perspektive als Mensch kann ich verstehen, warum prinzipielles maschinelles Lernen wichtig wäre:
- Menschen mögen es zu verstehen, was sie tun, wir finden Schönheit und Befriedigung zu verstehen.
- Aus theoretischer Sicht macht Mathematik Spaß
- Wenn es Prinzipien gibt, die das Design von Dingen leiten, wird weniger Zeit für zufälliges Raten, seltsames Ausprobieren aufgewendet. Wenn wir beispielsweise verstehen würden, wie neuronale Netze wirklich funktionieren, könnten wir vielleicht viel mehr Zeit damit verbringen, sie zu entwerfen, als mit dem gewaltigen Aufwand an Versuchen und Irrtümern, der derzeit anfällt.
- In jüngerer Zeit sollte das System (hoffentlich) transparenter sein, wenn die Prinzipien klar sind und die Theorie ebenfalls klar ist. Das ist gut so, denn wenn wir verstehen, wie das System funktioniert, riskiert die KI, dass viele Leute, die über so ziemlich alles nachdenken, sofort verschwinden.
- Prinzipien scheinen eine prägnante Methode zu sein, um die wichtigen Strukturen der Welt zusammenzufassen und zu beschreiben, wann ein Werkzeug anstelle eines anderen eingesetzt werden sollte.
Sind diese Gründe jedoch stark genug, um ein intensives theoretisches Studium des maschinellen Lernens zu rechtfertigen? Eine der größten Kritikpunkte an der Theorie ist, dass sie, weil sie so schwer zu machen ist, normalerweise einen sehr eingeschränkten Fall studiert oder die Annahmen, die gebracht werden müssen, die Ergebnisse im Wesentlichen unbrauchbar machen. Ich glaube, ich habe das einmal bei einem Vortrag des Schöpfers von Tor am MIT gehört. Dass ein Teil der Kritik an Tor, die er gehört hat, das theoretische Argument ist, aber im Grunde genommen sind die Menschen nie in der Lage, Dinge über die realen Szenarien des realen Lebens zu beweisen, weil sie so kompliziert sind.
In dieser neuen Ära mit so viel Rechenleistung und Daten können wir unsere Modelle mit realen Datensätzen und Testsätzen testen. Wir können anhand des Empirismus sehen, ob die Dinge funktionieren. Wenn wir stattdessen AGI oder Systeme erreichen können, die mit Ingenieurwissenschaften und Empirismus arbeiten, lohnt es sich immer noch, eine prinzipielle und theoretische Rechtfertigung für maschinelles Lernen zu verfolgen, insbesondere wenn die quantitativen Grenzen so schwer zu erreichen sind, aber Intuitionen und qualitative Antworten so viel einfacher sind mit einem datengetriebenen Ansatz erreichen? Dieser Ansatz war in der klassischen Statistik nicht verfügbar, weshalb ich die Theorie zu dieser Zeit für so wichtig hielt, da wir nur mithilfe der Mathematik sicher sein konnten, dass die Dinge korrekt waren oder dass sie tatsächlich so funktionierten, wie wir es dachten.
Ich persönlich habe Theorie immer geliebt und gedacht, und ein prinzipieller Ansatz war wichtig. Aber mit der Kraft, Dinge nur mit echten Daten und Rechenleistung ausprobieren zu können, habe ich mich gefragt, ob sich der hohe Aufwand (und möglicherweise die geringe Belohnung) der theoretischen Verfolgung immer noch lohnt.
Ist das theoretische und prinzipielle Erlernen von Maschinen wirklich so wichtig?
quelle
Antworten:
Es gibt keine richtige Antwort darauf, aber vielleicht "alles in Maßen". Während viele der jüngsten Verbesserungen beim maschinellen Lernen, z. B. Ausfall, verbleibende Verbindungen, dichte Verbindungen und Batch-Normalisierung, nicht auf einer besonders tiefen Theorie beruhen (die meisten lassen sich in einigen Absätzen rechtfertigen), gibt es meines Erachtens letztendlich einen Engpass für wie viele Solche Ergebnisse können einen enormen Einfluss haben. Irgendwann muss man sich hinsetzen und eine zusätzliche Theorie ausarbeiten, um den nächsten großen Sprung zu machen. Ebenso kann die Theorie die Intuition leiten, weil sie die Qualität oder die Grenzen eines Modells in begründeten Zweifeln beweisen kann. Dies ist besonders wichtig, um herauszufinden, ob SGD für ein bestimmtes Problem besser ist als Momentum. Das ist das Schöne an der Theorie: Sie zwingt Sie, das zu lösende Problem zu abstrahieren.
Das große Beispiel, an das ich denke, sind Support-Vektor-Maschinen. Sie wurden ursprünglich von Vapnik und Chervonenkis in den frühen 60ern entwickelt, sind aber erst in den frühen 90ern richtig in Fahrt gekommen, als Vapnik und andere erkannten, dass man mit dem Kernel-Trick nichtlineare SVMs erstellen kann. Vapnik und Chervonenkis haben auch die Theorie hinter der VC-Dimension ausgearbeitetDies ist ein Versuch, ein Maß für die Komplexität des maschinellen Lernens zu finden. Ich kann mir keine praktische Anwendung der VC-Dimension vorstellen, aber ich denke, die Idee der SVMs wurde wahrscheinlich durch ihre Arbeit daran beeinflusst. Der Kernel-Trick selbst stammt aus der abstrakt-unsinnigen Mathematik über Hilbert-Räume. Es mag eine Strecke sein zu sagen, dass es notwendig ist, diesen abstrakten Unsinn zu kennen, um SVMs zu entwickeln, aber ich denke, es hat wahrscheinlich einiges geholfen, vor allem, weil es viele Mathematiker für maschinelles Lernen begeisterte.
In Bezug auf ResNet gab es in letzter Zeit einige sehr nette Arbeiten, die darauf hinwiesen, dass Residual-Architekturen nicht unbedingt 100 Schichten tief sein müssen. In der Tat legt nahe , einige Arbeiten , dass die Restverbindungen sehr ähnlich sind RNNs, zum Beispiel Brückenschlag zwischen Residual Lernen, Recurrent Neural Networks und Visual Cortex “, Liao et al. Ich denke , das es auf jeden Fall ein Blick in tiefer wert macht , weil es zeigt , dass Theoretisch ist ResNet mit vielen Ebenen unglaublich ineffizient und aufgebläht.
Die Ideen zum Gradienten-Clipping für RNNs wurden in der mittlerweile berühmten Veröffentlichung " Über die Schwierigkeit, wiederkehrende neuronale Netze zu trainieren " - Pascanu et al. al. Obwohl Sie wahrscheinlich ohne die ganze Theorie auf ein Gradienten-Clipping kommen könnten, ist es meines Erachtens ein langer Weg, zu verstehen, warum RNNs so verdammt schwer zu trainieren sind, ohne etwas Besonderes zu tun, insbesondere indem Sie Analogien zu dynamischen Systemkarten zeichnen (wie in der obigen Abhandlung) ).
Die Entropy Stochastic Gradient Descent- Methoden sind sehr aufregend . Diese wurden aus der Langevin-Dynamik abgeleitet, und ein Großteil der theoretischen Ergebnisse wurzelt fest in der klassischen theoretischen PDE-Theorie und der statistischen Physik. Die Ergebnisse sind vielversprechend, weil sie SGD in einem neuen Licht erscheinen lassen, was die Frage betrifft, wie sie in lokalen Schwankungen der Verlustfunktion stecken bleibt und wie man die Verlustfunktion lokal glätten kann, um SGD effizienter zu machen. Es ist ein langer Weg, um zu verstehen, wann SGD nützlich ist und wann es sich schlecht verhält. Dies können Sie nicht empirisch ableiten, indem Sie SGD mit verschiedenen Arten von Modellen testen.
In dem Artikel Faszinierende Eigenschaften neuronaler Netze fassen die Autoren zusammen, dass neuronale Netze aufgrund hoher Lipchitz-Konstanten zwischen den Schichten empfindlich gegenüber widrigen Beispielen (definiert als berechnete, leichte Bildstörungen) sind. Dies ist immer noch ein aktives Forschungsgebiet und kann nur durch theoretischere Ableitungen besser verstanden werden.
Es gibt auch das Beispiel der topologischen Datenanalyse , um das sich mindestens eine Firma ( Ayasdi ) gebildet hat. Dies ist ein besonders interessantes Beispiel, da die dafür verwendeten Techniken so spezifisch und abstrakt sind, dass es auch heute noch viel Zeit braucht, um zu sehen, wo die Ideen aus dieser Theorie landen. Meines Erachtens ist die Komplexität der beteiligten Algorithmen in der Regel recht hoch (vor 20 Jahren war sie für neuronale Netze jedoch genauso hoch).
quelle
Die Antwort auf diese Frage ist eigentlich sehr einfach. Mit der theoretischen Begründung hinter dem Modell des maschinellen Lernens können wir zumindest nachweisen, dass es bei mehr oder weniger realistischen Bedingungen Garantien für die Optimalität der Lösung gibt. Ohne sie haben wir keinerlei Garantien. Sicher, Sie können sagen "Lassen Sie uns einfach überprüfen, was funktioniert und es für das bestimmte Problem verwenden", aber dies ist nicht durchführbar, da es unendlich viele Möglichkeiten gibt, wie Sie ein Problem mit maschinellem Lernen lösen können.
Sagen Sie, dass Sie etwas vorhersagen wollen , einige gegeben . Woher wissen Sie, dass keine optimale Lösung ist? Was ist mit ? Oder ? Vielleicht geben Sie einfach als Ihre Vorhersage zurück? Oder wenn ungerade ist, benutze und gib sonst ? Sicher, all diese Vorschläge klingen absurd, aber wie können Sie ohne Theorie sicher sein, dass einer von ihnen nicht optimal wäre? Mit einer unendlichen Anzahl möglicher Lösungen wird sogar das einfachste Problem unlösbar. Die Theorie begrenzt Ihren "Suchraum" der realisierbaren Modelle für eine bestimmte Klasse von Problemen (Sie wissen, welche Modelle es wert sind, in Betracht gezogen zu werden, und welche nicht).X X + 42 X + 42,5 √Y. X X+ 42 X+ 42,5 42XX+420X- 42------√ 42 X X+ 42 0
quelle
Betrachtet man nur die Frage: Ist die theoretische und prinzipielle Verfolgung des maschinellen Lernens wirklich so wichtig?
Definieren Sie, was Sie mit "wichtig" meinen. Philosophisch gesehen ist es eine grundlegende Unterscheidung, ob man etwas beschreiben oder etwas verstehen will. In einer etwas groben Antwort ist es der Unterschied zwischen Wissenschaftlichkeit oder etwas anderem. Der praktische Teil betrifft nicht die zugrunde liegende Frage. Wenn etwas zu schwierig oder unmöglich zu beweisen ist, ist dies eine wichtige Entdeckung. (Geben Sie Goedel et al.) Aber das bedeutet nicht, dass es irrelevant ist. Dies mag aus pragmatischer Sicht zumindest irrelevant erscheinen. Aber es sollte zumindest als etwas von grundlegender Bedeutung und Wert anerkannt werden.
Betrachten Sie eine Analogie: Die Medizin als Ganzes (und aus der Vergangenheit) ist nicht wissenschaftlich. In gewisser Weise kann es eigentlich nie sein. Es ist eine Disziplin, die sich ausschließlich nach ihren Ergebnissen richtet. In den meisten Fällen gibt es nichts Besseres als "Wahrheit". Es stellt sich jedoch heraus, dass einige Teile tatsächlich wissenschaftlich sein können - und hier geschieht der größte Teil des geplanten Fortschritts.
Eine andere extrem kurze Beschreibung könnte lauten: Ohne Theorie kann man viel Geld verdienen. Wenn es für ein "größeres Gut" wirklich nützlich ist, erhalten Sie möglicherweise sogar einen Nobelpreis dafür. Aber Sie werden niemals die Fields-Medaille erhalten.
quelle
Seit Jahrhunderten können Menschen Schiffe, Kutschen und Gebäude ohne die Gesetze der Physik bauen. Aber seit der modernen Wissenschaft konnten wir diese Technologien auf ein völlig neues Niveau heben. Eine bewährte Theorie erlaubt prinzipielle Verbesserungen. Ohne eine mathematische Theorie der Materie und der Berechnung hätten wir es nie zum Mond oder Computer geschafft.
Maschinelles Lernen ist nur ein weiteres Gebiet der Wissenschaft und Technik wie jedes andere. Ein prinzipieller Ansatz für maschinelles Lernen hat uns mit Kernel-Maschinen, strukturiertem Lernen und Ensemble-Methoden (Boosting, Random Forest) ausgestattet.
quelle
Hier ist ein einfaches Beispiel aus meiner eigenen Arbeit.
Ich passe viele neuronale Netze an kontinuierliche Ergebnisse an. Man bestimmt die Gewichte durch Backpropagation. Irgendwann wird es konvergieren.
Mein Netz läuft viel schneller zusammen .
Danke, Theorie.
quelle
Empirismus gegen Theorie
Sie schrieben:
Dies zeigt meines Erachtens die hauptsächliche Kluft zwischen den beiden Ansichten, die wir als empirisch und theoretisch bezeichnen können .
Aus empirischer Sicht sind Theoreme, wie Sie auch beschrieben haben, nutzlos, weil sie niemals komplex genug sind, um die reale Welt zu modellieren. Sie sprechen von vereinfachten idealen Szenarien, die in der realen Welt nirgendwo zutreffen. Wozu also Theorie?
Theoretisch ist das Gegenteil der Fall. Was kann uns der Empirismus darüber hinaus lehren? "Ich habe diese Methode für diesen Datensatz ausgeführt, und es war besser, als diese andere Methode für denselben Datensatz auszuführen." Dies ist zum einen nützlich, sagt aber wenig über das Problem aus.
Was die Theorie tut, bietet einige Garantien. Es ermöglicht uns auch, vereinfachte Szenarien genau zu studieren, um zu verstehen, was vor sich geht.
Beispiel
Stellen Sie sich ein aktuelles Beispiel vor: Sie möchten sehen, wie sich die Konzeptverschiebung (wenn sich die Daten im Laufe der Zeit ändern) auf Ihre Lernfähigkeit auswirkt. Wie würde ein reiner Empiriker diese Frage angehen? Alles, was er wirklich tun kann, ist, verschiedene Methoden anzuwenden und über Tricks nachzudenken, die er tun kann. Die gesamte Prozedur könnte ungefähr so aussehen:
Was wir hier haben, sind ziemlich genaue Ergebnisse für einige Datensätze. Vielleicht waren die Daten so, dass die Aktualisierung des Lernalgorithmus basierend auf Beobachtungen von 200 vergangenen Tagen die höchste Genauigkeit ergab. Funktioniert das auch für andere Daten? Wie zuverlässig ist diese Schätzung für 200 Tage? Simulationen helfen - aber sie spiegeln nicht die reale Welt wider - die gleiche Problemtheorie.
Stellen Sie sich nun dasselbe vom theoretischen Standpunkt aus vor:
Jetzt ist dieses Szenario klarer: Wir konnten das Problem eingrenzen, indem wir alle Details korrigierten. Wir kennen den durchschnittlichen Fehler unserer Klassifikatoren. Kann wahrscheinlich die Anzahl der Tage abschätzen, die erforderlich sind, um festzustellen, ob eine Änderung stattgefunden hat. Bestimmen Sie, von welchen Parametern dies abhängt (z. B. von der Größe der Änderung). Und jetzt basierend auf etwas produzieren eine praktische Lösung. Vor allem aber: Dieses Ergebnis ist (bei richtiger Berechnung) unveränderlich. Es ist für immer hier und jeder kann daraus lernen.
Wie einer der Väter des modernen maschinellen Lernens sagt Jürgen Schmidhuber gern:
Lektionen aus anderen Bereichen
Auch wollte kurz einige Parallelen zur Physik erwähnen. Ich denke, sie hatten auch dieses Dilemma. Die Physiker untersuchten reibungslose Objekte mit unendlicher Masse, die sich im unendlichen Raum bewegten. Was kann uns das auf den ersten Blick über die Realität sagen, in der wir wissen wollen, wie sich Schneeflocken im Wind bewegen? Aber es fühlt sich so an, als hätte die Theorie sie ziemlich weit gebracht.
quelle
Sie haben einige Gründe genannt, von denen meiner Meinung nach die Fähigkeit, ML-Ergebnisse zu interpretieren, am wichtigsten ist. Nehmen wir an, der von der KI getriebene Sachwächter hat beschlossen, den Hund des Nachbarn zu erschießen. Es wäre wichtig zu verstehen, warum es so war. Wenn dies in Zukunft nicht verhindert werden soll, müssen Sie zumindest verstehen, wer haftet und wer dem Eigentümer eine Entschädigung zahlt.
Für mich ist der wichtigste Grund jedoch, dass das Verständnis der Prinzipien, auf denen der Algorithmus basiert, es ermöglicht, seine Grenzen zu verstehen und seine Leistung zu verbessern. Betrachten Sie die Verwendung des euklidischen Abstandes in ML. In vielen Clustering-Algorithmen beginnen Sie mit der Definition des Abstands zwischen Beispielen und fahren dann damit fort, die Grenzen zwischen den Merkmalen von Beispielen zu finden, die sie in ihrer Nähe gruppieren. Sobald Sie die Anzahl der Features erhöhen, funktioniert der euklidische Abstand an einem bestimmten Punkt nicht mehr. Sie können viel Zeit damit verbringen, es zum Laufen zu bringen, oder - wenn Sie wissen, dass die euklidische Distanz als Annäherungsmaß nicht in einem unendlichen Dimensionslimit funktioniert - einfach zu einer anderen Distanzmetrik wie Manhattan wechseln und mit der Arbeit fortfahren auf echte Probleme. Sie können eine Menge Beispiele wie dieses finden,
quelle
Ich denke, es ist sehr schwierig, keine philosophische Diskussion zu führen. Meine Antwort ist wirklich eine Umformulierung der hier bereits erwähnten guten Punkte (+1 für alle); Ich möchte nur auf ein Zitat von Andrew Gelman verweisen, das mich wirklich als jemanden ansprach, der eine Ausbildung zum Informatiker absolviert hat. Ich habe den Eindruck, dass viele der Menschen, die das maschinelle Lernen nennen, auch aus der Informatik stammen. Das Zitat stammt aus einem Vortrag, den Gelman auf der New York R-Konferenz 2017 mit dem Titel Theoretical Statistics is the Theory of Applied Statistics gehalten hat :
Die Theorie sagt Ihnen, was Sinn macht und was unter bestimmten Bedingungen nicht. Wollen wir Tausende oder Zehntausende oder Millionen von Simulationen durchführen, um eine Vorstellung von der Wahrheit zu bekommen? Wollen wir empirische Vergleiche mit immer mehr Benchmark-Datensätzen durchführen? Es wird eine Weile dauern, und unsere Ergebnisse können immer noch spröde sein. Woher wissen wir außerdem, dass die Vergleiche, die wir anstellen, sinnvoll sind? Woher wissen wir, dass unser neuer Deep Learner mit einer Genauigkeit von 99,5% wirklich besser ist als der alte mit einer Genauigkeit von 99,1%? Eine Theorie wird hier helfen.
Ich bin ein großer Fan von Simulationen und ich benutze sie oft, um die Welt zu verstehen (oder sogar, um die Theorie zu verstehen), aber theoretisches maschinelles Lernen ist die Theorie des angewandten maschinellen Lernens.
quelle