Ich freue mich darauf, einen MSc in Signal- und Bildverarbeitung zu machen, oder vielleicht Computer Vision (ich habe mich noch nicht entschieden), und diese Frage tauchte auf.
Mein Anliegen ist, dass Deep Learning keine Feature-Extraktion und fast keine Vorverarbeitung von Eingaben erfordert. Beendet es die Bildverarbeitung (oder die Signalverarbeitung im Allgemeinen)?
Ich bin kein Experte für vertieftes Lernen, aber es scheint sehr gut bei Erkennungs- und Klassifizierungsaufgaben zu funktionieren, bei denen Bilder direkt anstelle eines Merkmalsvektors wie bei anderen Techniken aufgenommen werden.
Gibt es einen Fall, in dem ein traditioneller Ansatz zur Merkmalsextraktion und -klassifizierung unter Verwendung von Bildverarbeitungstechniken besser wäre, oder liegt dies am tiefen Lernen?
Antworten:
Dieser Beitrag wurde viel aktualisiert. Oben sehen Sie Link-Updates. Nachfolgend Variationen der ersten Antwort. Für die Kurzfassung: Erfolge von Faltungsnetzwerken und Deep Learning sehen wie eine Art galiläische Revolution aus. Aus praktischer Sicht sind klassische Signalverarbeitung oder Computer Vision tot ... vorausgesetzt, Sie haben genügend beschriftete Daten, kümmern sich nicht um offensichtliche Klassifizierungsfehler ( tiefe Fehler ), haben unendlich viel Energie, um Tests durchzuführen, ohne über den CO2-Fußabdruck nachzudenken . und kümmere dich nicht um rationale Erklärungen. Bei den anderen haben wir über alles nachgedacht, was wir zuvor getan haben: Merkmalsextraktion, Optimierung (vgl. Meine Kollegin J.-C. Pesquet, Arbeiten zur Lösung variationaler Ungleichungen durch tiefe neuronale Netzwerkstrukturen)), Invarianz, Quantifizierung usw. Und daraus ergibt sich eine wirklich interessante Forschung, die hoffentlich fest verankerte Prinzipien und ähnliche Leistungen aufholt.
Aktualisierte Links:
Weiterführende Informationen zur Signal- / Bildverarbeitung finden Sie unten. Michael Elad hat gerade Deep, Deep Trouble geschrieben: Deep Learning's Impact auf Bildverarbeitung, Mathematik und Humanität (SIAM News, 2017/05), Auszug:
Diese Tribüne ist von Interesse, da sie eine Verschiebung von der traditionellen "Bildverarbeitung", bei der versucht wird, die Daten zu modellieren / verstehen, zu einem Bereich der Korrektheit ohne so viel Einsicht zeigt.
Diese Domain entwickelt sich sehr schnell. Dies bedeutet nicht, dass es sich in eine beabsichtigte oder konstante Richtung entwickelt. Weder richtig noch falsch. Aber heute morgen hörte ich das folgende Sprichwort (oder ist es ein Witz?):
Hier war mein sehr kurzer Versuch: Tiefes Lernen kann zwar hochmoderne Ergebnisse liefern, aber man versteht nicht immer, warum und ein Teil unserer wissenschaftlichen Arbeit besteht darin, zu erklären, warum Dinge funktionieren, was der Inhalt eines Datenstücks ist , usw.
Deep Learning erfordert (riesige) Datenbanken mit guten Tags. Jedes Mal, wenn Sie an einzelnen oder einzelnen Bildern basteln (dh ohne eine riesige Datenbank dahinter), insbesondere an Orten, an denen es unwahrscheinlich ist, dass "freie benutzerbasierte markierte Bilder" entstehen (im Ergänzungssatz des Sets " Lustige Katzen, die Spiele und Gesichter spielen "). Sie können sich eine Weile an die traditionelle Bildverarbeitung halten und profitieren. Ein kürzlich veröffentlichter Tweet fasst Folgendes zusammen:
Wenn sie getötet werden (was ich kurzfristig bezweifle), sind sie noch nicht tot. Jede Fähigkeit, die Sie in den Bereichen Signalverarbeitung, Bildanalyse und Computer Vision erwerben, wird Ihnen in Zukunft helfen. Dies wird zum Beispiel im Blogbeitrag diskutiert: Haben wir Geometrie in Computer Vision vergessen? von Alex Kendall:
Ein konkretes Beispiel kann folgendes sein: Ein paar sehr dunkle (z. B. Überwachungs) Bilder vom selben Ort, die ausgewertet werden müssen, ob eine dieser Bilder eine bestimmte Änderung enthält, die erkannt werden sollte, sind möglicherweise mehr als eine Frage der herkömmlichen Bildverarbeitung Deep Learning (Stand heute).
Auf der anderen Seite kann Deep Learning, so erfolgreich es auch in großem Umfang ist, zu einer Fehlklassifizierung kleiner Datenmengen führen, die für einige Anwendungen "im Durchschnitt" harmlos sein kann. Zwei Bilder, die sich nur geringfügig vom menschlichen Auge unterscheiden, können über DL unterschiedlich klassifiziert werden. Oder zufällige Bilder können auf eine bestimmte Klasse eingestellt werden. Sehen Sie zum Beispiel, dass tiefe neuronale Netze leicht zu täuschen sind: Hochzuverlässige Vorhersagen für nicht erkennbare Bilder (Nguyen A, Yosinski J, Clune J. Proc. Computer Vision und Mustererkennung 2015), oder weist Deep Learning tiefe Fehler auf? , auf kontroversen Negativen:
Denken Sie bei allem Respekt vor "Deep Learning" an "Massenproduktion als Reaktion auf ein registriertes, bekanntes, massenvalidierbares oder erwartetes Verhalten" im Vergleich zu "einzigartigem Handwerk". Keiner ist (noch) besser in einer einzelnen Indexskala. Möglicherweise müssen beide für eine Weile nebeneinander existieren.
Tiefes Lernen durchdringt jedoch viele neue Bereiche, wie in den nachstehenden Referenzen beschrieben.
Glücklicherweise versuchen einige Leute, mathematische Gründe für tiefes Lernen zu finden. Ein Beispiel dafür sind Streunetzwerke oder Transformationen, die von Stéphane Mallat und Mitautoren vorgeschlagen wurden. Weitere Informationen finden Sie auf der ENS-Website . Oberschwingungsanalyse und nichtlineare Operatoren, Lipschitz-Funktionen, Translations- / Rotationsinvarianz, besser für den durchschnittlichen Signalverarbeiter. Siehe zum Beispiel Grundlegendes zu Deep Convolutional Networks .
quelle
Erstens gibt es nichts auszusetzen, wenn man grad in Bildverarbeitung oder Computer Vision arbeitet und Deep Learning einsetzt. Deep Learning ist kein Mord an Bildverarbeitung und Computer Vision, sondern lediglich das aktuelle Forschungsthema in diesen Bereichen.
Zweitens wird Deep Learning hauptsächlich zur Erkennung von Objektkategorien verwendet. Dies ist jedoch nur einer von vielen Bereichen der Bildverarbeitung. Es gibt andere Bereiche wie Objekterkennung, Verfolgung, 3D-Rekonstruktion usw., von denen viele noch immer auf "handgefertigten" Funktionen beruhen.
quelle
No Deep Learning beendet nicht die Bildverarbeitung. Sie benötigen große Datenmengen und viele Rechenressourcen, um tiefes Lernen zu erlernen. Es gibt viele Anwendungen, bei denen es wünschenswert ist, Bildverarbeitung mit weniger Rechenlast und geringerem Speicherbedarf und ohne Zugriff auf große Datenbanken durchführen zu können. Einige Beispiele sind Mobiltelefone, Tablets, mobile Kameras, Automobile und Quadrocopter. Deep Learning ist momentan sehr hoch entwickelt, da es einige sehr beeindruckende Ergebnisse bei der Klassifizierung gibt.
Die Klassifizierung ist eines von vielen Problemen, mit denen sich die Bildverarbeitung befasst. Selbst wenn Deep Learning alle Klassifizierungsprobleme lösen würde, wären noch viele andere Arten der Bildverarbeitung zu erledigen. Rauschunterdrückung, Bildregistrierung, Bewegungsberechnung, Morphing / Blending, Schärfen, optische Korrekturen und Transformationen, Berechnung von Geometrien, 3D-Schätzung, 3D + Zeitbewegungsmodelle, Stereovision, Datenkomprimierung und -codierung, Segmentierung, Deblurring, Bewegungsstabilisierung, Computergrafik, alle Arten von Rendering.
quelle
Heute hatten wir ein Gespräch mit einem Freund von mir. Es war ein regnerischer Tag hier in München, während ein großer Teil Europas eine Art sonnige Atmosphäre hatte. Die Leute tauschten Fotos in sozialen Medien aus, wo sie in schönen Sommerkleidern durch die Meere streiften. Sie ärgerte sich über diese Situation und wandte sich an mich und fragte: "Könnten Sie eine Software schreiben, um die Bilder in den sozialen Medien zu blockieren, die so niedliche Sommerfotos beinhalten, wenn das Wetter hier so schlecht ist?". Ich sagte, warum nicht. Alles, was Sie tun müssen, ist, eine große Anzahl von Sommerbildern und Negativbeispielen zu sammeln und diese durch ein Netzwerk zu speisen, das die Binärklassifizierung auf der Ebene "Block" oder "No-Block" durchführt. Trainieren und optimieren Sie das Netzwerk. Das ist es.
Dann drehte ich mich zu mir selbst: Weiß ich eigentlich, wie man einen einfachen Algorithmus schreibt, um zu entscheiden, ob das Wetter schön ist oder nicht, ohne dass die Maschine das Denken für mich übernimmt? Kaum ... vielleicht ... Für den neugierigen Leser gibt es hier einige Features, die Sie vielleicht entwerfen möchten, wenn Sie versuchen würden, es in Angriff zu nehmen:
Offensichtlich würde mich diese CVPR-Veröffentlichung heutzutage nicht einmal mehr interessieren und ich gehe nur noch tiefer. So sehr ich das Deep Learning für seine robuste Leistung in vielen Szenarien mag, gehe ich auch vorsichtig damit um. Selbst wenn dadurch mein Wissen über die Bildverarbeitung nicht verloren gehen würde, verringert sich das von mir benötigte Fachwissen in Bezug auf Domänen. Intellektuell ist dies nicht sehr elegant.
Sobald sich der Einzelne entscheidet, auf dem richtigen Weg zu bleiben und von beiden Welten zu profitieren, ist er auf der sicheren Seite.
quelle
Die kurze Antwort lautet: Nein. DL kann eine Tasse auf einem Foto erkennen, aber die Signalverarbeitung wird dadurch sowieso nicht unterbrochen. Das heißt, Ihre Frage ist in diesen unruhigen Tagen ziemlich relevant. Es gibt eine schöne Podiumsdiskussion über das Thema, mit Stéphane Mallat, etc. hier .
quelle
Beim maschinellen Lernen wird die Datentechnik weiterhin verwendet, um die DNN zugeführten Daten vorzuverarbeiten und auszuwählen, um ihre Lernzeit und ihre Bewertungseffizienz zu verbessern. Die Bildverarbeitung (das Material zwischen dem Kamerasensor und den den DNNs zugeführten RGB / etc. - Bitmaps), eine Form der Datenverarbeitung, wird weiterhin benötigt.
quelle
Ein gründliches Verständnis der Signalverarbeitung (zusammen mit linearer Algebra, Vektorrechnung, mathematischer Statistik usw.) ist für nicht-triviale Arbeiten im Bereich des Tiefenlernens, insbesondere im Bereich der Computersicht, unabdingbar.
Einige der aussagekräftigen Veröffentlichungen im Bereich Deep Learning (nachdem die meisten der niedrig hängenden Früchte gepflückt wurden) vermitteln ein gutes Verständnis der Signalverarbeitungskonzepte.
Einige Motivationskonzepte:
Die Liste geht weiter. Selbst wenn Sie am Ende in der Bildverarbeitung arbeiten und tiefes Lernen für Ihre Probleme anwenden, wird der Hintergrund der Signalverarbeitung die Dinge für Sie sehr leicht verständlich machen.
quelle
Ich mache eigentlich nicht viel Bildverarbeitung, aber ich habe für eine Organisation (US Navy) gearbeitet, die Forschungen zur Signalklassifizierung durchgeführt und finanziert hat, als neuronale Netze das letzte Mal ein heißes Thema waren, Mitte bis Ende der 80er Jahre. Ich musste eine große Anzahl von Marketing-Dingen durchstehen. Die Argumente lauteten wie folgt:
Bischofs Buch brauchte, um meinen Zynismus zu unterdrücken.
In mehr als wenigen Anwendungen erfordert der optimale Signalverarbeitungsalgorithmus eine umfassende Aufzählungssuche über einen großen Parameterraum, der schnell unlösbar wird. Eine große Serverfarm kann den verfügbaren Suchbereich vergrößern, aber irgendwann müssen Sie eine Heuristik finden. DL scheint in der Lage zu sein, einige dieser Heuristiken zu finden, löst jedoch nicht die zugrunde liegende NP-Hard-Optimierung.
quelle
Aus meiner Sicht an der Universität waren viele Signalverarbeiter ML gegenüber etwas feindlich eingestellt, ich vermute, sie fühlten sich bedroht, dass es in ihre Domäne eindrang. In letzter Zeit wurde jedoch viel über die Vorteile komplexer, tiefer neuronaler Netze geforscht, was darauf hindeuten könnte, dass das goldene Ticket wirklich ein solides Verständnis für beide Disziplinen darstellt.
quelle
Nun ja. Genauso wie die Entwicklung in höheren Programmiersprachen wie C ++ und Python die Assembler-Programmierung "tötete". Das bedeutet jedoch nicht, dass es nicht relevant ist, Assembler zu lernen, wenn Sie sich für einen CS-Kurs anmelden. Es bietet großartige Einblicke in die Funktionsweise des Computers, in die Vorgänge hinter den Kulissen übergeordneter Sprachen, in die Grundprinzipien der Computersprache usw. Aber niemand, der bei Verstand ist, würde jetzt eine Desktop-App in Assembler programmieren.
quelle