In den letzten 50 Jahren hat sich der Anstieg / Abfall / Anstieg der Popularität neuronaler Netze als eine Art "Barometer" für die KI-Forschung erwiesen.
Aus den Fragen auf dieser Website geht hervor, dass die Leute daran interessiert sind, Deep Learning (DL) auf eine Vielzahl schwieriger Probleme anzuwenden.
Ich habe daher zwei Fragen:
- Praktizierende - Was sind für Sie die Haupthindernisse, um DL "out of the box" auf Ihr Problem anzuwenden?
- Forscher - Welche Techniken verwenden Sie (oder haben sie entwickelt), um praktische Probleme anzugehen? Befinden sie sich in DL oder bieten sie einen alternativen Ansatz an?
deep-learning
NietzscheanAI
quelle
quelle
Antworten:
Zusammenfassend lässt sich sagen, dass das angewandte Deep Learning zwei Hauptprobleme aufweist.
Das erste ist so rechnerisch, dass es erschöpfend ist. Normale CPUs benötigen viel Zeit, um selbst die Grundberechnung / das Training mit Deep Learning durchzuführen. GPUs werden daher jedoch empfohlen, auch wenn sie in vielen Situationen möglicherweise nicht ausreichen. Typische Deep-Learning-Modelle unterstützen nicht die theoretische Zeit, um in Polynomen zu sein. Wenn wir uns jedoch die relativ einfacheren Modelle in ML für die gleichen Aufgaben ansehen, haben wir zu oft mathematische Garantien dafür, dass die für solche einfacheren Algorithmen erforderliche Trainingszeit in Polynomen liegt. Das ist für mich zumindest wahrscheinlich der größte Unterschied.
Es gibt jedoch Lösungen, um diesem Problem entgegenzuwirken. Ein Hauptansatz besteht darin, DL-Algorithmen nur für eine Reihe von Iterationen zu optimieren (anstatt die globalen Lösungen in der Praxis zu betrachten, optimieren Sie einfach den Algorithmus für eine gute lokale Lösung, während das Kriterium für "Gut" vom Benutzer definiert wird).
Ein weiteres Problem, das für junge Deep-Learning-Enthusiasten möglicherweise ein wenig kontrovers ist, ist, dass Deep-Learning-Algorithmen kein theoretisches Verständnis und keine theoretischen Überlegungen aufweisen. Deep Neural Networks wurden in vielen Situationen erfolgreich eingesetzt, darunter Handschrifterkennung, Bildverarbeitung, selbstfahrende Autos, Signalverarbeitung, NLP und biomedizinische Analyse. In einigen dieser Fälle haben sie sogar die Menschen übertroffen. Allerdings sind sie theoretisch nicht so fundiert wie die meisten statistischen Methoden.
Ich werde nicht ins Detail gehen, sondern das überlasse ich Ihnen. Es gibt Vor- und Nachteile für jeden Algorithmus / jede Methode, und DL ist keine Ausnahme. Es ist sehr nützlich, wie sich in vielen Situationen gezeigt hat und jeder junge Data Scientist muss mindestens die Grundlagen von DL lernen. Bei relativ einfachen Problemen ist es jedoch besser, bekannte statistische Methoden zu verwenden, da diese viele theoretische Ergebnisse / Garantien enthalten. Außerdem ist es aus Lernsicht immer besser, mit einfachen Ansätzen zu beginnen und diese zuerst zu beherrschen.
quelle
Ich habe sehr wenig Erfahrung mit ML / DL, um mich als einen der beiden Praktiker zu bezeichnen, aber hier ist meine Antwort auf die erste Frage:
Im Kern löst DL die Aufgabe der Klassifikation gut. Nicht jedes praktische Problem kann in Bezug auf die Klassifizierung umformuliert werden. Die Klassifizierungsdomäne muss im Voraus bekannt sein. Obwohl die Klassifizierung auf jeden Datentyp angewendet werden kann, muss der NN mit Stichproben der spezifischen Domäne trainiert werden, auf die er angewendet werden soll. Wenn die Domain irgendwann gewechselt wird, während das gleiche Modell (NN-Struktur) beibehalten wird, muss sie mit neuen Samples umgeschult werden. Darüber hinaus haben selbst die besten Klassifikatoren "Lücken" - Widersprüchliche Beispiele können leicht aus einer Trainingsstichprobe konstruiert werden, so dass Änderungen für den Menschen nicht wahrnehmbar sind, aber vom trainierten Modell falsch klassifiziert werden.
quelle
Frage 2. Ich recherchiere, ob Hyper-dimensionales Computing eine Alternative zu Deep Learning ist. Hyper-D verwendet sehr lange Bitvektoren (10.000 Bit) zum Codieren von Informationen. Die Vektoren sind zufällig und als solche ungefähr orthogonal. Durch Gruppieren und Mitteln einer Sammlung solcher Vektoren kann eine "Menge" gebildet und später abgefragt werden, um festzustellen, ob ein unbekannter Vektor zur Menge gehört. Das Set kann als Konzept oder als Verallgemeinerung von Bildern usw. angesehen werden. Das Training ist sehr schnell, ebenso wie die Erkennung. Was getan werden muss, ist, die Bereiche zu simulieren, in denen Deep Learning erfolgreich war, und Hyper-D damit zu vergleichen.
quelle
Aus mathematischer Sicht ist eines der Hauptprobleme in tiefen Netzwerken mit mehreren Schichten das Verschwinden oder instabile Gefälle . Jede zusätzliche ausgeblendete Ebene lernt erheblich langsamer und macht den Vorteil der zusätzlichen Ebene nahezu zunichte.
Moderne Deep-Learning-Ansätze können dieses Verhalten verbessern, aber in einfachen, altmodischen neuronalen Netzen ist dies ein bekanntes Problem. Sie können eine gut geschriebene Analyse finden hier für tiefere Studie.
quelle