Ähnlichkeit
Grundsätzlich wurden beide Arten von Algorithmen entwickelt, um eine allgemeine Frage in Anwendungen für maschinelles Lernen zu beantworten:
Vorgegebene Prädiktoren (Faktoren) - wie können die Wechselwirkungen zwischen diesen Faktoren berücksichtigt werden, um die Leistung zu steigern?x1, x2, … , Xp
Eine Möglichkeit besteht darin, einfach neue Prädiktoren einzuführen: Dies erweist sich jedoch aufgrund der großen Anzahl von Parametern und der sehr spezifischen Art von Interaktionen als schlechte Idee.xp + 1= x1x2, xp + 2= x1x3, …
Sowohl Multilevel-Modellierungs- als auch Deep-Learning-Algorithmen beantworten diese Frage, indem sie ein viel intelligenteres Interaktionsmodell einführen. Und in dieser Hinsicht sind sie sich sehr ähnlich.
Unterschied
Lassen Sie mich nun versuchen, mein Verständnis für den großen konzeptuellen Unterschied zwischen ihnen zu geben. Um eine Erklärung zu geben, sehen wir uns die Annahmen an, die wir in jedem der Modelle treffen:
Mehrebenenmodellierung: Schichten, die die Datenstruktur widerspiegeln, können als Bayesianisches Hierarchisches Netzwerk dargestellt werden . Dieses Netzwerk ist fest und stammt normalerweise aus Domänenanwendungen.1
Deep Learning: Die Daten wurden durch das Zusammenspiel vieler Faktoren generiert. Die Struktur von Interaktionen ist nicht bekannt, kann aber als geschichtete Faktorisierung dargestellt werden: Interaktionen höherer Ebenen werden durch Transformation von Repräsentationen niedrigerer Ebenen erhalten.2
Der grundlegende Unterschied ergibt sich aus dem Ausdruck "Die Struktur von Interaktionen ist nicht bekannt" im Deep Learning. Wir können einige Prioritäten in Bezug auf die Art der Interaktion annehmen, doch der Algorithmus definiert alle Interaktionen während des Lernvorgangs. Auf der anderen Seite müssen wir die Struktur der Interaktionen für die mehrstufige Modellierung definieren (danach lernen wir nur, die Parameter des Modells zu variieren).
Beispiele
Angenommen, wir haben drei Faktoren und definieren und als unterschiedliche Ebenen.x1, x2, x3{ x1}{ x2, x3}
In der mehrstufigen Modellierungsregression erhalten wir zum Beispiel die Interaktionen und , aber niemals die Interaktion . Natürlich werden die Ergebnisse teilweise durch die Korrelation der Fehler beeinflusst, aber dies ist für das Beispiel nicht so wichtig.x1x2x1x3x2x3
Beim Tiefenlernen, zum Beispiel bei mehrschichtigen Restricted Boltzmann-Maschinen ( RBM ) mit zwei verborgenen Schichten und linearer Aktivierungsfunktion, werden alle möglichen polinomialen Wechselwirkungen mit einem Grad kleiner oder gleich drei auftreten.
Gemeinsame Vor- und Nachteile
Mehrebenenmodellierung
(-) müssen die Struktur der Interaktionen definieren
(+) Ergebnisse sind in der Regel leichter zu interpretieren
(+) können statistische Methoden anwenden (Konfidenzintervalle auswerten, Hypothesen überprüfen)
Tiefes Lernen
(-) erfordert eine große Datenmenge zum Trainieren (und auch Zeit für das Training)
(-) Ergebnisse sind normalerweise nicht interpretierbar (wird als Black Box angezeigt)
(+) kein Expertenwissen erforderlich
(+) einmal gut trainiert, übertrifft normalerweise die meisten anderen allgemeinen Methoden (nicht anwendungsspezifisch)
Hoffe es wird helfen!
Obwohl diese Frage / Antwort schon eine Weile da draußen war, hielt ich es für hilfreich, ein paar Punkte in der Antwort zu klären. Erstens die Formulierung, die als Hauptunterscheidung zwischen hierarchischen Methoden und tiefen neuronalen Netzen verwendet wird: "Dieses Netz ist fest." ist falsch. Hierarchische Methoden sind nicht "fester" als die alternativen neuronalen Netze. Siehe zum Beispiel die Veröffentlichung Deep Learning with Hierarchical Convolutional Factor Analysis von Chen et. al.. Ich denke, Sie werden auch feststellen, dass das Erfordernis, Interaktionen zu definieren, kein Unterscheidungsmerkmal mehr ist. Ein paar Punkte, die bei der hierarchischen Modellierung nicht als Vorteil aufgeführt sind, sind meiner Erfahrung nach das deutlich verringerte Problem der Überanpassung und die Fähigkeit, sowohl sehr große als auch sehr kleine Trainingssätze zu handhaben. Ein Kritikpunkt ist, dass Konfidenzintervalle und Hypothesentests bei der Verwendung von Bayes'schen hierarchischen Methoden im Allgemeinen keine statistischen Methoden sind, die angewendet würden.
quelle