Wie wichtig ist die Basiserweiterung für tiefe Netze?

8

Wenn tiefe neuronale Netze als universelle Funktionsapproximatoren betrachtet werden, ist eine Basiserweiterung wirklich notwendig? Oder wäre dies fallspezifisch? Wenn man beispielsweise drei quantitative X-Variablen hat, wäre es dann von Vorteil, die Anzahl der Variablen durch Einführung von Wechselwirkungen, Polynomen usw. zu erweitern? Dies scheint beispielsweise bei RFs und SVM von Nutzen zu sein, aber ich bin mir nicht sicher, ob dies eine gute Strategie für neuronale Netze wäre.

Wenn dies vielleicht zu weit gefasst oder vage ist, könnte mich jemand auf relevante Informationen zur Basiserweiterung und zum Feature-Engineering im Kontext von Deep Nets verweisen?

srhoades10
quelle

Antworten:

8

Die Idee eines tiefen neuronalen Netzwerks ist, dass es das Feature-Engineering automatisch für uns durchführen kann. (Siehe das erste Kapitel des Deep Learning-Buches .) Ich würde Ihnen dringend empfehlen, das erste Kapitel zu lesen.

Eine Basiserweiterung ist nicht unbedingt erforderlich und wird nur selten verwendet. Beachten Sie, dass das tiefe Netz normalerweise Rohmerkmale als Eingaben verwendet. Für Bilder mit (mindestens) Tausenden von Pixeln ist es auch nicht möglich, die Basiserweiterung (z. B. Polynomexpansion höherer Ordnung) effektiv durchzuführen, bevor sie dem Neuronalen zugeführt wird Netzwerk.


Tatsächlich gibt es einige Operationen in einem tiefen neuronalen Netzwerk, die als Basiserweiterung angesehen werden können.

  • Die Faltungsschicht kann als Feature-Engineering bei der Fourier-Basiserweiterung angesehen werden. Siehe meine Frage: Was ist die Intuition hinter dem Faltungsnetzwerk?

  • Die ReLU kann als stückweise lineare Anpassung (Spline-Basis) angesehen werden.

Haitao Du
quelle
1
Einverstanden. Ich würde hinzufügen, dass es wahrscheinlich besser wäre, versteckte Schichten vollständig zu vermeiden, wenn der Modellierer a priori ein Gefühl für die funktionale Form der Prädiktor-Antwort-Beziehung hat. dh "Vanille" -Regression oder Klassifizierung. Ich denke auch, dass das Hinzufügen von Basiserweiterungsparametern einen solchen Ansatz sehr anfällig für Überanpassungen macht, und die in neuronalen Netzen typischen Regularisierungstechniken werden nichts gegen das (absichtliche oder anderweitige) Noise-Mining dieser Parameter tun.
Josh
Danke @ hxd1011 und Josh, das sind hilfreiche Punkte. Ich hatte gewusst, dass die Aktivierungsfunktionen die Nichtlinearität in NNs einführen, aber ich denke, ich habe nicht wirklich darüber nachgedacht, wie dies die in Routine-Regressionseinstellungen häufig auftretenden Probleme durch "manuelles" Versuchen, nichtlineare Effekte einzuführen, beseitigt.
Srhoades10
6

Viele Deep-Learning-Modelle lernen während des Trainings ihre eigenen Merkmale aus den rohen Eingabedaten (z. B. 2D-Faltungs-Neuronale Netze für Bilder). In vielen Fällen müssen Sie sich also nicht einmal darum kümmern, Variablen explizit an Ihr Modell zu übergeben. In einigen anderen Fällen benötigen Sie weiterhin Funktionen, jedoch nur Kernfunktionen (z. B. Wörter in NLP). Diese Merkmale werden als Vektoren in einem Einbettungsraum dargestellt, der Ähnlichkeit erfasst (z. B. dass "Präsident" in der Nähe von "Obama" ist). Der Einbettungsraum stammt entweder aus unbeaufsichtigtem Vortraining (word2vec, Handschuh) oder wird zufällig initialisiert, und die Vektoren werden während des Trainings über Backpropagation abgestimmt. Die Architektur des Netzwerks ist für das Lernen von Funktionskombinationen verantwortlich, z. B. den Unterschied zwischen "nicht schlecht, ziemlich gut" und "nicht gut".

Der Absatz „Merkmalskombinationen“ in Abschnitt 3 von Goldberg, Y. (2015). Eine Einführung in neuronale Netzwerkmodelle für die Verarbeitung natürlicher Sprache. Journal of Artificial Intelligence Research, 57, 345-420. sehr gut erklärt dies (ich empfehle wirklich, den gesamten Abschnitt 3 zu lesen, es ist ausgezeichnet):

Die Kombinationsmerkmale sind in linearen Modellen von entscheidender Bedeutung, da sie der Eingabe mehr Dimensionen hinzufügen und sie in einen Raum verwandeln, in dem die Datenpunkte näher daran liegen, linear trennbar zu sein. Andererseits ist der Raum möglicher Kombinationen sehr groß, und der Feature-Designer muss viel Zeit damit verbringen, einen effektiven Satz von Feature-Kombinationen zu entwickeln. Eines der Versprechen der nichtlinearen neuronalen Netzwerkmodelle ist, dass nur die Kernmerkmale definiert werden müssen. Es wird erwartet, dass die durch die Netzwerkstruktur definierte Nichtlinearität des Klassifizierers dafür sorgt, dass die indikativen Merkmalskombinationen gefunden werden, wodurch die Notwendigkeit eines Merkmalskombinationstechniks verringert wird.

Antoine
quelle