Pre-Training in tiefen Faltungs neuronalen Netzwerk?

33

Hat jemand Literatur über Pre-Training in Deep Convolutional Neural Network gesehen? Ich habe nur unbeaufsichtigtes Pre-Training in Autoencoder oder eingeschränkten Boltzman-Maschinen gesehen.

machine-learning neural-networks deep-learning conv-neural-network autoencoders RockTheStar
quelle

39

Ich bin mir nicht sicher, ob dies genau Ihre Frage beantwortet, aber nach meinem Verständnis ist der Grund, warum Sie nicht sehen, dass Menschen vor dem Training trainieren ( ich meine dies im Sinne eines unbeaufsichtigten Vor- Trainings), der, dass es verschiedene Neuerungen in rein beaufsichtigtem Training gegeben hat haben unbeaufsichtigte Vorschulungen überflüssig gemacht (wer weiß vorerst, welche Probleme und Probleme die Zukunft haben wird?).

Eine der Hauptinnovationen war die Abkehr von sigmoidalen (Sigmoid-, Tanh-) Aktivierungseinheiten, die Bereiche mit nahezu flacher Krümmung sättigen / aufweisen können und daher nur einen geringen Gradienten nach hinten ausbreiten, so dass das Lernen unglaublich langsam ist, wenn nicht für alle praktischen Zwecke vollständig gestoppt wird und Zwecke. Der Artikel Deep Sparse Rectifier Neural Networks von Glorot, Bordes und Bengio verwendete gleichgerichtete Lineareinheiten (ReLUs) als Aktivierungsfunktionen anstelle der traditionellen sigmoidalen Einheiten. Die ReLUs haben die folgende Form: . Beachten Sie, dass sie unbegrenzt sind und für den positiven Teil einen konstanten Gradienten 1 haben. $f(x) = \max(0, x)$

Der Artikel von Glorot, Bordes und Bengio verwendete ReLUs für mehrschichtige Perceptrons und keine Conv-Netze. Ein vorheriger Artikel Was ist die beste mehrstufige Architektur für die Objekterkennung von Jarret und anderen aus der NYU-Gruppe von Yann LeCun? Sie verwendeten Gleichrichtungs-Nichtlinearitäten, jedoch für die sigmoidalen Einheiten, sodass sie Aktivierungsfunktionen der Formusw. In beiden Artikeln wurde festgestellt, dass die Verwendung der Korrektur von Nichtlinearitäten einen großen Teil der Lücke zwischen rein überwachten Methoden und nicht überwachten, vortrainierten Methoden zu schließen scheint. $f(x) = |\tanh(x)|$

Eine weitere Neuerung ist, dass wir viel bessere Initialisierungen für tiefe Netzwerke gefunden haben. Mit der Idee, die Varianz über die Schichten eines Netzwerks hinweg zu standardisieren, wurden über die Jahre hinweg gute Faustregeln aufgestellt. Eine der ersten, beliebtesten Arbeiten war die von Glorot und Bengio, die die Schwierigkeit des Trainings von Deep Feedforward- Netzen erkannten. Sie ermöglichten die Initialisierung von Deep Nets unter einer linearen Aktivierungshypothese und später das Einführen von Deep Into Rectifiersvon einer Gruppe von Microsoft Research-Teammitgliedern, die die Glorot- und Bengio-Gewichtsinitialisierung ändern, um die korrigierenden Nichtlinearitäten zu berücksichtigen. Die Gewichtsinitialisierung ist eine große Sache für extrem tiefe Netze. Bei einem 30-Lagen-Conv-Netz war die MSR-Gewichtsinitialisierung viel besser als die Glorot-Gewichtsinitialisierung. Denken Sie daran, dass das Glorot-Papier 2010 und das MSR-Papier 2015 herauskamen.

Ich bin nicht sicher, ob das Paper ImageNet Classification with Deep Convolutional Neural Networks von Alex Krizhevsky, Ilya Sutskever und Geoff Hinton die ersten war, die ReLUs für Convets verwendeten, aber es hatte den größten Einfluss. In diesem Artikel sehen wir, dass ReLUs für Convets das Lernen beschleunigen. Dies wird durch eine der CIFAR-10-Grafiken belegt, die zeigt, dass ReLU-Convets schnellere Trainingsfehlerraten erzielen können als Nicht-ReLU-Convets. Diese ReLUs leiden nicht unter den Problemen des verschwindenden Gradienten / der Sättigung des Sigmas und können verwendet werden, um viel tiefere Netze zu trainieren. Eine der anderen großen Innovationen war die Verwendung von Dropout-Training, einer stochastischen Rauschinjektion oder einer Modellmittelungstechnik (je nach Sichtweise), die es uns ermöglicht, tiefere, größere neuronale Netze länger zu trainieren, ohne zu viel Überanpassung.

Und die Innovation von conv net setzte sich in rasantem Tempo fort. Fast alle Methoden verwendeten ReLUs (oder Modifikationen wie PReLUs von Microsoft Research), Dropout und rein betreutes Training (SGD + Momentum, möglicherweise einige adaptive Lernratentechniken wie RMSProp oder ADAGrad) ).

Ab sofort scheinen viele der leistungsstärksten Netzwerke rein beaufsichtigt zu sein. Das heißt nicht, dass unbeaufsichtigtes Vor-Training oder die Verwendung unbeaufsichtigter Techniken in Zukunft möglicherweise nicht wichtig sind. Aber einige unglaublich tiefe Convets wurden trainiert, haben die Leistung auf menschlicher Ebene an sehr umfangreichen Datensätzen erreicht oder übertroffen, nur mit beaufsichtigtem Training. Tatsächlich glaube ich, dass der neueste Beitrag von Microsoft Research zum ImageNet 2015-Wettbewerb 150 Ebenen umfasste. Das ist kein Tippfehler. 150.

Wenn Sie unbeaufsichtigtes Pretraining für Convets verwenden möchten, finden Sie am besten eine Aufgabe, bei der das "standardmäßige" beaufsichtigte Training von Convets nicht so gut funktioniert, und versuchen Sie es mit unbeaufsichtigtem Pretraining.

Im Gegensatz zur Modellierung natürlicher Sprachen scheint es schwierig zu sein, eine nicht überwachte Aufgabe zu finden, die einer entsprechenden überwachten Aufgabe bei Bilddaten hilft. Aber wenn Sie sich im Internet genug umschauen, sehen Sie einige der Pioniere des Tiefenlernens (Yoshua Bengio, Yann LeCun, um nur einige zu nennen), wie wichtig sie denken, dass unbeaufsichtigtes Lernen ist und sein wird.

Indie AI
quelle

1

Ich habe in Stanfords Tutorial über ConvNet gesehen, dass es in Faltungs-Neuronalen Netzen ein Pretraining gibt. Hier ist der Link: cs231n.github.io/transfer-learning Sind diese unterschiedlich? da machen sie doch eigentlich das selbe richtig?

Rika

2

Hey, tut mir leid für die späte Antwort. Transferlernen wird viel betrieben. Es wird verwendet, um die mühsame Aufgabe des Trainings von Grund auf zu vermeiden und stattdessen Funktionen zu verwenden, die auf einem großen Dataset wie ImageNet trainiert wurden, und stattdessen trainieren wir nur einen Klassifikator über diese Funktionen. Ich habe meine Antwort aktualisiert, um anzugeben, dass Sie heutzutage nicht viel unbeaufsichtigtes Pretraining sehen , was nicht das gleiche ist wie Transferlernen. Danke für den Kommentar.

Indie AI

+1. Sehr gute Antwort. Was mir fehlt, gibt es eine Diskussion oder einen Kommentar dazu, ob das, was Sie sagen (dh dass es nicht erforderlich ist, vorab zu trainieren), speziell für neuronale Faltungsnetze gilt (wenn ja, warum?) Oder für tiefe Netze, einschließlich nicht Faltungskräfte.

Amöbe sagt Reinstate Monica

14

Wie aus den obigen Antworten hervorgeht, wurde das Vortraining "umgearbeitet", als mehrere Dinge passierten. Ich möchte jedoch mein Verständnis davon destillieren:

Vor langer Zeit, im Jahr 2010, haben sich alle um das Pre-Training gekümmert. Hier ist ein großartiger Artikel zu diesem Thema , den ich nicht erwähnt habe.
Kurz bevor Alex Krizhevsky, Ilya Sutskever und Geoff Hinton ihr imagenet Paper veröffentlichten, glaubten die Leute immer noch, dass Features wichtig seien, konzentrierten sich jedoch hauptsächlich auf unbeaufsichtigtes Lernen und sogar auf das autodidaktische Lernen, um diese Features herzustellen.
Es ist nicht schwer zu verstehen, warum - die Bausteine neuronaler Netze waren zu dieser Zeit nicht so robust und konvergierten sehr langsam zu nützlichen Funktionen. Oft scheiterten sie sogar spektakulär. Pre-Training war nützlich, wenn Sie genügend Daten hatten, um eine gute Initialisierung für SGD zu erhalten.
Als relu vorgestellt wurde, konvergierten die Netzwerke schneller. Als Leaky Relu und neuere Lösungen vorgestellt wurden, wurden neuronale Netze robuster, wenn es darum ging, zu einem tragfähigen Ergebnis zu gelangen. Ich kann Ihnen nur empfehlen, mit einer hervorragenden Demo für neuronale Netze zu spielen, die dieser talentierte Googler geschrieben hat. Sie werden sehen, wovon ich spreche.
Um zu unserem Hauptpunkt zu kommen, das heißt nicht, dass eine Form des Pre-Trainings beim Deep Learning nicht wichtig ist. Wenn Sie hochmoderne Ergebnisse erhalten möchten, müssen Sie die Daten vorverarbeiten (z. B. ZCA) und die Anfangsgewichte richtig auswählen - dies ist ein sehr gutes Papier zu diesem Thema .

Wie Sie sehen, änderte sich das Vortraining in der Form in Vorverarbeitung und Gewichtsinitialisierung, blieb jedoch in Funktion und wurde eleganter.

Schließlich ist maschinelles Lernen in Mode. Ich persönlich wette wie Andrew Ng, dass unbeaufsichtigtes und autodidaktisches Lernen in Zukunft vorherrschen wird, also mach das nicht zu einer Religion :)

Rhadar
quelle

13

Es gibt einige Artikel, aber nicht so viele wie Autoencoder oder RBMs. Ich denke der Grund ist die Zeitlinie von NN. Stacked RBM und Autoencoder werden 2006 bzw. 2007 eingeführt . Nach dem Einsatz von ReLU im Jahr 2009 wird das unbeaufsichtigte Lernen teilweise aufgegeben (wenn genügend Daten zum Lernen in direkt beaufsichtigtem Lernen vorhanden sind). Obwohl Convolution net (oder LeNet) 1989 erfunden wurde , konnte es erst 2012 , nach der Popularisierung des direkt überwachten Lernens mit ReLU, als Tiefenstruktur trainiert werden. Ich glaube, Forscher haben es größtenteils mit Hilfe von direkt überwachtem Lernen trainiert.

yasin.yazici
quelle

Sie stimmen also zu, dass es noch kein Pre-Training für ein tiefes neuronales Faltungsnetzwerk gibt?

RockTheStar

4

@RockTheStar nein, es gibt aber nicht so viel wie die beiden vorigen. research.microsoft.com/pubs/200804/CNN-Interspeech2013_pub.pdf Diese Studie hat es verwendet. Hier ist ein kurzes Zitat; "Wir stellen fest, dass das Vortraining sowohl die DNN als auch die CNN verbessert, mit Ausnahme der CNN bei TIMIT, bei denen das Vor-Trainieren nicht geholfen hat. Im Allgemeinen ist die relative Verbesserung der Verwendung des Vor-Trainierens für die CNN geringer als die des DNN."

yasin.yazici

Pre-Training in tiefen Faltungs neuronalen Netzwerk?

Antworten: