Bayesianische regulierte NNs gegenüber klassischen NNs

8

Ich habe einige Forschungsartikel gesehen, die behaupten, dass den klassischen neuronalen Netzen normalerweise eine zufriedenstellende Generalisierungsfähigkeit fehlt, was normalerweise zu ungenauen Vorhersagen führt, und Bayes'sche regulierte ANNs (BRANNs) sind robuster als Standard-Back-Propagation-Netze und können die reduzieren oder eliminieren Notwendigkeit einer langen Kreuzvalidierung.

Diese Artikel liefern jedoch keine angemessene Begründung / Begründung für diese Behauptung.

Inwiefern oder für welche besonderen Zwecke sind BRANNs besser als klassische NNs? Und warum?

pnp
quelle

Antworten:

8

Das Hauptproblem bei neuronalen Netzen besteht darin, eine Überanpassung zu verhindern. Die Bayes'sche Regularisierung (die die Größe der Gewichte einschränkt) ist ein Ansatz, die strukturelle Stabilisierung (dh die Beschränkung der Anzahl versteckter Knoten und / oder Gewichte ist ein anderer). Keiner der beiden Ansätze ist ein Allheilmittel, und im Allgemeinen ist eine Kombination aus Regularisierung und struktureller Stabilisierung besser (was bedeutet, dass Sie erneut eine Kreuzvalidierung benötigen, um die Netzwerkarchitektur auszuwählen - die Verwendung der Bayes'schen Beweise hierfür ist eine schlechte Idee, da die Beweise infolgedessen voreingenommen sind seiner Verwendung bei der Abstimmung der Regularisierungsparameter und unzuverlässig, wenn eine Modellfehlspezifikation vorliegt). Was am besten funktioniert, ist im Wesentlichen problemabhängig. Der beste Weg, dies herauszufinden, besteht darin, beides zu versuchen und zu sehen (z. B. Kreuzvalidierung, um die Leistung unvoreingenommen abzuschätzen).

Außerdem muss die Regularisierung nicht Bayesianisch sein. Sie können stattdessen mithilfe der Kreuzvalidierung auswählen, wie stark das Netzwerk reguliert werden soll. Eines der Probleme mit Bayes'schen Methoden besteht darin, dass sie schlechte Ergebnisse liefern können, wenn das Modell falsch spezifiziert ist. In diesem Fall können kreuzvalidierungsbasierte Regularisierungsmethoden robuster sein.

Ein weiterer wichtiger Punkt ist, dass nicht alle Bayes'schen neuronalen Netzwerkformulierungen gleich sind. Das Evidence-Framework von MacKay funktioniert bei Klassifizierungsproblemen in der Regel nicht gut, da die verwendete Laplace-Näherung bei verzerrten posterioren Verteilungen für die Gewichte nicht sehr gut funktioniert. Der MCMC-Ansatz von Radford Neal funktioniert wahrscheinlich besser für diese Aufgaben, ist jedoch rechenintensiv und die Bewertung der Konvergenz usw. ist nicht so einfach.

Neuronale Netzwerkmodelle sind jedoch ziemlich umständlich, und in der Praxis ist es einfacher, eine gute Generalisierungsleistung von Kernelmethoden oder Gaußschen Prozessen zu erzielen. Daher würde ich sie stattdessen für die meisten Aufgaben verwenden, insbesondere wenn relativ wenig Trainingsdaten vorhanden sind.

Ich habe kürzlich eine sehr umfangreiche empirische Studie dazu durchgeführt, aber ich muss eine Zeitschrift finden, die empirische Studien akzeptiert, die für Praktiker von Interesse sind, aber nur sehr wenig neue Forschungsinhalte enthalten.

Dikran Beuteltier
quelle
αβ
@YtsendeBoer Der Beweis (Grenzwahrscheinlichkeit) wird über einen endlichen Datensatz ausgewertet, sodass sein Wert von der jeweiligen Stichprobe abhängt und eine solche Komponente im Wesentlichen nur Rauschen aufweist. Wenn Sie das Modell durch Optimierung der Evidenz optimieren, ist ein Teil der offensichtlichen Verbesserung auf die Anpassung des Rauschens an die Grenzwahrscheinlichkeit sowie auf Änderungen zurückzuführen, die die Leistung tatsächlich verbessern. Nach der Optimierung geben die Nachweise einen optimistischen Überblick über die tatsächliche Leistung des Modells und sind daher kein guter Leitfaden für die anschließende Strukturoptimierung.
Dikran Beuteltier
αβ
alphabeta
4

Sie verwenden BRANNs für dieselben Zwecke wie reguläre ANNs, normalerweise Klassifizierung und Regression. Wie Dikran Marsupial sagt, sind sie besser, weil sie robuster gegen Überanpassung sind und es Ihnen ermöglichen, mit einer höheren Anzahl von Neuronen zu arbeiten, ohne auf Überanpassung zu stoßen. Außerdem erhalten Sie Fehlerbalken an den Ausgängen, dh Sie haben ein Maß für das Vertrauen der einzelnen Ausgänge.

Trotzdem scheinen neue Techniken wie Dropout und Maxout diese Technik außer Kraft gesetzt zu haben, da sie einfacher zu verwenden sind und bessere Ergebnisse liefern. Hier wird gezeigt, dass Dropout in gewissem Sinne eine Skalierung und Regularisierung durchführt.

Wenn Sie sich jedoch für Details interessieren, können Sie die Papiere von David MacKay (dem Mann, der mit dieser Technik einige Wettbewerbe gewonnen hat) überprüfen .

jpmuc
quelle
Sie erklären wirklich nicht, wie BRANNs helfen, Überanpassung usw. zu verhindern
nbro