Können wir MLE verwenden, um die Gewichte des neuronalen Netzwerks abzuschätzen?

23

Ich habe gerade angefangen, etwas über Statistiken und Models zu lernen. Nach meinem derzeitigen Verständnis verwenden wir MLE, um die besten Parameter für ein Modell zu schätzen. Wenn ich jedoch zu verstehen versuche, wie die neuronalen Netze funktionieren, scheint es, als würden sie stattdessen häufig einen anderen Ansatz verwenden, um die Parameter abzuschätzen. Warum verwenden wir MLE nicht oder ist es überhaupt möglich, MLE zu verwenden?

tor
quelle

Antworten:

16

MLE-Schätzungen von künstlichen neuronalen Netzwerkgewichten (ANN) sind sicherlich möglich ; in der Tat ist es ganz typisch. Bei Klassifizierungsproblemen ist eine Standardzielfunktion die Kreuzentropie, die der negativen logarithmischen Wahrscheinlichkeit eines Binomialmodells entspricht. Für Regressionsprobleme wird ein Restquadratfehler verwendet, der der MLE der OLS-Regression entspricht.

Es gibt jedoch einige Probleme mit der Annahme, dass die in der klassischen Statistik abgeleiteten netten Eigenschaften von MLEs auch für MLEs neuronaler Netze gelten.

  1. Bei der ANN-Schätzung gibt es ein allgemeines Problem: Es gibt viele symmetrische Lösungen auch für einschichtige ANNs. Das Umkehren der Vorzeichen der Gewichte für die verborgene Schicht und das Umkehren der Vorzeichen der Aktivierungsparameter für die verborgene Schicht haben beide die gleiche Wahrscheinlichkeit. Darüber hinaus können Sie jeden der ausgeblendeten Knoten permutieren, und diese Permutationen haben auch die gleiche Wahrscheinlichkeit. Dies ist insofern von Bedeutung, als Sie bestätigen müssen, dass Sie die Identifizierbarkeit aufgeben. Wenn die Identifizierbarkeit nicht wichtig ist, können Sie einfach akzeptieren, dass diese alternativen Lösungen nur Reflexionen und / oder Permutationen voneinander sind.

    Dies steht im Gegensatz zur klassischen Verwendung von MLE in der Statistik, wie z. B. einer OLS-Regression: Das OLS-Problem ist konvex und streng konvex, wenn die Entwurfsmatrix den vollen Rang hat. Starke Konvexität impliziert, dass es einen einzigen, einzigartigen Minimierer gibt.

  2. ANNs neigen dazu, die Daten bei Verwendung einer nicht eingeschränkten Lösung zu übertreffen. Die Gewichte tendieren dazu, vom Ursprung weg zu unplausibel großen Werten zu rasen, die nicht gut verallgemeinern oder neue Daten mit großer Genauigkeit vorhersagen. Das Auferlegen von Gewichtsabnahme- oder anderen Regularisierungsmethoden hat den Effekt, Gewichtsschätzungen gegen Null zu schrumpfen. Dies löst nicht unbedingt das Unbestimmtheitsproblem von (1), kann jedoch die Verallgemeinerung des Netzwerks verbessern.

  3. Die Verlustfunktion ist nicht konvex und die Optimierung kann lokal optimale Lösungen finden, die nicht global optimal sind. Oder vielleicht sind diese Lösungen Sattelpunkte, an denen einige Optimierungsmethoden zum Erliegen kommen. Die Ergebnisse in diesem Artikel zeigen , dass moderne Schätzmethoden dieses Problem umgehen.

  4. In einer klassischen statistischen Umgebung können Bestrafungsmethoden wie elastische Netz-, oder Regularisierung Konvexität zu einem Problem machen, bei dem es an Rangmangel (dh nicht an Konvexität) mangelt. Diese Tatsache erstreckt sich aufgrund des Permutationsproblems in (1) nicht auf die Einstellung des neuronalen Netzwerks. Auch wenn Sie die Norm Ihrer Parameter einschränken, wird die Norm des Parametervektors nicht geändert, wenn Sie die Gewichte vertauschen oder die Vorzeichen symmetrisch umkehren. noch wird es die Wahrscheinlichkeit ändern. Daher bleibt der Verlust für die permutierten oder reflektierten Modelle gleich und das Modell ist immer noch nicht identifiziert.L1L2

Sycorax sagt Reinstate Monica
quelle
2
Ich bitte Sie, sich von Ihren Aussagen zu unterscheiden. Die verschiedenen lokalen Minima, die sich aus Symmetrien ergeben, haben alle die gleiche Qualität, sodass Sie sich darüber überhaupt keine Gedanken machen müssen. Was Sie wahrscheinlich sagen möchten, ist, dass ANNs keine konvexen Verlustfunktionen haben, was die Optimierung komplizierter macht und nicht garantiert, dass ein globales Optimum gefunden wird. In letzter Zeit gab es jedoch einige Beweise dafür, dass ANNs nicht so viele lokale Minima-Probleme haben, sondern eher Sattelpunktprobleme. Siehe z . B. arxiv.org/abs/1412.6544 .
Bayerj
11

Bei Klassifizierungsproblemen ist die Maximierung der Wahrscheinlichkeit die häufigste Methode zum Trainieren eines neuronalen Netzwerks (sowohl überwachte als auch unbeaufsichtigte Modelle).

In der Praxis minimieren wir normalerweise die negative log-Wahrscheinlichkeit (äquivalentes MLE). Die einzige Einschränkung für die Verwendung der negativen Log-Wahrscheinlichkeit besteht darin, eine Ausgabeebene zu haben, die als Wahrscheinlichkeitsverteilung interpretiert werden kann. Üblicherweise wird dazu eine Softmax-Ausgabeschicht verwendet. Man beachte, dass in der Gemeinschaft der neuronalen Netze die negative Log-Wahrscheinlichkeit manchmal als Kreuzentropie bezeichnet wird. Natürlich können Regularisierungsterme hinzugefügt werden (und manchmal als vorherige Verteilung über die Parameter interpretiert werden, in diesem Fall suchen wir das Maximum a posteriori ( MAP )).

AdeB
quelle