Ich habe gerade angefangen, etwas über Statistiken und Models zu lernen. Nach meinem derzeitigen Verständnis verwenden wir MLE, um die besten Parameter für ein Modell zu schätzen. Wenn ich jedoch zu verstehen versuche, wie die neuronalen Netze funktionieren, scheint es, als würden sie stattdessen häufig einen anderen Ansatz verwenden, um die Parameter abzuschätzen. Warum verwenden wir MLE nicht oder ist es überhaupt möglich, MLE zu verwenden?
Bei Klassifizierungsproblemen ist die Maximierung der Wahrscheinlichkeit die häufigste Methode zum Trainieren eines neuronalen Netzwerks (sowohl überwachte als auch unbeaufsichtigte Modelle).
In der Praxis minimieren wir normalerweise die negative log-Wahrscheinlichkeit (äquivalentes MLE). Die einzige Einschränkung für die Verwendung der negativen Log-Wahrscheinlichkeit besteht darin, eine Ausgabeebene zu haben, die als Wahrscheinlichkeitsverteilung interpretiert werden kann. Üblicherweise wird dazu eine Softmax-Ausgabeschicht verwendet. Man beachte, dass in der Gemeinschaft der neuronalen Netze die negative Log-Wahrscheinlichkeit manchmal als Kreuzentropie bezeichnet wird. Natürlich können Regularisierungsterme hinzugefügt werden (und manchmal als vorherige Verteilung über die Parameter interpretiert werden, in diesem Fall suchen wir das Maximum a posteriori ( MAP )).
quelle