Ich verstehe, dass bei einer Reihe von unabhängigen Beobachtungen der Maximum Likelihood Estimator (oder äquivalent der MAP mit flachem / einheitlichem Prior), der die Parameter \ mathbf {θ} identifiziert , die die Modellverteilung p_ {model} \ erzeugen links (\, \ cdot \ ,; \ mathbf {θ} \ rechts) , die diesen Beobachtungen am besten entspricht, ist
oder bequemer
und sehen Sie die Rolle, die bei der Definition einer Verlustfunktion für tiefe neuronale Netze mit mehreren Klassen spielen kann, in der den trainierbaren Parametern des Netzwerks entspricht (z. B. und die Beobachtungen sind die Paare von Eingabeaktivierungen und die entsprechenden korrekten Klassenbezeichnungen , = { }, indem Sie nehmen
Was ich nicht verstehe, ist, wie dies mit der sogenannten "Kreuzentropie" der (vektorisierten) korrekten Ausgabe und den entsprechenden Ausgabeaktivierungen des Netzwerks , die in der Praxis verwendet wird , wenn die Fehlermess / Verlust während des Trainings . Es gibt mehrere verwandte Probleme:
Aktivierungen "als Wahrscheinlichkeiten"
Einer der Schritte zum Herstellen der Beziehung zwischen MLE und Kreuzentropie besteht darin, die Ausgabeaktivierungen "als ob" Wahrscheinlichkeiten zu verwenden. Aber mir ist nicht klar, dass sie es sind oder zumindest, dass sie es sind.
Bei der Berechnung des Trainingsfehlers - insbesondere bei der Bezeichnung "Kreuzentropieverlust" - wird davon ausgegangen, dass (nach Normalisierung der Aktivierungen auf 1 summiert)
oder
damit wir schreiben können
und somit
Aber während dies sicherlich einer Wahrscheinlichkeit macht (soweit etwas vorhanden ist), ist es dies legt keine Einschränkungen für die anderen Aktivierungen fest.
Kann man in diesem Fall wirklich sagen, dass PMFs sind? Gibt es irgendetwas, das die nicht tatsächlich Wahrscheinlichkeiten macht (und sie lediglich "mag")? )?
Beschränkung auf Kategorisierung
Der obige entscheidende Schritt bei der Gleichsetzung von MLE mit Kreuzentropie beruht vollständig auf der "One-Hot" -Struktur von , die ein (Single-Label-) Mehrklassen-Lernproblem charakterisiert. Jede andere Struktur für würde es unmöglich machen, von nach .
Ist die Gleichung von MLE und Kreuzentropieminimierung auf Fälle beschränkt, in denen "one-hot" ist?
Unterschiedliche Trainings- und Vorhersagewahrscheinlichkeiten
Während der Vorhersage ist dies fast immer der Fall
Dies führt zu korrekten Vorhersagewahrscheinlichkeiten, die sich von den während des Trainings erlernten Wahrscheinlichkeiten unterscheiden, es sei denn, dies ist zuverlässig der Fall
Ist das jemals zuverlässig der Fall? Ist es wahrscheinlich zumindest annähernd wahr? Oder gibt es ein anderes Argument, das diese Gleichung des Wertes der gelernten Aktivierung an der Etikettenposition mit der Wahrscheinlichkeit rechtfertigt, dass der Maximalwert der gelernten Aktivierungen dort auftritt?
Entropie- und Informationstheorie
Selbst wenn angenommen wird, dass die oben genannten Bedenken berücksichtigt werden und die Aktivierungen gültige PMFs sind (oder sinnvoll als solche behandelt werden können), so dass die Rolle der Kreuzentropie bei der Berechnung von unproblematisch ist, ist dies nicht klar Ich, warum es hilfreich oder sinnvoll ist, über die Entropie von zu sprechen , da die Shanon-Entropie für eine bestimmte gilt Art der Codierung , die nicht zum Trainieren des Netzwerks verwendet wird.
Welche Rolle spielt die informationstheoretische Entropie bei der Interpretation der Kostenfunktion, anstatt lediglich ein Werkzeug (in Form einer Kreuzentropie) zur Berechnung eines Werkzeugs (das MLE entspricht) bereitzustellen?
softmax_cross_entropy_with_logits
tun APIs wie TensorFlow : Sie berechnen und damit , das ein Netzwerk definiert, das "entworfen" ist, um Wahrscheinlichkeiten zu erzeugen (zumindest am Etikettenort). Nein?Ich werde aus einer etwas allgemeineren Perspektive antworten, in Bezug auf die Art und Weise, wie, wann und warum wir NN-Ausgaben als Wahrscheinlichkeitsverteilungen betrachten können.
In dem Sinne , dass die softmax die Ausgänge erzwingen bis 1 zu summieren und auch nicht negativ sein, wird der Ausgang des Netzes ist eine diskrete Wahrscheinlichkeitsverteilung über die Klassen, oder zumindest kann als solche interpretiert werden. Daher ist es durchaus sinnvoll, über Kreuzentropien und maximale Wahrscheinlichkeiten zu sprechen.
Ich denke jedoch, dass Sie sehen (und es ist richtig), dass die "Wahrscheinlichkeiten" der Ausgabe möglicherweise nichts mit der tatsächlichen Wahrscheinlichkeit der Korrektheit zu tun haben . Dies ist ein bekanntes Problem in ML, das als Kalibrierung bezeichnet wird . Wenn Ihr Klassifikator von Hunden und Katzen sagt , würden Sie dies erwarten, wenn Sie eine Reihe von Beispielen all das hatte , dann rund 30% der Eingaben wird falsch klassifiziert würde (da es nur 70% zuversichtlich war).fθ D C fθ(xi,C)=P(xi=C|θ)=0.7 S={xj} P(xj=C|θ)=0.7
Es stellt sich jedoch heraus, dass moderne Trainingsmethoden dies überhaupt nicht erzwingen! Siehe Guo et al., Zur Kalibrierung moderner neuronaler Netze , um eine Diskussion darüber zu sehen.
Mit anderen Worten, die "Wahrscheinlichkeit" der Ausgabe von Softmax hat möglicherweise nichts mit dem tatsächlichen Modellvertrauen zu tun. Und das ist keine Überraschung: Wir wollen lediglich unsere Genauigkeit maximieren, und jedes Eingabebeispiel hat eine Wahrscheinlichkeit von 1, seine Zielklasse zu sein. Es gibt wenig Anreize für das Modell, dies richtig zu machen. Wenn es die Unsicherheit nicht abschätzen muss, warum sollte es dann? Kreuzentropie behebt dieses Problem nicht. in der Tat sagen Sie ihm, dass er jedes Mal zu einer Delta-Funktion gehen soll!
Viele neuere Arbeiten zu Bayes'schen neuronalen Netzen versuchen, dieses Problem zu beheben. Solche Modelle verwenden eine Verteilung über Parameter, wenn die Daten , die integriert werden können, um eine tatsächliche Wahrscheinlichkeitsverteilung . Dies trägt dazu bei, nützliche Unsicherheitsmessungen und eine bessere Kalibrierung zu gewährleisten. Es ist jedoch rechnerisch problematischer.P(θ|X)=P(X|θ)P(θ)/P(X) P(yi|xi,X)=∫P(yi|θ,xi)P(θ|X)dθ
Hoffentlich habe ich deine Frage nicht falsch verstanden!
quelle
Feed-Forward-Neuronale Netze approximieren die wahren Klassenwahrscheinlichkeiten, wenn sie richtig trainiert werden.
1991 haben Richard & Lippmann bewiesen, dass sich Feed-Forward-Neuronale Netze den Wahrscheinlichkeiten der hinteren Klasse nähern, wenn sie mit {0,1} Klassenindikator-Zielmustern trainiert werden [ Richard MD, & Lippmann RP (1991). Neuronale Netzwerkklassifikatoren schätzen die Bayes'schen a posteriori-Wahrscheinlichkeiten. Neural Computation, 3, 461–483. ]. In ihrer Beweislinie verwenden sie vorwärtsgerichtete neuronale Netze mit einer verborgenen Schicht.
Definieren Sie in der mathematischen Annotation von Duda & Hart [ Duda RO & Hart PE (1973) Musterklassifizierung und Szenenanalyse, Wiley ] die Merkmalsverteilungen, die als Eingabevektor für das Feed-Forward-Neuronale Netzwerk bereitgestellt werden, als , wobei beispielsweise der für eine Klassifizierungsaufgabe mit 4 Merkmalsvariablen gleich ist. Der Index gibt die möglichen Klassen .P(x∣ωi) x=(0.2,10.2,0,2) i n i∈{1,…,n}
Der Feed-Forward-Klassifikator für neuronale Netze lernt die hinteren Wahrscheinlichkeiten , wenn er durch Gradientenabstieg trainiert wird. Die gewünschten Ausgangsmuster Bedürfnisse beispielsweise seine , für ein Zwei-Klassen - Klassifikationsproblem. Das vorwärtsgerichtete neuronale Netzwerk hat einen Ausgangsknoten pro Klasse. Der Vektor zeigt an, dass der beobachtete Merkmalsvektor zur 2. Klasse gehört.P^(ωi∣x) o=(0,1) (0,1)
quelle
Die Log-Wahrscheinlichkeit ist im Kontext Ihrer Frage nicht direkt mit der Entropie verknüpft. Die Ähnlichkeit ist oberflächlich: Beide haben die Summen von Logarithmen wahrscheinlichkeitsähnlicher Größen.
Der Logarithmus in Log-Likelihood (MLE) erfolgt ausschließlich aus numerischen Berechnungsgründen. Das Produkt der Wahrscheinlichkeiten kann eine sehr kleine Zahl sein, insbesondere wenn Ihre Stichprobe groß ist. Dann reicht der Bereich der Wahrscheinlichkeiten von 1 bis zum verschwindend kleinen Wert eines Produkts. Wenn Sie das Protokoll erhalten, wird das Produkt zu einer Summe, und die Protokollfunktion komprimiert den Wertebereich auf eine kleinere, besser verwaltbare Domäne. Der Logarithmus ist eine monotone Funktion, daher ergibt das Maximum (min) der Log-Wahrscheinlichkeit die gleiche Antwort auf die Wahrscheinlichkeit selbst. Daher ist das Vorhandensein des Protokolls im MLE-Ausdruck im mathematischen Sinne nicht wichtig und lediglich eine Frage der Zweckmäßigkeit.
Das Vorhandensein einer Logarithmusfunktion in der Entropie ist wesentlich und hat seine Wurzeln in der statistischen Mechanik, einem Zweig der Physik. Es ist mit der Boltzmann- Verteilung verbunden, die in der Theorie der Gase verwendet wird. Sie können den Luftdruck beispielsweise in Abhängigkeit von der Höhe ableiten.
quelle