Diese Frage hat mich lange Zeit verwirrt. Ich verstehe die Verwendung von "log" zur Maximierung der Wahrscheinlichkeit, daher frage ich nicht nach "log".
Meine Frage ist, warum wir diese NLL erfunden haben, da die Maximierung der Protokollwahrscheinlichkeit der Minimierung der "negativen Protokollwahrscheinlichkeit" (NLL) entspricht. Warum nutzen wir die "positive Wahrscheinlichkeit" nicht die ganze Zeit? Unter welchen Umständen wird NLL bevorzugt?
Ich habe hier eine kleine Erklärung gefunden. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , und es scheint die offensichtliche Gleichwertigkeit in der Tiefe zu erklären, löst aber nicht meine Verwirrung.
Jede Erklärung wird geschätzt.
Antworten:
Dies ist eine alternative Antwort: Optimierer in Statistikpaketen minimieren normalerweise das Ergebnis einer Funktion. Wenn Ihre Funktion zuerst den Wahrscheinlichkeitswert angibt, ist es bequemer, den Logarithmus zu verwenden, um den von der Wahrscheinlichkeitsfunktion zurückgegebenen Wert zu verringern. Da dann die Log-Wahrscheinlichkeit und die Likelihood-Funktion den gleichen ansteigenden oder abfallenden Trend aufweisen, können Sie die negative Log-Wahrscheinlichkeit minimieren , um die maximale Wahrscheinlichkeitsschätzung der Funktion, die Sie testen , tatsächlich durchzuführen . Siehe zum Beispiel die
nlminb
Funktion in R hierquelle
Optimierer minimieren normalerweise eine Funktion, daher verwenden wir eine negative Log-Wahrscheinlichkeit als Minimierung, die der Maximierung der Log-Wahrscheinlichkeit oder der Wahrscheinlichkeit selbst entspricht.
Der Vollständigkeit halber möchte ich erwähnen, dass der Logarithmus eine monotone Funktion ist. Das Optimieren einer Funktion ist also dasselbe wie das Optimieren ihres Logarithmus. Das Durchführen der log-Transformation der Wahrscheinlichkeitsfunktion erleichtert die Handhabung (Multiplikation wird zu Summen) und dies ist auch numerisch stabiler. Dies liegt daran, dass die Wahrscheinlichkeit sehr gering sein kann. Wenn Sie eine log-Transformation durchführen, werden diese kleinen Zahlen in größere negative Werte konvertiert, mit denen eine Maschine mit endlicher Präzision besser umgehen kann.
quelle
Hier bedeutet Minimieren, dass der Abstand zwischen zwei Verteilungen auf den niedrigsten Wert verringert wird : der Bernoulli-Zielverteilung und der generierten Ergebnisverteilung. Wir messen den Abstand zweier Verteilungen mit der Kullback-Leibler-Divergenz (auch relative Entropie genannt) und aufgrund der großen Zahlentheorie ist die Minimierung der KL-Divergenz gleichbedeutend mit der Minimierung der Kreuzentropie (entweder Mehrklassen-Kreuzentropie, siehe hier oder binäre Klassifizierung, siehe hier und hier ).
Somit
kann übersetzt werden in
Das Maximieren der logarithmischen Wahrscheinlichkeit entspricht dem Minimieren des Abstands zwischen zwei Verteilungen, ist also gleichbedeutend mit dem Minimieren der KL-Divergenz und dann der Querentropie.
Ich denke, es ist ziemlich intuitiv geworden.
quelle
Die Antwort ist einfacher als Sie vielleicht denken. Es ist die Konvention, dass wir die Optimierungszielfunktion als "Kostenfunktion" oder "Verlustfunktion" bezeichnen und sie daher eher minimieren als maximieren möchten, und daher wird die negative logarithmische Wahrscheinlichkeit gebildet und nicht die positive Wahrscheinlichkeit in Ihrem Fall Wort. Technisch sind beide aber richtig. Übrigens, wenn wir etwas maximieren wollen, nennen wir es normalerweise "Utility-Funktion" und daher ist das Ziel, sie zu maximieren.
quelle