Ich versuche, die Allgegenwart der log-Wahrscheinlichkeit (und vielleicht allgemeiner log-Wahrscheinlichkeit) in der Statistik und in der Wahrscheinlichkeitstheorie auf einer tieferen Ebene zu verstehen. Log-Wahrscheinlichkeiten tauchen überall auf: Wir arbeiten normalerweise mit der Log-Wahrscheinlichkeit für die Analyse (z. B. zur Maximierung), die Fisher-Information wird als zweite Ableitung der Log-Wahrscheinlichkeit definiert, Entropie ist eine erwartete Log-Wahrscheinlichkeit , Kullback-Liebler-Divergenz beinhaltet Log-Wahrscheinlichkeiten, die erwartete Teilung ist eine erwartete Log-Wahrscheinlichkeit, etc.
Jetzt schätze ich die vielen praktischen und praktischen Gründe. Viele gebräuchliche und nützliche pdfs stammen aus exponentiellen Familien, was bei der Protokolltransformation zu elegant vereinfachten Begriffen führt. Summen sind einfacher zu verarbeiten als Produkte (besonders zur Unterscheidung). Log-Probs haben einen großen Gleitkomma-Vorteil gegenüber geraden Probs. Durch die Protokolltransformation einer PDF-Datei wird häufig eine nicht konkave Funktion in eine konkave Funktion konvertiert. Aber was ist der theoretische Grund / die Begründung / die Motivation für Holzstichproben?
Betrachten Sie als Beispiel für meine Ratlosigkeit die Fisher-Informationen (FI). Die übliche Erklärung für das Erkennen des FI ist, dass die zweite Ableitung der Log-Wahrscheinlichkeit uns sagt, wie hoch die Log-Ähnlichkeit ist: Eine hochgradig hohe Log-Wahrscheinlichkeit bedeutet, dass der MLE gut spezifiziert ist und wir relativ sicher sind, welchen Wert er hat Während eine nahezu flache logarithmische Struktur (niedrige Krümmung) bedeutet, dass viele verschiedene Parameterwerte (in Bezug auf die logarithmische Wahrscheinlichkeit) nahezu so gut sind wie die MLE, ist unsere MLE unsicherer.
Das ist alles in Ordnung, aber ist es nicht natürlicher, nur die Krümmung der Wahrscheinlichkeitsfunktion selbst zu finden (NICHT log-transformiert)? Auf den ersten Blick erscheint die Betonung der Log-Transformation willkürlich und falsch. Sicher interessieren wir uns mehr für die Krümmung der tatsächlichen Wahrscheinlichkeitsfunktion. Was war Fischers Motivation, stattdessen mit der Score-Funktion und dem Hessischen Log-Likelihood zu arbeiten?
Ist die Antwort einfach, dass wir am Ende asymptotisch gute Ergebnisse aus der Log-Wahrscheinlichkeit haben? ZB Cramer-Rao und Normalität der MLE / posterior. Oder gibt es einen tieferen Grund?
quelle
Antworten:
Es ist wirklich nur eine Annehmlichkeit für die Wahrscheinlichkeit, nichts weiter.
Ich meine die Bequemlichkeit der Summen gegen Produkte: , die Summen sind einfacher zu handhaben in vielerlei Hinsicht, wie differentialtion oder Integration. Es ist keine Annehmlichkeit für exponentielle Familien, versuche ich zu sagen.ln(∏ixi)=∑ilnxi
Wenn Sie sich mit einer Zufallsstichprobe befassen, haben die Wahrscheinlichkeiten die Form: , sodass die Log-Wahrscheinlichkeit dieses Produkt stattdessen in die Summe zerlegt, was einfacher zu manipulieren und zu analysieren ist. Es hilft, dass alles, was uns interessiert, der Punkt des Maximums ist, der Wert am Maximum ist nicht wichtig, da wir jede monotone Transformation wie den Logarithmus anwenden können.L=∏ipi
Auf die Krümmungsintuition. Im Grunde ist es am Ende dasselbe wie die zweite Ableitung der Loglikelihood.
UPDATE: Das habe ich mit der Krümmung gemeint. Wenn Sie eine Funktion , dann wäre ihre Krümmung ( siehe (14) bei Wolfram): κ = f ″ ( x )y=f(x)
Die zweite Ableitung der log-Wahrscheinlichkeit:
Am Punkt des Maximums ist die erste Ableitung offensichtlich Null, so dass wir erhalten: Daher kann ich sagen, dass die Krümmung der Wahrscheinlichkeit und die zweite Ableitung der Loglikelihood sind dasselbe.
Wenn andererseits die erste Ableitung der Wahrscheinlichkeit nicht nur am, sondern um den Punkt des Maximums klein ist, dh die Wahrscheinlichkeitsfunktion ist flach, dann erhalten wir: Nun die flache Wahrscheinlichkeit Das ist für uns nicht gut, weil es das Auffinden des Maximums numerisch schwieriger macht und die maximale Wahrscheinlichkeit nicht besser ist als bei anderen Punkten, dh die Parameterschätzungsfehler sind hoch.
Und wieder haben wir immer noch die Krümmung und die Beziehung der zweiten Ableitung. Warum hat Fisher die Krümmung der Wahrscheinlichkeitsfunktion nicht untersucht? Ich denke, es ist aus dem gleichen Grund der Bequemlichkeit. Es ist einfacher, die Log-Wahrscheinlichkeit aufgrund von Summen anstelle des Produkts zu manipulieren. So konnte er die Krümmung der Wahrscheinlichkeit untersuchen, indem er die zweite Ableitung der Wahrscheinlichkeit analysierte. Obwohl die Gleichung für die Krümmung sehr einfach aussieht , nehmen Sie in Wirklichkeit eine zweite Ableitung des Produkts, die unordentlicher ist als die Summe der zweiten Ableitungen.κmax=f′′(xmax)
UPDATE 2:
Hier ist eine Demonstration. Ich zeichne eine (vollständig erfundene) Wahrscheinlichkeitsfunktion, ihre a) Krümmung und b) die 2. Ableitung ihres Logs. Auf der linken Seite sehen Sie die enge Wahrscheinlichkeit und auf der rechten Seite ist es breit. Sie sehen, wie am Punkt der maximalen Wahrscheinlichkeit a) und b) zusammenlaufen, wie sie sollten. Noch wichtiger ist jedoch, dass Sie die Breite (oder Ebenheit) der Wahrscheinlichkeitsfunktion untersuchen können, indem Sie die 2. Ableitung ihrer logarithmischen Wahrscheinlichkeit untersuchen. Wie ich bereits schrieb, ist letzteres technisch einfacher zu analysieren als ersteres.
Es ist nicht überraschend, dass eine tiefere 2. Ableitung von Loglikelihood-Signalen eine flachere Likelihood-Funktion um ihr Maximum herum aufweist, was für sie nicht erwünscht ist und einen größeren Parameterschätzungsfehler verursacht.
MATLAB-Code für den Fall, dass Sie die Diagramme reproduzieren möchten:
UPDATE 3:
Im obigen Code habe ich eine beliebige glockenförmige Funktion in die Krümmungsgleichung eingefügt und dann die zweite Ableitung ihres Logs berechnet. Ich habe nichts neu skaliert, die Werte stammen direkt aus Gleichungen, um die zuvor erwähnte Äquivalenz zu zeigen.
Hier ist das allererste Papier über die Wahrscheinlichkeit, dass Fisher während seines Studiums veröffentlichte: "Über ein absolutes Kriterium zur Anpassung von Frequenzkurven", Messenger of Mathmatics, 41: 155-160 (1912)
Eine Sache, die zu beachten war, als er die Zeitung las, war, dass er erst mit der Maximum-Likelihood-Schätzung begann und in den folgenden 10 Jahren mehr arbeitete, so dass, soweit ich weiß, selbst der Begriff MLE noch nicht geprägt war.
quelle
Zusätzlicher Punkt . Einige der häufig verwendeten Wahrscheinlichkeitsverteilungen (einschließlich der Normalverteilung, der Exponentialverteilung, der Laplace-Verteilung, um nur einige zu nennen) sind logarithmisch konkav . Dies bedeutet, dass ihr Logarithmus konkav ist. Dies macht das Maximieren der log-Wahrscheinlichkeit viel einfacher als das Maximieren der ursprünglichen Wahrscheinlichkeit (was insbesondere bei Maximum-Likelihood- oder Maximum-a-posteriori-Methoden nützlich ist). Beispielsweise kann die Verwendung der Newton-Methode zum direkten Maximieren einer multivariaten Gauß-Verteilung eine große Anzahl von Schritten erfordern, während das Maximieren eines Paraboloids (das Protokoll der multivariaten Gauß-Verteilung) genau einen Schritt erfordert.
quelle
Die theoretische Bedeutung von Log-Likelihood kann aus (mindestens) zwei Perspektiven gesehen werden: der asymptotischen Likelihood-Theorie und der Informationstheorie.
Das frühere davon (glaube ich) ist die asymptotische Theorie der log-Wahrscheinlichkeit. Ich denke, dass die Informationstheorie gut angelaufen ist, nachdem Fisher die maximale Wahrscheinlichkeit für die Dominanz des 20. Jahrhunderts festgelegt hat.
In der Wahrscheinlichkeitstheorie hat eine parabolische logarithmische Wahrscheinlichkeit einen zentralen Platz in der Folgerung. Lucien Le Cam hat eine wichtige Rolle bei der Aufklärung der Bedeutung der quadratischen Log-Wahrscheinlichkeit in der asymptotischen Theorie gespielt.
Wenn Sie eine quadratische log-Wahrscheinlichkeit haben, sagt Ihnen die Krümmung des MLE nicht nur qualitativ aus, wie genau Sie den Parameter schätzen können, sondern wir wissen auch, dass der Fehler normalerweise mit einer Varianz gleich dem Kehrwert der Krümmung verteilt ist. Wenn die log-Wahrscheinlichkeit ungefähr quadratisch ist, dann sagen wir, dass diese Ergebnisse ungefähr oder asymptotisch gelten.
Ein zweiter Grund ist die Bedeutung der logarithmischen Wahrscheinlichkeit (oder logarithmischen Wahrscheinlichkeit) in der Informationstheorie , bei der es sich um die Hauptgröße handelt, mit der der Informationsgehalt gemessen wird.
Die logarithmische Wahrscheinlichkeit ist nicht nur eine nützliche numerische Transformation, sondern auch eng mit der Inferenz- und Informationstheorie verknüpft.
quelle
TLDR: Es ist viel einfacher, Summen abzuleiten als Produkte, da der Derivatoperator linear mit der Summation ist, aber mit dem Produkt müssen Sie die Produktregel erfüllen. Es ist eine lineare Komplexität gegenüber einer Polynomkomplexität höherer Ordnung
quelle