Theoretische Motivation für die Verwendung von Log-Likelihood vs. Likelihood

18

Ich versuche, die Allgegenwart der log-Wahrscheinlichkeit (und vielleicht allgemeiner log-Wahrscheinlichkeit) in der Statistik und in der Wahrscheinlichkeitstheorie auf einer tieferen Ebene zu verstehen. Log-Wahrscheinlichkeiten tauchen überall auf: Wir arbeiten normalerweise mit der Log-Wahrscheinlichkeit für die Analyse (z. B. zur Maximierung), die Fisher-Information wird als zweite Ableitung der Log-Wahrscheinlichkeit definiert, Entropie ist eine erwartete Log-Wahrscheinlichkeit , Kullback-Liebler-Divergenz beinhaltet Log-Wahrscheinlichkeiten, die erwartete Teilung ist eine erwartete Log-Wahrscheinlichkeit, etc.

Jetzt schätze ich die vielen praktischen und praktischen Gründe. Viele gebräuchliche und nützliche pdfs stammen aus exponentiellen Familien, was bei der Protokolltransformation zu elegant vereinfachten Begriffen führt. Summen sind einfacher zu verarbeiten als Produkte (besonders zur Unterscheidung). Log-Probs haben einen großen Gleitkomma-Vorteil gegenüber geraden Probs. Durch die Protokolltransformation einer PDF-Datei wird häufig eine nicht konkave Funktion in eine konkave Funktion konvertiert. Aber was ist der theoretische Grund / die Begründung / die Motivation für Holzstichproben?

Betrachten Sie als Beispiel für meine Ratlosigkeit die Fisher-Informationen (FI). Die übliche Erklärung für das Erkennen des FI ist, dass die zweite Ableitung der Log-Wahrscheinlichkeit uns sagt, wie hoch die Log-Ähnlichkeit ist: Eine hochgradig hohe Log-Wahrscheinlichkeit bedeutet, dass der MLE gut spezifiziert ist und wir relativ sicher sind, welchen Wert er hat Während eine nahezu flache logarithmische Struktur (niedrige Krümmung) bedeutet, dass viele verschiedene Parameterwerte (in Bezug auf die logarithmische Wahrscheinlichkeit) nahezu so gut sind wie die MLE, ist unsere MLE unsicherer.

Das ist alles in Ordnung, aber ist es nicht natürlicher, nur die Krümmung der Wahrscheinlichkeitsfunktion selbst zu finden (NICHT log-transformiert)? Auf den ersten Blick erscheint die Betonung der Log-Transformation willkürlich und falsch. Sicher interessieren wir uns mehr für die Krümmung der tatsächlichen Wahrscheinlichkeitsfunktion. Was war Fischers Motivation, stattdessen mit der Score-Funktion und dem Hessischen Log-Likelihood zu arbeiten?

Ist die Antwort einfach, dass wir am Ende asymptotisch gute Ergebnisse aus der Log-Wahrscheinlichkeit haben? ZB Cramer-Rao und Normalität der MLE / posterior. Oder gibt es einen tieferen Grund?

Ratsalad
quelle
2
Ich fragte eine ähnliche Frage hier
Haitao Du

Antworten:

13

Es ist wirklich nur eine Annehmlichkeit für die Wahrscheinlichkeit, nichts weiter.

Ich meine die Bequemlichkeit der Summen gegen Produkte: , die Summen sind einfacher zu handhaben in vielerlei Hinsicht, wie differentialtion oder Integration. Es ist keine Annehmlichkeit für exponentielle Familien, versuche ich zu sagen.ln(ixi)=ilnxi

Wenn Sie sich mit einer Zufallsstichprobe befassen, haben die Wahrscheinlichkeiten die Form: , sodass die Log-Wahrscheinlichkeit dieses Produkt stattdessen in die Summe zerlegt, was einfacher zu manipulieren und zu analysieren ist. Es hilft, dass alles, was uns interessiert, der Punkt des Maximums ist, der Wert am Maximum ist nicht wichtig, da wir jede monotone Transformation wie den Logarithmus anwenden können.L=ipi

Auf die Krümmungsintuition. Im Grunde ist es am Ende dasselbe wie die zweite Ableitung der Loglikelihood.

UPDATE: Das habe ich mit der Krümmung gemeint. Wenn Sie eine Funktion , dann wäre ihre Krümmung ( siehe (14) bei Wolfram): κ = f ( x )y=f(x)

κ=f(x)(1+f(x)2)3/2

Die zweite Ableitung der log-Wahrscheinlichkeit:

A=(lnf(x))=f(x)f(x)(f(x)f(x))2

Am Punkt des Maximums ist die erste Ableitung offensichtlich Null, so dass wir erhalten: Daher kann ich sagen, dass die Krümmung der Wahrscheinlichkeit und die zweite Ableitung der Loglikelihood sind dasselbe.

κmax=f(xmax)=Af(xmax)

Wenn andererseits die erste Ableitung der Wahrscheinlichkeit nicht nur am, sondern um den Punkt des Maximums klein ist, dh die Wahrscheinlichkeitsfunktion ist flach, dann erhalten wir: Nun die flache Wahrscheinlichkeit Das ist für uns nicht gut, weil es das Auffinden des Maximums numerisch schwieriger macht und die maximale Wahrscheinlichkeit nicht besser ist als bei anderen Punkten, dh die Parameterschätzungsfehler sind hoch.

κf(x)Af(x)

Und wieder haben wir immer noch die Krümmung und die Beziehung der zweiten Ableitung. Warum hat Fisher die Krümmung der Wahrscheinlichkeitsfunktion nicht untersucht? Ich denke, es ist aus dem gleichen Grund der Bequemlichkeit. Es ist einfacher, die Log-Wahrscheinlichkeit aufgrund von Summen anstelle des Produkts zu manipulieren. So konnte er die Krümmung der Wahrscheinlichkeit untersuchen, indem er die zweite Ableitung der Wahrscheinlichkeit analysierte. Obwohl die Gleichung für die Krümmung sehr einfach aussieht , nehmen Sie in Wirklichkeit eine zweite Ableitung des Produkts, die unordentlicher ist als die Summe der zweiten Ableitungen.κmax=f(xmax)

UPDATE 2:

Hier ist eine Demonstration. Ich zeichne eine (vollständig erfundene) Wahrscheinlichkeitsfunktion, ihre a) Krümmung und b) die 2. Ableitung ihres Logs. Auf der linken Seite sehen Sie die enge Wahrscheinlichkeit und auf der rechten Seite ist es breit. Sie sehen, wie am Punkt der maximalen Wahrscheinlichkeit a) und b) zusammenlaufen, wie sie sollten. Noch wichtiger ist jedoch, dass Sie die Breite (oder Ebenheit) der Wahrscheinlichkeitsfunktion untersuchen können, indem Sie die 2. Ableitung ihrer logarithmischen Wahrscheinlichkeit untersuchen. Wie ich bereits schrieb, ist letzteres technisch einfacher zu analysieren als ersteres.

Es ist nicht überraschend, dass eine tiefere 2. Ableitung von Loglikelihood-Signalen eine flachere Likelihood-Funktion um ihr Maximum herum aufweist, was für sie nicht erwünscht ist und einen größeren Parameterschätzungsfehler verursacht.

Bildbeschreibung hier eingeben

MATLAB-Code für den Fall, dass Sie die Diagramme reproduzieren möchten:

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

UPDATE 3:

Im obigen Code habe ich eine beliebige glockenförmige Funktion in die Krümmungsgleichung eingefügt und dann die zweite Ableitung ihres Logs berechnet. Ich habe nichts neu skaliert, die Werte stammen direkt aus Gleichungen, um die zuvor erwähnte Äquivalenz zu zeigen.

Hier ist das allererste Papier über die Wahrscheinlichkeit, dass Fisher während seines Studiums veröffentlichte: "Über ein absolutes Kriterium zur Anpassung von Frequenzkurven", Messenger of Mathmatics, 41: 155-160 (1912)

logP=1nlogp

logP=logfdx
P

Eine Sache, die zu beachten war, als er die Zeitung las, war, dass er erst mit der Maximum-Likelihood-Schätzung begann und in den folgenden 10 Jahren mehr arbeitete, so dass, soweit ich weiß, selbst der Begriff MLE noch nicht geprägt war.

Aksakal
quelle
5
Ihr letzter Satz (über die Krümmung) deutet darauf hin, dass die Wahrscheinlichkeit von Protokollen wirklich etwas Grundlegendes ist und dass das Aufzeichnen von Protokollen nicht nur eine "Annehmlichkeit" ist. Ich glaube, hier ist viel mehr los, als Sie sich vorstellen.
Whuber
2
Ihre Diskussion über die Krümmung erscheint nicht relevant, da sie eine Analyse der logarithmischen Wahrscheinlichkeit nicht von einer Analyse der Wahrscheinlichkeit selbst unterscheidet. Diese Antwort scheint sich auf "Protokolle sind praktisch" zu beschränken, aber das Problem ist noch viel mehr, als andere Antworten vermuten lassen.
Whuber
f(xmax)f(xmax)=1
Die Verwendung der Log-Wahrscheinlichkeit für die Fisher-Informationen dient also offensichtlich zwei praktischen Zwecken: (1) Log-Wahrscheinlichkeiten sind einfacher zu bearbeiten, und (2) sie ignorieren natürlich den willkürlichen Skalierungsfaktor. Und es gibt die gleiche Antwort wie die 2. Ableitung der geraden Wahrscheinlichkeit. Dies scheint mir ein wichtiger Punkt zu sein, der nicht offensichtlich war und den ich noch nie in einem statistischen Text gesehen habe. Vermutlich war es Fisher bekannt.
Ratsalad
f(xmax)=(lnf(x))f(xmax)
f(xmax)=1
f(xmax)=(lnf(x))
5

Zusätzlicher Punkt . Einige der häufig verwendeten Wahrscheinlichkeitsverteilungen (einschließlich der Normalverteilung, der Exponentialverteilung, der Laplace-Verteilung, um nur einige zu nennen) sind logarithmisch konkav . Dies bedeutet, dass ihr Logarithmus konkav ist. Dies macht das Maximieren der log-Wahrscheinlichkeit viel einfacher als das Maximieren der ursprünglichen Wahrscheinlichkeit (was insbesondere bei Maximum-Likelihood- oder Maximum-a-posteriori-Methoden nützlich ist). Beispielsweise kann die Verwendung der Newton-Methode zum direkten Maximieren einer multivariaten Gauß-Verteilung eine große Anzahl von Schritten erfordern, während das Maximieren eines Paraboloids (das Protokoll der multivariaten Gauß-Verteilung) genau einen Schritt erfordert.

Luca Citi
quelle
2
Nicht so schnell. Siehe Übung 7.4 auf den Seiten 393-394 von web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf
Mark L. Stone,
Das ist nicht log-konkav. Der Gaußsche ist logarithmisch konkav zu seinem Argument oder zu dem mittleren Parameter, nicht zu der Varianz. Wenn Sie auch den Maßstab bestimmen möchten, können Sie eine Normal-Gamma-Verteilung verwenden, die ebenfalls log-konkav ist (wobei die Genauigkeit anstelle der Varianz verwendet wird).
Luca Citi
2
Genau das. Alle Gespräche darüber, wie Protokolle bequemer sind, sind nett, aber Konvexität (oder Konkavität, je nach Perspektive) ist das, was die Protokollwahrscheinlichkeit wirklich als die "richtige" Sache für die Arbeit auszeichnet.
Meni Rosenfeld
2
Beachten Sie, dass ich bereits die Protokollkonkavität im OP erwähnt habe. Dies ist aber immer noch nur eine "Annehmlichkeit", es gibt hier keine theoretische Rechtfertigung für logarithmische Konkavität, und in jedem Fall sind logarithmische Wahrscheinlichkeiten im Allgemeinen nicht logarithmisch konkav.
Ratsalad
1
@ratsalad, ja, du hast recht, es ist Bequemlichkeit. Ich denke, Log-Wahrscheinlichkeiten sind eine zusätzliche Möglichkeit, eine Wahrscheinlichkeitsfunktion zu betrachten. Ich kann nicht sicher sagen, welches besser ist. Wenn Sie [ en.wikipedia.org/wiki/… Measures] anschauen , arbeiten einige effektiv mit der log-Wahrscheinlichkeit (z. B. KL-Divergenz, die effektiv der erwartete Wert der Differenz der log-Wahrscheinlichkeiten ist), andere direkt mit der Wahrscheinlichkeit ( zB KS Abstand).
Luca Citi
4

Die theoretische Bedeutung von Log-Likelihood kann aus (mindestens) zwei Perspektiven gesehen werden: der asymptotischen Likelihood-Theorie und der Informationstheorie.

Das frühere davon (glaube ich) ist die asymptotische Theorie der log-Wahrscheinlichkeit. Ich denke, dass die Informationstheorie gut angelaufen ist, nachdem Fisher die maximale Wahrscheinlichkeit für die Dominanz des 20. Jahrhunderts festgelegt hat.

In der Wahrscheinlichkeitstheorie hat eine parabolische logarithmische Wahrscheinlichkeit einen zentralen Platz in der Folgerung. Lucien Le Cam hat eine wichtige Rolle bei der Aufklärung der Bedeutung der quadratischen Log-Wahrscheinlichkeit in der asymptotischen Theorie gespielt.

Wenn Sie eine quadratische log-Wahrscheinlichkeit haben, sagt Ihnen die Krümmung des MLE nicht nur qualitativ aus, wie genau Sie den Parameter schätzen können, sondern wir wissen auch, dass der Fehler normalerweise mit einer Varianz gleich dem Kehrwert der Krümmung verteilt ist. Wenn die log-Wahrscheinlichkeit ungefähr quadratisch ist, dann sagen wir, dass diese Ergebnisse ungefähr oder asymptotisch gelten.

Ein zweiter Grund ist die Bedeutung der logarithmischen Wahrscheinlichkeit (oder logarithmischen Wahrscheinlichkeit) in der Informationstheorie , bei der es sich um die Hauptgröße handelt, mit der der Informationsgehalt gemessen wird.

ggf(θ)f(θ^)θ^

lnL^

Die logarithmische Wahrscheinlichkeit ist nicht nur eine nützliche numerische Transformation, sondern auch eng mit der Inferenz- und Informationstheorie verknüpft.


quelle
Ihr Hinweis auf die Verwendung von Log-Likelihoods durch die Informationstheorie ist zirkulär. Warum benutzen sie log? Wahrscheinlich aus dem gleichen Grund, besonders wenn man bedenkt, dass die Informationstheorie im Vergleich zur Statistik ein relativ neues Feld ist.
Aksakal
@Aksakal ja und nein. Die Informationstheorie hat ihre Grundlagen teilweise in der statistischen Mechanik und der Entropie gefunden: en.wikipedia.org/wiki/Entropy . Boltzmann definierte die Entropie eines Systems anhand des Logs der Anzahl der Mikrozustände. Warum Protokolle? Weil es Entropie / Information additiv macht (wie deine Antwort darauf hinweist)? Na und? Auf numerischer Ebene eröffnet Linearität / Additivität den Einsatz der leistungsfähigen Methoden der linearen Algebra.
1
@Aksakal jedoch, auf einer grundlegenderen Ebene, verwandelt Additivität Entropie / Information in so etwas wie ein Maß ... ähnlich der Masse. Wenn Sie zwei statistisch unabhängige Systeme kombinieren, ist die Entropie des kombinierten Systems die Summe der Entropie jedes Systems. Hier ist eine nette Erklärung: physics.stackexchange.com/questions/240636/…
1
@Bey Thermodynamische statistische Entropie ergibt sich tatsächlich direkt aus der Boltzmann-Verteilung von Mikrozuständen und klassischem makroskopischem Thermo (die Form der statistischen Entropie war keine "Wahl"). Die Boltzmann-Verteilung selbst ist eine Konsequenz zweier Prämissen: (1) die physikalische Eigenschaft, dass Energien nur bis zu einer beliebigen additiven Konstante spezifiziert werden, und (2) die grundlegende statistische Annahme, dass alle Mikrostaten mit derselben Energie die gleiche Wahrscheinlichkeit haben. Auf der tiefsten Ebene beinhaltet Thermoentropie logarithmische Probleme, da Energie additiv und proportional zu logarithmischem Prob ist.
Ratsalad
2
@ratsalad danke für die Erweiterung ... Wie Sie sehen können, kann es ziemlich weit führen, dass Erklärungen der Log-Wahrscheinlichkeit nicht nur einfach "Logs sind einfacher" sind. Ich benutze Log-Likelihood aus den Gründen, die Aksakal angibt ... Ihr OP hat jedoch nach etwas Tieferem gefragt. Ich habe zwei Beispiele gegeben, die Verbindungen zu anderen Bereichen zeigen, die die Statistik und Wahrscheinlichkeitstheorie beeinflusst haben. Ich denke, die asymptotischen Erklärungen sind direkter, aber Entropie und Wahrscheinlichkeit sind auf eine Weise verknüpft, die Log-Wahrscheinlichkeiten zu Dingen macht, an denen wir interessiert sind, die über die bloße numerische Bequemlichkeit hinausgehen.
0

TLDR: Es ist viel einfacher, Summen abzuleiten als Produkte, da der Derivatoperator linear mit der Summation ist, aber mit dem Produkt müssen Sie die Produktregel erfüllen. Es ist eine lineare Komplexität gegenüber einer Polynomkomplexität höherer Ordnung

Charlie Tian
quelle
3
Das ist es, was die Frage mit "bequem und praktisch" meint. Dies ist bei weitem nicht der einzige oder sogar der Hauptgrund, warum sich die Analyse auf die Log-Wahrscheinlichkeit konzentriert. Überlegen Sie sich beispielsweise, wie der Ausdruck für die Fisher-Information in Bezug auf die Wahrscheinlichkeit und nicht in Bezug auf die Log-Wahrscheinlichkeit aussehen würde.
Whuber
Ja! Sicher; Ich denke, als er sagte, es sei "einfacher", es direkt zu finden, dachte ich, er meinte das Gegenteil davon, weil es sicherlich einfacher ist, es zu finden, nachdem wir die Protokolltransformation angewendet haben.
Charlie Tian