Warum ist MLE sinnvoll, wenn die Wahrscheinlichkeit einer einzelnen Stichprobe 0 ist?

13

Dies ist ein seltsamer Gedanke, den ich hatte, als ich einige alte Statistiken durchgesehen habe, und aus irgendeinem Grund kann ich mir die Antwort nicht vorstellen.

Ein fortlaufendes PDF zeigt die Dichte der beobachteten Werte in einem bestimmten Bereich an. Wenn beispielsweise XN(μ,σ2) ist, dann ist die Wahrscheinlichkeit, dass eine Realisierung zwischen a und b fällt, einfach abϕ(x)dx wobei ϕ die Dichte der Standardnormalen ist.

Wenn wir darüber nachdenken, eine MLE-Schätzung eines Parameters, beispielsweise von μ , durchzuführen , schreiben wir die gemeinsame Dichte von beispielsweise N Zufallsvariablen X1..XN und differenziere die log-Likelihood wrt zu μ , setze gleich 0 und löse nach μ . Die häufig gegebene Interpretation ist "angesichts der Daten, welche Parameter diese Dichtefunktion am plausibelsten machen".

Der Teil, der mich nervt, ist folgender: Wir haben eine Dichte von N rv, und die Wahrscheinlichkeit, dass wir eine bestimmte Realisierung erhalten, sagen wir, unsere Stichprobe, ist genau 0. Warum ist es überhaupt sinnvoll, die Fugendichte angesichts unserer Daten zu maximieren ( da ist die wahrscheinlichkeit, unsere aktuelle probe zu beobachten, wieder genau 0)?

Die einzige Rationalisierung, die ich finden könnte, besteht darin, dass wir das PDF so weit wie möglich um unsere beobachtete Stichprobe schärfen möchten, damit das Integral in der Region (und damit die Wahrscheinlichkeit, Dinge in dieser Region zu beobachten) am höchsten ist.

Alex
quelle
1
Aus dem gleichen Grund verwenden wir Wahrscheinlichkeitsdichten stats.stackexchange.com/q/4220/35989
Tim
Ich verstehe (glaube ich), warum es Sinn macht, Dichten zu verwenden. Was ich nicht verstehe, ist, warum es sinnvoll ist, eine Dichte zu maximieren, die von der Beobachtung einer Probe abhängt, deren Eintrittswahrscheinlichkeit 0 beträgt.
Alex
2
Denn Wahrscheinlichkeitsdichten sagen uns, welche Werte relativ wahrscheinlicher sind als andere.
Tim
Wenn Sie die Zeit haben, die Frage vollständig zu beantworten, wäre dies meiner Meinung nach für mich und die nächste Person hilfreicher.
Alex
Denn zum Glück ist die Wahrscheinlichkeit keine Wahrscheinlichkeit!
AdamO

Antworten:

18

Die Wahrscheinlichkeit einer Stichprobe, Pθ(X=x) , ist gleich Null, und dennoch wird eine Stichprobe durch Ziehen aus einer Wahrscheinlichkeitsverteilung realisiert. Die Wahrscheinlichkeit ist daher das falsche Werkzeug für die Bewertung einer Stichprobe und die Wahrscheinlichkeit ihres Auftretens. Die statistische Wahrscheinlichkeit, wie sie von Fisher (1912) definiert wurde, basiert auf dem einschränkenden Argument der Wahrscheinlichkeit, die Stichprobe x innerhalb eines Intervalls der Länge δ wenn δ gegen Null geht (zitiert nach Aldrich, 1997) :

Aldrich, J. (1997) Statistical Science12, 162-176

bei Renormierung dieser Wahrscheinlichkeit um δ . Der Begriff der Wahrscheinlichkeitsfunktion wird nur in Fisher (1921) und der Begriff der maximalen Wahrscheinlichkeit in Fisher (1922) eingeführt.

Obwohl er unter die Bezeichnung "wahrscheinlichster Wert" fiel und ein Prinzip der inversen Wahrscheinlichkeit (Bayes'sche Inferenz) mit einem flachen Prior verwendete, hatte Carl Friedrich Gauß bereits 1809 einen Maximum-Likelihood-Schätzer für den Varianzparameter einer Normalverteilung abgeleitet. Hald (1999) erwähnt mehrere andere Vorkommen von Maximum-Likelihood-Schätzern vor Fisher's Arbeit von 1912, die das allgemeine Prinzip festlegte.

Eine spätere Rechtfertigung des Maximum-Likelihood-Ansatzes ist, dass, da die renormierte Log-Likelihood einer Stichprobe (x1,,xn)

1ni=1nlogfθ(xi)
konvergiert gegen [Gesetz der großen Zahlen]
E[logfθ(X)]=logfθ(x)f0(x)dx
(wobeif0 die wahre Dichte der iid-Probe bezeichnet), die Maximierung der Wahrscheinlichkeit [als Funktion vonθ ] ist asymptotisch äquivalent zur Minimierung [inθ ] der Kullback-Leibler-Divergenz
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
zwischen der wahren Verteilung der iid-Probe und der Verteilungsfamilie, die durch diefθ thgr ; 's dargestellt wird.

Xi'an
quelle
Danke für die Antwort. Könnten Sie das KL-Argument etwas näher erläutern? Ich verstehe nicht sofort, wie das der Fall ist.
Alex