Die maximale Wahrscheinlichkeit ist nicht unverparametrisch. Wie kann man es also rechtfertigen, es zu benutzen?

7

Es gibt etwas, das mich an Max-Likelihood-Schätzern verwirrt. Angenommen, ich habe einige Daten und die Wahrscheinlichkeit unter einem Parameterμ ist

L.(D.|μ)=e- -(.7- -μ)2

Dies ist als die Wahrscheinlichkeit einer Gaußschen Skalierung erkennbar. Jetzt wird mir mein Max-Likelihood-Schätzer gebenμ=.7.

Angenommen, ich wusste das nicht und arbeitete stattdessen mit einem Parameter t so dass μ=Sünde(t). Nehmen wir auch an, dass dies alles numerisch war und ich nicht sofort sehen würde, wie albern die folgende Wahrscheinlichkeit aussieht

L.(D.|t)=e- -(.7- -Sünde(t))2

Jetzt würde ich für die maximale Wahrscheinlichkeit lösen und zusätzliche Lösungen erhalten. Um dies zu sehen, zeichne ich es unten.

Geben Sie hier die Bildbeschreibung ein

Unter diesem Gesichtspunkt scheint Max-Likelihood eine dumme Sache zu sein, da sie nicht invarametrisierungsinvariant ist . Was vermisse ich?

Beachten Sie, dass eine Bayes'sche Analyse dies natürlich berücksichtigen würde, da die Wahrscheinlichkeiten immer mit einem Maß verbunden wären

L.(D.|μ)P.(μ)dμ=L.(D.|μ(t))P.(μ(t))dμdtdt

Teil nach Antworten und Kommentaren hinzugefügt (hinzugefügt am 16.03.2008)

Ich habe später festgestellt, dass mein Beispiel oben nicht gut ist, weil die beiden Maxima in t1,t2 entsprechen .7=Sünde(t1)=Sünde(t2). Sie identifizieren also den gleichen Punkt. Ich habe das Obige für die Diskussion und die Antworten unten aufbewahrt, um einen Sinn zu ergeben. Ich denke jedoch, dass das Folgende ein besseres Beispiel für das Problem ist, das ich herauszufinden versuche.

Nehmen

L.(D.|μ)=e- -(ein- -μ)2

Angenommen, ich parametriere neu μ=μ(t) dann mache eine maximale Wahrscheinlichkeit in Bezug auf t Ich bekomme

L.t=L.μμt

Wenn ich ein Maximum an einem anderen Ort als dem möchte, den ich durch Maximieren in Bezug auf erhalte μ Ich benötige

L.μ0

und

μt=0,L.μ2μt2<0

Somit kann ich ein einfaches Beispiel nehmen

μ=b- -(ein- -b)t2+t3

Ich zeichne die Ergebnisse unten. Das können wir deutlich sehenμ=ein ist das globale Maximum (und nur eines bei der Maximierung in Bezug auf μ) aber wir haben auch andere lokale Maxima bei t=0 wenn wir in Bezug auf maximieren t.

Geben Sie hier die Bildbeschreibung ein

Beachten Sie die Karte μ(t)ist nicht bijektiv, aber ich verstehe nicht, warum es sein muss. Zumindest in diesem Beispiel sind die globalen Maxima immer die beiμ=a aber aus frequentistischer Sicht wäre ich nicht verpflichtet, einen gewichteten Durchschnitt von 1 / 1,6 von zu nehmen μ=a und .6 / 1.6 von μ=b (das entspricht t=0) wenn ich komplett in der gearbeitet habe t Platz?

Borun Chowdhury
quelle
11
Im Gegenteil, die Lösung ist unveränderlich. Die richtige Formulierung ist, dass alle Wertet die minimieren L(μ(t)) entsprechen Werten von μ das minimieren L(μ)- was allein aus der Notation ersichtlich sein sollte. Damit dieses Ergebnis erhalten bleibt, spielt es keine Rolle, obμumkehrbar ist, ein Eins-zu-eins, kontinuierlich, oder irgendetwas anderes, denn am Ende alles , was wir diskutieren , ist , wie man nennt die Verteilung (n) , für die die Wahrscheinlichkeit am größten ist. "Eine Rose mit einem anderen Namen riecht genauso süß."
whuber
Ich musste bearbeiten, da mein Beispiel nicht gut war. Neues Beispiel istL=e(aμ)2 und μ=b(ab)t2+t3. Dies ergibt ein zusätzliches "lokales" Maximum beit=0. Die Wahrscheinlichkeit ist nicht bimodal, sollte man also nicht den gewichteten Durchschnitt nehmen? Wenn ja, würde dies die Lösung nicht unveränderlich machen.
Borun Chowdhury
@whuber Ich stimme zu, dass, da die Wahrscheinlichkeit ein Skalar ist, die globalen Maxima bei Umparametrierung unveränderlich sind, genau wie eine Rose mit einem anderen Namen genauso süß riecht. Ich habe mehr über die Möglichkeit gesprochen, mehrere lokale Maxima zu generieren und dann zu rechtfertigen, den gewichteten Durchschnitt nicht zu nehmen.
Borun Chowdhury
Kein Durchschnitt würde notwendigerweise überhaupt einen Sinn ergeben, denn am Ende beschreiben Sie eher Verteilungen als Zahlen beschreiben. In Ihrer Viele-zu-Eins-Transformation sollten Sie dieselbe Verteilung mit sich selbst "mitteln" - da alle Maxima derselben Verteilung entsprechen -, aber der Durchschnitt der numerischen "Namen", die Sie diesen Verteilungen zugewiesen haben, wäre bedeutungslos .
whuber

Antworten:

15

Wenn Sie sich Ihr Diagramm ansehen, sieht es so aus t^{0.7753975,2.346194} ist eine ziemlich vernünftige Vermutung über die MLE (s) von t. Ausführen dieser Werte durch diesin Funktion, um zurück zu kommen μ führt zu μ^={0.7,0.7} oder 0.7, genau wie es sollte. Es gibt also keine Meinungsverschiedenheiten zwischen der MLE vonμ und die MLE (s) von t.

Was passiert ist, dass Sie eine Karte aus erstellt haben μtdas ist nicht 1-1. In diesem Fall ist der wahre Wert vonμ Zuordnungen zu mehreren Werten von tEs überrascht also nicht, dass Sie bei der Arbeit mit mehreren Maxima arbeiten t. Beachten Sie jedoch, dass dies dasselbe wäre, wenn Sie eine Bayes'sche Analyse durchführen würden, es sei denn, Ihre vorherige Einschränkungt auf das Intervall [π/2,π/2)oder solche. Wenn Sie dies getan haben, sollten Sie aus Gründen der Vergleichbarkeit den Bereich der MLE von einschränkent In diesem Fall erhalten Sie nicht mehr mehrere Maxima für die Wahrscheinlichkeitsfunktion.

ETA: Im Nachhinein habe ich mich zu sehr auf die Erklärung am Beispiel konzentriert und nicht genug auf das zugrunde liegende Prinzip. Man kann es kaum besser machen als @ whubers Kommentar als Antwort auf das OP in dieser Hinsicht.

Im Allgemeinen, wenn Sie einen Parameter haben θ und eine zugehörige MLE θ^und Sie konstruieren eine Funktion θ=f(t)Sie haben effektiv einen alternativen Parameter erstellt t. Die MLE vont, beschrifte es t^werden die Werte von sein t so dass f(t)=θ^dh f(t^)=θ^.

Jbowman
quelle
Ich stimme zu, dass mein Beispiel nicht ganz so ist, wie ich es erwartet hatte. Ich habe es auf dem Heimweg gemerkt. Ein besseres Beispiel istμ=bt2+t3. Hier bekommen wir Maxima fürt das ist nicht zugeordnet μ=.7 (es hängt davon ab b). Trotzdem ist es auch nicht bijektiv.
Borun Chowdhury
Ich verstehe nicht, warum die Parametrisierung bijektiv sein muss. Tatsächlich frage ich nicht, welche Parametrisierungen durchgeführt werden können, um dieselbe Antwort zu geben, sondern warum die maximale Wahrscheinlichkeit verwendet wird, wenn sie nicht unverparametrisch ist.
Borun Chowdhury
Einige meiner besten Gedanken werden im Berufsverkehr gemacht ... Können Sie sich eine einfallen lassen? μ, b und t für welche μ=bt2+t3 führt beim Einstecken zu unterschiedlichen Werten für die Wahrscheinlichkeitsfunktion μ in als wenn Sie einstecken bt2+t3 anstelle von μ? Ich vermute nicht ... siehe @ whubers Kommentar oben.
Jbowman
Mein Punkt über die Nicht-1-1-Natur Ihrer Funktion ist nicht, dass sie überhaupt nicht funktioniert, sondern dass dies für die Multimodalität der Wahrscheinlichkeitsfunktion verantwortlich ist t (Nun, das und das ist die Funktion nicht 1-1 bei μ, was deutlich restriktiver ist.)
Jbowman
Ich habe das oben genannte Beispiel bearbeitet. ich nahmμ=b(ab)t2+t3. Dann solangeab Es gibt ein zusätzliches 'lokales' Maximum bei t=0(μ=b). Obwohl es sich um ein lokales Maximum handelt, sollte die maximale Wahrscheinlichkeit ein gewichteter Durchschnitt von sein, da seine Höhe vergleichbar istμ=a,b(Ich vermute, dass dies für die bimodale Max-Likelihood getan wird).
Borun Chowdhury
1

Da meine vorherige Antwort nicht ganz klar war, ob Bijektivität notwendig ist oder nicht (man könnte argumentieren, dass meine Antwort einfach falsch war). Ich habe einige Nachforschungen über die ganze Reparatur angestellt und hier ist, was ich herausgefunden habe. Sowohl @whuber als auch @jbowman berühren einige der gleichen Dinge.

Theorie

Theoretisch also der Maximum-Likelihood-Schätzer θ^ der Wahrscheinlichkeitsfunktion L(θ)ist für die Neuparametrisierung unveränderlich. Angenommen, Sie haben eine bekannte Funktiong, die neu parametrisiert θ in λ=g(θ) (wo die Abmessungen von θ und λ sind nicht unbedingt gleich). Dann gelten zwei Tatsachen:

  • Maximieren L(θ) wrt. θdas heißt, die MLE finden, θ^und dann neu parametrisieren, g(θ^)ergibt die MLE von λ^. Zusamenfassend,λ^=g(θ^).
  • Weiter, wenn g hat eine Umkehrung, Maximierung L(g1(λ)) wrt. λdas heißt, die MLE finden λ^ ergibt das gleiche Maximum wie θ^. Also die MLE vonθ ist θ^=g1(λ^).

Das Aufteilen der Invarianz in diese beiden Unterfälle kann etwas künstlich erscheinen, aber ich finde es nützlich, da sie zwei verschiedene Anwendungsfälle der Neuparametrisierung darstellen.

In der Praxis

Der erste Anwendungsfall besteht darin, dass Sie die MLE für einen Parameter irgendwie identifizieren können, aber tatsächlich eine bestimmte Transformation dieser Variablen benötigen. Zum Beispiel haben Sie einen Schätzer,σ^, für den Parameter σ in der Normalverteilung, aber Sie sind tatsächlich an der MLE für die Varianz interessiert σ2. Dann können Sie das Invarianzprinzip verwenden und einfach das Quadrat ausrichtenσ-MLE, σ2^=(σ^)2.

Ein Beispiel für den zweiten Anwendungsfall ist, dass Sie einen numerischen Algorithmus wie Gradientenabstieg oder Newton-Raphson haben, um die Wahrscheinlichkeitsfunktion zu maximieren. Angenommen, Sie möchten den Parameter schätzenσ2aus einer Normalverteilung. Der Parameter ist per Definition streng positiv, aber mit dem numerischen Verfahren können Sie keine Einschränkungen vornehmen. Nun, Sie können die Invarianzeigenschaft zum Festlegen verwendenσ2=exp(λ) und lassen Sie den Algorithmus variieren λ anstatt σ2auf diese Weise sicherstellen, dass σ2bleibt positiv. Das Exponential ist bijektiv, aber dies ist nicht unbedingt erforderlich. Wir hätten gebrauchen könnenσ2=λ2 stattdessen ist das nicht bijektiv. Die Verwendung einer Bijektion ist jedoch praktischer, da wir davon ausgehen könnenσ2 zu λ und zurück auf einzigartige Weise.

Die Formalitäten

Um die MLE von zu definieren λformeller müssen wir definieren, was als Profilwahrscheinlichkeitsfunktion bezeichnet wird als:

L(λ)=supθ|λ=g(θ)L(θ).

Also für eine gegebene λ-Wert den Profilwahrscheinlichkeitswert, ist das höchste über alles θ's die dafür sorgen g(θ) gleich λ.

Mit der definierten Profilwahrscheinlichkeit können wir dann die MLE für definieren λbezeichnet λ^als der Wert, der maximiert L(λ).

Mit diesen Definitionen läuft die Invarianz der Reparametrisierung auf Folgendes hinaus:

L(λ^)=L(θ^)

was bewiesen werden kann durch,

L(λ^)=maxλL(λ)=maxλsupθ|λ=g(θ)L(θ)=supθL(θ)=maxθL(θ)

wo ich das angenommen habe L(θ) hat ein Maximum.

Wenn die Neuparametrisierung eine Bijektion ist, dh invertierbar ist, dann L(λ) ist einfach L(g(θ)) Seit jeder θ eindeutig Karten zu a λund daher das Supremum über "alle" θist einfach zum Einzigartigen zusammengebrochen L(θ). Also, wir verstehen das,

L(λ)=L(g(θ))L(g1(λ))=L(θ)
und daher,

θ^=g1(λ^).
Verweise:

Invarianzeigenschaft von MLE: Was ist die MLE von θ2 von normalem, X¯2?

http://www.stats.ox.ac.uk/~dlunn/b8_02/b8pdf_6.pdf

http://www.stat.unc.edu/faculty/cji/lecture7.pdf

https://en.wikipedia.org/wiki/Maximum_likelihood_estimation#Functional_invariance

Duffau
quelle