Wie finde ich Schätzungen der maximalen Wahrscheinlichkeit eines ganzzahligen Parameters?

7

HW Frage :

x1,x2,,xn sind unabhängige Gaußsche Variablen mit Mittelwert und Varianz . Definiere wobei unbekannt ist. Wir sind an einer Schätzung von aus interessiert .μσ2y=n=1N.xnN.N.y

ein. Wenn bestimmen Sie seine Vorspannung und Varianz.N.^1=y/.μ

b. Wenn bestimmen Sie seine Vorspannung und Varianz.N.^2=y2/.σ2

Ignorieren der Anforderung, dass eine Ganzzahl sein mussN.

c. Gibt es einen effizienten Schätzer (siehe und )?μ=0μ0

d. Finden Sie die maximale Wahrscheinlichkeitsschätzung von aus .N.y

e. Finden Sie CRLB von aus .N.y

f. Erreicht der mittlere quadratische Fehler der Schätzer CRLB, wenn ?N.^1,N.^2N.

Geben Sie hier die Bildbeschreibung ein

Wenn mich jemand zur Lösung des folgenden Problems führen könnte, wäre es großartig.

Vielen Dank,

Nadav

Nadav Talmon
quelle
Wie ist die Verteilung vonY.=ichX.ich?
BruceET
Es sagt nicht. Ich nehme an, es wird auch als Gaußsche Variable verteilt, da es sich um eine Summe von Gaußschen Variablen handelt
Nadav Talmon
1
Wenn normal sind, sind und normal. Was sind Mittelwert und Varianz von Damit sollte das Problem behoben sein. // In der Praxis ist es wahrscheinlich sinnvoll, auf eine ganze Zahl zu runden . Das könnte einen kleinen Unterschied im Mittelwert und in der Varianz bewirken. Wie viel Unterschied Sie durch Simulation herausfinden können. X.ichY.=ichX.ichN.^=Y./.μN.^?N.^
BruceET
Wäre der nicht der ? Gleiche Logik für den MittelwertV.einr(N.estichmeinted)V.einr(y)/.μ
Nadav Talmon
2
Da ein Integral ist, können Sie Calculus nicht (direkt) verwenden, um das Minimum zu finden. Wenn dies Ihr Hindernis ist, stellen Sie bitte Ihre Arbeit in Ihrer Frage vor, damit wir uns darauf konzentrieren können, wo Sie tatsächlich Hilfe benötigen. N.
whuber

Antworten:

11

Sie haben gut damit begonnen, einen Ausdruck für die Wahrscheinlichkeit aufzuschreiben. Das ist einfacher zu erkennenY, ist die Summe von N unabhängig Normal(μ,σ2) Variablen, hat eine Normalverteilung mit Mittelwert Nμ und Varianz Nσ2, woher ist seine Wahrscheinlichkeit

L(y,N)=12πNσ2exp((yNμ)22Nσ2).

Lassen Sie uns mit seinem negativen Logarithmus arbeiten Λ=logL, deren Minima den Maxima der Wahrscheinlichkeit entsprechen:

2Λ(N)=log(2π)+log(σ2)+log(N)+(yNμ)2Nσ2.

Wir müssen alle ganzen Zahlen finden , die diesen Ausdruck minimieren. Stell dir für einen Moment vor, dassNkönnte eine positive reelle Zahl sein. So wie,2Λ ist eine kontinuierlich differenzierbare Funktion von N. mit Derivat

ddN.2Λ(N.)=1N.- -(y- -N.μ)2σ2N.2- -2μ(y- -N.μ)N.σ2.

Setzen Sie dies mit Null gleich, um nach kritischen Punkten zu suchen, die Nenner zu löschen und eine kleine Algebra durchzuführen, um das Ergebnis zu vereinfachen

(1)μ2N.2+σ2N.- -y2=0

mit einer einzigartigen positiven Lösung (wann μ0)

N.^=12μ2(- -σ2+σ4+4μ2y2).

Es ist einfach, dies als zu überprüfen N. nähert sich 0 oder wird groß, 2Λ(N.) wächst groß, daher wissen wir, dass es kein globales Minimum in der Nähe gibt N.0 noch in der Nähe N.. Damit bleibt nur der eine kritische Punkt, den wir gefunden haben und der daher das globale Minimum sein muss. Außerdem,2Λ muss abnehmen als N.^wird von unten oder oben angefahren. Somit,

Die globalen Minima von Λ muss auf beiden Seiten von zu den beiden ganzen Zahlen gehören N.^.

Dies bietet ein effektives Verfahren zum Ermitteln des Maximum-Likelihood-Schätzers: Es ist entweder der Boden oder die Decke vonN.^(oder gelegentlich beide !), also rechnen SieN.^ und wählen Sie einfach, welche dieser ganzen Zahlen macht 2Λ kleinste.

Lassen Sie uns eine Pause einlegen, um zu überprüfen, ob dieses Ergebnis sinnvoll ist. In zwei Situationen gibt es eine intuitive Lösung:

  1. Wann μ ist viel größer als σ, Y. wird in der Nähe sein μ, woher eine anständige Schätzung von N. wäre einfach |Y./.μ|. In solchen Fällen können wir die MLE durch Vernachlässigung approximieren σ2, geben (wie erwartet)

    N^=12μ2(σ2+σ4+4μ2y2)12μ24μ2y2=|yμ|.

  2. Wann σ ist viel größer als μ, Ykönnte überall verteilt sein, aber im Durchschnitt Y2 sollte in der Nähe sein σ2, woher eine intuitive Schätzung von N wäre einfach y2/σ2. In der Tat zu vernachlässigen μ in Gleichung (1) gibt die erwartete Lösung

    N^y2σ2.

In beiden Fällen stimmt die MLE mit der Intuition überein, was darauf hinweist, dass wir sie wahrscheinlich richtig ausgearbeitet haben. Die interessanten Situationen treten dann auf, wennμ und σsind von vergleichbarer Größe. Intuition kann hier wenig helfen.


Um dies weiter zu untersuchen, habe ich drei Situationen simuliert, in denenσ/μ ist 1/3, 1, oder 3. Es ist egal was μ ist (solange es ungleich Null ist), also habe ich genommen μ=1. In jeder Situation habe ich einen Zufall generiert Y für die Fälle N=2,4,8,16, dies unabhängig fünftausend Mal tun.

Diese Histogramme fassen die MLEs von zusammen N. Die vertikalen Linien markieren die wahren Werte vonN.

Zahl

Im Durchschnitt scheint die MLE ungefähr richtig zu sein. WannσIst der MLE relativ klein, ist er in der Regel genau: Das zeigen die schmalen Histogramme in der oberen Reihe. Wannσ|μ|,Die MLE ist ziemlich unsicher. Wannσ|μ|, die MLE kann oft sein N^=1 und manchmal kann mehrmals sein N (besonders wenn Nist klein). Diese Beobachtungen stimmen mit den Vorhersagen der vorhergehenden intuitiven Analyse überein.


Der Schlüssel zur Simulation ist die Implementierung des MLE. Es muss gelöst werden(1) sowie auswerten Λ für gegebene Werte von Y, μ, und σ. Die einzige neue Idee, die hier reflektiert wird, ist das Überprüfen der ganzen Zahlen auf beiden Seiten von N^. Die letzten beiden Zeilen der Funktion fführen diese Berechnung mit Hilfe der lambdaBewertung der Protokollwahrscheinlichkeit durch.

lambda <- Vectorize(function(y, N, mu, sigma) {
  (log(N) + (y-mu*N)^2 / (N * sigma^2))/2
}, "N") # The negative log likelihood (without additive constant terms)

f <- function(y, mu, sigma) {
  if (mu==0) {
    N.hat <- y^2 / sigma^2
  } else {
    N.hat <- (sqrt(sigma^4 + 4*mu^2*y^2) - sigma^2) / (2*mu^2)
  }
  N.hat <- c(floor(N.hat), ceiling(N.hat))
  q <- lambda(y, N.hat, mu, sigma)
  N.hat[which.min(q)]
} # The ML estimator
whuber
quelle
1
Ich hätte mir keine bessere Erklärung wünschen können. Vielen Dank, Sie haben buchstäblich alles abgedeckt!
Nadav Talmon
Jetzt muss ich sagen, ob es einen effizienten Schätzer gibt (z μ!=0 und μ=0). Ich weiß, dass ein Schätzer, der unvoreingenommen ist und die CRLB beantwortet, effizienter ist. Ich weiß, dass es unvoreingenommen ist, aber die zweite Ableitung der L-Funktion zu nehmen scheint mir nichts zu bringen.
Nadav Talmon
Ignoriere die Tatsache, dass Nist ganzheitlich: Das heißt, die Schätzung darf das globale Minimum der negativen Log-Likelihood-Funktion sein. Weiter von dort.
whuber
Ich habe die von Ihnen vorgeschlagene Ableitung der negativen Log-Likelihood-Funktion verwendet und versucht, den folgenden Ausdruck zu erhalten: C(N)×(g(y)N) Ich habe das geschafft μ=0 aber nicht an μ!=0 Deshalb hatten wir eine einzigartige positive Lösung μ!=0?
Nadav Talmon
Das glaube ich nicht. Ich finde es einfacher, das Problem in Bezug auf neu zu parametrisierenθ=1/N, denn dann ist die Ableitung der logarithmischen Wahrscheinlichkeit eine quadratische Funktion von θ.
whuber
5

Die Methode, die Whuber in seiner ausgezeichneten Antwort verwendet hat, ist ein gängiger Optimierungs- "Trick", bei dem die Wahrscheinlichkeitsfunktion erweitert wird, um reale Werte von zuzulassenN.und dann Verwenden der Konkavität der logarithmischen Wahrscheinlichkeit, um zu zeigen, dass der diskrete Maximierungswert einer der diskreten Werte auf beiden Seiten eines kontinuierlichen Optimas ist. Dies ist eine häufig verwendete Methode bei diskreten MLE-Problemen, die eine konkave Log-Likelihood-Funktion beinhalten. Sein Wert liegt in der Tatsache, dass es normalerweise möglich ist, einen einfachen Ausdruck in geschlossener Form für die kontinuierlichen Optima zu erhalten.

Der Vollständigkeit halber werde ich Ihnen in dieser Antwort eine alternative Methode zeigen, die diskrete Berechnungen unter Verwendung des Vorwärtsdifferenzoperators verwendet . Die Log-Likelihood-Funktion für dieses Problem ist die diskrete Funktion:

y(N.)=- -12[ln(2π)+ln(σ2)+ln(N.)+(y- -N.μ)2N.σ2]]zum N.N..

Der erste Vorwärtsunterschied der Log-Wahrscheinlichkeit ist:

Δy(N)=12[ln(N+1)ln(N)+(yNμμ)2(N+1)σ2(yNμ)2Nσ2]=12[ln(N+1N)+N(yNμμ)2(N+1)(yNμ)2N(N+1)σ2]=12[ln(N+1N)+[N(yNμ)22N(yNμ)μ+Nμ2][N(yNμ)2+(yNμ)2]N(N+1)σ2]=12[ln(N+1N)(y+Nμ)(yNμ)Nμ2N(N+1)σ2].

Mit ein bisschen Algebra kann gezeigt werden, dass die zweite Vorwärtsdifferenz ist:

Δ2y(N)=12[ln(N+2N)+2N(N+1)μ2+2(y+Nμ)(yNμ)N(N+1)(N+2)σ2]<0.

Dies zeigt, dass die Log-Likelihood-Funktion konkav ist, also der kleinste Maximierungspunkt N^ wird sein:

N^=min{NN|Δy(N)0}=min{NN|ln(N+1N)(y+Nμ)(yNμ)Nμ2N(N+1)σ2}.

(The next value will also be a maximising point if and only if Δy(N^)=0.) Der MLE (entweder der kleinste oder der gesamte Satz) kann als Funktion über eine einfache whileSchleife programmiert werden , und dies sollte in der Lage sein, Ihnen die Lösung ziemlich schnell zu geben. Ich werde den Programmierteil als Übung verlassen.

Ben - Monica wieder einsetzen
quelle
Ich schätze Ihre Zeit und die gründliche Erklärung. Danke @Ben!
Nadav Talmon
1

Kommentar: Hier ist eine kurze Simulation in R fürμ=50,σ=3, Dies sollte auf zwei oder drei Stellen genau sein und sich dem Mittelwert und der SD von annähern Y.. Sie sollten in der Lage sein zu finden E.(Y.) und V.einr(Y.) durch elementare analytische Methoden, wie in meinem früheren Kommentar angegeben. Wenn wir hättenN.=100 dann E.(N.^) scheint unvoreingenommen für N..

N = 100;  mu = 50;  sg = 3
y = replicate( 10^6, sum(rnorm(N, mu, sg))/mu )
mean(y);  sd(y)
[1] 99.99997
[1] 0.6001208
N.est = round(y);  mean(N.est);  sd(N.est)
[1] 99.9998
[1] 0.6649131
BruceET
quelle
Vielen Dank, Bruce!
Nadav Talmon
Darf ich noch eine Frage stellen? Jetzt werde ich gefragt, ob es einen effizienten Schätzer für das gibt, was ich gefunden habe. Außerdem heißt es, dass wir jetzt die Anforderung ignorieren, dass N eine ganze Zahl sein muss. Was bedeutet es, dass es keine ganze Zahl mehr ist? Wie würde ich die Log-Wahrscheinlichkeit für einen solchen Fall finden?
Nadav Talmon
1
Wenn Sie das Potenzial für Verzerrungen verstehen möchten, verwenden Sie nicht groß N.:: versuchen Sie es mit einem kleinen Wert. N.=1ist besonders interessant :-). So ist es auchμ=0.
whuber