HW Frage :
sind unabhängige Gaußsche Variablen mit Mittelwert und Varianz . Definiere wobei unbekannt ist. Wir sind an einer Schätzung von aus interessiert .
ein. Wenn bestimmen Sie seine Vorspannung und Varianz.
b. Wenn bestimmen Sie seine Vorspannung und Varianz.
Ignorieren der Anforderung, dass eine Ganzzahl sein muss
c. Gibt es einen effizienten Schätzer (siehe und )?
d. Finden Sie die maximale Wahrscheinlichkeitsschätzung von aus .
e. Finden Sie CRLB von aus .
f. Erreicht der mittlere quadratische Fehler der Schätzer CRLB, wenn ?
Wenn mich jemand zur Lösung des folgenden Problems führen könnte, wäre es großartig.
Vielen Dank,
Nadav
maximum-likelihood
Nadav Talmon
quelle
quelle
Antworten:
Sie haben gut damit begonnen, einen Ausdruck für die Wahrscheinlichkeit aufzuschreiben. Das ist einfacher zu erkennenY, ist die Summe von N unabhängig Normal(μ,σ2) Variablen, hat eine Normalverteilung mit Mittelwert Nμ und Varianz N.σ2, woher ist seine Wahrscheinlichkeit
Lassen Sie uns mit seinem negativen Logarithmus arbeitenΛ = - logL , deren Minima den Maxima der Wahrscheinlichkeit entsprechen:
Wir müssen alle ganzen Zahlen finden , die diesen Ausdruck minimieren. Stell dir für einen Moment vor, dassN. könnte eine positive reelle Zahl sein. So wie,2 Λ ist eine kontinuierlich differenzierbare Funktion von N. mit Derivat
Setzen Sie dies mit Null gleich, um nach kritischen Punkten zu suchen, die Nenner zu löschen und eine kleine Algebra durchzuführen, um das Ergebnis zu vereinfachen
mit einer einzigartigen positiven Lösung (wannμ ≠ 0 )
Es ist einfach, dies als zu überprüfenN. nähert sich 0 oder wird groß, 2 Λ ( N.) wächst groß, daher wissen wir, dass es kein globales Minimum in der Nähe gibt N.≈ 0 noch in der Nähe N.& Ap ; ∞ . Damit bleibt nur der eine kritische Punkt, den wir gefunden haben und der daher das globale Minimum sein muss. Außerdem,2 Λ muss abnehmen als N.^ wird von unten oder oben angefahren. Somit,
Dies bietet ein effektives Verfahren zum Ermitteln des Maximum-Likelihood-Schätzers: Es ist entweder der Boden oder die Decke vonN.^ (oder gelegentlich beide !), also rechnen SieN.^ und wählen Sie einfach, welche dieser ganzen Zahlen macht 2 Λ kleinste.
Lassen Sie uns eine Pause einlegen, um zu überprüfen, ob dieses Ergebnis sinnvoll ist. In zwei Situationen gibt es eine intuitive Lösung:
Wannμ ist viel größer als σ , Y. wird in der Nähe sein μ , woher eine anständige Schätzung von N. wäre einfach | Y./ μ | . In solchen Fällen können wir die MLE durch Vernachlässigung approximieren σ2, geben (wie erwartet) N.^=12μ2( -σ2+σ4+ 4μ2y2- -- -- -- -- -- -- -- -- -√)≈12μ24μ2y2−−−−−√=∣∣∣yμ∣∣∣.
Wannσ ist viel größer als μ, Y könnte überall verteilt sein, aber im Durchschnitt Y2 sollte in der Nähe sein σ2, woher eine intuitive Schätzung von N wäre einfach y2/σ2. In der Tat zu vernachlässigen μ in Gleichung (1) gibt die erwartete Lösung N^≈y2σ2.
In beiden Fällen stimmt die MLE mit der Intuition überein, was darauf hinweist, dass wir sie wahrscheinlich richtig ausgearbeitet haben. Die interessanten Situationen treten dann auf, wennμ und σ sind von vergleichbarer Größe. Intuition kann hier wenig helfen.
Um dies weiter zu untersuchen, habe ich drei Situationen simuliert, in denenσ/μ ist 1/3, 1, oder 3. Es ist egal was μ ist (solange es ungleich Null ist), also habe ich genommen μ=1. In jeder Situation habe ich einen Zufall generiert Y für die Fälle N=2,4,8,16, dies unabhängig fünftausend Mal tun.
Diese Histogramme fassen die MLEs von zusammenN . Die vertikalen Linien markieren die wahren Werte vonN .
Im Durchschnitt scheint die MLE ungefähr richtig zu sein. Wannσ Ist der MLE relativ klein, ist er in der Regel genau: Das zeigen die schmalen Histogramme in der oberen Reihe. Wannσ≈|μ|, Die MLE ist ziemlich unsicher. Wannσ≫|μ|, die MLE kann oft sein N^=1 und manchmal kann mehrmals sein N (besonders wenn N ist klein). Diese Beobachtungen stimmen mit den Vorhersagen der vorhergehenden intuitiven Analyse überein.
Der Schlüssel zur Simulation ist die Implementierung des MLE. Es muss gelöst werden(1) sowie auswerten Λ für gegebene Werte von Y, μ, und σ. Die einzige neue Idee, die hier reflektiert wird, ist das Überprüfen der ganzen Zahlen auf beiden Seiten von N^. Die letzten beiden Zeilen der Funktion
f
führen diese Berechnung mit Hilfe derlambda
Bewertung der Protokollwahrscheinlichkeit durch.quelle
Die Methode, die Whuber in seiner ausgezeichneten Antwort verwendet hat, ist ein gängiger Optimierungs- "Trick", bei dem die Wahrscheinlichkeitsfunktion erweitert wird, um reale Werte von zuzulassenN. und dann Verwenden der Konkavität der logarithmischen Wahrscheinlichkeit, um zu zeigen, dass der diskrete Maximierungswert einer der diskreten Werte auf beiden Seiten eines kontinuierlichen Optimas ist. Dies ist eine häufig verwendete Methode bei diskreten MLE-Problemen, die eine konkave Log-Likelihood-Funktion beinhalten. Sein Wert liegt in der Tatsache, dass es normalerweise möglich ist, einen einfachen Ausdruck in geschlossener Form für die kontinuierlichen Optima zu erhalten.
Der Vollständigkeit halber werde ich Ihnen in dieser Antwort eine alternative Methode zeigen, die diskrete Berechnungen unter Verwendung des Vorwärtsdifferenzoperators verwendet . Die Log-Likelihood-Funktion für dieses Problem ist die diskrete Funktion:
Der erste Vorwärtsunterschied der Log-Wahrscheinlichkeit ist:
Mit ein bisschen Algebra kann gezeigt werden, dass die zweite Vorwärtsdifferenz ist:
Dies zeigt, dass die Log-Likelihood-Funktion konkav ist, also der kleinste MaximierungspunktN^ wird sein:
(The next value will also be a maximising point if and only ifΔℓy(N^)=0 .) Der MLE (entweder der kleinste oder der gesamte Satz) kann als Funktion über eine einfache
while
Schleife programmiert werden , und dies sollte in der Lage sein, Ihnen die Lösung ziemlich schnell zu geben. Ich werde den Programmierteil als Übung verlassen.quelle
Kommentar: Hier ist eine kurze Simulation in R fürμ = 50 , σ= 3 ,
Dies sollte auf zwei oder drei Stellen genau sein und sich dem Mittelwert und der SD von annähern Y.. Sie sollten in der Lage sein zu finden E.( Y.) und V.a r ( Y.)
durch elementare analytische Methoden, wie in meinem früheren Kommentar angegeben. Wenn wir hättenN.= 100 dann E.(N.^) scheint unvoreingenommen für N..
quelle