Warum schätzen wir den Mittelwert mithilfe von MLE, wenn wir bereits wissen, dass der Mittelwert der Durchschnitt der Daten ist?

11

Ich bin auf ein Problem im Lehrbuch gestoßen, um den Mittelwert abzuschätzen. Das Lehrbuchproblem ist wie folgt:

Es sei angenommen, dass N. Datenpunkte x1 , x2 ,. . . , xN. , wurden durch ein eindimensionales Gaußsches PDF mit unbekanntem Mittelwert, aber bekannter Varianz erzeugt. Leiten Sie die ML-Schätzung des Mittelwerts ab.

Meine Frage ist: Warum müssen wir den Mittelwert mithilfe von MLE schätzen, wenn wir bereits wissen, dass der Mittelwert der Durchschnitt der Daten ist? Die Lösung besagt auch, dass die MLE-Schätzung der Durchschnitt der Daten ist. Muss ich alle anstrengenden MLE-Maximierungsschritte ausführen, um herauszufinden, dass der Mittelwert nichts anderes als der Durchschnitt der Daten ist, dh (x1+x2++xN.)/.N. ?

Niranjan Kotha
quelle
10
Sie können durch zwei verschiedene Bedeutungen des Wortes "Mittelwert" verwechselt werden. In dieser Frage beziehen Sie sich damit auf (a) einen Parameter einer Familie von Gaußschen Verteilungen und (b) eine Statistik, die aus Daten berechnet werden kann. Vielleicht möchten Sie herausfinden, was diese Site über MLE und Parameter zu sagen hat .
whuber
1
Was ist mit der Referenz für das von Ihnen zitierte Lehrbuch?
Xi'an

Antworten:

13

Warum müssen wir den Mittelwert mithilfe von MLE schätzen, wenn wir bereits wissen, dass der Mittelwert der Durchschnitt der Daten ist?

Das Lehrbuchproblem besagt, dass von x 1 istx1,x2,,xN. Sie sagen dir, dassσbekannt ist, aberμgeschätzt werden muss.

x12πσe- -(x- -μ)22σ2
σμ

Ist es wirklich so offensichtlich , dass eine gute Schätzung μ = ˉ x ?μ^=x¯

Hier ist .x¯=1N.ich=1N.xich

Es war mir nicht klar und ich war ziemlich überrascht zu sehen, dass es sich tatsächlich um eine MLE-Schätzung handelt.

Beachten Sie auch Folgendes: Was wäre, wenn bekannt und σ unbekannt wäre? In diesem Fall ist MLE Schätzer σ 2 = 1μσ

σ^2=1N.ich=1N.(x- -x¯)2

Beachten Sie, dass dieser Schätzer nicht mit einem Stichprobenvarianzschätzer identisch ist! Wissen wir nicht bereits, dass die Stichprobenvarianz durch die folgende Gleichung gegeben ist?

s2=1N.- -1ich(x- -x¯)2
Aksakal
quelle
nitpicky Haustier ärgern: ist nicht die Stichprobenvarianz, σ 2 ist. s2σ^2
Cliff AB
1
@CliffAB Ich denke, es gibt keinen Mangel an Unterstützung dafür, "die Stichprobenvarianz" zu nennen. Nur als Beispiel nennt die Wikipedia-Seite über Bessels Korrektur es so. Viele Bücher auch. Ich würde es vorziehen , in Richtung Ihrer Terminologie mich zu lehnen , aber ich denke , es ist wahrscheinlich zu stark zu sagen , s 2 N - 1 ist nicht die Stichprobenvarianz in diesen Tagen - die Terminologie sehr weit verbreitet ist, wahrscheinlich weiter verbreitet als Aufruf s 2 N durch das NamesN.- -12sN.- -12sN.2
Glen_b -Reinstate Monica
1
@Glen_b Ich wurde erzogen, um die "Stichprobenvarianz" (wie in "Varianz der Stichprobe an sich") und s 2 N - 1 die "(geschätzte) Populationsvarianz" (wie in der unvoreingenommenen Schätzung) zu nennen , wie dieser Beitrag zeigt, ist s N auch ein nützlicher Schätzer. Aber ich habe vor ein paar Jahren eine (nicht zufällige) "Umfrage" in Lehrbüchern und Taschenrechnerhandbüchern durchgeführt und festgestellt, dass meine Verwendung stark in der Minderheit liegt, obwohl ich viele Beispiele für beides gefunden habe. Ich weiß nicht, ob dies ein Trend ist. [Auch das gute alte s und σ sind irritierend mehrdeutig manchmal ...sN.2sN.- -12sN.sσ^N. !]N.- -1
Silverfish
@CliffAB, ich habe gesehen, dass in der Ökonometrie häufig für eine Stichprobenvarianz und σ 2 für Populationsparameter verwendet wird, z. B. in Greene "Econometric Analysis". s2σ2
Aksakal
1
@CliffAB, ich habe die Terminologie nicht erstellt, aber vielleicht war das Grundprinzip in der Ökonometrie, dass es immer mehr als einen Schätzer für irgendetwas gibt, einschließlich der Varianz. & sgr; 2 wäre spezifisch genug , um nicht, wie es scheint zu einem beliebigen Anzahl von Schätzer ein beziehen könnte kommen mit, während s 2 ein spezifisches hat die durchschnittlichen quadratischen Abweichungen bedeuten. Nun ist im OLS-Kontext s 2 = e ' eσ^2s2 , wobeikdie Anzahl der Parameter ist. Wie Sie sehen, ist es nicht immerN-1, daher ist auch diese Notation nicht absolut spezifisch, aber es wird angenommen, dass wir die Anzahl der Parameter anpassen. s2=e'eN.- -kkN.- -1
Aksakal
8

In diesem Fall wird der Durchschnitt der Probe geschieht auch der Maximum - Likelihood - Schätzer sein. Wenn Sie also die gesamte Arbeit ableiten, fühlt sich die MLE wie eine unnötige Übung an, da Sie zu Ihrer intuitiven Schätzung des Mittelwerts zurückkehren, den Sie ursprünglich verwendet hätten. Nun, das war nicht "nur Zufall"; Dies wurde speziell gewählt, um zu zeigen, dass MLE-Schätzer häufig zu intuitiven Schätzern führen.

Aber was wäre, wenn es keinen intuitiven Schätzer gäbe? Angenommen, Sie hatten eine Stichprobe von iid-Gamma-Zufallsvariablen und waren daran interessiert, die Form und die Ratenparameter abzuschätzen. Vielleicht könnten Sie versuchen, einen Schätzer aus den Eigenschaften zu ermitteln, die Sie über Gamma-Verteilungen kennen. Aber was wäre der beste Weg, dies zu tun? Verwenden Sie eine Kombination aus geschätztem Mittelwert und Varianz? Warum nicht den geschätzten Median anstelle des Mittelwerts verwenden? Oder der Log-Mittelwert? Diese alle könnten verwendet werden, um eine Art Schätzer zu erstellen, aber welcher wird ein guter sein?

Wie sich herausstellt, gibt uns die MLE-Theorie eine großartige Möglichkeit, eine prägnante Antwort auf diese Frage zu erhalten: Nehmen Sie die Werte der Parameter, die die Wahrscheinlichkeit der beobachteten Daten maximieren (was ziemlich intuitiv erscheint), und verwenden Sie diese als Ihre Schätzung. Tatsächlich haben wir eine Theorie, die besagt, dass dies unter bestimmten Bedingungen ungefähr der beste Schätzer ist. Dies ist viel besser, als zu versuchen, einen eindeutigen Schätzer für jeden Datentyp zu ermitteln und dann viel Zeit zu investieren, um sich Sorgen zu machen, ob dies wirklich die beste Wahl ist.

Kurz gesagt: Während MLE bei der Schätzung des Mittelwerts normaler Daten keine neuen Erkenntnisse liefert , ist es im Allgemeinen ein sehr, sehr nützliches Werkzeug.

Cliff AB
quelle
2

Es ist eine Frage des verwirrenden Wortschatzes, wie diese Zitate direkt von Google zeigen:

durchschnittliches
Substantiv: durchschnittlich; Plural Nomen: Durchschnittswerte

  1. eine Zahl, die den zentralen oder typischen Wert in einem Datensatz ausdrückt, insbesondere den Modus, den Median oder (am häufigsten) den Mittelwert, der berechnet wird, indem die Summe der Werte im Satz durch ihre Zahl dividiert wird. "Der Anteil der über 60-Jährigen liegt über dem EU-Durchschnitt von 19 Prozent" Synonyme: Mittelwert, Median, Modus, Mittelpunkt, Zentrum

x¯μN.(μ,σ²)

bedeuten

In der Mathematik hat der Mittelwert je nach Kontext verschiedene Definitionen.

μ=xP.(x)

x1,x2,...,xnx¯x¯μμx

Wie in diesem Wikipedia- Eintrag vorgeschlagen, gilt der Mittelwert sowohl für Verteilungen als auch für Stichproben oder Datensätze. Der Mittelwert eines Datensatzes oder einer Stichprobe ist auch der Mittelwert der mit dieser Stichprobe verbundenen empirischen Verteilung. Der Eintrag veranschaulicht auch die Möglichkeit einer Verwechslung zwischen den Begriffen, da er Durchschnitt und Erwartung als Synonyme angibt.

Erwartungsnomen : Erwartung; Plural Nomen: Erwartungen

  1. Mathematik: ein anderer Begriff für den erwarteten Wert.

E.[X.]]=X.xdP.(x)
Xi'an
quelle