Im Allgemeinen scheint die Methode der Momente nur mit dem beobachteten Stichprobenmittelwert oder der Varianz mit den theoretischen Momenten übereinzustimmen, um Parameterschätzungen zu erhalten. Dies ist oft dasselbe wie MLE für exponentielle Familien, wie ich erfahre.
Es ist jedoch schwierig, eine klare Definition der Methode der Momente und eine klare Diskussion darüber zu finden, warum die MLE allgemein bevorzugt zu sein scheint, obwohl es schwieriger sein kann, den Modus der Wahrscheinlichkeitsfunktion zu finden.
Diese Frage Ist MLE effizienter als die Moment-Methode? hat ein Zitat von Prof. Donald Rubin (in Harvard), das besagt, dass jeder seit den 40er Jahren weiß, dass MLE MoM schlägt, aber ich wäre interessiert, die Geschichte oder die Gründe dafür zu kennen.
Antworten:
In MoM wird der Schätzer so gewählt, dass eine Funktion eine bedingte Erwartung gleich Null hat. ZB . Oft ist die Erwartung von abhängig . Typischerweise wird dies in ein Problem der Minimierung einer quadratischen Form in diesen Erwartungen mit einer Gewichtsmatrix umgewandelt.xE[g(y,x,θ)]=0 x
In MLE maximiert der Schätzer die Protokollwahrscheinlichkeitsfunktion.
In einer breiten Verallgemeinerung macht MLE strengere Annahmen (die volle Dichte) und ist daher typischerweise weniger robust, aber effizienter, wenn die Annahmen erfüllt sind (es erreicht die Kramer Rao-Untergrenze für asymptotische Varianz).
In einigen Fällen stimmen die beiden überein, wobei OLS ein bemerkenswertes Beispiel ist, bei dem die analytische Lösung identisch ist und sich der Schätzer daher auf die gleiche Weise verhält.
In gewissem Sinne können Sie sich einen MLE (in fast allen Fällen) als MoM-Schätzer vorstellen, da der Schätzer den erwarteten Wert des Gradienten der Log-Likelihood-Funktion gleich Null setzt. In diesem Sinne gibt es Fälle, in denen die Dichte falsch ist, die MLE jedoch immer noch konsistent ist, da die Bedingungen erster Ordnung immer noch erfüllt sind. Dann wird MLE als "Quasi-ML" bezeichnet.
quelle
Es gibt einen schönen Artikel darüber auf Wikipedia.
https://en.m.wikipedia.org/wiki/Method_of_moments_(statistics)
Dies bedeutet, dass Sie die Populationsparameter schätzen, indem Sie die Parameter so auswählen, dass die Populationsverteilung die Momente aufweist, die den beobachteten Momenten in der Stichprobe entsprechen.
Die maximale Wahrscheinlichkeitsschätzung minimiert die Wahrscheinlichkeitsfunktion. In einigen Fällen kann dieses Minimum manchmal ausgedrückt werden, indem die Populationsparameter gleich den Stichprobenparametern gesetzt werden.
Wenn wir beispielsweise den mittleren Parameter einer Verteilung schätzen und MLE verwenden, verwenden wir häufig . Dies muss jedoch nicht immer der Fall sein (siehe: /stats//a/317631/164061, obwohl im Fall des Beispiels dort die Poisson-Verteilung, die MLE- und MoM-Schätzung übereinstimmen und die Gleiches gilt für viele andere. Zum Beispiel lautet die MLE-Lösung für die Schätzung von in einer Protokollnormalverteilung :μ=x¯ μμ
Während die MoM-Lösung löst
Das MoM ist daher eine praktische Methode zur Schätzung der Parameter, die häufig zu genau demselben Ergebnis wie das MLE führt (da die Momente der Stichprobe häufig mit den Momenten der Population übereinstimmen, z. B. wird ein Stichprobenmittelwert um den Populationsmittelwert verteilt, und bis zu einem gewissen Faktor / Bias funktioniert es sehr gut). Das MLE hat eine stärkere theoretische Grundlage und ermöglicht beispielsweise die Schätzung von Fehlern mithilfe der Fisher-Matrix (oder Schätzungen davon), und es ist ein viel natürlicherer Ansatz bei Regressionsproblemen (ich habe es nicht ausprobiert, aber ich denke, das ein MoM zum Lösen von Parametern in einer einfachen linearen Regressionfunktioniert nicht einfach und kann zu schlechten Ergebnissen führen. In der Antwort von Superpronker scheint dies durch eine gewisse Minimierung einer Funktion geschehen zu sein. Für MLE drückt diese Minimierung eine höhere Wahrscheinlichkeit aus, aber ich frage mich, ob sie für MoM so etwas Ähnliches darstellt.
quelle
Soorry, ich kann keine Kommentare hinterlassen.
Tatsächlich wird uns bei MITx " Fundamentals of Statistics " das Gegenteil beigebracht, dass MoM sich auf eine bestimmte Gleichung der Momente stützt, und wenn wir die falsche Dichte aufnehmen, machen wir völlig falsch, während MLE widerstandsfähiger ist, da wir in jedem Fall minimieren die KD Divergenz ..
quelle