Beispiele, bei denen die Methode der Momente in kleinen Stichproben die maximale Wahrscheinlichkeit übertrifft?

57

Maximum Likelihood Estimators (MLE) sind asymptotisch effizient; Wir sehen das praktische Ergebnis darin, dass sie selbst bei kleinen Stichprobengrößen oftmals besser abschätzen als die Momentenmethode (MoM) (wenn sie sich unterscheiden)

Hier bedeutet "besser als" in dem Sinne, dass typischerweise eine geringere Varianz vorliegt, wenn beide unverzerrt sind, und typischerweise ein kleinerer mittlerer quadratischer Fehler (MSE) im Allgemeinen.

Die Frage tritt jedoch auf:

Gibt es Fälle, in denen das Ministerium die MLE - etwa bei MSE - in kleinen Stichproben schlagen kann?

(wo dies keine seltsame / entartete Situation ist - dh vorausgesetzt, dass ML existiert / asymptotisch effizient ist)

Eine weitere Frage wäre dann: Wie groß kann klein sein? - das heißt, wenn es Beispiele gibt, gibt es einige, die noch relativ große Stichprobengrößen enthalten, vielleicht sogar alle endlichen Stichprobengrößen?

[Ich kann ein Beispiel für einen voreingenommenen Schätzer finden, der ML in endlichen Samples schlagen kann, aber es ist kein MoM.]


Anmerkung nachträglich hinzugefügt: Mein Fokus liegt hier in erster Linie auf dem univariaten Fall (woher kommt eigentlich meine zugrunde liegende Neugier). Ich möchte multivariate Fälle nicht ausschließen, aber ich möchte mich auch nicht besonders in ausführliche Diskussionen über James-Stein-Schätzungen verirren.

Glen_b
quelle
Kein Problem; es passiert uns allen und mir öfter als dir. Ich hätte es wahrscheinlich richtig in den Titel setzen sollen, aber es war schon ziemlich lang.
Glen_b
@ Kardinal Ich habe die Kriterien jetzt klarer gemacht.
Glen_b
3
Es gibt andere Möglichkeiten, wie die Methode der Momente die maximale Wahrscheinlichkeit "schlagen" kann. Beispielsweise ist es bei normalen Mischungsschätzungsproblemen notorisch schwierig, die MLE zu berechnen, während dies beim MoM nicht der Fall ist.
VQV
@vqv Sicherlich ist das ein Sinn, in dem MoM vorzuziehen ist.
Glen_b
2
Da ich tendenziell mit den Plebejern sympathisiere, informiere ich, dass in einer Stichprobe von iid Uniforms der MoM-Schätzer für dieselbe MSE mit dem Patrizier (MLE) hat, wenn die Stichprobengröße , oder ... Aber leider für größere Stichproben behauptet der Patrizier seine Souveränität wieder ...θ 1 2U(0,θ)θ12
Alecos Papadopoulos

Antworten:

36

Dies kann als ... Betrug angesehen werden, aber der OLS-Schätzer ist ein MoM-Schätzer. Betrachten Sie eine standardmäßige lineare Regressionsspezifikation (bei stochastischen Regressoren sind die Größen von der Regressormatrix abhängig) und eine Stichprobe der Größe . Bezeichne den OLS-Schätzer der Varianz des Fehlerterms. Es ist unbefangen son s 2 σ 2Kns2σ2

MSE(s2)=Var(s2)=2σ4nK

Betrachte nun das MLE von . Es istσ2

σ^ML2=nKns2
Ist es voreingenommen? Seine MSE ist

MSE(σ^ML2)=Var(σ^ML2)+[E(σ^ML2)σ2]2
Ausdrücken des MLE in Bezug auf die OLS und Verwenden des Ausdrucks für die OLS-Schätzvarianz, die wir erhalten

MSE( σ 2 M L )=2(n-K)+K2

MSE(σ^ML2)=(nKn)22σ4nK+(Kn)2σ4
MSE(σ^ML2)=2(nK)+K2n2σ4

Wir wollen die Bedingungen (falls vorhanden), unter denen

MSE(σ^ML2)>MSE(s2)2(nK)+K2n2>2nK

2(nK)2+K2(nK)>2n2
2n24nK+2K2+nK2K3>2n2
Vereinfachend erhalten wir Kann dieses Quadrat in negative Werte erhalten? Wir brauchen seine Diskriminanz, um positiv zu sein. Wir haben , die eine andere quadratische, in ist diesmal. Diese Diskriminante ist also , um die Tatsache zu berücksichtigen, dass eine ganze Zahl ist. Wenn
4n+2K+nKK2>0K2(n+2)K+4n<0
K
ΔK=(n+2)216n=n2+4n+416n=n212n+4
n
Δn=12242=816
n1,n2=12±8162=6±42n1,n2={1,12}
nnIn diesem Intervall ist und das in nimmt immer positive Werte an, sodass wir die erforderliche Ungleichung nicht erhalten können. Also: Wir brauchen eine Stichprobengröße größer als 12.ΔK<0K

Vor diesem Hintergrund sind die Wurzeln für -quadratischK

K1,K2=(n+2)±n212n+42=n2+1±(n2)2+13n

Gesamt: für Stichprobengröße und die Anzahl der Regressoren , so dass wir haben Für Beispiel: Wenn ist, muss die Anzahl der Regressoren damit die Ungleichung erhalten bleibt. Es ist interessant, dass für eine kleine Anzahl von Regressoren die MLE im MSE-Sinne besser ist.n>12KK1<K<K2

MSE(σ^ML2)>MSE(s2)
n=505<K<47

ADDENDUM
Die Gleichung für die Wurzeln des Quadrats kann geschrieben werdenK

K1,K2=(n2+1)±(n2+1)24n
was meiner Meinung nach durch einen kurzen Blick impliziert, dass die untere Wurzel immer wird werden (unter Berücksichtigung der „integer-Wert“ Restriktion) -SO MLE wird MSE-effizient sein , wenn Regressoren sind bis für jede (finite) Probengrße.55
Alecos Papadopoulos
quelle
1
Nun, die theoretische Momentbedingung, die mit der Spezifikation ist . In dem Maße, in dem wir das Beispielanalog von als Schätzer für , würde ich sagen, dass dies der ist. E(uuX)=σ2E(uuX)σ2
Alecos Papadopoulos
1
@AlecosPapadopoulos Das "Beispielanalog", würde ich argumentieren, würde für den Nenner nehmen, dh es wäre das gleiche wie das MLE. Wenn Sie die theoretische Erwartung durch die empirische Erwartung ersetzen, wie könnten Sie dann im Nenner erhalten? Die natürlichen Momentbedingungen sollten und und das Ersetzen durch empirische Erwartungen würde Sie in den Nenner bringen. nnKE[Xk(YXβ)]=0E[(YXβ)2]=σ2n
Kerl
2
@guy Das ist eine gültige Bemerkung. Die Korrektur von Freiheitsgraden war für mich immer ein konzeptionelles Problem bei Method of Moments. Nachdem die gesamte „sample analog“ ist kein strenges Konzept, und es wird mit dem Begriff der „sample bedeutet“ durch die asymptotische Korrespondenz des letzteren mit dem erwarteten Wert -but in einem asymptotischen Rahmen verbunden ist , durch Dividieren anstelle von tut keinen Unterschied machen. Für mich bleibt es eine ungelöste Angelegenheit. Andererseits wird der Maximum-Likelihood-Schätzer konkret durch die Likelihood-Gleichungen bestimmt und kann mit dem Monatsbericht (CONTD)nKn
Alecos Papadopoulos,
1
@guy (CONTD). Also , was Sie sagen , ist , dass die MoM Schätzer der Fehlervarianz in diesem Fall ist die Maximum - Likelihood - Schätzer, und so das Ergebnis , das ich abgeleitet vergleicht nicht MoM mit ML, aber ML mit OLS (letzteres ist eine Kategorie für sich allein zu sein). .. ja, es kann argumentiert werden, dass dies (auch) der Fall ist.
Alecos Papadopoulos
1
Gibt es einen "MoM" -Schätzer? Es ist "ein" MoM-Schätzer, oder? Wenn Sie einen zufällig ausgewählten OLS-Rest , dann ist . Das ist ein perfekter Moment, nicht wahr? Und es gibt ein perfektes MoM für , nein? Der übliche OLS-Schätzer ist nämlich . eE(e2)=nknσ2σ2s2
Bill
17

"In diesem Artikel betrachten wir eine neue Parametrisierung der Zwei-Parameter-Inverse-Gauß-Verteilung. Wir finden die Schätzer für Parameter der Inverse-Gauß-Verteilung nach der Methode der Momente und der Methode der maximalen Wahrscheinlichkeit. Dann vergleichen wir die Effizienz der Schätzer für die beiden Methoden basierend auf ihrem Bias und dem mittleren quadratischen Fehler (MSE). Hierzu werden Parameterwerte festgelegt, Simulationen ausgeführt und MSE und Bias für Schätzungen angegeben, die mit beiden Methoden erhalten wurden. die Momentenmethode effizienter als die Maximum - Likelihood - Methode zur Schätzung beiden Parameter (Lambda und theta) ....“tendenziell zu mehr lesen

Heutzutage kann (oder sollte) man nicht allen Veröffentlichungen vertrauen, aber die letzte Seite der Zeitung erscheint vielversprechend. Ich hoffe dies adressiert Ihre nachträglich hinzugefügte Notiz.

Winterschlaf halten
quelle
1
Wenn ich die Tabellen in diesem Artikel richtig verstehe, dann glaube ich, dass Sie richtig sind - bei einigen Stichprobengrößen scheint die Methode der Momente (MME im Papier) die MLE zu übertreffen, zumindest bei der Schätzung von . (Einige der Simulationsergebnisse scheinen jedoch mehr als seltsam zu sein - z. B. das Fortschreiten der Spalte ganz rechts auf Seite 49.) Dies ist für mich ein sehr interessantes Ergebnis, da der inverse Gauß relativ häufig verwendet wird. θ
Glen_b
Guter Fund! Auch wenn die Ergebnisse nicht stimmen, ist es schön zu sehen, dass die Behauptung irgendwo ausdrücklich erwähnt wird.
Ben Ogorek
Der Artikel, auf den ich in meiner Antwort verwiesen habe, stammt aus einer MSc-Arbeit, die in vollem Umfang hier verfügbar ist: digi.library.tu.ac.th/thesis/st/0415 Siehe z. B. Abschnitt 5.2 für die relevante Aussage. Sechs Personen, darunter ein ordentlicher Professor, haben dieses Ergebnis unterschrieben.
Winterschlaf am
14

Nach Simulationen von Hosking und Wallis (1987) in "Parameter- und Quantilschätzung für die verallgemeinerte Paretoverteilung" sind die Parameter der zwei Parameter umfassenden verallgemeinerten Paretoverteilung im cdf angegeben

G(y)={1(1+ξyβ)1ξξ01exp(yβ)ξ=0

oder die Dichte

g(y)={1β(1+ξyβ)11ξξ01βexp(yβ)ξ=0

sind zuverlässiger, wenn sie mittels MOM im Gegensatz zu ML geschätzt werden. Dies gilt für Proben bis zu einer Größe von 500. Die MOM-Schätzungen werden von gegeben

β^=y¯y2¯2(y2¯(y¯)2)

und

ξ^=12(y¯)22(y2¯(y¯)2)

mit

y2¯=1ni=1nyi2

Das Papier enthält einige Tippfehler (zumindest meine Version). Die Ergebnisse für die oben angegebenen MOM-Schätzer wurden freundlicherweise von "heropup" in diesem Thread zur Verfügung gestellt .

Joz
quelle
Danke dafür. Es ist eines der einfachsten Beispiele für das, was ich bisher gesucht habe.
Glen_b
13

Ich habe einen gefunden:

Für die asymmetrische exponentielle Leistungsverteilung

f(x)=ασΓ(1α)κ1+κ2exp(κασα[(xθ)+]α1κασα[(xθ)]α),α,σ,κ>0, and x,θR

Die Simulationsergebnisse von Delicado und Goria (2008) legen nahe, dass für einige der Parameter bei kleineren Stichprobengrößen die Methode der Momente die MLE übertreffen kann. Beispielsweise ist im bekannten thgr; -Fall bei Stichprobengröße 10, wenn sgr ; geschätzt wird , die MSE von MoM kleiner als für ML.θσ

Delicado und Goria (2008),
Ein kleiner Vergleich von Maximum-Likelihood-, Momenten- und L-Momenten-Methoden für die asymmetrische exponentielle Leistungsverteilung,
Journal Computational Statistics & Data Analysis,
Band 52, Ausgabe 3, Januar, S. 1661-1673

(Siehe auch http://www-eio.upc.es/~delicado/my-public-files/LmomAEP.pdf )

Glen_b
quelle
13

Die Methode der Momente (MM) kann den Maximum Likelihood (ML) -Ansatz übertreffen, wenn es möglich ist, nur einige Populationsmomente anzugeben. Wenn die Verteilung schlecht definiert ist, sind die ML-Schätzer nicht konsistent.

Ausgehend von endlichen Momenten und Beobachtungen kann das MM gute Schätzer mit guten asymptotischen Eigenschaften liefern.

Beispiel: Sei eine iid-Stichprobe von , wobei eine unbekannte Wahrscheinlichkeitsdichtefunktion ist. Definieren Sie den ten Moment und berücksichtigen Sie, dass das Interesse darin besteht, den Moment zu schätzen .X1,,XnXff:RR+νk=Rxkf(x)dxkν4

Let , dann unter der Annahme , dass , dem zentralen Grenzwertsatz garantiert , dass wobei " " bedeutet "konvergiert in Verteilung zu" . Darüber hinaus nach dem Satz von Slutsky,Xk¯=1ni=1nXikν8<

n(X4¯ν4)dN(0,ν8ν42),
d

n(X4¯ν4)X8¯X4¯2dN(0,1)
seit (Konvergenz der Wahrscheinlichkeit).X8¯X4¯2Pν8ν42

Das heißt, wir können (ungefähre) Schlussfolgerungen für indem wir den Momentenansatz (für große Stichproben) verwenden. Wir müssen lediglich einige Annahmen zu den interessierenden Populationsmomenten treffen. Hier können die Maximum-Likelihood-Schätzer nicht definiert werden, ohne die Form von . fν4f

Eine Simulationsstudie:

Patriota et al. (2009) führten einige Simulationsstudien durch, um die Ablehnungsraten von Hypothesentests in einem Modell für Fehler in Variablen zu verifizieren. Die Ergebnisse legen nahe, dass der MM-Ansatz Fehlerraten unter der Nullhypothese erzeugt, die näher am nominalen Niveau liegen als die ML-Rate für kleine Stichproben.

Historischer Hinweis:

Die Methode der Momente wurde von K. Pearson 1894 "Beiträge zur mathematischen Evolutionstheorie" vorgeschlagen. Die Methode der maximalen Wahrscheinlichkeit wurde 1922 von RA Fisher "Auf den mathematischen Grundlagen der theoretischen Statistik" vorgeschlagen. Beide Artikel wurden in der Reihe A der Philosophical Transactions der Royal Society of London veröffentlicht.

Referenz:

Fisher, RA (1922). Über die mathematischen Grundlagen der theoretischen Statistik, Philosophische Transaktionen der Royal Society of London, Reihe A, 222, 309-368.

Patriota, AG, Bolfarine, H. de Castro, M. (2009). Ein heteroskedastisches Modell für Strukturfehler in Variablen mit Gleichungsfehlern, Statistical Methodology 6 (4), 408-423 ( pdf )

Pearson, K. (1894). Beiträge zur mathematischen Evolutionstheorie, Philosophische Transaktionen der Royal Society of London, Serie A, 185, 71-110.

Alexandre Patriota
quelle
1
Ihre Antwort klingt nach einer potenziell interessanten. Können Sie es ein wenig erweitern? Ich bin mir nicht sicher, ob ich das richtig sehe.
Glen_b
@ Glen_b Bitte überprüfen Sie, ob meine letzte Hinzufügung Ihnen hilft.
Alexandre Patriota
Dank dafür; Ich glaube, ich sehe, worauf du hinaus willst.
Glen_b
OK, es ist ein allgemeiner Kommentar, aber ich denke, er beantwortet Ihre Frage. Wenn Sie umfassende Informationen zum Datenverhalten bereitstellen, ist es ganz natürlich, dass der ML-Ansatz den MM-Ansatz übertrifft. In der Arbeit [1] führen wir einige Simulationsstudien durch, um die Ablehnungsraten von Hypothesentests in einem Modell für Fehler in Variablen zu überprüfen. Die Ergebnisse legen nahe, dass der MM-Ansatz Fehlerraten unter der Nullhypothese erzeugt, die näher am nominalen Niveau liegen als die ML-Rate für kleine Stichproben. [1] ime.usp.br/~patriota/STAMET-D-08-00113-revised-v2.pdf
Alexandre Patriota
Dies ist ein atypisches Beispiel für eine Momentenmethode (MoM). MoM wird normalerweise bei parametrischen Schätzungsproblemen eingesetzt, bei denen es eine genau definierte parametrische Verteilungsfamilie gibt. Zum anderen können Sie hier eine nichtparametrische Maximalwahrscheinlichkeitsschätzung definieren . Die empirische Verteilungsfunktion, sagen wir F-hat, ist die nichtparametrische Maximum-Likelihood-Schätzung der unbekannten Verteilungsfunktion F. Wenn der 4. Moment als eine Funktion von F betrachtet wird, ist der nichtparametrische MLE des 4. Moments der 4. Moment des F-Hats . Dies ist derselbe wie im vierten Moment des Beispiels.
VQV
5

Zusätzliche Quellen für MOM:

Hong, HP und W. Ye. 2014. Analyse extremer Bodenschneelasten für Kanada anhand von Schneehöhenaufzeichnungen . Naturgefahren 73 (2): 355-371.

Die Verwendung von MML könnte bei kleinen Stichproben unrealistische Vorhersagen liefern (Hosking et al. 1985; Martin und Stedinger 2000).


Martins, ES und JR Stedinger. 2000. Verallgemeinerte Maximum-Likelihood verallgemeinerte Extremwert-Quantil-Schätzer für hydrologische Daten . Water Resources Research 36 (3): 737-744.

Abstrakt:

Die verallgemeinerte Drei-Parameter-Extremwertverteilung (GEV) hat eine breite Anwendung für die Beschreibung von jährlichen Überschwemmungen, Niederschlägen, Windgeschwindigkeiten, Wellenhöhen, Schneehöhen und anderen Maxima gefunden. Frühere Studien haben gezeigt, dass Kleinstproben-Maximum-Likelihood-Schätzer (MLE) für Parameter instabil sind und L-Moment-Schätzer empfehlen. Neuere Untersuchungen zeigen, dass Quantilschätzer für Momentenmethoden für –0,25 <κ <0,30 einen kleineren quadratischen Mittelwertfehler haben als L Momente und MLEs. Die Untersuchung des Verhaltens von MLEs in kleinen Stichproben zeigt, dass absurde Werte des GEV-Formparameters κ erzeugt werden können. Die Verwendung einer Bayes'schen Vorverteilung, um κ-Werte auf einen statistisch / physikalisch vernünftigen Bereich in einer generalisierten Maximum-Likelihood-Analyse (GML) zu beschränken, beseitigt dieses Problem.

In den Abschnitten Einführung und Literaturübersicht werden zusätzliche Artikel zitiert, die zu dem Schluss kamen, dass MOM in einigen Fällen die MLE übertreffen (erneut Extremwertmodellierung), z

Hosking et al. [1985a] zeigen, dass MLE-Parameterschätzer mit kleiner Stichprobe sehr instabil sind und empfehlen Wahrscheinlichkeitsschätzer (PWM), die L-Momentschätzern entsprechen [Hosking, 1990]. [...]

Hosking et al. [1985a] zeigten, dass die Schätzer für wahrscheinlichkeitsgewichtete Momente (PM) oder äquivalente L-Momente (LM) für die GEV-Verteilung in Bezug auf Verzerrung und Varianz für Stichprobengrößen zwischen 15 und 100 besser sind als die Schätzer für die maximale Wahrscheinlichkeit (MLE). In jüngerer Zeit haben Madsen et al. [1997a] zeigten, dass die Quantilschätzer der Momentenmethode (MOM) einen kleineren RMSE (Root Mean Squareer Ror) für -0,25 <K <0,30 haben als LM und MLE, wenn das 100-Jahres-Ereignis für Stichprobengrößen von 10-50 geschätzt wird . MLEs sind nur dann vorzuziehen, wenn K> 0,3 und die Stichprobengrößen bescheiden sind (n> = 50).

K (Kappa) ist der Formparameter von GEV.

Papiere, die in den Zitaten erscheinen:

Hosking J, Wallis J, Wood E (1985) Abschätzung der generalisierten Extremwertverteilung nach der Methode der wahrscheinlichkeitsgewichteten Momente . Technometrics 27: 251–261.

Madsen, H., PF Rasmussen und D. Rosbjerg (1997) Vergleich der jährlichen Maximumserien- und Partial-Duration-Serienmethoden zur Modellierung extremer hydrologischer Ereignisse , 1, Vor-Ort-Modellierung, Water Resour. Res., 33 (4), 747 & ndash; 758.

Hosking, JRM, L-Momente: Analyse und Schätzung von Verteilungen mit linearen Kombinationen von Ordnungsstatistiken , JR Stat. Soc., Ser. B, 52, 105 & ndash; 124, 1990.


Darüber hinaus habe ich die gleichen Erfahrungen wie in den obigen Abhandlungen gemacht. Im Fall der Modellierung von Extremereignissen mit kleiner und mittlerer Stichprobengröße (<50-100, was typisch ist) kann MLE unrealistische Ergebnisse liefern. Die Simulation zeigt, dass MOM robuster ist und robuster ist kleinerer RMSE.

Arpi
quelle
3

Bei der Beantwortung dieser Frage: Schätzen der Parameter für ein Binomial Ich bin über dieses Papier gestolpert:

Ingram Olkin, A John Petkau, James V Zidek: Ein Vergleich von N Schätzern für die Binomialverteilung. Jasa 1981.

Dies ist ein Beispiel, bei dem die Methode der Momente zumindest in einigen Fällen die maximale Wahrscheinlichkeit übertrifft. Das Problem ist die Schätzung von in der Binomialverteilung wobei beide Parameter unbekannt sind. Es erscheint beispielsweise beim Versuch, die Tierhäufigkeit zu schätzen, wenn Sie nicht alle Tiere sehen können, und die Sichtungswahrscheinlichkeit ebenfalls unbekannt.Bin ( N , p ) pNBin(N,p)p

kjetil b halvorsen
quelle
Das Schöne an diesem Beispiel ist, dass es sehr einfach ist, die Situation zu vermitteln - viele Leute kennen das Binomial (zumindest im Konzept, wenn nicht immer mit dem Namen).
Glen_b