Gibt es ein Beispiel, in dem MLE eine voreingenommene Schätzung des Mittelwerts erstellt?

17

Können Sie ein Beispiel für einen MLE-Schätzer für den voreingenommenen Mittelwert angeben?

Ich bin nicht auf der Suche nach einem Beispiel, das MLE-Schätzer im Allgemeinen durch Verstöße gegen die Regularitätsbedingungen bricht.

Alle Beispiele, die ich im Internet sehe, beziehen sich auf die Varianz, und ich kann anscheinend nichts finden, was mit dem Mittelwert zu tun hat.

BEARBEITEN

@MichaelHardy lieferte ein Beispiel, in dem wir eine voreingenommene Schätzung des Mittelwerts der Gleichverteilung unter Verwendung von MLE unter einem bestimmten vorgeschlagenen Modell erhalten.

jedoch

https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint

legt nahe, dass MLE ein einheitlich minimal unverzerrter Schätzer des Mittelwerts ist, eindeutig unter einem anderen vorgeschlagenen Modell.

Zu diesem Zeitpunkt ist mir immer noch nicht klar, was unter MLE-Schätzung zu verstehen ist, wenn es sich um eine sehr modellabhängige Hypothese handelt, im Gegensatz zu einem modellneutralen Stichproben-Mittelwertschätzer. Am Ende bin ich daran interessiert, etwas über die Population abzuschätzen und kümmere mich nicht wirklich um die Schätzung eines Parameters eines hypothetischen Modells.

BEARBEITEN 2

Wie @ChristophHanck dem Modell mit zusätzlichen Informationen vorschlug, gelang es jedoch nicht, die MSE zu reduzieren.

Wir haben auch zusätzliche Ergebnisse:

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (S. 61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (Folie 2) http: / /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (Folie 5)

Wenn ein höchst effizienter unverzerrter Schätzer ˆθ von θ existiert (dh ˆθ ist unverzerrt und seine Varianz ist gleich dem CRLB), dann wird es das Maximum-Likelihood-Schätzverfahren erzeugen.

"Außerdem ist ein effizienter Schätzer der ML-Schätzer."

Da der MLE mit freien Modellparametern unvoreingenommen und effizient ist, ist dies per Definition der "Maximum Likelihood Estimator"?

EDIT 3

@AlecosPapadopoulos hat ein Beispiel mit Halbnormalverteilung im Matheforum.

/math/799954/can-the-maximum-likelihood-estimator-be-unbias-and-fail-to-achieve-cramer-rao

Es verankert keine seiner Parameter wie im einheitlichen Fall. Ich würde sagen, das regelt es, obwohl er die Tendenz des Mittelwertschätzers nicht bewiesen hat.

Cagdas Ozgenc
quelle
10
Der Mittelwert einer Uniform auf Null und Theta.
Christoph Hanck
1
Ich kann Ihrer Unterscheidung zwischen "etwas über die Population abschätzen" und "einem Parameter eines hypothetischen Modells" nicht folgen. In allen parametrischen Statistiken wird eine Grundgesamtheit anhand einiger Parameter parametrisiert. Natürlich können wir so auf Probleme der Fehlspezifikation stoßen, aber das scheint für das vorliegende Problem nicht relevant zu sein.
Christoph Hanck
5
Zum Beispiel, dass eine Population durch ihre Parameter / Momente wie Mittelwert und Varianz charakterisiert werden kann (was zum Beispiel für eine normale Population ausreichend wäre). Und: Ich denke nicht, dass die Leute mehr oder weniger pedantisch mit dir sind als mit irgendjemand anderem in diesem Forum.
Christoph Hanck
2
Wenn Sie mit der scheinbaren Leichtigkeit des Umschaltens zwischen "Parameter" und "Mittelwert" unzufrieden sind, lassen Sie mich eine bestimmte nicht negative Verteilung in Form ihres Mittelwerts mit der Dichte 1 definierenμ auf seiner Unterstützung von[0,2μ]...12μ[0,2μ]
Silverfish
1
In Bezug auf Ihre Bearbeitung 2 werden viele dieser Ergebnisse unter Regularitätsbedingungen abgeleitet, die für das in diesem Thread diskutierte einheitliche Beispiel, für das der Probenraum vom Parameter abhängt, nicht erfüllt sind.
Christoph Hanck

Antworten:

32

Christoph Hanck hat die Details seines vorgeschlagenen Beispiels nicht veröffentlicht. Ich nehme an, er meint die Gleichverteilung über das Intervall basierend auf einer iid-Stichprobe X 1 , , X n mit einer Größe von mehr als n = 1.[0,θ],X1,,Xnn=1.

Der Mittelwert ist .θ/2

Die MLE des Mittelwerts beträgt max{X1,,Xn}/2.

Das ist vorgespannt, da also E ( max / 2 ) < θ / 2.Pr(max<θ)=1,E(max/2)<θ/2.

PS: beachten Sie, wir sollten vielleicht , dass die beste unverzerrter Schätzer des Mittel ist nicht die Probe Mittelwert, sondern ist n + 1θ/2Der Stichprobenmittelwert ist ein mieser Schätzer vonθ/2,da für einige Stichproben der Stichprobenmittelwert kleiner als1 ist

n+12nmax{X1,,Xn}.
θ/2und es ist eindeutig unmöglich, dassθ/2kleiner alsmax/2.Ende von PS ist12max{X1,,Xn},θ/2max/2.

Ich vermute, dass die Pareto-Distribution ein weiterer solcher Fall ist. Hier ist das Wahrscheinlichkeitsmaß: Der erwartete Wert istα

α(κx)α dxx for x>κ.
Der MLE des erwarteten Wertes ist nαα1κ. wobeimin=min{X1,,Xn}.
nni=1n((logXi)log(min))min
min=min{X1,,Xn}.

Ich habe den erwarteten Wert der MLE für den Mittelwert nicht berechnet, daher weiß ich nicht, wie stark die Abweichung ist.

Michael Hardy
quelle
12
Cagdas, es ist nicht legitim, ein Gegenbeispiel anzufordern und dann zu leugnen, dass Sie etwas anderes vorschlagen würden! Es ist, als würde man nach einem Beispiel für eine Frucht fragen, die nicht rot ist, eine Blaubeere sehen und dann sagen, dass sie nicht zählt, weil man keine Blaubeeren mag.
whuber
7
Das ist für die gestellte Frage nicht relevant.
Whuber
8
@CagdasOzgenc: Ob der MLE voreingenommen ist oder nicht, hängt vom Modell ab. Es gibt keine MLE ohne Model. Und wenn Sie das Modell ändern, ändern Sie die MLE.
Michael Hardy
8
@CagdasOzgenc Hier ist eine demokratische Frage: Der Stichprobenmittelwert ist ein unvoreingenommener Schätzer für was? Sie benötigen ein Modell, um einen Parameter für die Schätzung zu haben.
Matthew Drury
9
Der Mittelwert einer iid-Stichprobe ist ein unverzerrter Schätzer des Populationsmittelwerts, aber man kann nicht von einem Maximalwahrscheinlichkeitsschätzer für irgendetwas ohne mehr Struktur sprechen, als für einen unverzerrten Schätzer für etwas erforderlich ist.
Michael Hardy
18

Hier ist ein Beispiel, das meiner Meinung nach einige überraschen könnte:

Bei der logistischen Regression ist für jede endliche Stichprobengröße mit nicht deterministischen Ergebnissen (dh ) ein geschätzter Regressionskoeffizient nicht nur voreingenommen, sondern der Mittelwert des Regressionskoeffizienten ist tatsächlich undefiniert.0<pi<1

Dies liegt daran, dass für jede endliche Stichprobengröße eine positive Wahrscheinlichkeit (wenn auch sehr gering, wenn die Anzahl der Stichproben im Vergleich zur Anzahl der Regressionsparameter groß ist) besteht, eine perfekte Trennung der Ergebnisse zu erzielen. In diesem Fall sind die geschätzten Regressionskoeffizienten entweder oder . Eine positive Wahrscheinlichkeit, entweder - oder ∞ zu sein, impliziert, dass der erwartete Wert undefiniert ist.

Weitere Informationen zu diesem speziellen Thema finden Sie unter Hauck-Donner-Effekt .

Cliff AB
quelle
1
Das ist ziemlich schlau. Ich frage mich, ob die MLE der logistischen Regressionskoeffizienten unparteiisch ist, wenn der Hauck-Donner-Effekt nicht auftritt.
gung - Wiedereinsetzung von Monica
3
@gung: Kurze Antwort: Ignoriert man den Hauck-Donner-Effekt, gibt es bei absoluten Regressionskoeffizienten immer noch eine Aufwärtsverzerrung (dh negative Koeffizienten haben eine Abwärtsverzerrung, positive eine Aufwärtsverzerrung). Interessanterweise scheint es bei den geschätzten Wahrscheinlichkeiten eine Tendenz zu 0,5 zu geben. Ich habe angefangen, darüber in diesem Beitrag zu schreiben , aber meine Ergebnisse sind nicht auf die Vorurteile der geschätzten Wahrscheinlichkeiten zurückzuführen.
Cliff AB
10

Obwohl @MichaelHardy darauf hingewiesen hat, folgt hier ein ausführlicheres Argument, warum die MLE des Maximums (und damit des Mittelwerts durch Invarianz) nicht unverzerrt ist, obwohl sie sich in einem anderen Modell befindet (siehe die Bearbeitung unten).θ/2

Wir schätzen die Obergrenze der Gleichverteilung . Hier ist y ( n ) die MLE für eine Zufallsstichprobe y . Wir zeigen, dass y ( n ) nicht unvoreingenommen ist. Sein cdf ist F y ( n ) ( x )U[0,θ]y(n)yy(n) Somit ist seine Dichte fy(n)(x)={n

Fy(n)(x)=Pr{Y1x,,Ynx}=Pr{Y1x}n={0forx<0(xθ)nfor0xθ1forx>θ
also E [ Y ( n ) ]
fy(n)(x)={nθ(xθ)n1for0xθ0else
E[Y(n)]=0θxnθ(xθ)n1dx=0θn(xθ)ndx=nn+1θ

EDIT: Es ist in der Tat der Fall, dass (siehe die Diskussion in den Kommentaren) die MLE für den Mittelwert unverzerrt ist, in dem sowohl die untere Schranke als auch die obere Schranke b unbekannt sind. Dann wird das Minimum Y ( 1 ) ist das MLE für a , mit (Details weggelassen) Erwartungswert E ( Y ( 1 ) ) = n a + babY(1)a während E(Y(n))=nb+a

E(Y(1))=na+bn+1
, so dass die MLE für(a+b)/2ist Y ( 1 ) +Y ( n )
E(Y(n))=nb+an+1
(a+b)/2 mit dem erwarteten Wert E( Y ( 1 ) + Y ( n )
Y(1)+Y(n)2
E(Y(1)+Y(n)2)=na+b+nb+a2(n+1)=a+b2

EDIT 2: Um auf Henrys Punkt näher einzugehen, hier eine kleine Simulation für die MSE der Schätzer des Mittelwerts, die zeigt, dass die MSEs für die beiden Varianten identisch sind, wenn wir nicht wissen, dass die Untergrenze Null ist, während die MLE unverzerrt ist Dies legt nahe, dass der Schätzer, der die Kenntnis der Untergrenze einbezieht, die Variabilität verringert.

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968
Christoph Hanck
quelle
Weil Wikipedia zunächst ein anderes Modell vorschlägt. Dort liegt meine Verwirrung.
Cagdas Ozgenc
a=0(max+0)/2
2
Ich habe die Details nicht ausgearbeitet, aber der MLE in diesem Modell könnte unverzerrt sein, wenn das Minimum die Untergrenze um den gleichen Betrag überschätzt, wie das Maximum das Maximum unterschätzt, so dass der Mittelpunkt ohne Verzerrung geschätzt wird.
Christoph Hanck
4
@CagdasOzgenc: Unparteilichkeit ist nicht das einzige oder sogar wichtigste Maß für Besseres . Wenn Sie ein Ende der Unterstützung genau kennen, verlieren Sie möglicherweise das Gleichgewicht zwischen Fehlern bei der Schätzung des Mittelwerts, aber Sie erhalten (zum Beispiel) eine bessere Schätzung des Bereichs
Henry
6
Maximum-Likelihood-Schätzer sind nicht immer über alle Kriterien hinweg für kleine Stichprobengrößen "am besten". Na und? Sie tun auch nicht so. Wenn Sie für Ihr Problem einen anderen Schätzer verwenden möchten, der nach bestimmten Kriterien bessere Eigenschaften für Stichprobengrößen aufweist, die in der Nähe Ihrer tatsächlichen Stichprobengröße liegen, können Sie dies tun. Das tue ich und andere Leute auch. Niemand behauptet, dass die Verwendung von MLE in allen Situationen gerechtfertigt ist, nur weil es MLE ist.
Bogenschütze
5

Vervollständigen Sie hier die Lücke in meiner Antwort auf math.se, auf die sich das OP bezieht .

n

fH(x)=2/π1v1/2exp{-x22v}E(X)=2/πv1/2μ,Var(X)=(1-2π)v

Die log-Wahrscheinlichkeit der Stichprobe ist

L(vx)=nln2/π-n2lnv-12vich=1nxich2

v

vL(vx)=n2v+12v2i=1nxi2,v^MLE=1ni=1nxi2

so it is a method of moments estimator. It is unbiased since,

E(v^MLE)=E(X2)=Var(X)+[E(X)])2=(12π)v+2πv=v

But, the resulting estimator for the mean is downward biased due to Jensen's inequality

μ^MLE=2/πv^MLEE(μ^MLE)=2/πE(v^MLE)<2/π[E(v^MLE)]=2/πv=μ
Alecos Papadopoulos
quelle
4

The famous Neyman Scott problem has an inconsistent MLE in that it never even converges to the right thing. Motivates the use of conditional likelihood.

Take (Xi,Yi)N(μi,σ2). The MLE of μi is (Xi+Yi)/2 and of σ2 is σ^2=i=1n1nsi2 with si2=(Xiμ^i)2/2+(Yiμ^i)2/2=(XiYi)2/4 which has expected value σ2/4 and so biased by a factor of 2.

AdamO
quelle
2
While this example holds true, this actually defies one of the basic regularity conditions for asymptotic results of MLE's: that k/n0, where k is the number of parameters estimated and n is the sample size.
Cliff AB
1
@CliffAB the assumption violation is that the parametric dimension is not fixed. The dimension of Θ goes to as n. I think that's what you're saying, but don't know what k means. The practical illustration of this example of course is that these results would be biased even in small samples and you have to use conditional likelihood, like a mixed effects model, to estimate σ in this case.
AdamO
3

There is an infinite range of examples for this phenomenon since

  1. the maximum likelihood estimator of a bijective transform Ψ(θ) of a parameter θ is the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE);
  2. the expectation of the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE), E[Ψ(θ^MLE)] is not the bijective transform of the expectation of the maximum likelihood estimator, Ψ(E[θ^MLE]);
  3. most transforms Ψ(θ) are expectations of some transform of the data, h(X), at least for exponential families, provided an inverse Laplace transform can be applied to them.
Xi'an
quelle