Warum ist das arithmetische Mittel kleiner als das Verteilungsmittel in einer logarithmischen Normalverteilung?

13

Ich habe also einen zufälligen Prozess, der logarithmisch normalverteilte Zufallsvariablen . Hier ist die entsprechende Wahrscheinlichkeitsdichtefunktion:X

Abbildung, die eine logarithmische Wahrscheinlichkeitsdichtefunktion darstellt

Ich wollte die Verteilung einiger Momente dieser ursprünglichen Verteilung schätzen , sagen wir den ersten Moment: das arithmetische Mittel. Zu diesem Zweck habe ich 100 Zufallsvariablen 10000-mal gezeichnet, um 10000-Schätzungen des arithmetischen Mittels zu berechnen.

Es gibt zwei Möglichkeiten, diese Bedeutung einzuschätzen (zumindest habe ich das verstanden: Ich könnte mich irren):

  1. durch einfaches Berechnen des arithmetischen Mittels auf die übliche Weise:
    X¯=i=1NXiN.
  2. oder indem und aus der zugrunde liegenden Normalverteilung geschätzt werden : und dann der Mittelwert alsσμ
    μ=i=1Nlog(Xi)Nσ2=i=1N(log(Xi)μ)2N
    X¯=exp(μ+12σ2).

Das Problem ist, dass die Verteilungen, die diesen Schätzungen entsprechen, systematisch unterschiedlich sind:

Die beiden Schätzer geben unterschiedliche Verteilungen an, wie auf dem Bild gezeigt.

Der "einfache" Mittelwert (dargestellt als die rot gestrichelte Linie) liefert im Allgemeinen niedrigere Werte als derjenige, der von der Exponentialform abgeleitet ist (grüne einfache Linie). Beide Mittelwerte werden jedoch mit genau demselben Datensatz berechnet. Bitte beachten Sie, dass dieser Unterschied systematisch ist.

Warum sind diese Verteilungen nicht gleich?

JohnW
quelle
Was sind Ihre wahren Parameter für und σ ? μσ
Christoph Hanck
und σ = 1,5 , aber bitte beachten Sie, dass ich daran interessiert bin, diese Parameter zu schätzen, daher der Monte-Carlo-Ansatz, anstatt das Ding aus diesen rohen Zahlen zu berechnen. μ=3σ=1.5
JohnW
Sicher, dies ist für die Replikation Ihrer Ergebnisse.
Christoph Hanck
4
Interessanterweise hat dieses Phänomen nichts mit Lognormalität zu tun. Bei positiven Zahlen mit Logarithmen y i ist bekannt, dass ihr arithmetisches Mittel (AM) x i / n niemals kleiner ist als ihr geometrisches Mittel (GM) exp ( y i / n ) . In der anderen Richtung ist der AM niemals größer als der GM multipliziert mit exp ( s 2 y / 2 ), wobei s 2 y die Varianz des y i istxiyixi/nexp(yi/n)exp(sy2/2)sy2yi. Daher muss die gepunktete rote Kurve für jede übergeordnete Verteilung (die positive Zufallszahlen beschreibt) links von der durchgezogenen grünen Kurve liegen .
whuber
Wenn ein Großteil des Mittelwerts aus einer winzigen Wahrscheinlichkeit großer Zahlen stammt, kann ein arithmetischer Mittelwert mit endlicher Stichprobe den Mittelwert der Grundgesamtheit mit hoher Wahrscheinlichkeit unterschätzen. (In der Erwartung ist es unvoreingenommen, aber es gibt eine große Wahrscheinlichkeit für eine kleine Unterschätzung und eine kleine Wahrscheinlichkeit für eine große Überschätzung.) Diese Frage kann sich auch auf diese beziehen: stats.stackexchange.com/questions/214733/…
Matthew Gunn

Antworten:

12

Die beiden Schätzer, die Sie vergleichen, sind die Methode des Momentschätzers (1.) und der MLE (2.), siehe hier . Beide sind konsistent (so für großen , sind sie in gewissem Sinne wahrscheinlich nahe bei dem wahren Wert sein exp [ μ + 1 / 2 σ 2 ] ).Nexp[μ+1/2σ2]

Für den MM-Schätzer ist dies eine direkte Konsequenz des Gesetzes der großen Zahlen, das besagt, dass . Für die MLE, der kontinuierliche Abbildungssatz bedeutet , dass exp [ μ + 1 / 2 σ 2 ] p exp [ μ + 1 / 2 σ 2 ] , als μp μ und σ 2 X¯pE(Xi)

exp[μ^+1/2σ^2]pexp[μ+1/2σ2],
μ^pμ .σ^2pσ2

Die MLE ist jedoch nicht unvoreingenommen.

In der Tat, Jensen-Ungleichung sagt uns , dass für klein ist , ist die MLE zu erwarten nach oben verzerrt (siehe auch die Simulation unten): μ und & sgr; 2 sind (im letzteren Fall, fast, aber mit einem vernachlässigbaren Bias für N = 100 , da der unverzerrte Schätzer durch N - 1 dividiert. ) Bekanntermaßen unverzerrte Schätzer der Parameter einer Normalverteilung μ und σ 2 (ich benutze Hüte, um Schätzer anzugeben).Nμ^σ^2N=100N1μσ2

E(μ^+1/2σ^2)μ+1/2σ2

E[exp(μ^+1/2σ^2)]>exp[E(μ^+1/2σ^2)]exp[μ+1/2σ2]

N=100

N=1000

enter image description here

Hergestellt mit:

N <- 1000
reps <- 10000

mu <- 3
sigma <- 1.5
mm <- mle <- rep(NA,reps)

for (i in 1:reps){
  X <- rlnorm(N, meanlog = mu, sdlog = sigma)
  mm[i] <- mean(X)

  normmean <- mean(log(X))
  normvar <- (N-1)/N*var(log(X))
  mle[i] <- exp(normmean+normvar/2)
}
plot(density(mm),col="green",lwd=2)
truemean <- exp(mu+1/2*sigma^2)
abline(v=truemean,lty=2)
lines(density(mle),col="red",lwd=2,lty=2)

> truemean
[1] 61.86781

> mean(mm)
[1] 61.97504

> mean(mle)
[1] 61.98256

exp(μ+σ2/2)

Vt=(σ2+σ4/2)exp{2(μ+12σ2)},
exp{2(μ+12σ2)}(exp{σ2}1)
exp{σ2}>1+σ2+σ4/2,
exp(x)=i=0xi/i!σ2>0

NN <- c(50,100,200,500,1000,2000,3000,5000)

enter image description here

NNN=50

> tail(sort(mm))
[1] 336.7619 356.6176 369.3869 385.8879 413.1249 784.6867
> tail(sort(mle))
[1] 187.7215 205.1379 216.0167 222.8078 229.6142 259.8727 
Christoph Hanck
quelle
Ah okay. Mir ist wirklich nicht in den Sinn gekommen, dass eine Methode bei gleichen Daten effizienter sein könnte als die andere. Also ich könnte sagen, dass die MLE-Lösung in Bezug auf schneller konvergiertNals die andere Methode, wenn ich richtig verstanden habe. Vielen Dank!
JohnW
1
Ich habe ein wenig über die Voreingenommenheit nachgedacht. ZumN=100 Die Abweichung ist zwar negativ für den MM-Schätzer, aber das scheint kein allgemeines Ergebnis zu sein N.
Christoph Hanck
2
Nun, ich bin auch überrascht, dass es einen so großen Unterschied zwischen den beiden Methoden gibt, aber dieses Beispiel ist absolut perfekt , um zu demonstrieren, warum "nur Mittelwertbildung" schrecklich sein kann!
JohnW
1
@ JohnW, ich habe eine kleine analytische Erklärung hinzugefügt, warum der MLE eine geringere Varianz aufweist.
Christoph Hanck
1
Die Diskrepanz ergibt sich aus der Tatsache, dass die Verzerrung ein endliches Stichprobenproblem ist, dh, sie verschwindet als Ngeht bis ins Unendliche. Der Vergleich der asymptotischen Varianz (wie der Name schon sagt) zeigt nur, was im Grenzfall passiert, wieN.
Christoph Hanck