Zentraler Grenzwertsatz und Pareto-Verteilung

10

Kann jemand bitte eine einfache (Laien-) Erklärung der Beziehung zwischen Pareto-Verteilungen und dem zentralen Grenzwertsatz geben (z. B. gilt sie? Warum / warum nicht?)? Ich versuche die folgende Aussage zu verstehen:

"Der zentrale Grenzwertsatz funktioniert nicht mit jeder Verteilung. Dies liegt an einer hinterhältigen Tatsache: Stichprobenmittelwerte werden um den Mittelwert der zugrunde liegenden Verteilung gruppiert, falls vorhanden. Aber wie kann eine Verteilung keinen Mittelwert haben? Nun, eine gemeinsame Verteilung Das hat keinen Mittelwert für die Pareto-Verteilung. Wenn Sie versuchen würden, sie mit den üblichen Methoden zu berechnen, würde sie bis ins Unendliche abweichen. "

user1222447
quelle

Antworten:

15

Die Aussage ist im Allgemeinen nicht wahr - die Pareto-Verteilung hat einen endlichen Mittelwert, wenn ihr Formparameter ( am Link) größer als 1 ist.α

Wenn sowohl der Mittelwert als auch die Varianz existieren ( ), gelten die üblichen Formen des zentralen Grenzwertsatzes - z. B. Klassik, Lyapunov, Lindebergα>2

Siehe die Beschreibung des klassischen zentralen Grenzwertsatzes hier

Das Zitat ist etwas seltsam, weil der zentrale Grenzwertsatz (in einer der genannten Formen) nicht für den Stichprobenmittelwert selbst gilt, sondern für einen standardisierten Mittelwert (und wenn wir versuchen, ihn auf etwas anzuwenden, dessen Mittelwert und Varianz sind nicht endlich, wir müssten sehr sorgfältig erklären, wovon wir tatsächlich sprechen, da Zähler und Nenner Dinge beinhalten, die keine endlichen Grenzen haben.

Trotzdem (obwohl es nicht ganz richtig ausgedrückt wird, um über zentrale Grenzwertsätze zu sprechen) hat es einen zugrunde liegenden Punkt - der Stichprobenmittelwert konvergiert nicht zum Populationsmittelwert (das schwache Gesetz der großen Zahlen gilt nicht, da das den Mittelwert definierende Integral nicht endlich ist).


Wie kjetil in den Kommentaren zu Recht hervorhebt, brauchen wir eine Art Bindung an "wie weit weg" / "wie schnell", um zu vermeiden, dass die Konvergenzrate schrecklich ist (dh um sie in der Praxis anwenden zu können) Die Annäherung setzt ein. Es nützt nichts, eine angemessene Näherung für (sagen wir) zu haben, wenn wir eine praktische Verwendung von einer normalen Näherung wollen.n>1010100

Der zentrale Grenzwertsatz bezieht sich auf das Ziel, sagt jedoch nichts darüber aus, wie schnell wir dort ankommen. Es gibt jedoch Ergebnisse wie das Berry-Esseen-Theorem , die die Rate (in einem bestimmten Sinne) begrenzen. Im Fall von Berry-Esseen begrenzt es den größten Abstand zwischen der Verteilungsfunktion des standardisierten Mittelwerts und dem normalen Standard-cdf in Bezug auf das dritte absolute Moment ( ).E.(|X.|3)

Im Fall des Pareto können wir also , wenn , zumindest eine Grenze dafür ziehen, wie schlecht die Annäherung bei einigen könnte und wie schnell wir dort ankommen. (Andererseits ist die Begrenzung des Unterschieds in cdfs nicht unbedingt eine besonders "praktische" Sache - was Sie interessiert, hängt möglicherweise nicht besonders gut mit einer Begrenzung des Unterschieds in der Schwanzfläche zusammen). Trotzdem ist es etwas (und zumindest in einigen Situationen ist eine PDF-Bindung direkter nützlich).α>3n

Glen_b - Monica neu starten
quelle
2
Wenn die Varianz jedoch kaum existiert, dh aber sehr nahe, kann der zentrale Grenzwertsatz, obwohl er im Prinzip angewendet wird, zu sehr schlechten Näherungen führen. Um eine gewisse Kontrolle über die Qualität der Approximation zu haben, benötigen Sie so etwas wie den Berry-Esseen-Satz, der dritte Momente erfordert, dh . α > 3α>2α>3
kjetil b halvorsen
@kjetil ganz so; In der Praxis benötigen Sie mehr als nur zweite Momente, da die Konvergenz nutzlos langsam sein kann.
Glen_b -Reinstate Monica
1
Ja, ich werde eine Antwort hinzufügen, um das zu zeigen!
kjetil b halvorsen
2
Einige Verteilungen, die nicht dem zentralen Grenzwertsatz folgen, können standardisiert werden, um zu einem stabilen Gesetz zu konvergieren.
Michael R. Chernick
Tolle Diskussion hier. Ich wünschte, Stackexchange hätte eine Möglichkeit, den Antworten / Kommentaren der Leute zu folgen;)
Chan-Ho Suh
9

Ich werde eine Antwort hinzufügen, die zeigt, wie schlecht die Annäherung aus dem zentralen Grenzwertsatz (CLT) für die Pareto-Verteilung sein kann, selbst in einem Fall, in dem die Annahmen für CLT erfüllt sind. Die Annahme ist, dass es eine endliche Varianz geben muss, was für das Pareto bedeutet, dass . Eine theoretischere Diskussion darüber, warum dies so ist, finden Sie in meiner Antwort hier: Was ist der Unterschied zwischen endlicher und unendlicher Varianz?α>2

Ich werde Daten aus der Pareto-Verteilung mit dem Parameter simulieren , so dass die Varianz "gerade noch existiert". Wiederholen Sie meine Simulationen mit , um den Unterschied zu sehen! Hier ist ein R-Code:α=2.1α=3.1

###  Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) #  for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1  #  variance just barely exist
E <-  function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))

R <- 10000
e <-  E(alpha)
sigma  <-  sqrt(VAR(alpha))
sim <-  function(n) {
    replicate(R, {x <- rpareto1(n,alpha,1)
        x <- x-e
        mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...

### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:

sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)

### Now we plot the histograms:
    hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)

Und hier ist die Handlung:

simuliertes Pareto bedeutet Histogramm

Man kann sehen, dass wir selbst bei der Stichprobengröße weit von der normalen Näherung entfernt sind. Dass die empirischen Varianzen so viel niedriger sind als die wahre theoretische Varianz liegt daran, dass wir einen sehr großen Beitrag zur Varianz von Teilen der Verteilung im äußersten rechten Schwanz leisten, die nicht in auftauchen die meisten Proben. Dies ist immer dann zu erwarten, wenn die Varianz "gerade noch vorhanden" ist.n=10000σ2=1. Eine praktische Möglichkeit, darüber nachzudenken, ist die folgende. Pareto-Verteilungen werden häufig vorgeschlagen, um Einkommensverteilungen (oder Vermögensverteilungen) zu modellieren. Die Erwartung von Einkommen (oder Vermögen) wird von den wenigen Milliardären einen sehr großen Beitrag leisten. Bei Stichproben mit praktischen Stichprobengrößen ist die Wahrscheinlichkeit, dass Milliardäre in die Stichprobe aufgenommen werden, sehr gering!

kjetil b halvorsen
quelle
3

Ich mag bereits gegebene Antworten, denke aber, dass es ein bisschen viel Technik für eine "Laienerklärung" gibt, also werde ich etwas Intuitiveres ausprobieren (beginnend mit einer Gleichung ...).

p

μ=xp(x)dx
xxxxp(x)xp(x)p(x)μp

x¯=1nichxichμpnnx¯np

N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()

Geben Sie hier die Bildbeschreibung ein

Dies ist eine typische Realisierung. Der Stichprobenmittelwert konvergiert ziemlich genau gegen den Dichtemittelwert (und im Durchschnitt auf die Weise, die durch den zentralen Grenzwertsatz gegeben ist). Machen wir dasselbe für eine Pareto-Verteilung ohne Mittelwert (Substitution von rnorm (N, 1,1); durch Pareto (N, 1.1,1);)

Geben Sie hier die Bildbeschreibung ein

p(x)xxx

n(x- -μ)2p(x)dx

peuhp
quelle