Was ist der Unterschied zwischen endlicher und unendlicher Varianz?

33

Was ist der Unterschied zwischen endlicher und unendlicher Varianz? Meine Statistikkenntnisse sind eher grundlegend. Wikipedia / Google hat hier nicht viel geholfen.

AfterWorkGuinness
quelle
8
Verteilungen mit unendlicher Varianz sind stark schwanzförmig ; Es gibt viele Ausreißer, und sie können Eigenschaften haben, die sich von denen unterscheiden, an die man gewöhnt ist. Beispielsweise hat der Stichprobenmittelwert von Stichproben, die aus einer Cauchy- Verteilung gezogen wurden, die gleiche (Cauchy-) Verteilung wie die einzelnen Stichproben. Dies unterscheidet sich erheblich von der üblichen Annahme, dass der Stichprobenmittelwert ein besserer "Schätzer" ist als jede einzelne Stichprobe.
Dilip Sarwate
4
Nein, schwerer Schwanz ist nicht dasselbe wie unendliche Varianz, oder zumindest nicht aus meiner Sicht. Da ich jedoch kein Statistiker bin, sollten Sie auf eine verbindlichere Antwort von hochrangigen Nutzern in diesem Forum warten.
Dilip Sarwate
4
Unendliche Varianz tritt auf, wenn das Integral (Summe), das die Populationsvarianz definiert, über eine endliche Grenze hinaus ansteigt, wenn die Grenze genommen wird. Einige Diskussion von Beispielen hier
Glen_b -Reinstate Monica
2
Ich denke, am wichtigsten ist, dass die meisten zentralen Grenzwertsätze für eine solche Population nicht gelten und daher einige gemeinsame Ergebnisse zusammenbrechen werden.
Henry.L
1
Wichtiger Punkt: Wenn Varianz einer Population ist unendlich, aber Varianz einer Probe endlich ist , dann ist jede Schätzung der Varianz der Population oder Standardabweichung einer Probe Statistik wie mit , oder , dann wird ziemlich voreingenommen sein. Da so viele Teststatistiken auf einem über einen geschätzten Standardfehler des Effekts normierten Effektmaß basieren und so viele CIs auf einer Skalierung mit einem geschätzten Standardfehler basieren, bedeutet dies, dass statistische Rückschlüsse auf Variablen mit unendlicher Varianz wahrscheinlich sind ziemlich voreingenommen sein . s ss2ssn
Alexis

Antworten:

48

Was bedeutet es für eine Zufallsvariable, "unendliche Varianz" zu haben? Was bedeutet es für eine Zufallsvariable, eine unendliche Erwartung zu haben? Die Erklärung ist in beiden Fällen ziemlich ähnlich. Beginnen wir also mit dem Fall der Erwartung und der Varianz danach.

Sei eine kontinuierliche Zufallsvariable (RV) (unsere Schlussfolgerungen gelten allgemeiner, für den diskreten Fall wird das Integral durch die Summe ersetzt). Nehmen wir zur Vereinfachung der Darstellung .X 0XX0

Ihre Erwartung wird durch das Integral wenn dieses Integral existiert, endlich ist. Ansonsten sagen wir, dass die Erwartung nicht existiert. Das ist ein falsches Integral, und per Definition ist Damit diese Grenze endlich ist, ist die Der Beitrag des Schwanzes muss verschwinden, das heißt, wir müssen Eine notwendige (aber nicht ausreichende) Bedingung, damit dies der Fall ist ist . Was die oben angezeigte Bedingung besagt, ist, dass der Beitrag zur Erwartung vom (rechten) Schwanz verschwinden muss0 x f ( x )

EX=0xf(x)dx
lim a a x f ( x )
0xf(x)dx=limein0einxf(x)dx
lim x x f ( x ) = 0
limeineinxf(x)dx=0
limxxf(x)=0. Ist dies nicht der Fall, wird die Erwartung von Beiträgen beliebig großer realisierter Werte dominiert . In der Praxis bedeutet dies, dass empirische Mittel sehr instabil sind, da sie von den selten sehr großen realisierten Werten dominiert werden . Und beachten Sie, dass diese Instabilität der Probenmittel bei großen Proben nicht verschwindet - es ist ein integrierter Bestandteil des Modells!

In vielen Situationen scheint das unrealistisch. Sagen wir ein (Lebens-) Versicherungsmodell, also modelliert eine (menschliche) Lebenszeit. Wir wissen, dass nicht vorkommt, aber in der Praxis verwenden wir Modelle ohne Obergrenze. Der Grund ist klar: Es ist keine feste Obergrenze bekannt, wenn eine Person 110 Jahre alt ist, gibt es keinen Grund, warum sie nicht noch ein Jahr leben kann! Ein Modell mit einer harten Obergrenze scheint also künstlich. Trotzdem wollen wir nicht, dass der extreme obere Schwanz viel Einfluss hat.X > 1000XX>1000

Wenn eine endliche Erwartung hat, können wir das Modell so ändern, dass es eine feste Obergrenze hat, ohne das Modell übermäßig zu beeinflussen. In Situationen mit einer unscharfen Obergrenze scheint das gut zu sein. Wenn das Modell unendliche Erwartungen hat, hat jede harte Obergrenze, die wir in das Modell einführen, dramatische Konsequenzen! Das ist die wahre Bedeutung der unendlichen Erwartung.X

Mit endlicher Erwartung können wir die Obergrenzen verschwimmen lassen. Mit unendlicher Erwartung können wir nicht .

Ähnliches gilt nun mutatis mutandi für die unendliche Varianz.

Zur Verdeutlichung sehen wir uns ein Beispiel an. Für das Beispiel verwenden wir die Pareto-Verteilung, die im Aktor des R-Pakets (auf CRAN) als pareto1 --- Pareto-Verteilung mit einem Parameter, auch als Pareto-Typ-1-Verteilung bekannt, implementiert ist. Die Wahrscheinlichkeitsdichtefunktion ist gegeben durch für einige Parameter . Wenn die Erwartung und wird durch . Wenn die Erwartung nicht existiert, oder wie wir sagen, ist sie unendlich, weil das Integral, das sie definiert, zur Unendlichkeit abweicht. Wir können die Verteilung des ersten Moments definierenm>0,α>0α>1α

f(x)={αmαxα+1,xm0,x<m
m>0,α>0α>1α1E(M)= M m xf(x)αα1mα1(siehe den Beitrag Wann würden wir Tantiles und das Medial anstelle von Quantiles und dem Median verwenden? ) als (dies gilt unabhängig davon, ob die Erwartung selbst besteht). (Später editieren: Ich habe den Namen "first moment distribution" erfunden, später erfuhr ich, dass dies mit dem zusammenhängt, was "offiziell" Teilmomente nennt ).
E(M)=mMxf(x)dx=αα-1(m-mαMα-1)

Wenn die Erwartung existiert ( ), können wir durch sie dividieren, um die relative Verteilung des ersten Moments zu erhalten, gegeben durch Wenn nur ein bisschen größer als eins ist, konvergiert das Integral, das die Erwartung definiert, langsam. Betrachten wir das Beispiel mit . Zeichnen wir dann mit Hilfe von R:E r ( M ) = E ( m ) / E ( ) = 1 - ( mα>1

Er(M)=E(m)/E()=1(mM)α1
αm=1,α=1.2Er(M)
### Function for opening new plot file:
open_png  <-  function(filename) png(filename=filename,
                                     type="cairo-png")

library(actuar) # from CRAN
### Code for Pareto type I distribution:
# First plotting density and "graphical moments" using ideas from http://www.quantdec.com/envstats/notes/class_06/properties.htm   and used some times at cross validated

m  <-  1.0
alpha <- 1.2
# Expectation:
E   <-  m * (alpha/(alpha-1))
# upper limit for plots:
upper  <- qpareto1(0.99, alpha, m)   
#
open_png("first_moment_dist1.png")
Er  <- function(M, m, alpha) 1.0 - (m/M)^(alpha-1.0)
### Inverse relative first moment distribution function,  giving
#   what we may call "expectation quantiles":
Er_inv  <-   function(eq, m, alpha) m*exp(log(1.0-eq)/(1-alpha))     

plot(function(M) Er(M, m, alpha), from=1.0,  to=upper)
plot(function(M) ppareto1(M, alpha, m), from=1.0,  to=upper, add=TRUE,  col="red")
dev.off()

was diese Handlung erzeugt:

Bildbeschreibung hier eingeben

Zum Beispiel von diesem Grundstück kann man lesen , dass etwa 50% des Beitrags zu der Erwartung kommen aus Beobachtungen über etwa 40. Da die Erwartung dieser Verteilung ist 6, das ist erstaunlich! (Diese Distribution hat keine Varianz. Dafür brauchen wir ).μα>2

Die oben definierte Funktion Er_inv ist die inverse relative Erstmomentverteilung, analog zur Quantilfunktion. Wir haben:

> ### What this plot shows very clearly is that most of the contribution to the expectation come from the very extreme right tail!
# Example   
eq  <-  Er_inv(0.5, m, alpha)
ppareto1(eq, alpha, m)
eq

> > > [1] 0.984375
> [1] 32
> 

Dies zeigt, dass 50% der Beiträge zur Erwartung von den oberen 1,5% der Verteilung stammen! Also, vor allem in kleinen Proben , bei denen es eine hohe Wahrscheinlichkeit , dass der extreme Schwanz nicht vertreten ist, das arithmetische Mittel, während immer noch ein unverzerrter Schätzer der Erwartung zu sein , muss eine sehr Skew Verteilung aufweist. Wir werden dies durch Simulation untersuchen: Zuerst verwenden wir eine Stichprobengröße .μn=5

set.seed(1234)
n  <-  5
N  <-  10000000  # Number of simulation replicas
means  <-  replicate(N,  mean(rpareto1(n, alpha, m) ))


> mean(means)
[1] 5.846645
> median(means)
[1] 2.658925
> min(means)
[1] 1.014836
> max(means)
[1] 633004.5
length(means[means <=100])
[1] 9970136

Um ein lesbares Diagramm zu erhalten, wird nur das Histogramm für den Teil der Stichprobe mit Werten unter 100 angezeigt, der ein sehr großer Teil der Stichprobe ist.

open_png("mean_sim_hist1.png")
hist(means[means<=100],  breaks=100, probability=TRUE)
dev.off()

Bildbeschreibung hier eingeben

Die Verteilung der arithmetischen Mittel ist sehr schief,

> sum(means <= 6)/N
[1] 0.8596413
> 

Fast 86% der empirischen Mittelwerte sind kleiner oder gleich dem theoretischen Mittelwert, der Erwartung. Das ist, was wir erwarten sollten, da der größte Teil des Beitrags zum Mittelwert aus dem extremen oberen Schwanz stammt, der in den meisten Stichproben nicht vertreten ist .

Wir müssen zurückgehen, um unsere frühere Schlussfolgerung zu überdenken. Während die Existenz des Mittelwerts es möglich macht, über obere Grenzen verschwommen zu sein, sehen wir, dass, wenn "der Mittelwert gerade noch existiert", was bedeutet, dass das Integral langsam konvergiert, wir über obere Grenzen nicht wirklich verschwommen sein können . Langsam konvergierende Integrale haben zur Folge, dass es möglicherweise besser ist, Methoden zu verwenden, die nicht davon ausgehen, dass die Erwartung besteht . Wenn das Integral sehr langsam konvergiert, ist es in der Praxis so, als ob es überhaupt nicht konvergiert. Der praktische Nutzen, der sich aus einem konvergenten Integral ergibt, ist eine Chimäre im langsam konvergenten Fall! Dies ist eine Möglichkeit, die Schlussfolgerung von NN Taleb in http://fooledbyrandomness.com/complexityAugust-06.pdf zu verstehen

kjetil b halvorsen
quelle
2
Fantastische Antwort.
Karl
2

Varianz ist das Maß für die Streuung der Werteverteilung einer Zufallsvariablen. Dies ist nicht das einzige derartige Maß, z. B. ist die mittlere absolute Abweichung eine der Alternativen.

Die unendliche Varianz bedeutet, dass sich Zufallswerte nicht zu eng um den Mittelwert konzentrieren . Dies könnte bedeuten, dass die Wahrscheinlichkeit groß genug ist, dass die nächste Zufallszahl sehr weit vom Mittelwert entfernt ist.

Die Verteilungen wie Normal (Gauß) können Zufallszahlen erzeugen, die sehr weit vom Mittelwert entfernt sind, aber die Wahrscheinlichkeit solcher Ereignisse nimmt mit der Größe der Abweichung sehr schnell ab .

In dieser Hinsicht sehen die Diagramme der Cauchy-Verteilung oder einer Gaußschen (normalen) Verteilung optisch nicht sehr unterschiedlich aus. Wenn Sie jedoch versuchen, die Varianz der Cauchy-Verteilung zu berechnen, ist sie unendlich, während die von Gauß endlich ist. Daher ist die Normalverteilung um ihren Mittelwert enger als bei Cauchy.

Übrigens, wenn Sie mit Mathematikern sprechen, werden sie darauf bestehen, dass die Cauchy-Verteilung keinen genau definierten Mittelwert hat, sondern unendlich ist. Das klingt für Physiker lächerlich, die darauf hinweisen würden, dass Cauchy symmetrisch ist, daher muss es einen Mittelwert haben. In diesem Fall würden sie argumentieren, das Problem liege in Ihrer Definition des Mittelwerts, nicht in der Verteilung nach Cauchy.

Aksakal
quelle
2
Sind Sie Mathematikern und Physikern sicher? Mein Eindruck ist, dass Physisicst über solche Dinge sehr streng sein kann! Siehe meine Antwort, langsame Konvergenz macht einen Wert von geringem Wert! Auch würde kein Mathematiker sagen, der Cauchy habe unendliche Mittelwerte, die eigentliche Grenze, die das Integral definiert, gibt es einfach nicht, da sie in beiden Endpunkten divergiert. Von oder sprechen, ist nur dann sinnvoll, wenn die Divergenz nur in einem Schweif liegt. -
kjetil b halvorsen
1
@kjetilbhalvorsen, "kein Mathematiker würde sagen, der Cauchy hat einen unendlichen Mittelwert" - dieser Mittelwert ist nicht genau definiert, wie ich von meinem Statistikprofessor erfahren habe, während mein Berater von Theor Physcis überrascht war, dass es sogar eine Frage zum Mittelwert gibt. "Natürlich ist es Null, und wenn Sie nicht einverstanden sind, dann stimmt etwas nicht mit Ihrer Definition des Mittelwerts"
Aksakal
Haben Sie ihn nach seiner Definition des Mittelwerts gefragt?
kjetil b halvorsen
@kjetilbhalvorsen, Riemann Integral, wenn Sie über Mathe-Prof sprechen. Sein Argument ist, dass Sie in Riemann-Summe keine bestimmte Reihenfolge der Summe oder Aufteilung der Summe definieren, so dass Ihre Summe unendlich sein wird. Physiker Punkt ist eine Symmetrie, klar, es muss "Null sein"
Aksakal
1
Dann können Sie ihm vielleicht sagen, dass er den Median definiert hat, nicht den Mittelwert.
kjetil b halvorsen
2

Eine alternative Betrachtungsweise ist die Quantilfunktion.

Q.(F(x))=x

Dann können wir einen Moment oder eine Erwartung berechnen

E(T(x))=-T(x)f(x)dx

f(x)dx=dF

E(T(x))=01T(Q.(F))dF

T(x)=xx=0T(x)<0x=0π

Cauchy gegen Normal

Die Kurven im Bild zeigen, wie viel jedes Quantil zur Berechnung beiträgt.

T(Q.(F))

Diese Unendlichkeit mag nicht so seltsam sein, da der Abstand (Mittelwert) oder der quadratische Abstand (Varianz) des Integranden selbst unendlich werden kann. Es ist nur eine Frage, wie viel Gewicht , wie viel Prozent von F diese unendlichen Schwänze haben.

Bei der Summierung / Integration der Entfernung von Null (Mittelwert) oder der quadratischen Entfernung vom Mittelwert (Varianz) hat ein einzelner Punkt, der sehr weit entfernt ist, mehr Einfluss auf die durchschnittliche Entfernung (oder die quadratische Entfernung) als viele Punkte in der Nähe.

Wenn wir uns also in Richtung Unendlich bewegen, kann die Dichte abnehmen, aber der Einfluss auf die Summe einiger (zunehmender) Größen, z. B. Entfernung oder quadratische Entfernung, ändert sich nicht notwendigerweise.

x2x12n((2x)n)212n

Sextus Empiricus
quelle
1

X

p(k)=c/|k|3kZ{0}p(0)=0c=(2ζ(3))-1: =(2k=11/k3)-1<EX∣ <2k=1k2/|k|3=2k=1k-1=

ζ(x): =k=1k-x

John Jiang
quelle
4
0-