Die Linearität der Varianz

15

Ich denke, die folgenden zwei Formeln sind wahr:

Var(aX)=a2Var(X)
während a eine konstante Zahl ist wenn , unabhängig sind
Var(X+Y)=Var(X)+Var(Y)
XY

Ich bin mir jedoch nicht sicher, was mit dem Folgenden falsch ist:

Var(2X)=Var(X+X)=Var(X)+Var(X)
was nicht , dh .22Var(X)4Var(X)

Wenn angenommen wird, dass die Stichprobe aus einer Population ist, können wir davon ausgehen, dass immer unabhängig von den anderen .XXX

Also, was ist los mit meiner Verwirrung?

lanselibai
quelle
8
Varianz ist nicht linear - Ihre erste Aussage zeigt dies (wenn es so wäre, hätten Sie . Kovarianz andererseits ist bilinear.Var(aX)=aVar(X)
Batman

Antworten:

33

Das Problem mit Ihrer Argumentation ist

"Ich denke, wir können immer davon ausgehen, dass unabhängig von den anderen ."XXX

X X X X X Y X 1 X 2X ist nicht unabhängig von . Mit dem Symbol wird hier auf die gleiche Zufallsvariable verwiesen. Sobald Sie den Wert des ersten , das in Ihrer Formel angezeigt werden soll, wird auch der Wert des zweiten , das angezeigt werden soll. Wenn Sie möchten, dass sie sich auf bestimmte (und möglicherweise unabhängige) Zufallsvariablen beziehen, müssen Sie sie mit verschiedenen Buchstaben (z. B. und ) oder mit Indizes (z. B. und ) . Letzteres wird oft (aber nicht immer) verwendet, um Variablen zu bezeichnen, die aus derselben Verteilung stammen.XXXXXYX1X2

Wenn zwei Variablen und unabhängig sind dann ist die gleiche wie den Wert des Wissens: nicht geben uns keine weiteren Informationen über den Wert von . Aber ist , wenn und sonst: den Wert des Wissens gibt Ihnen die vollständige Informationen über den Wert von . [Sie können die Wahrscheinlichkeiten in diesem Absatz durch kumulative Verteilungsfunktionen oder gegebenenfalls Wahrscheinlichkeitsdichtefunktionen ersetzen, um im Wesentlichen den gleichen Effekt zu erzielen.]Y Pr ( X = a | Y = b ) Pr ( X = a ) Y X Pr ( X = a | X = b ) 1 a = b 0 X XXYPr(X=a|Y=b)Pr(X=a)YXPr(X=a|X=b)1a=b0XX

Eine weitere Möglichkeit , die Dinge zu sehen ist , dass , wenn zwei Variablen unabhängig sind , dann haben sie eine Nullkorrelation (obwohl Null - Korrelation bedeutet nicht , Unabhängigkeit !) , Aber ist perfekt mit sich selbst korreliert, , so kann nicht sein , unabhängig von sich. Man beachte, dass, da die Kovarianz gegeben ist durch , dannCorr ( X , X ) = 1 X Cov ( X , Y ) = Corr ( X , Y ) XCorr(X,X)=1X Cov(X,X)=1Cov(X,Y)=Corr(X,Y)Var(X)Var(Y)

Cov(X,X)=1Var(X)2=Var(X)

Die allgemeinere Formel für die Varianz einer Summe von zwei Zufallsvariablen lautet

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

Insbesondere , soCov(X,X)=Var(X)

Var(X+X)=Var(X)+Var(X)+2Var(X)=4Var(X)

Das ist das gleiche, was Sie aus der Anwendung der Regel abgeleitet hätten

Var(aX)=a2Var(X)Var(2X)=4Var(X)

Wenn Sie an Linearität interessiert sind, könnte Sie die Bilinearität der Kovarianz interessieren . Für Zufallsvariablen , , und (abhängig oder unabhängig) und Konstanten , , und giltX Y Z a b c dWXYZabcd

Cov(aW+bX,Y)=aCov(W,Y)+bCov(X,Y)

Cov(X,cY+dZ)=cCov(X,Y)+dCov(X,Z)

und insgesamt

Cov(aW+bX,cY+dZ)=acCov(W,Y)+adCov(W,Z)+bcCov(X,Y)+bdCov(X,Z)

Sie können dies dann verwenden, um die (nicht linearen) Ergebnisse für die Varianz zu beweisen, die Sie in Ihrem Beitrag geschrieben haben:

Var(aX)=Cov(aX,aX)=a2Cov(X,X)=a2Var(X)

Var(aX+bY)=Cov(aX+bY,aX+bY)=a2Cov(X,X)+abCov(X,Y)+baCov(X,Y)+b2Cov(Y,Y)Var(aX+bY)=a2Var(X)+b2Var(Y)+2abCov(X,Y)

Letztere gibt, als Sonderfall , wenn ,a=b=1

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

Wenn und nicht korreliert sind (was den Fall einschließt, in dem sie unabhängig sind), reduziert sich dies auf . Wenn Sie also Varianzen "linear" manipulieren möchten (was häufig eine gute Möglichkeit ist, algebraisch zu arbeiten), sollten Sie stattdessen mit den Kovarianzen arbeiten und deren Bilinearität ausnutzen.XYVar(X+Y)=Var(X)+Var(Y)

Silberfisch
quelle
1
Ja! Ich denke, Sie haben am Anfang festgestellt, dass die Verwirrung im Wesentlichen eine notatorische war. Ich fand es sehr hilfreich, wenn in einem Buch (sehr explizit, manche sagen mühsam) die Interpretation und die Regeln für die Bewertung einer probabilistischen Aussage erläutert wurden (z. B. auch, wenn Sie wissen, was Sie mit meinen Wo , ist es technisch falsch, wenn Sie überlegen, ein in Craps zu werfen (und würde niemals einen ungeraden Wurf ergeben); richtig ausgedrückt mit iid). Pr(X+X=n)XUniform(1..6)nX+X=2XX1,X2
Vandermonde
1
Dies steht im Gegensatz zu (und ich glaube , mein Mißverständnis von dämmt haben könnte) , wie 2+PRNG(6)+PRNG(6)oft ist , wie Sie Würfel , wie oben und / oder Notation / Konventionen wie werfen würden in dem verschiedene Instanzen wirklich unabhängig sein sollen. 2d6=d6+d6
Vandermonde
@ Vandermonde Das ist ein interessanter Punkt. Ich dachte anfangs darüber nach, die Verwendung von Indizes zur Unterscheidung zwischen "verschiedenen " zu erwähnen, störte mich aber nicht - ich denke, ich könnte es jetzt bearbeiten. Das Argument, dass "Sie niemals eine ungerade Gesamtpunktzahl erhalten würden, wenn die Summe ", ist sehr klar und überzeugend für jemanden, der die Notwendigkeit einer Unterscheidung nicht erkennen kann: Danke, dass Sie es geteilt haben. X2X
Silverfish
0

Ein anderer Weg , um darüber nachzudenken , ist , dass mit Zufallsvariablen .2XX+X

2X würde das Zweifache des Ergebnisses von bedeuten , während zwei Versuche mit bedeuten würde . Mit anderen Worten, es ist der Unterschied zwischen einmaligem Würfeln und zweimaligem Verdoppeln des Ergebnisses und zweimaligem Würfeln.XX+XX

Benjamin
quelle
+1 Dies ist eine vollkommen klare und korrekte Antwort. Willkommen auf unserer Webseite!
Whuber
Danke @whuber!
Benjamin