Intuition für die bedingte Erwartung von

20

Sei ein Wahrscheinlichkeitsraum mit einer Zufallsvariablen und einer -algebra Wir können eine neue Zufallsvariable , die die bedingte Erwartung ist.(Ω,F,μ)ξ:ΩRσGFE[ξ|G]


Was genau ist die Intuition, über ? Ich verstehe die Intuition für Folgendes:E[ξ|G]

(i) wobei ein Ereignis ist (mit positiver Wahrscheinlichkeit).E[ξ|A]A

(ii) wobei eine diskrete Zufallsvariable ist.E[ξ|η]η

Aber ich kann mir nicht . Ich verstehe die Mathematik und ich verstehe, dass sie so definiert ist, dass die einfacheren Fälle, die wir uns vorstellen können, verallgemeinert werden. Dennoch finde ich diese Denkweise nicht sinnvoll. Es bleibt ein mysteriöses Objekt für mich.E[ξ|G]


Beispielsweise sei ein Ereignis mit . Bilden Sie die -algebra , die von generiert wurde . Dann wäre gleich wenn und gleich wenn . Mit anderen Worten, if und if .Aμ(A)>0σG={,A,Ac,Ω}AE[ξ|G](ω)1μ(A)AξωA& ohgr;AE[1μ(Ac)AcξωAE[ξ|G](ω)=E[ξ|A]ωAE[ξ|G](ω)=E[ξ|Ac]ωAc

Der verwirrende Teil ist das . Warum schreiben wir also nicht einfach ? Warum ersetzen wir durch abhängig davon, ob , aber nicht zulässig ist, durch zu ersetzen ?E [ ξ | G ] ( ω ) = E [ ξ | Ω ] = E [ ξ ] E [ ξ | G ] E [ ξ | A  oder  A c ] ω A E [ ξ | G ] E [ ξ ]ωΩE[ξ|G](ω)=E[ξ|Ω]=E[ξ]E[ξ|G]E[ξ|A or Ac]ωAE[ξ|G]E[ξ]


Hinweis. Erklären Sie dies bei der Beantwortung dieser Frage nicht anhand der strengen Definition der bedingten Erwartung. Ich verstehe das. Was ich verstehen möchte, ist, was die bedingte Erwartung berechnen soll und warum wir eins anstelle des anderen ablehnen.

Nicolas Bourbaki
quelle

Antworten:

16

Eine Möglichkeit , über bedingte Darstellung zu denken ist als Projektion auf die -Algebra G .σG

Bildbeschreibung hier eingeben( aus Wikimedia Commons )

Dies gilt konsequent für quadratisch integrierbare Zufallsvariablen. in diesem Fall ist eigentlich die orthogonale Projektion der Zufallsvariablen ξ auf den Unterraum von L 2 ( Ω ), die aus Zufallsvariablen besteht, die in Bezug auf G messbar sind . Tatsächlich stellt sich heraus, dass dies in gewissem Sinne für L 1 -Zufallsvariablen durch Annäherung an L 2 -Zufallsvariablen zutrifft .E[ξ|G]ξL2(Ω)GL1L2

(Siehe die Kommentare für Referenzen.)

Betrachtet man Algebren als Repräsentation der verfügbaren Informationen (eine Interpretation, die in der Theorie stochastischer Prozesse unabdingbar ist), so bedeuten größere σ - Algebren mehr mögliche Ereignisse und damit mehr Informationen über mögliche Ergebnisse, während kleinere σ - Algebren bedeuten weniger mögliche Ereignisse und damit weniger Informationen über mögliche Ergebnisse.σσσ

Daher bedeutet das Projizieren der messbaren Zufallsvariablen ξ auf die kleinere σ - Algebra G, dass wir unsere beste Schätzung für den Wert von ξ treffen, wenn man die begrenzteren Informationen von G berücksichtigt .FξσGξG

Mit anderen Worten, wenn nur die Informationen von und nicht die gesamten Informationen von F , E [ ξ | gegeben sind G ] ist in einem strengen Sinne unsere bestmögliche Schätzung für das, was der Zufallsvariable ξ ist.GFE[ξ|G]ξ


In Bezug auf Ihr Beispiel denke ich, dass Sie zufällige Variablen und ihre Werte verwirren könnten. Eine Zufallsvariable ist eine Funktion, deren Domäne der Ereignisraum ist. Es ist keine Zahl. Mit anderen Worten, X : Ω R , X { f | f : & OHgr; R } , während für ein ω & OHgr; , X ( ω ) R .XX:ΩRX{f | f:ΩR}ωΩX(ω)R

Die Notation für bedingte Erwartung ist meiner Meinung nach wirklich schlecht, weil es sich um eine Zufallsvariable handelt, dh auch um eine Funktion . Die (regelmäßige) Erwartung einer Zufallsvariablen ist dagegen eine Zahl . Die bedingte Erwartung einer Zufallsvariablen ist eine völlig andere Größe als die Erwartung derselben Zufallsvariablen, dh "prüft" nicht einmal mit E [ ξ ] .E[ξ|G]E[ξ]

Mit anderen Worten, die Verwendung des Symbols , um sowohl die reguläre als auch die bedingte Erwartung zu kennzeichnen, ist ein sehr großer Missbrauch der Notation, der zu unnötiger Verwirrung führt.E

Beachten Sie, dass ist eine Zahl (der Wert der Zufallsvariablen E [ ξ | G ], die mit dem Wert ω bewertet wird ), aber E [ ξ | Ω ] ist eine Zufallsvariable, stellt sich aber als konstante Zufallsvariable heraus (dh trivial entartet), da die durch Ω , { , Ω } erzeugte σ- AlgebraE[ξ|G](ω)E[ξ|G]ωE[ξ|Ω]σΩ{,Ω}ist trivial / degeneriert, und dann ist der konstante Wert dieser konstanten Zufallsvariablen technisch gesehen , wobei E reguläre Erwartung und damit eine Zahl, nicht bedingte Erwartung und damit keine Zufallsvariable bezeichnet.E[ξ]E

Sie scheinen auch verwirrt darüber zu sein, was die Notation bedeutet; technisch ist es nur möglich, an σ - algebren zu konditionieren , nicht an einzelne ereignisse, da wahrscheinlichkeitsmaße nur an vollständigen σ - algebren definiert werden, nicht an einzelne ereignisse. Somit ist E [ ξ | A ] ist nur eine (faule) Abkürzung für E [ ξ | σ ( A ) ] , wobei σ ( A ) für σ - stehtE[ξ|A]σσE[ξ|A]E[ξ|σ(A)]σ(A)σAlgebra, die durch das Ereignis erzeugt wird , das { , A , A c , Ω } ist . Man beachte , dass σ ( A ) = G = σ ( A c ) ; mit anderen Worten, E [ ξ | A ] , E [ ξ | G ] und E [ ξ | A c ] sind verschiedene Möglichkeiten, um genau dasselbe Objekt zu bezeichnen .A{,A,Ac,Ω}σ(A)=G=σ(Ac)E[ξ|A]E[ξ|G]E[ξ|Ac]

Abschließend möchte ich nur hinzufügen, dass die oben gegebene intuitive Erklärung erklärt, warum der konstante Wert der Zufallsvariablen ist nur die Zahl E [ ξ ] - die σ - Algebra { , Ω }E[ξ|Ω]=E[ξ|σ(Ω)]=E[ξ|{,Ω}]E[ξ]σ{,Ω}stellt die geringstmögliche Menge an Informationen dar, die wir haben könnten, im Grunde genommen keine Informationen. Unter diesen extremen Umständen ist die bestmögliche Schätzung, für welche Zufallsvariable die konstante Zufallsvariable ist, deren konstanter Wert E [ ξ ] ist .ξE[ξ]

Es ist zu beachten, dass alle konstanten Zufallsvariablen -Zufallsvariablen sind und alle in Bezug auf die triviale σ- Algebra { , Ω } messbar sind. Wir haben also tatsächlich die konstante Zufallsvariable E [ ξ ] als orthogonale Projektion von ξ auf den Unterraum von L 2 ( Ω ) , der aus zufälligen Variablen besteht, die in Bezug auf { , Ω } messbar sind , wie beansprucht.L2σ{,Ω}E[ξ]ξL2(Ω){,Ω}

Chill2Macht
quelle
2
@ William Ich bin nicht einverstanden mit Ihnen über die Verwendung von als ran var. Viele Bücher definieren E [ ξ | A ] um eine Zahl zu sein, keine ran var. Dies ist die bestmögliche Schätzung von ξ | A . Dies ist ein nützlicher Begriff und sehr intuitiv. Es völlig zu ignorieren, nur weil Sie eine verallgemeinerte Vorstellung von cond exp als ran var haben, ist aus pädagogischer Sicht falsch. Ich bin nicht verwirrt darüber, was ein Wohnmobil ist, und ich sehe auch nicht, wie irgendetwas, was ich geschrieben habe, dazu führen würde, dass Sie so denken. E[ξ|A]E[ξ|A]ξ|A
Nicolas Bourbaki
1
@William Cond Expe als Schätzung der Ran Var zu betrachten, wobei für Informationen steht, ist etwas, was ich zuvor gesehen habe, aber ich habe nie so viel darüber nachgedacht und versucht, eine andere Art der Visualisierung von Cond Expec zu finden. Mit Ihrem Vorschlag schreibe ich ein einfaches Beispiel auf und poste es als Antwort für mich selbst und für andere. Vielleicht können einige Leute dann auf mein Beispiel eingehen und ein exotischeres geben. G
Nicolas Bourbaki
1
@NicolasBourbaki Ich empfehle Ihnen, sich S.221 der 4. Ausgabe von Durretts Wahrscheinlichkeitsrechnung - Theorie und Beispiele anzuschauen . Ich kann Sie auch auf andere Quellen verweisen, die dies diskutieren. In jedem Fall handelt es sich nicht wirklich um eine Ansichtssache - im allgemeinsten Fall ist eine bedingte Erwartung eine Zufallsvariable, und die Konditionierung erfolgt nur in Bezug auf Algebren; Anlage in Bezug auf ein Ereignis ist Anlage in Bezug auf die σ - Algebra durch das Ereignis erzeugt, und Konditionieren in Bezug auf eine Zufallsvariable ist die Konditionierung WRT σ -Algebra durch den RV erzeugtσσσ
Chill2Macht
3
@ William Und ich kann Sie auf Quellen verweisen, die den Zustand definieren. exep. eines Ereignisses eine reelle Zahl sein. Ich weiß nicht, warum du in diesem Punkt so feststeckst. Man kann es so definieren, solange die Begriffe nicht verwechselt werden. Aus pädagogischen Gründen unterrichte ich eine Klasse auf Probe. Theorie, und sofort in die allgemeinste Def. springen, ist nicht aufschlussreich. In beiden Fällen spielt es in dieser Diskussion keine Rolle, und Ihre Beschwerde bezieht sich auf Notation / Semantik.
Nicolas Bourbaki
1
@NicolasBourbaki Kapitel 5 von Whittle's Probability via Expectation gibt (meiner Meinung nach) einen sehr guten Überblick über beide Charakterisierungen der bedingten Erwartung und erklärt gut, wie jede Definition mit der anderen Definition zusammenhängt und von dieser motiviert ist. Sie haben Recht, dass der Unterschied mehr in der Semantik liegt. Meine Begeisterung für die allgemeinere Definition ergibt sich (glaube ich) aus dem Lesen dieses Kapitels (5 von Whittles Wahrscheinlichkeit über Erwartung ), das (glaube ich) gute Argumente dafür lieferte, wie die allgemeinere Definition in gewisser Weise leichter zu verstehen ist.
Chill2Macht
3

Ich werde versuchen, das auszuarbeiten, was William vorgeschlagen hat.

Sei der Probenraum, in dem eine Münze zweimal geworfen wird. Definieren Sie den ran. var. ξ um die Nummer zu sein. von Köpfen, die im Experiment auftreten. Es ist klar, dass E [ ξ ] = 1 ist . Eine Art zu denken, was 1 , als eine Erwartung. value, represent ist die bestmögliche Schätzung für ξ . Wenn wir raten müssten, welchen Wert ξ annehmen würde, würden wir 1 annehmen . Dies liegt daran, dass E [ ( ξ - 1 ) 2 ] E [ ( ξ - a ) 2 istΩξE[ξ]=11ξξ1 für jede reelle Zahl a .E[(ξ1)2]E[(ξa)2]a

Bezeichne mit den Fall, dass das erste Ergebnis ein Kopf ist. Sei G = { , A , A c , Ω } das σ- alg. gen. von A . Wir denken an G als Repräsentation dessen, was wir nach dem ersten Wurf wissen. Nach dem ersten Wurf traten entweder Köpfe auf oder es traten keine Köpfe auf. Wir befinden uns also entweder im Ereignis A oder A c nach dem ersten Wurf.A={HT,HH}G={,A,Ac,Ω}σAGAAc

Wenn wir im Fall sind , dann die bestmögliche Schätzung für ξ wäre E [ ξ | A ] = 1,5 , und wenn wir im Fall sind A c , dann ist die bestmögliche Schätzung für ξ wäre E [ ξ | A c ] = 0,5 .AξE[ξ|A]=1.5AcξE[ξ|Ac]=0.5

Definieren Sie nun den ran. var. ist entweder 1,5 oder 0,5, abhängig davon, ob ω A ist oder nicht . Das lief. var. η , ist eine bessere Näherung als 1 = E [ ξ ], da E [ ( ξ - η ) 2 ] E [ ( ξ - 1 ) 2 ] ist .η(ω)1.50.5ωAη1=E[ξ]E[(ξη)2]E[(ξ1)2]

Was tut, ist die Antwort auf die Frage: Was ist die beste Schätzung von ξ nach dem ersten Wurf? Da wir die Information nach dem ersten Wurf nicht kennen, wird η von A abhängen . Sobald das Ereignis G uns offenbart ist, wird nach dem ersten Wurf der Wert von η bestimmt und liefert die bestmögliche Schätzung für ξ . ηξηAGηξ

Das Problem bei der Verwendung von als eigene Schätzung, dh 0 = E [ ( ξ - ξ ) 2 ] E [ ( ξ - η ) 2 ], ist wie folgt. ξ ist nach dem ersten Wurf nicht gut definiert. Angenommen, das Ergebnis des Experiments ist ω, wobei das erste Ergebnis Kopf ist. Wir befinden uns im Ereignis A , aber was ist ξ ( ω ) = ? Wir wissen nicht , von nur den ersten Wurf, dass Wert für uns eindeutig ist, und so ξξ0=E[(ξξ)2]E[(ξη)2]ξωAξ(ω)=?ξist nicht gut definiert. Genauer gesagt, sagen wir, dass nicht G- messbar ist, dh sein Wert ist nach dem ersten Wurf nicht genau definiert. Somit ist η die bestmögliche Schätzung von ξ nach dem ersten Wurf.ξGηξ

Vielleicht kann sich hier jemand ein komplexeres Beispiel aus dem Abtastraum mit ξ ( ω ) = ω und G einer nicht-trivialen σ- Algebra einfallen lassen.[0,1]ξ(ω)=ωGσ

Nicolas Bourbaki
quelle
1

Sie fordern zwar auf, die formale Definition nicht zu verwenden, aber ich denke, dass die formale Definition wahrscheinlich die beste Art ist, sie zu erklären.

Wikipedia - bedingte Erwartung :

Dann ist eine als E ( X H ) bezeichnete bedingte Erwartung von X bei gegebenem eine beliebige H- messbare Funktion ( Ω R n ), die erfüllt:HE(XH)HΩRn

HE(XH)dP=HXdPfor eachHH

Erstens ist es eine messbare Funktion. Zweitens muss es die Erwartung über jede messbare (Unter-) Menge in H erfüllen . Also für ein Ereignis, A, der Sigma - Algebra ist { A , A C , , Ω } , so klar wird eingestellt , wie Sie in Ihrer Frage angegeben für & ohgr; & egr ; A / A c . In ähnlicher Weise listen wir für jede diskrete Zufallsvariable (und Kombinationen davon) alle primitiven Ereignisse auf und ordnen die Erwartung für dieses primitive Ereignis zu.HH{A,AC,,Ω}ωA/Ac

Betrachten wir nun eine Münze eine unendliche Anzahl von Zeiten zu werfen, wo ich bei jedem Wurf, erhalten Sie , wenn Ihre Münze Schwänze dann Ihre gesamten Gewinne ist sind X = & Sgr; i = 1 11/2iwobeici= 1 für Schwänze und 0 für Köpfe. Dann ist X eine echte Zufallsvariable für[0,1]. Nach n Münzwürfen, weiß man den Wert von X zu Genauigkeit1/2n,Beispiel nach 2 Münze wirft es in [0,1 / 4], [1 / 4,1 / 2], [1 / 2,3 / 4] oder [3 / 4,1] - Nach jedem Münzwurf wird Ihre Sigma-Algebra immer feiner und die bedingte Erwartung von X wird immer präziser.X=i=112icici[0,1]1/2n

Hoffentlich entfernt Sie dieses Beispiel einer Zufallsvariablen mit einem reellen Wert und einer Folge von Sigma-Algebren, die immer feiner werden (Filtration), von der rein ereignisbasierten Intuition, die Sie gewohnt sind, und verdeutlicht deren Zweck.

seanv507
quelle
Ich entschuldige mich, habe diese Frage aber abgelehnt. Es beantwortet nicht, was ich ursprünglich gefragt habe. Es enthält auch keine neuen Informationen, die ich vorher nicht kannte.
Nicolas Bourbaki
Was ich Ihnen vorschlagen möchte, ist, dass Sie die formale Definition nicht so gut verstehen, wie Sie denken (wie die andere Antwort auch vorgeschlagen hat). Wenn Sie also nicht das durcharbeiten, was mit der formalen Definition nicht intuitiv ist, werden Sie nicht weiterkommen.
Seanv507
Ich verstehe die formale Definition ganz gut. Die Fragen, die ich gestellt habe, weiß ich zu beantworten, wenn ich von den formalen Definitionen ausarbeite. Die "andere Antwort" war der Versuch, meine Frage zu erklären, ohne die Definition von con zu verwenden. exp.
Nicolas Bourbaki