Ich bin kürzlich auf diese Identität gestoßen:
Ich kenne natürlich die einfachere Version dieser Regel, nämlich dass aber ich konnte keine Rechtfertigung dafür finden seine Verallgemeinerung.
Ich wäre dankbar, wenn jemand mich auf eine weniger technische Referenz für diese Tatsache hinweisen oder, noch besser, wenn jemand einen einfachen Beweis für dieses wichtige Ergebnis erbringen könnte.
Antworten:
INFORMELLE BEHANDLUNG
Wir sollten uns daran erinnern, dass die Notation, in der wir Zufallsvariablen bedingen, als Notation ungenau, wenn auch wirtschaftlich ist. In Wirklichkeit bedingen wir die Sigma-Algebra, die diese Zufallsvariablen erzeugen. Mit anderen Worten soll sich auf mittlere . Diese Bemerkung mag in einer "informellen Behandlung" unangebracht erscheinen, erinnert uns jedoch daran, dass unsere konditionierenden Entitäten Sammlungen von Mengen sind (und wenn wir von einem einzelnen Wert konditionieren, ist dies eine Singleton-Menge). Und was enthalten diese Sets? Sie enthalten die Informationen, mit denen die möglichen Werte der Zufallsvariablen Auskunft geben , was mit der Realisierung von geschehen kann .E[Y∣X] E[Y∣σ(X)] X Y σ(X)⊆σ(X,Z) σ ( X , Z ) σ ( X ) σ ( X ) ≤ I x σ ( X , Z ) ≤ I x zY σ(X,Z) σ(X)
σ(X)≡Ix σ(X,Z)≡Ixz
Bringing in dem Konzept der Informationen, ermöglicht es uns , über (und Verwendung) zu denken , das Gesetz der Iterated Erwartungen auf eine sehr intuitive Art und Weise (manchmal auch als „Tower Property“ genannt):
Sigma-Algebra , die durch zwei Zufallsvariablen, ist zumindest als groß wie das, was durch eine Zufallsvariable erzeugt wird: in der richtigen satztheoretischen Bedeutung. Die Information über in ist also mindestens so groß wie die entsprechende Information in . Setzen Sie nun als Anspielung auf die Schreibweise und . Dann kann die LHS der Gleichung, die wir betrachten, geschrieben werden
Y I x z I x
Können wir irgendwie "berücksichtigen" ? Nein - wir kennen nur . Aber wenn wir verwenden, was wir haben (wie wir durch den Ausdruck, den wir auflösen wollen, verpflichtet sind), dann sagen wir im Wesentlichen Dinge über unter dem Erwartungsoperator, dh wir sagen " ", nicht mehr - Wir haben gerade unsere Informationen erschöpft. I x Y E ( Y ∣ I x )ichx z ichX Y. E( Y∣ ichX)
Also
Wenn es jemand anderes nicht tut, werde ich zur formellen Behandlung zurückkehren.
Eine (etwas mehr) FORMALE BEHANDLUNG
Lassen Sie uns sehen, wie zwei sehr wichtige Bücher der Wahrscheinlichkeitstheorie, P. Billingsleys Probability and Measure (3d ed.-1995) und D. Williams "Probability with Martingales" (1991), die Frage des Beweises des "Gesetzes der wiederholten Erwartungen" behandeln:
Billingsley widmet dem Beweis genau drei Zeilen. Williams und ich zitieren, sagt
Das ist eine Textzeile. Billingsleys Beweis ist nicht weniger undurchsichtig.
Sie haben natürlich Recht: Diese wichtige und sehr intuitive Eigenschaft der bedingten Erwartung ergibt sich im Wesentlichen direkt (und fast sofort) aus ihrer Definition. Das einzige Problem besteht meines Erachtens darin, dass diese Definition normalerweise nicht gelehrt oder zumindest nicht hervorgehoben wird oder theoretische Kreise messen. Aber um in (fast) drei Zeilen zu zeigen, dass das Gesetz der wiederholten Erwartungen gilt, brauchen wir die Definition der bedingten Erwartung oder vielmehr ihrer definierenden Eigenschaft .
Läßt einen Wahrscheinlichkeitsraum , und einen integrierbare Zufallsvariable . Lassen sein , ein sub- -Algebra von , . Dann existiert eine Funktion , die -measurable ist, integrierbar ist und (dies ist die definierende Eigenschaft)Y G σ F G ≤ F W G( Ω , F, P ) Y. G σ F G⊆ F W G
wo ist die Indikatorfunktion der Menge . Wir sagen , dass ist ( „eine Version von“) , um die bedingte Erwartung von gegeben , und wir schreiben die kritische Detail zu beachten ist hier , dass die bedingte Erwartung , hat den gleichen Erwartungswert wie hat, nicht nur über die gesamte , sondern in jeder Teilmenge von . G W Y G W = E ( Y ∣ G )1G G W Y. G Y G G GW= E( Y∣ G)a . s .
Y. G G G
(Ich werde jetzt versuchen, darzustellen, wie sich die Tower-Eigenschaft aus der Definition der bedingten Erwartung ableitet.)
G σ H ⊆ G G ∈ H ⇒ G ∈ G W H U = E ( W ∣ H )W ist eine messbare Zufallsvariable. Betrachten wir dann einige sub- -Algebra, sagen . Dann . So, in analoger Weise wie vorher, haben wir die bedingte Erwartung gegeben , sagen dass durch das gekennzeichnet, G σ H ⊆ G G ∈ H ⇒ G ∈ G W H U= E( W∣ H )a . s .
Seit geben uns die Gleichungen und [ 1 ] [ 2 ]H⊆G [1] [2]
Aber dies ist die definierende Eigenschaft der bedingten Erwartung der gegeben . HY H Wir sind also berechtigt, zu schreiben
Da wir auch durch die Konstruktion , wir den Turm Eigenschaft nur bewiesen, oder allgemeine Form des Gesetzes der wiederholten Erwartungen - in acht Zeilen.U = E ( W ≤ H ) = E ( E [ Y ≤ G ] ≤ H )U=E(Y∣H)a.s.
U=E(W∣H)=E(E[Y∣G]∣H)
quelle
Ich verstehe die bedingten Erwartungen und unterrichte meine Schüler wie folgt:
Bedingte Erwartung ist ein Bild, das von einer Kamera mit der Auflösungσ ( X )E[Y|σ(X)] σ(X)
Wie von Alecos Papadopoulos erwähnt, ist die Notation genauer als . Entlang der Kamera kann man sich als das ursprüngliche Objekt vorstellen, z. B. eine Landschaft, eine Szenerie. ist ein Bild, das von einer Kamera mit einer Auflösung von . Die Erwartung ist ein Durchschnittsoperator ("Unschärfe" -Operator?). Das Szenario kann eine Menge Dinge enthalten, aber das Bild, das Sie mit einer Kamera mit niedriger Auflösung aufgenommen haben, lässt mit Sicherheit einige Details verschwinden, z. B. befindet sich möglicherweise ein UFO am Himmel, das Sie mit bloßem Auge sehen können, dies jedoch nicht erscheint in deinem Bild aufgenommen von (iphone 3?)E [ Y | X ] Y E [ Y | σ ( X , Z ) ] σ ( X , Z )E[Y|σ(X)] E[Y|X] Y E[Y|σ(X,Z)] σ(X,Z)
Wenn die Auflösung so hoch ist, dass , kann dieses Bild jedes Detail der realen Szenerie erfassen. In diesem Fall haben wir .E [ Y | σ ( Y ) ] = Yσ(X,Z)=σ(Y) E[Y|σ(Y)]=Y
Nun kann wie folgt angesehen werden: Verwenden einer anderen Kamera mit einer Auflösung (z. B. iphone 1), die niedriger als (z. B. iphone 3) und machen Sie ein Bild auf dem Bild, das von der Kamera mit der Auflösung wurde. Dann sollte klar sein, dass dieses Bild auf einem Bild dasselbe sein sollte, als ob Sie es ursprünglich gewesen wären Verwenden Sie einfach eine Kamera mit niedriger Auflösung für die Szenerie.σ ( X ) σ ( X , Z ) σ ( X , Z ) σ ( X )E[E[Y|σ(X,Z)]|σ(X)] σ(X) σ(X,Z) σ(X,Z) σ(X)
Dies liefert Intuition für . Tatsächlich sagt uns dieselbe Intuition, dass noch ist. Dies liegt daran, dass: Wenn Ihr erstes Foto mit dem iPhone 1 aufgenommen wurde (dh mit niedriger Auflösung) und Sie jetzt eine bessere Kamera (z. B. das iPhone 3) verwenden möchten, um ein weiteres Foto mit dem ersten Foto zu erstellen, können Sie dies nicht tun kann die Qualität des ersten Fotos verbessern.E [ E [ Y | X ] | X , Z ] = E [ Y | X ]E[E[Y|X,Z]|X]=E[Y|X] E[E[Y|X]|X,Z]=E[Y|X]
quelle
Nach dem Gesetz der wiederholten Erwartung (LIE), , ist diese innere Erwartung eine Zufallsvariable, die zufällig eine Funktion von X ist, beispielsweise , und nicht a Funktion von . Dass die Erwartung dieser Funktion von passiert , die Erwartung gleich ist eine Folge eines LIE. Dies alles ist nur die Behauptung, dass der Durchschnittswert von durch Mitteln der Durchschnittswerte vonE[E[ Y∣X] ] = E[ Y] X Y X Y Y Y X Y P X , Y ( x , y ) E [ Y ]G( X) Y. X Y. Y. Y. unter verschiedenen Bedingungen. Tatsächlich ist alles nur eine direkte Konsequenz des Gesetzes der Gesamtwahrscheinlichkeit. Wenn zum Beispiel und diskrete Zufallsvariablen mit gemeinsamer pmf , dann
X Y. pX, Y( x , y) XE[Y≤X]XYY
Die verallgemeinerte LÜGE, die Sie betrachten, hat auf der linken Seite in der die innere Erwartung eine Funktion von zwei Zufallsvariablen und . Das Argument ähnelt dem oben beschriebenen, aber jetzt müssen wir zeigen, dass die Zufallsvariable anderen Zufallsvariablen entspricht. Wir tun dies, indem wir den Wert von wenn zufällig den Wert . Überspringen Sie die Erklärungen, wir haben das h ( X , Z ) X Z E [ Y ≤ X ] E [ Y ≤ X ] X x E [ Y ≤ X = x ]E[E[Y∣X,Z]∣X] h(X,Z) X Z E[Y∣X] E[Y∣X] X x
Somit ist für jeden Wert der Zufallsvariablen der Wert der Zufallsvariablen (den wir zuvor als Funktion von und nicht von notiert haben ) der gleiche wie der Wert des Zufalls Variable , dh diese beiden Zufallsvariablen sind gleich. Würde ich dich anlügen?x X E[Y∣X] X Y E[E[Y∣X,Z]∣X]
quelle