Es fällt mir schwer, die Ableitung des erwarteten Vorhersagefehlers nach unten (ESL) zu verstehen, insbesondere die Ableitung von 2.11 und 2.12 (Konditionierung, der Schritt zum punktweisen Minimum). Alle Hinweise oder Links sehr geschätzt.
Unten melde ich den Auszug aus ESL pg. 18. Die ersten beiden Gleichungen lauten der Reihe nach Gleichung 2.11 und 2.12.
Es sei ein reeller Zufallseingabevektor und eine reelle Zufallseingabevariable mit gemeinsamer Verteilung . Wir suchen eine Funktion um gegebene Werte der Eingabe vorherzusagen . Diese Theorie erfordert eine Verlustfunktion um Fehler in der Vorhersage zu bestrafen, und der bei weitem häufigste und bequemste ist der quadratische Fehlerverlust : . Dies führt uns zu einem Kriterium für die Wahl von ,L ( Y , f ( X ) ) L ( Y , f ( X ) ) = ( Y - f ( X ) ) 2 f
der erwartete (quadrierte) Vorhersagefehler. Durch Konditionieren auf können wir EPE als schreiben
und wir sehen, dass es ausreicht, EPE punktuell zu minimieren:
Die Lösung ist
die bedingte Erwartung, auch Regressionsfunktion genannt.
quelle
Antworten:
quelle
Die Gleichung (2.11) ist eine Folge der folgenden geringen Gleichheit. Für zwei beliebige Zufallsvariablen und und eine beliebige FunktionZ 2 gZ1 Z2 G
Die Notation ist die Erwartung über die gemeinsame Verteilung. Die Notation besagt im Wesentlichen "über die bedingte Verteilung von als ob fest wäre". EEZ1, Z2 Z1Z2EZ1∣ Z2 Z1 Z2
Dies lässt sich leicht überprüfen, wenn und diskrete Zufallsvariablen sind, indem nur die Definitionen entfernt werdenZ 2Z1 Z2
Der fortlaufende Fall kann entweder informell als Grenze dieses Arguments angesehen oder formal verifiziert werden, sobald alle maßnahmentheoretischen Voraussetzungen erfüllt sind.
Nehmen Sie zum Abwickeln der Anwendung , und . Alles genau ausgerichtet.Z 2 = X g ( x , y ) = ( y - f ( x ) ) 2Z1= Y Z2= X G( x , y) = ( y- f( x ) )2
Die Behauptung (2.12) fordert uns auf, eine Minimierung in Betracht zu ziehen
wo wir frei wählen können wie wir wollen. Wenn wir uns wieder auf den diskreten Fall konzentrieren und auf halbem Wege in die oben beschriebene Abwicklung eintauchen, sehen wir, dass wir minimierenf
Alles in der großen Klammer ist nicht negativ, und Sie können eine Summe nicht negativer Größen minimieren, indem Sie die Summanden einzeln minimieren. Im Kontext bedeutet dies, dass wir zum Minimieren auswählen könnenf
einzeln für jeden diskreten Wert von . Dies ist genau der Inhalt dessen, was ESL behauptet, nur mit schicker Notation.x
quelle
Ich finde einige Teile in diesem Buch so, dass sie schwer zu verstehen sind, insbesondere für diejenigen, die keinen ausgeprägten statistischen Hintergrund haben.
Ich werde versuchen, es einfach zu machen und hoffe, dass Sie die Verwirrung loswerden können.
Anspruch 1 (Glätten)E( X) = E( E( X|Y.) ) , ∀ X, Y
Beweis : Beachten Sie, dass E (Y) eine Konstante ist, aber E (Y | X) eine Zufallsvariable in Abhängigkeit von X.
Anspruch 2 :E( Y- f( X) )2≥ E( Y- E( Y| X) )2, ∀ f
Beweis :
Unter der Annahme beider Seiten der obigen Gleichung ergibt sich Anspruch 2 (QED).
Daher ist das Optimum ff( X) = E( Y| X)
quelle