Verwirrt durch Ableitung der Regressionsfunktion

9

Ich habe gerade eine Kopie von The Elements of Statistical Learning von Hastie, Tibshirani und Friedman erhalten. In Kapitel 2 (Überblick über betreutes Lernen), Abschnitt 4 (Statistische Entscheidungstheorie) gibt er eine Ableitung der Regressionsfunktion.

Lassen bezeichnet einen reellen Zufallseingangsvektor geschätzt und einer reellen Zufallsausgangsgröße bewertet, mit gemeinsamer Verteilung . Wir suchen eine Funktion für die Vorhersage gegebenen Werten des Eingang . Diese Theorie erfordert eine Verlustfunktion zur Bestrafung von Vorhersagefehlern, und der bei weitem häufigste und bequemste ist der quadratische Fehlerverlust: . Dies führt uns zu einem Kriterium für die Wahl von , Y R P r ( X , Y ) f ( X ) Y X L ( Y , f ( X ) ) L ( Y , f ( X ) ) = ( Y - f ( X ) ) 2X.R.pY.R.P.r(X.,Y.)f(X.)Y.X.L.(Y.,f(X.))L.(Y.,f(X.))=(Y.- -f(X.))2f

E.P.E.(f)=E.(Y.- -f(X.))2=[y- -f(x)]]2P.r(dx,dy)
das erwartete (quadratischer) Vorhersagefehler.

Ich verstehe den Aufbau und die Motivation vollkommen. Meine erste Verwirrung ist: Bedeutet er oder ? Zweitens habe ich die Notation noch nie gesehen . Kann mir jemand seine Bedeutung erklären? Ist es nur so, dass ? Leider endet meine Verwirrung nicht dort, E [ ( Y - f ( x ) ) 2 ] P r ( d x , d y ) P r ( d x ) = P r ( x ) d xE.[(Y.- -f(x))]]2E.[(Y.- -f(x))2]]P.r(dx,dy)P.r(dx)=P.r(x)dx

Durch Konditionieren auf können wir schreiben alsE P E E P E ( f ) = E X E Y | X ( [ Y - f ( X ) ] 2 | X )X.E.P.E.

E.P.E.(f)=E.X.E.Y.|X.([Y.- -f(X.)]]2|X.)

Mir fehlt die Verbindung zwischen diesen beiden Schritten, und ich bin mit der technischen Definition von "Konditionierung" nicht vertraut. Lassen Sie mich wissen, ob ich etwas klarstellen kann! Ich denke, der größte Teil meiner Verwirrung ist auf eine ungewohnte Notation zurückzuführen. Ich bin zuversichtlich, dass ich es bekommen werde, wenn jemand diese Ableitung in einfaches Englisch zerlegen kann. Danke stats.SE!

Orang-Utango
quelle

Antworten:

11

Für Ihre erste Verwirrung sollte es die Erwartung eines quadratischen Fehlers sein, also ist esE.[(Y.- -f(x))2]].

Für die Notation von ist es gleich , wobei das gemeinsame PDF von x und y ist. Und , dies kann interpretiert werden, wenn die Wahrscheinlichkeit, dass x innerhalb eines winzigen Intervalls von liegt, gleich dem PDF-Wert am Punkt , dh mal die Intervalllänge .g ( x , y )P.r(dx,dy)g ( x , y ) P r ( d x ) = f ( x )G(x,y)dxdyG(x,y)[ x , x + d x ] x f ( x ) d xP.r(dx)=f(x)dx[x,x+dx]]xf(x)dx

Die Gleichung über die EPE ergibt sich aus dem Satz für zwei beliebige Zufallsvariablen und . Sie können dies anhand der bedingten Verteilung beweisen. Die bedingte Erwartung ist die Erwartung, die unter Verwendung der bedingten Verteilung berechnet wird. Die bedingte Verteilung bedeutet die Wahrscheinlichkeit von nachdem Sie etwas über wissen .X Y Y | X Y X.E.(E.(Y.|X.))=E.(Y.)X.Y.Y.|X.Y.X.

Nehmen wir in unserem Fall an, wir bezeichnen den quadratischen Fehler als eine Funktion , die EPE berechnetL.(x,y)=(y- -f(x))2

E.(L.(x,y))=L.(x,y)G(x,y)dxdy=[L.(x,y)G(y|x)G(x)dy]]dx=[L.(x,y)G(y|x)dy]]G(x)dx=[E.Y.|X.(L.(x,y)]]G(x)dx=E.X.(E.Y.|X.(L.(x,y)))

Das Ergebnis von oben entspricht dem von Ihnen aufgelisteten Ergebnis. Hoffe das kann dir ein bisschen helfen.

Jerry
quelle
1
Für das Endergebnis nach dem Konditionieren hat das Buch auch das | X, während das Endergebnis dieser Antwort fehlt. Ist es wichtig?
Robertmartin8