Ich habe gerade eine Kopie von The Elements of Statistical Learning von Hastie, Tibshirani und Friedman erhalten. In Kapitel 2 (Überblick über betreutes Lernen), Abschnitt 4 (Statistische Entscheidungstheorie) gibt er eine Ableitung der Regressionsfunktion.
Lassen bezeichnet einen reellen Zufallseingangsvektor geschätzt und einer reellen Zufallsausgangsgröße bewertet, mit gemeinsamer Verteilung . Wir suchen eine Funktion für die Vorhersage gegebenen Werten des Eingang . Diese Theorie erfordert eine Verlustfunktion zur Bestrafung von Vorhersagefehlern, und der bei weitem häufigste und bequemste ist der quadratische Fehlerverlust: . Dies führt uns zu einem Kriterium für die Wahl von , Y ≤ R P r ( X , Y ) f ( X ) Y X L ( Y , f ( X ) ) L ( Y , f ( X ) ) = ( Y - f ( X ) ) 2
das erwartete (quadratischer) Vorhersagefehler.
Ich verstehe den Aufbau und die Motivation vollkommen. Meine erste Verwirrung ist: Bedeutet er oder ? Zweitens habe ich die Notation noch nie gesehen . Kann mir jemand seine Bedeutung erklären? Ist es nur so, dass ? Leider endet meine Verwirrung nicht dort, E [ ( Y - f ( x ) ) 2 ] P r ( d x , d y ) P r ( d x ) = P r ( x ) d x
Durch Konditionieren auf können wir schreiben alsE P E E P E ( f ) = E X E Y | X ( [ Y - f ( X ) ] 2 | X )
Mir fehlt die Verbindung zwischen diesen beiden Schritten, und ich bin mit der technischen Definition von "Konditionierung" nicht vertraut. Lassen Sie mich wissen, ob ich etwas klarstellen kann! Ich denke, der größte Teil meiner Verwirrung ist auf eine ungewohnte Notation zurückzuführen. Ich bin zuversichtlich, dass ich es bekommen werde, wenn jemand diese Ableitung in einfaches Englisch zerlegen kann. Danke stats.SE!
quelle