Varianzterm bei der Bias-Varianz-Zerlegung der linearen Regression

9

In 'Die Elemente des statistischen Lernens' wird der Ausdruck für die Bias-Varianz-Zerlegung des linearen Modells gegeben als wobei die eigentliche Zielfunktion ist, die Varianz des Zufallsfehlers im Modell und ist der lineare Schätzer von .f ( x 0 ) σ 2 ε y = f ( x ) + ε

E.rr(x0)=σϵ2+E.[f(x0)- -E.f^(x0)]]2+||h(x0)||2σϵ2,
f(x0)σϵ2y=f(x)+ϵf^(x)f(x)

Der Varianzterm beunruhigt mich hier, weil die Gleichung impliziert, dass die Varianz Null wäre, wenn die Ziele geräuschlos sind, dhAber es macht für mich keinen Sinn, weil ich selbst mit Null Rauschen immer noch verschiedene Schätzer für verschiedene Trainingssätze erhalten kann, was impliziert, dass die Varianz ungleich Null ist.σϵ2=0.f^(x0)

Angenommen, die Zielfunktion ist quadratisch und die Trainingsdaten enthalten zwei Punkte, die zufällig aus diesem Quadrat abgetastet wurden. Es ist klar, dass ich jedes Mal eine andere lineare Anpassung bekomme, wenn ich zwei Punkte zufällig vom quadratischen Ziel abtastet. Wie kann dann die Varianz Null sein?f(x0)

Kann mir jemand helfen, herauszufinden, was an meinem Verständnis der Bias-Varianz-Zerlegung falsch ist?

Abhinav Gupta
quelle

Antworten:

6

Es gibt immer eine lauernde Subtilität bei der Behandlung von Voreingenommenheit und Varianz, und es ist wichtig, beim Lernen sorgfältig darauf zu achten. Wenn Sie die ersten paar Wörter von ESL in einem Abschnitt aus diesem Kapitel noch einmal lesen, müssen die Autoren ihm etwas Respekt zollen.

Diskussionen über die Schätzung der Fehlerrate können verwirrend sein, da wir klarstellen müssen, welche Größen fest und welche zufällig sind

Die Subtilität ist das, was festgelegt ist und was zufällig ist .

X.yX.E.rr(x0)E.rr(x0X.)

Das heißt nicht, dass Ihr Anliegen ungültig ist, es ist sicher richtig, dass die Auswahl von Trainingsdaten tatsächlich Zufälligkeit in unseren Modellalgorithmus einführt, und ein fleißiger Praktiker wird versuchen, die Auswirkung dieser Zufälligkeit auf ihre Ergebnisse zu quantifizieren. Tatsächlich können Sie ganz klar erkennen, dass die gängigen Praktiken des Bootstrapings und der Kreuzvalidierung diese Zufallsquellen explizit in ihre Schlussfolgerungen einbeziehen.

X.X.

Matthew Drury
quelle
X.Y.|X.(X.,Y.)E.=E.X.E.Y.|X.V.einr(f^(x0))=E.X.[||h(x0)||2σϵ2]]σϵ2
Ich vermute, dass die Autoren davon ausgehen, dass das Modell korrekt spezifiziert ist, dh alle und nur die relevanten Prädiktoren mit den richtigen Transformationen enthält. Ich müsste zum Buch zurückkehren, anstatt mich auf mein Gedächtnis zu verlassen, um es zu bestätigen.
Matthew Drury
Wenn mit "richtig spezifiziert" gemeint ist, dass die Zielfunktion tatsächlich linear ist, dann verstehe ich, dass Nullrauschen Nullvorspannung bedeuten würde. Aber selbst wenn die Zielfunktion nicht linear ist, erhalten wir genau den gleichen Ausdruck für die Varianz.
Abhinav Gupta
1
Es ist wahr, aber in diesem Fall würde "richtig angegeben" bedeuten, dass Sie eine lineare Regression verwenden, um ein Modell mit den richtigen Prädiktoren anzupassen. Wenn also die wahre Beziehung quadratisch ist, würden Sie annehmen, dass Ihr Modell die quadratischen Terme enthält.
Matthew Drury