Auf pg. 34 der Einführung in das statistische Lernen :
Obwohl der mathematische Beweis den Rahmen dieses Buches , kann gezeigt werden , dass die erwartete Test-MSE für einen gegebenen Wert x_0 immer in die Summe von drei Grundgrößen zerlegt werden kann: die Varianz von , die quadratische Vorspannung von und die Varianz der Fehlerterme . Das ist,
[...] Varianz bezieht sich auf den Betrag, um den sich ändern würde, wenn wir ihn anhand eines anderen Trainingsdatensatzes schätzen würden.
Frage: Da die Varianz von Funktionen zu bezeichnen scheint , was bedeutet dies formal?
Das heißt, ich bin mit dem Konzept der Varianz einer Zufallsvariablen X vertraut , aber was ist mit der Varianz einer Reihe von Funktionen? Kann man sich das nur als Varianz einer anderen Zufallsvariablen vorstellen, deren Werte die Form von Funktionen haben?
quelle
Antworten:
Ihre Korrespondenz mit @whuber ist korrekt.
Ein Lernalgorithmus kann als eine Funktion höherer Ebene angesehen werden, die Trainingssätze Funktionen zuordnet.A
Dabei ist der Raum für mögliche Trainingssätze. Dies kann konzeptionell etwas haarig sein, aber im Grunde führt jeder einzelne Trainingssatz nach Verwendung des Modelltrainingsalgorithmus zu einer spezifischen Funktion die verwendet werden kann, um Vorhersagen für einen Datenpunkt zu treffen .T f x
Wenn wir den Raum von Trainingssätzen als Wahrscheinlichkeitsraum betrachten, so dass es eine gewisse Verteilung möglicher Trainingsdatensätze gibt, wird der Modell-Trainingsalgorithmus zu einer Zufallsvariablen mit Funktionswert, und wir können uns statistische Konzepte vorstellen. Insbesondere wenn wir einen bestimmten Datenpunkt festlegen , erhalten wir die Zufallsvariable mit numerischem Wertx0
Das heißt, trainiere zuerst den Algorithmus auf und bewerte dann das resultierende Modell bei . Dies ist nur eine einfache alte, aber ziemlich genial konstruierte Zufallsvariable in einem Wahrscheinlichkeitsraum, sodass wir über seine Varianz sprechen können. Dies ist die Abweichung in Ihrer Formel von ISL.T x0
quelle
Eine visuelle Interpretation mit wiederholten kfolds
Betrachten Sie das folgende Spielzeugbeispiel, um die Antwort von @Matthew Drury visuell / intuitiv zu interpretieren.
Unten finden Sie die resultierenden Diagramme für ein Polynommodell der Grade 2 und 6. Auf den ersten Blick scheint das höhere Polynom (in Rot) eine größere Varianz zu haben.
Argumentieren, dass der rote Graph eine größere Varianz aufweist - experimentell
Sei und den grünen bzw. roten Graphen und eine Instanz der Graphen in hellgrün und hellrot. Sei die Anzahl der Punkte entlang der Achse und die Anzahl der Graphen (dh die Anzahl der Simulationen). Hier haben wir undf^g f^r f^(i) n x m n=400 m=200
Ich sehe drei Hauptszenarien
In diesem Spielzeugbeispiel gelten alle drei Szenarien über den Bereich was das Argument rechtfertigt, dass die Polynomanpassung höherer Ordnung (in Rot) eine höhere Varianz aufweist als das Polynom niedrigerer Ordnung (in Grün).(0,1)
Ein offener Abschluss
Was sollte argumentiert werden, wenn die oben genannten drei Szenarien nicht alle zutreffen ? Was ist zum Beispiel, wenn die Varianz der roten Vorhersagen im Durchschnitt größer ist, aber nicht für alle Punkte?
Details der Etiketten
Betrachten Sie Punktx0=0.5
quelle