Was versteht man unter der Varianz von * Funktionen * in * Einführung in das statistische Lernen *?

Auf pg. 34 der Einführung in das statistische Lernen : $\newcommand{\Var}{{\rm Var}}$

Obwohl der mathematische Beweis den Rahmen dieses Buches $x_0$ , kann gezeigt werden , dass die erwartete Test-MSE für einen gegebenen Wert immer in die Summe von drei Grundgrößen zerlegt werden kann: die Varianz von $\hat{f}(x_0)$ , die quadratische Vorspannung von $\hat{f}(x_0)$ und die Varianz der Fehlerterme $\varepsilon$ . Das ist,

$E {(y_{0} - \hat{f} (x_{0}))}^{2} = V a r (\hat{f} (x_{0})) + [B i a s (\hat{f} (x_{0}))]^{2} + V a r (ε)$ $E\left(y_0 - \hat{f}(x_0)\right)^2 = \Var\big(\hat{f}(x_0)\big) + \Big[{\rm Bias}\big(\hat{f}(x_0)\big)\Big]^2 + \Var(\varepsilon)$
[...] Varianz bezieht sich auf den Betrag, um den sich $\hat{f}$ ändern würde, wenn wir ihn anhand eines anderen Trainingsdatensatzes schätzen würden.

Frage: Da $\Var\big(\hat{f}(x_0)\big)$ die Varianz von Funktionen zu bezeichnen scheint , was bedeutet dies formal?

Das heißt, ich bin mit dem Konzept der Varianz einer Zufallsvariablen vertraut $X$ , aber was ist mit der Varianz einer Reihe von Funktionen? Kann man sich das nur als Varianz einer anderen Zufallsvariablen vorstellen, deren Werte die Form von Funktionen haben?

machine-learning variance George
quelle

Da jedes Mal, wenn es in einer Formel erscheint, auf einen "gegebenen Wert" angewendet wurde, gilt die Varianz für die Zahl , nicht für selbst. Da diese Zahl vermutlich aus Daten entwickelt wurde, die mit Zufallsvariablen modelliert wurden, handelt es sich auch um eine (reelle) Zufallsvariable. Es gilt das übliche Varianzkonzept.

\hat{f}

$\hat f$

x_{0}

$x_0$

\hat{f} (x_{0})

$\hat{f}(x_0)$

\hat{f}

$\hat{f}$

whuber

Aha. So ändert (variiert in den verschiedenen Trainingsdatensätze), aber wir sehen immer noch auf die Varianz der selbst.

\hat{f}

$\hat{f}$

\hat{f} (x_{0})

$\hat{f}(x_0)$

George

Wer ist der Autor dieses Lehrbuchs? Ich wollte das Thema selbst lernen und würde mich sehr über Ihre Referenzempfehlung freuen.

Chill2Macht

@ WilliamKrinsman Dies ist das Buch: www-bcf.usc.edu/~gareth/ISL

Matthew Drury

Antworten:

Ihre Korrespondenz mit @whuber ist korrekt.

Ein Lernalgorithmus kann als eine Funktion höherer Ebene angesehen werden, die Trainingssätze Funktionen zuordnet. $\mathcal{A}$

A : T \to {f ∣ f : X \to R}

$\mathcal{A} : \mathcal{T} \rightarrow \{f \mid f: X \rightarrow \mathbb{R} \}$

Dabei ist der Raum für mögliche Trainingssätze. Dies kann konzeptionell etwas haarig sein, aber im Grunde führt jeder einzelne Trainingssatz nach Verwendung des Modelltrainingsalgorithmus zu einer spezifischen Funktion die verwendet werden kann, um Vorhersagen für einen Datenpunkt zu treffen . $\mathcal{T}$ $f$ $x$

Wenn wir den Raum von Trainingssätzen als Wahrscheinlichkeitsraum betrachten, so dass es eine gewisse Verteilung möglicher Trainingsdatensätze gibt, wird der Modell-Trainingsalgorithmus zu einer Zufallsvariablen mit Funktionswert, und wir können uns statistische Konzepte vorstellen. Insbesondere wenn wir einen bestimmten Datenpunkt festlegen , erhalten wir die Zufallsvariable mit numerischem Wert $x_0$

A_{x_{0}} (T) = A (T) (x_{0})

$\mathcal{A}_{x_0}(T) = \mathcal{A}(T)(x_0)$

Das heißt, trainiere zuerst den Algorithmus auf und bewerte dann das resultierende Modell bei . Dies ist nur eine einfache alte, aber ziemlich genial konstruierte Zufallsvariable in einem Wahrscheinlichkeitsraum, sodass wir über seine Varianz sprechen können. Dies ist die Abweichung in Ihrer Formel von ISL. $T$ $x_0$

Matthew Drury
quelle

Eine visuelle Interpretation mit wiederholten kfolds

Betrachten Sie das folgende Spielzeugbeispiel, um die Antwort von @Matthew Drury visuell / intuitiv zu interpretieren.

Daten werden aus einer verrauschten Sinuskurve erzeugt: "Wahres Rauschen" $f(x) \ +$
Die Daten werden zwischen Trainings- und Testproben aufgeteilt (75% - 25%).
Ein lineares (Polynom-) Modell wird an die Trainingsdaten angepasst: $\hat f(x)$
Der Vorgang wird viele Male mit denselben Daten wiederholt (dh Training aufteilen - zufälliges Testen mit Sklearm wiederholt kfold)
Dies erzeugt viele verschiedene Modelle, aus denen wir den Mittelwert und die Varianz an jedem Punkt sowie über alle Punkte berechnen . $x=x_i$

Unten finden Sie die resultierenden Diagramme für ein Polynommodell der Grade 2 und 6. Auf den ersten Blick scheint das höhere Polynom (in Rot) eine größere Varianz zu haben.

Argumentieren, dass der rote Graph eine größere Varianz aufweist - experimentell

Sei und den grünen bzw. roten Graphen und eine Instanz der Graphen in hellgrün und hellrot. Sei die Anzahl der Punkte entlang der Achse und die Anzahl der Graphen (dh die Anzahl der Simulationen). Hier haben wir und $\hat f_g$ $\hat f_r$ $\hat f^{(i)}$ $n$ $x$ $m$ $n = 400$ $m = 200$

Ich sehe drei Hauptszenarien

Die Varianz der vorhergesagten Werte an einem bestimmten Punkt ist größer, dh $x = x_0$ $Var \ \left[ \{\hat f^{(1)}_r(x_0), ..., \hat f^{(m)}_r(x_0)\} \right] > Var \ \left[ \{\hat f^{(1)}_g(x_0),...,\hat f^{(i)}_g(x_0)\} \right]$
Die Varianz in ist für alle Punkte im Bereich größer. $(1)$ $\{ x_1,...,x_{400} \}$ $(0,1)$
Die Varianz ist im Durchschnitt größer (dh kann für einige Punkte kleiner sein)

In diesem Spielzeugbeispiel gelten alle drei Szenarien über den Bereich was das Argument rechtfertigt, dass die Polynomanpassung höherer Ordnung (in Rot) eine höhere Varianz aufweist als das Polynom niedrigerer Ordnung (in Grün). $(0,1)$

Ein offener Abschluss

Was sollte argumentiert werden, wenn die oben genannten drei Szenarien nicht alle zutreffen ? Was ist zum Beispiel, wenn die Varianz der roten Vorhersagen im Durchschnitt größer ist, aber nicht für alle Punkte?

Details der Etiketten

Betrachten Sie Punkt $x_0 = 0.5$

Der Fehlerbalken ist der Bereich zwischen min und max von $\hat f(x_0)$
Die Varianz wird bei berechnet $x_0$
Wahres ist die gepunktete blaue Linie $f(x)$

Xavier Bourret Sicotte
quelle

Ich mag diese Idee, ein Konzept anhand von Bildern zu veranschaulichen. Ich wundere mich jedoch über zwei Aspekte Ihres Beitrags und hoffe, dass Sie sie möglicherweise ansprechen können. Könnten Sie zunächst genauer erklären, wie diese Diagramme die "Varianz einer Funktion" zeigen? Zweitens ist überhaupt nicht klar, dass das rote Diagramm eine "größere Varianz" aufweist oder dass die beiden Diagramme einem derart vereinfachenden Vergleich zugänglich sind. Betrachten Sie beispielsweise die vertikale Streuung der Rotwerte über und vergleichen Sie diese mit der Streuung der Grünwerte am selben Punkt: Die roten Werte sehen etwas weniger aus als die grünen.

x = 0.95,

$x=0.95,$

whuber

Mein Punkt ist nicht, ob es möglich ist, Ihre Diagramme mit hoher Genauigkeit zu lesen: Es ist fraglich, ob der Vergleich zweier solcher Diagramme, als ob eines als "höher" oder "niedriger" als das andere angesehen werden könnte, angesichts der Möglichkeit, dass z In einigen Bereichen von die Varianzen der Vorhersagen in einem Diagramm höher, und in anderen Bereichen von die Varianzen niedriger.

x

$x$

x

$x$

whuber

Ja, ich stimme zu - ich habe den Beitrag bearbeitet, um Ihre Kommentare

wiederzugeben