Wenn mittlerer quadratischer Fehler = Varianz + Vorspannung ^ 2. Wie kann dann der mittlere quadratische Fehler niedriger als die Varianz sein?

7

Ich habe die Einführung in das statistische Lernen gelesen. Hier wird gezeigt, dass: -MSE-Formeln

In einem späteren Beispiel werden der Zug und die Test-MSE aufgezeichnet. Ich wollte wissen, ob sowohl der Bias ^ 2 als auch die Varianz positive Größen sind, wie MSE dann niedriger sein kann als die Varianz. Geben Sie hier die Bildbeschreibung ein

Debabrot Bhuyan
quelle
1
Die rote Linie befindet sich über der gestrichelten Linie, und vermutlich würde etwas Ähnliches für die ungetestete Bevölkerung zutreffen
Henry
1. Verwenden Sie in Ihrer Antwort Markup-Text und keine Links zu Bildern, die mit Markup erstellt wurden. 2. Der Satz "Ich wollte wissen, ob sowohl die Verzerrung ^ 2 als auch die Varianz positive Größen sind, wie kann MSE niedriger sein als die Varianz." wäre klarer, wenn es nach "wissen" einen Doppelpunkt gäbe.
Akkumulation
Sehr geehrte @Acccumulation, zögern Sie nicht, den Beitrag entsprechend zu bearbeiten. Es wäre sehr dankbar.
Jim

Antworten:

8

Das nennt man Überanpassung. Die scheinbare MSE auf den Trainingsdaten ist geringer als die Varianz, aber dies wurde nur erreicht, indem ein Modell übermäßig kompliziert gemacht wurde, so dass es zufälligen Schwankungen einzelner Datenpunkte folgen konnte ("Verfolgungsrauschen"). Sobald Sie versuchen, neue Daten vorherzusagen, ist MSE viel schlimmer. Das heißt, die tatsächliche MSE der Vorhersagen aus dem Modell ist nicht niedriger als die Varianz.

Björn
quelle
6

Die in der Frage wiedergegebene Formel ist genau und daher nicht kompatibel mit einer "MSE niedriger als die Varianz". Wenn Sie erwähnen, dass in dem bereitgestellten Diagramm eine "MSE niedriger als die Varianz" beobachtet wird (unter der Annahme, dass die minimale MSE die Modellvarianz ist), liegt dies daran, dass Sie empirische MSE und Varianzen anstelle der theoretischen Größen berücksichtigen , die Erwartungen an das Modell sind Verteilung.

Xi'an
quelle
-1

Sie scheinen zu glauben, dass es einen Fall gibt, in dem die Varianz größer als die MSE ist, aber es ist alles andere als klar, wie Sie das sehen. Beim maschinellen Lernen wird Y so modelliert, dass es einer Funktion von X plus einem zufälligen Fehlerterm entspricht. Dieser Fehler wird, wie in diesem Beispiel, häufig mit einem Epsilon . In diesem Modell hat eine Schätzfunktion, die der "realen" Abhängigkeit von Y von X entspricht, eine MSE, die der Varianz von . Ein anderer Schätzer als die "reale" Abhängigkeit hat eine MSE, die der Varianz von plus der Varianz zwischen der "realen" Abhängigkeit und dem verwendeten Schätzer entspricht. Somit ist die MSE des Schätzers größer oder gleich der Varianzϵϵϵvon _ϵ_. Es kann und jeder anständige Schätzer wird kleiner sein als die Varianz . Wenn die MSE eines Schätzers größer als die Varianz von Y wäre, wäre es ein besserer Schätzer, X vollständig zu ignorieren und nur vorherzusagen, dass Y gleich dem Mittelwert von Y sein wird.von Y._

Akkumulation
quelle