Betrachten wir das Problem beim Klassifizieren des MNIST-Datasets.
Laut der MNIST-Webseite von Yann LeCun , "Ciresan et al." 0,23% Fehlerrate beim MNIST-Test mit Convolutional Neural Network.
Lassen Sie uns bezeichnen MNIST Trainingssatz als , MNIST Testset als , die letzte Hypothese sie erhalten unter Verwendung von als , und ihre Fehlerrate auf MNIST Test - Set mit als .
Da unabhängig von aus dem Eingaberaum zufällig abgetastet wird, können sie aus ihrer Sicht darauf bestehen, dass die außerhalb der Stichprobe für ihre endgültige Hypothese ist begrenzt wie folgt aus Hoeffding's Ungleichung wobei.
Mit anderen Worten, mindestens Wahrscheinlichkeit - E o u t ( h 1 ) ≤ E t e s t ( h 1 ) + √
Betrachten wir einen anderen Gesichtspunkt. Angenommen, eine Person möchte den MNIST-Testsatz gut klassifizieren. Also schaute er sich zuerst die MNIST-Webseite von Yann LeCun an und fand folgende Ergebnisse, die von anderen Personen mit 8 verschiedenen Modellen erhalten wurden:
und wählte sein Modell das im MNIST-Testset unter 8 Modellen die beste Leistung erbrachte.
Für ihn war der Lernprozess die Auswahl einer Hypothese die am besten für den aus einem Hypothesensatz .D t e s t H t r a i n e d = { h 1 , h 2 , . . , h 8 }
Somit ist der Fehler in der ein "In-Sample" -Fehler für diesen Lernprozess, so dass er die für endliche Hypothesensätze gebundene VC wie folgt anwenden kann.
Mit anderen Worten, mindestens Wahrscheinlichkeit ,
Dieses Ergebnis impliziert, dass eine Überanpassung des Testsets auftreten kann, wenn wir das Modell auswählen, das unter mehreren Modellen die beste Leistung erbringt.
In diesem Fall könnte die Person , das die niedrigste Fehlerrate . Da die beste Hypothese unter 8 Modellen für diesen speziellen , besteht die Möglichkeit, dass eine Hypothese ist, die für den MNIST-Testsatz überpasst ist.
Somit kann diese Person auf der folgenden Ungleichung bestehen.
Folglich erhalten wir zwei Ungleichungen und .
Es ist jedoch offensichtlich, dass diese beiden Ungleichungen nicht kompatibel sind.
Wo mache ich falsch Welches ist richtig und welches ist falsch?
Wenn letzteres falsch ist, wie kann man in diesem Fall die für endliche Hypothesensätze gebundene VC richtig anwenden?