Gibt es in der statistischen Lerntheorie nicht ein Problem der Überanpassung eines Testsatzes?

16

Betrachten wir das Problem beim Klassifizieren des MNIST-Datasets.

Laut der MNIST-Webseite von Yann LeCun , "Ciresan et al." 0,23% Fehlerrate beim MNIST-Test mit Convolutional Neural Network.

Lassen Sie uns bezeichnen MNIST Trainingssatz als , MNIST Testset als , die letzte Hypothese sie erhalten unter Verwendung von als , und ihre Fehlerrate auf MNIST Test - Set mit als .DtrainDtestDtrainh1h1Etest(h1)=0.0023

Da unabhängig von aus dem Eingaberaum zufällig abgetastet wird, können sie aus ihrer Sicht darauf bestehen, dass die außerhalb der Stichprobe für ihre endgültige Hypothese ist begrenzt wie folgt aus Hoeffding's Ungleichung wobei.Dtesth1Eout(h1)

P[|EÖut(h1)-Etest(h1)|<ϵ|]1-2e2ϵ2Ntest

Ntest=|Dtest|

Mit anderen Worten, mindestens Wahrscheinlichkeit - E o u t ( h 1 ) E t e s t ( h 1 ) + 1-δ

EÖut(h1)Etest(h1)+12Ntestln2δ

Betrachten wir einen anderen Gesichtspunkt. Angenommen, eine Person möchte den MNIST-Testsatz gut klassifizieren. Also schaute er sich zuerst die MNIST-Webseite von Yann LeCun an und fand folgende Ergebnisse, die von anderen Personen mit 8 verschiedenen Modellen erhalten wurden:

MNIST-Klassifikationsergebnisse

und wählte sein Modell das im MNIST-Testset unter 8 Modellen die beste Leistung erbrachte.G

Für ihn war der Lernprozess die Auswahl einer Hypothese die am besten für den aus einem Hypothesensatz .D t e s t H t r a i n e d = { h 1 , h 2 , . . , h 8 }GDtestHtreinichned={h1,h2,..,h8}

Somit ist der Fehler in der ein "In-Sample" -Fehler für diesen Lernprozess, so dass er die für endliche Hypothesensätze gebundene VC wie folgt anwenden kann. Etest(G)

P[|EÖut(G)-Eichn(G)|<ϵ]1-2|Htreinichned|e2ϵ2Ntest

Mit anderen Worten, mindestens Wahrscheinlichkeit , 1-δ

EÖut(G)Etest(G)+12Ntestln2|Htreinichned|δ

Dieses Ergebnis impliziert, dass eine Überanpassung des Testsets auftreten kann, wenn wir das Modell auswählen, das unter mehreren Modellen die beste Leistung erbringt.

In diesem Fall könnte die Person , das die niedrigste Fehlerrate . Da die beste Hypothese unter 8 Modellen für diesen speziellen , besteht die Möglichkeit, dass eine Hypothese ist, die für den MNIST-Testsatz überpasst ist.h1Etest(h1)=0,0023h1Dtesth1

Somit kann diese Person auf der folgenden Ungleichung bestehen.

EÖut(h1)Etest(h1)+12Ntestln2|Htreinichned|δ

Folglich erhalten wir zwei Ungleichungen und .

P[EÖut(h1)Etest(h1)+12Ntestln2δ]1-δ
P[EÖut(h1)Etest(h1)+12Ntestln2|Htreinichned|δ]1-δ

Es ist jedoch offensichtlich, dass diese beiden Ungleichungen nicht kompatibel sind.

Wo mache ich falsch Welches ist richtig und welches ist falsch?

Wenn letzteres falsch ist, wie kann man in diesem Fall die für endliche Hypothesensätze gebundene VC richtig anwenden?

asqdf
quelle

Antworten:

1

Unter diesen beiden Ungleichungen denke ich, dass die spätere falsch ist. Kurz gesagt, was hier falsch ist, ist die Identität , , dass eine Funktion der Testdaten ist, während ein Modell ist, das von Testdaten unabhängig ist.G=h1Gh1

Tatsächlich ist eines der 8 Modelle in besten vorhersagt .GHtreinichned={h1,h2,...,h8}Dtest

Daher ist eine Funktion von . Für eine bestimmte Testmenge, (wie die von Ihnen erwähnte), kann es vorkommen, dass , aber im Allgemeinen, abhängig von der Testmenge, könnte einen beliebigen Wert in annehmen . Andererseits ist nur ein Wert in .D t e s t D * t e s t g ( D * t e s t ) = h 1 g ( D t e s t ) H t r a i n e d h 1 H t r a i n e dGDtestDtestG(Dtest)=h1G(Dtest)Htreinichnedh1Htreinichned

Für die andere Frage:

Wenn letzteres falsch ist, wie kann man in diesem Fall die für endliche Hypothesensätze gebundene VC richtig anwenden?

Ersetzen Sie einfach nicht durch , Sie erhalten die richtige Grenze ( natürlich für ) und es besteht kein Konflikt mit der anderen Grenze (die für ).h 1 g h 1Gh1Gh1

Tĩnh Trần
quelle