Warum gehen Informationen über die Validierungsdaten verloren, wenn ich beim Optimieren von Hyperparametern die Modellleistung anhand von Validierungsdaten bewerte?

In François Chollets Deep Learning with Python heißt es:

Infolgedessen kann das Optimieren der Konfiguration des Modells basierend auf seiner Leistung im Validierungssatz schnell zu einer Überanpassung an den Validierungssatz führen, obwohl Ihr Modell niemals direkt darauf trainiert wird.

Zentral für dieses Phänomen ist der Begriff der Informationslecks. Jedes Mal, wenn Sie einen Hyperparameter Ihres Modells basierend auf der Leistung des Modells im Validierungssatz optimieren, gelangen einige Informationen zu den Validierungsdaten in das Modell . Wenn Sie dies nur einmal für einen Parameter tun, gehen nur sehr wenige Informationen verloren , und Ihr Validierungssatz bleibt für die Bewertung des Modells zuverlässig. Wenn Sie dies jedoch viele Male wiederholen - ein Experiment ausführen, den Validierungssatz auswerten und Ihr Modell als Ergebnis ändern -, verlieren Sie eine immer größere Menge an Informationen über den Validierungssatz im Modell.

neural-networks cross-validation hyperparameter Fabiomaia
quelle

Übrigens: Es hängt nicht nur davon ab, wie oft Sie dies tun, sondern auch von der zufälligen Unsicherheit Ihrer Leistungsbewertung (Zielfunktion) während der Optimierung.

cbeleites unglücklich mit SX

@cbeleites Sorry, was bedeutet das?

Fabiomaia

Wenn die für die Optimierung verwendeten Bewertungsergebnisse perfekt wären (dh weder systematische noch zufällige Fehler), würde die Optimierung das wirklich optimale Modell auswählen, Sie hätten keine Überanpassung und eine weitere unabhängige perfekte Validierung des ausgewählten Modells würde genau das gleiche Ergebnis liefern. Die Optimierung kann sogar systematische Fehler (Bias) tolerieren, solange sie sich nicht mit den Faktoren ändern, die Sie während der Optimierung variieren. Überlegen Sie nun, was passiert, wenn bei der Leistungsschätzung ein zufälliger Fehler (Varianzunsicherheit) auftritt: Sie erhalten Rauschen über der tatsächlichen performanen "Landschaft".

cbeleites unglücklich mit SX

Dieses Rauschen kann dazu führen, dass ein Punkt (Hyperparametereinstellungen) besser aussieht als er tatsächlich ist, sodass diese Hyperparametereinstellungen möglicherweise versehentlich (und fälschlicherweise) ausgewählt werden. Die Wahrscheinlichkeit, dass dies geschieht, steigt mit a) der Häufigkeit, mit der Sie solche Leistungswerte betrachten, und b) der Menge an Rauschen, die Sie zusätzlich zur tatsächlichen Leistung haben (im Vergleich zur tatsächlichen Leistungssteigerung). Hier geht es nicht darum, warum die Wiederverwendung von Validierungsergebnissen zu Datenlecks führt, sondern darum, wie die jeweilige Überanpassung erfolgt und wie ernst ein Problem ist, das Sie erwarten sollten - also nur ein Kommentar.

cbeleites unglücklich mit SX

Informationen gehen verloren, weil Sie die Validierungsdaten verwenden, um Hyperparameter auszuwählen. Im Wesentlichen entsteht ein kompliziertes Optimierungsproblem: Minimieren Sie den Verlust über Hyperparameter der anhand der Validierungsdaten ausgewertet wird, wobei diese Hyperparameter ein neuronales Netzwerkmodell regulieren, dessen Parameter mithilfe eines bestimmten Trainingssatzes trainiert werden . $\phi$ $\theta$

Obwohl die Parameter direkt durch die Trainingsdaten informiert werden, werden die Hyperparameter auf der Basis der Validierungsdaten ausgewählt. Da die Hyperparameter implizit beeinflussen , beeinflussen die Informationen aus den Validierungsdaten indirekt das von Ihnen ausgewählte Modell. $\theta$ $\phi$ $\phi$ $\theta$

Sycorax sagt Reinstate Monica
quelle

Rückblickend war dies ziemlich offensichtlich. Aber was bedeutet dann "Wenn Sie dies nur einmal für einen Parameter tun, werden nur sehr wenige Informationen auslaufen"? Was ist dort gemeint und wie steht es im Gegensatz zu dem anderen Fall, in dem "Sie dies viele Male wiederholen"?

Fabiomaia

2^{10}

$2^{10}$

Das macht durchaus Sinn. Der Wortlaut im Originalbuch war nicht der beste. Vielen Dank!

Fabiomaia

Der Wortlaut im Buch ist ausgezeichnet.

Michael M

Für Sie mag es "ausgezeichnet" erscheinen, weil Sie wahrscheinlich bereits wissen, wovon der Autor spricht. Der Kommentar von @Sycorax war für mich viel expliziter und hilfreicher.

Fabiomaia

Warum gehen Informationen über die Validierungsdaten verloren, wenn ich beim Optimieren von Hyperparametern die Modellleistung anhand von Validierungsdaten bewerte?

Antworten: