In diesem Beitrag zu KDnuggets, in dem der Beitrag von John Langford zitiert wird, heißt es, dass Entropie und gegenseitige Information, wenn sie als Fehlermaßnahmen verwendet werden, zu einer Überanpassung führen können. Könnten Sie näher darauf eingehen?
11
Antworten:
Jede Fehlermaßnahme, die die Komplexität des Systems nicht beeinträchtigt, kann zu einer Überanpassung führen, z. B. Entropie.
Wenn Sie Ihre Trainingsdaten an ein Modell anpassen, das Sie gut auf neue Daten verallgemeinern möchten, wird dieser Trainingsschritt im Allgemeinen ausgeführt, indem ein Fehlermaß minimiert wird , das unter anderem von Ihren Parametern (einem Vektor, der davon abhängt abhängt umfasst alle Ihre Modellparameter, die während des Trainings angepasst werden sollen).E(w) w
Wenn es bei Ihrer Fehlermaßnahme nur darum geht, Ihre Trainingsdaten immer besser anzupassen, können Sie feststellen, dass das Erstellen von Modellen mit einer großen Anzahl von Parametern (die zusätzlich einen beliebigen Wert annehmen können) gut ist, da Ihr Modell so flexibel ist, dass Ihre Trainingsdaten perfekt sein können gelernt. Auf der anderen Seite, wenn Ihre Trainingsdaten verrauscht sind (was normalerweise der Fall ist), werden Sie auf diese Weise auch das Geräusch Ihres Modells anpassen, und genau darum geht es bei der Überanpassung.
Es gibt Techniken, um dies zu vermeiden, die insgesamt als "Regularisierungstechniken" bezeichnet werden. Diese sind die häufigsten, die der Fehlerfunktion einen Regularisierungsterm hinzufügen, so dass jetzt wobei ist ein Fehler, der misst, wie gut Ihre Anpassung ist (z. B. Entropie), und eine Bestrafung für komplexe Modelle (größer für Modelle mit vielen Parametern oder großen Parameterwerten).E(w)=ED(w)+EW(w) ED EW
quelle