Techniken zur Erkennung von Überanpassungen

9

Ich hatte ein Vorstellungsgespräch für eine Stelle in Data Science. Während des Interviews wurde ich gefragt, was ich tun soll, um sicherzustellen, dass das Modell nicht überpasst. Meine erste Antwort war die Verwendung einer Kreuzvalidierung, um die Leistung des Modells zu bewerten. Der Interviewer sagte jedoch, dass selbst eine Kreuzvalidierung keine vollständige Überanpassung feststellen kann. Dann erwähnte ich die Regularisierung, aber der Interviewer sagte, dass dies helfen könnte, die Überanpassung zu reduzieren (was ich zustimme), aber nicht zu erkennen. Gibt es andere Techniken, mit denen sichergestellt werden kann, dass ein Modell nicht überpasst?

jroberayalas
quelle
2
Dieses Q könnte helfen: stats.stackexchange.com/questions/193661/…
einar
Ich bin mir nicht sicher, ob dies genau das ist, was Sie wollen. John Langford beschreibt in dieser URL die Ursache der Überanpassung und die Abhilfemaßnahme.
Wolfe

Antworten:

7

Ich glaube, dass der Interviewer bei der Frage nach einer Überanpassung nach der "Lehrbuchantwort" gesucht hat, während Sie danach einige Schritte gegangen sind.

Ein Symptom für eine Überanpassung ist, dass die Klassifikatorleistung am Zugsatz besser ist als die am Testsatz. Ich bezeichne diese Antwort als "Lehrbuchantwort", da es sich um die übliche Antwort und eine vernünftige Annäherung handelt.

Beachten Sie, dass diese Antwort viele offene Enden hat. Zum Beispiel, wie viel Unterschied ist Überanpassung? . Ein Leistungsunterschied zwischen den Datensätzen ist nicht unbedingt auf eine Überanpassung zurückzuführen. Andererseits führt eine Überanpassung nicht unbedingt zu einem signifikanten Unterschied in der Leistung der beiden Datensätze.

Die Kreuzvalidierung ist eine Technik zur Bewertung der Leistung eines Lernenden (z. B. eines Entscheidungsbaums) anhand von Daten, die er zuvor nicht gesehen hat. Überanpassung bezieht sich jedoch auf ein bestimmtes Modell (z. B. wenn "f1" dann und nicht "f2" True vorhersagen). Es zeigt Ihnen die Tendenz des Lernenden, diese Daten zu überbeanspruchen, antwortet jedoch nicht, ob Ihr spezifisches Modell überangepasst ist.

Um überanpasst zu werden, muss das Modell komplex sein, und dort hilft die Regularisierung. Es begrenzt (oder tauscht) die Komplexität des Modells aus. Beachten Sie, dass eine weitere Ursache für eine Überanpassung die Größe des Hypothesensatzes ist (kann als Anzahl möglicher Modelle angesehen werden). Die Entscheidung im Voraus, einen eingeschränkten Hypothesensatz zu verwenden, ist ein weiterer Weg, um eine Überanpassung zu vermeiden.

DaL
quelle