Wenn ich Daten habe und eine Klassifizierung (sagen wir zufällige Gesamtstruktur für diese Daten) mit Kreuzvalidierung (sagen wir 5-fach) durchführe, kann ich dann den Schluss ziehen, dass meine Methode keine Überanpassung aufweist?
quelle
Wenn ich Daten habe und eine Klassifizierung (sagen wir zufällige Gesamtstruktur für diese Daten) mit Kreuzvalidierung (sagen wir 5-fach) durchführe, kann ich dann den Schluss ziehen, dass meine Methode keine Überanpassung aufweist?
Überhaupt nicht. Mithilfe der Kreuzvalidierung können Sie jedoch feststellen, um wie viel Ihre Methode überfällt.
Wenn zum Beispiel Ihre Trainingsdaten im R-Quadrat einer Regression 0,50 und das kreuzvalidierte R-Quadrat 0,48 betragen, haben Sie kaum eine Überanpassung und fühlen sich gut. Wenn dagegen das kreuzvalidierte R-Quadrat hier nur 0,3 beträgt, ist ein erheblicher Teil Ihrer Modellleistung auf Überanpassung und nicht auf echte Beziehungen zurückzuführen. In einem solchen Fall können Sie entweder eine geringere Leistung akzeptieren oder andere Modellierungsstrategien mit weniger Überanpassung ausprobieren.
Die Kreuzvalidierung ist eine gute, aber nicht perfekte Technik, um Überanpassungen zu minimieren.
Die Kreuzvalidierung ist für externe Daten nicht geeignet, wenn die Daten, über die Sie verfügen, nicht für die Daten repräsentativ sind, die Sie vorhersagen möchten!
Hier sind zwei konkrete Situationen, in denen die Kreuzvalidierung Mängel aufweist:
quelle
Außerdem kann ich diese Videos aus dem Stanford-Kurs zum statistischen Lernen empfehlen. In diesen Videos wird ausführlich erläutert, wie Cross-Valudation effektiv eingesetzt werden kann.
Cross-Validation und der Bootstrap (14:01)
K-fach Kreuzvalidierung (13:33)
Gegenvalidierung: Der richtige und der falsche Weg (10:07)
quelle