Reicht eine Kreuzvalidierung aus, um eine Überanpassung zu verhindern?

17

Wenn ich Daten habe und eine Klassifizierung (sagen wir zufällige Gesamtstruktur für diese Daten) mit Kreuzvalidierung (sagen wir 5-fach) durchführe, kann ich dann den Schluss ziehen, dass meine Methode keine Überanpassung aufweist?

mamatv
quelle

Antworten:

20

Überhaupt nicht. Mithilfe der Kreuzvalidierung können Sie jedoch feststellen, um wie viel Ihre Methode überfällt.

Wenn zum Beispiel Ihre Trainingsdaten im R-Quadrat einer Regression 0,50 und das kreuzvalidierte R-Quadrat 0,48 betragen, haben Sie kaum eine Überanpassung und fühlen sich gut. Wenn dagegen das kreuzvalidierte R-Quadrat hier nur 0,3 beträgt, ist ein erheblicher Teil Ihrer Modellleistung auf Überanpassung und nicht auf echte Beziehungen zurückzuführen. In einem solchen Fall können Sie entweder eine geringere Leistung akzeptieren oder andere Modellierungsstrategien mit weniger Überanpassung ausprobieren.

Michael M
quelle
8
Ich denke, diese Antwort ist im Geiste richtig, aber ich bin mit der Charakterisierung der Überanpassung im zweiten Absatz nicht einverstanden. Ich glaube nicht, dass eine Überanpassung auftritt, wenn ein Zugfehler vorliegt - Testfehler> einige Grenzen. Stattdessen würde ich eine Überanpassung als eine Situation charakterisieren, in der eine Erhöhung der Komplexität des Modells leicht dazu neigt, den Haltefehler zu erhöhen . Das Erfordernis, dass Ihre Zug- und Testfehler vergleichbar sind, führt häufig zu sehr unzulänglichen Modellen.
Matthew Drury
7

Die Kreuzvalidierung ist eine gute, aber nicht perfekte Technik, um Überanpassungen zu minimieren.

Die Kreuzvalidierung ist für externe Daten nicht geeignet, wenn die Daten, über die Sie verfügen, nicht für die Daten repräsentativ sind, die Sie vorhersagen möchten!

Hier sind zwei konkrete Situationen, in denen die Kreuzvalidierung Mängel aufweist:

  • Sie verwenden die Vergangenheit, um die Zukunft vorherzusagen: Es ist oft eine große Annahme, dass vergangene Beobachtungen von derselben Population mit derselben Verteilung stammen wie zukünftige Beobachtungen. Eine Quervalidierung eines Datensatzes aus der Vergangenheit schützt dagegen nicht.
  • Die von Ihnen erfassten Daten weisen eine Verzerrung auf: Die von Ihnen erfassten Daten unterscheiden sich systematisch von den Daten, die Sie nicht erfasst haben. Zum Beispiel wissen wir über die Befragtenbefangenheit bei denjenigen Bescheid, die sich für eine Umfrage entschieden haben.
TrynnaDoStat
quelle
3
Es wird im Allgemeinen als gesondertes Problem der Überanpassung angesehen, wenn Ihr Datensatz keine schlechte Darstellung der tatsächlichen Population darstellt. Natürlich ist es richtig, dass die Kreuzvalidierung sie nicht anspricht.
Cliff AB