Bei der Aufteilung meiner beschrifteten Daten in Trainings-, Validierungs- und Testsätze habe ich alles vom 25.05.25 bis zum 05.05.10 gehört. Ich bin sicher, dass dies davon abhängt, wie Sie Ihr Modell verwenden und wie anfällig es ist, Ihren Lernalgorithmus zu überanpassen. Gibt es eine Möglichkeit zu entscheiden oder ist alles per Faustregel? Sogar ELSII scheint zu diesem Thema vage zu sein.
machine-learning
cross-validation
Ed Fine
quelle
quelle
Antworten:
Die geteilte Stichprobenvalidierung ohne Resampling (Kreuzvalidierung oder besser: Bootstrapping) ist unzuverlässig, es sei denn, Sie haben eine enorme Stichprobe (z. B. ). Eine strenge interne Validierung mit dem Bootstrap wird normalerweise bevorzugt, vorausgesetzt, Sie programmieren alle Modellauswahlschritte so, dass sie in jeder Bootstrap-Schleife wiederholt werden können. Und eines der Probleme bei Split-Sample-Ansätzen ist neben der Volatilität die Schwierigkeit bei der Auswahl der Split-Fraktionen.N>20000
quelle
Abhängig von der Anwendung können Sie wahrscheinlich die Unsicherheit überspringen und stattdessen Bootstrapping verwenden.
Wiki: http://en.wikipedia.org/wiki/Bootstrapping_(statistics)
Verwandte Frage hier. Grundlegendes zum Bootstrapping für die Validierung und Modellauswahl
quelle
Natürlich müssen Sie auch die Aufteilungsverhältnisse für (Doppel-) Resampling festlegen ...
Resampling funktioniert jedoch normalerweise für eine ganze Reihe von Aufteilungsverhältnissen, wenn Sie dies berücksichtigen
Was Sie tun können, wenn Sie nicht sicher sind, ob ein Resampling erforderlich ist, ist: einige Male ein Resample durchführen. Genug, damit Sie messen können, ob das Resampling erforderlich war.
Mit diesen Ergebnissen können Sie entscheiden, ob Sie weitere Resampling-Iterationen hinzufügen möchten oder ob die Dinge in Ordnung sind.
quelle
Hierfür gibt es keine feste Regel. Die empirische Analyse hat jedoch gezeigt, dass Ihre Genauigkeit umso besser ist, je mehr Trainingsdaten Sie haben. Aber was auch immer Sie tun, vergessen Sie nicht, alle Ihre Trainings- / Validierungs- / Testdaten zusammenzufassen und einen 10-fachen Lebenslauf zu erstellen, wenn Sie fertig sind. Dies gibt einen sehr guten Einblick in das Problem der Über- / Unteranpassung während Ihres Experiments.
quelle
Ich denke, es kommt darauf an, welche Fragen Sie beantworten möchten. Interessieren Sie sich für eine genaue Ansicht des Leistungsunterschieds zwischen mehreren Algorithmen? Dann benötigen Sie einen ziemlich großen Validierungssatz. Interessieren Sie sich dafür, wie gut ein Algorithmus für N = 10000 Samples funktioniert? Dann sollten Sie mindestens 10000 Proben in das Zugset legen.
Ein größerer Validierungssatz gibt Ihnen mehr statistische Sicherheit über Ihre Ergebnisse, aber die Sicherheit bezieht sich auf die Leistung eines Algorithmus, der mit weniger Stichproben trainiert wurde, was möglicherweise nicht das ist, wonach Sie am Ende suchen.
quelle