Ich entwickle automatisierte Handelssysteme für die Börse. Die große Herausforderung war die Überanpassung. Können Sie einige Ressourcen empfehlen, die Methoden zur Messung und Vermeidung von Überanpassungen beschreiben?
Ich habe mit Trainings- / Validierungssätzen begonnen, aber der Validierungssatz wird immer verschmutzt.
Außerdem ändern sich die Zeitreihendaten ständig, da sich der Markt ständig ändert. Wie messen Sie dies und bestimmen die Wahrscheinlichkeit konsistenter Ergebnisse für unsichtbare Daten?
Vielen Dank.
Antworten:
Für eine Überanpassung bei der Modellauswahl ist dann ein lesenswertes Papier
C. Ambroise und GJ McLachlan, "Selection Bias in der Genextraktion auf der Basis von Microarray-Genexpressionsdaten", PNAS, vol. 99 nr. 10 6562-6566, Mai 2002. http://dx.doi.org/10.1073/pnas.102102699
Eine Diskussion der gleichen Art von Problem, die bei der Modellauswahl auftritt, finden Sie unter
GC Cawley, NLC Talbot, "Über Überanpassung bei der Modellauswahl und anschließende Auswahlverzerrung bei der Leistungsbewertung", Journal of Machine Learning Research, 11 (Jul): 2079-2107, 2010. http://jmlr.csail.mit. edu / papers / v11 / cawley10a.html
Die Möglichkeit, das Problem zu lösen, dass der Validierungssatz verunreinigt wird, besteht in der Verwendung einer verschachtelten Kreuzvalidierung. Daher wird die Methode zur Auswahl des Modells in jeder Falte der für die Leistungsschätzung verwendeten Kreuzvalidierung unabhängig durchgeführt. Im Wesentlichen muss die Leistungsschätzung die Leistung des gesamten Modellanpassungsverfahrens (Anpassen des Modells, Merkmalsauswahl, Modellauswahl, alles) schätzen.
Der andere Ansatz ist, ein Bayesianer zu sein. Das Risiko einer Überanpassung wird immer dann eingeführt, wenn Sie ein Kriterium basierend auf einer endlichen Stichprobe von Daten optimieren. Wenn Sie also eher marginalisieren (integrieren) als optimieren, ist eine klassische Überanpassung unmöglich. Sie haben jedoch das Problem, die Prioritäten anzugeben.
quelle