Ich habe eine spezielle Frage zur Validierung in der maschinellen Lernforschung.
Wie wir wissen, fordert das Regime des maschinellen Lernens die Forscher auf, ihre Modelle anhand der Trainingsdaten zu trainieren, anhand des Validierungssatzes aus den Kandidatenmodellen auszuwählen und die Genauigkeit des Testsatzes zu melden. In einer sehr strengen Studie kann der Testsatz nur einmal verwendet werden. Es kann jedoch niemals das Forschungsszenario sein, da wir unsere Leistung verbessern müssen, bis die Testgenauigkeit besser ist als die neuesten Ergebnisse, bevor wir einen Artikel veröffentlichen (oder sogar einreichen) können.
Jetzt kommt das Problem. Nehmen wir an, 50% sind das modernste Ergebnis, und mein Modell erreicht im Allgemeinen eine Genauigkeit von 50 bis 51, was im Durchschnitt besser ist.
Meine beste Validierungsgenauigkeit (52%) ergibt jedoch eine sehr niedrige Testgenauigkeit, z. B. 49%. Dann muss ich 49% als meine Gesamtleistung angeben, wenn ich die Validierung nach meinem Dafürhalten nicht weiter verbessern kann. Dies hindert mich wirklich daran, das Problem zu untersuchen, aber es ist für meine Kollegen nicht wichtig, da sie die 52% acc nicht sehen, was ich für einen Ausreißer halte.
Also, wie machen die Leute normalerweise in ihrer Forschung?
Die ps k-fache Validierung ist keine Hilfe, da die gleiche Situation immer noch auftreten kann.
seed
, um die Reproduzierbarkeit zu berücksichtigen. Ich vermute, dass Ihre Lebenslauf-Prozedur eine gewisse Randomisierung aufweist, die bei Wiederholung zu leicht unterschiedlichen Ergebnissen führen kann (dies ist jedoch nur eine Vermutung). Ich schlage wirklich vor, dass Sie einige andere Modelle oder Datenumwandlungen ausprobieren, um zu versuchen, Ihre Leistung zu verbessern.