Ich habe eine zufällige Waldregression, die mit skl erstellt wurde, und ich stelle fest, dass ich unterschiedliche Ergebnisse erhalte, wenn ich den zufälligen Startwert auf unterschiedliche Werte setze.
Wenn ich LOOCV verwende, um festzustellen, welches Seed am besten funktioniert, ist dies eine gültige Methode?
cross-validation
random-forest
user2723494
quelle
quelle
Antworten:
Die Antwort ist nein .
Ihr Modell liefert für jeden Samen, den Sie verwenden, ein anderes Ergebnis. Dies ist ein Ergebnis der nicht deterministischen Natur des Modells. Wenn Sie einen bestimmten Startwert auswählen, der die Leistung des Validierungssatzes maximiert, wählen Sie die "Anordnung" aus, die am besten zu diesem Satz passt. Dies garantiert jedoch nicht, dass das Modell mit diesem Startwert bei einem separaten Testsatz eine bessere Leistung erzielt . Dies bedeutet einfach, dass Sie das Modell im Validierungssatz überpasst haben .
Dieser Effekt ist der Grund, warum Sie viele Leute sehen, die in Wettbewerben (z. B. Kaggle) auf dem öffentlichen Test-Set einen hohen Rang haben und auf dem versteckten Test-Set weit davon abfallen. Dieser Ansatz ist nicht als der richtige Ansatz angesehen.
quelle