Ich denke, ich verstehe, wie die Grundlagen des Bootstrapping funktionieren, bin mir aber nicht sicher, wie ich das Bootstrapping zur Modellauswahl oder zur Vermeidung von Überanpassungen einsetzen kann.
Würden Sie beispielsweise für die Modellauswahl nur das Modell auswählen, das den geringsten Fehler (möglicherweise die geringste Varianz?) In den Bootstrap-Beispielen ergibt?
Gibt es Texte, in denen erläutert wird, wie Bootstrapping für die Modellauswahl oder -validierung verwendet wird?
BEARBEITEN: Siehe diesen Thread und die Antwort von @ mark999 für mehr Kontext hinter dieser Frage.
model-selection
cross-validation
bootstrap
Amelio Vazquez-Reina
quelle
quelle
Antworten:
Zuerst müssen Sie sich entscheiden, ob Sie wirklich eine Modellauswahl benötigen, oder Sie müssen nur modellieren. In den meisten Situationen wird je nach Dimensionierung die Anpassung eines flexiblen Gesamtmodells bevorzugt.
Mit dem Bootstrap lässt sich die Leistung eines Modells hervorragend abschätzen. Am einfachsten abzuschätzen ist die Varianz. Der Bootstrap kann die wahrscheinliche zukünftige Leistung einer bestimmten Modellierungsprozedur anhand neuer Daten abschätzen, die noch nicht realisiert wurden.
Wenn Sie Resampling (Bootstrap oder Kreuzvalidierung) verwenden, um sowohl Modelloptimierungsparameter auszuwählen als auch das Modell zu schätzen, benötigen Sie einen doppelten Bootstrap oder eine verschachtelte Kreuzvalidierung.
Im Allgemeinen erfordert der Bootstrap weniger Modellanpassungen (häufig um die 300) als die Kreuzvalidierung (die 10-fache Kreuzvalidierung sollte aus Stabilitätsgründen 50 bis 100 Mal wiederholt werden).
Einige Simulationsstudien finden Sie unter http://biostat.mc.vanderbilt.edu/rms
quelle
Ziehen Sie in Betracht, den Bootstrap für die Modellmittelung zu verwenden .
Das folgende Papier könnte helfen, da es einen Ansatz zur Bootstrap-Modell-Mittelwertbildung mit der (am häufigsten verwendeten?) Bayes-Modell-Mittelwertbildung vergleicht und ein Rezept zur Durchführung der Modell-Mittelwertbildung ausgibt.
Bootstrap-Modell zur Mittelwertbildung in Zeitreihenstudien zur Luftverschmutzung und Sterblichkeit von Partikeln
quelle