Bei der Verwendung von Bootstrapping für die Modellbewertung dachte ich immer, dass die Out-of-Bag-Proben direkt als Testsatz verwendet wurden. Dies scheint jedoch nicht der Fall zu sein für den veralteten Scikit-Lernansatz,Bootstrap
bei dem der Testsatz aus dem Zeichnen mit Ersetzen aus der Out-of-Bag- Datenuntermenge aufgebaut zu werden scheint. Was ist die statistische Begründung dahinter? Gibt es bestimmte Szenarien, in denen diese Technik besser ist als nur die Auswertung anhand der Out-of-Bag-Probe oder umgekehrt?
cross-validation
bootstrap
random-forest
scikit-learn
bagging
Kauderfisch
quelle
quelle
Antworten:
Bootstrap-Beispiele werden verwendet, um die Leistung des Algorithmus durch viele Iterationen zu bewerten. Dabei wird die Leistung bei zufällig geänderten Sätzen bewertet.
Im Gegensatz dazu führen Sie beispielsweise bei der 10-fachen Kreuzvalidierung nur 10 Iterationen für verschiedene Zug- und Testdatensätze durch.
Der Link, den Sie posten, ist nicht verfügbar, daher habe ich die Beschreibung der Funktion in der aktuellen (0.14) Version von sklearn hinzugefügt
Beschreibung der Methode
quelle
Vielleicht warst du auf etwas. Es scheint, dass andere an demselben Faden gezogen haben und
Bootstrap
zugunsten einer bewussteren Verwendung derresample
Methode mit den bewährtensklearn.cross_validation
Ansätzen wie abgelehnt wurdenStratifiedKFold
.quelle