Bootstrapping ist ein Test oder eine Metrik, die auf Zufallsstichproben mit Ersetzung beruht. Es ist eine Methode, die in vielen Situationen wie der Validierung der Leistung eines Vorhersagemodells, Ensemble-Methoden, Schätzung der Verzerrung und Varianz der Parameter eines Modells usw. hilfreich ist Durchführen einer Probenahme mit Ersetzen aus dem Originaldatensatz und gleichzeitig unter der Annahme, dass die nicht ausgewählten Datenpunkte der Testdatensatz sind. Wir können diesen Vorgang mehrmals wiederholen und die durchschnittliche Punktzahl als Schätzung unserer Modellleistung berechnen. Bootstrapping hängt auch mit den Ensemble-Trainingsmethoden zusammen, da wir mit jedem Bootstrap-Datensatz ein Modell erstellen und diese Modelle in einem Ensemble mit der Mehrheitsentscheidung (zur Klassifizierung) oder der Berechnung des Durchschnitts (für numerische Vorhersagen) für alle zusammenfassen können Diese Modelle als unser Endergebnis.
Die Kreuzvalidierung ist ein Verfahren zur Validierung der Leistung eines Modells und erfolgt durch Aufteilen der Trainingsdaten in k Teile. Wir gehen davon aus, dass das k-1-Teil das Trainingsset ist und verwenden das andere Teil unser Testset. Wir können das k-mal wiederholen und jedes Mal einen anderen Teil der Daten heraushalten. Schließlich nehmen wir den Durchschnitt der k-Werte als unsere Leistungsschätzung. Die Kreuzvalidierung kann unter Verzerrung oder Varianz leiden. Wenn Sie die Anzahl der Teilungen erhöhen, nimmt auch die Varianz zu und die Vorspannung nimmt ab. Wenn wir andererseits die Anzahl der Teilungen verringern, nimmt die Vorspannung zu und die Varianz ab.
Zusammenfassend teilt die Kreuzvalidierung das verfügbare Dataset auf, um mehrere Datasets zu erstellen, und die Bootstrapping-Methode verwendet das ursprüngliche Dataset, um nach dem erneuten Abtasten mit Ersetzen mehrere Datasets zu erstellen. Das Bootstrapping ist nicht so stark wie die Kreuzvalidierung, wenn es für die Modellvalidierung verwendet wird. Beim Bootstrapping geht es mehr darum, Ensemble-Modelle zu erstellen oder nur Parameter zu schätzen.
Christos Karatsalos
quelle
quelle