Vorteile der geschichteten vs zufälligen Stichprobe für die Erzeugung von Trainingsdaten in der Klassifizierung

Ich würde gerne wissen, ob die Verwendung geschichteter Stichproben anstelle von Zufallsstichproben einige Vorteile hat, wenn der ursprüngliche Datensatz in Trainings- und Testsätze für die Klassifizierung aufgeteilt wird.

Bringt geschichtete Stichprobe mehr Verzerrung in den Klassifikator als zufällige Stichprobe?

Die Anwendung, für die ich eine geschichtete Stichprobe zur Datenaufbereitung verwenden möchte, ist ein Zufallsforst-Klassifikator, der auf des Originaldatensatzes trainiert wurde . Vor dem Klassifikator gibt es auch einen Schritt zur Erzeugung synthetischer Proben (SMOTE [1]), der die Klassengröße ausgleicht. $\frac{2}{3}$

[1] Chawla, Nitesh V. et al. " SMOTE: Synthetic Minority Over-Sampling-Technik. " Journal of Artificial Intelligence Research 16 (2002): 321-357.

classification cross-validation random-forest train stratification gc5
quelle

Antworten:

Stratified Sampling zielt darauf ab, einen Datensatz so aufzuteilen, dass jede Aufteilung in Bezug auf etwas ähnlich ist.

Bei einer Klassifizierung wird häufig darauf geachtet, dass die Zug- und Testgruppen ungefähr den gleichen Prozentsatz an Stichproben jeder Zielklasse aufweisen wie die gesamte Gruppe.

Wenn der Datensatz eine große Menge jeder Klasse enthält, entspricht die geschichtete Stichprobe der zufälligen Stichprobe. Wenn jedoch eine Klasse im Datensatz nicht stark vertreten ist, was in Ihrem Datensatz der Fall sein kann, da Sie beabsichtigen, die Minderheitsklasse zu überbemustern, kann eine geschichtete Stichprobe eine andere Zielklassenverteilung in den Zug- und Testmengen ergeben als die zufällige Probenahme kann ergeben.

Beachten Sie, dass die geschichtete Stichprobe auch so ausgelegt sein kann, dass einige Funktionen in den nächsten Zug- und Testsätzen gleichmäßig verteilt werden. Wenn zum Beispiel jede Stichprobe eine Person darstellt und ein Merkmal das Alter ist, ist es manchmal nützlich, im Zug und im Testsatz die gleiche Altersverteilung zu haben.

Zu Ihrer Information:

Franck Dernoncourt
quelle