Ich würde gerne wissen, ob die Verwendung geschichteter Stichproben anstelle von Zufallsstichproben einige Vorteile hat, wenn der ursprüngliche Datensatz in Trainings- und Testsätze für die Klassifizierung aufgeteilt wird.
Bringt geschichtete Stichprobe mehr Verzerrung in den Klassifikator als zufällige Stichprobe?
Die Anwendung, für die ich eine geschichtete Stichprobe zur Datenaufbereitung verwenden möchte, ist ein Zufallsforst-Klassifikator, der auf des Originaldatensatzes trainiert wurde . Vor dem Klassifikator gibt es auch einen Schritt zur Erzeugung synthetischer Proben (SMOTE [1]), der die Klassengröße ausgleicht.
[1] Chawla, Nitesh V. et al. " SMOTE: Synthetic Minority Over-Sampling-Technik. " Journal of Artificial Intelligence Research 16 (2002): 321-357.