Ich habe ein stark voreingenommenes binäres Dataset - ich habe 1000x mehr Beispiele für die negative Klasse als für die positive Klasse. Ich würde gerne ein Baumensemble (wie Extra Random Trees oder Random Forest) mit diesen Daten trainieren, aber es ist schwierig, Trainingsdatensätze zu erstellen, die genügend Beispiele für die positive Klasse enthalten.
Welche Auswirkungen hätte ein Ansatz mit geschichteten Stichproben zur Normalisierung der Anzahl positiver und negativer Beispiele? Mit anderen Worten, ist es eine schlechte Idee, zum Beispiel die Anzahl der positiven Klassenbeispiele im Trainingssatz künstlich (durch Resampling) zu erhöhen?