Was bedeutet es, ein Tree Ensemble mit stark voreingenommenen Datensätzen zu trainieren?

14

Ich habe ein stark voreingenommenes binäres Dataset - ich habe 1000x mehr Beispiele für die negative Klasse als für die positive Klasse. Ich würde gerne ein Baumensemble (wie Extra Random Trees oder Random Forest) mit diesen Daten trainieren, aber es ist schwierig, Trainingsdatensätze zu erstellen, die genügend Beispiele für die positive Klasse enthalten.

Welche Auswirkungen hätte ein Ansatz mit geschichteten Stichproben zur Normalisierung der Anzahl positiver und negativer Beispiele? Mit anderen Worten, ist es eine schlechte Idee, zum Beispiel die Anzahl der positiven Klassenbeispiele im Trainingssatz künstlich (durch Resampling) zu erhöhen?

Gallamin
quelle

Antworten:

10

Ja, es ist problematisch. Wenn Sie die Minderheit überbemustern, riskieren Sie eine Überanpassung. Wenn Sie die Mehrheit untererproben, riskieren Sie fehlende Aspekte der Mehrheitsklasse. Stratified Sampling ist übrigens gleichbedeutend mit der Zuordnung von nicht einheitlichen Fehlklassifizierungskosten.

Alternativen:

(1) Unabhängiges Abtasten mehrerer Teilmengen aus der Mehrheitsklasse und Erstellen mehrerer Klassifikatoren durch Kombinieren jeder Teilmenge mit allen Minderheitsklassendaten, wie in der Antwort von @Debasis vorgeschlagen und in diesem EasyEnsemble- Dokument beschrieben .

(2) SMOTE (Synthetic Minority Oversampling Technique) oder SMOTEBoost (Kombination von SMOTE mit Boosten) , um synthetische Instanzen der Minderheitsklasse zu erstellen , indem im Featurebereich die nächsten Nachbarn erstellt werden. SMOTE ist in R im DMwR-Paket implementiert .

MattBagg
quelle
11

Ich würde empfehlen, an ausgewogeneren Teilmengen Ihrer Daten zu trainieren. Training des Zufallswalds an zufällig ausgewählten positiven Beispielsätzen mit einer ähnlichen Anzahl negativer Stichproben. Insbesondere wenn die Unterscheidungsmerkmale eine große Varianz aufweisen, ist dies ziemlich effektiv und vermeidet eine Überanpassung. Bei der Schichtung ist es jedoch wichtig, ein Gleichgewicht zu finden, da eine Überanpassung unabhängig davon zu einem Problem werden kann. Ich würde vorschlagen, zu sehen, wie sich das Modell mit dem gesamten Datensatz verhält, und dann das Verhältnis von positiven zu negativen Stichproben schrittweise zu erhöhen, um ein gleichmäßiges Verhältnis zu erreichen, und dasjenige auszuwählen, das Ihre Leistungsmetrik für einige repräsentative Hold-out-Daten maximiert.

Dieses Papier scheint ziemlich relevant zu sein. Http://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdf Es handelt sich um ein weighted Random ForestDokument, das eine Fehlklassifizierung der Minderheit stärker bestraft.

indico
quelle
4

Ein schneller, einfacher und oft wirksamer Weg, um dieses Ungleichgewicht zu lösen, besteht darin, die größere Klasse (in Ihrem Fall die negative Klasse) zufällig zu subsampeln und die Klassifizierung N-mal mit Mitgliedern aus den beiden Klassen (eine vollständige und die andere) durchzuführen subsampled) und geben die durchschnittlichen Metrikwerte an, wobei der Durchschnitt über N (z. B. 1000) Iterationen berechnet wird.

Ein methodischerer Ansatz wäre, den Mapping Convergence (MC) -Algorithmus auszuführen, der das Identifizieren einer Teilmenge stark negativer Stichproben mit Hilfe eines Ein-Klassen-Klassifikators wie OSVM oder SVDD und das iterative Ausführen einer Binärklassifikation für die Menge umfasst starker negativer und positiver Proben. Weitere Details zum MC-Algorithmus finden Sie in diesem Artikel .

Debasis
quelle
0

Wie oben erwähnt, ist der beste Weg, die Mehrheitsklasse N-mal (Abtastung ohne Ersatz) wiederholt abzutasten, und für jedes Mal sollte die Größe der negativen Klasse gleich der Größe der positiven Klasse sein. Nun können N verschiedene Klassifikatoren trainiert und der Durchschnitt zur Bewertung herangezogen werden.

Eine andere Möglichkeit ist die Verwendung der Bootstrapping-Technik. Dies kann zu einer Überanpassung führen, ist aber einen Versuch wert. Wenn dies erforderlich ist, kann das Modell reguliert werden, um eine Überanpassung zu vermeiden.

RAM
quelle