Leidet die GBM-Klassifizierung unter unausgewogenen Klassengrößen?

16

Ich habe es mit einem Problem der überwachten binären Klassifizierung zu tun. Ich möchte das GBM-Paket verwenden, um Personen als nicht infiziert / infiziert zu klassifizieren. Ich habe 15-mal mehr nicht infizierte als infizierte Personen.

Ich habe mich gefragt, ob GBM-Modelle unter unausgeglichenen Klassengrößen leiden? Ich habe keine Referenzen gefunden, die diese Frage beantworten.

Ich habe versucht, die Gewichte anzupassen, indem ich den nicht infizierten Personen ein Gewicht von 1 und den infizierten Personen ein Gewicht von 15 zuwies, aber ich habe schlechte Ergebnisse erzielt.

yoyo
quelle
1
(Randnotiz) Es wäre hilfreich, wenn Sie angeben, wofür GBM steht und einen Link zum Paket.
Memming
1
Welche Verlustfunktion verwenden Sie für Ihr Gradienten-Boosting-Modell? Wenn es um unausgeglichene Klassen geht, habe ich schlechte Leistungen gesehen, wenn ich meinen absoluten Fehler verwendet habe, weil er die am häufigsten vorkommende Klasse zu bevorzugen scheint. Als ich den mittleren Fehlerquadrat verwendete, verbesserte sich die Leistung erheblich
Ryan Zotti,
Nur zum späteren Nachschlagen finde ich die Standardverlustfunktion, die beim logarithmischen Verlust (Kreuzabweichung) verwendet wird, ebenfalls sehr hilfreich. (Es bestraft schwer auf die falschen Fälle in einer negativen logarithmischen Skala)
Lily Long

Antworten:

4

Nach meiner Erfahrung leidet GBM in der Tat unter unausgewogenen Klassengrößen. Ich hatte gute Erfolge mit der SMOTE-Abtastung, bei der synthetische Daten erstellt werden, während die Minderheitsklasse überabgetastet wird. Sie finden es in der DMwRPackung.

Trey
quelle
Ich bin ein bisschen verwirrt. Soll GBM nicht ein Ansatz sein, um mit Datenungleichgewichten umzugehen?
Sehen
5

Ich denke, Ihre Daten ähneln denen von Secom, an denen ich in der Vergangenheit gearbeitet habe und mit vielen Schwierigkeiten konfrontiert war. Folgendes habe ich versucht:

  • Verschiedene Probentechniken
  • Verschiedene Klassifikatoren wie Random Forest, ANN, GBM, Ensemble-Methoden usw.

Ich habe auch 1-Class SVM ausprobiert, das im Vergleich zu anderen wie adaboost, Random Forest bessere Ergebnisse liefert. Sie können das auch versuchen.

Und ich kann sehen, dass Sie diese Frage vor einem Jahr gestellt haben. Wenn Sie also den besten Weg gefunden haben, posten Sie sie bitte hier, damit ich Hilfe bekommen kann, um eine bessere Genauigkeit zu erzielen.

Ankit
quelle