Ist Random Forest eine gute Option für die Klassifizierung unausgeglichener Daten? [geschlossen]

9

Kann die zufällige Gesamtstruktur "als Algorithmus" trotz der ähnlichen und anderen zunehmenden Ansätze der Datenvariabilität als gute Option für die unausgeglichene Datenklassifizierung angesehen werden?

mhdella
quelle
Nein . (Bitte seien Sie in Ihrer Frage genauer, da sie
derzeit zu weit gefasst
5
@ usεr11852 Ich denke, es ist überhaupt nicht zu weit gefasst - es hat nur eine Antwort mit einem Wort.
Shadowtalker
Was ich als Algorithmus gemeint habe, wird mit anderen Klassifizierungswerkzeugen wie SVM, logistischer Regression usw. verglichen. Wird RF als gute Option angesehen?
Mhdella
Warum bearbeiten Sie Ihre Frage nicht, um zu zeigen, welche Komparatoren Sie in Betracht ziehen und in welcher Situation Sie sich mit der von Ihnen gewählten Methode vorstellen?
Mdewey
@ssdecontrol: Ich bin alle für prägnante Antworten; Ich fand Antworten mit einem Wort selten sehr aufschlussreich. Ihre eigene Antwort ist ein Beweis dafür (da es nicht ein Wort ist: D).
usεr11852

Antworten:

9

Es ist keine gute Option.

Zufällige Wälder werden auf Entscheidungsbäumen aufgebaut, und Entscheidungsbäume reagieren empfindlich auf Klassenungleichgewichte . Jeder Baum ist auf einem Beutel aufgebaut, und jeder Beutel ist eine einheitliche Zufallsstichprobe aus den Daten (mit Ersatz). Daher wird jeder Baum durch Klassenungleichgewicht in die gleiche Richtung und Größe (im Durchschnitt) vorgespannt.

Es gibt verschiedene Techniken zur Verringerung oder Verringerung des Klassenungleichgewichts, von denen einige allgemein und einige spezifisch für zufällige Wälder sind. Dieses Thema wurde sowohl hier als auch anderswo ausführlich diskutiert.

edit: Ich würde hinzufügen, dass ich nicht denke, dass es dramatisch schlimmer ist als jede andere Option, zB logistische Regression, obwohl ich keine Beweise dafür habe

Shadowtalker
quelle
Erhöhen Sie die Größe der Bootstrap-Beispiele. So erhalten Sie beide Klassen in jedem Beispiel.
Arpit Sisodia
@ArpitSisodia, die immer noch zu unausgeglichenen Samples führt. Sie müssten Stichprobengewichte verwenden, um die seltenere Klasse in jedem Bootstrap-Beispiel zu überabtasten, bevor Sie den Baum erstellen.
Shadowtalker
Diese meinungsgebundene Antwort ist insofern irreführend, als zufällige Gesamtstruktur eine großartige Option ist, zumal eine RF leicht klassengewichtet werden kann. Befolgen Sie die hilfreiche Best Practice, einen Gegenvorschlag zu unterbreiten, wenn Sie Nein sagen. Andernfalls ist Nein schädlicher als hilfreich.
SwimBikeRun
3

Unausgeglichene Klassen sind nur dann ein Problem, wenn Sie auch ein Ungleichgewicht der Fehlklassifizierungskosten haben. Wenn es kleine Minderheitenklassen gibt und es nicht teurer ist, sie als Mehrheitsklasse zu klassifizieren als umgekehrt, ist es vernünftig, eine Fehlklassifizierung von Minderheitenklassen zuzulassen.

Nehmen wir also an, Sie haben ein Klassen- und Kostenungleichgewicht. Es gibt mehrere Möglichkeiten, damit umzugehen. Max Kuhns Buch "Applied Predictive Modeling" hat in Kapitel 16 einen guten Überblick. Zu diesen Abhilfemaßnahmen gehört die Verwendung eines anderen Grenzwerts als 0,5, der die ungleichen Kosten widerspiegelt. Dies ist bei der binären Klassifizierung einfach, solange Ihr Klassifizierer Beschriftungswahrscheinlichkeiten ausgibt (Bäume und Wälder tun dies). Ich habe es noch nicht für mehrere Klassen untersucht. Sie können die Minderheitsklasse auch überabtasten, um ihr mehr Gewicht zu verleihen.

David Ernst
quelle
Ich denke nicht, dass das richtig ist. Wenn ich die gleichen Kosten für die Fehlklassifizierung habe, mein Modell jedoch voreingenommen ist, um eine Klasse zu überschätzen, bleibt mir am Ende des Tages immer noch ein voreingenommenes Modell übrig.
Shadowtalker
Es wäre aber egal. Krebsfälle sind viel weniger als gesunde Patienten. Sie müssen die Krebspatienten jedoch zuverlässig vorhersagen, da das Fehlen eines Patienten viel teurer ist als das Vorhersagen eines zu vielen. Wenn Sie einen Datensatz mit 99,9% gesunden Menschen und 0,1% Erkältungsfällen hätten, würde der beste Klassifikator diese Erkältungsfälle einfach ignorieren.
David Ernst