Meinungen zu Oversampling im Allgemeinen und zum SMOTE-Algorithmus im Besonderen [geschlossen]

18

Was halten Sie von Überabtastung bei der Klassifizierung im Allgemeinen und dem SMOTE-Algorithmus im Besonderen? Warum sollten wir nicht einfach eine Gebühr / Strafe anwenden, um das Ungleichgewicht in den Klassendaten und etwaige nicht ausgeglichene Fehlerkosten auszugleichen? Für meine Zwecke ist die Genauigkeit der Vorhersage für einen zukünftigen Satz von experimentellen Einheiten das ultimative Maß.

Als Referenz das SMOTE-Papier: http://www.jair.org/papers/paper953.html

Dave Cummins
quelle
1
Ein Problem beim Überabtasten einer Minderheitsklasse in einem unausgeglichenen Datensatz ist, dass Sie am Ende zu viel über die Besonderheiten der wenigen Beispiele erfahren, was sich nicht gut verallgemeinern lässt. SMOTE soll die topologischen Eigenschaften der Nachbarschaft dieser Punkte in der Minderheitenklasse lernen, damit Sie weniger wahrscheinlich überanpassungsfähig sind.
HoraceT
2
Dies ist ein großartiges Thema für eine Frage, aber könnten Sie es etwas gezielter gestalten? "Was ist deine Meinung?" lädt zu endlosen Diskussionen ein, aber wir konzentrieren uns eher auf ein Frage / Antwort-Format.
Sycorax sagt Reinstate Monica

Antworten:

19

{1} enthält eine Liste der Vor- und Nachteile des kostensensitiven Lernens im Vergleich zur Stichprobe:

2.2 Probenahme

Über- und Unterabtastung können verwendet werden, um die Klassenverteilung der Trainingsdaten zu ändern, und beide Methoden wurden verwendet, um das Klassenungleichgewicht zu behandeln [1, 2, 3, 6, 10, 11]. Der Grund, warum das Ändern der Klassenverteilung der Trainingsdaten das Lernen mit stark verzerrten Datensätzen unterstützt, ist, dass es effektiv ungleichmäßige Fehlklassifizierungskosten verursacht. Wenn man beispielsweise die Klassenverteilung des Trainingssatzes so ändert, dass das Verhältnis von positiven zu negativen Beispielen von 1: 1 zu 2: 1 geht, hat man effektiv ein Fehlklassifizierungskostenverhältnis von 2: 1 zugewiesen. Diese Äquivalenz zwischen der Änderung der Klassenverteilung der Trainingsdaten und der Änderung der Fehlklassifizierungskostenquote ist bekannt und wurde von Elkan formell beschrieben [9].

Es sind Nachteile bekannt, die mit der Verwendung von Stichproben zur Implementierung von kostensensitivem Lernen verbunden sind. Der Nachteil bei Unterabtastung besteht darin, dass potenziell nützliche Daten verworfen werden . Der Hauptnachteil bei der Überabtastung besteht aus unserer Sicht darin, dass durch exakte Kopien vorhandener Beispiele eine Überanpassung wahrscheinlich wird . In der Tat ist es bei Überabtastungen üblich, dass ein Lernender eine Klassifizierungsregel generiert, die ein einzelnes, repliziertes Beispiel abdeckt. Ein zweiter Nachteil der Überabtastung ist, dass sie die Anzahl der Trainingsbeispiele erhöht und somit die Lernzeit verlängert .

2.3 Warum Sampling verwenden?

In Anbetracht der Nachteile der Stichprobenerfassung lohnt es sich zu fragen, warum jemand sie anstelle eines kostensensitiven Lernalgorithmus für den Umgang mit Daten mit einer verzerrten Klassenverteilung und ungleichmäßigen Fehlklassifizierungskosten verwenden würde. Dafür gibt es mehrere Gründe. Der offensichtlichste Grund ist, dass nicht alle Lernalgorithmen kostensensitiv implementiert sind Daher ist ein wrapperbasierter Ansatz mit Stichproben die einzige Option. Während dies heute sicherlich weniger wahr ist als in der Vergangenheit, behandeln viele Lernalgorithmen (z. B. C4.5) die Kosten im Lernprozess immer noch nicht direkt.

Ein zweiter Grund für die Verwendung von Stichproben ist, dass viele stark verzerrte Datensätze enorm sind und die Größe des Trainingssatzes reduziert werden muss, damit das Lernen möglich ist.In diesem Fall scheint Unterabtastung eine vernünftige und gültige Strategie zu sein. In diesem Artikel wird die Notwendigkeit, die Größe des Trainingssatzes zu reduzieren, nicht berücksichtigt. Wir möchten jedoch darauf hinweisen, dass es für den Fall, dass einige Trainingsdaten verworfen werden müssen, dennoch von Vorteil sein kann, einige der Beispiele der Mehrheitsklassen zu verwerfen, um die Größe des Trainingssatzes auf die erforderliche Größe zu reduzieren, und dann auch einen Kostenfaktor zu verwenden. sensibler Lernalgorithmus, so dass die Menge der verworfenen Trainingsdaten minimiert wird.

Ein letzter Grund, der möglicherweise eher zur Verwendung von Stichproben als zu einem kostensensitiven Lernalgorithmus beigetragen hat, ist, dass Fehlklassifizierungskosten häufig nicht bekannt sind. Dies ist jedoch kein triftiger Grund für die Verwendung von Stichproben über einen kostensensitiven Lernalgorithmus, da das analoge Problem bei Stichproben auftritt - wie sollte die Klassenverteilung der endgültigen Trainingsdaten sein? Wenn diese Kosteninformation nicht bekannt ist, könnte ein Maß wie die Fläche unter der ROC-Kurve verwendet werden, um die Klassifikatorleistung zu messen, und beide Ansätze könnten dann empirisch das richtige Kostenverhältnis / Klassenverteilung bestimmen.

Sie führten auch eine Reihe von Experimenten durch, die nicht schlüssig waren:

Basierend auf den Ergebnissen aller Datensätze gibt es keinen endgültigen Gewinner zwischen kostensensitivem Lernen, Über- und Unterabtastung

Sie versuchen dann zu verstehen, welche Kriterien in den Datensätzen möglicherweise darauf hindeuten, welche Technik besser geeignet ist.

Sie bemerken auch, dass SMOTE einige Verbesserungen bringen kann:

Es gibt eine Vielzahl von Verbesserungen, die Menschen vorgenommen haben, um die Wirksamkeit der Probenahme zu verbessern. Einige dieser Verbesserungen umfassen die Einführung neuer „synthetischer“ Beispiele beim Überabtasten [5 -> SMOTE], das Löschen weniger nützlicher Mehrheitsbeispiele beim Unterabtasten [11] und die Verwendung mehrerer Unterabtastungen, wenn in mindestens einer Unterabtastung ein solches Beispiel verwendet wird Unterprobe [3]. Während diese Techniken mit Über- und Unterabtastung verglichen wurden, wurden sie im Allgemeinen nicht mit kostensensitiven Lernalgorithmen verglichen. Dies wäre in Zukunft ein Studium wert.


{1} Weiss, Gary M., Kate McCarthy und Bibi Zabar. "Kostensensitives Lernen im Vergleich zur Stichprobe: Welche Methode eignet sich am besten für den Umgang mit unausgeglichenen Klassen mit ungleichen Fehlerkosten?" DMIN 7 (2007): 35 & ndash; 41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=de&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf

Franck Dernoncourt
quelle
2
Wenn Sie "kostensensitiver Lernalgorithmus" sagen, sollte mein Gehirn dann denken, "Klassen mit hohen Auftrittshäufigkeiten zu bestrafen und Klassen mit niedrigen Häufigkeiten möglicherweise mehr Bedeutung zuzuweisen"? Entspricht dieses Konzept der Zuweisung von Klassengewichten?
Jarad