Was halten Sie von Überabtastung bei der Klassifizierung im Allgemeinen und dem SMOTE-Algorithmus im Besonderen? Warum sollten wir nicht einfach eine Gebühr / Strafe anwenden, um das Ungleichgewicht in den Klassendaten und etwaige nicht ausgeglichene Fehlerkosten auszugleichen? Für meine Zwecke ist die Genauigkeit der Vorhersage für einen zukünftigen Satz von experimentellen Einheiten das ultimative Maß.
Als Referenz das SMOTE-Papier: http://www.jair.org/papers/paper953.html
machine-learning
classification
oversampling
Dave Cummins
quelle
quelle
Antworten:
{1} enthält eine Liste der Vor- und Nachteile des kostensensitiven Lernens im Vergleich zur Stichprobe:
Sie führten auch eine Reihe von Experimenten durch, die nicht schlüssig waren:
Sie versuchen dann zu verstehen, welche Kriterien in den Datensätzen möglicherweise darauf hindeuten, welche Technik besser geeignet ist.
Sie bemerken auch, dass SMOTE einige Verbesserungen bringen kann:
{1} Weiss, Gary M., Kate McCarthy und Bibi Zabar. "Kostensensitives Lernen im Vergleich zur Stichprobe: Welche Methode eignet sich am besten für den Umgang mit unausgeglichenen Klassen mit ungleichen Fehlerkosten?" DMIN 7 (2007): 35 & ndash; 41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=de&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf
quelle