Ich möchte versuchen, Support Vector Machines (SVMs) für mein Dataset zu verwenden. Bevor ich das Problem versuchte, wurde ich gewarnt, dass SVMs bei extrem unausgeglichenen Daten keine gute Leistung bringen. In meinem Fall kann ich bis zu 95-98% 0 und 2-5% 1 haben.
Ich habe versucht, Ressourcen zu finden, bei denen es um die Verwendung von SVMs für spärliche / unausgeglichene Daten ging, aber alles, was ich finden konnte, waren spärliche SVMs (die eine kleine Menge von Unterstützungsvektoren verwenden).
Ich hatte gehofft, jemand könnte kurz erklären:
- Wie gut würde SVM mit einem solchen Datensatz auskommen?
- Falls vorhanden, müssen Änderungen am SVM-Algorithmus vorgenommen werden
- Welche Ressourcen / Papiere diskutieren dies?
quelle
SVMs funktionieren gut bei spärlichen und unausgeglichenen Daten. Der klassengewichtete SVM wurde entwickelt, um mit unausgeglichenen Daten umzugehen, indem Trainingsinstanzen der Minderheitsklasse höhere Strafen für Fehlklassifizierungen zugewiesen werden.
quelle
Im Fall von spärlichen Daten wie diesen wird SVM gut funktionieren.
Wie von @Bitwise angegeben, sollten Sie die Leistung des Algorithmus nicht mit Genauigkeit messen.
Stattdessen sollten Sie die Präzision, den Abruf und den F-Score des Algorithmus berechnen.
quelle