Ich habe einen stark unausgeglichenen Testdatensatz. Die positive Menge besteht aus 100 Fällen, während die negative Menge aus 1500 Fällen besteht. Auf der Trainingsseite habe ich einen größeren Kandidatenpool: Der positive Trainingssatz umfasst 1200 Fälle und der negative Trainingssatz umfasst 12000 Fälle. Für diese Art von Szenario habe ich mehrere Möglichkeiten:
1) Verwenden von gewichtetem SVM für den gesamten Trainingssatz (P: 1200, N: 12000)
2) Unter Verwendung von SVM basierend auf dem abgetasteten Trainingssatz (P: 1200, N: 1200) werden die 1200 negativen Fälle aus 12000 Fällen abgetastet.
Gibt es theoretische Leitlinien für die Entscheidung, welcher Ansatz besser ist? Sollte ich das unausgeglichene Trainingsset auch verwenden, da der Testdatensatz sehr unausgeglichen ist?
Antworten:
Von einem kürzlich veröffentlichten Beitrag auf reddit wird die Antwort von datapraxis von Interesse sein.
bearbeiten: das erwähnte Papier ist Haibo He, Edwardo A. Garcia, "Lernen aus unausgeglichenen Daten", IEEE Transactions on Knowledge and Data Engineering, S. 1263-1284, September 2009 (PDF)
quelle
Paarweise erweiterte logistische Regression, ROC-basiertes Lernen, Boosting und Bagging (Bootstrap-Aggregation), Link-basiertes Cluster-Ensemble (LCE), Bayesianisches Netzwerk, Nearest Centroid Classifiers, Bayesianische Techniken, gewichtete grobe Menge, k-NN
und eine Menge von Probenahmemethoden, um Ungleichgewicht zu behandeln.
quelle