Ich arbeite an stark unausgeglichenen Daten. In der Literatur werden verschiedene Methoden verwendet, um die Daten durch erneutes Abtasten (Über- oder Unterabtasten) neu abzugleichen. Zwei gute Ansätze sind:
SMOTE: Synthetic Minority-Überabtastung ( SMOTE )
ADASYN: Adaptiver Ansatz zur synthetischen Probenahme für unausgewogenes Lernen ( ADASYN )
Ich habe ADASYN implementiert, weil es anpassungsfähig ist und sich problemlos auf Probleme mit mehreren Klassen ausweiten lässt.
Meine Frage ist, wie man die überabgetasteten Daten testet, die von ADASYN (oder anderen überabgetasteten Methoden) erzeugt werden. In den beiden genannten Arbeiten ist nicht klar, wie sie ihre Experimente durchgeführt haben. Es gibt zwei Szenarien:
1- Überabtasten Sie den gesamten Datensatz und teilen Sie ihn in Trainings- und Testsätze (oder Kreuzvalidierung) auf.
2- Führen Sie nach dem Aufteilen des Originaldatensatzes eine Überabtastung nur für den Trainingssatz durch und testen Sie den Originaldatensatz (kann mit Kreuzvalidierung durchgeführt werden).
Im ersten Fall sind die Ergebnisse viel besser als ohne Überabtastung, aber ich bin besorgt, wenn es Überanpassung gibt. Im zweiten Fall sind die Ergebnisse etwas besser als ohne Überabtastung und viel schlechter als im ersten Fall. Das Problem mit dem zweiten Fall ist jedoch, dass bei einer Überabtastung kein Vorteil erzielt wird, wenn alle Stichproben der Minderheitsklasse in das Testset gelangen.
Ich bin nicht sicher, ob es andere Einstellungen zum Testen solcher Daten gibt.
Die zweite (2) Option ist der richtige Weg, dies zu tun. Die synthetischen Samples, die Sie mit den Oversampling-Techniken erstellen, sind keine echten Beispiele, sondern eher synthetisch. Diese sind nicht zu Testzwecken gültig, solange sie noch für das Training geeignet sind. Sie sollen das Verhalten des Klassifikators ändern, ohne den Algorithmus zu ändern.
quelle