Erstellen eines unausgeglichenen Datensatzes

11

Ich möchte mein trainiertes Modell an einem unausgeglichenen Datensatz testen lassen. Gibt es Algorithmen, um synthetische Daten aus einem ausgewogenen, beschrifteten Datensatz (Spam / Nicht-Spam) zu generieren?

Stuart Peterson
quelle
Sie können jeden Datensatz jederzeit aus dem Gleichgewicht bringen, indem Sie einfach eine Klasse unterabtasten.
user2974951

Antworten:

8

Probieren Sie SMOTE aus , einen Algorithmus, der für die Überabtastung verwendet wird. Es werden synthetische Samples aus der Klasse erstellt, die überabgetastet werden soll.

Sie können dies verwenden, um eine beliebige Anzahl von Proben zu erstellen, die Sie benötigen.

Mary93
quelle
1
Kann SMOTE auch für die Unterabtastung verwendet werden?
Stuart Peterson
Nun, Sie können eine Unterabtastung der Klasse A erhalten, indem Sie die Klasse notA überabtasten ...
kjetil b halvorsen
3
@StuartPeterson Nein, SMOTE ist ein Überabtastungsalgorithmus, aber es gibt viele andere Unterabtastungsalgorithmen
Mary93