Zunächst möchte ich einige gängige Layouts beschreiben, die in Data Mining-Büchern verwendet werden, um den Umgang mit unsymmetrischen Datasets zu erläutern . Normalerweise heißt der Hauptabschnitt Unbalanced Datasets und deckt diese beiden Unterabschnitte ab: Cost-Sensitive Classification und Sampling Techniques.
Es scheint, dass Sie bei einem Problem mit einer seltenen Klasse sowohl eine kostensensitive Klassifizierung als auch eine Stichprobenerhebung durchführen können. Stattdessen denke ich, dass man kostensensitive Techniken anwenden sollte, wenn die seltene Klasse auch das Ziel der Klassifizierung ist und eine Fehlklassifizierung eines Datensatzes dieser Klasse kostspielig ist.
Andererseits sind Stichprobenverfahren wie Über- und Unterabtastung nützlich, wenn das Ziel der Klassifizierung insgesamt eine gute Genauigkeit ist, ohne sich auf eine bestimmte Klasse zu konzentrieren.
Diese Annahme beruht auf der Überlegung von MetaCost , mit der ein Klassifikator generell kostensensitiv gemacht wird: Wenn ein Klassifikator kostensensitiv gemacht werden soll, um einen Fehlklassifizierungsfehler der seltenen Klasse zu bestrafen, sollte er die andere Klasse überbewerten . Grob gesagt versucht der Klassifikator, sich an die andere Klasse anzupassen, und wird spezifisch für die seltene Klasse.
Dies ist das Gegenteil von einer Überabtastung der seltenen Klasse, die normalerweise vorgeschlagen wird, um dieses Problem zu lösen. Überabtastung der seltenen Klasse oder Unterabtastung der anderen Klasse ist nützlich, um die Gesamtgenauigkeit zu verbessern.
Bitte, es wäre großartig, wenn Sie meine Gedanken bestätigen würden.
In diesem Sinne lautet die häufigste Frage, die sich einem unausgeglichenen Datensatz stellt,:
Sollte ich versuchen, einen Datensatz zu erhalten, der so viele seltene Datensätze enthält wie andere?
Meine Antwort wäre, falls Sie nach Genauigkeit suchen: OK. Sie können dies entweder durchführen, indem Sie seltenere Klassenbeispiele herausfinden oder einige Datensätze der anderen Klasse löschen.
Wenn Sie sich mit einer kostensensitiven Technik auf die seltene Klasse konzentrieren, würde ich antworten: Sie können nur ein selteneres Klassenbeispiel herausfinden, aber Sie sollten keine Datensätze der anderen Klasse löschen. In letzterem Fall können Sie den Klassifizierer nicht an die andere Klasse anpassen lassen, und der seltene Klassifizierungsfehler kann zunehmen.
Was würdest du antworten?
Antworten:
Das ist eine gute Frage. Persönlich würde ich antworten, dass es niemals Sinn macht, Daten wegzuwerfen (es sei denn, dies geschieht aus rechnerischen Gründen). Je mehr Daten Sie haben, desto besser kann Ihr Weltmodell sein. Daher würde ich vorschlagen, dass es ausreicht, die Kostenfunktion in geeigneter Weise für Ihre Aufgabe zu ändern. Wenn Sie beispielsweise an einer bestimmten seltenen Klasse interessiert sind, können Sie Fehlklassifizierungen dieser Klasse nur verteuern. Wenn Sie an einer ausgeglichenen Messung interessiert sind, ist beispielsweise die ausgeglichene Fehlerrate (der Durchschnitt der Fehler in jeder Klasse) oder der Matthews-Korrelationskoeffizient angemessen. Wenn Sie nur an Gesamtklassifizierungsfehlern interessiert sind, ist der traditionelle 0-1-Verlust .
Eine moderne Herangehensweise an das Problem ist die Verwendung von aktivem Lernen. Zum Beispiel Hospedales et al. (2011) "Seltene Klassen finden: Aktives Lernen mit generativen und diskriminativen Modellen, IEEE-Transaktionen zu Wissens- und Daten-Engineering" (TKDE 2011) . Ich glaube jedoch, dass diese Ansätze noch relativ wenig ausgereift sind.
quelle