Unterschreitet die Maximierung der Genauigkeit bei über- / unterabgetasteten unsymmetrischen Klassen die Minimierung der Fehlklassifizierungskosten?

14

Zunächst möchte ich einige gängige Layouts beschreiben, die in Data Mining-Büchern verwendet werden, um den Umgang mit unsymmetrischen Datasets zu erläutern . Normalerweise heißt der Hauptabschnitt Unbalanced Datasets und deckt diese beiden Unterabschnitte ab: Cost-Sensitive Classification und Sampling Techniques.

Es scheint, dass Sie bei einem Problem mit einer seltenen Klasse sowohl eine kostensensitive Klassifizierung als auch eine Stichprobenerhebung durchführen können. Stattdessen denke ich, dass man kostensensitive Techniken anwenden sollte, wenn die seltene Klasse auch das Ziel der Klassifizierung ist und eine Fehlklassifizierung eines Datensatzes dieser Klasse kostspielig ist.

Andererseits sind Stichprobenverfahren wie Über- und Unterabtastung nützlich, wenn das Ziel der Klassifizierung insgesamt eine gute Genauigkeit ist, ohne sich auf eine bestimmte Klasse zu konzentrieren.

Diese Annahme beruht auf der Überlegung von MetaCost , mit der ein Klassifikator generell kostensensitiv gemacht wird: Wenn ein Klassifikator kostensensitiv gemacht werden soll, um einen Fehlklassifizierungsfehler der seltenen Klasse zu bestrafen, sollte er die andere Klasse überbewerten . Grob gesagt versucht der Klassifikator, sich an die andere Klasse anzupassen, und wird spezifisch für die seltene Klasse.

Dies ist das Gegenteil von einer Überabtastung der seltenen Klasse, die normalerweise vorgeschlagen wird, um dieses Problem zu lösen. Überabtastung der seltenen Klasse oder Unterabtastung der anderen Klasse ist nützlich, um die Gesamtgenauigkeit zu verbessern.

Bitte, es wäre großartig, wenn Sie meine Gedanken bestätigen würden.

In diesem Sinne lautet die häufigste Frage, die sich einem unausgeglichenen Datensatz stellt,:

Sollte ich versuchen, einen Datensatz zu erhalten, der so viele seltene Datensätze enthält wie andere?

Meine Antwort wäre, falls Sie nach Genauigkeit suchen: OK. Sie können dies entweder durchführen, indem Sie seltenere Klassenbeispiele herausfinden oder einige Datensätze der anderen Klasse löschen.

Wenn Sie sich mit einer kostensensitiven Technik auf die seltene Klasse konzentrieren, würde ich antworten: Sie können nur ein selteneres Klassenbeispiel herausfinden, aber Sie sollten keine Datensätze der anderen Klasse löschen. In letzterem Fall können Sie den Klassifizierer nicht an die andere Klasse anpassen lassen, und der seltene Klassifizierungsfehler kann zunehmen.

Was würdest du antworten?

Simone
quelle
2
Das Herausfinden neuer Datensätze für seltene Klassen ist möglicherweise nicht möglich. Ich nehme an, die Daten sind auf diese Weise strukturiert, weil es teuer (Bioinformatik) oder riskant (Bankkredit) ist, seltenere Klassenereignisse zu erzeugen.
Steffen
Natürlich, aber es ist eine gemeinsame vorgeschlagene Lösung. Es ist jedoch richtig, dass Sie, wenn Sie seltenere Klassenbeispiele finden, auch andere Beispiele finden können. Denn das Trainingsset sollte eine repräsentative Stichprobe des Rekorduniversums sein. Mir scheint es, als würde man eine Überabtastung durchführen.
Simone

Antworten:

9

Das ist eine gute Frage. Persönlich würde ich antworten, dass es niemals Sinn macht, Daten wegzuwerfen (es sei denn, dies geschieht aus rechnerischen Gründen). Je mehr Daten Sie haben, desto besser kann Ihr Weltmodell sein. Daher würde ich vorschlagen, dass es ausreicht, die Kostenfunktion in geeigneter Weise für Ihre Aufgabe zu ändern. Wenn Sie beispielsweise an einer bestimmten seltenen Klasse interessiert sind, können Sie Fehlklassifizierungen dieser Klasse nur verteuern. Wenn Sie an einer ausgeglichenen Messung interessiert sind, ist beispielsweise die ausgeglichene Fehlerrate (der Durchschnitt der Fehler in jeder Klasse) oder der Matthews-Korrelationskoeffizient angemessen. Wenn Sie nur an Gesamtklassifizierungsfehlern interessiert sind, ist der traditionelle 0-1-Verlust .

Eine moderne Herangehensweise an das Problem ist die Verwendung von aktivem Lernen. Zum Beispiel Hospedales et al. (2011) "Seltene Klassen finden: Aktives Lernen mit generativen und diskriminativen Modellen, IEEE-Transaktionen zu Wissens- und Daten-Engineering" (TKDE 2011) . Ich glaube jedoch, dass diese Ansätze noch relativ wenig ausgereift sind.

tdc
quelle
Interessante Maßnahme Die Metthews eine für den Fall, dass man eine ausgewogene Maßnahme benötigt. Da wir jedoch keinen Datensatz löschen möchten, bevor Sie eine Stichprobe oder eine Änderung der Kostenfunktion durchführen, würden Sie das Dataset neu ausbalancieren und seltene Klassenbeispiele hinzufügen? Ich denke, die Antwort könnte NEIN sein. Denn solange Sie seltene Klassenbeispiele finden, können Sie andere Beispiele finden. Um ein ausgewogeneres Maß oder ein besseres seltenes Klassenleistungsmaß (z. B. F-Maß) zu erhalten, würde ich eine Technik (wie Stichproben oder Modifikation der Kosten) erst nach der Datenerfassungsphase durchführen. Sind Sie einverstanden?
Simone
Einverstanden ist, dass derartige Vorgänge nach der Datenerfassungsphase durchgeführt werden sollten.
tdc