Ich habe in letzter Zeit viel über das "Klassenungleichgewichtsproblem" beim maschinellen / statistischen Lernen nachgedacht und gehe immer tiefer in das Gefühl ein, dass ich einfach nicht verstehe, was los ist.
Lassen Sie mich zuerst meine Begriffe definieren (oder versuchen, sie zu definieren):
Das Problem des Klassenungleichgewichts beim maschinellen / statistischen Lernen ist die Beobachtung, dass einige Algorithmen für die binäre Klassifizierung (*) nicht gut funktionieren, wenn das Verhältnis von 0 Klassen zu 1 Klassen stark verzerrt ist.
Also, in den oben genannten, zum Beispiel, wenn es ein-hundert Klassen für jede einzelne - Klasse, würde ich sagen , die Klasse Ungleichgewicht ist zu oder .
Den meisten Aussagen zu dem Problem, die ich gesehen habe, fehlt das, was ich für eine ausreichende Qualifikation halte (welche Modelle kämpfen, wie unausgewogen ein Problem ist), und dies ist eine Quelle meiner Verwirrung.
Eine Übersicht über die Standardtexte im maschinellen / statistischen Lernen ergibt wenig:
- Elemente des statistischen Lernens und der Einführung in das statistische Lernen enthalten kein "Klassenungleichgewicht" im Index.
Maschinelles Lernen für Predictive Data Analytics enthält im Index auch kein "Klassenungleichgewicht".
Murphy Machine Learning: Eine probabilistische Perspektive hat „Klasse Ungleichgewicht * im Index enthalten Der Verweis auf einen Abschnitt über die SVM ist ist, wo ich die folgende verlockende Kommentar vorhanden.:
Es sei daran erinnert, dass all diese Schwierigkeiten und die Fülle von Heuristiken, die vorgeschlagen wurden, um sie zu beheben, im Wesentlichen darauf zurückzuführen sind, dass SVMs Unsicherheiten nicht anhand von Wahrscheinlichkeiten modellieren, sodass ihre Output-Scores nicht klassenübergreifend vergleichbar sind.
Dieser Kommentar steht in Einklang mit meiner Intuition und Erfahrung: Bei meinem vorherigen Job haben wir routinemäßig logistische Regressionen und gradientenverstärkte Baummodelle (um die Wahrscheinlichkeit von binomialen Logarithmen zu minimieren) mit unausgeglichenen Daten (in der Größenordnung eines Klassenungleichgewichts von ) in Einklang gebracht offensichtliche Probleme bei der Leistung.
Ich habe (irgendwo) gelesen, dass auf Klassifikationsbäumen basierende Modelle (Bäume selbst und zufällige Wälder) ebenfalls unter dem Problem des Klassenungleichgewichts leiden. Dies trübt das Wasser ein wenig, Bäume geben in gewisser Weise Wahrscheinlichkeiten zurück: Der Abstimmungsdatensatz für die Zielklasse in jedem Endknoten des Baums.
Um es zusammenzufassen, ich bin wirklich auf der Suche nach einem konzeptionellen Verständnis der Kräfte, die zum Problem des Klassenungleichgewichts führen (falls vorhanden).
- Tun wir uns das mit schlecht gewählten Algorithmen und faulen Standardklassifizierungsschwellen?
- Verschwindet es, wenn wir immer Wahrscheinlichkeitsmodelle anpassen, die die richtigen Bewertungskriterien optimieren? Anders gesagt, ist die Ursache einfach eine schlechte Wahl der Verlustfunktion, dh die Bewertung der Vorhersagekraft eines Modells auf der Grundlage strenger Klassifizierungsregeln und der Gesamtgenauigkeit?
- Wenn ja, sind Modelle, die die richtigen Bewertungsregeln nicht optimieren, dann nutzlos (oder zumindest weniger nützlich)?
(*) Mit Klassifizierung meine ich jedes statistische Modell, das an binäre Antwortdaten angepasst ist. Ich gehe nicht davon aus, dass mein Ziel eine schwere Aufgabe für die eine oder andere Klasse ist, auch wenn es so sein mag.
quelle
poor choice of loss function
in meine Liste aufzunehmen. Glauben Sie also, dass dies auch für ordnungsgemäße Bewertungsregeln als Verlustfunktionen zutrifft?Antworten:
Ein Eintrag aus der Enzyklopädie des maschinellen Lernens ( https://cling.csd.uwo.ca/papers/cost_sensitive.pdf ) erklärt hilfreich, dass das, was als "Klassenungleichgewichtsproblem" bezeichnet wird, besser als drei separate Probleme verstanden wird:
Die Autoren erklären:
Wie Murphy andeutet, ist die Verwendung von unausgeglichenen Klassen nicht grundsätzlich problematisch, vorausgesetzt, Sie vermeiden diese drei Fehler. Modelle, die posteriore Wahrscheinlichkeiten liefern, erleichtern die Vermeidung von Fehlern (1) als diskriminante Modelle wie SVM, da Sie mit ihnen Rückschlüsse von Entscheidungen trennen können. (Weitere Informationen zu diesem letzten Punkt finden Sie in Bischofs Abschnitt 1.5.4 Schlussfolgerung und Entscheidung .)
Hoffentlich hilft das.
quelle
Alles, was eine Optimierung zur Minimierung einer Verlustfunktion beinhaltet, ergibt, wenn es ausreichend konvex ist, eine Lösung, die ein globales Minimum dieser Verlustfunktion darstellt. Ich sage "ausreichend konvex", da tiefe Netzwerke nicht im Großen und Ganzen konvex sind, sondern in der Praxis angemessene Mindestwerte angeben, mit sorgfältiger Auswahl der Lernrate usw.
Daher wird das Verhalten solcher Modelle durch das definiert, was wir in die Verlustfunktion einfügen.
Nehmen wir nun an, wir haben eine Verlustfunktion, die lautet:
Zehnmal niedriger als der Verlust, wenn der Schwellenwert so eingestellt wird, dass jeder Klasse der gleiche Erinnerungswert und die gleiche Genauigkeit zugewiesen werden.
Alternativ können wir den Datensatz durch 99-maliges Klonen jedes B-Beispiels modifizieren, wodurch auch die Verlustfunktion an einer Position, die sich von unserer früheren idealen Schwelle unterscheidet, kein Minimum mehr aufweist.
quelle
FP
TP
Beachten Sie, dass Ein-Klassen-Klassifizierer kein Ungleichgewichtsproblem haben, da sie jede Klasse unabhängig von allen anderen Klassen betrachten und "Nicht-Klassen" bewältigen können, indem sie sie einfach nicht modellieren. (Möglicherweise haben sie natürlich ein Problem mit zu kleinen Stichproben).
Viele Probleme, die von Ein-Klassen-Klassifizierern besser modelliert würden, führen zu unklaren Modellen, wenn diskriminative Ansätze verwendet werden, von denen "Klassenungleichgewichtsprobleme" ein Symptom sind.
Betrachten Sie als Beispiel ein Produkt, das gut verkauft werden kann oder nicht. Eine solche Situation ist in der Regel gekennzeichnet durch
Somit ist die Klasse "gut" gut definiert, während die Klasse "nicht gut" schlecht definiert ist. Wenn eine solche Situation von einem diskriminierenden Klassifikator modelliert wird, haben wir ein zweifaches "Ungleichgewichtsproblem": Die kleine Stichprobengröße der Klasse "nicht gut" hat nicht nur eine noch geringere Stichprobendichte (weniger Stichproben verteilt auf a größerer Teil des Merkmalsraums).
Diese Art von "Klassenungleichgewichtsproblem" verschwindet, wenn die Aufgabe als eine Klassenerkennung der genau definierten "guten" Klasse modelliert wird.
quelle