Kategorisierung von Ansätzen zum Umgang mit unausgeglichenen Klassen

8

Was ist der beste Weg, um die Ansätze zu kategorisieren, die entwickelt wurden, um das Problem der Ungleichgewichtsklassen zu lösen?

Dieser Artikel kategorisiert sie in:

  1. Vorverarbeitung: umfasst Oversampling, Undersampling und Hybridmethoden,
  2. Kostensensitives Lernen: Umfasst direkte Methoden und Meta-Lernen, das letztere weiter in Schwellenwerte und Stichproben unterteilt.
  3. Ensemble-Techniken: Umfasst kostensensitive Ensembles und Datenvorverarbeitung in Verbindung mit Ensemble-Lernen.

Die zweite Klassifikation:

  1. Datenvorverarbeitung: Beinhaltet Verteilungsänderungen und die Gewichtung des Datenraums. Ein-Klassen-Lernen wird als Verteilungsänderung betrachtet.
  2. Spezielle Lernmethoden
  3. Vorhersage Nachbearbeitung: Beinhaltet die Schwellenwertmethode und die kostensensitive Nachbearbeitung
  4. Hybridmethoden:

Der dritte Artikel :

  1. Methoden auf Datenebene
  2. Methoden auf Algorithmenebene
  3. Hybridmethoden

Die letzte Klassifizierung betrachtet die Leistungsanpassung auch als unabhängigen Ansatz.

Danke im Voraus.

Ebrahimi
quelle
4
Die sehr kurze Antwort: Alle sind die besten und alle die schlechtesten! Klassifizierung und Data Mining sind im Allgemeinen sehr kontextsensitiv. In dieser Domäne gibt es keine einheitliche Lösung. Übrigens ist der beste Ansatz in sehr allgemeinen Begriffen normalerweise eine Kombination der besten Entscheidungen auf verschiedenen Ebenen, von der Merkmalsextraktion bis zum Bewertungsschema.
Mok
@mok Danke. Könnten Sie mir bitte das Klassengewicht in den Klassifikatoren von sklearn mitteilen, z. B. wird die logistische Regression in welche Kategorie eingeteilt?
Ebrahimi
@ebrahimi, es sollte in die Algorithmenebene fallen, da nur die Gewichte gemäß einem übergebenen Wörterbuch angepasst oder gemäß den Werten von y (Klasse) berechnet (abgeleitet) werden und die Daten unberührt bleiben.
Sanjay Krishna
@ SanjayKrishna Vielen Dank. Bei der ersten Kategorisierung fällt sie in kostensensitives Lernen, nicht wahr? Im Falle der zweiten Taxonomie würde sie auch in die dritte Kategorie eingeteilt, dh in die kostensensitive Nachbearbeitung. ist es wahr? Die zweite Antwort darauf: stackoverflow.com/questions/32492550/… ist ebenfalls nützlich.
Ebrahimi

Antworten:

5

So wie ich das sehe, stimmen alle drei Kategorisierungen in vielen Punkten überein. Beispielsweise haben alle drei eine Kategorie für Vorverarbeitungsschritte.

Ich würde mich eher auf die dritte Kategorisierung einigen, da sie allgemeiner ist und mehr Dinge umfasst.

  • Die Kategorie auf Datenebene umfasst alle Vorverarbeitungsschritte, die sich mit Klassenungleichgewichten befassen (z. B. Über- / Unterabtastung).
  • Es könnte davon ausgegangen werden, dass die Algorithmenebene die zweiten Kategorien der ersten beiden Artikel umfasst. Jede Änderung des Algorithmus, der sich mit dem Klassenungleichgewicht befasst, würde hier erfolgen (z. B. Klassengewichtung).
  • Schließlich eine Hybridkategorie zur Kombination der beiden.

Das einzige, was in den ersten beiden Artikeln fehlt, sind die Nachbearbeitungsschritte, die, um ehrlich zu sein, in der Praxis nicht so oft angewendet werden wie die anderen.

Ich bins Mario
quelle