Ich versuche, den Gradienten für ein Dataset mit einer Ereignisrate von etwa 1% mithilfe von Enterprise Miner zu erhöhen, aber es wird keine Ausgabe erzeugt. Meine Frage ist, ob es sich um einen auf Entscheidungsbäumen basierenden Ansatz handelt, ob es überhaupt richtig ist, die Gradientenverstärkung bei einem so niedrigen Ereignis zu verwenden.
boosting
unbalanced-classes
rare-events
gradient
user2542275
quelle
quelle
Antworten:
(Um eine kurze Antwort darauf zu geben :)
Es ist in Ordnung, einen Algorithmus zur Erhöhung des Gradienten zu verwenden, wenn Sie mit einem unausgeglichenen Datensatz arbeiten. Beim Umgang mit einem stark unausgeglichenen Datensatz ist es viel relevanter, die Eignung der verwendeten Metrik in Frage zu stellen. Wir sollten möglicherweise Metriken wie Genauigkeit oder Rückruf vermeiden, die auf willkürlichen Schwellenwerten basieren, und uns für Metriken wie AUCPR- oder Brier-Scoring entscheiden, die ein genaueres Bild liefern - siehe den ausgezeichneten CV.SE-Thread zu: Warum ist Genauigkeit nicht das ? beste Maßnahme zur Bewertung von Klassifizierungsmodellen? für mehr). In ähnlicher Weise könnten wir möglicherweise einen kostensensitiven Ansatz verfolgen, indem wir unterschiedliche Fehlklassifizierungskosten zuweisen (siehe z. B. Masnadi-Shirazi & Vasconcelos (2011) Cost-Sensitive Boosting)Für eine allgemeine Ansicht und vorgeschlagene Änderungen an bekannten Boosting-Algorithmen oder für eine besonders interessante Anwendung mit einem einfacheren Ansatz überprüfen Sie den Higgs-Boson-Challenge-Bericht für den XGBoost-Algorithmus. Chen & He (2015) Higgs Boson Discovery mit Boosted Trees liefert weitere Details).
Es ist auch erwähnenswert, dass wir, wenn wir einen probabilistischen Klassifikator (wie GBMs) verwenden, aktiv die Kalibrierung der zurückgegebenen Wahrscheinlichkeiten untersuchen können / sollten (siehe z. B. Zadrozny & Elkan (2002) Transformieren von Klassifikatorwerten in genaue Wahrscheinlichkeitsschätzungen für mehrere Klassen oder Kull et al. 2017) Beta-Kalibrierung: Eine fundierte und einfach zu implementierende Verbesserung der logistischen Kalibrierung für binäre Klassifikatoren , um die Leistung unserer Lernenden potenziell zu steigern. Insbesondere bei der Arbeit mit unausgeglichenen Daten kann eine angemessene Erfassung von Tendenzänderungen aussagekräftiger sein als die einfache Kennzeichnung der Daten. Insofern könnten einige argumentieren, dass kostensensitive Ansätze am Ende nicht so vorteilhaft sind (siehe z. B. Nikolaou et al. (2016)).Kostensensitive Boosting-Algorithmen: Brauchen wir sie wirklich?). Um den ursprünglichen Punkt noch einmal zu wiederholen: Boosting-Algorithmen sind für unausgeglichene Daten nicht von Natur aus schlecht und können in bestimmten Fällen eine sehr wettbewerbsfähige Option darstellen.
quelle