Ich habe Alexandru Niculescu-Mizil und Rich Caruanas Artikel " Erhalten kalibrierter Wahrscheinlichkeiten durch Boosting " und die Diskussion in diesem Thread gelesen . Ich habe jedoch immer noch Probleme beim Verstehen und Implementieren der logistischen oder Plattschen Skalierung , um die Ausgabe meines Multi-Class-Boosting-Klassifikators zu kalibrieren (sanftes Boosten mit Entscheidungsstümpfen).
Ich bin ein wenig mit verallgemeinerten linearen Modellen vertraut und glaube zu verstehen, wie die logistischen und Plattschen Kalibrierungsmethoden im Binärfall funktionieren, bin mir aber nicht sicher, wie ich die im Artikel beschriebene Methode auf den Mehrklassenfall übertragen kann.
Der von mir verwendete Klassifikator gibt Folgendes aus:
- j i = Anzahl der Stimmen, die der Klassifikator für die Klasse für die Probe , die klassifiziert wird
- = Geschätzte Klasse
An dieser Stelle habe ich folgende Fragen:
F1: Muss ich ein multinomiales Logit verwenden, um Wahrscheinlichkeiten abzuschätzen? oder kann ich dies trotzdem mit logistischer Regression tun (z. B. in einem 1-gegen-alle- Modus)?
F2: Wie soll ich die Zwischenzielvariablen (z. B. wie bei der Plattschen Skalierung) für den Mehrklassenfall definieren?
F3: Ich verstehe, dass dies eine Menge zu fragen ist, aber wäre jemand bereit, den Pseudocode für dieses Problem zu skizzieren? (Aus praktischen Gründen interessiere ich mich für eine Lösung in Matlab).
quelle
Antworten:
Dies ist auch für mich ein Thema von praktischem Interesse, deshalb habe ich ein wenig recherchiert. Hier sind zwei Artikel eines Autors, die häufig als Referenz aufgeführt werden.
Der Kern der hier befürworteten Technik besteht darin, das Mehrklassenproblem auf eine binäre zu reduzieren (z. B. eins gegen den Rest, AKA eins gegen alles). Verwenden Sie eine Technik wie Platt (vorzugsweise ein Testset), um die binären Scores / Wahrscheinlichkeiten und zu kalibrieren Kombinieren Sie diese dann mit einer Technik, wie sie in den Abhandlungen diskutiert wird (eine ist eine Erweiterung eines Prozesses von Hastie et al. zur "Kopplung"). Im ersten Link wurden die besten Ergebnisse gefunden, indem einfach die binären Wahrscheinlichkeiten auf die Summe von 1 normiert wurden.
Ich würde gerne andere Ratschläge hören und wenn einer dieser Tecnhiqes in R umgesetzt wurde.
quelle