Wann ist eine ordnungsgemäße Bewertungsregel eine bessere Schätzung der Verallgemeinerung in einer Klassifizierungseinstellung?

9

Ein typischer Ansatz zur Lösung eines Klassifizierungsproblems besteht darin, eine Klasse von Kandidatenmodellen zu identifizieren und dann die Modellauswahl unter Verwendung eines Verfahrens wie einer Kreuzvalidierung durchzuführen. Üblicherweise wählt man das Modell mit der höchsten Genauigkeit oder eine entsprechende Funktion , dass Encodierungen Problem spezifische Informationen, wie Fβ .

Angenommen, das Endziel besteht darin, einen genauen Klassifikator zu erstellen (wobei die Definition der Genauigkeit wiederum problemabhängig ist). In welchen Situationen ist es besser, die Modellauswahl mit einer geeigneten Bewertungsregel durchzuführen, als mit etwas Unangemessenem wie Genauigkeit, Präzision und Rückruf , etc? Lassen Sie uns außerdem Probleme der Modellkomplexität ignorieren und a priori davon ausgehen, dass alle Modelle gleich wahrscheinlich sind.

Bisher hätte ich nie gesagt. Wir wissen, dass die Klassifizierung im formalen Sinne ein einfacheres Problem ist als die Regression [1] [2], und wir können engere Grenzen für die erstere als für die spätere ableiten ( ). Darüber hinaus gibt es Fälle, in denen der Versuch, Wahrscheinlichkeiten genau abzugleichen, zu falschen Entscheidungsgrenzen oder einer Überanpassung führen kann . Aufgrund des Gesprächs hier und des Abstimmungsmusters der Community in Bezug auf solche Themen habe ich diese Ansicht jedoch in Frage gestellt.

  1. Devroye, Luc. Eine probabilistische Theorie der Mustererkennung. Vol. 31. Springer, 1996., Abschnitt 6.7
  2. Kearns, Michael J. und Robert E. Schapire. Effizientes verteilungsfreies Lernen probabilistischer Konzepte. Grundlagen der Informatik, 1990. Proceedings., 31. jährliches Symposium über. IEEE, 1990.

()S={(x1,y1),,(xn,yn)}xiXyi{1,,K}

Alt
quelle

Antworten:

4

t1π2π23

Frank Harrell
quelle
hHP(x,y)D(h(x)y)SD
2
Das Problem ist, dass die Klassifizierung (im Gegensatz zur Risikoprognose) eine unnötige Zweiteilung darstellt.
Frank Harrell
Ist es also sicher anzunehmen, dass die Antwort auf diese Frage niemals lautet, vorausgesetzt, das Ziel ist Bayes optimale Entscheidungsfindung in Bezug auf eine Nutzenfunktion und nicht genau übereinstimmende Wahrscheinlichkeiten?
Alt
Prob(Y=1|X=x)Prob(Y=1|X>c)
1
Schöne Diskussion. In einigen Fällen, z. B. bei einigen Spam-Detektoren, kann es zu einer "Unsicherheit" kommen. Ich beschäftige mich mehr mit Schwellenwerten bei Problemen wie der medizinischen Diagnose und Prognose.
Frank Harrell