Ein typischer Ansatz zur Lösung eines Klassifizierungsproblems besteht darin, eine Klasse von Kandidatenmodellen zu identifizieren und dann die Modellauswahl unter Verwendung eines Verfahrens wie einer Kreuzvalidierung durchzuführen. Üblicherweise wählt man das Modell mit der höchsten Genauigkeit oder eine entsprechende Funktion , dass Encodierungen Problem spezifische Informationen, wie .
Angenommen, das Endziel besteht darin, einen genauen Klassifikator zu erstellen (wobei die Definition der Genauigkeit wiederum problemabhängig ist). In welchen Situationen ist es besser, die Modellauswahl mit einer geeigneten Bewertungsregel durchzuführen, als mit etwas Unangemessenem wie Genauigkeit, Präzision und Rückruf , etc? Lassen Sie uns außerdem Probleme der Modellkomplexität ignorieren und a priori davon ausgehen, dass alle Modelle gleich wahrscheinlich sind.
Bisher hätte ich nie gesagt. Wir wissen, dass die Klassifizierung im formalen Sinne ein einfacheres Problem ist als die Regression [1] [2], und wir können engere Grenzen für die erstere als für die spätere ableiten ( ). Darüber hinaus gibt es Fälle, in denen der Versuch, Wahrscheinlichkeiten genau abzugleichen, zu falschen Entscheidungsgrenzen oder einer Überanpassung führen kann . Aufgrund des Gesprächs hier und des Abstimmungsmusters der Community in Bezug auf solche Themen habe ich diese Ansicht jedoch in Frage gestellt.
- Devroye, Luc. Eine probabilistische Theorie der Mustererkennung. Vol. 31. Springer, 1996., Abschnitt 6.7
- Kearns, Michael J. und Robert E. Schapire. Effizientes verteilungsfreies Lernen probabilistischer Konzepte. Grundlagen der Informatik, 1990. Proceedings., 31. jährliches Symposium über. IEEE, 1990.