Wie in anderen Antworten richtig angegeben, handelt es sich bei den angegebenen Wahrscheinlichkeiten aus Modellen wie logistische Regression und naive Bayes um Schätzungen der Klassenwahrscheinlichkeit. Wenn das Modell wahr wäre, wäre die Wahrscheinlichkeit tatsächlich die Wahrscheinlichkeit einer korrekten Klassifizierung.
Es ist jedoch sehr wichtig zu verstehen, dass dies irreführend sein kann, da das Modell geschätzt wird und daher kein korrektes Modell ist. Es gibt mindestens drei Probleme.
- Unsicherheit von Schätzungen.
- Modell Fehlspezifikation.
- Vorspannen.
Die Unsicherheit ist nur die allgegenwärtige Tatsache, dass die Wahrscheinlichkeit nur eine Schätzung ist. Ein Konfidenzintervall der geschätzten Klassenwahrscheinlichkeit könnte eine Vorstellung von der Unsicherheit (der Klassenwahrscheinlichkeit, nicht der Klassifikation) geben.
--
Wenn das Schätzverfahren (absichtlich) eine voreingenommene Schätzung liefert , sind die Klassenwahrscheinlichkeiten falsch. Das sehe ich bei Regularisierungsmethoden wie Lasso und Ridge für die logistische Regression. Während eine kreuzvalidierte Wahl der Regularisierung zu einem Modell mit guter Klassifizierungsleistung führt, werden die daraus resultierenden Klassenwahrscheinlichkeiten in Testfällen deutlich unterschätzt (zu nahe an 0,5). Das ist nicht unbedingt schlecht, aber wichtig zu wissen.