VORWORT: Es interessiert mich nicht, ob ein Cutoff verwendet wird oder nicht oder wie man einen Cutoff auswählen sollte. Meine Frage ist rein mathematisch und aus Neugier.
Die logistische Regression modelliert die hintere bedingte Wahrscheinlichkeit von Klasse A gegenüber Klasse B und passt zu einer Hyperebene, in der die hinteren bedingten Wahrscheinlichkeiten gleich sind. Theoretisch habe ich verstanden, dass ein Klassifizierungspunkt von 0,5 die Gesamtfehler unabhängig vom eingestellten Gleichgewicht minimiert, da er die hintere Wahrscheinlichkeit modelliert (vorausgesetzt, Sie treffen durchgehend auf dasselbe Klassenverhältnis).
In meinem realen Beispiel erhalte ich eine sehr schlechte Genauigkeit, wenn ich P> 0,5 als Grenzwert für die Klassifizierung verwende (ungefähr 51% Genauigkeit). Als ich mir die AUC ansah, lag sie jedoch über 0,99. Daher habe ich mir verschiedene Grenzwerte angesehen und festgestellt, dass P> 0,6 eine Genauigkeit von 98% ergab (90% für die kleinere Klasse und 99% für die größere Klasse) - nur 2% der Fälle wurden falsch klassifiziert.
Die Klassen sind stark unausgeglichen (1: 9) und es handelt sich um ein hochdimensionales Problem. Ich habe die Klassen jedoch jedem Kreuzvalidierungssatz zu gleichen Teilen zugewiesen, damit es keinen Unterschied zwischen dem Klassengleichgewicht zwischen Modellanpassung und Vorhersage gibt. Ich habe auch versucht, dieselben Daten aus der Modellanpassung und in Vorhersagen zu verwenden, und es ist dasselbe Problem aufgetreten.
Ich bin an dem Grund interessiert, warum 0,5 Fehler nicht minimiert. Ich dachte, dies wäre beabsichtigt, wenn das Modell durch Minimieren des Kreuzentropieverlusts angepasst wird.
Hat jemand eine Rückmeldung, warum dies passiert? Kann jemand erklären, was passiert, wenn ja?
Antworten:
Sie müssen keine vorhergesagten Kategorien aus einem logistischen Regressionsmodell abrufen. Es kann gut bleiben mit vorhergesagten Wahrscheinlichkeiten. Wenn Sie vorhergesagt Kategorien tun, sollten Sie nicht diese Informationen verwenden, um etwas anderes zu tun, als zu sagen, dass diese Beobachtung am besten in diese Kategorie eingeteilt werden kann. Beispielsweise sollten Sie zur Auswahl eines Modells nicht "Genauigkeit" / Prozent korrekt verwenden.
quelle
Ich denke, das könnte mehrere Gründe haben:
Möglicherweise müssen Sie also irgendwann mit dem Grenzwert herumspielen, um die gewünschte Ausgabe wie Präzision, Genauigkeit usw. zu maximieren. Da die meisten Bevölkerungsgruppen nicht sehr homogen sind.
quelle