Warum ist ein Cutoff von P> 0,5 für die logistische Regression nicht „optimal“?

13

VORWORT: Es interessiert mich nicht, ob ein Cutoff verwendet wird oder nicht oder wie man einen Cutoff auswählen sollte. Meine Frage ist rein mathematisch und aus Neugier.

Die logistische Regression modelliert die hintere bedingte Wahrscheinlichkeit von Klasse A gegenüber Klasse B und passt zu einer Hyperebene, in der die hinteren bedingten Wahrscheinlichkeiten gleich sind. Theoretisch habe ich verstanden, dass ein Klassifizierungspunkt von 0,5 die Gesamtfehler unabhängig vom eingestellten Gleichgewicht minimiert, da er die hintere Wahrscheinlichkeit modelliert (vorausgesetzt, Sie treffen durchgehend auf dasselbe Klassenverhältnis).

In meinem realen Beispiel erhalte ich eine sehr schlechte Genauigkeit, wenn ich P> 0,5 als Grenzwert für die Klassifizierung verwende (ungefähr 51% Genauigkeit). Als ich mir die AUC ansah, lag sie jedoch über 0,99. Daher habe ich mir verschiedene Grenzwerte angesehen und festgestellt, dass P> 0,6 eine Genauigkeit von 98% ergab (90% für die kleinere Klasse und 99% für die größere Klasse) - nur 2% der Fälle wurden falsch klassifiziert.

Die Klassen sind stark unausgeglichen (1: 9) und es handelt sich um ein hochdimensionales Problem. Ich habe die Klassen jedoch jedem Kreuzvalidierungssatz zu gleichen Teilen zugewiesen, damit es keinen Unterschied zwischen dem Klassengleichgewicht zwischen Modellanpassung und Vorhersage gibt. Ich habe auch versucht, dieselben Daten aus der Modellanpassung und in Vorhersagen zu verwenden, und es ist dasselbe Problem aufgetreten.

Ich bin an dem Grund interessiert, warum 0,5 Fehler nicht minimiert. Ich dachte, dies wäre beabsichtigt, wenn das Modell durch Minimieren des Kreuzentropieverlusts angepasst wird.

Hat jemand eine Rückmeldung, warum dies passiert? Kann jemand erklären, was passiert, wenn ja?

felix000
quelle
Scortchi, könnten Sie vielleicht etwas genauer wissen, welche Frage zu den Cutoffs Ihrer Meinung nach relevant ist? Ich habe die relevante Frage oder Antwort weder vor dem Posten noch jetzt gesehen.
Felix000
Entschuldigung, ich habe nicht gemeint, dass alle Ihre Fragen beantwortet haben, aber ich dachte, dass sie alle relevant sind, um vorzuschlagen, dass die Genauigkeit bei keinem Cut-Off als Leistungsmaß verwendet wird oder zumindest kein willkürlicher Cut-Off, der nicht von einem Versorger berechnet wurde Funktion.
Scortchi

Antworten:

16

Sie müssen keine vorhergesagten Kategorien aus einem logistischen Regressionsmodell abrufen. Es kann gut bleiben mit vorhergesagten Wahrscheinlichkeiten. Wenn Sie vorhergesagt Kategorien tun, sollten Sie nicht diese Informationen verwenden, um etwas anderes zu tun, als zu sagen, dass diese Beobachtung am besten in diese Kategorie eingeteilt werden kann. Beispielsweise sollten Sie zur Auswahl eines Modells nicht "Genauigkeit" / Prozent korrekt verwenden.

.50N=1009949.50199%

.5050%.50

gung - Wiedereinsetzung von Monica
quelle
Hallo, danke für deine Erklärung, aber ich verstehe das Beispiel mit dem Intercept-Only-Modell nicht. Mit dem Intercept-Only-Modell haben Sie für alle Beispiele 0,99 und daher eine Genauigkeit von 99%, wenn Sie einen beliebigen Schwellenwert annehmen.
Abcdaire
0

Ich denke, das könnte mehrere Gründe haben:

  1. Da Ihre Daten möglicherweise nicht linear sind, führt das lineare Hinzufügen der Gewichte möglicherweise nicht immer zu korrekten Wahrscheinlichkeiten
  2. Variablen sind eine Mischung aus guten Prädiktoren und schwachen Prädiktoren. Eine Population mit einem Wert von etwa 0,5 ist auf schwache Prädiktoren oder einen geringeren Effekt starker Prädiktoren zurückzuführen. Wenn Sie nach oben gehen, erhalten Sie Menschen, für die die Wirkung von Prädiktoren stark ist

Möglicherweise müssen Sie also irgendwann mit dem Grenzwert herumspielen, um die gewünschte Ausgabe wie Präzision, Genauigkeit usw. zu maximieren. Da die meisten Bevölkerungsgruppen nicht sehr homogen sind.

user124690
quelle