Okay, ich denke, ich habe eine ausreichend gute Stichprobe, unter Berücksichtigung der 20: 1-Faustregel: eine ziemlich große Stichprobe (N = 374) für insgesamt 7 Kandidaten-Prädiktorvariablen.
Mein Problem ist das Folgende: Unabhängig davon, welchen Satz von Prädiktorvariablen ich verwende, werden die Klassifikationen nie besser als eine Spezifität von 100% und eine Sensitivität von 0%. Ungeachtet der Unzufriedenheit könnte dies angesichts der Menge der möglichen Prädiktorvariablen (von denen ich nicht abweichen kann) das bestmögliche Ergebnis sein.
Aber ich konnte nicht anders, als zu glauben, ich könnte es besser machen, und so bemerkte ich, dass die Kategorien der abhängigen Variablen ziemlich ungleichmäßig ausgeglichen waren, fast 4: 1. Könnte eine ausgewogenere Teilstichprobe die Klassifizierung verbessern?
Antworten:
Balance im Trainingsset
Bei logistischen Regressionsmodellen wirken sich unausgeglichene Trainingsdaten nur auf die Schätzung des Modellabschnitts aus (obwohl dies natürlich alle vorhergesagten Wahrscheinlichkeiten verzerrt, was wiederum Ihre Vorhersagen beeinträchtigt). Glücklicherweise ist die Korrektur des Abschnitts unkompliziert: Wenn Sie den wahren Anteil von Nullen und Einsen kennen oder erraten können und die Anteile im Trainingssatz kennen, können Sie eine Korrektur für seltene Ereignisse auf den Abschnitt anwenden. Details finden Sie in King and Zeng (2001) [ PDF ].
Diese "Selten-Ereignis-Korrekturen" wurden für Fallkontrollforschungsdesigns entwickelt, die hauptsächlich in der Epidemiologie verwendet werden und bei denen Fälle durch Auswahl einer festen, in der Regel ausgeglichenen Anzahl von 0 Fällen und 1 Fällen ausgewählt werden und anschließend die resultierende Stichprobenauswahlverzerrung korrigiert werden muss. In der Tat könnten Sie Ihren Klassifikator auf die gleiche Weise trainieren. Wählen Sie eine ausgewogene Stichprobe aus und korrigieren Sie den Achsenabschnitt, um die Tatsache zu berücksichtigen, dass Sie für die abhängige Variable ausgewählt haben, um mehr über seltenere Klassen zu erfahren, als eine zufällige Stichprobe Ihnen sagen könnte.
Vorhersagen treffen
Zu einem verwandten, aber eindeutigen Thema: Vergessen Sie nicht, dass Sie sich intelligent an die Schwelle halten sollten, um Vorhersagen zu treffen. Es ist nicht immer am besten, 1 vorherzusagen, wenn die Modellwahrscheinlichkeit größer als 0,5 ist. Eine andere Schwelle kann besser sein. Zu diesem Zweck sollten Sie die Receiver Operating Characteristic (ROC) -Kurven Ihres Klassifikators untersuchen und nicht nur den prädiktiven Erfolg mit einem Standardwahrscheinlichkeitsschwellenwert.
quelle
predict
und berechnen Sie für jeden Wert, ob er größer als der neue Schwellenwert ist.Das Problem ist nicht, dass die Klassen per se unausgewogen sind, sondern dass es möglicherweise nicht genügend Muster gibt, die zu der Minderheitenklasse gehören, um ihre Verteilung angemessen darzustellen. Dies bedeutet, dass das Problem für jeden Klassifikator auftreten kann (auch wenn Sie ein synthetisches Problem haben und wissen, dass Sie das wahre Modell haben), nicht nur für die logistische Regression. Das Gute daran ist, dass das Problem des "Klassenungleichgewichts" in der Regel verschwindet, wenn mehr Daten verfügbar werden. Davon abgesehen ist 4: 1 nicht ganz so unausgewogen.
Wenn Sie einen ausgeglichenen Datensatz verwenden, ist es wichtig, sich daran zu erinnern, dass die Ausgabe des Modells jetzt eine Schätzung der a-posteriori-Wahrscheinlichkeit ist, vorausgesetzt, die Klassen sind gleich häufig, und dass Sie das Modell möglicherweise zu weit verzerren. Ich würde die Muster, die zu jeder Klasse gehören, unterschiedlich gewichten und die Gewichte durch Minimieren der Querentropie auf einem Testset mit den korrekten Betriebsklassenfrequenzen auswählen.
quelle
If you use a balanced dataset, the important thing is to remember that the output of the model is now an estimate of the a-posteriori probability
Denken Sie über die zugrunde liegenden Verteilungen der beiden Beispiele nach. Haben Sie genug Probe, um beide Teilpopulationen ohne große Verzerrung in der kleineren Probe zu messen?
Siehe hier für eine längere Erklärung.
https://statisticalhorizons.com/logistic-regression-for-rare-events
quelle