Ist es möglich, ein logistisches Regressionsmodell überzurüsten? Ich habe in einem Video gesehen, dass meine Fläche unter der ROC-Kurve höher als 95% ist, dann ist es sehr wahrscheinlich, dass sie überpasst wird. Kann ein logistisches Regressionsmodell jedoch überpasst werden?
logistic
overfitting
regression-strategies
carlosedubarreto
quelle
quelle
Antworten:
Ja, Sie können logistische Regressionsmodelle überarbeiten. Aber zuerst möchte ich den Punkt über die AUC (Bereich unter der Betriebskennlinie des Empfängers) ansprechen: Es gibt keine universellen Faustregeln für die AUC, niemals jemals.
Was die AUC ist, ist die Wahrscheinlichkeit, dass ein zufällig abgetastetes Positiv (oder Fall) einen höheren Markerwert als ein Negativ (oder eine Kontrolle) hat, da die AUC der U-Statistik mathematisch äquivalent ist.
Was die AUC nicht ist, ist ein standardisiertes Maß für die Vorhersagegenauigkeit. Hochdeterministische Ereignisse können AUCs mit einem einzelnen Prädiktor von 95% oder mehr aufweisen (wie in der kontrollierten Mechatronik, Robotik oder Optik). Einige komplexe Modelle zur multivariablen logistischen Risikoprognose haben AUCs von 64% oder weniger, wie die Brustkrebsrisikoprognose respektabel hohe Vorhersagegenauigkeit.
Ein vernünftiger AUC-Wert wird wie bei einer Leistungsanalyse festgelegt, indem Kenntnisse über den Hintergrund und die Ziele einer Apriori- Studie gesammelt werden . Der Arzt / Ingenieur beschreibt, was sie wollen, und Sie als Statistiker legen einen AUC-Zielwert für Ihr Vorhersagemodell fest. Dann beginnt die Untersuchung.
Es ist in der Tat möglich, ein logistisches Regressionsmodell überzurüsten. Abgesehen von der linearen Abhängigkeit (wenn die Modellmatrix einen mangelhaften Rang hat) können Sie auch eine perfekte Konkordanz haben, oder das ist die Darstellung angepasster Werte gegen Y, die Fälle und Kontrollen perfekt unterscheidet. In diesem Fall sind Ihre Parameter nicht konvergiert, sondern befinden sich einfach irgendwo im Grenzbereich, der eine Wahrscheinlichkeit von ergibt . Manchmal ist die AUC jedoch nur zufällig 1.∞
Es gibt eine andere Art von Verzerrung, die dadurch entsteht, dass dem Modell zu viele Prädiktoren hinzugefügt werden, und das ist eine kleine Stichprobenverzerrung. Im Allgemeinen tendieren die logarithmischen Quotenverhältnisse eines logistischen Regressionsmodells aufgrund der Nichtkollabierbarkeit des Quotenverhältnisses und der Anzahl der Zellen von Null zu einem voreingenommenen Faktor von . In der Folgerung wird dies unter Verwendung einer bedingten logistischen Regression behandelt, um Verwechslungs- und Präzisionsvariablen in geschichteten Analysen zu kontrollieren. In der Vorhersage sind Sie jedoch SooL. Es gibt keine verallgemeinerbare Vorhersage, wenn Sie p ≫ n π ( 1 - π ) haben ( π = Prob ( Y = 1 )2β p≫nπ(1−π) π=Prob(Y=1) ), weil Sie zu diesem Zeitpunkt garantiert die "Daten" und nicht den "Trend" modelliert haben. Hochdimensional (großVorhersage p ) von binären Ergebnissen ist mit maschinellen Lernmethoden besser möglich. Das Verständnis der linearen Diskriminanzanalyse, der partiellen kleinsten Quadrate, der Vorhersage des nächsten Nachbarn, des Boosting und der Zufallswälder wäre ein sehr guter Ausgangspunkt.p
quelle
Mit einfachen Worten: Ein überarbeitetes logistisches Regressionsmodell weist eine große Varianz auf, was bedeutet, dass sich die Entscheidungsgrenzen weitgehend ändern, wenn sich die Größe nur geringfügig ändert. Betrachten Sie folgendes Bild: Das am weitesten rechts stehende ist ein überarbeitetes Logistikmodell, dessen Entscheidungsgrenzen groß sind. von Höhen und Tiefen, während die mittlere gerade fit ist, hat es moderate Varianz und moderate Voreingenommenheit. Das linke ist underfit, es hat eine hohe Vorspannung, aber eine sehr geringe Varianz. eins noch_ Ein überangepasstes Regressionsmodell verfügt über zu viele Funktionen, während ein unterangepasstes Modell über weniger Funktionen verfügt. von Funktionen.
quelle
Sie können mit jeder Methode überanpassen, auch wenn Sie der gesamten Population entsprechen (wenn die Population endlich ist). Es gibt zwei allgemeine Lösungen für das Problem: (1) Bestrafung der maximalen Wahrscheinlichkeit (Gratregression, elastisches Netz, Lasso usw.) und (2) Verwendung informativer Prioritäten mit einem Bayes'schen Modell.
quelle
Gibt es ein Modell, abgesehen von der logistischen Regression, dass eine Überanpassung nicht möglich ist?
Eine Überanpassung entsteht grundsätzlich, weil Sie zu einer Stichprobe passen und nicht zur gesamten Population. Artefakte Ihrer Stichprobe können wie Merkmale der Population erscheinen und sind daher keine überpassenden Verletzungen.
Es ist eine Frage der äußeren Gültigkeit. Verwenden Sie nur die Stichprobe, um ein Modell zu erhalten, mit dem Sie die beste Leistung für die reale Population erzielen, die Sie nicht sehen können.
Sicher, einige Modellformen oder -verfahren passen sich mit größerer Wahrscheinlichkeit an als andere, aber kein Modell ist jemals wirklich immun gegen Überanpassung, oder?
Selbst eine Validierung außerhalb der Stichprobe, Regularisierungsverfahren usw. können nur vor einer Überanpassung schützen, aber es gibt kein Patentrezept. In der Tat muss man immer davon ausgehen, dass es tatsächlich zu einem gewissen Grad an Überanpassung gekommen ist, wenn man das Vertrauen abschätzen möchte, dass man auf der Basis eines angepassten Modells eine Prognose für die reale Welt erstellt.
Inwieweit können Abweichungen auftreten, aber selbst ein Modell, das für ein Hold-Out-Dataset validiert wurde, erbringt selten eine In-Wild-Leistung, die mit der im Hold-Out-Dataset erzielten übereinstimmt. Und Überanpassung ist ein großer ursächlicher Faktor.
quelle
Was wir mit dem Roc tun, um auf Überanpassung zu prüfen, ist, den Datensatz in Training und Bewertung zufällig zu trennen und die AUC zwischen diesen Gruppen zu vergleichen. Wenn die AUC im Training "viel" (es gibt auch keine Faustregel) größer ist, liegt möglicherweise eine Überanpassung vor.
quelle