Ist es jemals eine gute Idee, beim Training einer logistischen Regression „Teilkredit“ (kontinuierliches Ergebnis) zu geben?

10

Ich trainiere eine logistische Regression, um vorherzusagen, welche Läufer am ehesten ein anstrengendes Langstreckenrennen beenden werden.

Sehr wenige Läufer absolvieren dieses Rennen, daher habe ich ein schweres Klassenungleichgewicht und eine kleine Auswahl an Erfolgen (vielleicht ein paar Dutzend). Ich habe das Gefühl, ich könnte ein gutes "Signal" von den Dutzenden von Läufern bekommen, die es fast geschafft haben. (Meine Trainingsdaten haben nicht nur den Abschluss, sondern auch, wie weit diejenigen, die nicht fertig waren, es tatsächlich geschafft haben.) Ich frage mich also, ob es eine schreckliche Idee ist, eine "Teilgutschrift" aufzunehmen oder nicht. Ich habe mir ein paar Funktionen für Teilkredite, die Rampe und die Logistikkurve ausgedacht, denen verschiedene Parameter zugewiesen werden konnten.

Geben Sie hier die Bildbeschreibung ein

Der einzige Unterschied zur Regression wäre, dass ich Trainingsdaten verwenden würde, um das modifizierte, kontinuierliche Ergebnis anstelle eines binären Ergebnisses vorherzusagen . Beim Vergleich ihrer Vorhersagen auf einem Testsatz (unter Verwendung der binären Antwort) hatte ich ziemlich nicht schlüssige Ergebnisse - die logistische Teilgutschrift schien R-Quadrat, AUC, P / R geringfügig zu verbessern, aber dies war nur ein Versuch in einem Anwendungsfall unter Verwendung von a kleine Probe.

Es ist mir egal, ob die Vorhersagen einheitlich auf die Fertigstellung ausgerichtet sind - was mir wichtig ist, ist die korrekte Einstufung der Teilnehmer nach ihrer Wahrscheinlichkeit des Abschlusses oder vielleicht sogar die Schätzung ihrer relativen Wahrscheinlichkeit des Abschlusses.

Ich verstehe, dass die logistische Regression eine lineare Beziehung zwischen Prädiktoren und dem Protokoll des Odds Ratio voraussetzt, und offensichtlich hat dieses Verhältnis keine wirkliche Interpretation, wenn ich anfange, mit den Ergebnissen herumzuspielen. Ich bin mir sicher, dass dies aus theoretischer Sicht nicht klug ist, aber es könnte helfen, ein zusätzliches Signal zu erhalten und eine Überanpassung zu verhindern. (Ich habe fast so viele Prädiktoren wie Erfolge, daher kann es hilfreich sein, Beziehungen mit teilweiser Fertigstellung zu verwenden, um Beziehungen mit vollständiger Fertigstellung zu überprüfen.)

Wird dieser Ansatz jemals in verantwortungsbewusster Praxis angewendet?

Wie auch immer, gibt es andere Arten von Modellen (möglicherweise etwas, das die Gefährdungsrate explizit modelliert und über die Entfernung anstelle der Zeit angewendet wird), die für diese Art der Analyse besser geeignet sind?

C8H10N4O2
quelle

Antworten:

11

Dies scheint eine Aufgabe für die Überlebensanalyse zu sein, wie die Cox-Proportional-Hazard-Analyse oder möglicherweise ein parametrisches Überlebensmodell.

Denken Sie umgekehrt über dieses Problem nach, wie Sie es erklären: Welche Prädiktorvariablen sind mit früheren Entfernungen zum Beenden verbunden ?

Aufhören ist das Ereignis. Die zurückgelegte Strecke kann in der Standardüberlebensanalyse als äquivalent zur Zeit bis zum Ereignis angesehen werden. Sie haben dann eine Anzahl von Ereignissen, die der Anzahl der Personen entspricht, die beendet haben, sodass sich Ihr Problem mit einer begrenzten Anzahl von Prädiktoren verringert. Alle, die aufhören, geben Auskunft.

Wenn ein Cox-Modell mit Ihren Daten arbeitet, liefert es einen linearen Prädiktor, der auf allen Werten der Prädiktorvariablen basiert und die Teilnehmer in der Reihenfolge der vorhergesagten Entfernungen zum Beenden einstuft.

EdM
quelle
Danke dafür. Es hört sich so an, als würden Sie sagen, dass bei Verwendung des Cox-Modells die Läufer mit dem längsten vorhergesagten Abstand zum Verlassen aufgrund des Konstrukts der proportionalen Gefahren auch am seltensten vor dem Zielabstand aussteigen. Ist das richtig? Da Sie dies empfehlen, hat Sie die Vermutung der Teilkreditidee nicht als begründet empfunden?
C8H10N4O2
Das ist im Wesentlichen richtig. Ich sehe die Einbeziehung der Distanz zum Aufhören in ein Überlebensmodell als einen Weg, "Teilkredit" auf eine Weise zu geben, die eine gut etablierte theoretische und praktische Rechtfertigung hat. Ich habe die Details nicht durchgearbeitet, aber ich vermute, dass dies genau das erreicht, was Sie beabsichtigt haben, wie in Ihrer Grafik ausgedrückt.
EdM