Philosophische Frage zur logistischen Regression: Warum wird der optimale Schwellenwert nicht trainiert?

13

Normalerweise passen wir in der logistischen Regression ein Modell an und erhalten einige Vorhersagen zum Trainingssatz. Anschließend validieren wir diese Trainingsvorhersagen (so ähnlich wie hier ) und bestimmen den optimalen Schwellenwert auf der Grundlage der ROC-Kurve.

Warum integrieren wir die Quervalidierung des Schwellenwerts nicht in das tatsächliche Modell und trainieren das Ganze Ende-zu-Ende?

StatsZauberin
quelle

Antworten:

19

Ein Schwellenwert wird nicht mit dem Modell trainiert, da die logistische Regression kein Klassifizierer ist (vgl. Warum wird die logistische Regression nicht als logistische Klassifizierung bezeichnet? ). Es ist ein Modell zur Schätzung des Parameters p , der das Verhalten der Bernoulli-Verteilung bestimmt. Das heißt, Sie nehmen an, dass die von den Kovariaten abhängige Antwortverteilung Bernoulli ist, und möchten daher abschätzen, wie sich der Parameter, der diese Variable steuert, in Abhängigkeit von den Kovariaten ändert. Es ist ein direktes Wahrscheinlichkeitsmodell nur . Natürlich kann es später als Klassifikator verwendet werden und ist manchmal in bestimmten Zusammenhängen, aber es ist immer noch ein Wahrscheinlichkeitsmodell.

gung - Wiedereinsetzung von Monica
quelle
1
Okay, ich verstehe diesen Teil der Theorie (danke für diese beredte Erklärung!), Aber warum können wir den Klassifizierungsaspekt nicht in das Modell integrieren? Das heißt, warum können wir p nicht finden, dann die Schwelle finden und das Ganze Ende-zu-Ende trainieren, um Verluste zu minimieren?
StatsSorceress
4
Sie könnten sicherlich (@ Sycorax Antwort spricht für diese Möglichkeit). Da dies jedoch nicht LR selbst ist, sondern eine Ad-hoc-Erweiterung, müssten Sie das vollständige Optimierungsschema selbst codieren. Beachten Sie übrigens, dass Frank Harrell darauf hingewiesen hat , dass dieser Prozess zu einem Modell führen wird, das von vielen Standards als minderwertig eingestuft wird.
gung - Wiedereinsetzung von Monica
1
Hmm. Ich habe die akzeptierte Antwort in der zugehörigen Frage hier gelesen und bin damit theoretisch einverstanden, aber manchmal kümmern wir uns in Klassifizierungsanwendungen für maschinelles Lernen nicht um die relativen Fehlertypen, sondern nur um die "richtige Klassifizierung". Könnten Sie in diesem Fall ein End-to-End-Training durchführen, wie ich es beschreibe?
StatsSorceress
4
Wie gesagt, Sie können sehr viel Ihre eigene benutzerdefinierte Optimierung einrichten, die das Modell trainiert und gleichzeitig den Schwellenwert auswählt. Sie müssen es einfach selbst tun und das endgültige Modell dürfte für die meisten Standards schlechter sein.
gung - Wiedereinsetzung von Monica
1
@StatsSorceress "... manchmal in der Klassifikation des maschinellen Lernens ...". Es sollte manchmal eine große Betonung geben . Ein Projekt, bei dem Genauigkeit die richtige Antwort ist, ist schwer vorstellbar . Nach meiner Erfahrung geht es immer um Präzision und den Rückruf einer Minderheitenklasse.
Wayne
14

Dies liegt daran, dass der optimale Schwellenwert nicht nur von der True Positive Rate (TPR), der False Positive Rate (FPR), der Genauigkeit oder was auch immer abhängt. Die andere entscheidende Zutat sind die Kosten und die Auszahlung von richtigen und falschen Entscheidungen .

Wenn Ihr Ziel eine Erkältung ist, besteht Ihre Antwort auf einen positiven Test darin, zwei Aspirine zu verschreiben, und die Kosten für ein echtes unbehandeltes Positiv sind unnötige Kopfschmerzen für zwei Tage. Dann ist Ihre optimale Entscheidungsschwelle (nicht Klassifizierung!) Ziemlich hoch anders als wenn Ihr Ziel eine lebensbedrohliche Krankheit ist und Ihre Entscheidung (a) ein vergleichsweise einfaches Verfahren wie eine Blinddarmentfernung oder (b) eine größere Intervention wie monatelange Chemotherapie ist! Beachten Sie auch, dass Ihre Zielvariable möglicherweise binär ist (krank / gesund), Ihre Entscheidungen jedoch möglicherweise mehr Werte haben (mit zwei Aspirin nach Hause schicken / mehr Tests durchführen / ins Krankenhaus einweisen und sofort beobachten / operieren).

Fazit: Wenn Sie Ihre Kostenstruktur und die verschiedenen Entscheidungen kennen, können Sie sicher ein Decision Support System (DSS) direkt trainieren, das eine probabilistische Klassifizierung oder Prognose enthält. Ich würde jedoch nachdrücklich argumentieren, dass die Diskretisierung von Vorhersagen oder Klassifizierungen über Schwellenwerte nicht der richtige Weg ist, um dies zu erreichen.

Siehe auch meine Antwort auf den früheren Thread "Klassifizierungswahrscheinlichkeitsschwelle" . Oder diese Antwort von mir . Oder das hier .

Stephan Kolassa
quelle
4

Abgesehen von philosophischen Bedenken würde dies zu Rechenschwierigkeiten führen.

Der Grund dafür ist, dass Funktionen mit kontinuierlicher Ausgabe relativ einfach zu optimieren sind. Sie suchen nach der Richtung, in der die Funktion zunimmt, und gehen dann diesen Weg. Wenn wir unsere Verlustfunktion so ändern, dass sie den "Cutoff" -Schritt einschließt, wird unsere Ausgabe diskret, und unsere Verlustfunktion ist daher auch diskret. Wenn wir nun die Parameter unserer Logistikfunktion "ein bisschen" und gemeinsam den Grenzwert "ein bisschen" ändern, ergibt unser Verlust einen identischen Wert, und die Optimierung wird schwierig. Natürlich ist es nicht unmöglich (es gibt ein ganzes Fachgebiet in der diskreten Optimierung ), aber eine kontinuierliche Optimierung ist bei weitem nicht ausgeschlossenDas einfachere Problem ist zu lösen, wenn Sie viele Parameter optimieren. Sobald das logistische Modell angepasst wurde, ist das Finden des optimalen Grenzwerts, obwohl immer noch ein diskretes Ausgabeproblem, nur noch in einer Variablen möglich, und wir können einfach eine Rastersuche durchführen, oder in einer anderen, die in einer Variablen vollständig realisierbar ist.

Scott
quelle
3

Unabhängig vom zugrunde liegenden Modell können wir die Stichprobenverteilungen von TPR und FPR bei einem Schwellenwert berechnen. Dies impliziert, dass wir die Variabilität in TPR und FPR bei einem bestimmten Schwellenwert charakterisieren können, und wir können zu einem gewünschten Kompromiss hinsichtlich der Fehlerrate zurückkehren.

Eine ROC-Kurve täuscht ein wenig, da Sie nur den Schwellenwert steuern. Im Diagramm werden jedoch TPR und FPR angezeigt, die Funktionen des Schwellenwerts sind. Darüber hinaus sind sowohl TPR als auch FPR Statistiken und unterliegen daher den Schwankungen der Zufallsstichprobe. Dies impliziert, dass Sie bei einer Wiederholung des Vorgangs (z. B. durch Kreuzvalidierung) bei einem bestimmten Schwellenwert einen anderen FPR und TPR finden könnten.

Wenn wir jedoch die Variabilität von TPR und FPR abschätzen können, ist eine Wiederholung der ROC-Prozedur nicht erforderlich. Wir wählen nur einen Schwellenwert aus, sodass die Endpunkte eines Konfidenzintervalls (mit einer gewissen Breite) akzeptabel sind. Das heißt, wählen Sie das Modell so aus, dass der FPR plausibel unter einem vom Forscher festgelegten Maximum und / oder der TPR plausibel über einem vom Forscher festgelegten Minimum liegt. Wenn Ihr Modell Ihre Ziele nicht erreichen kann, müssen Sie ein besseres Modell bauen.

Welche TPR- und FPR-Werte in Ihrer Verwendung tolerierbar sind, hängt natürlich vom jeweiligen Kontext ab.

Weitere Informationen finden Sie unter ROC-Kurven für kontinuierliche Daten von Wojtek J. Krzanowski und David J. Hand.

Sycorax sagt Reinstate Monica
quelle
Dies beantwortet meine Frage nicht wirklich, aber es ist eine sehr schöne Beschreibung der ROC-Kurven.
StatsSorceress
Inwiefern beantwortet dies Ihre Frage nicht? Was ist Ihre Frage, wenn Sie nicht fragen, wie Sie einen Schwellenwert für die Klassifizierung auswählen sollen?
Sycorax sagt Reinstate Monica
2
Mir ist kein statistisches Verfahren bekannt, das auf diese Weise funktioniert. Warum ist dieses Vierkantrad eine gute Idee? Welches Problem löst es?
Sycorax sagt Reinstate Monica
1
"Wie wähle ich eine Schwelle so aus, dass die Trainingszeit verkürzt wird?" scheint eine ganz andere Frage zu sein als in deinem ursprünglichen Beitrag.
Sycorax sagt Reinstate Monica
1
Egal, ich sehe nicht, wie das Zeit spart. Das Erstellen einer ROC-Kurve ist nicht der teuerste Teil der Modellschätzung. Daher erscheint es ad hoc und unnötig , die Schwellenwertauswahl in den Optimierungsschritt zu verschieben .
Sycorax sagt Reinstate Monica
-2

In der biomedizinischen Forschung wird in der Regel kein Trainingssatz verwendet. Wir wenden lediglich eine logistische Regression auf den gesamten Datensatz an, um zu ermitteln, welche Prädiktoren wichtige Risikofaktoren für das angestrebte Ergebnis sind. oder einen interessierenden Prädiktor zu betrachten, während die Auswirkung anderer möglicher Prädiktoren auf das Ergebnis kontrolliert wird.
Ich bin mir nicht sicher, was Sie unter Schwellenwerten verstehen, aber es gibt verschiedene Parameter, die optimiert werden sollten: AUC, Grenzwerte für eine Dichotomisierung einer kontinuierlichen Prädiktorvariablen, positive und negative prädiktive Werte, Konfidenzintervalle und p-Werte, falsch positive und falsch negative Raten. Die logistische Regression untersucht eine Population von Subjekten und bewertet die Stärke und die Kausalrichtung von Risikofaktoren, die zum Ergebnis des Interesses an dieser Population beitragen. Es ist auch möglich, sozusagen "rückwärts" zu verfahren und das Risiko einer Person für das Ergebnis zu bestimmen, wenn die Risikofaktoren der Person gegeben sind. Die logistische Regression weist jedem Individuum auf der Grundlage seiner individuellen Risikofaktoren ein Risiko des Ergebnisses zu. Standardmäßig beträgt dieses 0,5. Wenn ein Thema ' s Die Wahrscheinlichkeit, dass das Ergebnis (basierend auf allen Daten und Probanden in Ihrem Modell) erreicht wird, beträgt 0,5 oder mehr. Dies sagt voraus, dass er das Ergebnis haben wird. Wenn er unter 0,5 liegt, sagt er dies voraus. Sie können diesen Grenzwert jedoch anpassen, um beispielsweise mehr Personen zu kennzeichnen, bei denen möglicherweise das Risiko besteht, dass das Ergebnis erzielt wird, auch wenn das Modell mehr falsch-positive Ergebnisse vorhersagt. Sie können diesen Grenzwert anpassen, um die Auswahlentscheidungen zu optimieren, um beispielsweise vorherzusagen, welchen Personen eine weitere medizinische Nachsorge empfohlen wird. und um Ihren positiven Vorhersagewert, den negativen Vorhersagewert und die falsch-negativen und falsch-positiven Raten für einen auf dem logistischen Regressionsmodell basierenden Screening-Test zu berechnen. Sie können das Modell auf der Hälfte Ihres Datensatzes entwickeln und auf der anderen Hälfte testen, aber Sie tun es nicht. Das muss nicht unbedingt sein (und dies halbiert Ihre Trainingsdaten und reduziert somit die Fähigkeit, signifikante Prädiktoren im Modell zu finden). Also ja, Sie können "das Ganze von Ende zu Ende trainieren". Natürlich möchten Sie in der biomedizinischen Forschung eine Validierung an einer anderen Population, einem anderen Datensatz, vornehmen, bevor Sie sagen, dass Ihre Ergebnisse auf eine breitere Population verallgemeinert werden können. Ein anderer Ansatz besteht darin, einen Bootstrapping-Ansatz zu verwenden, bei dem Sie Ihr Modell anhand einer Teilstichprobe Ihrer Studienpopulation ausführen, diese Probanden dann wieder in den Pool zurücksetzen und mit einer anderen Stichprobe viele Male (normalerweise 1000 Mal) wiederholen. Wenn Sie die meiste Zeit (z. B. 95% der Zeit) signifikante Ergebnisse erzielen, kann Ihr Modell als validiert angesehen werden - zumindest anhand Ihrer eigenen Daten. Aber auch hier gilt, je kleiner die Studienpopulation ist, auf der Sie Ihr Modell ausführen. desto unwahrscheinlicher wird es sein, dass einige Prädiktoren statistisch signifikante Risikofaktoren für das Ergebnis sind. Dies gilt insbesondere für biomedizinische Studien mit einer begrenzten Teilnehmerzahl.
Die Hälfte Ihrer Daten zu verwenden, um Ihr Modell zu "trainieren" und es dann auf der anderen Hälfte zu "validieren", ist eine unnötige Belastung. Sie tun dies nicht für T-Tests oder lineare Regression. Warum also für logistische Regression? Das Beste ist, dass Sie sagen: "Ja, es funktioniert". Wenn Sie jedoch Ihren vollständigen Datensatz verwenden, stellen Sie dies trotzdem fest. Das Aufteilen Ihrer Daten in kleinere Datensätze birgt das Risiko, dass keine signifikanten Risikofaktoren in der Studienpopulation (ODER der Validierungspopulation) erkannt werden, wenn sie tatsächlich vorhanden sind, da die Stichprobengröße zu klein ist, zu viele Prädiktoren für Ihre Studiengröße vorhanden sind und die Möglichkeit besteht dass Ihr "Validierungsmuster" keine zufälligen Assoziationen aufzeigt. Die Logik hinter dem Ansatz "Trainieren, dann validieren" scheint zu sein, dass, wenn die von Ihnen als signifikant identifizierten Risikofaktoren nicht stark genug sind, dann sind sie statistisch nicht signifikant, wenn sie anhand einer zufällig ausgewählten Hälfte Ihrer Daten modelliert werden. Diese zufällig ausgewählte Stichprobe zeigt jedoch möglicherweise nicht zufällig einen Zusammenhang oder ist zu klein, als dass der oder die Risikofaktoren statistisch signifikant wären. Es ist jedoch die Größe der Risikofaktoren UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen. Aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. Es ist nicht statistisch signifikant, wenn Sie anhand einer zufällig ausgewählten Hälfte Ihrer Daten ein Modell erstellen. Diese zufällig ausgewählte Stichprobe zeigt jedoch möglicherweise nicht zufällig einen Zusammenhang oder ist zu klein, als dass der oder die Risikofaktoren statistisch signifikant wären. Es ist jedoch die Größe der Risikofaktoren UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen. Aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. Es ist nicht statistisch signifikant, wenn Sie anhand einer zufällig ausgewählten Hälfte Ihrer Daten ein Modell erstellen. Diese zufällig ausgewählte Stichprobe zeigt jedoch möglicherweise nicht zufällig einen Zusammenhang oder ist zu klein, als dass der oder die Risikofaktoren statistisch signifikant wären. Es ist jedoch die Größe der Risikofaktoren UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen. Aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. Diese zufällig ausgewählte Stichprobe zeigt jedoch möglicherweise nicht zufällig einen Zusammenhang oder ist zu klein, als dass der oder die Risikofaktoren statistisch signifikant wären. Es ist jedoch die Größe der Risikofaktoren UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen. Aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. Diese zufällig ausgewählte Stichprobe zeigt jedoch möglicherweise nicht zufällig einen Zusammenhang oder ist zu klein, als dass der oder die Risikofaktoren statistisch signifikant wären. Es ist jedoch die Größe der Risikofaktoren UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen. Aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. s die Größe des Risikofaktors (der Risikofaktoren) UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen, und aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell mit zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. s die Größe des Risikofaktors (der Risikofaktoren) UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen, und aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell mit zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung.

Jeremy
quelle