Normalerweise passen wir in der logistischen Regression ein Modell an und erhalten einige Vorhersagen zum Trainingssatz. Anschließend validieren wir diese Trainingsvorhersagen (so ähnlich wie hier ) und bestimmen den optimalen Schwellenwert auf der Grundlage der ROC-Kurve.
Warum integrieren wir die Quervalidierung des Schwellenwerts nicht in das tatsächliche Modell und trainieren das Ganze Ende-zu-Ende?
quelle
Dies liegt daran, dass der optimale Schwellenwert nicht nur von der True Positive Rate (TPR), der False Positive Rate (FPR), der Genauigkeit oder was auch immer abhängt. Die andere entscheidende Zutat sind die Kosten und die Auszahlung von richtigen und falschen Entscheidungen .
Wenn Ihr Ziel eine Erkältung ist, besteht Ihre Antwort auf einen positiven Test darin, zwei Aspirine zu verschreiben, und die Kosten für ein echtes unbehandeltes Positiv sind unnötige Kopfschmerzen für zwei Tage. Dann ist Ihre optimale Entscheidungsschwelle (nicht Klassifizierung!) Ziemlich hoch anders als wenn Ihr Ziel eine lebensbedrohliche Krankheit ist und Ihre Entscheidung (a) ein vergleichsweise einfaches Verfahren wie eine Blinddarmentfernung oder (b) eine größere Intervention wie monatelange Chemotherapie ist! Beachten Sie auch, dass Ihre Zielvariable möglicherweise binär ist (krank / gesund), Ihre Entscheidungen jedoch möglicherweise mehr Werte haben (mit zwei Aspirin nach Hause schicken / mehr Tests durchführen / ins Krankenhaus einweisen und sofort beobachten / operieren).
Fazit: Wenn Sie Ihre Kostenstruktur und die verschiedenen Entscheidungen kennen, können Sie sicher ein Decision Support System (DSS) direkt trainieren, das eine probabilistische Klassifizierung oder Prognose enthält. Ich würde jedoch nachdrücklich argumentieren, dass die Diskretisierung von Vorhersagen oder Klassifizierungen über Schwellenwerte nicht der richtige Weg ist, um dies zu erreichen.
Siehe auch meine Antwort auf den früheren Thread "Klassifizierungswahrscheinlichkeitsschwelle" . Oder diese Antwort von mir . Oder das hier .
quelle
Abgesehen von philosophischen Bedenken würde dies zu Rechenschwierigkeiten führen.
Der Grund dafür ist, dass Funktionen mit kontinuierlicher Ausgabe relativ einfach zu optimieren sind. Sie suchen nach der Richtung, in der die Funktion zunimmt, und gehen dann diesen Weg. Wenn wir unsere Verlustfunktion so ändern, dass sie den "Cutoff" -Schritt einschließt, wird unsere Ausgabe diskret, und unsere Verlustfunktion ist daher auch diskret. Wenn wir nun die Parameter unserer Logistikfunktion "ein bisschen" und gemeinsam den Grenzwert "ein bisschen" ändern, ergibt unser Verlust einen identischen Wert, und die Optimierung wird schwierig. Natürlich ist es nicht unmöglich (es gibt ein ganzes Fachgebiet in der diskreten Optimierung ), aber eine kontinuierliche Optimierung ist bei weitem nicht ausgeschlossenDas einfachere Problem ist zu lösen, wenn Sie viele Parameter optimieren. Sobald das logistische Modell angepasst wurde, ist das Finden des optimalen Grenzwerts, obwohl immer noch ein diskretes Ausgabeproblem, nur noch in einer Variablen möglich, und wir können einfach eine Rastersuche durchführen, oder in einer anderen, die in einer Variablen vollständig realisierbar ist.
quelle
Unabhängig vom zugrunde liegenden Modell können wir die Stichprobenverteilungen von TPR und FPR bei einem Schwellenwert berechnen. Dies impliziert, dass wir die Variabilität in TPR und FPR bei einem bestimmten Schwellenwert charakterisieren können, und wir können zu einem gewünschten Kompromiss hinsichtlich der Fehlerrate zurückkehren.
Eine ROC-Kurve täuscht ein wenig, da Sie nur den Schwellenwert steuern. Im Diagramm werden jedoch TPR und FPR angezeigt, die Funktionen des Schwellenwerts sind. Darüber hinaus sind sowohl TPR als auch FPR Statistiken und unterliegen daher den Schwankungen der Zufallsstichprobe. Dies impliziert, dass Sie bei einer Wiederholung des Vorgangs (z. B. durch Kreuzvalidierung) bei einem bestimmten Schwellenwert einen anderen FPR und TPR finden könnten.
Wenn wir jedoch die Variabilität von TPR und FPR abschätzen können, ist eine Wiederholung der ROC-Prozedur nicht erforderlich. Wir wählen nur einen Schwellenwert aus, sodass die Endpunkte eines Konfidenzintervalls (mit einer gewissen Breite) akzeptabel sind. Das heißt, wählen Sie das Modell so aus, dass der FPR plausibel unter einem vom Forscher festgelegten Maximum und / oder der TPR plausibel über einem vom Forscher festgelegten Minimum liegt. Wenn Ihr Modell Ihre Ziele nicht erreichen kann, müssen Sie ein besseres Modell bauen.
Welche TPR- und FPR-Werte in Ihrer Verwendung tolerierbar sind, hängt natürlich vom jeweiligen Kontext ab.
Weitere Informationen finden Sie unter ROC-Kurven für kontinuierliche Daten von Wojtek J. Krzanowski und David J. Hand.
quelle
In der biomedizinischen Forschung wird in der Regel kein Trainingssatz verwendet. Wir wenden lediglich eine logistische Regression auf den gesamten Datensatz an, um zu ermitteln, welche Prädiktoren wichtige Risikofaktoren für das angestrebte Ergebnis sind. oder einen interessierenden Prädiktor zu betrachten, während die Auswirkung anderer möglicher Prädiktoren auf das Ergebnis kontrolliert wird.
Ich bin mir nicht sicher, was Sie unter Schwellenwerten verstehen, aber es gibt verschiedene Parameter, die optimiert werden sollten: AUC, Grenzwerte für eine Dichotomisierung einer kontinuierlichen Prädiktorvariablen, positive und negative prädiktive Werte, Konfidenzintervalle und p-Werte, falsch positive und falsch negative Raten. Die logistische Regression untersucht eine Population von Subjekten und bewertet die Stärke und die Kausalrichtung von Risikofaktoren, die zum Ergebnis des Interesses an dieser Population beitragen. Es ist auch möglich, sozusagen "rückwärts" zu verfahren und das Risiko einer Person für das Ergebnis zu bestimmen, wenn die Risikofaktoren der Person gegeben sind. Die logistische Regression weist jedem Individuum auf der Grundlage seiner individuellen Risikofaktoren ein Risiko des Ergebnisses zu. Standardmäßig beträgt dieses 0,5. Wenn ein Thema ' s Die Wahrscheinlichkeit, dass das Ergebnis (basierend auf allen Daten und Probanden in Ihrem Modell) erreicht wird, beträgt 0,5 oder mehr. Dies sagt voraus, dass er das Ergebnis haben wird. Wenn er unter 0,5 liegt, sagt er dies voraus. Sie können diesen Grenzwert jedoch anpassen, um beispielsweise mehr Personen zu kennzeichnen, bei denen möglicherweise das Risiko besteht, dass das Ergebnis erzielt wird, auch wenn das Modell mehr falsch-positive Ergebnisse vorhersagt. Sie können diesen Grenzwert anpassen, um die Auswahlentscheidungen zu optimieren, um beispielsweise vorherzusagen, welchen Personen eine weitere medizinische Nachsorge empfohlen wird. und um Ihren positiven Vorhersagewert, den negativen Vorhersagewert und die falsch-negativen und falsch-positiven Raten für einen auf dem logistischen Regressionsmodell basierenden Screening-Test zu berechnen. Sie können das Modell auf der Hälfte Ihres Datensatzes entwickeln und auf der anderen Hälfte testen, aber Sie tun es nicht. Das muss nicht unbedingt sein (und dies halbiert Ihre Trainingsdaten und reduziert somit die Fähigkeit, signifikante Prädiktoren im Modell zu finden). Also ja, Sie können "das Ganze von Ende zu Ende trainieren". Natürlich möchten Sie in der biomedizinischen Forschung eine Validierung an einer anderen Population, einem anderen Datensatz, vornehmen, bevor Sie sagen, dass Ihre Ergebnisse auf eine breitere Population verallgemeinert werden können. Ein anderer Ansatz besteht darin, einen Bootstrapping-Ansatz zu verwenden, bei dem Sie Ihr Modell anhand einer Teilstichprobe Ihrer Studienpopulation ausführen, diese Probanden dann wieder in den Pool zurücksetzen und mit einer anderen Stichprobe viele Male (normalerweise 1000 Mal) wiederholen. Wenn Sie die meiste Zeit (z. B. 95% der Zeit) signifikante Ergebnisse erzielen, kann Ihr Modell als validiert angesehen werden - zumindest anhand Ihrer eigenen Daten. Aber auch hier gilt, je kleiner die Studienpopulation ist, auf der Sie Ihr Modell ausführen. desto unwahrscheinlicher wird es sein, dass einige Prädiktoren statistisch signifikante Risikofaktoren für das Ergebnis sind. Dies gilt insbesondere für biomedizinische Studien mit einer begrenzten Teilnehmerzahl.
Die Hälfte Ihrer Daten zu verwenden, um Ihr Modell zu "trainieren" und es dann auf der anderen Hälfte zu "validieren", ist eine unnötige Belastung. Sie tun dies nicht für T-Tests oder lineare Regression. Warum also für logistische Regression? Das Beste ist, dass Sie sagen: "Ja, es funktioniert". Wenn Sie jedoch Ihren vollständigen Datensatz verwenden, stellen Sie dies trotzdem fest. Das Aufteilen Ihrer Daten in kleinere Datensätze birgt das Risiko, dass keine signifikanten Risikofaktoren in der Studienpopulation (ODER der Validierungspopulation) erkannt werden, wenn sie tatsächlich vorhanden sind, da die Stichprobengröße zu klein ist, zu viele Prädiktoren für Ihre Studiengröße vorhanden sind und die Möglichkeit besteht dass Ihr "Validierungsmuster" keine zufälligen Assoziationen aufzeigt. Die Logik hinter dem Ansatz "Trainieren, dann validieren" scheint zu sein, dass, wenn die von Ihnen als signifikant identifizierten Risikofaktoren nicht stark genug sind, dann sind sie statistisch nicht signifikant, wenn sie anhand einer zufällig ausgewählten Hälfte Ihrer Daten modelliert werden. Diese zufällig ausgewählte Stichprobe zeigt jedoch möglicherweise nicht zufällig einen Zusammenhang oder ist zu klein, als dass der oder die Risikofaktoren statistisch signifikant wären. Es ist jedoch die Größe der Risikofaktoren UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen. Aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. Es ist nicht statistisch signifikant, wenn Sie anhand einer zufällig ausgewählten Hälfte Ihrer Daten ein Modell erstellen. Diese zufällig ausgewählte Stichprobe zeigt jedoch möglicherweise nicht zufällig einen Zusammenhang oder ist zu klein, als dass der oder die Risikofaktoren statistisch signifikant wären. Es ist jedoch die Größe der Risikofaktoren UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen. Aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. Es ist nicht statistisch signifikant, wenn Sie anhand einer zufällig ausgewählten Hälfte Ihrer Daten ein Modell erstellen. Diese zufällig ausgewählte Stichprobe zeigt jedoch möglicherweise nicht zufällig einen Zusammenhang oder ist zu klein, als dass der oder die Risikofaktoren statistisch signifikant wären. Es ist jedoch die Größe der Risikofaktoren UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen. Aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. Diese zufällig ausgewählte Stichprobe zeigt jedoch möglicherweise nicht zufällig einen Zusammenhang oder ist zu klein, als dass der oder die Risikofaktoren statistisch signifikant wären. Es ist jedoch die Größe der Risikofaktoren UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen. Aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. Diese zufällig ausgewählte Stichprobe zeigt jedoch möglicherweise nicht zufällig einen Zusammenhang oder ist zu klein, als dass der oder die Risikofaktoren statistisch signifikant wären. Es ist jedoch die Größe der Risikofaktoren UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen. Aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. s die Größe des Risikofaktors (der Risikofaktoren) UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen, und aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell mit zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. s die Größe des Risikofaktors (der Risikofaktoren) UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen, und aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell mit zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung.
quelle