Ich versuche zu verstehen, wie der optimale Schnittpunkt für eine ROC-Kurve berechnet wird (der Wert, bei dem die Empfindlichkeit und Spezifität maximiert werden). Ich verwende den Datensatz aSAH
aus dem Paket pROC
.
Die outcome
Variable könnte durch zwei unabhängige Variablen erklärt werden: s100b
und ndka
. Unter Verwendung der Syntax des Epi
Pakets habe ich zwei Modelle erstellt:
library(pROC)
library(Epi)
ROC(form=outcome~s100b, data=aSAH)
ROC(form=outcome~ndka, data=aSAH)
Die Ausgabe wird in den folgenden zwei Diagrammen dargestellt:
In der ersten Grafik ( s100b
) gibt die Funktion an, dass der optimale Schnittpunkt bei dem entsprechenden Wert lokalisiert ist lr.eta=0.304
. In der zweiten Grafik ( ndka
) wird der optimale Schnittpunkt auf den entsprechenden Wert von lr.eta=0.335
(was ist die Bedeutung von lr.eta
) lokalisiert . Meine erste Frage ist:
- Was ist die Entsprechung
s100b
und diendka
Werte für dielr.eta
angegebenen Werte (was ist der optimale Schnittpunkt in Bezug aufs100b
undndka
)?
ZWEITE FRAGE:
Angenommen, ich erstelle ein Modell, das beide Variablen berücksichtigt:
ROC(form=outcome~ndka+s100b, data=aSAH)
Die erhaltene Grafik ist:
Ich möchte wissen, was die Werte von ndka
AND sind, s100b
bei denen Sensibilität und Spezifität durch die Funktion maximiert werden. Mit anderen Worten: Was sind die Werte von ndka
und s100b
bei denen wir Se = 68,3% und Sp = 76,4% haben (Werte abgeleitet von der Grafik)?
Ich nehme an, diese zweite Frage bezieht sich auf die MultiROC-Analyse, aber die Dokumentation des Epi
Pakets erklärt nicht, wie der optimale Schnittpunkt für beide im Modell verwendeten Variablen berechnet wird.
Meine Frage scheint dieser Frage von reasearchGate sehr ähnlich zu sein. Kurz gesagt:
Die Bestimmung des Cutoff-Scores, der einen besseren Kompromiss zwischen Sensitivität und Spezifität einer Kennzahl darstellt, ist unkompliziert. Bei der multivariaten ROC-Kurvenanalyse habe ich jedoch festgestellt, dass sich die meisten Forscher auf Algorithmen konzentriert haben, um die Gesamtgenauigkeit einer linearen Kombination mehrerer Indikatoren (Variablen) in Bezug auf die AUC zu bestimmen. [...]
Bei diesen Methoden wird jedoch nicht erwähnt, wie eine Kombination von Cut-Off-Scores für die mehreren Indikatoren ermittelt werden soll, die die beste diagnostische Genauigkeit bietet.
Eine mögliche Lösung besteht darin , dass durch Shultz in seinem vorgeschlagenen Papier , sondern aus diesem Artikel Ich bin zu verstehen , nicht in der Lage , wie man berechnet optimalen Trennwert für eine multivariate ROC - Kurve.
Vielleicht ist die Lösung aus dem Epi
Paket nicht ideal, so dass alle anderen hilfreichen Links geschätzt werden.
lr.eta
ROC
. In jedem Fall können Sie es aus den Modellkoeffizienten für eine beliebige Anzahl von Prädiktoren berechnen. (Beachten Sie, dass dies nicht für jeden Prädiktor einzeln gilt, sondern für alle Prädiktoren.)In Ihrem ersten Satz sollte (wie aus den Grafiken hervorgeht) angegeben sein, dass Sie nach einer Stelle suchen, an der die Summe aus Sensitivität und Spezifität maximiert ist. Aber warum ist das "optimal"? Hat ein falsch positives Ergebnis den gleichen Stellenwert wie ein falsch negatives Ergebnis? Sehen Sie hier .
quelle
coords
Funktion aus dempROC
Paket berechnen , wie ich später fand. Der optimale Abschaltpunkt war in meinem Fall die beste Kombination von Sens und Spec; Ich habe die verknüpfte Antwort gelesen, aber es interessiert mich (zumindest für den Moment) nicht, ob falsch positive oder falsch negative Ergebnisse vorliegen, da ich (wenn ich das richtig verstanden habe) eine Gruppe gesammelter Daten für Forschungszwecke analysiere.lr.eta
Sie können den Schwellenwert finden, bei dem die wahre positive Rate (tpr) die wahre negative Rate (tnr) schneidet. Dies ist der Punkt, bei dem die Summe der falschen positiven und falschen negativen Werte ein Minimum ist.
quelle