Ich habe Probleme, die ROC-Kurve zu verstehen.
Gibt es einen Vorteil / eine Verbesserung in der Fläche unter der ROC-Kurve, wenn ich aus jeder eindeutigen Teilmenge des Trainingssatzes verschiedene Modelle baue und sie zur Erstellung einer Wahrscheinlichkeit verwende? Wenn zum Beispiel Werte von { a , a , a , a , b , b , b , b } hat und ich Modell A unter Verwendung eines Wertes von 1 bis 4 von y und eines Wertes von 8 bis 9 von y und build aufbaue Modell B unter Verwendung der verbliebenen Zugdaten. Schließlich erzeugen Wahrscheinlichkeit. Alle Gedanken / Kommentare werden sehr geschätzt.
Hier ist der Code für eine bessere Erklärung meiner Frage:
Y = factor(0,0,0,0,1,1,1,1)
X = matirx(rnorm(16,8,2))
ind = c(1,4,8,9)
ind2 = -ind
mod_A = rpart(Y[ind]~X[ind,])
mod_B = rpart(Y[-ind]~X[-ind,])
mod_full = rpart(Y~X)
pred = numeric(8)
pred_combine[ind] = predict(mod_A,type='prob')
pred_combine[-ind] = predict(mod_B,type='prob')
pred_full = predict(mod_full, type='prob')
Also meine Frage ist, die Fläche unter ROC - Kurve von pred_combine
vs pred_full
.
Antworten:
Ich bin nicht sicher, ob ich die Frage bekommen habe, aber da der Titel nach einer Erklärung der ROC-Kurven fragt, werde ich es versuchen.
ROC-Kurven werden verwendet, um festzustellen, wie gut Ihr Klassifikator positive und negative Beispiele trennen kann, und um den besten Schwellenwert für die Trennung zu ermitteln.
Um die ROC-Kurve verwenden zu können, muss Ihr Klassifikator eine Rangfolge haben - das heißt, er sollte in der Lage sein, Beispiele so zu klassifizieren, dass diejenigen mit höherem Rang eher positiv sind. Beispielsweise gibt die logistische Regression Wahrscheinlichkeiten aus, die Sie für die Rangfolge verwenden können.
ROC-Kurve zeichnen
Gegeben ein Datensatz und ein Ranking-Klassifikator:
Dieses schöne GIF-animierte Bild soll diesen Vorgang deutlicher veranschaulichen
Bereich unter ROC
Der Bereich unter der ROC-Kurve (schattiert) gibt natürlich an, wie weit die Kurve von der Basislinie entfernt ist. Für die Grundlinie ist es 0,5 und für den perfekten Klassifikator ist es 1.
Mehr über AUC ROC erfahren Sie in dieser Frage: Wofür steht AUC und was ist das?
Auswahl des besten Schwellenwerts
Ich werde kurz den Auswahlprozess für den besten Schwellenwert skizzieren. Weitere Details finden Sie in der Referenz.
Um den besten Schwellenwert auszuwählen, wird jeder Punkt Ihrer ROC-Kurve als separater Klassifikator angezeigt. Dieser Mini-Klassifikator verwendet die Punktzahl als Grenze zwischen + und - (dh er klassifiziert alle Punkte über der aktuellen als +).
Abhängig vom pos / neg-Anteil in unserem Datensatz - parallel zur Basislinie bei 50% / 50% - erstellen Sie ISO-Genauigkeitslinien und nehmen die mit der besten Genauigkeit.
Hier ist ein Bild, das dies illustriert, und für Einzelheiten lade ich Sie erneut zur Referenz ein
Referenz
quelle