Im Moment führe ich einen binären Klassifikator aus. Wenn ich die ROC-Kurve zeichne, bekomme ich am Anfang einen guten Auftrieb, dann ändert sich die Richtung und kreuzt die Diagonale, dann natürlich wieder nach oben, wodurch die Kurve eine geneigte S-Form erhält.
Was kann eine Interpretation / Erklärung für diesen Effekt sein?
Vielen Dank
Antworten:
Sie erhalten eine schöne symmetrische ROC-Darstellung nur, wenn die Standardabweichungen für beide Ergebnisse gleich sind. Wenn sie ziemlich unterschiedlich sind, erhalten Sie möglicherweise genau das Ergebnis, das Sie beschreiben.
Der folgende Mathematica-Code demonstriert dies. Wir nehmen an, dass ein Ziel eine Normalverteilung im Antwortraum ergibt und dass Rauschen ebenfalls eine Normalverteilung ergibt, jedoch eine verschobene. Die ROC-Parameter werden durch den Bereich unterhalb der Gaußschen Kurven links oder rechts von einem Entscheidungskriterium bestimmt. Das Variieren dieses Kriteriums beschreibt die ROC-Kurve.
Dies ist mit gleichen Standardabweichungen:
Dies ist mit ziemlich unterschiedlichen:
oder mit ein paar weiteren Parametern zum Spielen:
quelle
Wenn im Teil der Kurve eine Reihe negativer Instanzen mit hoher FPR vorhanden ist, kann diese Art von Kurve erstellt werden. Dies ist in Ordnung, solange Sie den richtigen Algorithmus zum Erzeugen der ROC-Kurve verwenden.
Die Bedingung, dass Sie einen Satz von 2 m Punkten haben, von denen die Hälfte positiv und die andere Hälfte negativ ist - alle haben genau die gleiche Punktzahl für Ihr Modell -, ist schwierig. Wenn beim Sortieren der Punkte nach der Punktzahl (Standardverfahren beim Zeichnen des ROC) zuerst alle negativen Beispiele gefunden werden, bleibt die ROC-Kurve flach und verschiebt sich nach rechts. In diesem Artikel wird erläutert, wie solche Probleme behoben werden können :
Fawcett | Zeichnen von ROC-Kurven
quelle
(Die Antworten von @Sjoerd C. de Vries und @Hrishekesh Ganu sind richtig. Ich dachte, ich könnte die Ideen trotzdem auf eine andere Art und Weise präsentieren, was einigen Menschen helfen könnte.)
Sie können einen solchen ROC erhalten, wenn Ihr Modell falsch spezifiziert ist. Betrachten Sie das nachstehende Beispiel (in codiert
R
), das aus meiner Antwort hier übernommen wurde: Wie können Boxplots verwendet werden, um den Punkt zu ermitteln, an dem Werte mit höherer Wahrscheinlichkeit aus unterschiedlichen Bedingungen stammen?Es ist leicht zu erkennen, dass dem roten Modell die Struktur der Daten fehlt. Wir können sehen, wie die ROC-Kurven aussehen, wenn wir sie unten zeichnen:
quelle