Ich habe einige EEG-Datensätze, die ich gegen zwei Klassen teste. Ich kann eine anständige Fehlerrate von LDA erhalten (die klassenbedingten Verteilungen sind nicht Gaußsch, haben aber ähnliche Schwänze und eine ausreichend gute Trennung), und deshalb möchte ich den ROC des LDA-Prädiktors gegen Datensätze anderer Subjekte zeichnen.
Hier ist ein typisches Diagramm für den Prädiktor, der gegen einen einzelnen Versuch getestet wurde:
Ich habe ein paar verschiedene Pakete (pROC und ROCR) ausprobiert und die Ergebnisse sind konsistent. Meine Frage ist, was ist mit dem scharfen Ellbogen? Ist es nur ein Artefakt der von der LDA erstellten Projektion, dh es gibt zufällig eine "Klippe", auf der die Leistung des Klassifikators sinkt?
quelle
Obwohl diese Frage vor ungefähr 3 Jahren gestellt wurde, finde ich es nützlich, sie hier zu beantworten, nachdem ich darauf gestoßen bin und einige Zeit verwirrt war. Wenn Ihre Grundwahrheitsausgabe 0,1 und Ihre Vorhersage 0,1 beträgt, erhalten Sie einen winkelförmigen Ellbogen. Wenn Ihre Vorhersage oder Grundwahrheit Konfidenzwerte oder Wahrscheinlichkeiten sind (etwa im Bereich [0,1]), erhalten Sie einen gekrümmten Ellbogen.
quelle
Ich stimme John darin zu, dass die scharfe Kurve auf einen Mangel an Punkten zurückzuführen ist. Insbesondere scheinen Sie die binären Vorhersagen Ihres Modells (dh 1/0) und die beobachteten Beschriftungen (dh 1/0) verwendet zu haben. Aus diesem Grund haben Sie 3 Punkte, einer nimmt einen Grenzwert von Inf an, einer einen Grenzwert von 0 und der letzte einen Grenzwert von 1, der Ihnen vom TPR und FPR Ihres Modells gegeben wird und sich im scharfen Winkel in befindet Ihr Diagramm.
Stattdessen sollten Sie die Wahrscheinlichkeiten der vorhergesagten Klasse (Werte zwischen 0 und 1) und die beobachteten Bezeichnungen (dh 1/0) verwenden. Dadurch erhalten Sie eine Anzahl von Punkten in der Grafik, die der Anzahl der eindeutigen Wahrscheinlichkeiten entspricht, die Sie haben (plus einen für Inf). Wenn Sie also 100 eindeutige Wahrscheinlichkeiten haben, erhalten Sie 101 Punkte in der Grafik für jeden der verschiedenen Grenzwerte.
quelle