Warum ist in meinen ROC-Kurven ein scharfer Ellbogen?

8

Ich habe einige EEG-Datensätze, die ich gegen zwei Klassen teste. Ich kann eine anständige Fehlerrate von LDA erhalten (die klassenbedingten Verteilungen sind nicht Gaußsch, haben aber ähnliche Schwänze und eine ausreichend gute Trennung), und deshalb möchte ich den ROC des LDA-Prädiktors gegen Datensätze anderer Subjekte zeichnen.

Hier ist ein typisches Diagramm für den Prädiktor, der gegen einen einzelnen Versuch getestet wurde: Geben Sie hier die Bildbeschreibung ein

Ich habe ein paar verschiedene Pakete (pROC und ROCR) ausprobiert und die Ergebnisse sind konsistent. Meine Frage ist, was ist mit dem scharfen Ellbogen? Ist es nur ein Artefakt der von der LDA erstellten Projektion, dh es gibt zufällig eine "Klippe", auf der die Leistung des Klassifikators sinkt?

heller Stern
quelle

Antworten:

4

Eine perfekte ROC "Kurve" wird mit einer scharfen Biegung geformt. Die Leistung, die Sie dort haben, ist nahezu perfekt getrennt. Außerdem sieht es so aus, als hätten Sie einen Mangel an Punkten, die die Kurve bilden.

John
quelle
Ja, jedes davon sind nur etwa 7500 Zeitproben in 14 Dimensionen (nicht projizierter Raum). Das heißt, wenn ich eine Reihe von Versuchen von verschiedenen Probanden hätte, würde Rauschen dann nicht irgendwann die Kurve um den Wendepunkt glätten?
Heller Stern
Wenn Sie "jedes von diesen" sagen, weiß ich nicht, was Sie meinen. Es ist unklar, wie viele Punkte die Kurve tatsächlich bilden. Ja, vielleicht würde es sich krümmen, wenn es Variabilität zwischen den Probanden gäbe, aber wenn es keine gibt, wird es nicht. Es ist möglich, dass Sie ein Problem mit der Datencodierung haben oder nur ein paar Beispiele zeichnen, aber es ist unmöglich, anhand Ihrer Beiträge zu erkennen.
John
Entschuldigung, ich meinte jede einzelne Zeitreihe (experimenteller Versuch). Es gibt eine gewisse Variabilität zwischen den Probanden, aber der resultierende ROC für jeden Test eines einzelnen Prädiktors in einem Versuch hat eine scharfe Ecke wie das obige Bild, die sich nur an einer etwas anderen Stelle befindet. Ich habe die Größe meiner Prädiktor- und Antworteingaben für den Befehl roc () überprüft. Beide sind Etiketten der Klasse 7500.
Heller Stern
6

Obwohl diese Frage vor ungefähr 3 Jahren gestellt wurde, finde ich es nützlich, sie hier zu beantworten, nachdem ich darauf gestoßen bin und einige Zeit verwirrt war. Wenn Ihre Grundwahrheitsausgabe 0,1 und Ihre Vorhersage 0,1 beträgt, erhalten Sie einen winkelförmigen Ellbogen. Wenn Ihre Vorhersage oder Grundwahrheit Konfidenzwerte oder Wahrscheinlichkeiten sind (etwa im Bereich [0,1]), erhalten Sie einen gekrümmten Ellbogen.

user3545810
quelle
5

Ich stimme John darin zu, dass die scharfe Kurve auf einen Mangel an Punkten zurückzuführen ist. Insbesondere scheinen Sie die binären Vorhersagen Ihres Modells (dh 1/0) und die beobachteten Beschriftungen (dh 1/0) verwendet zu haben. Aus diesem Grund haben Sie 3 Punkte, einer nimmt einen Grenzwert von Inf an, einer einen Grenzwert von 0 und der letzte einen Grenzwert von 1, der Ihnen vom TPR und FPR Ihres Modells gegeben wird und sich im scharfen Winkel in befindet Ihr Diagramm.

Stattdessen sollten Sie die Wahrscheinlichkeiten der vorhergesagten Klasse (Werte zwischen 0 und 1) und die beobachteten Bezeichnungen (dh 1/0) verwenden. Dadurch erhalten Sie eine Anzahl von Punkten in der Grafik, die der Anzahl der eindeutigen Wahrscheinlichkeiten entspricht, die Sie haben (plus einen für Inf). Wenn Sie also 100 eindeutige Wahrscheinlichkeiten haben, erhalten Sie 101 Punkte in der Grafik für jeden der verschiedenen Grenzwerte.

Tyler
quelle
Leider kann ich mich nicht erinnern, welche spezifischen Berechnungen oder Daten ich verwendet habe, daher kann ich nicht zurückgehen. Das klingt jedoch nach einem ausgezeichneten Rat.
heller Stern