ROC vs Precision-and-Recall-Kurven

159

Ich verstehe die formalen Unterschiede zwischen ihnen, was ich wissen möchte, ist, wenn es relevanter ist, eins gegen das andere zu verwenden.

Bieten sie immer einen ergänzenden Einblick in die Leistung eines bestimmten Klassifizierungs- / Erkennungssystems?
Wann ist es sinnvoll, sie beide beispielsweise in einer Zeitung zu veröffentlichen? statt nur einer?
Gibt es alternative (vielleicht modernere) Deskriptoren, die die relevanten Aspekte von ROC und Präzisionsrückruf für ein Klassifizierungssystem erfassen?

Ich interessiere mich für Argumente sowohl für Binär- als auch für Mehrklassenfälle (z. B. als Ein-gegen-Alles-Fälle).

machine-learning roc precision-recall Amelio Vazquez-Reina
quelle

Dieses Papier muss nur in einem Kontext erscheinen: biostat.wisc.edu/~page/rocpr.pdf

Ich könnte dies für einen "Stecker" verwenden, um meine eigene These hier zu erwähnen ... In Leitner (2012) schlug ich eine "F-gemessene Durchschnittspräzision" (FAP) als harmonisches Mittel von F- Maß und durchschnittliche Präzision. Dh eine Kombination einer festgelegten Bewertungsmetrik mit der einer eingestuften Bewertungsmetrik. In der Diplomarbeit habe ich gezeigt, dass durch Maximieren des FAP-Werts auf dem Trainingssatz der beste Grenzwert für eine ansonsten unbegrenzte Informationsabrufaufgabe ermittelt werden kann (unter Verwendung von 100 BioCreative-Läufen!).

23.

Hier ist eine weitere gute Diskussion zur AUC-ROC- und PR-Kurve in einem unausgeglichenen Datensatz. Es hat die gleiche Schlussfolgerung wie das, was Dsimcha sagte. Wenn Sie sich mehr für den seltenen Fall interessieren, sollten Sie PR verwenden.

Antworten:

207

Der Hauptunterschied besteht darin, dass die ROC-Kurven unabhängig von der Grundwahrscheinlichkeit gleich sind, aber PR-Kurven sind in der Praxis möglicherweise nützlicher für Probleme vom Typ „Nadel im Heuhaufen“ oder Probleme, bei denen die „positive“ Klasse interessanter ist als die negative Klasse.

Um dies zu zeigen, beginnen wir mit einer sehr schönen Methode, um Präzision, Erinnerung und Spezifität zu definieren. Angenommen , Sie eine „positive“ Klasse genannt 1 und eine „negative“ Klasse 0. genannt ist Ihre Schätzung des wahren Klassenlabel . Dann: Der Schlüssel zu beachten ist diese Sensibilität / Erinnerung und Spezifität , die die ROC-Kurve ausmachen, sind Wahrscheinlichkeiten , die vom wahren Klassenetikett abhängig sind . Daher sind sie unabhängig von . Präzision ist eine Wahrscheinlichkeit, auf die es ankommt $\hat{Y}$ $Y$

\begin{aligned} Precision & = P (Y = 1 | \hat{Y} = 1) \\ Recall = Sensitivity & = P (\hat{Y} = 1 | Y = 1) \\ Specificity & = P (\hat{Y} = 0 | Y = 0) \end{aligned}

$\begin{aligned} &\text{Precision} &= P(Y = 1 | \hat{Y} = 1) \\ &\text{Recall} = \text{Sensitivity} &= P(\hat{Y} = 1 | Y = 1) \\ &\text{Specificity} &= P(\hat{Y} = 0 | Y = 0) \end{aligned}$

P (Y = 1)

$P(Y = 1)$ Ihre Schätzung der Klassenbezeichnung und wird daher variieren, wenn Sie Ihren Klassifikator in verschiedenen Populationen mit unterschiedlicher Grundlinie testen . In der Praxis kann es jedoch nützlicher sein, wenn Sie sich nur um eine Population mit bekannter Hintergrundwahrscheinlichkeit kümmern und die "positive" Klasse viel interessanter ist als die "negative" Klasse. (IIRC-Präzision ist im Bereich des Dokumentabrufs sehr beliebt, wo dies der Fall ist.) Dies liegt daran, dass die Frage "Wie hoch ist die Wahrscheinlichkeit, dass dies ein echter Treffer ist, wenn mein Klassifikator dies angibt" direkt beantwortet wird.

P (Y = 1)

$P(Y = 1)$

Interessanterweise können Sie mit dem Bayes-Theorem Fälle herausfinden, in denen die Spezifität sehr hoch und die Präzision gleichzeitig sehr niedrig sein kann. Sie müssen lediglich davon ausgehen, dass sehr nahe bei Null liegt. In der Praxis habe ich mehrere Klassifikatoren mit diesem Leistungsmerkmal entwickelt, wenn ich nach Nadeln in DNA-Sequenz-Heuhaufen suchte. $P(Y = 1)$

IMHO, wenn Sie eine Arbeit schreiben, sollten Sie angeben, welche Kurve die Frage beantwortet, die Sie beantworten möchten (oder welche für Ihre Methode günstiger ist, wenn Sie zynisch sind). Wenn Ihre Frage lautet: "Wie aussagekräftig ist ein positives Ergebnis meines Klassifikators angesichts der Grundwahrscheinlichkeiten meines Problems ?", Verwenden Sie eine PR-Kurve. Wenn Ihre Frage lautet: "Wie gut kann erwartet werden, dass dieser Klassifikator im Allgemeinen bei einer Vielzahl unterschiedlicher Grundwahrscheinlichkeiten funktioniert ?", Gehen Sie zu einer ROC-Kurve.

dsimcha
quelle

das war eine fantastische erklärung!

Amelio Vazquez-Reina

+1, großartiger Einblick in die probabilistischen Interpretationen von Präzision, Rückruf und Spezifität.

Zhubarb,

Was für eine Antwort! Ich wünschte, ich könnte zweimal abstimmen.

London guy

Nur für den Fall, dass dies aus meinem früheren Kommentar nicht klar hervorgeht: Diese Antwort ist falsch , ebenso wie ROC-Kurven, die Spezifität verwenden. Siehe z. B. Eine Einführung in die ROC-Analyse - was auch auf ihre in meiner Antwort dokumentierten Mängel hinweist: "Viele Bereiche der realen Welt werden von einer großen Anzahl negativer Instanzen dominiert, sodass die Leistung ganz links im ROC-Diagramm steigt interessanter."

28.

+0,5 @fnl. Obwohl ich nicht ausdrücklich falsch liege, denke ich, dass die Antwort den Punkt der Frage verfehlt; Die wahrscheinlichkeitstheoretische Interpretation ist sehr zu begrüßen, sie ist jedoch in Bezug auf die Kernfrage umstritten. Außerdem kann ich kein allgemeines realistisches Beispiel finden, bei dem die Frage " Wie aussagekräftig ist ein positives Ergebnis meines Klassifikators angesichts der Grundwahrscheinlichkeiten meines Problems? " Nicht zutreffend ist. Die " generelle " Perspektive der ROC-AUC ist einfach zu unscharf. (Es versteht sich von selbst, dass keiner der beiden Werte für den Nennwert verwendet werden sollte, um das endgültige Modell zu

erstellen.

Hier sind die Schlussfolgerungen aus einem Papier von Davis & Goadrich Erläuterung der Beziehung zwischen ROC und PR Raum. Sie beantworten die ersten beiden Fragen:

Erstens enthalten für jeden Datensatz die ROC-Kurve und die PR-Kurve für einen bestimmten Algorithmus dieselben Punkte. Diese Äquivalenz führt zu dem überraschenden Satz, dass eine Kurve genau dann im ROC-Raum dominiert, wenn sie im PR-Raum dominiert. Zweitens zeigen wir als Folge des Theorems die Existenz des PR-Raums analog zu der konvexen Hülle im ROC-Raum, die wir als erreichbare PR-Kurve bezeichnen. Bemerkenswerterweise werden bei der Erstellung der erreichbaren PR-Kurve genau dieselben Punkte verworfen, die von der konvexen Hülle im ROC-Raum weggelassen werden. Folglich können wir die erreichbare PR-Kurve effizient berechnen. [...] Schließlich zeigen wir, dass ein Algorithmus, der die Fläche unter der ROC-Kurve optimiert, die Fläche unter der PR-Kurve nicht garantiert optimiert.

Mit anderen Worten, ROC und PR sind im Prinzip gleichermaßen geeignet, um Ergebnisse zu vergleichen. Für den Beispielfall eines Ergebnisses von 20 Treffern und Fehlschlägen von 1980 zeigen sie jedoch, dass die Unterschiede ziemlich drastisch sein können, wie in den Abbildungen 11 und 12 dargestellt.

Abbildungen 11 und 12 von Davis und Goadrich

Ergebnis / Kurve (I) beschreibt ein Ergebnis, bei dem 10 der 20 Treffer in den oberen zehn Rängen liegen und die verbleibenden 10 Treffer gleichmäßig auf die ersten 1500 Ränge verteilt sind. Resut (II) beschreibt ein Ergebnis, bei dem die 20 Treffer gleichmäßig auf die ersten 500 (von 2000) Ränge verteilt sind. In Fällen, in denen ein Ergebnis "Form" wie (I) vorzuziehen ist, ist diese Präferenz im PR-Raum klar unterscheidbar, während die AUC-ROC der beiden Ergebnisse nahezu gleich sind.

fnl
quelle

Diese Grafiken spiegeln nicht die beschriebene Situation wider (diskretisieren sie), die bei jedem Treffer (nach den ersten 10 für Kurve I) Schritte in den ROC-Kurven anzeigt. So würde ROCCH mit dem Convex Hull aussehen. In ähnlicher Weise würde bei PR die Präzision jedes Mal, wenn ein Treffer gefunden wurde, um eine Stufe ansteigen und dann während der Fehlschüsse ab (0,0) abklingen, ohne dass dies vorhergesagt wurde (über dem Schwellenwert), wenn die Präzision an dieser Stelle auf 0 festgelegt wurde (0 / 0) - Die gezeigte Kurve II ist die maximale Präzision, nicht die Präzision bei jedem Schwellenwert (und damit bei jedem Rückruf).

David MW Powers

Dies ist tatsächlich Abb. 7 in der Version des Papiers, das ich gefunden habe. Das Papier interpoliert tatsächlich die PR-Kurve unter Verwendung der ROC-Kurve. Beachten Sie, dass das Dominanzergebnis von der Annahme abhängt, dass der Rückruf ungleich Null ist, was erst der Fall ist, wenn der erste Treffer gefunden wurde, und dass die Präzision (wie im Artikel definiert) bis dahin formal undefiniert ist (0/0).

David MW Powers

Ja, der Mangel an korrekter Diskretisierung ist das Problem (obwohl ein Diagramm wie dieses auftreten kann, wenn es über eine große Anzahl von Läufen gemittelt wird). Das Ergebnis des Papiers ist jedoch weniger aussagekräftig als Sie aufgrund der Unbestimmtheitsprobleme erwarten und nicht so aussagekräftig, wie Sie es erwarten würden, wenn Sie nur das Ergebnis in Bezug auf die Neuskalierung verstehen würden. Ich würde nie PR verwenden, aber ich würde manchmal in ROC skalieren oder PN gleichwertig verwenden.

David MW Powers

Erstens sind die Diagramme von Fig. 7 (11 gegenüber 12) irrelevant - sie sind nicht die abgestuften Diagramme für ein trainiertes System (da positive Beispiele einen reduzierenden Schwellenwert überschreiten), sondern entsprechen Grenzdurchschnitten, wenn sich die Anzahl der VERSCHIEDENEN Systeme der Unendlichkeit nähert. Second Precision und Recall wurden für die Websuche entwickelt und beide ignorieren die (angenommene große) Anzahl von echten Negativen (Prec = TP / PP und Rec = TP / RP). Drittens zeigt das Precision and Recall-Diagramm nur die gegenseitige Abweichung (1 / PP) von der gegenseitigen Häufigkeit (1 / RP) für ein bestimmtes TP-Level (wenn Sie eine Websuche bei korrekten TP-Treffern gestoppt haben).

David MW Powers

OK, also, nachdem ich alle meine Zweifel ausgeräumt habe, denke ich, dass es notwendig ist, den Lesern mitzuteilen, dass ich glaube, dass die Antwort von @DavidMWPowers meiner vorgezogen werden sollte.

Es gibt viele Missverständnisse über die Bewertung. Ein Teil davon stammt aus dem Ansatz des maschinellen Lernens, Algorithmen für Datensätze zu optimieren, ohne dass ein wirkliches Interesse an den Daten besteht.

Im medizinischen Kontext geht es um die tatsächlichen Ergebnisse - wie viele Menschen Sie zum Beispiel vor dem Tod retten. In einem medizinischen Kontext wird die Empfindlichkeit (TPR) verwendet, um zu sehen, wie viele der positiven Fälle korrekt erfasst wurden (Minimierung des Anteils, der als falsches Negativ (FNR) verfehlt wurde), während die Spezifität (TNR) verwendet wird, um zu sehen, wie viele der negativen Fälle korrekt sind eliminiert (Minimierung des Anteils, der als falsch-positiv befunden wird = FPR). Einige Krankheiten haben eine Prävalenz von einer Million. Wenn Sie also immer negativ vorhersagen, haben Sie eine Genauigkeit von 0,999999 - dies wird durch den einfachen ZeroR-Lerner erreicht, der einfach die maximale Klasse vorhersagt. Wenn wir den Rückruf und die Präzision berücksichtigen, um vorherzusagen, dass Sie krankheitsfrei sind, haben wir den Rückruf = 1 und die Präzision = 0,999999 für ZeroR. Na sicher, Wenn Sie + ve und -ve umkehren und vorhersagen, dass eine Person die Krankheit mit ZeroR hat, erhalten Sie Recall = 0 und Precision = undef (da Sie nicht einmal eine positive Vorhersage gemacht haben, aber die Leute definieren Precision häufig als 0 Fall). Beachten Sie, dass Recall (+ ve Recall) und Inverse Recall (-ve Recall) sowie die zugehörigen TPR, FPR, TNR und FNR immer definiert sind, da wir das Problem nur angehen, weil wir wissen, dass es zwei Klassen gibt, die zu unterscheiden sind und die wir bewusst bereitstellen Beispiele von jedem.

Beachten Sie den großen Unterschied zwischen dem Fehlen von Krebs im medizinischen Kontext (jemand stirbt und Sie werden verklagt) und dem Fehlen eines Papiers in einer Websuche (eine gute Chance, dass einer der anderen darauf verweist, wenn es wichtig ist). In beiden Fällen werden diese Fehler als falsche Negative gegenüber einer großen Anzahl von Negativen charakterisiert. Im Fall der Websuche erhalten wir automatisch eine große Anzahl von echten Negativen, weil wir nur eine kleine Anzahl von Ergebnissen anzeigen (z. B. 10 oder 100) und nicht angezeigt werden sollte keine negative Vorhersage sein (es könnte 101 gewesen sein) ), während wir im Krebstestfall für jede Person ein Ergebnis haben und im Gegensatz zur Websuche aktiv das falsch negative Niveau (Rate) kontrollieren.

Daher untersucht ROC den Kompromiss zwischen echten Positiven (im Vergleich zu falschen Negativen als Anteil der echten Positiven) und falschen Positiven (im Vergleich zu echten Negativen als Anteil der echten Negativen). Dies entspricht dem Vergleich von Empfindlichkeit (+ ve Recall) und Spezifität (-ve Recall). Es gibt auch einen PN-Graphen, der genauso aussieht, wenn wir TP gegen FP und nicht TPR gegen FPR zeichnen - aber da wir den Plot zum Quadrat machen, ist der einzige Unterschied, welche Zahlen wir auf die Skalen setzen. Sie sind durch die Konstanten TPR = TP / RP, FPR = TP / RN verbunden, wobei RP = TP + FN und RN = FN + FP die Anzahl der reellen Positiven und reellen Negativen im Datensatz sind und umgekehrt PP = TP + FP und PN vorspannt = TN + FN sind die Häufigkeit, mit der wir Positiv oder Negativ vorhersagen. Man beachte, dass wir rp = RP / N und rn = RN / N die Prävalenz von positivem resp. negativ und pp = PP / N und rp = RP / N die Vorspannung auf positiv bzw.

Wenn wir Sensitivität und Spezifität summieren oder mitteln oder die Fläche unter der Kompromisskurve betrachten (entspricht ROC, indem wir nur die x-Achse umkehren), erhalten wir dasselbe Ergebnis, wenn wir vertauschen, welche Klasse + ve und + ve ist. Dies gilt NICHT für Precision and Recall (wie oben mit Krankheitsprognose von ZeroR dargestellt). Diese Willkür ist ein wesentlicher Mangel an Präzision, Rückruf und deren Durchschnittswerten (ob arithmetisch, geometrisch oder harmonisch) und Kompromissgraphen.

Die PR-, PN-, ROC-, LIFT- und andere Diagramme werden aufgezeichnet, wenn Parameter des Systems geändert werden. Dieses klassische Zeichnen von Punkten für jedes einzelne trainierte System, wobei häufig ein Schwellenwert erhöht oder verringert wird, um den Punkt zu ändern, an dem eine Instanz als positiv oder negativ eingestuft wird.

Manchmal können die aufgezeichneten Punkte Mittelwerte über (Ändern von Parametern / Schwellenwerten / Algorithmen von) Gruppen von Systemen sein, die auf die gleiche Weise trainiert wurden (jedoch unterschiedliche Zufallszahlen oder Stichproben oder Ordnungen verwenden). Hierbei handelt es sich um theoretische Konstrukte, die eher über das durchschnittliche Verhalten der Systeme als über deren Leistung bei einem bestimmten Problem Auskunft geben. Die Kompromissdiagramme sollen uns bei der Auswahl des richtigen Betriebspunkts für eine bestimmte Anwendung (Datensatz und Ansatz) helfen. Hierher bezieht ROC seinen Namen (Receiver Operating Characteristics zielt darauf ab, die empfangenen Informationen im Sinne von Informiertheit zu maximieren).

Überlegen wir, gegen was Recall oder TPR oder TP geplottet werden können.

TP vs FP (PN) - sieht genauso aus wie der ROC-Plot, nur mit unterschiedlichen Zahlen

TPR vs FPR (ROC) - TPR gegen FPR mit AUC bleibt unverändert, wenn +/- umgekehrt werden.

TPR vs TNR (alt ROC) - Spiegelbild von ROC als TNR = 1-FPR (TN + FP = RN)

TP vs PP (LIFT) - X incs für positive und negative Beispiele (nichtlineare Dehnung)

TPR vs pp (alt LIFT) - sieht genauso aus wie LIFT, nur mit unterschiedlichen Zahlen

TP vs 1 / PP - sehr ähnlich zu LIFT (aber invertiert mit nichtlinearer Dehnung)

TPR vs 1 / PP - sieht genauso aus wie TP vs 1 / PP (verschiedene Zahlen auf der y-Achse)

TP vs TP / PP - ähnlich, aber mit Ausdehnung der x-Achse (TP = X -> TP = X * TP)

TPR vs TP / PP - sieht gleich aus, aber mit unterschiedlichen Nummern auf den Achsen

Der letzte ist Recall vs Precision!

Beachten Sie, dass in diesen Diagrammen alle Kurven, die andere Kurven dominieren (an allen Punkten besser oder mindestens so hoch), nach diesen Transformationen weiterhin dominieren. Da Dominanz an jedem Punkt "mindestens so hoch" bedeutet, hat die höhere Kurve auch eine "mindestens so hohe" Fläche unter der Kurve (AUC), da sie auch die Fläche zwischen den Kurven einschließt. Das Gegenteil ist nicht der Fall: Wenn sich Kurven kreuzen, im Gegensatz zu Berührungen, gibt es keine Dominanz, aber eine AUC kann immer noch größer sein als die andere.

Bei allen Transformationen wird ein bestimmter Teil des ROC- oder PN-Diagramms auf unterschiedliche (nicht lineare) Weise reflektiert und / oder gezoomt. Allerdings hat nur ROC die gute Interpretation von Fläche unter der Kurve (Wahrscheinlichkeit, dass ein Positiver höher eingestuft wird als ein Negativer - Mann-Whitney U-Statistik) und Abstand über der Kurve (Wahrscheinlichkeit, dass eine informierte Entscheidung getroffen wird, anstatt zu raten - Youden J Statistik als dichotome Form der Informiertheit).

Im Allgemeinen muss die PR-Kompromisskurve nicht verwendet werden, und Sie können einfach in die ROC-Kurve zoomen, wenn Details erforderlich sind. Die ROC-Kurve hat die einzigartige Eigenschaft, dass die Diagonale (TPR = FPR) den Zufall darstellt, dass der Abstand über der Zufallslinie (DAC) die Informiertheit oder die Wahrscheinlichkeit einer informierten Entscheidung darstellt und der Bereich unter der Kurve (AUC) die Rangfolge oder die Wahrscheinlichkeit einer korrekten paarweisen Rangfolge. Diese Ergebnisse gelten nicht für die PR-Kurve, und die AUC wird für höhere Recall- oder TPR-Werte wie oben erläutert verzerrt. PR AUC größer ist nicht impliziert, dass die ROC-AUC größer ist und somit keine höhere Rangordnung impliziert (Wahrscheinlichkeit, dass eingestufte +/- Paare korrekt vorhergesagt werden - dh wie oft + ves über -ves vorhergesagt werden), und impliziert keine höhere Informiertheit (Wahrscheinlichkeit einer informierten Vorhersage statt eine zufällige Vermutung, nämlich wie oft es weiß, was es tut, wenn es eine Vorhersage macht).

Sorry - keine Grafiken! Wenn jemand Grafiken hinzufügen möchte, um die obigen Transformationen zu veranschaulichen, wäre das großartig! Ich habe in meinen Artikeln einige über ROC, LIFT, BIRD, Kappa, F-Measure, Informiertheit usw., aber sie werden nicht so dargestellt, obwohl es in https Abbildungen von ROC vs LIFT vs BIRD vs RP gibt : //arxiv.org/pdf/1505.00401.pdf

UPDATE: Um nicht zu versuchen, in überlangen Antworten oder Kommentaren vollständige Erklärungen abzugeben, habe ich in einigen meiner Arbeiten das Problem mit Precision vs Recall tradeoffs inc. "Entdeckt". F1, Informiertheit ableiten und dann die Beziehungen mit ROC, Kappa, Signifikanz, DeltaP, AUC usw. "erkunden". Dies ist ein Problem, mit dem einer meiner Schüler vor 20 Jahren konfrontiert wurde (Entwisle), und viele weitere haben seitdem dieses reale Beispiel gefunden Ihre eigenen, bei denen es empirische Beweise dafür gab, dass der R / P / F / A-Ansatz den Lernenden in die falsche Richtung führte, während die Informiertheit (oder Kappa oder Korrelation in geeigneten Fällen) sie in die richtige Richtung führte - jetzt über Dutzende von Feldern. Es gibt auch viele gute und relevante Artikel von anderen Autoren über Kappa und ROC, aber wenn Sie Kappas im Vergleich zu ROC AUC im Vergleich zu ROC Height (Informedness oder Youden) verwenden s J) wird in den 2012 von mir aufgelisteten Papieren klargestellt (viele der wichtigen Papiere anderer werden darin zitiert). Der 2003 Bookmaker Paper leitet zum ersten Mal eine Formel für Informiertheit für den Fall von mehreren Klassen ab. Das Papier von 2013 leitet eine mehrklassige Version von Adaboost ab, die zur Optimierung der Informiertheit angepasst wurde (mit Links zu dem modifizierten Weka, das es hostet und ausführt).

Verweise

1998 Die derzeitige Verwendung von Statistiken bei der Auswertung von NLP-Parsern. J Entwisle, DMW Powers - Ergebnisse der gemeinsamen Konferenzen zu neuen Methoden der Sprachverarbeitung: 215-224 https://dl.acm.org/citation.cfm?id=1603935 Zitiert von 15

2003 Recall & Precision gegen The Bookmaker. DMW Powers - Internationale Konferenz für Kognitionswissenschaft: 529-534 http://dspace2.flinders.edu.au/xmlui/handle/2328/27159 Zitiert von 46

2011 Bewertung: von Präzision, Rückruf und F-Messung bis ROC, Informiertheit, Markiertheit und Korrelation. DMW Powers - Journal of Machine Learning Technology 2 (1): 37-63. http://dspace2.flinders.edu.au/xmlui/handle/2328/27165 Zitiert bis 1749

2012 Das Problem mit Kappa. DMW Powers - Verfahren der 13. Konferenz der Europäischen ACL: 345-355 https://dl.acm.org/citation.cfm?id=2380859 Zitiert von 63

2012 ROC-ConCert: ROC-basierte Messung von Konsistenz und Sicherheit. DMW Powers - Frühjahrskongress für Technik und Technologie (S-CET) 2: 238-241 http://www.academia.edu/download/31939951/201203-SCET30795-ROC-ConCert-PID1124774.pdf Zitiert von 5

2013 ADABOOK & MULTIBOOK:: Adaptives Boosten mit Zufallskorrektur. DMW Powers- ICINCO Internationale Konferenz für Informatik in Steuerung, Automatisierung und Robotik http://www.academia.edu/download/31947210/201309-AdaBook-ICINCO-SCITE-Harvard-2upcor_poster.pdf

https://www.dropbox.com/s/artzz1l3vozb6c4/weka.jar (goes into Java Class Path)
https://www.dropbox.com/s/dqws9ixew3egraj/wekagui   (GUI start script for Unix)
https://www.dropbox.com/s/4j3fwx997kq2xcq/wekagui.bat  (GUI shortcut on Windows)

Zitiert von 4

David MW Powers
quelle

> "Die Fläche unter der Kurve repräsentiert die Rangfolge oder die Wahrscheinlichkeit einer korrekten paarweisen Rangfolge" Ich denke, genau da sind wir uns nicht einig - die ROC zeigt nur die Rangfolgequalität im Diagramm . Bei der AUC PR handelt es sich jedoch um eine einzelne Zahl, die mir sofort mitteilt, ob welche Rangfolge vorzuziehen ist (dh, dass das Ergebnis I dem Ergebnis II vorzuziehen ist). Das AUC ROC hat diese Eigenschaft nicht.

27.

Das Dominierungsergebnis fnl cites bedeutet, dass WHEN DEFINED, wenn eine Kurve in ROC dominiert, dies in PR und umgekehrt der Fall ist, und dies bedeutet, dass es in beiden Fällen auch eine höhere Fläche gibt und somit kein qualitativer Unterschied zwischen ROC und PR AUC besteht. Das Zitat über Rang (Mann-Whitney U) ist ein gut etabliertes quantitatives Ergebnis bezüglich der Wahrscheinlichkeit (Teil eines Signifikanztests), das unabhängig von der ROC empfohlen wurde, aber später als ROC AUC befunden wurde. Ebenso wurde die Informiertheit ursprünglich unabhängig definiert, und später wurde nachgewiesen, dass sie der Höhe des Arbeitspunkts der Republik China entspricht. PR hat keine solchen Ergebnisse.

David MW Powers

Wie ich bereits sagte, handelt es sich hier nur um eine Skalierung unter Dominanzbedingungen ("viel größer", da, wie ich ausführlich erläutere, mit einer großen Zahl multipliziert), aber unter Nicht-Dominanzbedingungen ist AUC PR irreführend und AUC ROC die einzige das hat eine angemessene probabilistische Interpretation (Mann-Whitney U oder Rangfolge), wobei der einzelne Betriebspunktfall Gini entspricht (oder gleichwertig Youdens J oder Informiertheit nach Skalierung).

David MW Powers

Betrachten wir der Einfachheit halber den AUC für einen einzelnen Arbeitspunkt (SOC), dann ist Gini-Koeffizient = AUC = (TP / RP + TN / RN) / 2 und Informiertheit = Youden J = TP / RP + TN / RN - 1 = Empfindlichkeit + Spezifität -1 = TPR + TNF -1 = Rückruf + Inverser Rückruf - 1 usw. Die Maximierung ist entweder gleichwertig, aber letztere ist die Wahrscheinlichkeit einer informierten Entscheidung (absichtlich die falsche, wenn -ve). Wenn sowohl RN als auch TN mit TN >> FP unendlich werden, dann TN / RN -> 1 und annulliert so Informedness = Recall in den von Ihnen zitierten Fällen. Wenn stattdessen die große Klasse RP und TP >> FN ist, dann ist TP / RP -> 1 und Informiertheit = Inverser Rückruf. Siehe refs.

David MW Powers

Dies ist eine sehr hilfreiche Antwort von David Powers. Aber verzeihen Sie meine Unwissenheit, wenn Sie sagen: "Im Allgemeinen ist es nicht erforderlich, die PR-Kompromisskurve zu verwenden, und Sie können einfach in die ROC-Kurve zoomen, wenn Details erforderlich sind." Detail darüber, was du meinst? Bedeutet dies, dass ich eine ROC-Kurve in einem stark unausgeglichenen Fall irgendwie verwenden kann? "Wenn Sie dem FPR oder TPR ein höheres Gewicht geben, erhalten Sie einen AUC-ROC-Score mit größeren Ergebnisunterschieden, ein hervorragender Punkt!" Wie mache ich das dann mit meinem ROC?

Christopher John