Gemeinsame Modellvalidierungsstatistiken wie der Kolmogorov-Smirnov-Test (KS), der AUROC- und der Gini-Koeffizient hängen alle funktional zusammen. Meine Frage hat jedoch damit zu tun, zu beweisen, wie diese alle zusammenhängen. Ich bin gespannt, ob mir jemand helfen kann, diese Beziehungen zu beweisen. Ich konnte online nichts finden, aber ich bin wirklich interessiert daran, wie die Beweise funktionieren. Ich kenne zum Beispiel Gini = 2AUROC-1, aber mein bester Beweis besteht darin, auf ein Diagramm zu zeigen. Ich interessiere mich für formale Beweise. Jede Hilfe wäre sehr dankbar!
11
Antworten:
Der Wikipedia-Eintrag für die Betriebseigenschaft des Empfängers verweist auf dieses Papier für das Ergebnis Gini = 2AUROC-1: Hand, David J.; und Till, Robert J. (2001); Eine einfache Verallgemeinerung des Bereichs unter der ROC-Kurve für Klassifizierungsprobleme mehrerer Klassen, Machine Learning, 45, 171–186. Aber ich fürchte, ich habe keinen einfachen Zugang dazu, um zu sehen, wie nahe es dem kommt, was Sie wollen.
quelle
Laut der Arbeit (Adeodato, PJ L und Melo, SB 2016) besteht eine lineare Beziehung zwischen der Fläche unter der KS-Kurve (AUKS) und der Fläche unter der ROC-Kurve (AUROC), nämlich:
Der Äquivalenznachweis ist im Papier enthalten.
quelle
Das Ergebnis Gini = 2 * AUROC-1 ist schwer zu beweisen, da es nicht unbedingt wahr ist. Der Wikipedia-Artikel über die Betriebskennlinie des Empfängers gibt das Ergebnis als Definition von Gini an, und der Artikel von Hand und Till (zitiert von nealmcb) besagt lediglich, dass die grafische Definition von Gini unter Verwendung der ROC-Kurve zu dieser Formel führt.
Der Haken ist, dass diese Definition von Gini in der Gemeinschaft des maschinellen Lernens und des Ingenieurwesens verwendet wird, aber eine andere Definition von Ökonomen und Demografen verwendet wird (zurück zu Ginis Originalarbeit). Der Wikipedia-Artikel über den Gini-Koeffizienten beschreibt diese Definition basierend auf der Lorenz-Kurve.
Ein Artikel von Schechtman & Schechtman (2016) beschreibt die Beziehung zwischen AUC und der ursprünglichen Gini-Definition. Um jedoch zu sehen, dass sie nicht exakt gleich sein können, nehmen wir an, dass der Anteil der Ereignisse p ist und wir einen perfekten Klassifikator haben. Die ROC-Kurve verläuft dann durch die obere linke Ecke und AUCROC ist 1. Die (gespiegelte) Lorenz-Kurve verläuft jedoch von (0,0) nach ( p , 1) nach (1,1), und der Gini der Ökonomen ist 1 - p / 2, was fast, aber nicht genau 1 ist.
Wenn Ereignisse selten sind, ist die Beziehung Gini = 2 * AUROC-1 unter Verwendung der ursprünglichen Definition von Gini nahezu, aber nicht genau wahr. Die Beziehung ist nur dann genau wahr, wenn Gini neu definiert wird, um sie wahr zu machen.
quelle