Warum sollte der normalisierte Gini-Score anstelle der AUC als Bewertung verwendet werden?

14

Kaggles Wettbewerb Die Safe Driver Prediction von Porto Seguro verwendet den normalisierten Gini-Score als Bewertungsmaßstab. Dies hat mich neugierig gemacht, welche Gründe für diese Entscheidung sprechen . Was sind die Vorteile der Verwendung eines normalisierten Gini-Scores anstelle der gebräuchlichsten Metriken wie AUC für die Auswertung?

xboard
quelle
1
Die Kaggle-Website hatte die Antwort: "Es gibt eine maximal erreichbare Fläche für ein" perfektes "Modell, da nicht alle positiven Beispiele sofort auftreten. Wir verwenden den normalisierten Gini-Koeffizienten, indem wir den Gini-Koeffizienten Ihres Modells durch den Gini-Koeffizienten dividieren des perfekten Modells. " aber es ist nicht mehr verfügbar. webcache.googleusercontent.com/…
Sextus Empiricus
1
Gini ist also nur in einem anderen Maßstab auc. Oder werden Auc und Gini auf verschiedene Kurven angewendet? Das ist mir als Nichtfachmann im maschinellen Lernen nicht klar. Die Frage ist darüber nicht sehr klar.
Sextus Empiricus

Antworten:

3

Ich glaube, dass der Gini-Score nur eine Neuformulierung der AUC ist: Warum dies anstelle der allgemein verwendeten AUC verwendet wird, ist der einzige Grund, an den ich denken kann, dass es sich um eine zufällige Vorhersage handelt ergibt einen Gini-Score von 0 im Gegensatz zur AUC von 0,5.

Gichnich=2×EINUC-1
Miguel
quelle
6
Außerdem setzt die Verwendung des Gini-Koeffizienten die Leistung eines zufälligen Klassifikators auf eine Punktzahl von 0 ... die Normalisierung "verbessert" das andere Ende der Skala und macht, dass die Punktzahl eines perfekten Klassifikators gleich 1 ist und nicht ein erreichbares Maximum AUC <1. Die Verbesserung ist nur relativ, je nachdem, ob Sie eine intuitivere Skala für gut halten oder nicht. Abgesehen von dieser einfacheren Interpretation könnten Sie argumentieren, dass dies (die Normalisierung) auch die Verallgemeinerung und den Vergleich verschiedener Datensätze verbessert.
Sextus Empiricus
Warum sollte die maximal erreichbare AUC kleiner als 1 sein, und ich sehe auch nicht, wie Gini sie auf 1 setzt?
rep_ho
Es hängt davon ab, welche Art von Kurve sie den Gini-Koeffizienten berechnen. Vielleicht verwenden sie etwas anderes als eine ROC-Kurve (deren maximale AUC in der Tat 1 wäre). Angesichts der Wörter auf der kaggle-Website erscheint es plausibel, dass die maximale AUC nicht 1 ist:> "Wir bewegen uns dann von links nach rechts und fragen:" Wie viel von der kumulierten Antwort haben Sie in x% der Daten ganz links gesammelt? "
Sextus Empiricus
Beispiel: bayesserver.com/docs/charts/lift-chart
Sextus Empiricus