Ich bin daran interessiert, verschiedene Metriken für Ranking-Algorithmen zu untersuchen. Einige davon sind auf der Wikipedia-Seite Lernen, Ranglisten zu erstellen aufgeführt, darunter:
• Mittlere durchschnittliche Genauigkeit (MAP);
• DCG und NDCG;
• Precision @ n, NDCG @ n, wobei "@n" angibt, dass die Metriken nur in den ersten n Dokumenten ausgewertet werden.
• Mittlerer gegenseitiger Rang;
• Kendalls Tau
• Rho von Spearman
• Erwarteter gegenseitiger Rang
• Yandex's pfound
Es ist mir jedoch nicht klar, welche Vor- und Nachteile die beiden haben oder wann Sie sich für einen anderen entscheiden können (oder was es bedeuten würde, wenn ein Algorithmus einen anderen Algorithmus in NDGC übertrifft, aber bei der Bewertung mit MAP schlechter ist).
Kann ich irgendwo mehr über diese Fragen erfahren?
quelle
In vielen Fällen, in denen Sie Ranking-Algorithmen anwenden (z. B. Google-Suche, Amazon-Produktempfehlung), erhalten Sie Hunderte und Tausende von Ergebnissen. Der Benutzer möchte nur die Top ~ 20 oder so sehen. Der Rest ist also völlig irrelevant.
Wenn dies für Ihre Anwendung zutrifft, hat dies direkte Auswirkungen auf die Metrik:
Top-k-Klassifikationsgenauigkeit für das Ranking
Für die Grundwahrheit könnte es schwierig sein, eine Reihenfolge zu definieren. Und wenn Sie nur relevant / nicht relevant unterscheiden, dann befinden Sie sich tatsächlich in einem Einstufungsfall!
Die Top-n-Genauigkeit ist eine Metrik zur Klassifizierung. Siehe Was ist die Definition der Top-n-Genauigkeit? .
Präzision @ k
Was es dir sagt:
Rückruf @ k
Was es bedeutet:
quelle
Vor kurzem musste ich eine Metrik für die Bewertung von Multilabel-Ranking-Algorithmen auswählen und kam zu diesem Thema, das wirklich hilfreich war. Hier sind einige Ergänzungen zu stpks Antwort, die hilfreich waren, um eine Wahl zu treffen.
Einzelheiten
Konzentrieren wir uns auf die durchschnittliche Genauigkeit (Average Precision, AP), da die mittlere durchschnittliche Genauigkeit (Mean Average Precision, MAP) nur der Durchschnitt der APs bei mehreren Abfragen ist. AP ist für Binärdaten korrekt als der Bereich unter der Präzisionsrückrufkurve definiert, der als Durchschnitt der Präzisionen bei jedem positiven Element umgeschrieben werden kann. (siehe den Wikipedia-Artikel über MAP ) Eine mögliche Annäherung besteht darin, ihn als Durchschnitt der Präzisionen bei jedem zu definierenArtikel. Leider verlieren wir die nette Eigenschaft, dass die negativen Beispiele am Ende der Liste keinen Einfluss auf den Wert von AP haben. (Dies ist besonders traurig, wenn es um die Bewertung einer Suchmaschine mit weitaus mehr negativen Beispielen als positiven Beispielen geht. Eine mögliche Problemumgehung besteht darin, die negativen Beispiele auf Kosten anderer Nachteile zu subsampeln, z. B. werden die Abfragen mit positiveren Elementen gleichermaßen schwierig zu den Abfragen mit wenigen positiven Beispielen.)
Andererseits hat diese Annäherung die nette Eigenschaft, dass sie sich gut auf den Mehrfachetikettenfall verallgemeinert. Tatsächlich kann im binären Fall die Genauigkeit an Position k auch als durchschnittliche Relevanz vor Position k interpretiert werden, wobei die Relevanz eines positiven Beispiels 1 und die Relevanz eines negativen Beispiels 0 beträgt. Diese Definition erstreckt sich ganz natürlich auf der Fall, in dem es mehr als zwei verschiedene Relevanzebenen gibt. In diesem Fall kann AP auch als Mittelwert der Durchschnittswerte der Relevanzen an jeder Position definiert werden.
woK ist die Anzahl der zu bewertenden Gegenstände. Jetzt haben wir diesen Ausdruck und können ihn mit dem DCG vergleichen. In der Tat ist DCG auch ein gewichteter Durchschnitt der eingestuften Relevanzen. Die Gewichte sind:
Aus diesen beiden Ausdrücken können wir ableiten, dass - AP die Dokumente von 1 bis 0 wiegt. - DCG die Dokumente unabhängig von der Gesamtzahl der Dokumente wiegt.
In beiden Fällen kann das Gesamtgewicht des Positivs vernachlässigbar sein, wenn es viel irrelevantere Beispiele als relevante Beispiele gibt. Für AP besteht eine Problemumgehung darin, die negativen Stichproben zu unterbemustern. Ich bin mir jedoch nicht sicher, wie ich den Anteil der Unterabtastung wählen und ob dies von der Abfrage oder der Anzahl der positiven Dokumente abhängen soll. Für DCG können wir es bei k schneiden, aber die gleichen Fragen stellen sich.
Ich würde mich freuen, mehr darüber zu erfahren, wenn hier jemand an dem Thema arbeitet.
quelle