Stellen Sie sich ein Szenario vor, in dem Sie mit KnownLabel Matrix und PredictedLabel Matrix ausgestattet sind. Ich möchte die Güte der PredictedLabel-Matrix mit der KnownLabel-Matrix vergleichen.
Die Herausforderung hierbei ist jedoch, dass die KnownLabel-Matrix nur wenige Zeilen mit einer 1 und die anderen wenigen Zeilen mit vielen Einsen hat (diese Instanzen sind mehrfach beschriftet). Ein Beispiel für die KnownLabel-Matrix ist unten angegeben.
A =[1 0 0 0
0 1 0 0
0 1 1 0
0 0 1 1
0 1 1 1]
In der obigen Matrix sind Dateninstanz 1 und 2 Einzeletikettendaten, Dateninstanz 3 und 4 sind Zweietikettendaten und Dateninstanz 5 sind die Dreietikettendaten.
Jetzt habe ich PredictedLabel Matrix der Dateninstanz unter Verwendung eines Algorithmus.
Ich möchte verschiedene Maße kennen, mit denen die Güte der PredictedLabel-Matrix gegenüber der KnownLabel-Matrix gemessen werden kann.
Ich kann mir Frobeinus-Normunterschiede zwischen ihnen als eine der Maßnahmen vorstellen. Aber ich suche nach dem Maß wie Genauigkeit
Wie können wir hier die für mehrere Dateninstanzen definieren ?
Antworten:
(1) gibt einen schönen Überblick:
Die Wikipedia-Seite n Multi-Label-Klassifizierung enthält auch einen Abschnitt zu den Bewertungsmetriken.
Ich möchte eine Warnung hinzufügen, die besagt, dass die Genauigkeit in der Multilabel-Einstellung nicht eindeutig ist: Sie kann sich entweder auf das genaue Übereinstimmungsverhältnis oder den Hamming-Score beziehen (siehe diesen Beitrag ). Leider verwenden viele Artikel den Begriff "Genauigkeit".
(1) Sorower, Mohammad S. " Eine Literaturübersicht über Algorithmen für das Lernen mit mehreren Bezeichnungen. " Oregon State University, Corvallis (2010).
quelle
accuracy
Wie gehen Sie für das Maß elegant mit Fällen um, in denen der Nenner steht|Y + Z| == 0
?Die Hamming-Loss-Funktion ist wahrscheinlich die am häufigsten verwendete Loss-Funktion in der Mehrfachetikettenklassifizierung.
Werfen Sie einen Blick auf empirische Studien zur Multi-Label-Klassifizierung und Multi-Label-Klassifizierung: Eine Übersicht , in denen beide Aspekte erörtert werden.
quelle
Correctly Predicted
ist der Schnittpunkt zwischen der Menge der vorgeschlagenen Beschriftungen und der Menge der erwarteten Beschriftungen.Total Instances
ist die Vereinigung der obigen Mengen (keine doppelte Anzahl).Geben Sie also ein einzelnes Beispiel an, in dem Sie Klassen vorhersagen
A, G, E
und der TestfallE, A, H, P
die richtigen hat, mit denen Sie endenAccuracy = Intersection{(A,G,E), (E,A,H,P)} / Union{(A,G,E), (E,A,H,P)} = 2 / 5
quelle