Ich führte eine 10-fache Kreuzvalidierung mit verschiedenen binären Klassifizierungsalgorithmen mit demselben Datensatz durch und erhielt sowohl mikro- als auch makromittelte Ergebnisse. Es sollte erwähnt werden, dass dies ein Mehrfachetiketten-Klassifizierungsproblem war.
In meinem Fall werden echte Negative und echte Positive gleich gewichtet. Das bedeutet, dass die korrekte Vorhersage von echten Negativen ebenso wichtig ist wie die korrekte Vorhersage von echten Positiven.
Die mikro-gemittelten Kennzahlen sind niedriger als die makro-gemittelten. Hier sind die Ergebnisse eines neuronalen Netzwerks und einer Support-Vektor-Maschine:
Ich habe mit demselben Datensatz auch einen Prozentsatz-Split-Test mit einem anderen Algorithmus durchgeführt. Die Ergebnisse waren:
Ich würde es vorziehen, den Prozentsatz-Split-Test mit den makro-gemittelten Ergebnissen zu vergleichen, aber ist das fair? Ich glaube nicht, dass die makro-gemittelten Ergebnisse verzerrt sind, weil echte Positive und echte Negative gleich gewichtet werden, aber ich frage mich, ob dies dasselbe ist wie der Vergleich von Äpfeln mit Orangen?
AKTUALISIEREN
Basierend auf den Kommentaren werde ich zeigen, wie die Mikro- und Makro-Durchschnittswerte berechnet werden.
Ich habe 144 Labels (die gleichen wie Features oder Attribute), die ich vorhersagen möchte. Präzision, Rückruf und F-Maß werden für jedes Etikett berechnet.
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
Betrachtet man ein binäres Bewertungsmaß B (tp, tn, fp, fn), das auf der Grundlage der wahren Positive (tp), wahren Negative (tn), falschen Positive (fp) und falschen Negative (fn) berechnet wird. Die Makro- und Mikro-Durchschnittswerte einer bestimmten Kennzahl können wie folgt berechnet werden:
Mit diesen Formeln können wir die Mikro- und Makrodurchschnitte wie folgt berechnen:
Also addieren mikro-gemittelte Maße alle tp, fp und fn (für jedes Etikett), woraufhin eine neue binäre Bewertung durchgeführt wird. Makro-gemittelte Kennzahlen addieren alle Kennzahlen (Präzision, Rückruf oder F-Kennzahl) und dividieren durch die Anzahl der Beschriftungen, was eher einem Durchschnitt entspricht.
Nun ist die Frage, welche man verwenden soll?
Antworten:
Wenn Sie der Meinung sind, dass alle Beschriftungen mehr oder weniger gleich groß sind (ungefähr die gleiche Anzahl von Instanzen haben), verwenden Sie any.
Wenn Sie der Meinung sind, dass es Beschriftungen mit mehr Instanzen als andere gibt, und wenn Sie Ihre Metrik auf die am häufigsten verwendeten ausrichten möchten , verwenden Sie Mikromedien .
Wenn Sie der Meinung sind, dass es Beschriftungen mit mehr Instanzen als andere gibt und Sie Ihre Metrik auf die am wenigsten bevölkerten konzentrieren möchten (oder zumindest nicht auf die am meisten bevölkerten), verwenden Sie Macromedia .
Wenn das Mikromedienergebnis erheblich niedriger ist als das Makromedienergebnis, liegt eine grobe Fehlklassifizierung der am häufigsten verwendeten Etiketten vor, während Ihre kleineren Etiketten wahrscheinlich korrekt klassifiziert sind. Wenn das Makromedienergebnis erheblich niedriger ist als das Mikromedienergebnis, bedeutet dies, dass Ihre kleineren Etiketten schlecht klassifiziert sind, während Ihre größeren wahrscheinlich richtig klassifiziert sind.
Wenn Sie sich nicht sicher sind, was Sie tun sollen, fahren Sie mit den Vergleichen für Mikro- und Makro-Durchschnitt fort :)
Dies ist ein gutes Papier zu diesem Thema.
quelle